相关文章

你所未知的翻译世界 机器翻译技术助力日本知识产权发展 mask

你所未知的翻译世界

机器翻译技术助力日本知识产权发展

2019.10.30 数字解决方案
本文看点
  • 在专利翻译需求爆炸式增长的背景下,机器翻译担负起重任
  • 完美融合多种机器翻译引擎,实现高质量、高速度的翻译目标
  • 持续优化机器翻译,开发支持日英、中日、韩日等多语种翻译

随着经济全球化的发展,国际知识产权战略的重要性日益突显。我们不仅要将日本国内的专利信息传递给全世界,还要把握世界其他国家的专利申请情报。各类专利文献的精确翻译不可或缺,专利文献的翻译量也由此猛增。然而,传统人力翻译在成本和速度方面的弊端使得其难以胜任海量翻译的重任。为解决这一难题,人们将目光移向了机器翻译。

2019年5月,日本专利厅专利信息公开平台开始启用全新“机器翻译系统”,该机器翻译系统采用强大的机器翻译引擎。这一引擎由日本情报通信研究机构(以下简称“NICT”)主导研发,东芝数字解决方案株式会社长期积累的自然语言处理技术也给予了支持

为实现快速、准确、自然的翻译目标――在开发过程中,只有将人工智能的快速学习与技术人员的知识经验融合在一起,才能突破重重技术难关。

东芝数字解决方案株式会社 ICT解决方案事业部 政府部门解决方案技术第二部 三宅悠纪子 信息通信研究机构(NICT)高级语音翻译研究开发推进中心 副主任 隅田英一郎 日本专利厅 总务部总务科专利信息室 主任助理 目黑光司 东芝数字解决方案株式会社 ICT解决方案事业部 政府部门营业第四部 西本俊之

东芝数字解决方案株式会社 ICT解决方案事业部 政府部门解决方案技术第二部 三宅悠纪子
信息通信研究机构(NICT)高级语音翻译研究开发推进中心 副主任 隅田英一郎
日本专利厅 总务部总务科专利信息室 主任助理 目黑光司
东芝数字解决方案株式会社 ICT解决方案事业部 政府部门营业第四部 西本俊之

一、混合型机器翻译 让专利文献翻译工作更简单

在保护日本科技成果,促进科技创新方面,专利审查工作发挥着极其重要的作用。专利审查员在审查专利过程中,需要查明新技术与现有技术之间的区别,并合理设定专利权。

日本专利厅总务部信息室主任助理——目黑光司先生参与了机器翻译项目的全过程,包括系统采购到实施监测。据他讲,日本专利厅的使命是“执行全球最快、最高质量的审查工作”。

“我们专利厅的业务工作主要分两大块:一、调查海量增长的国外专利技术文献;二、将审查结果发送到国外,帮助日本企业顺利取得国外专利授权。”(目黑)

“为完成这些业务,我们必须将日语审查结果翻译成英语,并将世界各国的专利文献翻译成日语。在此需求上,我们更新了专利信息平台(J-PlatPat),并着手构建新型机器翻译系统。为实现“全球最快、最高质量审查”的目标,新型机器翻译系统中翻译速度和翻译品质是最重要的两点

全球专利申请数量变化统计

全球专利申请数量变化统计

通过公开竞标,东芝数字解决方案株式会社(东芝集团旗下公司,主要业务是采用系统集成、人工智能和物联网等手段,为用户提供服务解决方案)成功拿下这笔订单。该公司的西本俊之和三宅悠纪子参与了从招标、提案到正式发布的全过程,西本俊之担任营业负责人,三宅悠纪子担任翻译品质的技术负责人。

“东芝长期致力于机器翻译技术开发工作。主要采用基于规则的机器翻译引擎1(以下简称RBMT)。针对此次中标的机器翻译系统项目,我们首先考虑的是,要与现有开发成果衔接起来。因此,我们采用了RBMT提案。然而,在即将采购之时,我们发现RBMT不能达到翻译质量要求,到底是什么原因呢?……我们甚至考虑过放弃这一提案。我无意中想起曾经与NICT合作的往事,当时,NICT将翻译引擎技术转让给了我们,我还特地去拜访了隅田先生。”(西本)
1 基于规则的机器翻译引擎:基于辞典和语法知识的机器翻译。此外,还有基于海量对译数据(双语对照格式数据)的统计机器翻译、基于深度学习技术的神经机器翻译。

NICT在专利文件机器翻译领域的研究成果颇丰,且与日本专利厅保持着良好的合作关系。除此以外,NICT还拥有数亿条世界最大的专利文献数据对译,并依托海量对译数据开发了先进的神经机器翻译系统(以下简称“NMT”)。NICT科研负责人——隅田欣然接受了西本的咨询请求,两人开始就技术转让问题进行交流。

“为了普及翻译技术,NICT一向对外提供本研究所开发的翻译引擎和程序。虽说这是NICT的使命,但并不代表我们可以向任何企业转让翻译技术。接受技术转让的企业必须有坚实的技术后盾作为保障,否则,我们苦心研发的翻译技术将无法得到普及。

在这方面,东芝拥有丰富的机器翻译开发经验,而我们在统计机器翻译(以下简称“SMT”)技术转让方面亦拥有众多实际案例。关于专利领域机器翻译技术转让问题的讨论,我当然愿意参与。”(隅田)

东芝部分翻译引擎介绍

东芝部分翻译引擎介绍
2 BLEU值:将正确译文与机器翻译结果进行比较,根据相似度对翻译质量进行评估的指标。得分从0%到100%。得分越高,翻译质量越高。

首先,东芝团队列出了翻译引擎备选名单,其中包括RBMT、SMT、NMT等7种翻译引擎,再征求NICT方面的意见和建议,选出最适合专利文档的翻译引擎

使用各个引擎翻译1000多个文档,评估每种引擎的精度以及在文章翻译方面的优点和缺点。只有自己亲眼查看和对比这些翻译结果,才能够选出最佳方案。”(西本)

“随着招标提案工作的推进,为了实现精准自然的翻译效果,我们不断优化机器翻译系统。

比如,RBMT适用于文档前半部分和最尾端,NMT适用于文档中间部分。基于这种情况,要实现高质量专利文档翻译,需要构建复杂的翻译引擎。事实证明,全部使用单一翻译引擎,是无法确保翻译质量的。”(三宅)

每种引擎翻译1000多个文档,每个文档的翻译稿件都需要仔细检查。通过这种笨拙的测试方法,我们最终发现:以NMT为主,合理使用RBMT和SMT的混合型翻译引擎是最佳选择。对于翻译前后的处理工作,我们认为采用东芝长期积累的自然语言处理技术更合适。这样一来,既引入了最先进的NICT引擎,又能发挥出东芝在机器翻译领域的优势。

二、升级机器翻译机制 解决长篇翻译难题

经过不懈努力,2018年4月,东芝数字解决方案株式会社在公开竞标中成功拿下机器翻译系统订单。以实现1年1个月后——2019年5月系统启动为目标,开始了开发工作。为了达到理想的翻译效果,公司成立了两个团队,分别负责翻译质量和翻译速度。

“我们要求的不仅仅是翻译的质量和速度,价格、成本等方面也必须通过评估。东芝数字解决方案株式会社不只使用最新的NMT翻译引擎,还构建了完善的引擎支持系统,以确保翻译引擎稳定运行。

我们对机器翻译系统提出的要求是:不仅要保证翻译质量,还必须适用于专利信息平台。显然,逐句翻译无法满足要求,文章以几页为单位传给机器翻译系统,由翻译系统进行文档分割,再并行进行翻译。”(目黑)

“一般来说,机器翻译不擅长翻译长句,句子越长,需要处理的时间就越多。使用预处理进行长句分割方法,能够提高翻译质量。机器翻译系统首先用RBMT对日语长句结构进行分析,在长句中的意思转折位置做标记。再将完成分割标记的文档传送到NICT的NMT中。这种无缝协作确保了翻译速度和翻译质量。”(西本)

在专利文档中,当一个长句被分成一行一句后,句子之间往往会夹杂一些无用的字符,比如:页码等。

机器翻译长句分割示例

机器翻译长句分割示例

“人工智能目前仍无法合并或分割句子。为了从细节方面提高整体翻译质量,必须先进行‘文章结构分析’。深入分析文章结构的语言处理工作正需要东芝来完成。”(目黑)

三宅女士回顾项目时说:“毫无疑问,文章结构分析是本项目的重点之一”。比如,在翻译系统构建过程中,出现了一个奇怪的翻译结果,就是“Sunrise”(日出)这个单词,这个单词与专利内容毫不相干。对此,我们感到非常困惑,经过调查,原因出乎所有人意料。

“专利文件经常遇到下图这种格式。由于前后两段紧连在一起,变成了‘日出’这个词,翻译引擎顺势将其翻译成‘Sunrise’。为消除这种错译,结构解析时需要进行数百个处理。而且这种错误只能通过目视检查的方式发现。一次分析就需要通读200多份翻译文档,这依靠的是不畏艰辛的精神及巨大的体力投入。”(三宅)

机器翻译错误示例

机器翻译错误示例

在科技方面的专利文献中,还可能会出现化学式和DNA序列。字母和数字罗列是导致误译的原因之一。事实上,NMT并不擅长准确翻译这类字符串,经常会出现“漏译”和“冗余”(生成无关字符串)的情况。对此,三宅女士等人采用了“无需翻译”的方式。具体机制是:从输入的句子中识别出字符串,例如:化学公式和DNA序列等,先使用引擎翻译字符串以外的部分,然后将翻译结果与字符串合并,输出最终的翻译结果。这样一来,就避免了NMT特有的错译问题。

“与RBMT相比,NMT和SMT的翻译质量更高,计算量也更大,因此需要更多的处理时间。以往,翻译专利等长篇文档至少需要30分钟。此次开发的翻译系统是面向浏览网页的用户,需要提供实时在线翻译,不能让用户在电脑前等待30分钟。为提高翻译速度,东芝团队经过反复试错、调整,终于达到了满意的翻译速度。”(西本)

三、持续优化机器翻译 开发多语种翻译系统

2019年5月,东芝推出日英翻译功能。专利信息平台(J-PlatPat)正式启用文档及日本专利公报的日英翻译功能。国外专利审查员参考日本审查结果,日本人申请国外专利,翻译专利参考文件时,都可以使用此项翻译功能。

我们进行了多种测试,比如平时不大可能有的大翻译量的测试,不留任何小瑕疵,最终迎来了正式发布的时刻。刚刚发布后,我们就接到了用户打来的电话,用户反馈说:‘这么高的翻译质量令我十分惊讶’。这种反馈是极为难得的,充分证明了翻译准确度已得到显著提升。目前,该项目仍将持续进行中,我们将会进一步提升翻译质量和系统配置,以便处理更多语种,我非常有信心完成后半程的开发工作。”(目黑)

“难得有机会了解到普通用户的反馈,我真的非常高兴。尤其感谢目黑先生以及专利厅的其他员工,向我们提出了很多宝贵意见。让我深有感触的是,专利厅、NICT、东芝数字解决方案株式会社能作为一个团队,携手并肩,朝着提高翻译质量和速度的共同目标,不断前行。”(三宅)

“目前,我们正在开发中日和韩日翻译功能,我们的目标是在2020年4月正式发布机器翻译系统。在翻译引擎技术方面,我们向NICT的隅田先生反馈各种问题,并及时进行调整,同时,我们的应用程序也在持续改善中。目前,机器翻译的最终服务模式和理想形态还尚不明朗。我希望借助本项目获取的知识经验,开发出能够满足政府机关、研究机构、企业翻译需求的解决方案”(西本)

“东芝开发的机器翻译系统在对安全性有要求的操作环境下也能正常工作,未来有望向其它领域拓展,比如:政府机关、以及制药、金融、汽车等安全性要求高行业,而且,这些行业的对译数据已经非常丰富。NICT表示,希望在高精度引擎技术转让方面,继续与东芝开展合作。”(隅田)

专利厅发布的“全球最快、最高质量”的审查支持系统是NICT和东芝的共同努力的结果,NICT的先进翻译引擎技术与东芝的自然语言处理技术堪称完美搭档。不断巩固和发展这种合作伙伴关系,持续开发语言翻译系统,这让我们得以窥见机器翻译的未来。东芝一直致力于创新研发高科技产品,希望与不同行业的尖端科技型企业共同努力,碰撞火花,点亮未来无限可能。