日本研发人员正在研究如何让AI对发言者的讲话“随听随翻”。技术的关键在于掌握预处理技术,对语句进行合理分割。若能利用AI同传将日语顺利译为其他世界主要语言,日本将在国际上占据优势。
科学家希望2025年能够利用人工智能实现实时同声传译。现阶段语音识别技术已较为完备,未来的目标是提高翻译精度和速度。世界上许多语言与日语具有相同特征,若日语同声传译技术能够实现,其国际前景可能非常广阔。
台上演讲者用英语演讲1分钟,AI可随即将日语译文显示在其背后的屏幕上。这正是2020年11月日本情报通信研究机构(NICT)发布会上的一幕。从发言到形成译文仅需要大约10秒,而且译文几乎没有错误。
一般而言,同声传译需要通过语音识别技术识别讲话内容,再通过应用了AI等技术的翻译软件将其转换成其他语言。现有的机器同传多是等发言者话毕才开始翻译,这样就难以保证同传的顺畅。因为同两位直接用母语交流的人相比,机器同传需要耗费两倍的时间。此种模式难以应用于商业谈判,需要发展新技术来克服其弊端。
NICT在2019年度之前的国家研究项目中,已经将语音识别技术发展至一定高度。2020年度开始,他们将目标定为提高翻译的精度和速度。将来可望将时差控制在两三秒内,达到真人同声传译水平。
研发人员正在研究如何让AI对发言者的讲话“随听随翻”。技术的关键在于掌握预处理技术,对语句进行合理分割。
翻译软件主要包括分割语句的预处理技术和翻译引擎两大核心技术。现有技术为保证准确只能在整句话结束后开始翻译,这样就导致时间间隔过长。如果能在一句话结束之前开始翻译就能大大缩短等待时间。
NICT将意群分割法应用于预处理技术中,实现了较以往的逐句翻译更加精准的译法,与同传译员的实际工作方法相同。这样,在保证翻译精度的同时也缩短了受众等待时间。
AI同声传译的研发过程需要用到大量数据。NICT将向同传译员采集其意群分割习惯以及实际形成的译文,该项工作将一直持续至2021年度结束。预计将于2022年度研发使用意群分割法的AI翻译技术。
相比英译日,日译英的同传难度更高。原因在于对日语语句进行预处理分割的难度较大。
日语将动词和否定等重要信息放在句尾,所以需要对整句进行预览后才能翻译。相比之下,英语中此类信息的句中位置更加靠前,所以易于翻译。而且日语经常省略主语,AI在补足主语时容易出现错误。
为防止出现误译,AI还需要具备校准能力。例如,如果事先向AI输入演讲内容相关数据,让其进行自我学习,它就可以做到对内容的整体把握,提高同传准确率。
翻译引擎也将得到改良。这是一项应用广泛、不仅限于日英互译的技术,会大大影响翻译精度。如果翻译引擎达不到要求,即便预处理再快、校准功能再强大也无济于事。
除了市售手机翻译机,NICT翻译引擎还被应用于松下、NTT都科摩和NEC等公司的语音翻译服务中。NICT研究员隅天英一郎极具信心地表示,该公司的翻译引擎精度能够达到托业900分水平。
世界各大IT巨头在同传领域竞争激烈,但是NICT仍有胜算。隅天英一郎指出,美国的微软、谷歌以及中国的百度实力相当,目前都只停留在整句分割的阶段,尚未在意群分割法上取得成果。若能利用AI同传将日语顺利译为其他世界主要语言,日本将在国际上占据优势。
英语、汉语、法语这些使用者众多的语言有一个共同特点:名词后面紧接动词。世界上约有40%的语言都属于此类型。实际上,还有大约一半的语言与日语语法结构相似,动词放在整句后部。同类型语言之间更加便于同传。如果能够研发出跨语言类型的高性能同传技术,那全球90%的语言都可以实现互译。