神经网络机器翻译 (NMT) 已成为本地化行业中最热门的话题之一,与以往基于统计的机器翻译 (SMT) 相比,可以使翻译质量提升 30%
,同时解决了远距离语言对的复杂性问题,如中文到英语、日语到英语等。

SDL 的一项近期调查显示,61%的受访者认为机器翻译至关重要,然而找到适合企业自身业务的机器翻译解决方案并非易事。今天小编就邀请到了 SDL AI
和机器学习解决方案副总裁 Mihai Vlad 先生,和大家讨论机器翻译近期的突破和 SDL NMT 的独特之处。

Q : 相比 SMT,NMT 的译文更加自然,您能否解释一下两者之间的差异?

Mihai:SMT 和 NMT
的算法和体系结构有很大的不同。以自动驾驶为例,基于统计的方法使用特定道路的驾驶数据进行培训,汽车可以在特定道路上驾驶得很好。而基于神经网络的方法,
不与特定的道路绑定,使用不同道路的驾驶数据进行培训,汽车在任意道路上都驾驶得很好。

MT 的发展实际上始于 20 世纪
70年代基于规则的机器翻译,你可以对一组规则进行编码,但很快就会意识到不同的语言对有太多的例外情况,模型变得越来越复杂。1993
年,机器学习被引入到机器翻译中,算法可以通过学习双语语料得到提升,而不是通过预先的规则设定。

Q : 人工智能热度持续上升,每家公司都声称具备人工智能技术。机器翻译是 SDL 多年来在人工智能方向开拓的应用之一,那么在机器翻译上积累的经验将如何帮助
SDL 开发其他与 AI 的相关应用呢?

Mihai:人工智能旨在让计算机复制人类的行为。看、听、行动、计划都是典型的人类行为,而其中最复杂的任务是沟通,最难的是具备翻译的能力。大约 40%
的全球人口只能说一种语言,43% 可以说两种语言,13% 可以说三种语言,3% 可以说四种语言,只有 1% 可以说四种以上语言。

我们可以移动、跑步,最终协调我们的动作驾驶汽车,但我们不能掌握地球上所有的语言。让机器具备这种能力是非常高的要求。这就是人工智能研究人员将解决 MT
问题看作是 “AI complete” 的原因。

Q: 很多面向消费者的在线机器翻译都使用了开源的技术,为什么企业要考虑使用企业级的机器翻译解决方案呢?

Mihai:与 SMT 相比,NMT
代码更紧凑复杂,一些开发人员使用开源项目,用几百行代码就可以创建一个能够通过数据进行学习的翻译工具。然而,企业解决方案的需求远远超过了几百行代码。
可扩展、可集成和通过定制提升质量,只是企业用户在 NMT 代码中需要实现的很少一部分示例。其他例如,通用 NMT
难以很好地处理文档格式,而保持文档格式是任何想要维护文档完整性的组织的关键要求;通用开源 NMT 技术有时还会重复翻译一些词。

然而,通用 NMT 的一个关键问题是训练和翻译成本比 SMT 高几个数量级。而且想要部署这种系统的企业可能会因此而支付大笔硬件费用。

简而言之,使用开源 NMT 系统,你想要得到一个流畅的翻译系统,代价非常高昂,并且在翻译过程中会产生相当多的错误。

技术
下载桌面版
GitHub
Gitee
SourceForge
百度网盘(提取码:draw)
云服务器优惠
华为云优惠券
腾讯云优惠券
阿里云优惠券
Vultr优惠券
站点信息
问题反馈
邮箱:[email protected]
吐槽一下
QQ群:766591547
关注微信