学术交流
关于云译机器翻译在垂直细分领域探索与实践的对策建议
2020-12-23浏览次数:444
字体:A+  A  A-

近年来,人工智能(Artificial Intelligence,以下简称AI)技术迅猛发展,越来越深刻地影响各行各业。其中,语言服务业涉及的机器翻译,有“AI中的AI”之称,一直被视作人类的最后一块智慧高地,“AI王冠上的宝石”。这块璀璨的宝石引来了众多高校与研究机构竞相研究,更引来了包括谷歌、阿里在内的企业巨头踊跃投入。此外,不少传统的语言服务企业也意欲向此转型。那么,人工智能翻译技术的现状究竟如何?AI会给语言服务业带来哪些深刻影响?人工翻译与机器翻译的未来,又该何去何从?本报告结合人工智能翻译的发展现状及其当前应用的成果,对以上问题进行分析探讨,以期对AI翻译领域的研究方向,提供理论参考依据。

一、机器翻译的优点

随着科技和经济的快速发展,全球各国的互联互通已经成为不可阻挡的发展趋势。为了实现不同国家之间低成本的有效交流,机器翻译应运而生。其优点主要体现为:

1.成本低:

相比于人工翻译,机器翻译的成本要低很多。因为机器翻译需要人

工参与的时候很少,基本上由计算机自动完成翻译,大大降低了预算。

2.易把控:

机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为

精准地估算。

3.速度快

计算器程序的运行速度非常快,机器翻译正好利用了这一优点。

二、机器翻译的发展现状

相信常跟外语打交道的读者都感觉到,机器翻译越来越强大了。从最开始的只能翻译单词,翻译句子简直一窍不通的,到之后翻译出来句子可以符合基本的语法,再慢慢变得越来越有基本的逻辑性了,再到现在部分软件可以联系上下文,翻译结果的可读性与正确性都大为改观。

近年来,加入了“深度学习技术”等人工智能的机器翻译,已经不再简单地将一个个单词翻译成另一种语言,而是可以像人一样,不断向前回顾以理解结构复杂的句子,并且结合上下文,理解每一个It/He/She具体指代谁。

2.1 实现机器翻译的方法

机器翻译的翻译方法从最初的基于语言规则的翻译(Rule-Based MTRBMT) 发展到了基于实例的翻译( Example-Based MTEBMT) 。上世纪90 年代,统计机器翻译( Statistical MTSMT) 得到了长足发展。最近5 年内神经网络机器翻译( Neural MTNMT) 成为热点。当然,也有采用多种方法融合的机器翻译系统( Hybrid MT)

机器翻译方法的发展历程体现出人们使用计算机实现自动翻译方法论的不同阶段。第一阶段基于语言规则的方法,源于对翻译的直觉理解,认为只要将人类翻译的理论和手段“灌输”给计算机就可以让其模拟人来实现翻译。但语言规则无法覆盖复杂多变的语言现象,知识的表示是个瓶颈问题。继理性主义的方法后,机器翻译进入到第二阶段: 从实际语言中学习的经验主义方法。无论是从翻译样例中获取翻译模板的EBMT,还是用统计模型和神经网络结构实现的SMTNMT,都属于经验主义方法的范畴,都是利用计算机从大量实际翻译句对中学习如何翻译。经验主义的这三种方法也各有特色: EBMT 尽可能地找到和待翻译内容相似的翻译实例,尽量多地利用实际语言来形成翻译的主体内容。SMT 先分解语句,找到较小的语言单位( 主要是单词和短语) 在翻译句对中最可能的对应( 翻译模型) ,再组合得到更大粒度( 如句子和段落) 的翻译对应( 语言模型) 。而NMT 采取的是端到端( End-to-End) 的整体翻译模式。三种经验主义的研究方法进展体现了机器翻译策略上的变革路线图: 从尽量地模仿人类翻译规则,发展到对语言结构成分的分析和重组,再到“整入整出”的翻译策略。23 深度学习的突破早在上世纪40 年代人们就开始了对人工神经网络的研究。1969 年,MinskyPapert 指出,以感知器为代表的神经网络仅能解决一阶谓词逻辑,只能做线性划分,连简单的“异或”逻辑都无法处理。神经网络的研究一度陷入低潮。20118 月微软宣布,用神经网络构建的语音识别系统在对非特定人的实时语音识别上,将错误率降低了33%。这个突破性的成果又重新唤起了人们对神经网络研究的热情。

2.2 深度学习的突破

深度学习( Deep Learning) 是一种多层的复杂神经网络结构,除了输入层和输出层,中间还有很多隐层( Hidden Layer) ,并且网络节点的结构也在不断地变化。人工神经网络是以结构模拟实现对人类智能的功能模拟。深度神经网络在语音识别和图像识别等领域都取得了较大进展,但是在自然语言处理领域却遇到困难。直到2016 年,谷歌才正式推出了基于深度学习的多语种神经网络机器翻译系统GNMTGNMT 与谷歌之前的基于短语的统计机器翻译系统相比,翻译错误率下降了60%,接近人类的翻译水平。现在很多机器翻译研究转向了深度学习模型。研究人员对神经网络机器翻译进行了系统深入的分析。神经网络机器翻译是否真正比统计机器翻译更有优势? 优势具体表现在哪些方面? 为什么能产生这些优势? 还面临哪些挑战? 解决这些问题有助于进一步提高神经网络机器翻译的性能,明确机器翻译未来能达到的上限( Ceiling)

三、神经网络机器翻译的原理

3.1 神经网络学习的理论基础

人工神经网络用物理可实现的系统来模仿人脑神经细胞的结构和功能。人工神经元使用激活函数模拟人的神经元不同的状态。神经元互连形成神经网络结构。神经网络的学习过程是一个不断调整网络连接权值的过程。其中主要的学习方法称为纠错学习,即将神经网络的期望输出与实际输出之间的偏差作为连接权值调整的参考,并向着最终减少这种偏差的方向修改权值。因此,神经网络需要有标注答案的数据训练。待网络参数收敛时,说明网络拟合了训练数据。而训练好的神经网络才能处理新数据。

所谓深度神经网络,简单地说就是中间的隐层有很多层。当然现在神经网络节点的结构也在不断发展,比如长短时记忆循环神经网络( Long Short-TermMemory NetworksLSTM) ,网络的基本单元是包含了三个控制门( Gate) 的复杂结构,从而可以有效解决长距离相依的问题( HochreiterSchmidhuber1997: 1735-1780) 。在翻译中经常要根据较大的上下文语境才能确定如何翻译,因此LSTM 被较多地运用到机器翻译模型中。

四、神经网络机器翻译面临的挑战

神经网络机器翻译有了显著的进步,但其尚未达到人类的翻译水平。Isabelle et al( 2017) 构建了一个英法翻译挑战数据集( Challenge Set) 来测试GNMTGNMT 完全译对的句子不足70% ( 3 个人工评价员的一致性达089) 。部分翻译挑战是所有机器翻译都面临的,还有一些是神经网络机器翻译较为突出的问题。

下面我们从翻译的几个角度剖析神经网络机器翻译面临的挑战。

4.1 不同语言单位上的挑战

从翻译的语言单位上划分,面临的挑战包括词汇和短语层面、句子层面和段落语篇层面三类。

( 1) 词汇和短语层面的挑战

第一,低频词和少见词的翻译是机器翻译的难题,神经网络机器翻译也不例外。其原因是在训练阶段为了降低模型及计算的复杂度、节约存储空间,删去了低频词和少见词。

第二,开放性词汇的翻译问题。开放性词汇是未收录在词典中的词汇,主要包括人名、地名、机构、商标等命名实体,还有时间、日期、数字、新词等。神经网络机器翻译采取了片词( WordpiecesSubword) 模型提升了对开放词汇的处理能力( Wu et al.,2016: 7) 。但遇到不能翻译的词,系统仍会采取“不译”的做法。这通常这不符合人们的翻译要求。

( 2) 句子层面的挑战

机器翻译主要实现的是句子一级的翻译,尚难以在段落和语篇层面实施翻译。神经网络机器翻译对短句的翻译质量优于长句,长句的翻译仍是个难题。KoehnKnowles( 2017) 的实验表明,当句子片词数大于60?,神经网络翻译的准确率开始急剧下降。原因之一是训练模型时删去了长句( Isabelle et al.,2017: 1-28) ,另外一个深层原因是翻译模型在解码时,搜索算法更倾向于选择短句作为翻译结果。尽管译句的流利度得到了大幅度提升,但语序仍是影响神经网络翻译可读性的主要问题,涉及副词短语、介词短语、形容词短语、时间短语等修饰结构和插入语的翻译语序。要从根本上解决译文的语序问题,需要对原文进行正确的结构分析。而要正确解析句子的语法结构,语义分析又是基础和前提。但是该方向的研究目前还缺乏有影响的重大成果支撑。

五、结论

神经网络机器翻译利用深度神经网络实现了端到端的翻译方法,显著提升了译文的流利度和准确度,但其翻译机理也更加难以解释。尽管基于深度学习的机器翻译有了较大的进展,但是不等于说神经网络是解决机器翻译问题的唯一途径。深度学习本身还有很多理论问题没有得到解决,在模型构造和工程实现上也存在很多变化( 余凯等, 2013) 。技术在不断发展,未来机器翻译质量逐步提高的趋势不会改变。但神经网络机器翻译和人类译员的翻译水平仍有明显的差距,各有各的特点。机器翻译主要实现的是字面内容的翻译,而无法翻译出文字之外表达的思想、情感和观点。相信只有人类译员才能译出触及原作灵魂层面的东西。

机器翻译作为一种翻译技术手段,未来不但不会取代人类译员,还能创造新的服务领域。翻译教学也要跟随技术进步,有效利用最新技术手段提升教学内容,改进教学方式。

作者:江苏省科技翻译工作者协会编辑:徐剑
    上一篇:关于长江经济带生态文明建设的建议
    下一篇:关于语料制作管理与在线协作翻译的对策建议    
 

      

学会动态
通知公告
活动预告
分享到:
 
 
 
进入编辑状态