学术交流
关于语料制作管理与在线协作翻译的对策建议
2020-12-23浏览次数:1107
字体:A+  A  A-

近年来,上海一者信息科技有限公司在语料制作、管理,还有最近推出的CAT在线协作翻译也做了很多工作,本文将从语料制作管理与在线协作翻译这个主题进行论述。

一、语料数据的作用

首先,来看一下语料数据的作用。语料有很多,我们现在要谈的是双语平行语料数据。从宏观层面上来看,语料数据有三个层面上的作用。第一,它来自于翻译生产,就是我们在翻译过程中沉淀下来的双语平行语料数据,当然是用CAT来进行翻译的,那么它就可以用于翻译服务,就是我们用CAT去重复、降低成本,在很多翻译公司里,译员使用CAT来达到这个目的。第二,我们跟很多高校,比如江浙沪和北京那边的学校进行校企合作共建双语平行句对语料库,语料库也可以用在MTI的教学和研究上,有些老师和学生用它来进行翻译教学和实践,也有些专家用语料数据去分析一些语言现象。第三,当前我们谈论得比较火热的是机器翻译,那么现在我们推动机器翻译往前发展的方式除了改进和优化算法,另外一个方式就是如何去获取大量的优质的双语平行语料数据,尤其是现在大家关心的多语种和多领域的语料数据。比如深圳云译科技有限公司做的云译机器翻译在垂直细分领域的探索与实践,这是一个非常火的研究方向,因为在通用领域上,像Google,百度等已经做得非常好了,那么现在大家要突破的就是利用垂直细分领域的语料数据来完善机器翻译,因为当垂直领域的机器翻译效果足够好的时候,我们做PE的可行性就要高很多很多,因为现在大家做翻译生产可能会用CAT,先用MT过一遍,然后在上面做PE,那么现在大家用的绝大部分是通用的MT,比如Google、百度、有道这样的机器翻译,那这个时候PE的可行性没那么高,但是,一旦当之前的MT的效果没有足够好的时候,PE就会好很多很多,所以越往后,如果垂直领域的机器翻译发展得很好的时候,那么可能初译大家都拿机器翻译过一遍就直接做PE,所以这会影响我们后面做翻译生产的模式。总结一下,语料数据的作用体现在:为翻译服务去重复,降低成本;在MTI高校中辅助教学和学术研究;辅助机器翻译去训练多语种、多领域的机器翻译。

二、语料制作的难点

那如果我们在翻译的时候一定要用CAT,那么在翻译的时候就可以沉淀翻译记忆库,而如果之前在翻译的时候没有用CAT,其实沉淀的就是双语文档,那就根本没有记忆库,根本没有语料库,那这个时候我们就需要把双语文档变成双语平行语料库,这个时候面临的问题就是如何去做TM,也就是说我们要去做对齐。我们企业本身不做翻译业务,我们只给客户做语料对齐,客户把双语文档发给我们之后,我们做好对齐之后交给客户,在实际做TM的过程中,我们发现了很多难点。

第一,源文件内容和格式复杂。比如我们经常会接到很多PDF文件,里面有很多图表、表格、数字、年报、财报等等,这是在对齐当中比较难的一个点。第二,智能化程度低,人工介入调整量巨大,手工调整很累,眼睛看得很累,效率低下。第三,语料过滤筛选难度大。比如原文是财报,里面很多数字,对于做TM没有用,那就需要过滤掉,这样子译文和原文就不对应,就需要项目经理筛选出来得到一个最终的版本。

我们自己201512月的时候推出语料在线对齐,我们公司现在在语料对齐在产品应用层面可以说在国内外是做得最好的。现在在国内,基本上高校上课的时候讲的对齐都是我们的产品,而且在应用上面也是非常智能的。比如有智能对齐,原文是10句,但是译文有12句,那就存在1213的情况,就需要手工调整,但是有了我们这个智能对齐,就可以把1213的情况自动识别出来,可以大大降低我们手工调整的成本。还有我们支持多种格式导入导出。还有一些高级功能,比如刚刚提到的数据筛选都可以实现。而且我们在产品应用层面也做了大量的工作,我们发现对齐的时候,大家调整的最多的是句对对齐,就是哪一句跟哪一句对应起来,那我们就在想如何提高用户的对齐效率,当我们用WORDPPT,想要效率高一点,我们就使用键盘,就需要快捷键,所以,现在做的对齐,比如合并、拆分、上移、下移、删除,同样可以不用鼠标,直接用双手按快捷键就可以完成这些调整的动作。这可以让用户做对齐的效率提升几倍,现在一个学生或者一个用户一天可以对齐15万字,原文本如果是合同、手册等比较规整的文件,那一天可以对齐20万字,如果是PDF稍微复杂一点,可以对齐10万字,但之前大家并没有想到用我们的产品,效率会这么高。如果原文本有一百万字,可能只要一个星期就能完成对齐,效率非常高。

三、在线对齐四步走

第一步,导入文档,不管是原文、译文在一个文档还有两个文档里面,一左一右,一上一下,都可以来做。导入之后,点击对齐,程序会自动帮我=我们进行段落和句对齐,然后用户会发现有红色标记的,那就需要用户自己去重点检查的句对,检查完之后就可以导出我们想要的记忆库格式,像tmx,xlsx,txt等我们都是支持的,所以比较简单。以下是我们Tmxmall AlignerAbby Aligner进行对比:

作者:江苏省科技翻译工作者协会编辑:徐剑
    上一篇:关于云译机器翻译在垂直细分领域探索与实践的对策建议
    下一篇:关于“一带一路”技术创新合作模式的建议    
 

      

学会动态
通知公告
活动预告
分享到:
 
 
 
进入编辑状态