泛化的基于实例的机器翻译研究_信息技术论文
史洪柏 马宪民
摘 要:当今社会处于时代internet 网的迅猛发展,迫切需要通过机器翻译消除不同国籍人们之间的文字障碍。本文提出一种泛化的基于实例的机器翻译,首先通过汉语和的语义词典来计算词的语义距离,进而计算语句的结构相似度,然后将相似语句的共同部分提取出来做为模板的候选元素。
关键字:机器翻译(mt) ebmt rbmt 翻译模板
1. 机器翻译的介绍
(1) 基于规则的机器翻译(rule-based machine transltion)
原理:目前一般采用转换文法的方法,先根据原语言的语法规则分析原语言,生成语法树;根据转换规则将其转换成目标语言的语法树,然后根据译文的生成规则生成译文。
特点:灵活,适应性强,但产生的译文质量一般。由于自然语言中存在着大量的例外情况,当规则库比较庞大的时候可能产生很多冲突。规则的调试需要专家知识,非常耗时,并且很难保证修改后的规则不会带来新的冲突。
(2) 基于实例的机器翻译(example-based machine translation)
原理:基于实例的机器翻译的本质是通过类比来获得翻译的结果。给出一系列的汉语对应的源语言和目标语言的语句,将同源语言句子的类似的句子翻译成目标语言。基于实例的机器翻译的假定是:如果一个已经翻译过的语句再次出现,那么它的上一次的翻译结果非常可能也正确。
特点:适用范围窄(受双语语料库规模,题材的限制),如果能匹配成功则译文准确率极高,翻译速度快。对于翻译产品说明书的不同版本能取得很好的效果。
(3) 基于规则和语料库相结合的机器翻译(hybrid method)
以rule_based machine translation为基础,利用从语料库获得的统计信息进行消歧,利用统计的和树库做基于统计parser。
2. 传统的ebmt采用的方法
语句匹配问题:精度匹配和模糊匹配
精度匹配:准确率极高,但是匹配率比较低。译文的质量有保障。
模糊匹配:特点是准确率比较高,匹配率比较好;但是如何根据匹配成功的目标语言的语句来产生译文仍然是一个棘手的问题,可能需要一定程度的深层分析。随着模糊匹配算法的不同,相应的译文生成的策略也不同。