欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > DOC文档下载  

    机器翻译研究综述.doc

    • 资源ID:4177995       资源大小:111KB        全文页数:12页
    • 资源格式: DOC        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    机器翻译研究综述.doc

    机器翻译综述1. 引言1.1 机器翻译的历史现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为翻译的备忘录,正式提出了机器翻译问题。他提出了两个主要观点:第一, 他认为翻译类似于解读密码的过程。第二, 他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共同的。在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期1.2 机器翻译的主要内容经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:l 直接翻译方法l 句法转换方法l 中间语言方法l 基于规则的方法l 基于语料库的方法Ø 基于实例的方法(含模板、翻译记忆方法)Ø 基于统计的方法在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。下面对各个方法逐一的进行介绍。2. 机器翻译主要方法2.1 直接翻译方法所谓直接翻译方法就是从句子的表层出发,将单词、词组、短语甚至是句子直接置换成目标语言译文,有时进行一些简单的词序调整实现翻译,并不进行深层次的句法和语义分析。直接翻译方法也是早期翻译系统常用的方法。在1954年,美国乔治敦大学用IBM计算机进行了首次机器翻译的实验后来IBM提出的统计机器翻译模型也可以认为是采用了这一思想。这种方法只能是作为研究初期的一种方法,因为方法本身就是一个很成熟的方法,举例如下:How are you? 直接翻译结果:怎么 是 你How old are you? 直接翻译结果:怎么 老 是 你从这个翻译结果就可以看到直接翻译方法的结果是非常不好的,直接翻译方法仅能满足特定译文生成的需要,比如说只在语言特点较为相似的语言之间的翻译效果较好。对于像英汉语言这样差异较大的语言的翻译就不能使用直接翻译的方法。鉴于直接翻译方法在机器翻译研究中的局限性,现如今几乎没有人继续在这个方法上进行进一步的研究,所以该方法只是在50、60年代作为机器翻译的起始研究方法存在。2.2 句法转换方法1957年,美国学者V. Yingve在Framework for Syntactic(句法翻译框架)中提出了句法转换方法。整个过程分为“分析”、“转换”、“生成”三个阶段,分别如下:分析:将将源语言句子转换成源语言申城结构;在分析的过程中,有相关分析和独立分析两类。所谓相关分析就是在分析时需要考虑目标语言的特点。而独立分析就是分析过程与目标语言无关。转换:将源语言深层结构转换为目标语言的深层结构;生成阶段:由目标语言深层结构生成目标语言句子;生成过程也有两类:相关生成和独立生成。即相关生成是在生成时需要考虑语言的特点,而独立生成的生成过程与源语言无关。理想的转换方法应该做到独立分析和独立生成,这样在进行多语言机器翻译的时候可以大大的减少分析和生成的工作量。但独立分析和独立生成同样也会造成翻译质量的下降。转换方法的优点是可以较好的保持原文结构,产生的译文结构与原文结构关系密切,尤其对于语言现象已知或句法结构规范的源语言句子具有较强的处理能力和较好的翻译效果。主要不足就是:分析规则由人工编写,工作量大,规则的主观性强,规则的一致性难以保障,不利于系统扩充1。2.3 中间语言方法中间语言翻译方法首先将源语言句子分析成一种与具体语言无关的通用语言或中间语言,然后再由中间语言得到目标语言。整个翻译过程分为“分析”和“生成”两个部分。中间语言的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为n*(n-1)。虽然基于中间语言的机器翻译方法能够减少系统实现的工作量,但是如何定义和设计中间语言的表达式并不是一件容易的事情,中间语言在语义表达的准确性、完整性、鲁棒性和领域的可移植性等诸多方面都存在问题1。在基于中间语言机器翻译的基础之上,文献2采用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的转换,用以实现一个语音到语音的翻译系统。这种方法从思想方法上已经属于基于统计的范畴,但在技术方法上依然属于中间语言的方法。现在纯粹基于中间语言的方法现在也很少能够引起研究人员的关注。2.4 基于规则的机器翻译方法自从乔姆斯基的转换生成语法提出后,基于规则的方法一直就是机器翻译研究的主流,乔姆斯基认为一种语言无限的句子可以由有限的规则推导出来3。后来法国著名机器翻译专家沃古瓦(B. Vauquois)教授把基于语言规则的机器翻译方法的翻译过程总结为如下图形,这个图形又被称为“机器翻译金字塔”4:图1 机器翻译金字塔基于规则的方法的优点在于直观,能够表达精确地语言学家的知识,而且规则的颗粒度有很强的可伸缩性:(1)大颗粒度的规则具有很强的概括能力;(2)小颗粒度的规则具有精细的描述能力。能够处理复杂的结构和进行深层次的理解,系统适应性较强,不依赖于具体的训练语料。基于规则的方法同样也存在问题:(1)规则是由人制定的,主观因素重;(2)规则的覆盖性较差,特别是细粒度的规则很难总结的比较全面;(3)没有很好的办法解决规则之间的冲突。文献3中提到复杂特征集和合一运算5的提出使用更细粒度、更加准确的知识表示形式来描述规则。同时针对确定性规则降低了系统的鲁棒性的缺点,概率上下文无关文法6从全局最优的角度考虑,产生最优的翻译结果3。随着这些方法的引入,传统的基于规则的机器翻译方法逐步向以规则为基础、语料库方法为辅助的更高层次的机器翻译方法的研究。2.5 基于语料库的方法在基于规则的机器翻译方法的研究面临一定的问题的情况下,很多学者就开始研究是否可以不依赖于人工制定的规则来进行机器翻译,即从大量语料中学习翻译知识。基于语料库的翻译方法拥有无需人工编写规则、从语料库中学习得到的知识比较客观、从语料库中学习到的知识的覆盖性比较好的优点。但同时,基于语料库的翻译方法同样也存在一定的问题:(1)翻译系统性能依赖于语料库;(2)数据稀疏问题严重;(3)语料库中不大容易得到大颗粒度的高概括性知识。所以说在机器翻译的众多方法中没有哪种方法可以说自己是没有缺点的,只是不同的方法在不同的应用领域中有各自的优点。目前基于语料库的方法主要有基于实例的机器翻译和基于统计的机器翻译两种方法7。2.5.1 基于实例的机器翻译方法日本学者长尾真(Makoto Nagao)提出了基于实例的机器翻译方法8。在基于实例的机器翻译系统中,系统的知识来源是双语对照的翻译实例库,实例苦衷主要有两个字段,一个字段保存源语言句子,另一个句子保存与之对应的译文。每输入一个源语言句子时,系统把这个句子同实例库中的源语言句子进行比较,找出与这个句子最为相似的句子,并模拟与这个句子相对应的译文,最后输出译文。该方法的优点是:(1) 直接使用对齐的语料库作为知识表现形式,知识库的扩充非常简单;(2) 不需要进行深层次的语言分析,也可以产生高质量的译文。缺点是覆盖率低,实用的翻译系统需要的实例库的规模极大(百万句对以上)。2.5.2 基于记忆的机器翻译方法在基于实例方法的基础上,日本学者佐藤聡(Satoshi Sato)提出了一个衍生的方法基于记忆的翻译方法9。基于翻译的方法是基于实例方法的特例,同样都需要建立一个实例库,但是作为衍生方法,同样有其独特之处。该方法的基本思想为:把已经翻译过的句子保存起来;在翻译一个新句子的时候,直接到语料库中查找,如果发现相同的句子,直接输出译文,否则交给人去翻译,但可以通过系统提供一个相似的句子作为参考译文。该方法的优缺点主要有:l 翻译质量有保证;l 随着使用时间的增长,匹配成功率逐步提高;l 特别适用于重复率高的文本翻译,例如公司的产品说明书;l 与语言无关,适用于各种语言对;l 缺点是在刚开始使用时匹配成功率不高,无法给出较为合理的参考译文。2.5.3 基于统计的机器翻译方法如果说在机器翻译研究的初期,基于规则的方法是主流,吸引了大部分的研究人员的注意力的话,那现在就是基于统计方法大显身手的时候,目前基于规则的方法的研究依然在进行,只不过,更多的是作为统计机器翻译方法的补充方法。其基本思想是为翻译过程建立模型,把翻译理解为搜索问题,即从所有可能的译文中选择概率最大的译文,而同为基于语料库方法的实例翻译方法则无需建立统计模型。在基于实例的翻译方法中,语言知识表现为实例本身,而统计机器翻译汇总,翻译知识表现为模型参数7。基于统计方法的优点:1) 无需人工编写规则,利用语料库直接训练得到机器翻译系统;2) 系统开发周期短;3) 只要有足够多的语料,很容易适应新的领域或者语种。缺点是:1) 时空开销大,进行模型参数的计算需要消耗较多的计算资源;2) 数据稀疏问题严重,当语料缺乏或语料的覆盖面不够全的时候就容易出现无法统计出需要的语言知识的情况;3) 对语料库依赖严重,所有的工作都建立在语料库的基础上,好的语料库可以产生较好的翻译结果,反之就会影响到翻译质量。4) 有时需要规则的方法进行辅助基于统计的机器翻译方法主要有以下3种:Ø 基于词的统计机器翻译Ø 基于短语的机器翻译Ø 基于句法的统计机器翻译下面就是这3种方法的详细介绍。2.5.3.1 基于词的统计机器翻译在基于统计的机器翻译方法中首先发展起来的就是基于词的机器翻译方法。IBM公司的Peter F. Brown 等人在1990年提出了基于统计的机器翻译方法,他们使用的就是基于词的机器翻译方法10。他们为翻译建立了概率模型,在文献中他们使用的英语句子和法语句子之间的翻译作为实例。假设人一个英语句子e和法语句子f,我们定义f翻译成e的概率为:于是将f翻译成e的问题就变成求解问题:.通过提出噪声信道模型将以上计算公式改写为其中P(E)为语言模型,反应“E像一个英语句子”的程度:称为流利度。P(F|E)为翻译模型,反应“F像E的程度”:称为忠诚度。在研究中,采用N元语法模型计算P(E),在文献11中提出了5个基本的翻译模型用于计算P(F|E),进一步完善了基于词的机器翻译方法,也为统计机器翻译方法奠定了坚实的基础。而自从IBM提出了统计机器翻译模型之后,一些研究人员也在做着改进的工作,由于对位模型是统计机器翻译方法中的关键模型,所以对对位模型的改进工作也受到很大的关注。Vogel在1996年提出了基于首序隐马尔可夫的词对位模型12是一项比较重要的改进工作,这种方法也常被称为首序对位模型1。在首序对位模型中,他们认为在一个句子内的所有的词并不是在各个位置上随意分布的,而是趋向于聚类的,即在一种语言的一个句子中临近的单词,在对应的另外一种语言中的单词同样会有这种临近关系。Vogel等人通过对一些欧洲语言对的分析,认为临近词在两种语言的句子内相对位置之间的差小于312。另外,王野翊在1998年提出了另外一种对位模型的改进方法基于结构的对位模型13。由于IBM的模型完全没有考虑句子的结构信息,使得人们怀疑IBM的模型能否在句法结构相差加大的语言对中获得成功14。基于结构的对位模型的基本思想是,首先通过粗对齐模型对源语言和目标语言的短语进行对齐,然后利用细化的对齐模型对短语内的单词进行对齐。王野翊的实验表明,结构的引入不仅使统计机器翻译的正确率有所提高,同时还提高了整个系统的效率。2.5.3.2 基于短语的机器翻译模型基于词的翻译模型存在一定的问题7:Ø 以词作为翻译的最小单位,对于一个词翻译到多个词的情况,都分解成一个词到一个词的概率Ø 只刻画了词到词的翻译概率,词翻译的时候没有考虑上下文,难以刻画一定的搭配、习惯用法的解释Ø 次序调整的复杂性,IBM模型中词序调整模型过于简单,很难刻画复杂的次序调整规律Daniel Marcu 在2002年提出了基于短语的联合概率翻译模型15,而P. Koehn等人在2003年提出了短语翻译对的提取方法16。其基本思想是15:Ø 把训练语料库中所有对齐的短语机器翻译概率存储起来,作为一部带概率的短语词典Ø 这里的短语是任意连续的词串,不一定是一个独立的语言单位Ø 翻译的时候将输入句子与短语词典进行匹配,选择最好的短语划分,将得到的短语译文重新排序,得到最优的译文Richard Zens提出了使用单调搜索算法17进行短语对齐的翻译方法。而从目前实现的系统看基于短语的翻译模型是目前最成功的翻译模型。基于短语的翻译模型在形式上类似于基于实例的翻译方法,区别在于引入了统计模型,在性能上远远超过基于实例的方法。关于对基于短语的机器翻译模型的进一步改进就进入到了另外一个方法中基于句法的机器翻译模型。而目前使用较为广泛的机器翻译系统有:(1)法老(Pharaoh)由Philip Kohnn开发,性能远高于基于词的系统;(2)丝路(SilkRoad)是一个基于短语的汉英统计机器翻译系统;(3)摩西(Moses)是最新的开源统计机器翻译工具,具有很高的性能和效率。2.5.3.3 基于句法的机器翻译模型尽管从实践的角度看,基于短语的机器翻译模型是最性能最好的,但是在方法理论层面上,该方法依然存在一些不足7:a) 产生的句子不符合语法短语的简单组合,没有句法结构b) 无法表示不连续的短语搭配的翻译召开了一次关于···的会议hold a meeting on···c) 无法进行长距离的语序调整解决的方法就是在翻译的过程中引入句法结构。基于句法的统计机器翻译模型包括形式上基于句法的模型和语言学上基于句法的模型:1) 形式上基于句法的模型不使用语言学方法获取句法结构,所有的句法结构直接从未标准的语料库中自动学习得到。该类方法中有两种具体方法:1、基于反向转换文法的翻译模型;2、基于层次短语的翻译模型。2) 语言学上基于句法的模型必须使用语言学知识才能获取句法结构,完成翻译过程。句法模型通常都是从句法树库中训练得到,常用的方法有:1、树到树的翻译模型;2、树到串的翻译模型。2.5.3.3.1 基于反向转换文法的机器翻译模型香港科技大学的吴德凯教授在1995年提出了基于反向转换文法的机器翻译模型(ITG, Inversion Transduction Grammar)18。从本质上讲,反向转换文法就是一个面向双语的上下文无关文法。该方法从词语对齐的双语语料库中自动抽取规则,因此该方法就是一个基于统计的机器翻译方法。需要对源语言句子进行概率化的句法分析过程,在句法分析完成的同时也生成了译文的句法结构和译文句子。如果建立的语料库是平行语料库,文献19考虑了在平行语料库中分析的可能性,提出了随机转换文法(SITG, Stochastic Inversion Grammar)。通过一个给定的双语句对,利用SITG和动态规划算法可以计算出该句对的最佳句法结构,像单语种的句法分析过程一样,通过计算分析结构的最大似然概率来实现结构歧义消解19。吴德凯教授在文献20中将反向转换文法的方法进一步完善,使其能够很好的应用到机器翻译工作中。文献21中提出了一个容许A*启发式搜索的同步解析方法来对反向转换文法的内容进行改进,该方法可以用更快的速度得到最佳对齐结果,同时也能在第一时间内得到最佳的翻译结果,并且在BLEU评测中取得在相同计算量的情况下更高的分数。文献22将SITG应用到基于短语的翻译方法,通过双语对齐语料和SITG方法完善词对齐方法,解决IBM模型中关于词对齐方法的缺陷,进而改进短语对齐的方法,使得基于短语对齐方法的机器翻译方法有更好的性能。2.5.3.3.2 基于层次短语的翻译模型UMD的David Chiang(蒋伟)在2005年提出了基于层次短语的翻译模型23。David Chiang在他的讲义24中提到:l 传统的基于短语的翻译模型中,短语是平面的,不能嵌套l 在层次短语模型中,引入了嵌套的层次短语l 采用平行上下文无关语法作为理论基础,只使用唯一的非终结符标记l 效果比传统的短语模型有很大的提高该方法不破坏基于短语的翻译方法的优势,而是利用这些优势:因为短语有助于实现次序调整,类似于句法分析,在对源语言进行嵌套短语分析的同时,产生目标语言结构。但是在文献23中还没有对具体的短语抽取方法进行详细的说明,而在基于层次短语的翻译模型中,短语翻译对的抽取是该方法的核心内容,所以David Chiang在文献25中提出了分层短语抽取算法,而Franz J. Och等人也提出了相应的短语抽取算法26,使得该方法进一步完善,目前这两种方法是基于层次短语翻译模型最为常用的短语抽取方法。文献27中提出了一种基于多层过滤的短语对儿抽取方法,该方法能从当前句对儿中生成多层次短语,而不像在传统的方法中根据给定的词对齐结果只能生成固定模式的一种短语对儿,并且该方法不需要利用句法知识来对生成的短语对儿进行过滤。另外还有大量的研究工作围绕一些特殊短语,包括命名实体、书名、电影名、专业术语等翻译对儿的提取1。2.5.3.3.3 树到树的翻译模型基于句法分析的翻译模型在近几年的统计翻译方法研究中得到了广泛的关注,树到树的翻译模型是基于句法的翻译模型中的一种。树到树的翻译模型即再源语言端和目标语言端都需要句法树,都需要进行详细的句法分析。其基本过程是首先得到源语言句子的句法分析树,通过树到树的映射规则或转录机将源语言句子树转换成目标语言句子树。林德康在2004年提出了利用树到树的映射规则28实现翻译的方法,而Chris Quirk在2005年从转录机29的角度提出了树到树的方法。两种方法的基本思想是一致的:需要一部概率化的同步语法,实现树到树的配对映射,其不同在于是否需要外部句法分析器的支持。在前一种方法中,解码的过程就是对源语言句子分析的过程;而对于第二种方法,解码过程则是源语言句子树到目标语言句子转换的过程。换句话说,第二中方法只考虑了源语言橘子树的一棵最优句法树,而第一种方法考虑了源语言句子的所有句法树1。相对而言,树到树的翻译模型的复杂度较高,实现上也有想当的难度,因此目前基于该模型建立的实验系统还不是很多,很多理论问题有待进一步探索,模型的性能也有待进一步提高。针对树到树这种在源语言端和目标语言端都需要进行句法分析的而造成复杂度较高的问题,基于树到串的翻译模型被提出来解决这个问题。文献36指出在树到树模型中存在两个问题:1、规则抽取的双边子树约束;2、解码过程中的结点约束和精确匹配约束。他们提出了两个简单的方法:1、整合双语短语来改进规则覆盖问题即双边子句法树约束问题;2、二值化双语解析树,以减轻刚性句法制约因素。文献37同样也指出了两个问题,其中规则覆盖问题上面也提出了,两外一个就是针对树到树的模型对句法解析树错误的敏感性问题。他们提出了一个基于森林的树到树的模型来解决上面两个问题,结果是相比于摩西机器翻译系统可以获得更高的BLEU评测分数,并且改进效果较大。2.5.3.3.4 树到串的翻译模型树到树的翻译模型的优点是句法信息丰富,但是计算复杂度高,而且由于机器翻译的最终结果依然是一个串,所以目标语言一侧的句法分析似乎意义并不是很大,因此树到串的翻译方法还是有很大的合理性1。树到串的翻译模型是指这样一类翻译模型:i. 在源语言端进行句法分析ii. 在目标语言端不进行句法分析iii. 从源语言端句法分析和词语对齐的语料库中抽取规则并构造翻译模型中科院刘洋在2006年提出基于树到串对齐模板的翻译模型30。该模型的基本过程为:首先应用源语言句法分析器获得源语言句子的句法分析树,然后采用树到串的对齐模板将该句法分析树转换成目标语言字符串。该模型最大的优点在于可以自动获取树到串的对齐模板,而该模型的训练复杂度要低于树到树的翻译模型。另外,黄亮等31提出了“统计句法制导翻译”方法,递归的将源语言句法树转换成目标语言字符串,就像编译程序将高级语言源程序翻译成汇编代码一样。这两种方法在本质上一样的,只是在解码时,前者是自底向上,后者是自顶向下。该模型也面临一定的问题:1、 无法使用非句法的双语短语。双语短语分为句法双语短语和非句法双语短语。所谓句法双语短语是指双语短语能够被某棵句法子树覆盖;否则就是非句法双语短语2、 句法分析速度慢,准确率低。句法分析的速度一般较慢,尤其当句子较长的时候,这会给使用大规模训练语料带来很大的困难。对于第一个问题,文献32中提出了森林到串的翻译规则弥补了树到串的翻译模型的缺陷。对于第二个问题,是目前语言学基于句法的方法所面临的普遍问题,在句法分析技术的性能没有取得突破性进展的情况下,一个可行的方案是引入多个句法树,尽可能降低句法分析准确率低对翻译质量的影响37。在文献33提出使用规则马尔科夫模型代替传统的构成规则可以将树到串的翻译模型的速度提升30%。文献34中使用增量解码模型进一步改进树到串的翻译方法,获得比基于短语的翻译系统摩西快30倍的速度。文献35使用深度句法信息(由HPSG分析器产生)来获取细粒度的树到串翻译模型的构成规则,对于规则的自动获取的准确性有很大的帮助。3 总结在机器翻译发展的几十年历程中,机器翻译取得了很大的进展,特别是最近的15年,各种机器翻译技术不断出现。网络技术的不断发展,也为机器翻译的发展提供了新的应用背景,同时也为机器翻译的发展提供了大量的数据来源和计算资源,这使得基于统计的机器翻译方法得以迅速的发展。同时,机器翻译依然面临着一些问题:语言知识的获取及其准确性的提高、歧义问题等等。统计机器翻译是目前研究人员最多的方向,因此也得到了充分的发展成为机器翻译领域中的主流方法,但是部分研究人员在研究中还是有一点走上了另外一种极端用到统计的方法就放弃了规则方法的研究。其实统计方法不应该排斥规则方法,同样规则方法也不应该拒绝统计方法,一个更好的方向是能将两者更好的结合起来。然而,到目前为止,统计机器翻译中用到的语言知识还是很有限的。基于词的方法和基于短语的方法几乎没有用到任何语言知识,而是采用了一种词汇化的概率计算方法,所有的语言知识通过对词语的概率统计表现出来38。而目前基于句法的统计翻译方法开始成为研究的热点,所以在本文中对句法翻译方法的介绍也较多。基于句法的翻译方法将句法知识更加充分的利用起来,所取得的效果已经开始超过基于短语的方法和基于简单规则的方法。另外,在未来的发展中,可能会有基于语义的方法加入到机器翻译的领域中,可以为歧义问题提供一种可能的解决方案。机器翻译处理的是语言问题,处理语言问题就不应该离开语言知识的辅助。所以说,如果不引进更为复杂的语言知识,一些机器翻译问题可能无法得到很好的解决。随着研究的深入,研究人员会更加重视规则方法在当前主流的统计方法中的作用,使得机器翻译的水平能够再提升一个层次。4 参考文献1 宗成庆. 统计自然语言处理. 清华大学出版社,2008,北京.2 Yuqing Gao, Bowen Zhou, Zijian Diao, Jeffrey Sorensen. A Statistical Semantic Parsing and Generation-Based Multilingual Automatic Translation System. Machine Translation. 2002, vol. 17, No. 3, pp. 185-212.3 戴新宇, 尹存燕, 陈家俊, 郑国梁. 机器翻译研究现状与展望. 计算机科学. 2004, vol.31, No.11, pp. 176-179.4 冯志伟. 机器翻译:从基于规则的技术到基于统计的技术. 2010年中国翻译职业交流大会论文集, 2010.5 Kay Martin. Parsing in Functional Unification Grammar. Natural Language Parsing. 1985.6 Charniak E. Statistical Language Learning. Cambridge, MA: MIT Press, 1993.7 刘群. 机器翻译原理与方法讲义. 2009.(Lecture)8 Makato Nagao. A framework of a mechanical translation between Japanese and English by analogy principle. Elsevier Science Publishers. B.V 1984.9 Satoshi Sato, Makato Nagao. Toward memory-based translation. COLING '90. 247252.10 Peter F. Brown et al. A statistical approach to machine translation. Computational Linguistics. June 1990, pp. 79-85.11 Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. The mathematics of statistical machine translation: parameter estimation. Computational Linguistics. June 1993, Vol. 19, No.2, pp. 263-311.12 Stephan Vogel, Hermann Ney, and Christoph Tillmann. HMM-based word alignment in statistical translation. Proceedings of the 16th conference on Computational linguistics - Volume 2. 1996, pp. 836-841.13 Ye-Yi Wang, Alex Waibel. Modeling with structures in statistical machine translation. Proceedings of the 17th international conference on Computational linguistics - Volume 2. 1998, pp. 1357-1363.14 刘群. 统计机器翻译综述. 中文信息学报. 2003. Vol. 17, No. 4, pp. 1-12.15 Daniel Marcu, William Wong. A phrase-based, joint probability model for statistical machine translation. Proceedings of the ACL-02 conference on Empirical methods in natural language processing - Volume 10 (EMNLP '02). 2002, pp. 133-139.16 Philipp Koehn, Franz Josef Och, and Daniel Marcu. Statistical phrase-based translation. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1. 2003, pp. 48-54.17 Richard Zens, Hermann Ney. Improvements in phrase-based statistical machine translation. Proceedings of HLT-NAACL 2004. 2004, pp.257-264.18 Dekai Wu. An algorithm for simultaneously bracketing parallel texts by aligning words. Proceedings of the 33rd annual meeting on Association for Computational Linguistics. 1995, pp. 244-251.19 Dekai Wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora. Computational Linguistics. Vol.23, No.3. September 1997, pp. 377-403.20 Dekai Wu, Hongsing Wong. Machine translation with a stochastic grammatical channel. Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. Vol. 2. 1998, pp. 1408-1415.21 Hao Zhang, Daniel Gildea. Efficient search for Inversion Transduction Grammar. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. 2006, pp. 224-231.22 Markus Saers, Dekai Wu. Improving phrase-based translation via word alignments from stochastic inversion transduction grammars. Proceeding SSST'09 Proceedings of the Third Workshop on Syntax and Structure Statistical Translation. 2009, pp.28-36.23 David Chiang. A hierarchical phrase-based model for statistical machine translation. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005, pp. 263-270.24 David Chiang, Hiero. Finding Structure in Statistical Machine Translationin National University of Singapore.(Lecture)25 David Chiang. Hierarchical phrase-based translation. Computational Linguistics. 2007, Vol. 33, No. 2, pp. 201-228.26 Franz J. Och, Hermann Ney. The alignment template approach to statistical machine translation. Computational linguistics. 2004, Vol. 30, No. 4, pp. 417-449.27 周玉, 宗成庆, 徐波. 基于多层过滤的统计机器翻译. 中文信息学报. 2005, Vol. 19, No. 3, pp. 54-60.28 Dekang Lin. A path-based transfer model for machine translation. COLING '04. Article 625. 2004.29 Chris Quirk, Arul Menezes, Colin Cherry. Dependency treelet translation: syntactically informed phrasal SMT. ACL '05. 2005, pp. 271-279.30 Yang Liu, Qun Liu, Shouxun Lin. Tree-to-string alignment template for statistical machine translation. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. 2006, pp. 609-616.31 Liang Huang, Kevin Knight, Aravind Joshi. Statistical syntax-directed translation with extended domain of locality. Proceedings of AMTA. 2006, pp. 66-73.32 Yang Liu, Qun Liu, Shouxun Lin. Forest-to String Statistical Translation Rules. A

    注意事项

    本文(机器翻译研究综述.doc)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开