吉林省企业技术难题汇编 .pdf
《吉林省企业技术难题汇编 .pdf》由会员分享,可在线阅读,更多相关《吉林省企业技术难题汇编 .pdf(90页珍藏版)》请在文库网上搜索。
1、的机器翻译系统则是在一种翻译策略为主体的前提下,在系统的不同模块分别使用了不同的技术,例如4就在基于实例的机器翻译框架下使用了基于规则的分析和基于统计的生成。 3.5 讨论 基于规则的、基于实例的、以及统计机器翻译方法是目前公认的对机器翻译方法的分类方式。通常认为,统计方法和实例方法都是数据驱动的方法。统计机器翻译方法在训练阶段使用双语语料获得统计模型,翻译时使用事先训练好的统计模型。基于实例的机器翻译方法本质上是一种基于实例推理的方法,它在翻译阶段直接使用翻译实例。与数据驱动的方法相对,传统的基于规则的机器翻译方法中,通常用人工撰写的规则来描述语言规律。 那么,三种机器翻译方法之间到底是什么
2、关系呢?本质上,这三种方法并不是互斥的,而是着眼点不同,从不同角度强调问题的不同方面。统计是从数学角度强调统计建模能力,实例是从机器学习的角度强调对翻译实例的抽象程度,而规则是从语言现象入手来描述语言的成分构成规律。严谨的统计模型、大单元的翻译实例、多层次的成分构成完全是可以融合共生的。 4 机器翻译评测 用计算机翻译人类语言固然很难,对翻译结果进行恰当的评价也不简单。同样一句话,不同的人翻译可能会产生不同的结果;同样一个翻译结果,不同的人也可能会给出不同的评价。这种客观存在的不确定性为准确公平地评价机器翻译结果带来了困难,而合理的评测体系又是进行科学研究和实验所需要的。因此,机器翻译评测方法
3、也一直广受重视。 4.1 机器翻译评测方法 对机器翻译系统的评测比较复杂,可能包括系统性能的方方面面,如译文质量、翻译速度、空间开销、稳定性、易用性等等。所有这些中,译文质量无疑是机器翻译引擎最核心的指标。这里只讨论译文质量的评价。 根据评测的自动化程度,机器翻译评测可以分为人工评测和自动评测。顾名思义,人工评测由人来对翻译结果进行评价;而自动评测则由计算机自动完成对翻译结果的评价,自动评测往往需要预先给出评价模型及设置参考答案。 根据评测内容,机器翻译评测可以分为语言点评测和全文评测。前者根据事先设定的语言点是否被准确翻译来评价翻译质量,这种评价有些类似于作文考试中,参考语言点来为作文评分的
4、方法。后者则不预先设定评价点,而是对译文进行整体评价。 现在的人工评测通常采用忠实度和流利度两个评价指标。忠实度用来衡量译文忠实于原文的程度,反映的是译文的含义相对于原文是否正确。忠实度又可分为若干等级,例如:“译文准确完整地表达了原文含义”为5分;“完全错误或没译出来”为0分。流利度则用来衡量译文本身是否流利,反映译文是否符合目标语言的表达习惯。流利度也可分为若干等级,例如:“流畅地道的译文”为5分;“完全不通的译文”为0分。 上世纪九十年代初,我国学者俞士汶提出了一种基于测试点的机器翻译自动评价方法18,并曾应用于两次863机器翻译评测。现在的机器翻译自动评测,通常衡量的是被评价译文与参考
5、译文之间的总体相似度,而且这种相似度的计算只涉及字符本身,而不需要进行深层的语言理解。这类方法中,影响最大、使用最广的BLEU 19根据N-gram的比较来进行评价。BLEU的思想虽然很简单,但其评价结果却与人工评价有着良好的相关性。NIST打分的基本原理与BLEU类似,但与BLEU使用几何平均不同,NIST使用了算术平均,同时NIST还对低频N-gram赋予了更高的权值。其它常用的评价指标包括METEOR、Word Error Rate(WER)、Position independent word Error Rate(PER)、Translation Edit Rate(TER)等。最新研
6、究表明,即使没有人工参考译文,使用机器自动生成的伪参考译文也能得到很好的评价结果 20。 4.2 机器翻译评测举例 NIST机器翻译评测2是国际上影响最大的机器翻译评测。与中文相关的,NIST评测过去主要开展了汉语到英语的机器翻译的评测,2008年的评测也将开展英语到汉语的评测。NIST评测主要针对文本语料的翻译,国际上另有一些口语翻译方面的评测,如WSLTI3和TC-STAR4的评测。 国内方面,由国家863计划组织的中文信息处理与智能人机接口评测曾有6次进行了机器翻译评测5,973项目曾开展过一次汉英机器翻译的评测,2007年8月在哈尔滨工业大学召开的第三届统计机器翻译研讨会(SSMT20
7、07)也进行了机器翻译评测6。 5 机器翻译应用 机器翻译技术有着广阔的应用需求,本章将分类介绍机器翻译的各种应用,而不拟提及具体的公司及产品名称。 按自动化程度,机器翻译可分为自动翻译和辅助翻译。前者由于没有人工参与,难以直接得到很高质量的译文,但可以用于信息的快速浏览和获取。后者通过人机互助,可以得到高质量的译文用于出版、发布等信息传播目的。辅助翻译根据人机分工不同又可分为机助人译和人助机译两种。 根据处理对象不同,机器翻译可以分为文本翻译和语音翻译。前者处理文本输入,而后者处理语音输入。 从使用目的角度,机器翻译可以分为四种用途:传播信息、获取信息、交流信息、和检索信息。一般来说,辅助翻
8、译系统或严格领域受限的高质量自动翻译系统可以生成高质量译文用于信息传播;通用的全自动翻译系统可以生成虽不完美但基本可懂的译文用于信息获取;受限领域的口语翻译系统可以帮助人通过语音或即时通讯系统进行信息交流;跨语言信息检索系统可以帮助人完成不同语言之间的信息检索。 机器翻译系统可以有多种产品形态,如独立的翻译软件包、翻译引擎授权、翻译服务提供、与硬件捆绑等等。 6 结语 现代的机器翻译研究已有半个多世纪的历史,其间产生过令人振奋的成果,也有过令人沮丧的时候,但无论多么艰深,人类对于机器翻译的探索和渴求始终也没有停止过。身兼文理、统合技术与艺术的学科魅力吸引了无数的研究者献身其中;促进跨语言交流的
9、显著作用和巨大的应用价值吸引了大量的机构投资其中。作为世界上使用人数最多的语言,中文相关的机器翻译一直广受重视,而随着其研究的不断深入、开发的不断完善,其性能也必将不断提高,进而带来巨大的社会效益和经济效益。 参 考 文 献 1 Jiang Zhu, Haifeng Wang. 2005. The Effect of Adding Rules into the Rule-based MT System. In Proceedings of MT SUMMIT X, pages 298-304. Phuket Island, Thailand. 2 M. Nagao. A Framework o
10、f a Mechanical Translation between Japanese and English by 2http:/www.nist.gov/speech/tests/mt/ 3http:/iwslt07.itc.it/ 4http:/www.tc-star.org/ 5http:/ 6http:/ Analogy Principle, In: A. Elithorn, R. Banerji (eds), Artificial and Human Intelligence, pages 173-180. NATO publications. 3 王海峰, 刘占一, 吴华. 20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 吉林省 企业 技术 难题 汇编