GF  2006  —
_______________________________________________________________________________
机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems)
2006--发布            2006--试行_______________________________________________________________________________ 中华人民共和国教育部国家语言文字工作委员会发布
目录
前 言
1适用范围 (5)
2规范性引用文件 (5)
3术语和定义 (5)
4评测的一般原则和方法 (6)汉语拼音正词法基本规则
5机器翻译系统的用户类型 (6)
6机器翻译评测题目的编制原则 (6)
7机器翻译的评测标准 (8)
8机器翻译评测的其他内容 (10)
前  言
本标准规定了机器翻译系统的评测规范。
本标准由教育部语言文字信息管理司提出立项,负责解释。
本标准由教育部语言文字信息管理司归口。
本标准由国家语言文字工作委员会语言文字规范(标准)审定委员会审定。本标准起草单位:教育部语言文字应用研究所
本标准主要起草人:冯志伟、肖航、富丽、章云帆
中华人民共和国教育部
国家语言文字工作委员会语言文字规范
GF2006 -
机器翻译系统评测规范
(Assessment Specifications of Machine Translation Systems)
1 适用范围
本标准规定了机器翻译系统的评测规范。
本标准适用于机器翻译系统的评测以及有关的管理工作。
2 规范性引用文件
下列文件中的条款通过本标准的引用而成为本标准中的条款。
ISO11179-3信息技术数据元的规范与标准化第3部分:数据元的基本属性
GB/T 12200.1  汉语信息处理词汇 01部分:基本术语
GB/T 13725 信息处理用现代汉语分词规范
GB3259-92  中文书刊名称汉语拼音拼写法
GB/T 15834-1995  标点符号用法
GB/T 15835-1995  出版物上数字用法的规定
GB/T 16159-1996 汉语拼音正词法基本规则
第一批异形词整理表
第一批异体字整理表
部分计量单位名称统一用字表
中国人名汉语拼音字母拼写法
中国地名汉语拼音字母拼写规则
普通话异读词审音表
3 术语和定义
下列术语和定义适用于本规范。
3.1 信息处理系统(information Processing systems)
基于计算机技术、网络互联技术、现代通讯技术和各种软件技术,集各种理论和方法于一体,提供信息服务的人机系统,是由人和计算机等共同组成的,能进行信息的收集、传输、分析、加工、处理、存储、更新和维护的系统。
3.2 评测规范(assessment specifications)
用于评测的规范,包括评测的一般原则、评测内容、评价指标、评测方法和文件格式等。
3.3 自然语言(natural language)
规则是根据当前用法而不是用显式的方式规定的语言。如汉语、英语、德语等。
3.5 中文信息处理(Chinese information processing, CIP)
用计算机对汉语的语音、语法、词汇、语义、语用等信息进行处理,又称汉语信息处理。
3.6 语言文字评测(language norms based assessment)
依据语言文字的技术指标体系和有关规范,采用一定的方法和程序,对于自然语言信息处理系统及其组成要素中与语言文字相关的部分进行评价和检测。语言文字评测是系统评测的重要组成部分。
3.7 机器翻译(machine translation, MT)
利用计算机把源语言翻译成目标语言。
3.8 机器翻译系统(machine translation system)
利用计算机把源语言转变成目标语言的软件系统。
4 评测的一般原则和方法
本标准参照使用《文语转换与语音识别系统语言文字评测标准》中规定的自然语言信息处理系统评测的一般原则和方法。
4.1 评测的原则:机器翻译系统的评测应当遵守自然语言信息处理系统评测的一般原则,即:公平公正
的原则;遵循标准的原则;人机结合的原则;区别对待的原则;灵活柔性的原则;可操作性的原则。
4.2 评测的方法:机器翻译系统的语言文字评测基本上只涉及系统的外在的总体性能,因此,主要采用黑箱评测的方法,以人工评测为主,自动评测为辅。
5 机器翻译系统的用户类型
机器翻译的译文质量评测与用户的类型有密切关系,不同类型的用户对译文有不同的要求。根据用户需求的不同,机器翻译系统一般可以分为如下类型:
a. 为浏览者研制的机器翻译(MT for the Watcher,简称MT-W):其目的是帮助浏览者查阅外文资料,对于译文质量要求不高,浏览者可以接受粗糙的译文。
b. 为修订者研制的机器翻译(MT for the Reviser,简称MT-R):其目的是帮助用户修订粗糙的译文,粗糙的译文经过修订之后,质量应该比为浏览者研制的机器翻译的译文有所提高。
c. 为翻译者研制的机器翻译(MT for the Translator,简称MT-T):其目的是帮助用户进行在线机器翻译,用户在翻译时可以使用在线机器词典、翻译实例库等,因此,对于译文质量的要求比较高。
d. 为写作者研制的机器翻译(MT for the Author,简称MT-A):其目的在于帮助用户进行翻译或写作,要尽量避免翻译中的歧义,因此,对于译文质量要求更高。
根据上述分类,可以有针对性地对机器翻译系统进行评测,根据用户类型的不同,评测时考虑不同的评测重点。
6 机器翻译评测题目的编制原则
评测题目是用于机器翻译评测的数据,这些评测题目是从评测题库中抽取的,评测题目的选取应该遵循以下的基本原则:
a. 为了测试机译系统的质量,在外汉机器翻译系统中,对作为源语言的英语、日语或法语,基本上应该以相应外语的大学教学大纲作为测试题目选取的主要依据,在汉外机器翻译系统中,对作为源语言的汉语应该以汉语常用句型作为测试题目选取的主要依据。
b. 对于通用机器翻译系统的测试,测试题目中的词汇应该选自一般领域,侧重在社会、生活、政治、经济、常识等方面,不出冷僻的词,也不出专业性很强的术语。对于专业机器翻译系统的测试,测试题目中的词汇和语法结构应该体现出不同专业领域的特点。