行业新闻

中国机器翻译的世纪回顾

发布时间 2014-5-5 关注次数 6377

中国机器翻译的世纪回顾

董振东

　　在世界范围内，机器翻译的研究与开发已经走过了50年的历史。我国机器翻译的研究开始于1956年。1959年，中国的机器翻译研究者成功地进行了中国首次机器翻译试验表演。中国是世界上第五个进行这种实验的国家。今年应是中国的机器翻译研究的40周年。在这时刻来作一番世纪回顾，更有其纪念的意义。
　　在进行技术层面的回顾之前，我愿就宏观方面做点介绍。首先，中国的机器翻译研究从一开始就得到了国家的高度重视。早在1956年它便以"机器翻译"/"自然语言的数学理论"列入了当时的《科学发展纲要》。以后则列为"六五"、"七五"，以及"863"等重大科研项目。中国的机器翻译研究虽然也有过10年的停滞，但与国外不同，并不是由于对机器翻译研究本身的中断投资引起的。其次，中国的机器翻译研究从一开始就具有多单位，多方面不同知识结构人员的协同攻关的特点。这是这项研究自身的特点所决定的，它需要至少计算机科学、数学、语言学等多方面知识。

　　70年代中期，我国机器翻译研究从停滞走向了复苏，是协同攻关的特点体现最充分的时期。当时在中国科技情报所的组织下集中了许多部委的研究人员在社科院语言所的专家的具体指导下协同攻关。当时的理想是通过这样的大协作，开发出系统，培养一批人材，然后把系统带回各自的单位投入使用，并在使用过程中继续完善。虽然遍地开花的良好愿望后来没有实现，但通过五年多的通力合作，开发出了系统，培养了人才和积累了经验。在这一时期，还开始向国外派出人员学习和引进技术，并与当时已在国际享有盛名的机译研究机构进行了交流。社科院语言所开始培养机器翻译专业研究生。在这时期在情报学会和后来中文信息学会下成立了专业委员会，并曾定期地举行全国性的学术研讨会，还曾出版机器翻译专刊。

　　80年代中期到90年代初期是我国的机器翻译研究自复苏以来第二个重要时期。在这一时期里，产生过两个在中国机译史上具有重要意义的实用化系统。它们分别是军事科学院研制的"KY-1"英汉机译系统，它获得了国家科技进步二等奖，后来被开发为"译星"，成为中国第一个商品化系统，另一个是中科院计算所研制的"863-IMT"英汉机译系统，它获得了国家科技进步一等奖，它的技术带来了十分可观的效益。这两个系统也是多单位、多方面人材通力合作的结果。在这一时期里还有一个机译系统是不应被遗忘的。它就是由邮电科研院研制的"MT-IR-EC"，这是一个非常实用的通讯题录系统，人们利用它翻译出版通讯题录刊物，从而使刊物的发行效率得到很大的提高，它因此成为了第一个荣获国家科技进步奖的机译系统。在这一时期里，中国参加了由日本发起的亚洲五国机器翻译研发的合作项目。国内近10个单位参加了这一长达7年的国际项目。这次的大协作对于培养人才、传播技术、积累资源(如词典等)，以及使中国的机译研究走向世界，都有着深远的影响。另外，这个时期又正值"七五"，它给了更多的单位和研究人员参与机译研究的机会。在此期间，清华大学和南京大学研制了实用的日汉机译系统。中国科大在机译通用工具方面进行了富有成果的研究。北京大学研制成功了机译系统自动评估系统，这在国内外尚属首例。

　　90年代初期至今，中国的机器翻译走入了快速发展的时期，出现了许多商品化系统。近期的机译系统大体上有这样一些特点：多数配有大规模的多种领域的专业词典，多数能在网上运行，有相当不错的方便用户的界面。新的应用领域的机器翻译研究，如对话翻译系统的研发等也已开始。中国的机译研究的水平在总体上从一开始就不低，如今在PC产品、网上系统的开发方面与世界上机译研究发达的国家相比并不逊色。

　　中国机器翻译的占主流地位的技术策略和技术路线是：转换法，基于规则的，尤其是实用型机器翻译。世界其它地方也是如此。在回顾总结半个世纪的经验时，我想对于实用系统来说，有一些基本技术现在应是可以肯定的。

　　(1)机译归根结底是一个语言处理问题，系统需要强大的语言知识的支持；首先机器词典要有足够的词汇量，常用词语以英语或汉语论应不低于4万；为词典中每个词语给出的信息愈丰富愈好，一般分为词法、句法和语义信息。我国甚至早期的系统在这方面已有明确的体现，如当时有"类属组"三级信息。

　　(2)语言规则的获取来自真实的、尽可能多的语料，而不只限于教科书的例句。中国的具有代表性的系统都是这样做的，如70年代在中国科技情报所开发的两个题录系统是以5000条双语冶金题录为调查语料的。邮电科研院系统的词语和语法规则都来自于对INSPEC磁带数据的调查。随着近10年来语料库利用的发展，更加充分地但又是清醒地利用好语料库，善于从中获取知识的方法是很可取的。另外，大规模语料库对于机器翻译所必需的词语正确搭配的遴选也是很有效的资源。

　　(3)描写性的语言规则会比过程性的语言规则更好。后者由于同加工过程紧密相关，会增加编写规则的难度和系统调试的难度。

　　(4)源语言分析中采用多结点、多叉树、多标记的中间表达被证明是可取的，它优于简单标记的方法。

　　(5)把语言数据同程序分开，是普遍采用的方法。这样做便于系统的调试、完善，有利与系统的扩充。　　

(6)系统的友好界面是系统的重要的组成部分，虽然它不算是机译系统的核心，但它是不应该被轻视的。

　　随着因特网的出现和发展，机器翻译的应用前景将更为诱人，也会带来更好的商机。但应该提醒的是：今天机译系统的翻译质量还很差。50年来译文质量应该说还未取得实质性的突破，这在世界范围内都如此。机器翻译不但是一个语言处理问题，也可以说是一个知识处理问题。没有点点滴滴的、艰苦的知识和经验的积累，是不可能开发出实用的机译系统的。现在之所以有的开发周期缩短了，一则是因为开发者有长期的经验积累，一则是得到可以共享的资源，而绝不是有什么"绝招"。实际上机器翻译要能真正满足人们的需求，还有很长的路要走。展望下一个世纪，我们做这样的预测，实际上也可以说是我们应该争取的突破点。

　　(1)源语言分析将是大语境的、基于理解的。如今的分析都是孤立的一个句子一个句子进行的，即单个句子为处理的基本单位。未来的分析将是以句群为单位的。如今的分析求出的是句法关系树，充其量是概念的语义关系图，而不是对文本给出的意思的求解。有人说，简单的都做不到，那么复杂的就更不可能了。其实不然，正是"简单"了，有些问题才变得无法解决的。现在认为"简单"的，几十年前，不是很复杂的吗？

　　(2)加强基础研究，特别是常识性知识库的建设。有的学者提出建设知识词典，利用它进行基于理解的分析。笔者经过十多年的努力建立的大型知识系统《知网》，今年已上网供研究免费使用。它引起了海内外学者的广泛注意，并已有人在它基础上开始进行新的探索，如上面介绍的基于理解的分析以及新的排除歧义的方法。请读者浏览www.how-net.com 网页。

　　(3)机译系统将出现高度专业化的趋势。这种系统是为某个特定领域进行调试的，它实际上具备较充分的专业知识，而不仅仅是只有一本专业词典而已。

　　(4)基础性资源的共享，对于类似于机器翻译这样的研究来说是大趋势。如今我们可以在网上获得许多很宝贵的有关英语的、日语的资源，也有繁体中文的资源。(可惜简体中文的太少了。)因特网提供了一种知识资源共享和知识产权保护的全新的概念和方式。在近两次世界机器翻译高峰会上日本各大计算机公司都介绍了它们如何共享共建机译系统的专业词典的做法，值得我们借鉴。在当今网络时代，陈旧的知识资源保护手段到头来封杀的不是别人而是我们自己。

　　(5)机器翻译系统的高度模块化将有可能带来未来的机译系统的组件化。这样机器翻译系统的研发周期有可能大大缩短。开发者可以把更多的力量放在突出自己的特色上和专门化上。　　本文作者为中国中文信息学会常务理事。

　　《中国计算机世界》2000第一期，2000/01/03