HI,欢迎来到好期刊网,发表咨询:400-888-9411 订阅咨询:400-888-1571证券代码(211862)

翻译器集锦9篇

时间:2023-03-06 15:56:39

翻译器

翻译器范文1

关键词:机器翻译;可译;不可译

中图分类号:G648 文献标识码:B文章编号:1672-1578(2016)12-0002-01

1.机译的优缺点

机器翻译(Machine Translation 简称MT)是利用计算机把一种自然语言转变成另一种自然语言的过程用以完成这一过程的软件叫做机器翻译软件[1]。1 954年,IBM与Georgetown大学合作成功研制了第一个机译系统,揭开了机器翻译的研究序幕。进入21世纪,计算机技术与互联网愈加迅猛发展, Google Translate应景而生,然后译文质量并不理想。在之前的一项西班牙语译为英语的测试中,设定满分为6分,谷歌旧的翻译系统得到3.6分,人类普遍得分为5.1分。2016年9月27日,谷歌推出的新翻译系统基于对于人类神经思考的模仿,能够与真人翻译竞相匹敌,得到了5分的好成绩。

谷歌翻译的优点显而易见。首先,谷歌翻译功能不需要翻墙,即将推出的软件和APP,携带方便,操作简单。其次,谷歌采用了联合国文档做为语料库内容来源,专业性强、数量大。再者,新谷歌具有较强的语法分析功能和智能化处理,可以节省许多初级、机械的翻译人工,对翻译生产力是一种解放。

观其缺点,也不可忽视,如其可操作程度、准确性和可读性等都不理想。机器翻译只是句法结构和词汇的机械应对,对源语言的分析只是求解句法关系,尤其是遇到多义词、有歧义句子或者含有文化因素的语句时,机器并不能完全理解其中意义。

2.机器翻译的“可译”与“不可译”

每一种自然语言的语法、句法和文化问题本身纷繁复杂,加上源语言与目标语之间的语义差异,情况就更加复杂,必须在不同层面采用多种手段分别解决。人类对语言的认识程度以及大脑对信息的复杂过程都使得机器翻译永远无法像人脑一样进行思考和判断。

新谷歌的中译英质量令人惊艳,但不难发现,谷歌翻译只对逻辑关系西化的中文句子能应对自如,也就是主谓宾等成分清晰的句子,如干涩却逻辑清晰的科学论文和人文社科类论文,谷歌翻译能正确识别其成分、逻辑关系和各类从句。同时,谷歌对中文的成语俗语和如今的流行词汇也是得心应手。如"杯弓蛇影"译为"extremely suspicious","洪荒之力"则为"prehistoric power"。新谷歌的翻译,经人工修改把关,其质量还是有所保障。

然而,相对于一板一眼的中文,大部分散文、诗词戏曲或者日常交流中的口语表达,或灵活多变,或佶屈聱牙,或蜿蜒复杂,于有经验的译员来说都需时间,机器翻译便力不从心了。

2.1 词的问题。原句:我不知道他们给了我多少日子;但我的手确乎是渐渐空虚了。

机器翻译:I do not know how many days they have given me; but my hand is almost empty.

人工翻译:I don't know how many days I am entitled to together, but my quota of them is undoubtedly wearing away.

比较译文可发现,前半句机译与人译是一模一样,差异体现在后半句。原文中"手渐渐空虚"实指"自己拥有的时间逐渐减少",但机器的理解明显是受字面意思的局限。

原句:趁现在年富力强的时候,努力做一种专门学问。

机器翻译:While now the prime of life, and strive to do a specialized learning.

人工翻译:While you are in the prime of life, why not devote yourselves to a special field of study?

汉语的主语位置灵活,在有些句子中会被省略。本句的机译明显无法识别正确主语,导致译文没有主语。并且人工翻译中,将上下文联系,把后半句译成反问,原文深意得以体现。对于这类散文句子,机器还没有学会解读。

2.2 句的问题。原句:这同样微妙的神情,好似游丝一般,飘飘漾漾的合了拢来,绾在一起。

机器翻译:This is also the same delicate look, like a hairspring in general, fluttering Yang Yang of the rope together, together.

人工翻译:The three subtle smiles, drifting in the air towards each other like gossamer, became interwoven.

这诗意的原文,谷歌几乎无法翻译。其实在人工翻译中,这类句子也是最难的,既要符合英语语法,又要精炼灵巧,并与原文风格一致,非常困难。本句机译,完全不知所云。

原句:连夜雨雪,一点星光都看不见。

机器翻译:Night snow, a little star can not see.

人工翻译:It had been snowing all night, not a single star in sight.

原文"雨雪"具有动词意义,谷歌无法识别。并且对于原文中的时态,谷歌也没有正确判断。所以说,中英文差异为谷歌带来的困难,其实并没有被克服,这里则需要人工译者来纠正。

2.3 文化内涵。

原句:据说"至人无梦"。

机器翻译:It is said that "no dream."

人工翻译:It is said that "a virtuous man seldom dreams".

"至人"在古代指思想道德达到最高境界的人。谷歌对句子结构把握到位,但对于文化内涵完全没辙。

原句:读最近一期的《文学评论》,里面有几篇关于“红学”的文章,引起了我的注意。

机器翻译:Read the latest issue of "Literary Review", there are several articles on the "Redology" article, attracted my attention.

人工翻译:In the latest issue of the Literary Review, several articles on Redology have attracted my attention.

令人惊讶的是,谷歌对于"红学"翻译正确,但句子开头的"读"直接翻译成了"read",稍感遗憾。

3.结语

从上述例子可看出,自然语言具有各自的形态学,语法结构和语义学,其人工翻译并不是机器能完美替代的。但机器在处理一些简单的翻译任务时,大大节省了人力和时间,提高了人工翻译的效率。机器翻译的难点和人工翻译的难点有重合,我们只有将人工翻译和机器翻译完美结合,不断磨砺,才能锦上添花,才能了解和征服语言,达到文化的无碍交流。

参考文献:

[1] Hutchins J. Machine translation: past, present, future [M].London: Ellis Horwood Limited,1986.

[2] 毛顺. 若干实用机器翻译软件与网站评价 [J]. 中国科技翻译,2004,(4).

翻译器范文2

【关键词】 翻译记忆库;基于统计的机器翻译;翻译课程;Trados

【中图分类号】G623.31【文献标识码】A 【文章编号】1001-4128(2010)11-0009-02

1 前言

在中国几乎每所大学的外语系均有翻译课程,一些大学也设有翻译专业。目前大学的翻译课程,大都注重对“手工翻译”的训练,即在纸张上手写翻译内容,人工翻阅词典。而在翻译公司,早已普遍使用翻译软件来辅助翻译工作,尤其是进行大量翻译工作时,例如几万字的内容要于几天内翻译完毕,无法在短时间内完成,以及无法单人完成工作时,常常借助翻译软件。目前翻译课程中基本上介绍两种软件“机器(机械)翻译”以及“翻译记忆系统 ”。以下就机器翻译以及翻译记忆系统在实际翻译过程中如何运作功能,探讨其对翻译过程的帮助以及缺点。

2 基于统计的机器翻译

在中国的翻译软件课程大都由教师自行制做讲义,目前为止,没有一本正式出版的关于电脑辅助翻译的教材。例如北京邮电大学出版社出版的《大学英语实用翻译教程》共有6章节,只有最后一个章节对计算机辅助翻译进行介绍。在台湾出版了一本史宗玲的"To MT and TM。 A Guidebook Teaching"(2004),出版社为台北的The Bookman Publishing Company。这本书系将作者三年教授翻译软件的内容撰写成教材([1]尹俊史宗玲2004,前言),但是却以研究性专书形式出版。这教材主要处理机器翻译的译文修饰以及教导学生如何使用翻译记忆系统Trados(塔多思),而且仅限于英语翻译成汉语的情况。

现在机器翻译界大概有两个流派,一个是基于规则的翻译[2]。要从源语翻译到目标语,机器先分析两个语言不同的语法,然后定义从某源语的结构到目标语的结构的转换方式,所有这些规则写下来之后,再配合字典词汇的转换达到翻译的目的。机器翻译软件主要例如“金山快译”、 “译典通”翻译软件等等。机器翻译意指软件可以自动将一种语言转换为另一种语言,其优点在于操作非常方便,即将原文输入或复印至翻译的功能格中,按键后立即出现译文。但是由于机器翻译的译文质量不佳,必须将其修改。

第二种流派是基于统计的翻译。这种方法为谷歌翻译和有道翻译所采用。其过程是,利用一些平行的语料对文章进行分析,对比某些源语的句子对应目标语的句子,然后再进行分析。这样可以用统计的方式得到在某一些词组或者某一些句子在某种情况下可以翻译成另外一种语言的句子。 语料的搜集对基于统计的翻译来说非常重要,而谷歌的最强项的是搜索技术。谷歌翻译的语料是通过从一些可信任的网站或者一些材料而搜集得到。举例来说,联合国的一些官方文件是较好的语料。

3 基于统计的机器翻译的优缺点

以下以关于计算机软件应用的一段文章为例探讨基于统计的机器翻译的优缺点。

汉语原文:1、用户添加在软件平台主界面单击“用户” 按钮,弹出“用户”框。

谷歌翻译:1, the software platform for users to add the main interface click the "User" button, pop-up "user" box.

Systran翻译: 1st, user increases in software platform main contact surface one-shot “user” button, springs “user” frame.

优点:

术语翻译的正确率较高。 计算机术语“添加用户”的对应英语术语是 “add user”,而“单击”对应“click”。这两个术语在谷歌翻译中被正确翻译,而在Systran翻译中利用规则翻译成为 “user increase” 和 “one-shot”两个非计算机专业的词汇。由于谷歌翻译对术语翻译的高准确性,初涉翻译者可以省去查阅术语的时间,信心也会大增。

缺点:

作为机器翻译,谷歌翻译也具有机器翻译的一些缺陷,如对某些词的词性的确认不准确。上例中的“完成用户添加”中的添加为名词,但是被谷歌翻译成为动词“to add”。为了使得文章流畅且易于阅读,译者需要修改译文,例如将不定式改成现在分词,调整语序,将长句分为短句。如果由于汉语以及英语的修饰语位置不同,文化的差异等原因造成以目标语为母语的读者无法读懂译文,译者就必须删掉机器翻译的译文,将其重新翻译。

教材编写中可以以案例来解说如何修改机器翻译之译文。应该取原文段落,根据上下文情境修改机器译文。应该归纳修改的步骤,使学生学习过不同案例后,能够掌握修改的技巧。分析机器翻译错误之前,应该先研究机器翻译之译文错误有哪些类型(即哪些错误类型)。由于现行研究机器翻译之译文错误,常常依照研究者所遇的情况而一一分析,常常将“个案”误判为”类型”。由于无法掌握目前分析的类型是否属于常出现的类型,造成所分析结果并不是机器翻译的译文修饰之关键模式,就如以往的语言错误分析,研究者常由下往上分析所遇到的各种个案之语言错误,无法得知目前所分析的错误是否是学生常犯的错误典型,造成常常误将少出现的错误视为常出现的错误典型。

编者在分析译文错误类型之前,可先大量收集机器翻译的译文而建立语料库。首先得出常出现的机器翻译译文错误类型,进而分析,以便所研究结果能帮助实际翻译运作。机器翻译即使修改多次,除非修改机器翻译的模式,仍要修改,导致修改知识无法累积。建议将分析结果提升为修改的模式,以便能改善机器翻译的内部修改模式之机制。再者建议机器翻译能让译者自行做一些修改,以便避免译者一直修改机器翻译重复出现的错误。因此目前机器翻译改善空间很大。

4 翻译记忆系统应用于翻译课程的优点

目前国内常用两大翻译记忆系统(翻译资料库)的电脑辅助翻译软件:Trados产品, 雅信。根据LISA的统计,其中Trados占71%的市场([3]林茂松/陈苹其2006,91),所以本文章专注于Trados的研究。

翻译记忆(TM)技术原理是这样的:用户利用已有的原文和译文,建立起一个或多个翻译记忆库(Translation Memory),在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资源(如句子、段落),给出参考译文,使用户避免无谓的重复劳动,只需专注于新内容的翻译。翻译记忆库同时在后台不断学习和自动储存新的译文,变得越来越"聪明",效率越来越高。

为了让学生理解这个原理,可以进行案例讲解。选用的案例中包含的文章应有几个重复的句子或者几个相似的句子。例如关于“东莞圣心糕点博物馆”这个案例中的10篇文章(《双面饼模的故事》, 《五子登科饼模》,《状元及第饼模》等),几乎每篇文章都有“饮食文化源远流长”这个句子。这10篇文章简短,每篇约500字,易于讲解翻译技巧和方法,又能在电脑上演示TRADOS的应用,让学生熟悉软件的操作。

5 结论

有些翻译公司已在招聘信息中明确要求会使用Trados。在目前大学传统翻译课程,大都注重手工翻译,而很少对学生进行翻译软件方面的辅导,所以建议在翻译课程中训练学生使用翻译软件,而使学生更有就业竞争力。

要高效率地做好翻译,译者需要具有丰富的外语知识,良好的汉语基本功,以及宽广的知识面。但是现代社会是信息爆炸的时代,新事物快速涌现,好的翻译必须向“即学即用”的方向发展。为了将来能够应付翻译顾客的催稿,学生很有必要熟练应用电脑辅助翻译提高效率。笔者认为初涉翻译者更应将基于统计的翻译软件与翻译记忆系统结合,提高自己的翻译能力和效率。

参考文献

[1] 史宗玲 《TRADOS应用在外语教学及翻译研究之多元功能》,《TRADOS产学应用论文集:翻译记忆、知识管理及外语翻译教学》。台中:畹禾有限公司,2004

翻译器范文3

摘要:本文通过对机器翻译和人工翻译的比较,发现机器翻译有其速度快、效率高、词汇量大的优点,但也发现机器翻译存在的不足,比如翻译死板、灵活性低、句子歧义和存在文化因素的问题。通过举例,让我们对机器翻译存在的问题进行更好地探讨和克服,提高学生合理使用机器翻译的效率。

关键词:机器翻译 人工翻译 比较 学生 效率

1、引言

谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:“孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以‘达其意,通其欲’。”在这个计算机盛行的时代,网络信息激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一,同时也是学生们不可缺少的学习工具之一。合理地使用机器翻译英语,使英语专业的学生更快、更容易地掌握好翻译的技巧。虽然它不能完全取代人工翻译,但进一步了解并充分认识其存在的问题及弊端,以便在机器翻译和人工翻译之间做出恰当的选择或进行有机的结合。

2、机器翻译的含义

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理的一个分支,与计算语言学、自然语言理解之间存在着密不可分的关系。用以完成这一过程的软件叫做机器翻译软件。机器翻译之所以成为可能,一是因为两种语言之间存在着可译性,二是因为人的翻译过程具有可模拟性。

3、机器翻译软件及介绍

3.1 Babylon

来自以色列最强大的英文翻译软件,在全球已有超过70个国家2千2百万人使用。Babylon提供最专业英文翻译,有别于一般的翻译软件,Babylon最迷人的是可外加其他语言字典,提供让您翻译一次可同时得到其他语言的翻译。

3.2 谷歌金山词霸豆豆

是金山公司词霸家族全新打造的一款在线词典查询工具,是词霸向互联网转型的重要一步,目的在与通过互联网给广大英语学习用户提供即时、小巧的在线英语查词工具,通过互联网给用户提供更实时、更贴切的语言学习服务。

3.3 网译

拥有超过500万不重复词条数目,可谓庞大经抽样测试Dict.CN目前的词库己能基本包含印刷出版的权威词典所应该收录的所有单词,同时还包含了大量未经广泛使用和正式收录的词汇。词库目前涉及的专业种类包括了化学,生物,医药,计算机,土木,机械,工业,体育,政治,宗教,日常生活,工作求职,服饰打扮,食物菜谱,职称岗位,影视书籍中英对照名等等。

4、使用机器翻译英语的现状

从1954年第一次机器翻译试验成功到今天,一直被认为是一个大有可为的计算机应用领域。用户的需求是推动技术发展的原动力。随着我国计算机技术应用的普及和提高,计算机用户和上网人数迅速增长。许多流行软件和外国网站都是英文的,而且Internet上的信息绝大多数也是英文的,这严重地影响了国内用户的使用,因此对翻译软件的需求也日益增长。机器翻译为用户提供计算机应用过程中的阅读或写作帮助,此类软件通用性较强。此外,机器翻译软件近几年在学生中盛行。非英语专业的学生常用机器翻译选择题、完形填空、阅读理解里存在的陌生的单词、句子,他们追求的是把意思搞懂,不影响整个句子或者整个文段的理解即可。英语专业的学生通常用此类软件去深究文段里的内涵意思以及了解中文里的成语、谚语、俗语等翻译成英语的知识。

5、使用机器翻译英语的优点

5.1 速度快,效率高

机器翻译的基本优点是速度快、效率高,这也是受英语专业学生欢迎的原因之一。例如一段中文需要翻译成英文,用机器翻译只用复制粘贴就可以出来基本成形的英文,只要再花一点时间去修饰去调整就搞定了;而人工翻译却需要大量的时间,有时候常常忘记单词如何拼写,造成效率低、速度慢的结果。

5.2 词汇量大

现在的学生普遍出现词汇量短缺的现象,一些陌生的词语很难找到与其对应的英文单词,于是就用一些常见的单词代替,这就造成翻译后的英文不优美,太过于平常以及失去了作者想表达的意思,一段优美的中文翻译成英文就黯然失色。而且一些常用的成语、谚语、俗语都记不住或者混淆,有时候自己造的可能存在很多语法错误或者太过繁琐的问题。机器翻译能帮学生解决这个问题,再偏的中文词语它都能帮忙找到合适的英文单词,而且有些成语没有固定搭配的,它也能提供多种翻译供学生们选择。

6、使用机器翻译英语的弊端

6.1 翻译死板

使用机器翻译只是句法结构的和词汇的机械对应,对源语言的分析只是求解句法关系,完全不是意义上的理解。当碰到段落一句一句处理时,上下文又缺乏联系,翻译结果无法让读者看懂,与语言本身的灵活性存在差异。而人工翻译就能先理解整篇文章的意思,再根据需要适当地调整翻译顺序,这样读者就一目了然了。

6.2 词义选择和句子歧义问题

多义词是英文中普遍存在的,即一个单词有多种意思,现在的机器翻译还不能从多个意思中选择适当的一个,这是阻碍机器翻译的一个难题。例如:It was on the morning of Februarythe ninth that I arrived in London.机器翻译的结果就是它在2月的早上第九我到达了伦敦,而它正确的译文是2月9日早晨我到达了伦敦。在没有语境的情况下,英语句子常常存在着歧义。例如:He hit the boy with a stick.人工翻译有两种译文:“他用木棍打了那个男孩”或者“他打了拿着木棍的男孩”,而机器翻译的结果就只有第一种。

6.3 文化因素的问题

对带文化色彩的语句,机器翻译和人工翻译真是有着天壤之别。例如:Pandora’s box.这句话的意思是潘朵拉的盒子,源自于希腊神话,而机器翻译会翻成Pandora箱子,以此看来,机器根本无法识别“Pandora这个词。人工翻译一般可以通过音译加注、释义、增益、归化等灵活手段来对遗漏的文化信息进行补充,而机器翻译几乎是不可能的。如果都使用机器翻译,那么大量的文化信息就会在翻译过程中遗失,以至于读者在译文中得不到原文所表达的意思。

翻译器范文4

关键词: Python 语言;在线翻译;专业英语

1 概述

在专业英语的教学过程中, 常常使用 “有道翻译”或 “百度翻译” 来辅助翻译中英文. 在使用 “有道翻译” 过程中, 翻译专业性较强的英语文章时, 虽然可以满足工作的需要, 但在备课过程中总是不停地打开网站, 输入文字进行检索, 这样的操作步骤总是反复地执行, 为日常工作带来不便, 因此, 需要制作一个使用方便、 快捷的英语翻译器辅助备课.

英语翻译器通过 Python 易学易用的特点和丰富的第三方库, 为广大非计算机程序设计人士拓展专业领域提供机会, 使设计英语翻译器变为现实.

2 需求分析

结合日常教学经验和学生学习过程中反馈的情况,专业英语翻译器应该具备以下功能:

(1) 具备输入翻译内容和输出翻译结果的界面及功能.

(2) 具备在汉字和英文之间的自动切换翻译功能.

3 翻译器结构

专业英语翻译器主要分翻译输入、 完成翻译和结果输出 3 大部分. 其中, 翻译输入和结果输出为界面展现部分, 方便用户使用; 完成翻译功能为翻译器的主要功能, 借助 Python 调取 “有道翻译” 数据接口进行翻译转换, 并输出结果.

4 翻译器业务流程

在开发翻译器前, 需要先了解程序的业务流程. 根据翻译器的需求分析及功能结构, 设计出如图 1 所示的系统业务流程图.

5 开发环境

翻译器软件开发及运行环境具体如下:

(1) 操作系统: Windows 7、 Windows 10.

(2) Python 版本: Python 3.8.

(3) 开发环境: VsCode.

(4) Python 内置模块: Tkinter.

(5) Python 库: Requests 库.

6 功能实现

软件主要使用了 Requests 库和 Tkinter 窗口视窗设计的模块, 调用有道翻译接口完成翻译功能:

6.1 Requests 库在 Web 后台开发过程中, 会遇到需要向第三方发送 http 请求的场景, Python 中的 Requests 库可以很好地满足这一要求.

Requests 模块数据第三方库, 这里使用 pip 进行安装: pip install requests.

6.2 Tkinter 模块

Tkinter 是 Python 的 标 准 GUI 库 . Python 使 用Tkinter 可以快速的创建 GUI 应用程序. 由于 Tkinter是内置到 Python 的安装包中、 只要安装好 Python 之后就能 import Tkinter 库、 而且 IDLE 也是用 Tkinter编写而成、 对于简单的图形界面 Tkinter 还是能应付自如.

6.3 有道翻译接口

有道翻译 API, 为广大开发者提供开放接口, 或网站可通过有道翻译 API, 构建丰富多样的功能或应用,为用户带来即时、 准确、 方便的查词或翻译体验, 从而降低语言理解与应用门槛

6.4 程序设计

定义 Translate 类, 主要功能:

(1) def _init_ (self): 初始化窗口名称及大小、 创建一个输入框用于等待用户输入、 创建一个文本展示框用于输出翻译结果.

(2) def gui_arrang (self) : 完成页面元素布局, 设置各部件的位置.

(3) def fanyi (self) : 完成翻译功能.

(4) def cle (self) : 用于清空输出框的内容.

(5) def cle_e (self) : 用于清空输入框的内容.

定义主函数 def main() :主要用于完成对 Translate 类的实例化和调用, 为整个软件的启动入口.

6.5 程序代码

test.py # -*- coding:utf-8 -*-import requests from requests.exceptions import RequestException #import tk#tkinter as tk import Tkinter as tk class Translate(): def __init__(self): self.window = tk.Tk() # 创建 window 窗口self.window.title("专业英语翻译器") # 定义 # 窗口名称 self.window.resizable(0, 0) # 禁止调整窗口 # 大小 self.input = tk.Entry(self.window, width=80) # 创建一个输入框,并设置尺寸 self.info = tk.Text(self.window, height=18) # 创建一个文本展示框,并设置尺寸 # 添加一个按钮,用于触发翻译功能 self.t_button = tk.Button(self.window, text=' 翻译 ', relief=tk.RAISED, width=8, height=1, command=self.fanyi) # 添加一个按钮,用于触发清空输入框功能 self.c_button1 = tk.Button(self.window, text=' 清空输入 ', relief=tk.RAISED, width=8, height=1, command=self.cle_e) # 添加一个按钮,用于触发清空输出框功能 self.c_button2 = tk.Button(self.window, text=' 清空输出 ', relief=tk.RAISED, width=8, height=1, command=self.cle) # 添加一张图标 self.image_file = tk.PhotoImage(file='logo.fw.png') self.label_image = tk.Label(self.window, image=self.image_file) def gui_arrang(self): """完成页面元素布局,设置各部件的位置""" self.input.grid(row=0, sticky="W", padx=1) self.info.grid(row=1) self.t_button.grid(row=0, column=1, padx=2) self.c_button1.grid(row=0, column=2, padx=2) self.c_button2.grid(row=0, column=3, padx=2) self.label_image.grid(row=1, column=1, columnspan=3) def fanyi(self): """定义一个函数,完成翻译功能""" original_str = self.input.get() # 定义一个 # 变量,用来接收输入框输入的值 data = { 'doctype': 'json', 'type': 'AUTO', 'i': original_str # 将输入框输入的值,赋给接口参数 } url = "fanyi.youdao.com/translate" try: r = requests.get(url, params=data) if r.status_code == 200: result = r.json() translate_result = result['translateRe- sult'][0][0]["tgt"] self.info.delete(1.0, "end") # 输出翻译 # 内容前,先清空输出框的内容 self.info.insert('end', translate_result) # 将翻译结果添加到输出框中 except RequestException: self.info.insert('end', "发生错误") def cle(self): """定义一个函数,用于清空输出框的内容""" self.info.delete(1.0, "end") # 从第一行清除到 # 最后一行 def cle_e(self): """定义一个函数,用于清空输入框的内容""" self.input.delete(0, "end") def main(): t = Translate() t.gui_arrang() tk.mainloop() if __name__ == '__main__': main()

6.6 程序界面如图 2 所示.

7 结语

文中所设计的翻译器软件仅仅是一个不成熟的作品, 还需要在实践和应用中继续丰富和完善. 在人工智能不断发展的今天, 像这样的人工智能产物将层出不穷.

参考文献

翻译器范文5

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

翻译器范文6

关键词:试题;语料;剖析树;自然语言;机器翻译;TIMSS

中图分类号:H315.9 文献标识码:A 文章编号:1672-3104(2013)05?0244?08

一、引言

国际教育学习成就调查委员会(The International Association for the Evaluation of Education Achievement, 以下简称IEA)的主要工作是了解各国学生数学及科学(含物?、化学、生物、及地球科学)方面学习成就、教育环境等影响学生学习成效的因素,找出关联性,并在国际间相互作比较。自1970年起开始第一次国际数学与科学教育成就调查后,世界各国逐渐对国际数学与科学教育成就研究感到兴趣,IEA便在1995年开始每四年办?国际数学与科学教育成就研究一次,称为国际数学与科学教育成就趋势调查(Trends in International Mathematics and Science Study,以下简称TIMSS )。

中国教育科学研究院于1983年正式成为IEA的团体会员,并计划加入和引进TIMSS的调研活动,以期对中国数学教育和科学教育产生积极的作用。而我国的台湾省于1999年加入TIMSS后,已经开始着手实施相关工作,包括负责试题翻译及测验工作。本文在对国外和台湾的相关试题测试工作进行研究和分析后,对TIMSS试题翻译作了初步的研究分析。

以往使用人工翻译虽然可以达到很高的翻译质量,但是需要耗费相当多的人力资源和时间,而且在翻译过程中不同的翻译者会有不同的翻译标准,相同的翻译者也可能在文章前后翻译方式不一致而产生语意上的混淆。因此此类语言转换导致的问题间接影响试题难易程度。若直接将英文词汇透过英汉字典翻译成相对的中文词汇,翻译的结果可能会不符合一般人的用词顺序。另外中文的自由度较高,很容易造成翻译上用词顺序的不同。例如:“下图显示某一个国家所种谷物的分布图”,也可翻译为“某一个国家所种谷物的分布图,如下图显示”。可能会影响到受测者的思绪,使作答时粗心的情形增加。因此,若能?用机器翻译(machine translation)的技术来辅助翻译以及调整词序,便可提高翻译的质量和效率。

Dorr等学者[1]将现在机器翻译依据系统处?的方式来分类,分成以语言学为基础翻译(linguistic-based paradigms),例如基于知识(knowledge-based)和基于规则(rule-based)等;以及非语言学为基础翻译(non- linguistic-based paradigms) ,例如基于统计(statistical- based)和基于范例(example-based)等。

以知识为基础的机器翻译(knowledge-based machine translation)系统是运用字典、语法规则或是语言学家的知识来帮助翻译。这种?用字典来帮助翻译的系统,会有一字多义的情形发生,一个词汇在字典中通常有一个以上的翻译。以英翻中为例“current”这个字在字典里就有十多种不同的翻译,即使专家也无法找出一个统一的规则,在何种情况下要用何种翻译,所以在翻译的质量和正确性上很难满足使用者的的需求。因此,翻译系统通常都会限定领域来减少一字多义,例如“current”在电子电机类的文章中出现,最常被翻译为电流,在文学类的文章中,最常被翻译为现代。

以范例为基础的机器翻译(example-based machine translation,以下简称为EBMT)的相关研究已有相当多年历史,在1990年美国学者Brown和Pietra[2]所提出的EBMT是将翻译过程分为分解(decomposition)、转换(transfer)和合成(composition)三步骤。分解阶段是将来源句放到范例库中搜寻,将所搜寻到word- dependency tree当作来源句的word-dependency tree,并且形成来源句的表示式;转换阶段将来源句的表示式转换成目标句的表示式;合成阶段将目标句的表示式展开为目标句的word-dependency tree,并输出翻译结果。Al- Adhaileh等学者[3]将structured string tree correspondence(SSTC)运用在英文翻译成马来西亚文的过程中,SSTC是一种能将英文对应马来西亚文的结构,但此结构并没有解决词序交换的问题。目前较完整的EBMT系统为tree-string correspondence (TSC)结构和统计式模型所组成的EBMT系统[4],在比对TSC结构的机制是计算来源句剖析树和TSC比对的分数,产生翻译的是由来源词汇翻译成目标词汇的机率和目标句的语言模型所组成。

我们提出双语树对应字符串的结构(bilingual structured string tree correspondence,简称为BSSTC)是可以运用在多元剖析树上的,并且BSSTC可在翻译过程中当作词序交换的参考。根据我们实验结果,我们能有效的调动词序,以提升翻译的质量。完成词序交换后,再透过字典翻译成中文,最后运用统计式选词模型,产生初步翻译结果,但本系统尚属于半自动翻译系统,故需要人工加以修饰编辑。

二、系统架构

由于我们的目的在于?用中英互为翻译的句子找出词序关系,并且将英文句和中文句词序的信息储存在计算机中,储存的格式是将中英文句的词序关系记录在英文剖析树的结构中,此结构将成为之后英文句的结构调整为适合中文的结构的参考。最后再将英文词汇翻译成中文词汇,并?用统计式选词选出最有可能翻译成的中文词汇,让翻译的结果更符合一般人的用词和顺序。

本系统的架构如图1所示。我们针对范例树产生的系统和英文句翻译系统这两部份分别简介如下。

范例树产生系统:这个系统?用中英平行语料作为基础,这里的中英平行语料必需要一句英文句对应一句中文句,且每一组中英文句都要是互为翻译的句子。中文句经过断词处?后,被断成数个中文词汇,以空白隔开;英文句则经过英文剖析器建成英文剖析树。将断词后的结果和英文剖析树经过剖析树对应字符串模块处?,建成英文剖析树对应字符串的结构树,此结构树称为范例树。再将每个范例树取出子树,并且判断是否有词序交换,将需要词序交换的范例树全部存入范例树数据库中方便搜寻。

英文句翻译系统:当输入英文句后,先将句子透过英文剖析器,建成英文剖析树。有了英文剖析树就可以透过搜寻范例树模块,标记英文剖析树上需要调动词序的结构,并依照所标记的词序作调整。词序调整完成后再将英文结构树中的英文单字或词组透过翻译模块做翻译。其中翻译模块包含了大小写转换、断词处?和禁用词过滤等环节,之后将处?过的词汇透过字典文件做翻译[5]。每个英文单字或词组都可能有一个以上的中文翻译,因此需要选词的机制来产生初步翻译结果,此翻译结果尚需要人工作后续的编修。

三、系统相关技术

根据上一节介绍,系统架构分为范例树产生系统和英文句翻译系统两大系统。范例树产生系统的执行流程为先处理中文句断词和剖析英文句,再将断词和剖析后的结果输入至剖析树对应字符串模块,并将处?后的范例树存入数据库中。英文句翻译系统的执行流程区分为三大部分,第一部分为搜寻范例树模块,将英文剖析树跟范例树数据库作比对,并且将未比对到的子树做修剪;第二部分将修剪后的剖析树输入到翻译模块翻成中文;第三部分以中英词汇对?工具及bi-gram语言模型,计算出中英词汇间最有可能之翻译组合。

(一) 双语树对应字符串的结构(BSSTC)

在建立BSSTC结构之前,我们必须将中英平行语料中的中英文句先作前处?,我们将英文句透过StanfordLexParser-1.6[6]建成剖析树,剖析树的每个叶子节点为一个英文单字,并以英文单字为单位由1开始标号。这里我们将树根定义为第0层,树根的子树是第1层,越往下层数越大,故叶子节点必定是英文单字,且不属于任何一层,如图2所示。中文句子断词后的单位由1开始标号。这里的中文句代表来源句;英文句则代表目标句。本结构都假设中英文对应是在词汇的对应或连续字符串的对应基础上。假设剖析树的节点集合N={N1, N2, …, Nm},m为剖析树上节点个数,对任一节点n∈N,n有三个参数分别是n[STREE//]、n[/STC/]和n[//ORDER];我们以n[STREE/STC/ORDER]来表示。为了方便说明,若节点n只有n[STREE//]和n[/STC/],则以n[STREE/STC/]表示。再假设nC(n)为节点n有1到C(n)个子节点。n[STREE//]为节点n所涵盖来源句的范围,层数最大节点的n[STREE//]必定对应到一个来源句单字,此参数的功用为当作每个节点的键值(primary key),故在同一棵剖析树中n[STREE//]不会重复。图3是一个BSSTC结构的例子,来源句为英文:“Our experiments were simple in concept”;目标句为中文:“我们的实验概念很简单”。首先英文句必须先建成剖析树,每个叶子节点为一个英文单字,并以英文单字为单位做标号,例如:“Our(1)”, “ex-periments(2)”, “were(3)”, “simple(4)”, “in(5)”,“concept(6)”。另外中文句经过断词的处?后,以断词后的单位做标号,例如:“我们(1)”, “的(2)”, “实验(3)”, “概念(4)”, “很(5)”, “简单(6)”。中英对应句都标号后,以标号为单位开始做词汇对准(word alignment),并标记在剖析树的节点上。剖析树是用文法结构来分层,不同层节点能对应到不同的范围的目标句字符串。n[STREE/STC/]若为VP[3-6/4-6/],则STREE代表节点VP对应来源句第三到第六个字 “were simple in concept”;STC代表“were simple in concept”对应目标句的第四到第六个字“概念很简单”。nC(n) [STREE/STC/ORDER]的兄弟节点(sibling node)若为JJ[4/6/2]和PP[5-6/4/1],我们可以观察到JJ的ORDER大于PP的ORDER,故PP[5-6/4/1]的中文对应「概念在JJ[4/6/2] 的中文对应「简单之前。

(二) 建立BSSTC结构和产生范例树

建立BSSTC结构必需要有英文跟中文互为翻译的句子,建构的顺序是从最底层也就是层数最大的开始标记,再一层一层往上建置到第0层为止,标记参数顺序是先将所有节点的n[STREE//]和n[/STC/]标记完后,再标记n[//ORDER]。首先,标记最底层n[STREE//]的方法,是将最底层的节点n所对应叶子节点的编号标记在n[STREE//]。如图3节点NNS所对应来源句的“experiments”的编号为2,故NNS [STREE//]中的STREE标记为2。接着标记最底层n[/STC/]的方法是寻找中英对应句中互为翻译的中文词汇和英文词汇,也就是词汇对准。词汇对准若采用人工方式,则相当耗时费力,其本身也是一项困难的研究。如图3来源句的“experiments”在字典中的翻译有“实验”、“经验”和“试验”,将这三个中文翻译到目标句去比对,此例子将会比对到目标句第三个词汇“实验”,接着将目标句“实验”的编号标记在NNS[2/STC/]中的STC上。最后将比对到的个数除以英文句单字的个数,称为对应率。最佳情况下是每个英文单字都有相对应的中文翻译,对应率为1;最差的情况下每个英文单字都没有相对应的中文翻译,对应率为0,所以对应率会落在0到1之间,值越大代表对应率越高。我们需要够大的对应率,才能认定为范例树。因此,需要定一个门坎值来筛选,根据实验结果当门坎值越高留下来的范例树越少,而门坎值越低会使翻译的质量下降。

(三) 搜寻相同范例树

根据搜寻范例树算法的流程,如图7。首先将来源句的剖析树加到数?(queue)里,从数?里面取出一棵剖析树到范例树数据库中,搜寻是否有相同结构的范例树;如为否,则将此棵树的下一层的子树加入数?,加入数?的顺序为左子树到右子树;如为是,则将该树的ORDER标记在来源句的剖析树上,继续取出数?内的剖析树,直到数?里没有剖析树为止。所以来源句的剖析树是由一个以上的匹配子树所组成。

图6为剖析树搜寻范例树的情形。来源句:“The graph shows the heights of four girls”,剖析树为“(S(NP(DT The)(NN graph))(VP(VBZ shows) (NP(NP(DT the)(NNS heights))(PP(IN of)(NP(CD four) (NNS girls)))))”。透过搜寻范例树算法找出匹配子树,首先以节点S为树根的剖析树到数据库作搜寻,搜寻时不包含叶子节点,此例子没搜寻到匹配子树,则将节点S的子树NP和VP加入数?中。接下来将从数?中取出的子树为NP,到范例树数据库搜寻匹配子树,但数据库中没有相同的范例树,此时NP的子树皆为叶子节点,所以并无子树在加入数?中。依照先进先出的原则下一个从数?取出的是S的右子树VP,在范例树数据库中还是搜寻不到,因此要将VP的子树VBZ和NP加入数?中,但VBZ为叶子节点,故只有NP加入数?中。接下来是子树NP从数?中被取出来,子树NP在数据库中搜寻到相同的范例树,如图六的范例树就是所搜寻到的匹配子树,因此将范例树的ORDER标记上去,标记后的剖析树将如图8所示。此时数?中已经为空,搜寻范例树的流程到此为止。

标记完ORDER之后,将没有标记的子树作修剪,也就是将不用作词序交换的子树修剪到最小层树。如图8节点S的右子树、NP[2]和NP[1]的子树皆不需要作词序交换,因此修剪的结果为“(S(NP The graph) (VP(VBZ shows)(NP(NP[2] the heights)(PP[1](IN[2] of)(NP[1] four girls))))) ”,如图9所示。最后从层数最大的每个兄弟节点开始逐层往上依照优先权顺序调整剖析树的结构;调整后的结果将会输入到翻译模块产生翻译。若我们直接取来源句剖析树的叶子节点作翻译,将会成为单字式的翻译,我们将无法对词组或词组作翻译。翻译的部分会在下一节会作详细说明。

(四) 翻译处理

经过上一节处?最后得到修剪树,修剪树的叶子节点可能为英文单字(word)、词组(term)。词组即为数个单字结合的字符串,不一定为完整的句子,如“would be left on the floor”或词组(phrase,如名词词组、动词词组、形容词词组等) ,如“in order to”。在翻译处?上会遇到英文单字或词组,在英文单字的部分,直接查寻字典文件作翻译;词组的部分?用规则词典文件的词组,和词组进行字符串比对,以找出符合的词组及中文翻译。以下为字典文件及规则词典文件分项说明。

字典文件:字典文件部分我们使用Concise Oxford English Dictionary[8](牛津现代英汉双解词典,收录39429个词汇),将前处?过后的英文单字或词组做翻译对等字搜寻的动作,找出所有和该英文单字的中文词组,作为翻译的候选名单。如无法在字典文件中搜寻到对应的中文翻译。如姓名和专有名词,则直接输出该英文字。

规则词典文件:为常用的名词词组、动词词组、形容词词组等词组,以及试题翻译小组所决议之统一翻译词组以人工的方式建立的中英翻译对照档,如in order to(为了)。 分成单字和词组翻译是因为若在规则词典文件比对不到,则用空白来做一般字和字之间的断词,也就变成单字的翻译,因为词组较能完整表现出动作或叙述。如只用单字作翻译,会造成翻译上的错误。须注意的是比对的句型若有相似结构但不同长度的字符串样式,则取长度最长的为结果。如一英文句子为“…as shown in diagram…”,同时满足规则词典文件内的“as shown in diagram”和“in diagram”片语句型,则我们会选择长度较长的“as shown in diagram”而不是选择“in diagram”加上“as show”作为断词的结果。 在英文翻译成中文的过程中,有些英文单字不需要翻译或是无意义的情形,所以我们将这些单字过滤不翻译,这些单字称为stop word。例如:冠词the直接去除。介词for、to、of等,若前一单字为what、how、who、when、why等疑问词,则允许删除,另外,to出现在句首直接删除。助动词do、does等,判断方式与介词相同。在翻译过程中还可能出现词干变化(如~ing、~ed等)和词性变化(如动词break,其过去式为broke,被动式为broken,以及名词单复数型态)。词干变化的部份,我们可以还原各词性(名词、动词、形容词、副词);词性变化的部分,有些是不规则的变化,较难用算法处?。

四、系统翻译效果评估

本节主要介绍?用本系统翻译国际数学与科学教育成就趋势调查2010年考题,简称TIMSS2010,并将试题依照年龄别和科目别,分别比较翻译的质量。最后将与在线翻译以及已经研发在用的翻译系统作比较。评估方式为?用BLEU(IBM公司的机器翻译评测标准)及美国国家标准与技术研究院NIST(National Institute of Standards and Technology)指标。

(一) 实验来源

用来翻译的来源为TIMSS2010试题, 所有实验语料句对数、中英词汇数、中英总词汇个数及平均句长,皆如表1所示。用来建立范例树的来源有中国教育科学院委托北京实验二小和北京第四中学语文学习教科书补充资料题库[7]及科学人杂志。补充数据题库以人工方式完成中英语句对?(sentence alignment),再经过范例树的筛选门坎值为0.6的情况下有565句。 用来训练选词机率模型的来源有自由时报中英对照读新闻及科学人杂志。自由时报中英对照读新闻从2009年2月14日至2011年10月31日,而自由时报中英对照读新闻本身就已经作好中英语句对?。科学人杂志是从2006年3月至2009年12月共110 篇为语料来源。

(二) 实验设计

首先,将TIMSS2010试题问句以逗号、问号或惊叹号作为断句的单位,每个诱答选项做为断句的单位,若一道题目为一句试题问句及四项诱答选项所组成,则一道题目可断出五句。经过人工断句处?TIMSS2010试题,小学数学领域有165句;小学科学领域有262句;中学数学领域有439句;中学科学领域有236句,并整?为文字文件。建立范例树数据库所使用的语料为中学补充数据题库,训练机率模型所使用的语料自由时报中英对照读新闻加上科学人杂志,其中训练语言模型得到的bi-gram共有134435个。

主要评估的对象有Google在线翻译、Yahoo在线翻译及本系统互相做比较,并且评估翻译系统在不同年级的试题内容上,翻译质量是否会按照越低年级其翻译质量越好的趋势。因此,我们将实验组别分为中学生段和小学生段;数学领域以M为代号,科学领域以S为代号,当作实验组别的名称。可以TIMSS2010分为中学段2010 M组、中学段2010 S组、小学段2010 M组及以小学段2010 S组四组;在加上TIMSS 2010数学及科学领域之中学段试题,和TIMSS 2010数学及科学领域之小学段试题,分别为中学段2010MS组及小学段2010MS组,总共六组,如表2所示。

(三) 实验结果

从表3可观察到,中学段2010 M组NIST分数以Yahoo!最高分,但BLEU分数与本系统相近,可知Yahoo对中学段2010 M组所翻译的词汇跟参考翻译较相同,但Yahoo和本系统翻译后词序的正确性是差不多的。小学段2010 M组试题中有较多特殊符号,例如和等,Yahoo及Google在线翻译系统会将这些特殊符号处?成乱码,但本系统可以将特殊符号保留下来,故小学段和中学段2010 M组与最高分系统的差距较小。先前我们假设翻译质量是否会按照越低年级其翻译质量越好的趋势,观察中学段2010MS组及小学段MS组,可发现与假设相反,各系统在中学段2010 MS组的表现都比小学段2010 MS组要好。可推测出本系统其中一种语料为中学补充数据题库较符合TIMSS中学段2010的试题。

我们将中学段2010M组和中学段2010S组作比较,小学段2010 M组和小学段2010 S组作比较,可以发现各系统除了Google之外,在M组上表现都比S组好,因为M组的试题内容包含较多的数字,对于翻译系统较容易处?,而S组则包含较多专有名词,对于翻译系统较为困难。

五、结论

本论文提出BSSTC结构,此结构能够记录来源句词汇的位置、目标句词汇的位置及来源句与目标句词汇对应的关系;并且将BSSTC结构运用在我们实作的翻译系统上。本系统是?用BSSTC结构建立范例树,将来源句经过搜寻范例树算法,来达到修正词序的目的。最后,在依据修正后的词序进行翻译,翻译时再?用中英词汇对?工具及bi-gram语言模型,选出最适合的中文翻译,产生建议的翻译,此翻译还需要人工修整。 TIMSS的试题为数学及科学类,应该要用大量数学及科学类的语料,但实际上我们并无法找到够多的数学及科学类语料,尤其以中英对应的语料最少,所以我们选用新闻及补充数据题库来拟补语料的不足。不过训练量还是不够多,在选词上会有许多机率为0的情况,造成选词错误。未来将尽量找寻相关领域的语料,来建立范例树和训练语言模型,就能针对不同领域的内容进行翻译,使翻译的结果更为精确。 训练语料中的断词是使用国外的系统,而我们翻译使用的字典为牛津字典,两者所使用的字典并不相同,会使断词后的词汇可能无法在牛津字典中找到,造成选词错误。未来可将翻译后的词汇,找出同义词来扩充词汇数,便能增加被找到的可能性。

英文的语言特性上并没有量词,而中文句中运用了很多的量词,如缺少量词也会使中文的流畅度下将。本系统的翻译结果也缺少中文的量词。未来若能将翻译结果填补上缺少的量词,便可达到更好的质量,这也是我们今后要做的工作。

参考文献:

[1] B. J. Dorr, P. W. Jordan and J. W. Benoit. “A Survey of Current Paradigms in Machine Translation” Advances in Computers [M]. London: Academic Press, 1999: 1?8.

[2] P. F. Brown, J. Cocke, S. A. D. Pietra, V. J. D. Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer and P. S. Roossin. A Statistical Approach to Machine Translation [J]. Computa-tional Linguistics, 1990, 12(6): 79?85.

[3] M. H. Al-Adhaileh, T. E. Kong and Y. Zaharin, A synchronization structure of SSTC and its applications in machine translation [C]// Proceedings of the International Conference on Computational Linguistics-2002 Post- Conference Workshop on Machine Translation in Asia. 2002: 1?8.

[4] Z. Liu, H. Wang and H. Wu. Example-based Machine Translation Based on TSC and Statistical Generation [C]// Proceedings of the Tenth Machine Translation Summit, 2005: 25?32.

[5] 桂诗春. 标准化考试一理论、原则与方法[M]. 广州: 广东高等教育出版社, 1986.

[6] R.L.桑代克E.P.哈根. 心理与教育的测量和评价[M]. 北京: 人民教育出版社, 1985.

翻译器范文7

不同国家、不同语言的民族在语言上的鸿沟永远是信息交流的最大障碍,对于信息化社会更是如此。机器翻译就是由电脑中的翻译软件来实现语言的自动翻译,也就是让计算机来充当我们的翻译专家。译星是中国计算机软件与技术服务总公司研制开发的产品,于1988年进入商品化市场,是世界上第一个英汉机器翻译商品化产品。

译星采用目前通用的机器翻译技术“转换法”或“基于规则的方法”,即从源语言的语法形式翻译成为目标语的语法形式。这种分析方法的分析重点是语言的语法结构。“转换法”实际上是在源语言和目标语之间做结构的转换。同时,由于人脑翻译更侧重于对语言意义(语义)的理解,为了提高译星机器翻译的人工智能程度,译星机器翻译技术又加强了对语言的语义分析,采用了逻辑语义学。这种技术就是在语法分析的基础上,融入大量的语义分析,即在对源语言进行语法分析的同时,结合尽可能多的语义信息,从语言的意义上对语言做更深层次的分析,因而更接近人对语言的分析和理解过程,具有更高的人工智能程度。由于采用了更能反映语言本质和智能化程度更高的技术,译星系统在翻译质量上一直处于领先的地位。

翻译记忆,简单的说就是把已经翻译过的译文在计算机里存储起来,将原文、译文记忆在翻译记忆软件中,当再进行新的翻译时,翻译记忆软件可以搜索和提取在翻译记忆库里相同或相似的原文及译文结果,从而使新的翻译不必重新进行,因为可以参照和使用以往的翻译结果,所以大大提高了翻译效率。

当今世界国际交流日益频繁,世界经济一体化,而语言障碍就成为一个十分突出的问题,因此如何高效率、低成本地进行语言翻译就显得格外重要。翻译记忆技术就是在这种背景下产生的,它为克服语言障碍,提供了一种简便实用的途径。目前,翻译记忆技术在国际翻译市场上可以说已经形成了相当的规模。

另外,近年又出现了一种新的趋势,那就是翻译记忆技术与机器翻译技术的结合。这两种技术可以说互为补充,因为翻译记忆无法翻译没有记忆的语言,或者由于寻找不到匹配度足够高的原文,而无法输出译文,而这时就可以使用机器翻译实现自动翻译;相反,机器翻译本身由于受技术发展的限制,目前还无法产生令人足够满意的译文,而翻译记忆则提供已经翻译好的人工译文,因而在翻译质量上弥补了机器翻译的不足。

翻译器范文8

关键词:翻译规范、哈利波特与死亡圣器、大陆译本、台湾译本

中图分类号:H059 文献标识码:A 文章编号:1006-026X(2014)01-0000-01

1.引言

自二十世纪七十年代以来,翻译研究迅速发展起来。Even-Zohar提出了多元系统理论。他用一种描述性的以目标语为中心的,关注功能和系统的方法来进行翻译研究。从此,翻译研究开始从纯理论研究走向文本描述。到了二十世纪九十年代,Toury在前人研究的基础上提出了系统的描写翻译研究理论。Toury(1995:21-112)认为,如果翻译研究不想依靠语言学等其他学科并自身成为一门独立的学科,那么它必须发展一种描写性方法。Toury提出了著名的翻译规范理论。它通过对译者翻译行为趋势的描写和研究来构筑翻译研究的理论体系,并将其运用到翻译实践和翻译相关活动中,作为理论指导。

本文选择了人民文学出版社和台湾皇冠出版社出版的哈利波特系列小说第七本两个版本作为文本分析对象,分别从三个翻译规范的角度研究并比较了大陆和台湾两个中文译本在各个层次上的翻译规范。

2.预备规范

预备规范包括翻译方针的选择以及翻译的直接程度,是翻译行为开始前影响译者的宏观因素。

我们来看一下大陆的翻译版本及其译者。在哈利波特的前六本的译本中,由于译者在不断变换,我们会发现译作中出现主人公名字前后不一致、作品风格截然不同等问题。为了在作品风格和语言上达到高度一致,哈利波特系列小说第七本的翻译决定交由翻译经验丰富的马氏姐妹。由于马爱新在国外,两姐妹经常通过电话邮件等方式进行沟通,翻译出来的第七本也大受欢迎。

台湾系列译本,前三本是由彭倩文所译。彭倩文也翻译过许多儿童文学作品,包括Peter Carey的Jack Maggs,Thomas Keneally的Schindler’s List等。后三本由彭倩文为首的团队翻译。

J.K.Rowling的哈利波特系列主要的受众群体是儿童,所以原文语言浅显易懂,简单活泼,便于儿童理解和接受。因此,译文的总体风格应与原文保持一致,采用平实简单的语言,但又要生动活泼,引人入胜。两本译文在这一点上都把握住了基本方向。

3.初始规范

初始规范是译者自身的宏观选择,确定译文究竟是倾向源语规范还是目的语规范,是更注重译文充分性还是可接受性。

Example 1:

Lupin,greyer,more lined; …… and Mundungus Fletcher,small dirty and hangdog,with his droopy,basset hound’s eyes and matted hair.

马译:卢平,更加憔悴瘦削;……蒙顿格斯・弗莱奇,小个子,邋里邋遢,一副猥琐样,眼皮像短腿猎犬那样耷拉着,头发蓬乱纠结。

彭译:路平头发更白了,脸上的皱纹也更多了;……还有矮小肮脏、鬼鬼祟祟的蒙当葛・弗列契,一双无精打采的短腿猎犬眼睛和一头缺乏光泽的头发。

在描写Lupin的时候,“greyer,more linked”被分别翻译成了“更加憔悴瘦削”和“头发更白了,脸上的皱纹也更多了”。这样看来,大陆版本的描写稍显抽象,台湾版本的描写更加具体形象,就更容易为年轻读者们接受。

但在这里,我想指出的是同一译者在翻译同一部作品的过程中有可能从以源语规范为主转换到以目的语规范为主,反之亦然。这就说明翻译规范并不是一成不变的,译者在翻译的过程中,在考虑多种现实因素的情况下,可以不断进行选择。张南峰就曾指出:“翻译等比较复杂的活动,可供选择的行为比较多,例如一个词或者句子怎么译,甚至有无限的可能性”(2008:116)。总而言之,翻译是一个灵活多变的过程,译者也要具备随机应变的能力。本文所讨论的哈利波特第七本的两个译本在其所在地区都大受欢迎,可以说达到了可接受性和充分性的要求。

在翻译开始前,预备规范和初始规范决定了译者的宏观策略。而在翻译开始之后,则由操作规范影响译者的微观策略。

4.操作规范

操作规范涉及翻译过程中具体翻译策略的选择,可分为结构规范和语篇规范,属于影响翻译作品的微观因素。语篇规范包括语言规范和文学规范;结构规范主要是指译者在翻译中对原文本的增删、搬移和重组。

译者为了迎合目的语读者的阅读习惯,通常会对原文本进行省译、增译和改译。在JK罗琳创作这部作品的十年中,很多当年的小读者都已经长大,同样作品中的主人公们也长大了。从这个意义上来说的话,如果说第一本是一部儿童文学作品,那第七本就是一部青少年读物。作品的内容也从欢快喜悦的魔法世界变成了与邪恶势力作斗争的危险经历。第七本书的风格更加严肃沉郁。因而译者也会采用更加正式的词汇来描写主人公,来叙述整个故事。

在结构规范上,译者会根据目的与文化的习惯,对源语文本进行省译、增译和改译。总体来说,目的语规范对译者策略的选择起着主要作用。

语篇规范包括文学规范和语言规范,前者主要指译者决定用什么来翻译某种体裁、某种文学作品,后者则包括一般的语言或文体规范。

Example 2:

‘Genius!’yelled Harry.

马译:“你太有才了!”哈利喊道。

彭译:“真天才!”哈利喊道。

“你太有才了”这句话2007年春节联欢晚会后变成了热门词汇。台湾版译成“真天才”,只是将意思平实地表达出来。可以说,马译在这里更加的本土化,不仅具有充分性也有可接受性,而彭译只照顾到了后者。

在语篇规范上,台湾版和大陆版译本语法上尽量保持对源语文本的充分翻译,以学习英语语言规范,完善汉语;另一方面为了内容的传达以及译文的可接受性起见,又无法摆脱汉语的语言规范,在一定程度上仍倾向目的语的语言规范。

5.小结

总的来说,大陆版本的中文译本更加倾向于源语语言规范,比起可接受度来说更具充分性。相比而言,台湾版本译本以目标语语言规范为主,更具可接受性。但两个译本都比较忠实,译者的意图都得到了较好地实现。

翻译研究正在从规范性翻译研究走向描写翻译研究,规范性的翻译研究更多的是微观的研究,不够全面。翻译研究还应该有另一个视角,也就是宏观的视角。两者并不矛盾,两者应该结合起来,这样的翻译研究才能揭示翻译的全部。

References:

[1] Rowling,J.K.2007.Harry Potter and the Deathly Hallows.London:Bloomsbury Publishing Plc.

[2] Toury Gideon.Descriptive Translation Studies and Beyond[J].Amsterdam:John Benjamins Publishing Company,1995.

[3] 皇冠编译组译.哈利波特―死神的圣物[M].台北皇冠文化出版有限公司,2007.

翻译器范文9

关键词:词性 概念类别 机器翻译

一、引言

词性作为划分词类的依据一直是信息处理中一项重要的知识属性。在词语处理乃至句类结构分析中占有重要的地位。不过,词类更多地偏重于词语在句子中的语法功能,而忽略了词语意义对句子分析的作用,并且词类划分的标准过于粗略,未能从细节上对词语进行描述和区分。在语言信息处理中,对语言现象的分析和研究需要更有效更细致的区分,为此,HNC引入了词语的概念类别的信息。在概念类别中,不仅包含了词类的信息,同时还融入了语义的分类信息,并且构建了汉语词语知识库,对概念类别信息进行了标注。

在汉英及其翻译中,我们对概念类别与词类进行了对照,在源语言(汉语)分析阶段采用词类信息,并将词类信息中的关键类型LV概念作为句子分析的激活点,辅以相应的分析规则,完成目标语的分析。在目标语(英语)生成阶段,由于英语的形态特征比较明显,我们使用词性作为生成的依据,辅以相应的转换生成规则,完成目标语的转换与生成。

本文的工作已经应用于汉英专利文献机器语义翻译引擎中,作为语义翻译引擎的重要基础,发挥着支撑作用。经过测试,语义翻译引擎在小句转换、Eg识别、格式转换、辅块识别、并列结构识别中都有很好的应用效果,使得这些部分分析处理的正确率能够达到80%以上。

二、相关工作

概念层次网络理论[1]是一种服务于语言信息处理的关于语言的语义处理理论,自该理论产生之初,就已经提出了概念类别的划分方法,用以丰富单纯以词性作为划分词语的标准。

《HNC理论(导论)》[2]中,列出了概念类别划分的具体类型,并配以实例说明。但是概念类别的表述过于繁琐,且未对概念类别进行广义和狭义的区分。

长期以来,基于HNC理论的研究一直将概念类别作为重要的知识属性加以利用,在句类分析系统中,LV概念已经作为句类分析的激活点服务于句子结构的判断和语义块边界的辨识[3]。例:但这些信息未能直接在应用系统中进行检验。

概念关联知识是指概念节点、概念集群、概念类别之间关联性的各级类别表现。这是一张非常烦琐而脉络分明的关系网,其内容构成了概念关联知识库。

这些研究和应用都是在一种语言范围之内,尚未涉及到两种语言之间的对应问题。

张克亮[4]基于HNC理论开展了面向机器翻译的汉英句类及句式转换研究,探讨汉英句类及句式转换的一般性规律。李颖[5]研究了HNC机器翻译中语义块构成变换问题。

这些研究也仅停留在理论研究和构想阶段,对概念类别的描述仅是理论层面的,而且是片面的。对概念类别和词性之间的关系并未做具体的考察和对应,也未能对概念类别和词性两种信息在实际应用中的表现做出清晰的比较和判断。

本文集中于语义知识库中概念类别知识属性的研究,目前语义知识库已经包含了5万常用词语的知识,覆盖了500篇专利文献。另有30万专利领域词库,共计35万条词语。知识库服务的对象主要是汉英专利机器翻译系统。文本为说明概念类别而举的例子也都来自专利文献。

三、广义概念类别与狭义概念类别

本文的研究是建立在汉英机器翻译应用的基础上,所得的研究成果直接应用于汉英专利机器翻译的实际中。概念类别作为知识库中一项重要的知识属性,对其的标注直接得到翻译系统的检验,根据调试过程中反馈的结果对知识库进行修改和调整,做到知识库和翻译系统同步更新,极大地提高了翻译系统的性能。

概念类别是表述概念的语义类别特征的符号。概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识,是进一步调用其他知识的激活信息。

我们根据词语在汉英机器翻译具体应用中的表现,对概念类别进行了重新的调整和分类。首先,我们把概念类别划分为广义和狭义两大类,以服务于不同层面的语义分类需要。

(一)广义概念类别

广义概念类别是对词语语义信息的广义概括,可以看作是对词语语义的一级分类。分为人(P)、物(W)、静态概念(G)、动态概念、属性概念和逻辑概念六大类型。

概念是思维的基本形式之一,是人类在认识过程中把所感觉到的事物的共同特点抽取出来,加以概括而形成的。HNC首先把概念分为抽象概念和具体概念。抽象概念和具体概念是概念的两大分野,这一划分对知识表示具有非常重要的意义。具体概念可以分为人和物两大类(对应于名词),抽象概念可以分为动态概念(对应于动词)、静态概念(对应于名词)、属性概念(对应于形容词和副词)和逻辑概念(对应于虚词)四类。这些概念类型共同构成了广义概念类别的整体。见表1。

表1:

概念分类 词性 例词

具体概念 人 名词 人员

物 名词 水、装置

抽象概念 动态概念 动词 提供

静态概念 名词 技术

属性概念 形容词和副词 日常;快速

逻辑概念 虚词 对、而且

在知识库中,语义知识属性表示为Feature[Value]的形式,Feature表示知识属性名称,Value表示属性的取值。广义概念类别用GCC表示,如人员的广义概念类别是人,则表示为GCC[P];提供的广义概念类别是动态概念,则表示为GCC[V]。

(二)狭义概念类别

狭义概念类别是对词语语义信息的具体分类,概念类别的基元经过组合,可以构成复合型概念类别。这样,广义概念类别就可以细化为很多具体的概念小类,用以解释概念之间的细微差别。在汉英机器翻译应用中,我们共定义了41种狭义概念类别,相比汉代汉语13种词性的分类[6],更加细化。

1.具体概念

在广义概念类别中,具体概念包括人和物两大类。在狭义概念类别(以下简称概念类别)中,我们把物又分为两小类:自然物ww和人造物pw。用以区分该物的形成是否有人类活动参与,这一信息对于句子中谓语动词的语义角色选定具有重要的限制作用。

2.抽象概念

抽象概念在广义概念类别中划分为动态概念、静态概念、属性概念和逻辑概念四类,每一类又可分为若干小类,这就是狭义概念类别(CC)。下面分别描述。

(1)动态概念

动态概念是抽象概念五元组特性之一。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表述,这就是抽象概念的五元组特性。在狭义概念类别中,动态概念分为“v”和“vv”两小类。

“v”是一般意义上的动词,如“提供”“公开”等。

“vv”是动词中的特殊小类,用以描述后面须接动词的“v”,如“试图”“进行”“予以”等。这些词语本身具有动态含义,但在句子中不能单独作为谓语,必须在其后补充一个动词共同构成谓语部分,后面的动词才是谓语的中心。vv类词语作为谓语的一部分出现在句子中。

(2)静态概念

静态概念是相对于动态概念而言,我们可以把它看作抽象概念中的名词类。包括:静态概念g、值概念z、效应概念r、时间概念j1、空间概念j2、数j3、名量概念zz、动量概念zzv、综合概念s。

可以这样认为,g是一般的名词,而z和r是从名词中分离出来的。z表达的是概念的“值”,对值的表达是与数量密切关联的,因此把这个特性独立出来表达显然有利于联想脉络的建立。例如:

(1)厚度为0.3毫米的白色人造纤维布料(0.3 millimeter white artificial silk cloth)

在这个短语中,汉语中“厚度为0.3毫米”是一个小句形式,作后面中心语的修饰成分,翻译为英语则是一个定中短语的形式。这种汉英结构上的转换只靠词性来区分是不够的,必须做进一步限定,汉语小句的结构是“z+为/是+j3+zz”,也就是说,在这个是字句中,主语由值的概念充当,宾语由数量概念充当。如果这样的小句结构做定语,那么转换为英语时,直接变为“j3+zz+z”的结构,也就是数量短语直接修饰值概念,放在值的前面。

g和r都是静态表达的名词,但分别代表因果两极。把两者区别开来,有利于概念的局部联想。

时间概念j1、空间概念j2和数j3都源自于基本概念语义网络,这些概念类别主要服务于时间短语、空间短语和数量短语的辨识。

综合概念s高度抽象的一类概念,主要服务于辅语义块后边界的辨识和包装句蜕的包装品(小句的部分)。如:

(2)含水涂料组合物可以通过浸涂或辊涂的方式来施加。(The aqueous coating composition can be applied by dip coating or roll coating.)(辅块)方法

(3)因玻璃渗漏或结构缺陷而失效的时间将推后。(The time to failure due to glass leaks or structural weakness will occur later.)

例句(2)中,“通过浸涂或辊涂的方式”在句子中做辅语义块,“方式”一词位于辅语义块的末尾,作为辅块和其后面的特征语义块(谓语部分)划分的边界。静态概念的分类及与词性的大体对应关系可如下表:

表2:

静态概念分类 词性 例词

概念 静态概念g 名词 信道(channel) 配置(configuration)

值概念z 名词 厚度(thickness) 参数(parameter)

效应概念r 名词 效果(effect) 毒性(toxicity)

抽象概念 时间概念j1 名词 时间(time) 周(week)

空间概念j2 名词 区域(region) 下侧(downside)

数概念j3 数词 二(two) 万(million)

名量概念zz 量词 吨(ton) 个(-)

动量概念zzv 量词 顿(-)

综合概念s 名词 方式(-) 时间(time)

(3)属性概念

属性概念是修饰限定成分。大体上对应于词性中的形容词和副词。属性概念与被修饰限定成分之间的对应关系更为具体明晰。依据被修饰限定成分的不同,可以进一步分为若干小类,将形容词类属性二分为修饰具体概念的属性x、修饰抽象概念的属性ug和可独立做谓语的u属性;将副词类属性二分为修饰动态概念的属性uv和修饰属性概念的uu属性。具体如下:

x:是具体物的物性,修饰限定名词性具体概念人(P)和物(W),对应于形容词。如:“白色”的概念类别是x,所修饰限定的成分一定是具体物。可组合成白色光(white light),白色颗粒(white particles)等。

ug:静态概念的修饰性成分,修饰限定静态概念g、值z、效应r、综合概念s及时空概念等,对应于形容词。

u:独立的属性,用于描述可以独立作谓语的属性,也就是说,具有该属性的形容词类概念可以构成形容词谓语句。在英语语言中,也就是该类属性可以充当系表结构中的表语。这对汉英句式转换具有重要的指示作用。

uv:动态概念的修饰性成分,修饰限定动态概念v,对应于副词。

uu:描述属性的属性,修饰限定属性成分ug、u、uu、x等,也可以修饰限定动态概念。

属性概念的分类及与词性的大体对应关系可如下表:

表3:

属性概念分类 说明 词性 例词

x 具体物的属性 形容词 杯型(cup-shaped) 白色(white)

ug 抽象物的属性 形容词 便携式(portable) 残余(remaining)

u 可做谓语的属性 形容词 至关重要(critical) 长(long)

uv 动态概念的属性 副词 过度(excessively) 快速(fast)

uu 属性的属性 副词 略微(slightly) 完全(totally)

(4)逻辑概念

逻辑概念是HNC语义网络中的一类重要概念。用于语言单位的组织与连接,大体相当于虚词。按语义及功用可分为语言逻辑、语法逻辑和基本逻辑。

1)语言逻辑

语言逻辑服务于语义块的整体辨识、语义块内部构成的分析及句间信息的提示和表达。具体如下表:

表4:

类型 说明 例词

l0 主语义块标志符 把(-) 被(by)

l1 辅语义块标志符 通过(through) 按照(according to)

l2 两主块搭配标志符 为……所(by)

l3 两语义块搭配标志符 为……起见(For the sake of)

l4 语义块内部两对象组合逻辑 和 或

l5 语义块内部集合关系逻辑 之外(besides) 以内(within)

l6 EK说明符 正在(-) 曾经(ever)

l7 语义块交织表现标志符 受到(-)

l8 辅块综合说明符 手段(means)

l9 指代逻辑 各(each) 任意(any)

la 句内连接说明符 还(still) 也(also)

lb 句间连接说明符 而且(and) 即使(even if)

语言逻辑概念根据其在句子中所充当的作用及所处的位置,分为12小类。其中l0-l3服务于语义块的整体辨识,用来识别句子中主辅语块的前后边界。例如:

(4)使用者将某操作系统308安装到计算机310中。(A user loads an operating system 308 into a computer 310.)

这里“将”的概念类别是l0,由它把两个主要语块“使用者”和“某操作系统308”分开。

L4-l5作为语义块内部逻辑组合符号,服务于语义块内部构成的分析,用来连接词或短语片段,组成一个语块。例如:

(5)依照本发明的文档处理系统主要包括应用软件、接口层、文档库系统和存储设备。(The document processing system in accordance with the present invention includes an application,an interface layer,a docbase management system and a storage device.)

这个句子中,“包括”的各对象之间通过顿号和组合符号14“和”连接,共同构成宾语。

同样道理,L6-l7服务于特征语义块的内部构成,l8服务于辅语义块的内部构成,l9指代逻辑服务于广义对象语义块的构成,la和lb分别服务于句内和句间信息的提示和表达。

这一组概念类别的设立就是为语义块感知和后续的语义块组分处理提供激活信息。

2)语法逻辑

“语法”概念用于描述语言使用的习惯。服务于语言表达方式的辨认(包括修辞)和特指语词的辨认。语言中(以汉语为例)一些句式的表达涉及到语言习惯问题,构成这些句式的特征词就用语法逻辑概念描述。例如:正反问句的表达需要特征词“是否”“是不是”,这些都归为语法逻辑类型。

尽管这些特征词在很大程度上相当于副词的语法功能,但这些词更可能是作为连句成篇的构成单位,而且不同语种使用的手段也会不同,所以,把它从副词中单列出来。

3)基本逻辑

基本逻辑概念涉及基本判断,用于判断命题的基本内容:是否和有无。此处的基本逻辑概念类别主要描述的是充当属性概念的基本逻辑,这类概念一般位于特征语义块的前面作为特征语义块的逻辑修饰语。服务于特征语义块的情态辨认。如“能够”“应该”“必须”等,大体对应于词类中的情态动词。

概念类别是关于词语的概念意义和语用特征的最简明知识,是语句理解处理过程中首先要用到的知识。对语言现象的描述有粗细之分,相应的概念类别也分为广义概念类别和狭义概念类别,用以匹配不同层级的知识特征。狭义概念类别是对广义概念类别的细化描述。在汉英机器翻译应用中,狭义概念类别的应用对语块的内部构成,语块边界的确定乃至整个句子的分析都具有重要的支撑作用。是知识库中一项重要的词语属性特征。

四、概念类别在汉英机器翻译中的应用

基于HNC理论搭建了面向专利文献的汉英机器翻译系统大体上包括预处理模块、源语言分析模块、过渡转换模块和目标语生成模块几个主要部分[7]。概念类别的知识在各个模块中都发挥着自己的作用。下面我们主要介绍概念类别在分析模块和转换模块中的应用。

(一)在分析模块中的应用

源语言分析模块主要依据知识库提供的各项知识与分析规则库对文本进行分析,得到句类分析树。

例如,在辅块识别中,对于辅块边界的辨识我们可以依据语言逻辑概念类别。对于辅块标志符我们可以用l1表示,在分析规则(0)LC_CC[l15]+(f){(1)LC_CC[l1h]}=>LC_TREE(L1,0,0)+LC_TREE[BK,0,1]+LC_TREE(L1H,1,1)$时,就主要利用了概念类别信息。“(0)”表示规则调用的起始位置,“LC_CC”表示在语块中词语所具有的概念类别信息,“LC_TREE”表示生成树节点。这条规则的含义是,如果在句子中找到一个词语的狭义概念类别为l15(辅块前边界标志符),且其后面还能找到一个狭义概念类别l1h(辅块后边界标志符),则将两个词语各自在句子中生成节点,且将其与中间的部分生成一个语块BK。这样,一个完整的辅块就可识别出来。

(二)在转换模块中的应用

过渡转换模块主要依据句类分析树以及转换规则库,通过各种调度操作,将汉语句类分析树转换为符合英文表达习惯的目标语句类树。

例如,在并列结构中,有标记名词性并列结构各并列成分的中心语在语义类上显现出一定的相似性,在我们的研究中更细化为词语的概念类别。我们可根据紧邻并列连接词前面的词的概念类别向后寻找相同概念类别的词作为后边界,根据紧邻并列连接词后面的词的概念类别向前寻找相同概念类别的词作为前边界[8],可描述为如下规则:

(-1)LCR+(0)CHN[、]+(f?){(1)CR}=>LC_TREE(AND_TH,1,1) +LC_TREE(ANDMK,0,0)$

(b?){(-1)CR}+(0)CHN[、]+(1)RCR=>LC_TREE(AND_TQ,-1,-1)+LC_TREE(ANDMK,0,0)$

其中“C”表示词语的概念类别(Category),“LCR、RCR”分别表示紧邻并列连接词前、后的词的概念类别,“CR”表示分别向前或向后找到的与LCR或RCR相同的概念类别。

五、结语

本文全面阐述了概念类别的具体内容并给出了概念类别与词性的对应关系,指出概念类别可划分为抽象概念和具体概念两大类型,抽象概念中又包括动态概念、静态概念、属性概念和逻辑概念,并对概念的所指及应用做出了描述。随后,本文对概念类别与词性的关系和差别做出了解释,并给出了概念类别与词性的对应关系。最后,本文描述了概念类别信息在汉英机器翻译中的具体应用,指出,概念类别在汉英机器翻译的分析模块和转换模块(如小句转换、Eg识别、格式转换和辅块识别等)中均发挥着重要的作用。

下一步的工作是,继续扩大词语知识库的规模,在对目标语(英语)的语言特征进行全面细致把握的基础上,标注英语词语的概念类别信息,并结合英语词语丰富的形态变化特征,配合汉英机器翻译引擎的研发,完成英语生成模块的知识库资源构建,以提高翻译系统的生成效果。

(本文受到国家高技术研究发展计划[863课题,项目号:2012AA011104]、中国博士后科学基金资助项目以及中央高校基本科研业务费专项资金的资助。)

参考文献:

[1]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,

1998.

[2]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出

版社,2005.

[3]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:

科学出版社,2006.

[4]张克亮.面向机器翻译的汉英句类及句式转换.开封:河南大学

出版社,2007.

[5]李颖,王侃,池毓焕.面向汉英机器翻译的语义块构成变换[M].

北京:科学出版社,2009.

[6]胡裕树.现代汉语[M].上海:上海教育出版社,1995.