admin 管理员组

文章数量: 1184232


2024年4月29日发(作者:无法解析mvc视图)

维普资讯

科技情报开发与经济 

文章编号:1005—6o33(2oo7)28—0209—03 

SCI—TECH INFORMATION DEVELOPMENT&ECONOMY 2007年第l7卷第28期 

收稿日期:2007—06—15 

基于多引擎的Web机器翻译 

系统在专利文献中的应用 

高立华 

(巾国专利信息中心,北京,100088) 

摘要:重点介绍了基于多引擎的Web机器翻译系统的引擎分配、开发优势、词库维 

护、服务实现。 

关键词:机器翻译;多引擎;词库维护 

中图分类号:TP317.2 文献标识码:A 

达方式非常统一.可采用基于模板的翻译引擎。 

独立权利翻译时,要特别注意技术特征部分是开发式的还是闭合式 

的.正确使用comprise,consist of.contain,essentially consist of.substantially 

comprise等等。 

专利文献具有其特定的格式及特点。比如:每篇专利文献基本是由 

题录、文摘、权利要求、说明书和附图这五部分组成。虽然专利文献囊括 

了各个技术领域和专业术语,对它们的翻译工作看似是一项巨大而艰难 

的_T程,但其每部分的撰写都有其固有的特性.这就使得专利文献具有 

用机器翻译实现的得天独厚的优势。基于多引擎的Web机器翻译系统要 

实现的最终目标是:具有可读性和可理解性。 

如:“包含~包括”或“含有”基本具有固定的泽法为:“comprising” 

“including’’“containing”。 

“南…组成”应译为“consisting of'’:“基本上由…组成”或“大体上由 

l基于多引擎的WEB机器翻译系统的引擎分配 

从研究内容的范围和深度看,机器翻译早期的局限性比较 显,20 

组成”应译为“consisting essentially of'’。 

这两个句式连接字词有着重大意义差别:consisting ofAandB:只包 

世纪9o年代后期以来则有了巨大的扩展:机器翻译的方法和技术从传 

统的基于规则的机器翻译(RHAT)扩展到了基于实例的机器翻译 

(EHMD)、基于模版的机器翻译(MT)、基于知识的机器翻译(KHAT).统 

汁机器翻译(SIT)、混合式机器翻译(HMD)等,机器翻译所依据的语言学 

理论从以句法描述为特征的短语结构语法.到以语义描述为特征的格语 

括A及B.无其他。comprisingAandB:除包括A及B外,尚可能包括C. 

D等。所以,需要把这些语句放人模板库形成固定的译法。 

“其特征在于”可译为:“characterized in that”“characterized by”。 

(3)在文摘中经常会出现一些对其功能和效用的总结,这些句子如 

果直接机器翻译,结果会很不令人满意,甚至IJ1现啼笑皆非的现象。 

面向专利性说明文的汉英机器翻译模板,需要抓住的是格式特点的 

规律性东西,或者说要把这些格式的常见表达方式尽可能收集和穷尽, 

然后总结抽象成为翻译模板。由于专利摘要属于典型的说明文,其表达 

格式相对规范。遣词造句比较简单.因此.可以将常用的主要的表达方式 

收集完全,争取做到穷尽。这样汉英机器模板翻译至少可以把专利摘要 

的句子结构比较地道和准确。 

法、依存语法、配价语法,再到以知识描述为特征翻译系统以及本体论 

(Ontology)。本系统可集成多个翻译引擎,构建不同级别的翻译服务,对 

不同目标(如速度和准确性之间的折巾)采用不同的引擎。例如,对题录、 

文摘、权利要求、说明书和附图的翻译需要不同的翻译机制,允许翻译服 

务的请求者对翻译内容做出某种标记。 

(1)题录是对全文的高度概括,它不像专利文献巾的句子,上下连 

贯,共同阐述某个问题:它浓缩了文章的内容,简单、明了。所以,题录一 

般可以翻成名词短语、动名词短语、介词短语、不定式短语等。 

例如:翻译的在一个优选实施方案巾,该非织造织物具有弹性拉伸 

与回复性和类似于织物的手感。 

英文为:In a preferred embodiment,the nonwoven fabrics have elastic 

stretch and recovery properties with a textile-like hand. 

例如:调整装置,生产加工系统和控制调整装置的方法。 

英文为:Adjusting apparatus,production processing system and method 

of controlling adjusting apparatus. 

上文巾,“在一个优选实施方案巾”或“在一个较好的实施方案巾”, 

均可翻译成“In a preferred embodiment”。再如,“在此设汁方案巾”,可翻 

成“Inthis arrangement”,这些均可制作为模板加入翻译引擎。 

为避免题录巾复合长句式太多,结构复杂,应广泛使用非谓语动词 

短语性长句。应该说在叙述巾大量V—ed和V—ing等非谓语动词形式是 

专利题录翻译的主要特征之一,这样,对于题录可以调用基于规则的翻 

译引擎。 

2基于多引擎的Web机器翻译系统的开发优势 

在基于多引擎的机器翻译研究中,汁算机工作者和语言工作者的合 

作形成了一种新的范式。语言工作者的工作主要是定义和开发语料库、 

(2)对于权利要求方面,如权利要求书具有法律意义,这部分集中体 

现了申请人对于自己的知识产权范围和应用的可能性进行有效保护。对 

这一部分的翻译,一定要慎之又慎,保证译文能够经得起推敲,将来的利 

益冲突很可能就出现在这里。如果对专利技术的知识产权限制过于具 

体,就会使人们认为专利申请过于狭窄,技术实质也就得不到有效地保 

护,甚至于被投机分子所利用,损害专利拥有人的合法权益。模糊性的存 

在是因为专利拥有人不可能完全列举々利技术的应用潜力,因此专利文 

件往往具有模糊性,这也是翻译过程中应该注意保留的原文文体特点之 

词典等语言学资源,而计算机_T作者主要是改进算法。这种范式比基于 

规则的机器翻译系统研究中形成的开发范式更加有效,语言数据和算法 

之间的区分更加清楚。本系统的翻译效果与训练语料有很大的关系。首 

先,如果测试的句子与系统训练时的语料不符合,可能效果不会比基于 

规则的系统好很多。不过,对于本机器翻译系统而言,要增加训练语料是 

件比较简单的事情,而对于仅基于规则的系统而言,要适应一个新的 

法律的语言特色是模糊和清晰的统一.而原文中的模糊说法.或许正 领域要困难得多。其次,基于规则的系统对于短句子效果会比较好一些, 

因为短句子通常句法分析成功的正确率比较高,如果句法分析正确,通 

常得到的英文句子整体结构会比较好,而采刚统汁方法的系统,南于没 

有进行句法分析.可能句子结构会差一些,但一些片段的翻泽会比较好。 

专利翻译巾一些常用词汇需加入专业词库巾去,当加入常用同定表 

2O9 

是原文作者有意留下的陷阱,翻译巾没有责任也没有必要清除这些模糊 

性,而是考虑如何用本族语巾的相应词汇保留这些模糊概念。这些歧义 

和模糊性,给法官提供了在法律领域发挥作用的机会。专利翻译不能像 

文学翻译那样,深入理解。而只能以准确把握字面意义为限。I 此,其表 

维普资讯

高立华 基于多引擎的Web机器翻译系统在々利文献巾的应川 

达后,文摘、说明书、附图就可采 基于统计的翻译引擎。 

图l是以基于规则的翻译为例的翻译流程图,其他的基于实例、基 

于模板的翻译流程类似。 

罔l翻译流程罔 

在系统开发阶段.语言lT作者可随时与汁箅机1一作者进行交互.二 

者独自开发。语言工作者开发的语言资源不是为特定的机器翻译系统服 

务的.可以用于任何一个机器翻译系统,这样从总体上大大减少了语言 

工作者的重复劳动,形成了良好的积累效应。而且.计箅机T作者可以不 

断地通过改进箅法来提高机器翻译系统的性能.而不像基于规则的范式 

中.一旦算法确定.提高系统性能的任务主要取决于语言工作者的词典 

编辑。 

3基于多引擎的Web机器翻译系统的词典维护 

多引擎机器翻译需要有一套合适的机器词典来支持。为了提高机器 

译文的质量和T作效牢.本系统词典设汁采用“基础词典+擘业词典”的 

形式。要翻译某一专业领域的文献.则要建立具有基础词条和该专业同 

条的词典。例如要自动翻译化工学擘业的文献,则词典巾只需要具有基 

础词条和化工专业词条。当改变专业领域时,只需选择相应的专业词典 

即可。这种积木式结构的词典既有继承性.又有可拆卸替换性,有利于词 

典的扩充与提高。 

以往的翻译系统都是以单一翻译工作人员或集中丁作的翻译小组 

为服务对象,不能或不便于在更大物理范围内使不同的翻译人员协同t 

作并共享资源。这样的现状所导致的结果是不同的翻译人员可能需要进 

行重复劳动.翻译过程巾互相等待,不同翻译人员的翻译结果需要重新 

进行统一方能输出,最终造成资源与时间的严重浪费。在经济活动日益 

频繁的今天.翻译项目,尤其是商业性的翻译项目,时间和准确牢往往决 

定着项目的成败。某个翻译_T作者效率的提高.不能显著提高处于分散 

lT作状态的小组效率。要解决这一问题,就需要将现有的单机或局域网 

软件向互联网进行移植. 同时提供一些实用的网络功能,从而更好地 

进行跨地域的小组合作,实现小组成员问的资源共享,提高小组整体工 

作效牢。机器翻译系统的词典维护流程见图2。 

翻译子系统知识 

回 

一一 一一一.一 .一一.一 一. 

 ・

语言模型 ・ ・ 

L.一..一..一一一一,.一一一一J ● 

图2机器翻译系统的词典维护流程图 

210 

本刊E-mail:bjb@mail.sxinfo.nel 信息技术 

存罔2巾,此系统在对词库的维护过程巾.由系统管理员分配客户 

端_m户名及密码.客户端用户存登录了词库维护工具界面后,即可进行 

汉英、英汉的翻泽T作。在对翻译结构进行分析后,可对词库巾已有的词 

进行添加、删除、修改。对于普通用户,不具有修改其他用户词的权限。经 

过一定时间的协同作业,比如.以一周为一个周期.可南精通此擘业的用 

户来统一修改和去除重复的词汇。当然,要在管理员给其设定了相应的 

权限后方可进行。 

4多引擎机器翻译的Web服务实现 

采川J2EE Web服务方式实现Web服务。J2EE Web服务规范定义 

的体系结构关系是一种逻辑关系.添加到J2EE平 的内容包括依赖于 

南Web容器和EJB容器提供的端口组件以及SOAP传输。J2EE Web服 

务需要端口能够从客户机、Web容器和EJB容器引用。J2EE Web服务的 

特定角色可以被映射到已有的J2EE平台角色上。例如J2EE Web服务产 

品提供者角色可以被映射到J2EE产品提供者角色上,Web服务容器提 

供者角色可以被映射到J2EE规范巾的容器提供角色上。 

Web服务的客户机可以是另一个Web服务、一个J2EE组件(包括 

J2EE应用程序客户机).或任意的Java应用程序。Web服务客户机视罔 

可以是远程的.它提供了本地与远程问的透明性。 

4.1 Web服务的特点 

Web服务有以下特点:第一.以基于实例、辅以模式的混合策略机器 

翻译方法为基础:第二,将实例库和规则库进行分离.实例库在服务器端 

存储.规则库则安装在客户端:第=三,根据对实例库的客户端使用频率及 

客户端硬件条件,可自主选择是否下载部分常刖实例库至客户端运行, 

以提高客户端工作效鼍罨:第四,实例库和规则库的自动及手动上传和下 

载更新功能:第五,为减轻服务器负载.使用P2P技术对某些实例库进行 

分散存储:第六,其他辅助性功能.如对Word与PDF文件的兼容.集成 

网络化双语或多语电子词典.集成网络化术语库(Term Lib)功能.集成各 

大搜索引擎等。 

4.2 Web服务的优点 

Web服务的优点表现为:实例库和规则库的分离存储与管理。 

以多引擎机器翻译系统为基础的机器翻译有两个关键模块,即实例 

库和规则库。其巾实例库是翻译工作主要的参考源.也是小组协作T作 

时需要共享的最重要的资源.随着翻译项目的展开其容世会不断增加。 

而规则库基本上在软件开发时就已经形成.且很少发生变化。这样的特 

点决定了在网络化的机器翻译软件系统中,可以采用实例库和规则库进 

行分离的存储技术。 

使州网络化的机器翻译系统.翻译小组的成员在物理上可以分布在 

拥有互联网接人的任何地点。由于实例库集巾位于服务器端存储,确保 

了所有的小组成员都可以共享项目的实例资源。而每个成员完成的新的 

实例,都可以即时更新到实例库.从而f!I5证服务器端实例库始终最新最 

全。为了确保实例的有效性,项目管理人员可以给小组成员分配不同权 

限.并存所有新的实例进入服务器实例库之前进行审核和预处理。在服 

务器端和客户端均有规则库.小组成员平时依靠本地规则库丁作.当规 

则库有更新时,可从服务器端自动向所有小组成员进行发布。 

存这种结构下.根据小组成员的使用需要,也可以 主选择是否将 

部分实例库下载到本地运行.以提高客户端的翻译效率。项目管理人 

员可以对小组成员设定权限.确定每个成员可下载的范围,这对于整个 

项目的管理和保密将至天重要。由于州户可以将部分实例库下载到本地 

运行,为减轻主服务器的负载,可以考虑使 I{J lr2P技术将数据进行分流。 

翻译系统可以自动选掸以最节省网络资源的方式与其他Ⅲ户共享实例 

资源。 

5 多引擎机器翻译系统的其他实用性功能 

在上述基本结构基础之上,网络化的多引擎翻译系统还提供如下一 

些实川性功能,从而使得整个系统更趋完善。这些功能是: 

5.I文档兼容性 

翻译_【=作巾最常接触的两类文档格式是Word和PDF文件,由于大 

维普资讯

科技情报开发与经济 

文章编号:1005—6033(2007)28—02I l—O3 

SCI—TECH INFORMATION DEVELOPMENT&ECONOMY 2007年第l 7卷第28期 

收稿日期:2007—07—07 

快速Web开发架构的设计与开发 

王新昊’,巫玲 

(1.山东工商学院.山东烟台,264005;2.两南科技大学,四川绵阳,621010) 

墨 

摘要:介绍了快速Web开发框架,并用实例说明了快速Web开发框架的特点和设计 

实现。 

关键词:Web;Web快速开发框架:开发设计 

中图分类号:TP31 1.5 文献标识码:A 

构件是系统巾实际存在的可更换和重用部分,它实现特定的功能, 

1 Web技术概述 

1.1 Web技术 

符合一套接口标准并实现一组接口,包括软件代码或其等价物:框架是 

整个或部分系统的可重用设汁,表现为一组抽象构件及构件实例问交互 

的方法或被认为是可被应用开发者定制的应崩骨架。Web技术未来的应 

发展方向应该是在一个可重用的环境下(框架)进行搭积木(构件),而 

Web应用架构的前身是l980年Tim Berners—Lee负责的Enquire项 

日。1991年,CERN正式发布了Web技术标准。而日前与Web相关的各 

种技术标准都由著名的W3C组织管理和维护。 

Web架构技术层面的精华包括3个方面:用超文本技术文现信息与 

信息的连接;用统一资源定位技术实现全球信息的精确定位;用新的应 

用层协议实现分布式的信息共享。这3个特点与信息的分发、获取和利 

tI钉密切相关。但是,基于HTML的Web页面交互性不强是Web技术的一 

个先天“缺陷”,这使得在开发交互性较为复杂的用户界面时,困难重重 

且造成效率低下、周期长.成本高等问题;Web应用开发的另一个“硬伤” 

提供的搭建方法(设汁思想)将决定所搭建的产品质量和生产周期以及 

产品的竞争力。这种框架、构件以及软件复用思想的融合也是目前业界 

流行的应用平台化的理念。 

1.3 Web技术和数据库 

任何一个Web应用系统的底层都和数据库打交道。面向对象是现在 

编程语肓的主流,关系数据库是数据库的主流,这就使得直接在面向对象 

语言巾操作关系型数据库成了难题。分析许多Web应用系统的开发过程, 

我们发现Web应用系统对数据库的操作绝大部分是表的增删查改,用表 

是表现层构件缺乏且使用不方便。 

1.2 Web技术自拨展趋势 

格在界面上显示数据库表巾的数据.能支持排序、分页等额外的功能。 

当巾。在没有一个集成环境的情况下,需要笔者手动在各种不同的应用 部分翻译人员都采用微软的Word作为字处理软件,以往遇到PDF文件 

时.往往需要借助第三方软件将PDF文件转换成Word文档格式才能够 

进行T作。在此系统中.可集成对PDF文档的转换功能,从而为翻译人员 

提供非常大的便利。 

程序之间频繁切换,无形巾降低了效率,浪费了时间。本系统在一个统一 

的界面巾集成搜索引擎功能,无需切换即可直接浏览搜索结果并将其应 

用于翻译结果,将给翻泽人员节省大量时间。 

5.2网络双语或多语电子词典 

在翻译人员的_丁作过程巾,经常需要查询各种专业词典,借助于传 

统的纸质词典或其他第三方电子词典常需要打断现有的丁二作进程,也要 

消耗一定的时间。在此系统巾集成了项日所需的多种双语或多语专业词 

从日前的机器翻译研究的现状和发展趋势来看,随着数据资源规模 

的不断扩大和i十算机性能的迅速提高,多引擎的机器翻泽还有很大的发 

展空间。在未来几年内,在基于短语的主流翻泽方法巾融人句法、语义信 

息,必将成为机器翻译发展的趋势。 

典.并具备常见的“即指即译”及相应详细解释功能,将会为翻泽人员节 

省更多的工作时间,使其整个 作过程更加流畅。 

5.3网络术语库 33-39. 

参考文献 

[1]刘文俊.试论机器翻译的准确率和可读性[J].巾国翻译,1998(5): 

[2] 罗新璋.科技翻译论文精粹[M].北京:气象}j;版社,2000:25—26. 

[3]罗新璋.翻译论集[M].北京:商务印书馆,1994:150—166. 

(责任编辑:李敏) 

术语库是翻泽人员在翻泽专业性很强的专业技术文档时的一项利 

器,同时术语库的建设也是一个不断积累的过程。现有的机器翻译软件 

都是在单机基础上进行术语库的建设和交换的,往往造成_T作的大量重 

复.也不便于交流和共享。在采用网络结构后,可以参考实例库的方式进 

行术语库的设置。网络化的术语库也将节省更多的项 日时间。 

5.4集成搜索引擎 

笔者在翻译过程中经常需要借助各种搜索引擎来搜索与翻译对象 

相关的内容.有的时候一些搜索结果还可以直接应用到自己的翻译结果 

第一作者简介:高立华.女.1973年6月生.2003年毕业于太原理工 

大学汁算机学院,助理研究员.巾国々利信息巾心.北京市海淀区蓟门桥 

西土城路6号.100088. 

The Application of Web Machine Translation System 

Based on Multi-engine in the Patent Literature 

GAo Li.hua 

ABSTRACT:This paper introduces the engine distribution,developing superiorities,and words library maintenance and 

service implementation of Web machine translation system based on multi—engine. 

KEY WORDS:machine translation;multi-engine;words library maintenance 

2|l 


本文标签: 翻译 系统 实例 专利 进行