admin 管理员组文章数量: 1184232
2024年4月29日发(作者:无法解析mvc视图)
维普资讯
科技情报开发与经济
文章编号:1005—6o33(2oo7)28—0209—03
SCI—TECH INFORMATION DEVELOPMENT&ECONOMY 2007年第l7卷第28期
收稿日期:2007—06—15
基于多引擎的Web机器翻译
系统在专利文献中的应用
高立华
(巾国专利信息中心,北京,100088)
摘要:重点介绍了基于多引擎的Web机器翻译系统的引擎分配、开发优势、词库维
护、服务实现。
关键词:机器翻译;多引擎;词库维护
中图分类号:TP317.2 文献标识码:A
达方式非常统一.可采用基于模板的翻译引擎。
独立权利翻译时,要特别注意技术特征部分是开发式的还是闭合式
的.正确使用comprise,consist of.contain,essentially consist of.substantially
comprise等等。
专利文献具有其特定的格式及特点。比如:每篇专利文献基本是由
题录、文摘、权利要求、说明书和附图这五部分组成。虽然专利文献囊括
了各个技术领域和专业术语,对它们的翻译工作看似是一项巨大而艰难
的_T程,但其每部分的撰写都有其固有的特性.这就使得专利文献具有
用机器翻译实现的得天独厚的优势。基于多引擎的Web机器翻译系统要
实现的最终目标是:具有可读性和可理解性。
如:“包含~包括”或“含有”基本具有固定的泽法为:“comprising”
“including’’“containing”。
“南…组成”应译为“consisting of'’:“基本上由…组成”或“大体上由
l基于多引擎的WEB机器翻译系统的引擎分配
从研究内容的范围和深度看,机器翻译早期的局限性比较 显,20
…
组成”应译为“consisting essentially of'’。
这两个句式连接字词有着重大意义差别:consisting ofAandB:只包
世纪9o年代后期以来则有了巨大的扩展:机器翻译的方法和技术从传
统的基于规则的机器翻译(RHAT)扩展到了基于实例的机器翻译
(EHMD)、基于模版的机器翻译(MT)、基于知识的机器翻译(KHAT).统
汁机器翻译(SIT)、混合式机器翻译(HMD)等,机器翻译所依据的语言学
理论从以句法描述为特征的短语结构语法.到以语义描述为特征的格语
括A及B.无其他。comprisingAandB:除包括A及B外,尚可能包括C.
D等。所以,需要把这些语句放人模板库形成固定的译法。
“其特征在于”可译为:“characterized in that”“characterized by”。
(3)在文摘中经常会出现一些对其功能和效用的总结,这些句子如
果直接机器翻译,结果会很不令人满意,甚至IJ1现啼笑皆非的现象。
面向专利性说明文的汉英机器翻译模板,需要抓住的是格式特点的
规律性东西,或者说要把这些格式的常见表达方式尽可能收集和穷尽,
然后总结抽象成为翻译模板。由于专利摘要属于典型的说明文,其表达
格式相对规范。遣词造句比较简单.因此.可以将常用的主要的表达方式
收集完全,争取做到穷尽。这样汉英机器模板翻译至少可以把专利摘要
的句子结构比较地道和准确。
法、依存语法、配价语法,再到以知识描述为特征翻译系统以及本体论
(Ontology)。本系统可集成多个翻译引擎,构建不同级别的翻译服务,对
不同目标(如速度和准确性之间的折巾)采用不同的引擎。例如,对题录、
文摘、权利要求、说明书和附图的翻译需要不同的翻译机制,允许翻译服
务的请求者对翻译内容做出某种标记。
(1)题录是对全文的高度概括,它不像专利文献巾的句子,上下连
贯,共同阐述某个问题:它浓缩了文章的内容,简单、明了。所以,题录一
般可以翻成名词短语、动名词短语、介词短语、不定式短语等。
例如:翻译的在一个优选实施方案巾,该非织造织物具有弹性拉伸
与回复性和类似于织物的手感。
英文为:In a preferred embodiment,the nonwoven fabrics have elastic
stretch and recovery properties with a textile-like hand.
例如:调整装置,生产加工系统和控制调整装置的方法。
英文为:Adjusting apparatus,production processing system and method
of controlling adjusting apparatus.
上文巾,“在一个优选实施方案巾”或“在一个较好的实施方案巾”,
均可翻译成“In a preferred embodiment”。再如,“在此设汁方案巾”,可翻
成“Inthis arrangement”,这些均可制作为模板加入翻译引擎。
为避免题录巾复合长句式太多,结构复杂,应广泛使用非谓语动词
短语性长句。应该说在叙述巾大量V—ed和V—ing等非谓语动词形式是
专利题录翻译的主要特征之一,这样,对于题录可以调用基于规则的翻
译引擎。
2基于多引擎的Web机器翻译系统的开发优势
在基于多引擎的机器翻译研究中,汁算机工作者和语言工作者的合
作形成了一种新的范式。语言工作者的工作主要是定义和开发语料库、
(2)对于权利要求方面,如权利要求书具有法律意义,这部分集中体
现了申请人对于自己的知识产权范围和应用的可能性进行有效保护。对
这一部分的翻译,一定要慎之又慎,保证译文能够经得起推敲,将来的利
益冲突很可能就出现在这里。如果对专利技术的知识产权限制过于具
体,就会使人们认为专利申请过于狭窄,技术实质也就得不到有效地保
护,甚至于被投机分子所利用,损害专利拥有人的合法权益。模糊性的存
在是因为专利拥有人不可能完全列举々利技术的应用潜力,因此专利文
件往往具有模糊性,这也是翻译过程中应该注意保留的原文文体特点之
一
词典等语言学资源,而计算机_T作者主要是改进算法。这种范式比基于
规则的机器翻译系统研究中形成的开发范式更加有效,语言数据和算法
之间的区分更加清楚。本系统的翻译效果与训练语料有很大的关系。首
先,如果测试的句子与系统训练时的语料不符合,可能效果不会比基于
规则的系统好很多。不过,对于本机器翻译系统而言,要增加训练语料是
一
件比较简单的事情,而对于仅基于规则的系统而言,要适应一个新的
。
法律的语言特色是模糊和清晰的统一.而原文中的模糊说法.或许正 领域要困难得多。其次,基于规则的系统对于短句子效果会比较好一些,
因为短句子通常句法分析成功的正确率比较高,如果句法分析正确,通
常得到的英文句子整体结构会比较好,而采刚统汁方法的系统,南于没
有进行句法分析.可能句子结构会差一些,但一些片段的翻泽会比较好。
专利翻译巾一些常用词汇需加入专业词库巾去,当加入常用同定表
2O9
是原文作者有意留下的陷阱,翻译巾没有责任也没有必要清除这些模糊
性,而是考虑如何用本族语巾的相应词汇保留这些模糊概念。这些歧义
和模糊性,给法官提供了在法律领域发挥作用的机会。专利翻译不能像
文学翻译那样,深入理解。而只能以准确把握字面意义为限。I 此,其表
维普资讯
高立华 基于多引擎的Web机器翻译系统在々利文献巾的应川
达后,文摘、说明书、附图就可采 基于统计的翻译引擎。
图l是以基于规则的翻译为例的翻译流程图,其他的基于实例、基
于模板的翻译流程类似。
罔l翻译流程罔
在系统开发阶段.语言lT作者可随时与汁箅机1一作者进行交互.二
者独自开发。语言工作者开发的语言资源不是为特定的机器翻译系统服
务的.可以用于任何一个机器翻译系统,这样从总体上大大减少了语言
工作者的重复劳动,形成了良好的积累效应。而且.计箅机T作者可以不
断地通过改进箅法来提高机器翻译系统的性能.而不像基于规则的范式
中.一旦算法确定.提高系统性能的任务主要取决于语言工作者的词典
编辑。
3基于多引擎的Web机器翻译系统的词典维护
多引擎机器翻译需要有一套合适的机器词典来支持。为了提高机器
译文的质量和T作效牢.本系统词典设汁采用“基础词典+擘业词典”的
形式。要翻译某一专业领域的文献.则要建立具有基础词条和该专业同
条的词典。例如要自动翻译化工学擘业的文献,则词典巾只需要具有基
础词条和化工专业词条。当改变专业领域时,只需选择相应的专业词典
即可。这种积木式结构的词典既有继承性.又有可拆卸替换性,有利于词
典的扩充与提高。
以往的翻译系统都是以单一翻译工作人员或集中丁作的翻译小组
为服务对象,不能或不便于在更大物理范围内使不同的翻译人员协同t
作并共享资源。这样的现状所导致的结果是不同的翻译人员可能需要进
行重复劳动.翻译过程巾互相等待,不同翻译人员的翻译结果需要重新
进行统一方能输出,最终造成资源与时间的严重浪费。在经济活动日益
频繁的今天.翻译项目,尤其是商业性的翻译项目,时间和准确牢往往决
定着项目的成败。某个翻译_T作者效率的提高.不能显著提高处于分散
lT作状态的小组效率。要解决这一问题,就需要将现有的单机或局域网
软件向互联网进行移植. 同时提供一些实用的网络功能,从而更好地
进行跨地域的小组合作,实现小组成员问的资源共享,提高小组整体工
作效牢。机器翻译系统的词典维护流程见图2。
翻译子系统知识
回
一一 一一一.一 .一一.一 一.
・
语言模型 ・ ・
L.一..一..一一一一,.一一一一J ●
图2机器翻译系统的词典维护流程图
210
本刊E-mail:bjb@mail.sxinfo.nel 信息技术
存罔2巾,此系统在对词库的维护过程巾.由系统管理员分配客户
端_m户名及密码.客户端用户存登录了词库维护工具界面后,即可进行
汉英、英汉的翻泽T作。在对翻译结构进行分析后,可对词库巾已有的词
进行添加、删除、修改。对于普通用户,不具有修改其他用户词的权限。经
过一定时间的协同作业,比如.以一周为一个周期.可南精通此擘业的用
户来统一修改和去除重复的词汇。当然,要在管理员给其设定了相应的
权限后方可进行。
4多引擎机器翻译的Web服务实现
采川J2EE Web服务方式实现Web服务。J2EE Web服务规范定义
的体系结构关系是一种逻辑关系.添加到J2EE平 的内容包括依赖于
南Web容器和EJB容器提供的端口组件以及SOAP传输。J2EE Web服
务需要端口能够从客户机、Web容器和EJB容器引用。J2EE Web服务的
特定角色可以被映射到已有的J2EE平台角色上。例如J2EE Web服务产
品提供者角色可以被映射到J2EE产品提供者角色上,Web服务容器提
供者角色可以被映射到J2EE规范巾的容器提供角色上。
Web服务的客户机可以是另一个Web服务、一个J2EE组件(包括
J2EE应用程序客户机).或任意的Java应用程序。Web服务客户机视罔
可以是远程的.它提供了本地与远程问的透明性。
4.1 Web服务的特点
Web服务有以下特点:第一.以基于实例、辅以模式的混合策略机器
翻译方法为基础:第二,将实例库和规则库进行分离.实例库在服务器端
存储.规则库则安装在客户端:第=三,根据对实例库的客户端使用频率及
客户端硬件条件,可自主选择是否下载部分常刖实例库至客户端运行,
以提高客户端工作效鼍罨:第四,实例库和规则库的自动及手动上传和下
载更新功能:第五,为减轻服务器负载.使用P2P技术对某些实例库进行
分散存储:第六,其他辅助性功能.如对Word与PDF文件的兼容.集成
网络化双语或多语电子词典.集成网络化术语库(Term Lib)功能.集成各
大搜索引擎等。
4.2 Web服务的优点
Web服务的优点表现为:实例库和规则库的分离存储与管理。
以多引擎机器翻译系统为基础的机器翻译有两个关键模块,即实例
库和规则库。其巾实例库是翻译工作主要的参考源.也是小组协作T作
时需要共享的最重要的资源.随着翻译项目的展开其容世会不断增加。
而规则库基本上在软件开发时就已经形成.且很少发生变化。这样的特
点决定了在网络化的机器翻译软件系统中,可以采用实例库和规则库进
行分离的存储技术。
使州网络化的机器翻译系统.翻译小组的成员在物理上可以分布在
拥有互联网接人的任何地点。由于实例库集巾位于服务器端存储,确保
了所有的小组成员都可以共享项目的实例资源。而每个成员完成的新的
实例,都可以即时更新到实例库.从而f!I5证服务器端实例库始终最新最
全。为了确保实例的有效性,项目管理人员可以给小组成员分配不同权
限.并存所有新的实例进入服务器实例库之前进行审核和预处理。在服
务器端和客户端均有规则库.小组成员平时依靠本地规则库丁作.当规
则库有更新时,可从服务器端自动向所有小组成员进行发布。
存这种结构下.根据小组成员的使用需要,也可以 主选择是否将
一
部分实例库下载到本地运行.以提高客户端的翻译效率。项目管理人
员可以对小组成员设定权限.确定每个成员可下载的范围,这对于整个
项目的管理和保密将至天重要。由于州户可以将部分实例库下载到本地
运行,为减轻主服务器的负载,可以考虑使 I{J lr2P技术将数据进行分流。
翻译系统可以自动选掸以最节省网络资源的方式与其他Ⅲ户共享实例
资源。
5 多引擎机器翻译系统的其他实用性功能
在上述基本结构基础之上,网络化的多引擎翻译系统还提供如下一
些实川性功能,从而使得整个系统更趋完善。这些功能是:
5.I文档兼容性
翻译_【=作巾最常接触的两类文档格式是Word和PDF文件,由于大
维普资讯
科技情报开发与经济
文章编号:1005—6033(2007)28—02I l—O3
SCI—TECH INFORMATION DEVELOPMENT&ECONOMY 2007年第l 7卷第28期
收稿日期:2007—07—07
快速Web开发架构的设计与开发
王新昊’,巫玲
(1.山东工商学院.山东烟台,264005;2.两南科技大学,四川绵阳,621010)
墨
摘要:介绍了快速Web开发框架,并用实例说明了快速Web开发框架的特点和设计
实现。
关键词:Web;Web快速开发框架:开发设计
中图分类号:TP31 1.5 文献标识码:A
构件是系统巾实际存在的可更换和重用部分,它实现特定的功能,
1 Web技术概述
1.1 Web技术
符合一套接口标准并实现一组接口,包括软件代码或其等价物:框架是
整个或部分系统的可重用设汁,表现为一组抽象构件及构件实例问交互
的方法或被认为是可被应用开发者定制的应崩骨架。Web技术未来的应
发展方向应该是在一个可重用的环境下(框架)进行搭积木(构件),而
Web应用架构的前身是l980年Tim Berners—Lee负责的Enquire项
日。1991年,CERN正式发布了Web技术标准。而日前与Web相关的各
种技术标准都由著名的W3C组织管理和维护。
Web架构技术层面的精华包括3个方面:用超文本技术文现信息与
信息的连接;用统一资源定位技术实现全球信息的精确定位;用新的应
用层协议实现分布式的信息共享。这3个特点与信息的分发、获取和利
tI钉密切相关。但是,基于HTML的Web页面交互性不强是Web技术的一
个先天“缺陷”,这使得在开发交互性较为复杂的用户界面时,困难重重
且造成效率低下、周期长.成本高等问题;Web应用开发的另一个“硬伤”
提供的搭建方法(设汁思想)将决定所搭建的产品质量和生产周期以及
产品的竞争力。这种框架、构件以及软件复用思想的融合也是目前业界
流行的应用平台化的理念。
1.3 Web技术和数据库
任何一个Web应用系统的底层都和数据库打交道。面向对象是现在
编程语肓的主流,关系数据库是数据库的主流,这就使得直接在面向对象
语言巾操作关系型数据库成了难题。分析许多Web应用系统的开发过程,
我们发现Web应用系统对数据库的操作绝大部分是表的增删查改,用表
是表现层构件缺乏且使用不方便。
1.2 Web技术自拨展趋势
格在界面上显示数据库表巾的数据.能支持排序、分页等额外的功能。
当巾。在没有一个集成环境的情况下,需要笔者手动在各种不同的应用 部分翻译人员都采用微软的Word作为字处理软件,以往遇到PDF文件
时.往往需要借助第三方软件将PDF文件转换成Word文档格式才能够
进行T作。在此系统中.可集成对PDF文档的转换功能,从而为翻译人员
提供非常大的便利。
程序之间频繁切换,无形巾降低了效率,浪费了时间。本系统在一个统一
的界面巾集成搜索引擎功能,无需切换即可直接浏览搜索结果并将其应
用于翻译结果,将给翻泽人员节省大量时间。
5.2网络双语或多语电子词典
在翻译人员的_丁作过程巾,经常需要查询各种专业词典,借助于传
统的纸质词典或其他第三方电子词典常需要打断现有的丁二作进程,也要
消耗一定的时间。在此系统巾集成了项日所需的多种双语或多语专业词
从日前的机器翻译研究的现状和发展趋势来看,随着数据资源规模
的不断扩大和i十算机性能的迅速提高,多引擎的机器翻泽还有很大的发
展空间。在未来几年内,在基于短语的主流翻泽方法巾融人句法、语义信
息,必将成为机器翻译发展的趋势。
典.并具备常见的“即指即译”及相应详细解释功能,将会为翻泽人员节
省更多的工作时间,使其整个 作过程更加流畅。
5.3网络术语库 33-39.
参考文献
[1]刘文俊.试论机器翻译的准确率和可读性[J].巾国翻译,1998(5):
[2] 罗新璋.科技翻译论文精粹[M].北京:气象}j;版社,2000:25—26.
[3]罗新璋.翻译论集[M].北京:商务印书馆,1994:150—166.
(责任编辑:李敏)
术语库是翻泽人员在翻泽专业性很强的专业技术文档时的一项利
器,同时术语库的建设也是一个不断积累的过程。现有的机器翻译软件
都是在单机基础上进行术语库的建设和交换的,往往造成_T作的大量重
复.也不便于交流和共享。在采用网络结构后,可以参考实例库的方式进
行术语库的设置。网络化的术语库也将节省更多的项 日时间。
5.4集成搜索引擎
笔者在翻译过程中经常需要借助各种搜索引擎来搜索与翻译对象
相关的内容.有的时候一些搜索结果还可以直接应用到自己的翻译结果
第一作者简介:高立华.女.1973年6月生.2003年毕业于太原理工
大学汁算机学院,助理研究员.巾国々利信息巾心.北京市海淀区蓟门桥
西土城路6号.100088.
The Application of Web Machine Translation System
Based on Multi-engine in the Patent Literature
GAo Li.hua
ABSTRACT:This paper introduces the engine distribution,developing superiorities,and words library maintenance and
service implementation of Web machine translation system based on multi—engine.
KEY WORDS:machine translation;multi-engine;words library maintenance
2|l
版权声明:本文标题:基于多引擎的Web机器翻译系统在专利文献中的应用 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1714350873a676695.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论