admin 管理员组

文章数量: 1086019


2024年4月29日发(作者:tree3和 哪个大)

第34卷 第22期 

计算机工程 

2008年11月 

go1.34 

No.22 

Computer Engineering 

November 2008 

开发研究与设计技术・ 文章编号:1o00—.3428(20o8)22—{J28『l—03 文献标识码:A 中图分类号:TP312 

基于Self-training和Web的术语翻译系统 

李志圣,孙越恒,何丕廉 

f天津大学计算机科学与技术学院,天津300072) 

摘要:现有基于模式的术语翻译系统存在2个主要缺点,即学习过程依赖人工标定语料和缺乏对模式的评分以及对候选术语的评分太简 

单。该文将self-training学习机制引入术语翻译系统,在一对训练语料上完成初始学习,在实际运行中自动选择可靠程度较高的术语重新 

训练,以改进系统性能。该系统中增加了对模式的评分,利用启发规则,扩充了候选术语的评分方法。实验结果表明,改进后系统的性能 

高于原有系统。 

关键词:术语翻译;self-training机制;机器学习 

Terminology Translation System Based on Self-training and Web 

LI Zhi・sheng,SUN Yue・heng,HE Pi-lian 

(College of Computer Science and Technology,Tianjin University.Tianjin 300072) 

[Abstractl There are two main deficiencies in the existing methods based on pattern:the amount and reliability of patterns are restricted by the 

training set.and the methods for SCOI ing patterns and candidate terminologies are too simplified This paper introduces self-training study 

nrechanism into terminology translation system This system accomplishes initial study in a pair of terminologies stuff,and selects a more reliable 

candidate automatically which is retrained in practical running.It adds the model scoring into this system,and improves the method of scoring the 

candidate let’mmologies by applying heuristic rules Expm’imental results indicate that the impros ed system has higher pertbrmance than the existing 

systems. 

[Key ̄vnrds]terminology translation:self training mechanism;machine learning 

互联网网页数量正快速增加,其中包含了丰富的双语混 

(1)学习过程。通过向搜索引擎提交标注的翻译对,在返 

合文本,例如“机器学习fmachine learning)研究计算机怎样 

回的摘要页面中获取模式串。 

模拟或实现人类的学习行为,重新组织已有的知识结构,使 

(2)实际运行。为用户提出的源语言术语加上模式串,提 

之不断改善自身的性能。”。对于上述文本,用户即使不懂英 交到搜索引擎,获取与模式串紧邻且连续的目标语言词串作 

文也能猜测“machine learning”的中文翻译是“机器学习”。 为候选术语,并以频度作为候选术语的评分。 

网页上还存在很多类似的双语文本,例如“…机器学习 

上述方法存在以下问题: 

machine learning…”、“…机器学习一machine learning…”等, (1)忽略了对模式的评分,对候选词的评分方法太简单。 

如果获取的此类文本形式越多、数量越大,则翻译的可信度 (2)学习结果依赖人工提供的训练语料集。 

越高。 

对于问题(1),笔者通过观察混合双语网页发现: 

l相关工作 

(1)不同模式的可信度不同。例如,网页中经常出现模式 

机器翻译的研究工作始于20世纪50年代,最初的工作 

“E(F”,其中,E是源语言术语;F是目标语言术语。它们 

重点是对句子的翻译…。近年来,随着双语文本来源的增多, 

是正确互译的可能性很大。而如果网页中出现“E F”模式, 

基于双语文本的翻译工作成为热点。 

很少人会认为F是E的翻译。因此,必须对模式串进行评分。 

文献【2 J提出一个新方法来翻译基本名词短语。例如,翻 

(2)候选术语的应得评分不应该只依赖其频度,还要依赖 

译“information age”时,先通过词典确定其中文意思是“信 

与之同现的模式串的评分。 

息”,“age”的中文意思有“时代”和“年代”,然后提交“信 

问题(2)涉及机器学习中的一个重要课题:由于人工标定 

息时代”和“信息年代”到搜索引擎,将返回的相关文档数 

语料的代价太大,许多研究者开始寻找从少量人工标定语料 

量作为评判依据。在该例中,“信息时代”将返回较多网页数 

出发,利用未标定语料来改进系统性能的半监督学习方法。 

量,因此,它是合理的翻译。该方法的缺点是必须依靠定义 

self—training方法是新近出现的半监督学习方法,其核心思想 

良好的词典资源,且当词条意义较多时,存在组合爆炸问题。 

如下:利用少量人工标定数据,估计系统初始的参数,如果 

文献 J提出在日文、英文双语网页文本中,可以将与日 

系统在运行中发现与人工标定数据相似度较高的未标定数 

文相邻的英文词串作为候选英文翻译,并统计其频度,作为 

据,会将其作为自动标定数据,加入到训练集中,重新训练, 

这些候选可信度的评分。 

从而改进系统性能 』。 

文献f4】注意到如果位于源语言术语和目标语言术语之 

作者简介:李志圣(1977一),男,博士研究生,主研方向:信息检索; 

间的字符串不同,则翻译的可靠性不同。它把不同字符串定 

孙越恒,博士;何丕廉,教授、博上生导师 

义为模式串,提出TermMine系统,其核心方法如卜: 

收稿日期:2008—04一l1 E-mail:lzsjef@tom.corn 

利用self—training方法进行半监督学习的技术已被应用 

到很多领域。文献【6】利用self training方法学习实体之间的 

语义关系,文献【7]将self training用于学习主语的常用模式, 

文献【8】利用互联网获取语料,学习词语的搭配。以上文献的 

实验都表明,self-training方法能利用未标注语料,有效改进 

系统性能。 

2.2侯选术语的查找和评分 

当用户输入目标术语E后,系统将按如下方法查找候选 

术语,并进行评分: 

(1)提交术语E到百度,获取摘要; 

(2)在摘要中,找到目标语言串F,它匹配“EsF”或“FsE”, 

其中,S是习得的模式串; 

(3)存储所有不同的F; 

(4)对F进行评分。 

文献【4】的工作中仅用候选词频作为评分标准。由于网页 

的噪音较大,应发掘尽可能多的特征,以提高评分的准确率。 

本文采用self training机制,实现了一个新的术语翻译系 

统TermSearcher。其基本思想如下:先通过一对标注的术语 

对,进行初始学习,然后在实际运行中,通过互联网为用户 

提出的术语查询请求寻找候选术语,如果一个候选被判定为 

足够可靠,那么它可以作为训练语料,重新训练。基于上述 

思想可以获得更多模式,并改进现有评分。TermSearcher系 

统的运行流程见图1,其中,(1)表示初始训练,获得模式集; 

(2)表示获取候选术语及其评分;(3)表示重训练和重新评分。 

图1 TermSearcher系统的运行流程 

2术语翻译系统 

2.1模式获取和评分 

假定文本形如“…EsF…”,其中,E是源语言术语;F 

是目标语言术语;S是E和F之间的字符串。则“EsF”被称 

为一个模式,S被称为模式串。例如,假定E是“计算机”, 

F是“computer”,那么在文本“计算机(computer)的发展历史” 

中存在模式“E(F”,模式串为“(”。 

以术语E及其翻译F作为输入,获取模式串和评分的方 

法如下: 

(1)提交“E F”到搜索引擎(本文以百度作为搜索引擎); 

(2)在返回的摘要中,找出查找近邻的E和F,抽出位于 

2个词汇间、长度小于d的字符串(d被经验地设置为10); 

(3)存储上述模式串,如果该模式串已经存在,则评分加 

1,如果未存在,则评分设置为1。 

上述评分方法基于一个观察结果,即发生频度越大的模 

式串越可靠。因此,频度适合作为模式串的评分。 

在实际运行中,选用相关网页数量较多的一个翻译对: 

“计算机computer”,提交到百度。表1列出了获取的模式 

串,可以看到,模式串“”的评分明显高于比“ ”的评分, 

这证明“∑F” 帚可信的樟 

表1 以。计算机computer 为jl呵练语料获取的部分模式串及评分 

模式串 评分 

“翻译为” 

“1>’’ 

通过观察,笔者找到4条启发规则。 

规则1高频度的候选应比低频度的候选更可靠。 

例如,当提交“中央处理器”到百度,在前5O页摘要中, 

使用表1列出的部分模式,能查到表2列出的候选术语。由 

表2第2行可见,“CPU”有最高的出现频度,是正确的候选。 

表2 。中央处理器 的候选术语 

规则2正确候选在候选集中通常与较多其他候选相似。 

为了简化计算,按如下方法定义候选词条的相似性:如 

果词条E是词条F的子串,那么称E和F互为相似词条。例 

如,在表2中,与“CPU”相似的候选有:“Intel CPU”和“CPU 

PIII”等。 

规则3出现在更多模式中的候选应该比出现在一个模 

式中的候选更可靠。 

这是因为正确的翻译应该出现在多个网页中。由于不同 

网页由不同作者写出,因此它们具有多种模式。而不正确的 

候选通常来源于特定网页,它们应具有相同模式。在表2的 

第3行中,“CPU”出现在5个模式中,而错误候选,如“AMD” 

“PC”“Unit”仅出现在1个模式中。 

规则4出现在具有较高评分的模式中的候选,应该比出 

现在较低评分模式中的候选更可靠。 

文献[gin用模式抽取基本名词词组时,采用的评分函数 

是与候选同现的所有模式评分的总和。与此类似,本文采用 

式(1)计算频度和模式对候选术语的影响度。 

N 

score(F)=∑(score(pO) (1) 

i 

其中,F为某候选术语,若 为F在第i次出现时的文本, 

则P 指代F在 中的模式串;N为F出现的总次数。 

规则2指出,相似候选术语的评分对目标候选的评分有 

增益作用,因此,扩充式(1)为式(2)。 

Ⅳ 

score(F)=∑(score(pi)) xscore(F—similar) (2) 

其中, 为相似候选对目标候选的增益系数,它应介于0~1 

之间,本文设为0.5。 

2.3 self-training机制 

self-training机制描述如下: 

(1)当用户提交某个源语言术语进行查询时,在获得的候 

选术语集中,如果评分最高的候选术语,其分值比评分次高 

281— 

的候选术语超出m倍( 被经验地设置为3),那么该候选术 

语被认为是可靠术语。 

(2)用该候选术语和源语言术语作为训练对,根据2.1节 

的方法,重新训练,获取更多模式,更新模式评分,直到整 

个模式集的数量不再增加。 

在3.2节的测试结果中,被选择为可靠术语的正确率为 

94.1%。实验表明,上述选择方法是近似正确的。 

笔者在实验中发现,被选择的术语出错的原因是包含源 

语言术语的网页很少,导致同时包含源术语和正确翻译的网 

页极稀疏。由于错误候选术语出现的网页数量也很少,因此 

使用错误候选对模式集进行更新时,其实际影响很小。 

3实验结果 

3.1测试集 

术语有2个特性:(1)很大一部分术语不出现在普通词典 

里;(2j很多新术语频繁地在网络上出现。在文献【4j的工作中, 

测试集从大英百科全书中选取,该测试集的弱点是不能反映 

术语的第(2)个特性。本文从2个方面获取测试集:(1)按文献 

【41的方法,从大英百科全书中随机抽取100对术语;(2)从 

5个不同领域的网站,分别抽取20对术语。 

3.2初始illI练和self-training 

本文使用一对术语“计算机computer“进行初始训练, 

得到了48个模式作为初始模式集。部分模式和评分列于表1 

中。在self-training阶段,有17个候选术语被自动选择进行 

重训练。其中,16个是正确的,准确率是94.1%。经过重训 

练之后,得到55个模式,评分被重新计算,如表3所示,与 

表1对比可见,评分虽然改变了,但模式串评分的名次未变。 

噪音模式串在重训练过程中,继续维持低评分基本不变。 

表3重t啊练后的部分模式串及评分 

模式串 评分 

“翻译为” 

“l> 

3.3准确率 

由表4可以看到,测试集中的多数术语不能在“American 

Heritage Dictionary”中找到,原因是术语通常较新且较专业。 

因此,普通词典不适合作为查询术语的工具。大英百科全书 

包含了网络数据测试集中的65%,另外35%是近年来新出现 

的词汇,未被记载于大英百科全书。 

表4不同方法的准确事比较 (%) 

测试集 网络术语测试集大英百科全书测试集 总测试集 

282一 

表TermSearcher在网络术语集上的性能高于在大英百科 

全书测试集上的性能,这是因为包含网络术语的网页通常较 

多且较规范。 

在整个测试集上,Google在线翻译(www.google.corn/ 

language

tools)的准确率是68%,大英百科全书的准确率是 

82.5%,TermSearcher的翻准确率是88.5%。 

在大英百科全书测试集上,文献【41的准确率是86%, 

TermSearcher的准确率是87%。 

表5记录了在测试集上,TermSearcher的准确率与返回 

的网页数量的关系,可以看出,返回的网页数量越大准确率 

越高。 

表5 实验中阉页数量和准确率的关系 

4结束语 

本文提出一个基于self—training机制的网络术语模式获 

取和评估的方法,开发了网络术语翻译系统TermSearcher。 

与原有机制不同,本文首次将self-training机制运用到术语翻 

译中,使系统对人工标定语料的依赖度降到最低,并利用启 

发规则,改进了候选术语的评分机制,对模式串进行评分。 

参考文献 

[1】Hutchins W,Somers H.An Introduction to Machine Translation[M]. 

London,English:Academic Press,1992. 

[2】Cao Yunbo,Li Hang.Base Noun Phrase Translation Using Web Data 

and the EM Algorithm[C]//Proceedings of International Conference 

on Computational Linguistics.Philadelphia,USA:[s.n.],2002. 

【3】Nagata M,Saito Suzuki K.Using the Web as a Bilingual 

Dictionary[Z].Association for Computational Linguistics,Toulouse, 

2o01. 

[4]Wu Jiancheng,Tracy L,Jason S C.Learning Source—target Surface 

Patterns for Web—based Terminology Translation[Z].Association for 

Computational Linguistics,2005. 

【5]Zhu Xiaojin.Semi—supervised Learning Literature Survey[D]. 

Wisconsin,USA:University of Wisconsin,2007. 

[6]Agichtein E,Gravano L.Snowball:Extracting Relations from Large 

Plain—text Collections[C]//Proceedings of the 5th ACM In ̄rnmional 

Conference on Digital Libraries.[S.1.]:ACM Press,2000. 

【7】Riloff E,Wiebe J,Wilson T Learning Subjective Nouns Using 

Extraciton Pattem Bootstrapping[C]//Proceedings of the 7th 

Conference on Computational Natural Language Learning. 

Edmonton,Canada:[s.n.],2003. 

[8]Riloft E,Jones R.Learning Dictionaries for Information Extraction 

by Multi—level Bootstrapping[Z].Association for the Advancement 

ofArtiifcia1 Intelligence.1999. 


本文标签: 术语 模式 候选 评分 学习