admin 管理员组

文章数量: 1086019


2024年3月22日发(作者:jsp教程是什么)

ISSN1009-3044

ComputerKnowledgeandTechnology

第17卷第14期(2021年5月)

电脑知识

与技术

Vol.17,No.14

May

2021

E-mail:*************.cn

ComputerKnowledgeandTechnology

电脑知识

与技术

http://

Tel:+86-551-6569

基于翻译API的HSK汉-乌平行词库构建方法研究

胡创业,黄欣欣

(新疆师范大学,新疆乌鲁木齐830054)

摘要:该文介绍了如何利用翻译API技术构建HSK汉语-乌兹别克语平行词库的关键技术和方法,采用基于翻译API技术

对HSK汉语词汇完成自动有效的翻译对齐工作,实现HSK汉-乌平行词库的构建目标。并通过两种方法对平行词库完成

扩充,最后对未完成对齐的词汇进行人工近义词校对,使HSK平行词库趋于完善。

关键词:翻译API;HSK;平行词库;对齐;扩充

中图分类号:TP311文献标识码:A

开放科学(资源服务)标识码(OSID):

文章编号:1009-3044(2021)14-0201-03

ResearchontheConstructionMethodofHSKChinese-ukrainianParallelThesaurusBasedonTranslationAPI

HUChuang-ye,HUANGXin-xin

(XinjiangNormalUniversity,Urumqi830054,China)

Abstract:ThisarticleintroducesthekeytechnologiesandmethodsofhowtousethetranslationAPItechnologytobuildtheHSK

nslationAPItechnologyisusedtocompletetheautomaticandeffectivetranslationalign⁃

mentofHSKChinesevocabularyallelthesau⁃

y,artificialsynonymproofreadingisperformedontheincompletelyalignedwordstomake

theHSKparallelthesaurusperfect.

Keywords:translationAPI;HSK;parallelthesaurus;alignment;expansion

1背景

平行语料库是同一含义不同语言对齐所组成的语料资源,

对机器翻译研究具有重要作用和意义

[1-2]

。目前在国内研究构

建汉语-乌兹别克语对齐语料库的技术外均相对较少,本文将

主要介绍汉-乌双语对齐语料库构建技术研究,此研究能为汉-

乌机器翻译技术研究者提供语料基础,具有一定的学术价值与

[3]

应用价值。

通过对相关文献资料调查研究发现,汉语-乌兹别克语对

齐语料库的研究仍然处在发展缓慢的初期阶段

[4]

。国家战略的

发展要求我们国家必须加速推进汉-乌对齐语料库的构建和技

术研究

[5]

,这项研究技术的成果会对后期的汉-乌机器翻译研究

有很大促进作用,并为中乌双方的无障碍交流提供有效的现代

信息交流工具,带动两国之间的经济、文化、科技、教育等方面

的交流和发展

[6-7]

本文以汉语水平考试(HSK)汉语词汇为基础,引出如何利

用翻译API技术自动生成汉语-乌兹别克语双语对齐词库,及

其相关技术、问题和实现解决技术方法。汉语水平考试(HSK)

中共有1至6级汉语词汇5000个,实验采用翻译API技术能够

快速有效生成汉-乌平行语料库,并将库中少量未完成翻译词

汇进行人工校对,从而形成不断完善的汉-乌平行语料词库。

这对后期的汉-乌机器翻译研究以及乌兹别克语使用者学习汉

语都将会有很大的帮助

[8-9]

2翻译应用程序接口(API)的应用

随着近几年机器翻译技术的兴起

[10]

,研究人员开发了各具

不同功能的翻译程序,谷歌翻译、有道翻译、百度翻译是国内应

用比较多的三种翻译程序。这三种翻译程序都有可以应用程

序接口。有道翻译和百度翻译所包含语种多为国际主流语言,

而谷歌翻译除了主流语言以外还包括了许多非主流语言,科研

人员可以通过调用翻译应用程序接口来解决各样功能的翻译

问题

[11-12]

。文中研究内容为汉语-乌兹别克语的双语语料库构

建,参照下表1分析可知,只有谷歌翻译包含乌兹别克语语种,

所以本文采用谷歌翻译应用程序接口。

表1三大翻译软件对比分析

翻译API名称

谷歌翻译

有道翻译

百度翻译

包含语种数量

104

23

28

是否含有乌兹别克语语种

包含

不包含

不包含

收稿日期:2021-01-25

基金项目:汉语-乌兹别克语平行语料库自动构建方法研究(项目编号:XJNUSYS2019B10)

作者简介:胡创业(1994—),男,河南扶沟人,助教,硕士,主要研究方向为自然语言处理;黄欣欣(1994—),女,河南兰考人,硕士,主

要研究方向为自然语言处理。

本栏目责任编辑:梁书

计算机工程应用技术

201

ComputerKnowledgeandTechnology

电脑知识

与技术

谷歌翻译和其他大多翻译软件一样都为用户提供API,本

文主要使用的是python库中的googletrans包,其核心思想是模

拟用户进行访问网页并获取网页内容,通过构造URL发起GET

请求,得到一个JSON结果并提取翻译内容。

3HSK汉-乌平行词库构建

3.1HSK汉语语料准备与预处理

语料准备。汉语水平考试(HSK)大纲词汇,语料存储格式

为EXCEL表格形式,语料里面内容有汉语水平考试(HSK)考试

大纲词汇一至六级共5000个。每个词汇后都带有括号并标明

等级,这属于噪声部分需要后期处理,并且一至六级词汇都在

一个表格,一次翻译内容较多且不易分类,因此需要分为一至

六级的六个表格进行分类处理。

=LEFT(A2,FIND("

语料预处理。去除括号及等级部分,采用表格截取公式为

内容,FIND函数表示定位查找目标位置,

(",A2)-1),其中A2表示第一列第二行单元格

LEFT表示从左边开

始截取,截取完成就会去除语料词后面冗余部分,只保留语料

词的有用词汇部分。最后,通过快速复制公式方法快速处理剩

余所有词汇。例如:原样的格式“爱(一级)”,改为我们需要的

词汇格式

5000

“爱”。建立无带其他附加符号的汉语词,总共处理

3.2汉

个汉语词汇。

-乌对齐语料自动构建

此次实验使用的核心思路如下,通过循环依次读取语料词

汇表中已处理的词汇;通过调用谷歌翻译应用程序接口技术,

根据不同翻译环境设计翻译模型。而在调用谷歌翻译应用程

序接口技术时,由于谷歌翻译服务器有反爬虫机制而不能频繁

访问使用,因此需要通过实验测试它的访问最佳参数。通过如

图1所示的实验结果分析,当翻译每次翻译频次为50次、休眠

时间为30秒时,为访问谷歌翻译服务器的最佳状态。

图1实验测试结果

语料分类。将原本集中在一张表的所有等级词汇,按等级

分类分成六张表存储,便于分类管理以及后期使用。后期在处

理过程中可以按类别分批处理,彼此类别之间不会相互影响。

最后通过整理分类得出完整的对照语料库,以六级词汇为例如

图2所示。

图2HSK六级汉语词汇对齐语料

202

计算机工程应用技术

第17卷第14期(2021年5月)

从上图我们可以看出大部分HSK汉语词汇均可有效地翻

译并写入表中,部分词汇第三方软件无法识别翻译,如上图中

的“暧昧”一词,这是中国汉语中比较形象的一个词汇,但国外

可能无法理解其含义,因此需要找到它的近义词如“含糊”,进

行再次翻译并人工校正。

4HSK汉-乌平行词库扩充

4.1基于乌兹别克语语料的HSK词库扩充

兹别克语语料,

1)语料预处理。对于直接从乌兹别克语网站上爬取的乌

里面带有很多垃圾语料和噪声语料,如网页结

构标签、

2

影响。

所示,如果不对其进行预处理除杂,

数字、网页链接以及符号等等,

将会对后期实验产生很大

整理收集后分类如下表

表2垃圾语料分类示例

分类结构标签类数字类网页链接类符号类

示例

>

1、2

、3、4

/uz/lists/view/2377、/oz/

%、&、#、

>...

12、23、

lists/category/5

65...

...

、/uploads/normal/e76a2d87-

$、*、@...

14M

2)分词去重。通过对预处理语料分词后共得到大小共

词汇。文档中有大量重复词语,

的乌语词语料文档,经过分词处理后共计得到

需采用文档去重技术对词语料

1512129条

文档进行去重。使用去重工具,将列表中重复项去掉,最终得

到的去重词表通过循环写入表中,共计得到不重复乌兹别克语

词条共计

3

11054条,我们这里定义其为新词库。

上述所得到的是按顺序排列且不重复的乌兹别克语新词

)新词库的平行词库构建。

库,这里仍然使用基于翻译API技术的词对齐语料库的构建方

法实现新词库的平行词库的构建,具体实现模型如图3所示。

图3汉-乌对齐语料库构建模型

5结束语

本文首先介绍了翻译API技术的相关应用,并利用此项技

术完成对HSK汉-乌平行词库的自动构建。但HSK词库中的

词汇是比较常用词汇,并不能完整涵盖所有词汇,因此还有很

大的扩展空间。而对于HSK词库的扩充本文采用了两种方法,

一种方法是结合所构建的汉-乌平行语料库中的平行词库,以

乌兹别克语词汇为基准对照HSK词库进行对照扩充;另一种方

法是结合汉语词典对HSK词库进行扩充。这两种HSK词库扩

充方法各有优缺点,基于乌兹别克语语料的HSK词库扩充方法

本栏目责任编辑:梁书

第17卷第14期(2021年5月)

ComputerKnowledgeandTechnology

电脑知识

与技术

所扩充新词都是基于乌兹别克语词汇,基本上都能找到其对应

的平行汉语词汇;而基于汉语词典的HSK词库扩充方法的扩充

规模较大,但其扩充新词中会存在一定量的词汇无法找到对应

的平行乌兹别克语词汇。两种扩充方法的优缺点具有互补的

特性,因此将两种方法结合起来对HSK词库进行扩充可以达到

很好的效果。

参考文献:

[1]兰彩玉.中药汉英双语平行语料库的设计及构建[J].亚太传

统医药,2014,10(8):1-3.

[2]房璐.英汉可比较语料库的构建与应用研究[D].苏州:苏州大

学,2011.

[3]阿西穆·托合提.维吾尔语-乌兹别克语机器翻译研究[D].乌

鲁木齐:新疆大学,2017.

[4]徐雄飞.大中华区词对齐自动抽取研究[D].南昌:江西师范大

学,2016.

[5]李哲.俄汉-汉俄平行语料库建设与研制的迫切性及应用价

值[J].文学教育(下),2018(1):90-91.

[6]pondenceAnalysisofEnglish-ChineseCon⁃

trastRelationshipandAdverbialModuleintheConstruction

ofParallelTranslationCorpus[C]//InstituteofManagementSci⁃

dingsof20184thInter⁃

nationalConferenceonEducation,ManagementandInforma⁃

tionTechnology(ICEMIT2018).InstituteofManagementSci⁃

enceandIndustrialEngineering:ComputerScienceandElec⁃

tronicTechnologyInternationalSociety,2018:4.

[7]沈韵,张炼.基于平行语料库的计算机辅助翻译软件在翻译

教学中的应用——以雪人CAT软件为例[C]//外语教育与翻

译发展创新研究(第七卷),2018:254-257.

[8]ngDesignforTranslationBasedonEnglish-

ChineseParallelCorpus[C]//SingaporeManagementandSports

ScienceInstitute,SingaporeInternationalCommunicationSci⁃

encesAssociation,dingsof20172ndEB⁃

MEIInternationalConferenceonEducation,Informationand

Management(EBMEI-EIM2017).SingaporeManagementand

SportsScienceInstitute,SingaporeInternationalCommunica⁃

tionSciencesAssociation,HongKong:智能信息技术应用学会,

2017:4.

[9]variatestudyofT/VformsinEuropeanlan⁃

guagesbasedonaparallelcorpusoffilmsubtitles[J].Research

inLanguage,2017,15(2):153-172.

[10]刘克强.基于平行语料库的莫言小说英译特征研究[C]//外

语教育与翻译发展创新研究(第六卷),2017:236-241.

[11]ationandinterpretationmarketneedsanaly⁃

sis:towardsoptimizingprofessionaltranslatorandinterpreter

traininginNigeria[J].TheInterpreterandTranslatorTrainer,

2019,13(1):104-106.

[12]NúñezJL,Bolañtorsofproblem-solving

intranslation:implicationsfortranslatortraining[J].TheInter⁃

preterandTranslatorTrainer,2018,12(3):282-298.

【通联编辑:谢媛媛】

(上接第194页)

磁同步电机也向卫星和国防系统中提供电机。上文当中,就是

我们关于基于永磁同步电机滑模观测与控制的策略研究。

参考文献:

[1]刘计龙,肖飞,麦志勤,等.IF控制结合滑模观测器的永磁同步

电机无位置传感器复合控制策略[J].电工技术学报,2018,33

(4):919-929.

[2]郭磊磊,王华清,代林旺,等.基于超螺旋滑模观测器的永磁同

步电机无速度传感器控制方法[J].电力自动化设备,2020,40

(2):21-31,34.

[3]张利深,贵献国,严亮.基于滑模观测器的永磁同步电机直接

转矩控制研究[J].微特电机,2019,47(7):61-64.

[4]柯希彪,郭琳,袁训锋,等.基于模糊控制的永磁同步电机滑模

观测器控制[J].自动化与仪表,2020,35(5):34-39.

[5]吴定会,杨德亮,陈锦宝.基于滑模观测器的永磁同步电机矢

量控制[J].系统仿真学报,2018,30(11):4256-4267.

【通联编辑:李雅琪】

本栏目责任编辑:梁书

计算机工程应用技术

203