admin 管理员组文章数量: 1086019
2024年3月22日发(作者:jsp教程是什么)
ISSN1009-3044
ComputerKnowledgeandTechnology
第17卷第14期(2021年5月)
电脑知识
与技术
Vol.17,No.14
May
2021
E-mail:*************.cn
ComputerKnowledgeandTechnology
电脑知识
与技术
http://
Tel:+86-551-6569
基于翻译API的HSK汉-乌平行词库构建方法研究
胡创业,黄欣欣
(新疆师范大学,新疆乌鲁木齐830054)
摘要:该文介绍了如何利用翻译API技术构建HSK汉语-乌兹别克语平行词库的关键技术和方法,采用基于翻译API技术
对HSK汉语词汇完成自动有效的翻译对齐工作,实现HSK汉-乌平行词库的构建目标。并通过两种方法对平行词库完成
扩充,最后对未完成对齐的词汇进行人工近义词校对,使HSK平行词库趋于完善。
关键词:翻译API;HSK;平行词库;对齐;扩充
中图分类号:TP311文献标识码:A
开放科学(资源服务)标识码(OSID):
文章编号:1009-3044(2021)14-0201-03
ResearchontheConstructionMethodofHSKChinese-ukrainianParallelThesaurusBasedonTranslationAPI
HUChuang-ye,HUANGXin-xin
(XinjiangNormalUniversity,Urumqi830054,China)
Abstract:ThisarticleintroducesthekeytechnologiesandmethodsofhowtousethetranslationAPItechnologytobuildtheHSK
nslationAPItechnologyisusedtocompletetheautomaticandeffectivetranslationalign⁃
mentofHSKChinesevocabularyallelthesau⁃
y,artificialsynonymproofreadingisperformedontheincompletelyalignedwordstomake
theHSKparallelthesaurusperfect.
Keywords:translationAPI;HSK;parallelthesaurus;alignment;expansion
1背景
平行语料库是同一含义不同语言对齐所组成的语料资源,
对机器翻译研究具有重要作用和意义
[1-2]
。目前在国内研究构
建汉语-乌兹别克语对齐语料库的技术外均相对较少,本文将
主要介绍汉-乌双语对齐语料库构建技术研究,此研究能为汉-
乌机器翻译技术研究者提供语料基础,具有一定的学术价值与
[3]
应用价值。
通过对相关文献资料调查研究发现,汉语-乌兹别克语对
齐语料库的研究仍然处在发展缓慢的初期阶段
[4]
。国家战略的
发展要求我们国家必须加速推进汉-乌对齐语料库的构建和技
术研究
[5]
,这项研究技术的成果会对后期的汉-乌机器翻译研究
有很大促进作用,并为中乌双方的无障碍交流提供有效的现代
信息交流工具,带动两国之间的经济、文化、科技、教育等方面
的交流和发展
[6-7]
。
本文以汉语水平考试(HSK)汉语词汇为基础,引出如何利
用翻译API技术自动生成汉语-乌兹别克语双语对齐词库,及
其相关技术、问题和实现解决技术方法。汉语水平考试(HSK)
中共有1至6级汉语词汇5000个,实验采用翻译API技术能够
快速有效生成汉-乌平行语料库,并将库中少量未完成翻译词
汇进行人工校对,从而形成不断完善的汉-乌平行语料词库。
这对后期的汉-乌机器翻译研究以及乌兹别克语使用者学习汉
语都将会有很大的帮助
[8-9]
。
2翻译应用程序接口(API)的应用
随着近几年机器翻译技术的兴起
[10]
,研究人员开发了各具
不同功能的翻译程序,谷歌翻译、有道翻译、百度翻译是国内应
用比较多的三种翻译程序。这三种翻译程序都有可以应用程
序接口。有道翻译和百度翻译所包含语种多为国际主流语言,
而谷歌翻译除了主流语言以外还包括了许多非主流语言,科研
人员可以通过调用翻译应用程序接口来解决各样功能的翻译
问题
[11-12]
。文中研究内容为汉语-乌兹别克语的双语语料库构
建,参照下表1分析可知,只有谷歌翻译包含乌兹别克语语种,
所以本文采用谷歌翻译应用程序接口。
表1三大翻译软件对比分析
翻译API名称
谷歌翻译
有道翻译
百度翻译
包含语种数量
104
23
28
是否含有乌兹别克语语种
包含
不包含
不包含
收稿日期:2021-01-25
基金项目:汉语-乌兹别克语平行语料库自动构建方法研究(项目编号:XJNUSYS2019B10)
作者简介:胡创业(1994—),男,河南扶沟人,助教,硕士,主要研究方向为自然语言处理;黄欣欣(1994—),女,河南兰考人,硕士,主
要研究方向为自然语言处理。
本栏目责任编辑:梁书
计算机工程应用技术
201
ComputerKnowledgeandTechnology
电脑知识
与技术
谷歌翻译和其他大多翻译软件一样都为用户提供API,本
文主要使用的是python库中的googletrans包,其核心思想是模
拟用户进行访问网页并获取网页内容,通过构造URL发起GET
请求,得到一个JSON结果并提取翻译内容。
3HSK汉-乌平行词库构建
3.1HSK汉语语料准备与预处理
语料准备。汉语水平考试(HSK)大纲词汇,语料存储格式
为EXCEL表格形式,语料里面内容有汉语水平考试(HSK)考试
大纲词汇一至六级共5000个。每个词汇后都带有括号并标明
等级,这属于噪声部分需要后期处理,并且一至六级词汇都在
一个表格,一次翻译内容较多且不易分类,因此需要分为一至
六级的六个表格进行分类处理。
=LEFT(A2,FIND("
语料预处理。去除括号及等级部分,采用表格截取公式为
内容,FIND函数表示定位查找目标位置,
(",A2)-1),其中A2表示第一列第二行单元格
LEFT表示从左边开
始截取,截取完成就会去除语料词后面冗余部分,只保留语料
词的有用词汇部分。最后,通过快速复制公式方法快速处理剩
余所有词汇。例如:原样的格式“爱(一级)”,改为我们需要的
词汇格式
5000
“爱”。建立无带其他附加符号的汉语词,总共处理
3.2汉
个汉语词汇。
-乌对齐语料自动构建
此次实验使用的核心思路如下,通过循环依次读取语料词
汇表中已处理的词汇;通过调用谷歌翻译应用程序接口技术,
根据不同翻译环境设计翻译模型。而在调用谷歌翻译应用程
序接口技术时,由于谷歌翻译服务器有反爬虫机制而不能频繁
访问使用,因此需要通过实验测试它的访问最佳参数。通过如
图1所示的实验结果分析,当翻译每次翻译频次为50次、休眠
时间为30秒时,为访问谷歌翻译服务器的最佳状态。
图1实验测试结果
语料分类。将原本集中在一张表的所有等级词汇,按等级
分类分成六张表存储,便于分类管理以及后期使用。后期在处
理过程中可以按类别分批处理,彼此类别之间不会相互影响。
最后通过整理分类得出完整的对照语料库,以六级词汇为例如
图2所示。
图2HSK六级汉语词汇对齐语料
202
计算机工程应用技术
第17卷第14期(2021年5月)
从上图我们可以看出大部分HSK汉语词汇均可有效地翻
译并写入表中,部分词汇第三方软件无法识别翻译,如上图中
的“暧昧”一词,这是中国汉语中比较形象的一个词汇,但国外
可能无法理解其含义,因此需要找到它的近义词如“含糊”,进
行再次翻译并人工校正。
4HSK汉-乌平行词库扩充
4.1基于乌兹别克语语料的HSK词库扩充
兹别克语语料,
1)语料预处理。对于直接从乌兹别克语网站上爬取的乌
里面带有很多垃圾语料和噪声语料,如网页结
构标签、
2
影响。
所示,如果不对其进行预处理除杂,
数字、网页链接以及符号等等,
将会对后期实验产生很大
整理收集后分类如下表
表2垃圾语料分类示例
分类结构标签类数字类网页链接类符号类
示例
>
、
1、2 … 、3、4 /uz/lists/view/2377、/oz/ %、&、#、 >... 12、23、 lists/category/5 65... ... 、/uploads/normal/e76a2d87- $、*、@... 14M 2)分词去重。通过对预处理语料分词后共得到大小共 词汇。文档中有大量重复词语, 的乌语词语料文档,经过分词处理后共计得到 需采用文档去重技术对词语料 1512129条 文档进行去重。使用去重工具,将列表中重复项去掉,最终得 到的去重词表通过循环写入表中,共计得到不重复乌兹别克语 词条共计 3 11054条,我们这里定义其为新词库。 上述所得到的是按顺序排列且不重复的乌兹别克语新词 )新词库的平行词库构建。 库,这里仍然使用基于翻译API技术的词对齐语料库的构建方 法实现新词库的平行词库的构建,具体实现模型如图3所示。 图3汉-乌对齐语料库构建模型 5结束语 本文首先介绍了翻译API技术的相关应用,并利用此项技 术完成对HSK汉-乌平行词库的自动构建。但HSK词库中的 词汇是比较常用词汇,并不能完整涵盖所有词汇,因此还有很 大的扩展空间。而对于HSK词库的扩充本文采用了两种方法, 一种方法是结合所构建的汉-乌平行语料库中的平行词库,以 乌兹别克语词汇为基准对照HSK词库进行对照扩充;另一种方 法是结合汉语词典对HSK词库进行扩充。这两种HSK词库扩 充方法各有优缺点,基于乌兹别克语语料的HSK词库扩充方法 本栏目责任编辑:梁书 第17卷第14期(2021年5月) ComputerKnowledgeandTechnology 电脑知识 与技术 所扩充新词都是基于乌兹别克语词汇,基本上都能找到其对应 的平行汉语词汇;而基于汉语词典的HSK词库扩充方法的扩充 规模较大,但其扩充新词中会存在一定量的词汇无法找到对应 的平行乌兹别克语词汇。两种扩充方法的优缺点具有互补的 特性,因此将两种方法结合起来对HSK词库进行扩充可以达到 很好的效果。 参考文献: [1]兰彩玉.中药汉英双语平行语料库的设计及构建[J].亚太传 统医药,2014,10(8):1-3. [2]房璐.英汉可比较语料库的构建与应用研究[D].苏州:苏州大 学,2011. [3]阿西穆·托合提.维吾尔语-乌兹别克语机器翻译研究[D].乌 鲁木齐:新疆大学,2017. [4]徐雄飞.大中华区词对齐自动抽取研究[D].南昌:江西师范大 学,2016. [5]李哲.俄汉-汉俄平行语料库建设与研制的迫切性及应用价 值[J].文学教育(下),2018(1):90-91. [6]pondenceAnalysisofEnglish-ChineseCon⁃ trastRelationshipandAdverbialModuleintheConstruction ofParallelTranslationCorpus[C]//InstituteofManagementSci⁃ dingsof20184thInter⁃ nationalConferenceonEducation,ManagementandInforma⁃ tionTechnology(ICEMIT2018).InstituteofManagementSci⁃ enceandIndustrialEngineering:ComputerScienceandElec⁃ tronicTechnologyInternationalSociety,2018:4. [7]沈韵,张炼.基于平行语料库的计算机辅助翻译软件在翻译 教学中的应用——以雪人CAT软件为例[C]//外语教育与翻 译发展创新研究(第七卷),2018:254-257. [8]ngDesignforTranslationBasedonEnglish- ChineseParallelCorpus[C]//SingaporeManagementandSports ScienceInstitute,SingaporeInternationalCommunicationSci⁃ encesAssociation,dingsof20172ndEB⁃ MEIInternationalConferenceonEducation,Informationand Management(EBMEI-EIM2017).SingaporeManagementand SportsScienceInstitute,SingaporeInternationalCommunica⁃ tionSciencesAssociation,HongKong:智能信息技术应用学会, 2017:4. [9]variatestudyofT/VformsinEuropeanlan⁃ guagesbasedonaparallelcorpusoffilmsubtitles[J].Research inLanguage,2017,15(2):153-172. [10]刘克强.基于平行语料库的莫言小说英译特征研究[C]//外 语教育与翻译发展创新研究(第六卷),2017:236-241. [11]ationandinterpretationmarketneedsanaly⁃ sis:towardsoptimizingprofessionaltranslatorandinterpreter traininginNigeria[J].TheInterpreterandTranslatorTrainer, 2019,13(1):104-106. [12]NúñezJL,Bolañtorsofproblem-solving intranslation:implicationsfortranslatortraining[J].TheInter⁃ preterandTranslatorTrainer,2018,12(3):282-298. 【通联编辑:谢媛媛】 (上接第194页) 磁同步电机也向卫星和国防系统中提供电机。上文当中,就是 我们关于基于永磁同步电机滑模观测与控制的策略研究。 参考文献: [1]刘计龙,肖飞,麦志勤,等.IF控制结合滑模观测器的永磁同步 电机无位置传感器复合控制策略[J].电工技术学报,2018,33 (4):919-929. [2]郭磊磊,王华清,代林旺,等.基于超螺旋滑模观测器的永磁同 步电机无速度传感器控制方法[J].电力自动化设备,2020,40 (2):21-31,34. [3]张利深,贵献国,严亮.基于滑模观测器的永磁同步电机直接 转矩控制研究[J].微特电机,2019,47(7):61-64. [4]柯希彪,郭琳,袁训锋,等.基于模糊控制的永磁同步电机滑模 观测器控制[J].自动化与仪表,2020,35(5):34-39. [5]吴定会,杨德亮,陈锦宝.基于滑模观测器的永磁同步电机矢 量控制[J].系统仿真学报,2018,30(11):4256-4267. 【通联编辑:李雅琪】 本栏目责任编辑:梁书 计算机工程应用技术 203
版权声明:本文标题:基于翻译API的HSK汉-乌平行词库构建方法研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1711097554a588335.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论