admin 管理员组

文章数量: 1086019


2024年4月24日发(作者:ignore是什么意思翻译)

PHP简易中文分词系统对闽菜各的 

分词实.验与结果‘分析 

口林梦虹 

摘要:菜名作为专有名词的一部分,在计算机分词中,常属于“未登录词”部分。本文选取600个闽菜名为 

调查材料,测试PHP分词系统在对材料进行切分时的效率,分析该分词系统在菜名切分时存在的问题及问题的主 

要类别,试图解释造成分词结果错误的原因,提出解决思路。 

关键词:PHP简易中文分词 闽菜菜名分词未登录词 

闽菜名特点及对其进行正确的识别、切分的必要性 心理的、文化的认同。只有经过“文化世界的折光”,抽 

作为中国八大菜系之一的闽菜以福州菜为代表,另 象的所指才能和事物之间建立比较确定的联系,符号才 

外包括闽南菜、闽西菜等。闽菜所选用的食材种类较为丰 能名称化,成为真正能够指代事物的名称。闽菜名作为 

富,盛产海鲜的东南沿海地区擅于使用海鳗、蛏子、鱿鱼 标记具体菜肴的符号,或反映菜品的原料,如“萝卜鲫 

等海鲜为原料烹制各式菜肴,内陆山区则多用笋、香菇、 鱼”“鲟肉豆苗”,或表现该菜的烹调方式,如“炝糟鸡 

鸡鸭等山珍野味。闽菜的烹调方式多样而又不失自身特 丝”,或运用比喻、借代等修辞手法展示该菜的特点,如 

色,擅长“炒、熘、煎、煨”等, “糟”是闽菜的一大特 “龙须燕丸”,或反映菜式的来源,如“福州鱼丸”,具 

色。在命名活动中,符号化的“事物”需要得到社会的、 有较为深厚的文化内涵。 

等作为专名。如: 

(5)“张隘社区…邱隘社区” “余隘社区” “王隘 

(8)“孝闻小区”“迎凤小区”等。 

“孝闻小区”是借代宋时孝子杨庆故居“孝闻坊” 

社区” “徐家社区” “林家社区” “戎家社区” “薛家家 而命名:“迎风小区”则是借用“迎风坊”而命名。相传 

园”“苏家小区”等。 宋徽宗曾诏书,为一位名医在此建石牌坊。而今虽坊已不 

以名字转喻:以名人的名字指称居民社区名称的专 存,坊名却沿用至今,这种命名方式突显了一个地区的历 

名。如: 史文化,有助于保留该地区的传统美德。 

(6)“中山雅园” “苍水社区”等。 

“中山雅园”以伟大的革命先驱孙中山先生的名“中 

清志士张苍水的名“苍水”指称小区名称的专名。 

(三)以房地产开发商名转喻小区名 

(五)以方位、形状或者序数转喻小区名 

以方位、形状或者数字来转喻居民小区名,就是突出 

小区名称的专名部分。如: 

(9)“西北小区” “东南社区” “九曲小区” “五台 

山”指代小区名称的专名;“苍水社区”是以明末清初抗 这些要素,用表示方位、形状的词或者序数词来代指居民 

越来越多的房地产开发商为了宣传自己公司,扩大影 花园”“八角社区”“十二庭院”等。 

响力和市场竞争力,把公司名字纳入到所建的居民小区名 四、结语 

中,突显了开发商在设计、建造小区时所起的作用,大大 

加强了居民小区的商业色彩。如: 

转喻作为重要的认知方式,在居民小区的命名中起着 

不可替代的作用。在居民小区名称命名中,人们倾向于用 

(7)宁波华泰股份有限公司: “华泰银座” “华泰剑 

桥” “华泰星城”等。 

宁波雅戈尔置业有限公司: “雅戈尔・钱湖比华利” 

“雅戈尔都市丽湾”“雅戈尔世纪花园”“雅戈尔锦绣东 

转喻的思维方法,通过小区与客观物理世界的相关关系来 

命名。本文通过对宁波市居民小区命名中的转喻的探究发 

现,现代宁波市民对于小区的自然环境和文化底蕴都有了 

更高的要求,小区质量不断提高。 

城” “雅戈尔御玺”“雅戈尔香湖湾”“雅戈尔长岛花 

园” “雅戈尔都市华庭”等。 参考文献: 

宁波银亿集团有限公司: “银亿钰鼎园” “银亿海悦 【1】莱考夫.女人,火和危险的事情:什么类别揭示心灵[M】.芝加哥: 

花苑” “银亿海尚广场” “银亿海德花苑” “银亿花苑” 

芝加哥大学出版社,1987. 

“银亿上上城”等。 

【2】莱考夫・约翰逊.我们赖以生存的隐喻[M】.芝加哥:芝加哥大学 

出版社,2003. 

宁波万科集团: “万科城” “万科云鹭湾”“万科金 

域华府” “万科金色水岸” “万科金色城市”等。 

(四)以历史典故转喻小区名 

以与该地区相关的历史典故来指代居民小区的专名。如: 

【3】赵艳芳.认知语言学概论 .上海:上海外语教育出版杜,2001. 

(翁雨昕浙江宁波宁波大学外语学院315211) 

2012.04 

语言应用研究 

有关是否应该对菜名进行切分的问题,存在不同的 ftphp.com/scws/demo/v4.php。相关资料显示这是一套基 

观点。 《现代汉语语料库加工规范——词语切分与词性标 于词频词典的机械中文分词引擎,能将一整段的汉字基本 

注》中认为,食谱上的菜名等通常也是短语型的,若拆开 

正确地切分成词。它采用自行采集的词频词典,并辅以一 

了,意思差别甚远,则不切分,否则切分。即使不切分, 

为,菜名应属于“专有名词”的范畴:首先,一个菜名往 

定程度上的专有名称、人名、地名、数字年代等规则集, 

也不看作专有名词,例如木犀肉/n,芝麻/n饼/n。本文认 

经小范围测试大概准确率在90% ̄95%之间,已能基本满足 

些中小型搜索引擎、关键字提取等场合运用。SCWS采用 

 OS为主要平台环境,提供共享 

往与一个具体的、确定的菜品相互对应;其次,若以拆开 

纯C代码开发,以Unix-Like

后意义与原意的差别程度作为是否切分的标准,在实际运 函数库,方便植入各种现有软件系统。此外它支持GBK, 

用时难以落实。 

对于计算机分词系统来说,相当大一部分菜名属于 

“未登录词”,即词典中没有收录的词,而“未登录词” 

UTF一8,BIG5等汉字编码,切词效率高。 

三、PHP简易中文分词系统(第四版)对闽菜名的切分 

情况 

对于分词精度的影响是不容忽视的,因此对菜名进行相对 “分词单位”也可称作“切分单位”,是指信息处理 

准确的识别与切分是必要的。孙茂松、邹嘉彦(1995)指 

出,真实文本中(即便是大众通用领域),未登录词对分 

词精度的影响超过了歧义切分。未登录词处理在实用型分 

词系统中占的份量举足轻重。通过相关的分词实验以及对 

结果的分析,本文认为能否正确识别菜名对分词结果也具 

有一定的影响,在进行机器翻译时,不能正确识别菜名的 

问题,会影响到翻译的准确性。大量菜名中包含“煎、 

炸、炒”等在实际语用中可作动词的烹饪方式,而自动分 

词系统在对菜名进行切分时,往往将菜名中的烹饪方式判 

断为动词,导致了切分错误或是词性判断错误。例如“肉 

烧白菜”这个菜名,若分词系统将“烧”判定为动词,本 

为名词性短语的菜名就被切分为“主语+谓语+宾语”的成 

分。又如福建名菜“佛跳墙”,若分词系统未能识别这是 

个菜名的话,就很难得出合适的结果。另外,未能正确 

识别、切分菜名还可能导致其所在句子的错误切分。例 

如:“他爱吃西红柿炒鸡蛋。”如果分词系统不能正确识 

别“西红柿炒鸡蛋”这个菜名,就可能导致“他l爱l吃西 

红柿l炒鸡蛋”这样错误的切分结果。 

二、本文调查语料的来源及基本情况 

(一)语料来源 

本文共收集了60O+闽菜名称,主要来自闽菜菜谱及网络: 

1.《家常闽菜1000样》 

2.《中华名菜荟萃——闽菜》 

3.美食天下:http://www.mei shichina.com/Topic/ 

CaiXi/MinCai/ 

(二)语料基本情况 

本文所收集的菜名,包含福建境内不同地区的各式 

菜肴,涵盖了福州菜、闽南菜、闽西菜三大部分,所使用 

的食材包括海产品、河鲜、山珍等,烹调方式则包括蒸、 

烧、炒、熘、炸等。菜名音节数从二到七个不等,音节具 

体情况如下表所示: 

音节数 2 3 4 5 6 7 

菜名个数 6 l04 285 187 15 3 

所占比例 1% 17-3% 47.5% 31.2% 2.5% 0.5% 

(三)PHP简易中文分词系统简介 

本文在进行切分菜名实验时选用了PHP简易中文分词 

(SCWS)第四版在线分词系统,其链接为:http://www. 

中使用的、具有确定的语义和语法功能的基本单位。《信 

息处理用现代汉语分词规范》中指出,分词单位包括了语 

言学中“词”的全部,如“火车”“学习”“更加”;以 

及满足某些条件的“词组”的一部分,如“牛肉”“一 

个”“越来越”。北京大学计算语言学研究所的《现代汉 

语加工规范——词语切分与词性标注》(1999年3月版)中 

指出,切分单位主要是词,也包括了一部分结合紧密、使 

用稳定的词组。邢福义先生主编的《现代汉语》对“词” 

的定义是:具有一定语音形式的、能独立运用的、最小的 

语言单位。只有少数菜名是直接由语言学上的“词”构成 

的,更多的菜名是由两个或者以上语言学上的“词”组合 

构成的名词性短语。所谓“名词性短语”,也叫体词性短 

语。性质上是名词性的,功能上跟名词相当,经常充当主 

语、宾语。 

本文在使用PHP简易中文分词系统(第四版)对600个 

中文简体的闽菜名进行切分实验时,所选择的编码类型是 

GBK,并在复合分词选项下选择了“标注词性”的功能。 

在判断分词效率时,主要考查两个方面:1.一个菜名被切 

分后分词单位的数量;2.对于被切分后分词单位的数量为 

两个及以上的菜名则考虑系统对各部分的词性标注是否恰 

当。菜名作为一个整体,应该属于名词性成分,表示烹饪 

方式的那部分动词进入菜名作为其构成部分时,词性应该 

与原本的动词有所差别。 

(一)不同音节闽菜名的切分情况 

1.双音节闽菜名的切分情况 

本文的分词实验材料中共有双音节闽菜名6个,被分 

词系统判定为一个分词单位的有三个,占总数的50%,其 

中,词性被判定为名词的只有2个,分别是肉松和素鸡, 

“姜鸡”被识别为一个分词单位,但词性被标注为人名 

(nr),其原因可能是“姜”除了表示一种食物以外,还 

可以作为姓氏使用。其余双音节菜名均被切分为两部分, 

并在词性标注上存在问题。“糟鸭”中的“糟”被判定为 

形容词,然而,“糟”字的词性一般情况下是形容词,意 

义与“好”相对,但在闽菜中 “糟”是一种特殊的烹饪 

方式。 

2.三音节闽菜名的切分情况 

在对104个三音节闽菜名进行切分时,分词单位个数 

为l且词性标注正确的闽菜名仅有“锅边糊”。另有“金鲤 

鼍 

兰 

三 

善 

2012.04 

言应用研究 

等4个闽菜名被判定为一个分词单位,但词 

以归纳出以下6种主要类型: 

性被标注为人名。“糖/n什锦/n”“荔枝/n肉/n”“砂锅/ 

n鸡/n”等38个菜名被切分为两个名词性成分的组合;“酿 

1.若干个名词的组合 

这类菜名主要构成部分是做菜的原材料,例如“酸梅 

/n蜂窝/n豆腐/n”“蓬莱/n菠菜/n豆腐/n汤/n”等。 

2.“动词+名词”式 

/v青椒/n”“醉/v排骨/n”“酒/n蒸/v鸡/n”等42个菜名 /n藕/n”“白糖/n锅巴/n”“豆腐/n鱼尾/n汤/n”“什锦 

中包含的烹饪方式被标记为动词;“扁肉燕”“红糟鸡” 

等1O个菜名因包含“扁”“糟”等可作为形容词使用的成 

分,分词系统未能对其进行正确识别。除此之外,未能被 

关故事典故的菜名。 

3.四音节闽菜名的切分情况 

材料中的四音节闽菜名共有285个,占总数的47.5%, 

这类菜名主要结构为“烹饪方式+原料”,例如“熏 

“红焖/v通,t ̄,/nz河鳗/n”等 

3.“名词+动词+名词”式 

正确识别的闽菜名还有“佛跳墙”“五柳居”等来源于相 

/v河鳗/n”“烧/v白鸽/n罐/q”“炒/v菠萝/n鸭/n片/q” 

这种形式的菜名结构一般为“配料+烹饪方式+主 

是不同音节数菜名占总数的比重最大的,因此,四音节菜 

料”,例如“酒/n蒸/v鸡/n”“枇杷/n拌/v鸡/n”“海米 

名的切分情况相对较为重要。被判定为一个分词单位的只 

/n拌/v莴笋/n”等。 

有“游龙戏风”“梅开二度”等4个借用成语的菜名。包括 

“白糖/n锅巴/n”“太极/nz明虾/n”“汤酱/nr草头/n” 

“包 fl,菜/n卷/q”“甜/a山药/nO ̄/n”“葱/n烧鸭/n块 

4:“名词+动词”式 

被切分为这种形式的菜名,一般是由于以“冻” 

“煎”“排”“松”“扣”“糊”等具备动词性的词结尾 

/q”在内的181个四音节闽菜名被切分成几个名词性的分词 

造成。例如“土/n笋/n冻/v”“蚝/@子/k煎/v”“香油/n 

单位。“红焖/v猪蹄/n”“生/v蒸/v龙虾/n”“炸/v核桃 

虾n/排/v”“五彩/n虾/n松/v”“五彩/n珍珠/ns ̄[Z]/v” 

/n鱼/n”等24个四音节闽菜名被切分为动宾结构的动词性 

“百合/n花生/n糊/v”等。 

短语。“葱/n烤/v草鱼/n”“香/n炸/v苦瓜/n”“神仙/n整 

5.直接借用成语或其他固定短语作为菜名 

/v鸡/n”等32个四音节闽菜名被切分为“名词+动词+名词” 

的结构。另有“酥/a猪肝/n排/v”“鸡/n茸/@蛎/@糊 

/v”等菜名在切分之后为“名词+动词”结构。 

4.五音节闽菜名切分情况 

数量仅次于四音节闽菜名。“白炒/nr龙虾/n片/q”“偏口 

被切分为几个名词性的分词单位。“肉片/n烧/v茄子/n” 

“三/m丝/n拌/v糟/a鸡/n”“桔汁/nz)Jl力/v鱼/n”等37个 

五音节闽菜名被切分为“名词+动词+名词”的形式。“和 

如“梅开二度/1”“吉祥如意/l”“百花争艳/i”等。 

6. 来源于典故、故事的菜名 

系统往往未能正确识别这些菜名背后的典故,仅凭字 

面上的语法关系对其进行切分,造成了错误,例如“佛/n 

材料中共有187个五音节闽菜名,占总数的31.2%,其 

跳/v墙/n”“五/m柳居/nr”等。 

材料中不同音节数闽菜名在以上六种主要类型中的分 

鱼/n炖肉/n”“八宝/n书包/n鱼/n”等113个五音节闽菜名 

布情况如下图: 

合/v大乌/nr参/n”“烤/v木笔/n鲳鱼/n”等21个五音节 

闽菜名切分后表现为动宾短语。“金黄/z栗子/nr松/v” 

“百合/n花生/n糊/v”等4个五音节闽菜名被切分为“名词 

+动词”形式。另有“肉片/n焖/@扁豆/n”“鸡汤/n汆/@海 

/n蚌/n”“大枣/n煨/@兔肉/n”等12个五音节闽菜名含有 

“焖”“汆”“煨”等系统不能正确识别的字词。 

5.六音节闽菜名的切分情况 

根据上图可知,仅有极少数的闽菜名能够被分词系统 

识别为一个分词单位(不考虑词性标注正确性)。被切分 

材料中的15个六音节闽菜名称都被切分成为若干部 为名词与名词相互组合结构的菜名数量最多,动宾结构的 

分,主要类型有名词性成分的组合,如“什锦/n蜂窝/n豆 

次之,另外, “名词+动词+名词”的形式也较为普遍。 

腐/n”;述宾结构,如“红焖/v通,O/nz河鳗/n”;主谓结 

四、分词结果可能带来的问题 

(一)即便是由名词组成的菜名,其整体意义并不等 

于各部分名词意义的简单相加,因此对这类菜名进行切分 

构,如“陵/ng岛/n生/v蒸/v龙虾/n”等。此外,“松脆” 

“酥”等对口感的描述性成分也被单独切分成一个单位。 

6.七音节闽菜名的切分情况 

时不合理的。根据实验结果,结合具体材料,可发现在被 

因为音节数过多不方便使用和记忆,不利于人们快捷 

切分为名词的组合的那部分菜名里,存在一部分菜名切分 

地提取有关菜品特色的信息等因素,七音节的菜名并不多 

后的意义与原本的意义出入较大。如“炒面/n线/n”,原 

见。实验材料中仅包含3个七音节闽菜名,分词结果分别 

本应划分为“炒/v面线/n”,但由于该词组存在交集型歧 

为: “双/m冬/nr肉丝/n豆腐/n汤/n”“江东/nr鲈鱼/n炖 义,分词系统将其处理为“炒面”“线”这两个名词的组 

/@姜丝/n”“莲蓬/n菠菜/n豆腐/n汤/n”。 

(二)闽菜名切分结果的主要类型 

合,不符合该词组本来的意义。另一个例子“福'N/ns肉/n 

燕/nr”中,“肉燕”本是福州地区一种类似馄饨的小吃名 

通过对不同音节数闽菜名切分后结果的综合分析,可 称,被切分开后意义发生了极大的改变。材料中的其他许 

20l2.04 

多闽菜名,如“虾仁/n芙蓉/n蛋/n”“雪/n中鱼/nz”等, 

在被切分后意义都发生了不同程度的改变。 

外,他还提出了自己的一揽子解决方案:先用最大概率法 

进行第一趟分词,识别已登录的多字词;再运用概率计算 

参考在未登录词识别研究上已有的成果,本文认为, 

(二)对于被切分为“动词+名词”或是“名词+动词 

是动宾结构,可能导致这个句子其他部分的分词错误。在 

+名词”的菜名在进入句子后,分词系统对它们的判定仍然 

的方法在“分词碎片”中寻找未登录词。 

机器翻译过程中,这样的分词结果可能导致影响整句的翻 

分词系统在识别菜名时,可采取不同方式,以相互补充、 

译结果。例如“扒/v烧/v全/a鸡/n”这个菜名进入句子后 

配合。以下是可采用的方法: 

的分词结果为“扒/v烧/v全/a鸡/n是/v道菜/n。/un”这个 

1.适当扩充词表:利用语料库、人工筛选相结合的方 

2.分析菜名构词规则上的特点,归纳总结菜名构词规 

3.利用语料库,考察与菜名相匹配的前后成分的情 

况,分析其上下文特征,为识别菜名提供帮助。 

4.对于未收录到词表中的,根据其自身结构或上下文 

菜名在入句前后的标记结果未见差别,而实际上,这个菜 

法,选取一部分相对稳定 常用的菜名,将其收入到词表中。 

名在进入句子后,应视作一个名词性成分。又如“粉丝/n 

/v粉丝/n烩/v鸡/n”,切分结果并不能很好地体现句子层 

烩/v鸡/n”这个菜名进入句子后的分词结果为“他/r喜欢 律,提高分词系统对菜名的识别能力。 

次及语义内容,给机器翻译带来困难。 

(三)“五彩/n虾/n松/v”“五彩/n珍珠/ns ̄W/v”等 

被切分为“名词+动词”结果的菜名则因为菜名构成部件存 

情况也难以使分词系统识别的那部分菜名,可以通过统计 

在多义性而导致的词性判断错误。在切分这类菜名时,分 的方法来猜测经过一般分词过程后剩下的“连续单字词碎 

词系统存在明显的缺陷,对单个菜名的切分已经产生严重 片”是菜名的可能性,从而对其进行识别。 

失误。 

(四)分词结果为一个分词单位的那部分菜名中也 

参考文献: 

存在问题。“梅开二度”“吉祥如意”等以固定词组为菜 

[1]孙茂松,邹嘉彦.汉语自动分词研究中的若干理论问题[J].语言 

名,这些词组作为菜名使用时的意义与其原本的意义并不 

名,就会给整体句意的理解带来影响。 

(五)包含了可兼为食材名和姓氏的成分的菜名, 

/nr”“汤酱/nr草头/n”“荷包/n黄翅鱼/nr”等。这样的 

分词结果显然不符合菜名的本义。 

文字应用,1995,(4). 

相同。如果不能分辨它们在旬中出现时是使用原义还是菜 

【2】国家技术监督局.中华人民共和国国家标准GB/T 1 3715—92【A】. 

信息处理用现代汉语分词规范[C】.北京:中国标准出版社, 

1993. 

例如“姜”“汤”“黄”等往往被判定为人名,如“姜鸡 

【3】孙茂松,邹 彦.汉语自动分词研究评述[J】.当代语言学,2001, 

(1). 

[4]高红,黄德根,杨元生.汉语自动分词中中文地名识别[J].大连 

(六)在遇到一些较为生僻的烹饪方法用字或是食材用 

/n”“大葱/n焖/@羊肉/n”“蚵/@豆腐/n蛎/@”等。 

理工大学学报,2006,(4). 

5]王兴义.基于模式匹配的中文专有名词识别[D.山西大学,2005D]. 

字时,分词系统也产生切分失误。例如“鸡汤/n汆/@海/n蚌 

[6】俞士汶.计算语言学概论[M】.北京:商务印书馆,2003. 

【7】吴景耀.中华名菜荟萃・闽菜[M】.长春:吉林摄影出版社,2002. 

五、分词系统可能进行的一些改进 

根据PHP简易中文分词系统对600个闽菜名的分词结 

[8】钟安妮.论中国菜名中的文化内涵….探求,2006,(1). 

果,本文认为该系统可能通过一些改进,提高对菜名的识 

【9】俞士汶,段慧明,朱学峰,孙斌.北京大学现代汉语语料库基本 

别和切分能力,以提高分词效率。 

未登录词识别问题的策略主要有三种:一是尽可能多地收 

加工规范[J】.中文信息学报,2002,(2). 

俞士汶主编的《计算语言学概论》一书中指出,解决 

【1 0]邗福义,汪国胜.现代汉语【M.武汉:华中师范大学出版社,M] 

2OO3. 

入词汇,以降低碰到未登录词的机会;二是通过构词规则 

[11】陆俭明.有关词性标注的一点意见[J】.语言文字应用,2004, 

和上下文特征规则来识别;三是通过统计的方法来猜测经 

过一般的分词过程后剩下的“连续单字词碎片”是人名、 

(2). 

【12】北京大学计算语言学研究所.现代汉语语料库加工规范——谰 

语切分与词性标注fz】.1999年3月版. 

地名等的可能性,从而识别出未登录词。 

中国人名的识别、外国译名的识别 中国地名的识别及机 

有关未登录词的识别问题,目前已有一些工作涉及到 

【1 3】黄昌宁,赵海.中文分词十年回顾【J】.中文信息学报,2007, 

(3). 

构名的识别,提出了基于模式匹配的中文专有名词识别、 

基于统计的中文专有名词识别等不同方式。菜名的识别, 

[14】黄昌宁.中文信息处理的分词问题【J】.语言文字应用,1997, 

(1). 

可以借鉴这些专有名词识别研究工作上已经取得的成果。 

另有一些识别未登录词的解决方案可供参考。陈小荷 

(1999)指出,在识别未登录词时,现有两种解决方案: 

个别解决方案和一揽子解决方案。其中,个别解决方案主 

要针对专名未登录词,有建立专名资料库、利用上下文启 

发信息等方法。一揽子解决方案则包括有穷多层列举法、 

[1 5】陈小荷.自动分词中未登录词问题的一揽子解决方案[¨.语言 

文字应用,1999,(3). 

[16】黄昌宁.中文信息处理中的分词问题….语言文字应用,1997, 

(1). 

(林梦虹 湖北武汉华中师范大学文学院语言学系 

430079) 

岂 

l 

i 

2012.04 


本文标签: 菜名 分词 闽菜 识别 名词