良构子串表在自然语言处理中的程序化应用:以花园幽径旬为例-Linux大棚

admin 管理员组

文章数量: 1184232

2024年4月26日发(作者：classpoll什么意思)

第２６卷第５期　

中文信息学报　

Ｖｏ１．２６，Ｎｏ．５　

２０１２年９月　

ＪｏＵＲＮＡＬ　ＯＦ　ＣＨＩＮＥＳＥ　ＩＮＦＯＲＭＡＴＩＯＮ　ＰＲＯＣＥＳＳＩＮＧ　

Ｓｅｐ．，２０１２　

文章编号：１００３～００７７（２０１２）０５—０１０７—０７　

良构子串表在自然语言处理中的程序化应用：以花园幽径旬为例　

于屏方　，杜家利。　

（１．鲁东大学文学院，山东烟台２６４０２５；２．中国社会科学院博士后流动站，北京１００７３２；　

３．中国传媒大学文学院，北京１０００２４；４．鲁东大学外国语学院，山东烟台２６４０２５）　

摘　要：自然语言处理是计算语言学研究的方向之一，通常借助计算机技术进行自然语言的分析和解读。ＮＳ流　

程图具有选择算法剖析的结构性特点。良构子串表具有保存剖析过程多种结构的特性。花园幽径句是句法加工　

过程中能产生行进式错位且对前期模式破旧立新的特殊句式。基于Ｎｓ流程图算法的良构子串表可用于对自然语　

言中的特殊现象（如花园幽径句）进行程序剖析，最终使这种程序分析法在语言学中得到应用成为可能。　

关键词：自然语言处理；良构子串表；ＮＳ流程图；计算语言学；花园幽径句　

中图分类号：ＴＰ３９１　文献标识码：Ａ　

Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｗｅｌｌ—ｆｏｒｍｅｄ　Ｓｕｂｓｔｒｉｎｇ　Ｔａｂｌｅ：Ａ　Ｃａｓｅ　Ｓｔｕｄｙ　ｏｎ　Ｇａｒｄｅｎ　Ｐａｔｈ　Ｓｅｎｔｅｎｃｅ　

ＹＵ　Ｐｉｎｇｆａｎｇ　。ＤＵ　Ｊｉａｌｉ。　

（１．Ｓｃｈｏｏｌ　ｏｆ　Ｌｉｂｅｒａｌ　Ａｒｔｓ，Ｌｕｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｙａｎｔａｉ，Ｓｈａｎｄｏｎｇ　２６４０２５，Ｃｈｉｎａ；　

２，Ｐｏｓｔｄｏｃｔｏｒａｌ　Ｒｅｓｅａｒｃｈ　Ｓｔａｔｉｏｎ　ｏｆ　Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｏｃｉａｌ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１００７３２，Ｃｈｉｎａ；　

３．Ｓｃｈｏｏｌ　ｏｆ　Ｌｉｔｅｒａｔｕｒｅ，Ｃｏｍｍｕｎｉｃａｔｉｏｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｉｎａ，Ｂｅｉｉｉｎｇ　１０００２４，Ｃｈｉｎａ；　

４．Ｓｃｈｏｏｌ　ｏｆ　Ｆｏｒｅｉｇｎ　Ｌａｎｇｕａｇｅｓ，Ｌｕｄｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｙａｎｔａｉ，Ｓｈａｎｄｏｎｇ　２６４０２５，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｉｓ　ａ　ｂｒａｎｃｈ　ｏｆ　ｃｏｍｐｕｔａｔｉｏｎａｌ　ｌｉｎｇｕｉｓｔｉｃｓ，ａｎｄ　ｕｓｕａｌｌｙ　ａｎａｌｙｚｅｓ　ａｎｄ　ｕｎｄｅｒｓｔａｎｄｓ　

ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｂｙ　ｍｅａｎｓ　ｏｆ　ｃｏｍｐｕｔｅｒ　ｔｅｃｈｎｏｌｏｇｙ．ＮＳ　ｆｌｏｗｃｈａｒｔ　ｈａｓ　ｔｈｅ　ｓｔｒｕｃｔｕｒａｌ　ｆｅａｔｕｒｅｓ　ｏｆ　ｃｈｏｉｃｅ　ａｌｇｏｒｉｔｈｍ　ｐａｒ—　

ｓｉｎｇ　ａｎｄ　ｔｈｅ　ｗｅｌｌ—ｆｏｒｍｅｄ　ｓｕｂｓｔｒｉｎｇ　ｔａｂｌｅ（ＷＦＳＴ）ｐｏｓｓｅｓｓｅｓ　ｔｈｅ　ｃｈａｒａｃｔｅｒｓ　ｏｆ　ｓｔｏｒｉｎｇ　ｍｕｌｔｉ—ｓｔｒｕｃｔｕｒｅｓ　ｄｕｒｉｎｇ　ｔｈｅ　

ｐａｒｓｉｎｇ．Ｇａｒｄｅｎ　ｐａｔｈ　ｓｅｎｔｅｎｃｅ　ｉｓ　ａ　ｓｐｅｃｉａｌ　ｓｙｎｔａｃｔｉｃ　ｍｏｄｅｌ　ｄｕｒｉｎｇ　ｔｈｅ　ｓｙｎｔａｃｔｉｃ　ｐｒｏｃｅｓｓｉｎｇ　ｉｎ　ｗｈｉｃｈ　ｐｒｏｃｅｓｓｉｎｇ　ｂｒｅａｋ—　

ｄｏｗｎ　ａｐｐｅａｒｓ，ｃｏｒｒｅｓｐｏｎ　ｄｊｎｇ１ｙ　ｂｒｉｎｇｉｎｇ　ｔｈｅ　ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ　ｏｆ　ｔｈｅ　ｏｒｉｇｉｎａｌ　ｍｏｄｅ１．Ｔｈｅ　ＮＳ　ａｌｇｏｒｉｔｈｍ—ｂａｓｅｄ　ＷＦＳＴ　ｉｓ　

ｕｓｅｆｕｌ　ｆｏｒ　ｓｙｎｔａｃｔｉｃ　ｐａｒｓｉｎｇ　ｏｆ　ｓｐｅｃｉａｌ　ｐｈｅｎｏｍｅｎｏｎ（ｅ．ｇ．ｇａｒｄｅｎ　ｐａｔｈ　ｓｅｎｔｅｎｃｅ）ｉｎ　ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ．ｔｈｕｓ　

ｍａｋｉｎｇ　ｉｔ　ｐｏｓｓｉｂｌｅ　ｆｏｒ　ｔｈｉｓ　ｐｒｏｇｒａｍｍｉｎｇ　ｍｅｔｈｏｄ　ｔＯ　ｂｅ　ｕｓｅｄ　ｉｎ　ｌａｎｇｕａｇｅ　ａｐｐｌｉｃａｔｉｏｎ．　

Ｋｅｙ　ｗｏｒｄｓ：ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ；ｗｅｌｌ—ｆｏｒｍｅｄ　ｓｕｂｓｔｒｉｎｇ　ｔａｂｌｅ；ＮＳ　ｆｌｏｗｃｈａｒｔ；ｃｏｍｐｕｔａｔｉｏｎａｌ　ｌｉｎｇｕｉｓｔｉｃｓ；ｇａｒ—　

ｄｅｎ　ｐａｔｈ　ｓｅｎｔｅｎｃｅ　

（完全、不完全和歧义结构均可表示），所以，常用于　

１　引言　

保存系统剖析过程中的中间结构，避免剖析浪费　］。　

ｗＦｓＴ在非确定性自然语言分析器（ｎｏｎ—ｄｅｔｅｒｍｉｎ—　

良构子串表（ＷＦＳＴ，Ｗｅｌｌ—Ｆｏｒｍｅｄ　Ｓｕｂｓｔｒｉｎｇ　

ｉｓｔｉｃ　ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐａｒｓｅｒｓ）中得到广泛应用。　

Ｔａｂｌｅ）是自然语言处理（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏ—　花园幽径句（ｇａｒｄｅｎ　ｐａｔｈ　ｓｅｎｔｅｎｃｅ）是由语言　

ｃｅｓｓｉｎｇ）中句法剖析的一种，可用于表示并保存歧　

解码顺序更迭导致的一种特殊语言现象，是句子加　

义结构。表中每个子串在单一结构上是合格的，故　

工过程中受句法关系影响而产生的行进式错位　

称为“良构”，但由其形成的整体结构具有不确定性　

（ｐｒｏｃｅｓｓｉｎｇ　ｂｒｅａｋｄｏｗｎ）［引。来自心理Ｌ３＿５］、语言［６－９］、　

收稿日期：２０１１－０９—０７定稿日期：２０１１－１０—１７　一　

基金项目：教育部人文社科规划一般项目（１ｌＹＪＡ７４０１１１）　

作者简介：于屏方（１９７１～），女，博士，副教授，主要研究方向为语义学；杜家利（１９７１一），男，博士研究生，讲师，主要研究　

方向为计算语言学。　

１Ｏ８　中文信息学报　

认知　、计算机科学［ｉ２－１４　等领域的研究证实了花　

＼＼＼、、、　

一一一　

园幽径句的系统解读属于由非确定性向确定性的选　

／／

择性程序范畴。ｗＦＳＴ可用于花园幽径句的程序　

１　

性解读。　

＼　＼Ｂ？／　／　

４　

２　自然语言处理中的程序化特性分析　

一ｅ＼／Ｂ　７　

２　３　

＼Ｄ　

自然语言处理是计算机科学与语言学交叉研究　

５｛６　

的热点，语义理解与计算问题是当前面临的最大挑　

图１基于ＮＳ结构的七项选择流程图　

战ｌ＿】　。自然语言与程序语言的不同在于歧义的存　

（如花园幽径句）时具有直观性，基于该算法的　

在性，程序语言的使用可以辨别自然语言中的部分　

ＷＦＳＴ程序更易理解和分析。　

歧义特征。很多方法（如依存树库、文本聚类　

等）［１６－１７］对语义理解作出了不可磨灭的贡献。此　

２．２　良构子串表的程序化构建　

外，ＮＳ流程图和ＷＦＳＴ可用于自然语言处理中的　

ＷＦＳＴ是高效实用的分析算法，常用于对子成　

程序化特性分析，加深对语义的理解。　

分进行完整的记录解析。其基本模式为：（ｓｔａｒｔ，　

２．１　ＮＳ流程图的选择算法剖析　

ｆｉｎｉｓｈ，ｌａｂｅｌ－－＊ｆｏｕｎｄ．ｔｏ　ｆｉｎｄ），即（始节点编号，终　

节点编号，规则范畴一已解读节点．待解读节点）。　

ＮＳ流程图由Ｎａｓｓｉ和Ｓｈｎｅｉｄｅｒｍａｎ提出，经常　

ｗＦＳＴ模式由四类符号组成：数字符号、规则　

用于结构算法的程序性解读。这种ＩＦ—ＴＨＥＮ～　

范畴、应用符号和标记符号。　

ＥＬＳＥ的算法陈述可形成图１的Ｂｏｏｌｅａｎ表达。三　

数字符号是指始节点编号和终节点编号由数字　

角图示正中表示条件，符合该条件则启动右侧处理　

组成，代表ＷＦＳＴ程序解读的起始和终结。该编号　

框运行，否则系统进入左侧处理框。图１对系统的　

从０开始，编号数量由被解码句子中的子成分数量　

七种可能选择进行了流程分析。（１）非Ａ；（２）非　

决定。设句子由ｎ个子成分组成，那么数字符号的　

Ａ非Ｂ；（３）非Ａ但Ｂ；（４）Ａ非Ｃ；（５）Ａ非Ｃ非　

数量为ｎ＋１。由０至Ｉ＂１的初始解码区间平均分配给　

Ｄ；（６）Ａ非Ｃ但Ｄ；（７）Ａ且Ｃ。　

ｎ个子成分。设定ｉ，ｊ分别为始节点和终节点编号，　

ＮＳ流程图在解读选择特点的自然语言现象　

那么｛（ｉ＜ｊ），ｉ∈（０，ｎ），ｊ∈（Ｏ，ｎ）｝。请见下例：　

Ｓｔｅｐ１：　

Ｏ　１　２　３　４　５　６　７　

图２　良构子串表初始符号区间　

例１　Ｔｈｅ　ｏｌｄ　ｍａｋｅ　ｔｈｅ　ｙｏｕｎｇ　ｍａｎ　ｔｈｅ　ｂｏａｔ．　

Ｇ＝｛Ｖｎ．Ｖ１．Ｓ．Ｐ｝　

在例１中，句子由８个子成分组成，程序解读中　

１１１１＝｛ｓ、ＮＲＶＲＤｅｔ　Ａｄｊ．ＶＮ）　

Ｖｔ＝｛ｔｈｅ．ｏｌｄ　ｍａｋｅ　ｙｏ　Ｉｎａｎ．ｂｏａｔ｝　

需要的数字符号就是８＋１—９个，并且，起始符号是　

Ｓ＝Ｓ　

０而不是１。从０到８共有８个解码区间，平均分配　

ｐ　

后，这些子成分各自取得一个独立等长的解码区间。　

Ｓ　ＮＰＶＰ　

从０开始的箭头指向数值较大的方向，指示系统解码　

ＮＰ　Ｄ　ｔＡ　（ｂ）　

的初始方向。最大值一端表示终结端，如图２所示。　

ＮＰ　ＤｅｔＮ　（ｃ）　

ＮＰ－３，ＤｅｔＡｄＪＮ　㈣ｄ　

ｗＦｓＴ模式中的规则范畴是指规则由上下文　

ＶＰ　ＶＮＰ　（ｅ　

无关文法（ＣＦＧ，Ｃｏｎｔｅｘｔ—Ｆｒｅｅ　Ｇｒａｍｍａｒ）的非终极　

ｖＰ　ＶＮＰＶＰ　∞　

ＶＰ－）－ＶＮＰ　（蓟　

符号表示。　

Ｄｅｔ÷（ｔｈｅ｝（　

在图３的程序Ｐ中，左侧部分的代码均属于非　

ＡｄＪ　（ｏｌｄ　ｙｏｕｎｇｊ　（　

Ｎ　｛ｉ娃娃ｅ．ｎｌａｎ，ｂｏａｔ｝　）　

终极符号，都可以出现在ＷＦＳＴ模式中的规则范畴　

Ｖ　｛ｌｍｋｅ、ｎ１　ｌ｝　）　

位置。　

图３基于例１的ＣＦＧ图　

５期　于屏方等：良构子串表在自然语言处理中的程序化应用：以花园幽径句为例　

１０９　

ＷＦＳＴ模式中的应用符号包括解码过程中出　

现的终极和非终极符号。例如，在自底向上剖析的　

ＷＦＳＴ中，图３程序Ｐ中右侧的代码都可以出现在　

应用符号位置，如ＮＰ，ＶＰ，Ｄｅｔ，ｔｈｅ，ｏｌｄ等。　

ＷＦＳＴ模式中的标记符号包括四个：两个用于　

在剖析的第二步（０，１，Ｄｅｔ－￣ｔｈｅ．）中，始节点　

编号＜ｓｔａｒｔ＞一０，终节点编号＜ｆｉｎｉｓｈ＞一１，规则　

范畴＜ｌａｂｅｌ＞：Ｄｅｔ，已解读节点＜ｆｏｕｎｄ＞一ｔｈｅ，　

待解读节点＜ｔｏ　ｆｉｎｄ＞一ｎｕｌｌ。这表示例１中的第　

一

个子成分“ｔｈｅ”从（０，０）端开始经历（０，１）后被　

分隔编号的逗号，指示规则方向的箭头，以及用于区　

ＷＦＳＴ系统识别。依此方式，例１中８个子成分可　

以被系统先后识别（图４）。　

分已解读和待解读节点的分隔号。具体解释如下。　

在例１自底向上剖析的ＷＦＳＴ的起始端（０，　

０，Ｄｅｔ一．ｔｈｅ）中，始节点编号＜ｓｔａｒｔ＞：０，终节点　

编号＜ｆｉｎｉｓｈ＞一０，规则范畴＜ｌａｂｅｌ＞一Ｄｅｔ，已解　

读节点＜ｆｏｕｎｄ＞一ｎｕｌ１．待解读节点＜ｔｏ　ｆｉｎｄ＞　

一ｔｈｅ。　

在子成分识别完成之后，系统依据图３中的　

ＣＦＧ逐步向上剖析。（０，２，ＮＰ—Ｄｅｔ　Ａｄｊ．）表示　

系统从起始端０到编号２，依据规则（ｂ）ＮＰ—Ｄｅｔ　

Ａｄｊ完成对ＮＰ的归约（图５）。　

Ｓｔｅｐ　２：　

Ｄｅｔ＋ｔｈｅ．Ａｄｊ￣ｏｌｄ．Ｖ￣ｍａｋｅ．Ｄｅｔ￣ｔｈｅ．Ａｄｊ￣ｙｏｕｎｇ．Ｎ—ｍａｎ．Ｄｅｔ￣ｔｈｅ．Ｎ—ｂｏａｔ．　

０　１　２　

６　７　

图４基于例１的８个子成分识别　

ＮＰ—＋ＤｅｔＡｄｊ　

Ｏ　１　２　６　７　

图５例１“ｔｈｅ　ｏｌｄ”子串归约分析　

“Ｔｈｅ　ｏｌｄ　ｍａｋｅ　ｔｈｅ　ｙｏｕｎｇ　ｍａｎ　ｔｈｅ　ｂｏａｔ”ｉｓ　ｉｎｐｕｔ　

．　

—　

ＮＰ＋Ｖ＋ｔｈｅ　ｙｏｕｎｇ　ｍａｎ　ｔｈｅ　ｂｏａｔ　

：　！＝＝＝：———　『一　

ＮＰ＋Ｖ＋ｔｈｅ　ｙｏｕｎｇ　ｍａｎ　ｔｈｅ　ｂｏａｔ　

、、、～　

ＮＰ＋ＶＰ　

———　

ＮＰ＋Ｖ＋ＮＰ＋ＶＰ　

、、＼　。　！：——　

ＮＰ＋ＮＰ＋Ｖ＋ＮＰ　

ＮＰ＋ＮＰ＋ＶＰ　

ＮＰ＋Ｖ＋ＮＰ＋ＮＰ　ＮＰ＋Ｖ＋ＮＰ＋Ｖ＋ＶＰ　ＮＰ＋ＮＰ＋ＮＰ　

Ｓ１　ＮＰ＋ＶＰ　

Ｓ２　

ＮＰ＋Ｓ３　

Ｕｎｉｔｌ　ｇｒａｍｍａｔｉｃａｌ　ｓｔａｎｄａｒｄ　ｉｓ　ｍｅｔ　

、

ｙ　

Ｓ２　

ｈｅｓｉｏｎ？　

Ｃｏｇｎｉｔｉｖｅ　Ｃｏ

＼／

一

Ｎ　

Ｓｌ　

Ｕｎｔｉｌ　ｃｏｇｎｉｔｉｖｅ　ｓｔａｎｄａｒｄ　ｉｓ　ｍｅｔ　

Ｓ２ｉｓ　ＯＨｃｐｕｔ　

图６基于例１的ＮＳ结构性流程图　

１１Ｏ　中文信息学报　

所以系统解码失败。该剖析过程生成的子串表如　

３　花园幽径句程序解读的可行性分析　

花园幽径句解读涉及不同句法结构的选择，可　

图８所示。　

（ＳＴＡＲＴ，ＦＩＮＩＳＨ　ＬＡＢＥＬ－＞－ＦＯＵＮＤ．ＴＯ　ＦＩＮＤ）　

ｌ　（Ｏ，０，Ｄｅｔ－）．ｔｈｅ）　

借助ＮＳ流程图的结构性选择特点进行分析。例１　

的系统解码可通过图６程序算法得到直观剖析。　

图６中ｍａｋｅ和ｍａｎ名词和动词两个词性的不　

２，　ｆｏ’１．Ｄｅｔ－＞－ｈｅ．ｔ）　

３．　（１，ｌ，Ａ由－）－．口ｌｄ）　

４　（１２，Ａｄｊ÷ｏＩ也）　

５　（２，２，Ｎ－＞．－ｍａｋｅ）　

６．　（２　３　Ｄｅｔ－）ｍａｋｅ．）　

同选择决定例１出现了三种不同的句法结构，即　

ＮＰ＋ＶＰ，ＮＰ＋ＮＰ＋ＮＰ，ＮＰ＋Ｓ３。其中ＮＰ＋ＶＰ　

７，　（ｏ　０　Ｎ１ａ÷．ＤｅｔＡｄｉ　Ｎ）　

８　（ｏ，ｌ　ＮＰ÷ＤｅｔＡｄｊ　Ｎ）　

９　＜Ｏ，２　ＮＰ　Ｄｃｔ　Ａ由．Ｎ）　

ｌ０．（Ｏ，３　ＤｅｔＡｄｊＮ．）ｔ＇ＹＰＤ　

１　ｉ　ｃ３　３，Ｄｅｔ　．ｍｅ）　

ｌ２　（３　４，Ｄｅｔ÷ｔｈｅ．）　

又分解成两种具有不同语义解读的Ｓ１和Ｓ２。这样　

形成了四种不同的解码。系统从错误到正确的选择　

过程可以通过ＷＦＳＴ的自动分析展现出来。　

３（４，４　Ａｄｊ－）．ｙｏｕｎｇ）　

ｔ４（４，５　Ａｄｊ＇－＞ｙｏ＇ｍ￣ｇ．　

ｌ５　（５．５　Ｎ÷∞ａ妇１）　

ｌ６．　６，Ｎ专ｔｉｂｉａ，．）　

ｌ７（３，３　Ｎｐ÷．ＤｅｔＡａｌＫ）　

４花园幽径句的良构子串表程序分析　

图６的四种句法结构中，右侧两列（即ｍａｋｅ作　

为名词出现）不形成正确的句法生成式，系统不能自　

８．（３．４　ＮＰ÷Ｄｅｔ．ＡｄＩ　Ｎ　

ｌ９．（３，５，ＮＰ÷ＤｅｔＡｃＩｊ　Ｎ）　

２Ｏ（３　６　Ｎｐ÷ＤｅｔＡａｊＮ．）

２ｌ　，６，１２　．ｈｅ）ｔ　

２２　（６　７　Ｄｅｔ÷ｔｈｅ。）　

（ＮＯ２）　

２３　（７．７，Ｎ　．ｂｏａｔ）　

２４　（７，ｇ　Ｎ＋ｂｏａｔ．）　

２５（６，６　ＮＰ　．ＤｄＮ）　

底向上归约到ｓ，所以比较容易被系统识别为错误　

选择。左侧两列（即ｍａｋｅ作为动词出现）都能归约　

到Ｓ，但生成的语义截然不同，需要背景知识才能　

区别。下面讨论错误句法结构的系统剖析（ＮＰ＋　

ＮＰ＋ＮＰ，ＮＰ十Ｓ３），语义难以匹配的Ｓ１剖析以及　

系统正确解读的ｓ２剖析。　

ＮＰ＋ＮＰ＋ＮＰ模式解读。图７中，从起始端到　

终结端共需要２７次运行。ｍａｋｅ和ｍａｎ都被解读　

为名词。由于生成的ＮＰ＋ＮＰ＋ＮＰ模式不能继续　

向上归约，系统不能形成正确、封闭的良构子串表，　

２６　ｆ６　７　Ｎｐ－）Ｄｅｔ－．　

２７（６，８，　

ＦＡＩＬ　

÷ＤｅｔＮ。）（ＮＰ３）　

图７　基于例１ＮＰ＋ＮＰ＋ＮＰ模式的程序分析　

ＮＰ＋Ｓ３模式解读。在子串归约中，系统将　

ｍａｋｅ和ｍａｉｌ分别解码为名词和动词，根据图３中　

的规则（ｄ）ＮＰ—Ｄｅｔ　Ａｄｊ　Ｎ和规则（ａ）Ｓ—ＮＰ　ＶＰ，　

系统归约为ＮＰ＋Ｓ３。　

比较图８和图９可知，ｍａｎ词性的不同产生不　

同的归约子串。按照朗文公司在线免费使用的英英　

０　ｌ　２　３　４　５　６　／　

图８“ｔｈｅ　ｏｌｄ　ｍａｋｅ（ｎ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）ｔｈｅ　ｂｏａｔ”的子串归约分析　

Ｓ３一ＮＰ　ＶＰ．　

Ｏ　ｌ　２　３　４　５　０　／　

图９“ｔｈｅ　ｏｌｄ　ｍａｋｅ（ｎ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｖ）ｔｈｅ　ｂｏａｔ”的子串归约分析　

５期　于屏方等：良构子串表在自然语言处理中的程序化应用：以花园幽径句为例　１１１　

词典Ｌｏｎｇｍａｎ　Ｄｉｃｔｉｏｎａｒｙ　ｏｆ　Ｃｏｎｔｅｍｐｏｒａｒｙ　Ｅｎｇｌｉｓｈ　

按照规则（ａ）Ｓ—ＮＰ　ＶＰ归约为Ｓ３。　

中的释义（ｈｔｔｐ：／／ｗｗｗ．１ｄｏｅｅｏｎｌｉｎｅ．ｃｏｒｎ／ｓｅａｒｃｈ／？　

Ｓ１模式解读。在系统生成Ｓ１过程中，ｍａｋｅ首　

ｑ—ｍａｎ），ｍａｎ具有三个词性：名词、动词和感叹　

先被选择为动词。在第二次选择时，系统将ｍａｒｌ解　

词。由于感叹词通常作为插入语而不作为句子成分　

读为名词，生成了正确、封闭的良构子串表。图２、　

（如Ｍａｎ，ｔｈａｔ　ｗａｓ　ａ　ｌｕｃｋｙ　ｅｓｃａｐｅ），不在本文讨论　

图４和图５是系统解读的初始状态，是Ｓ１生成的前　

之列。动词ｍａｎ具有“给配置人员、使用、、操作系统　

三步，ｍａｒｌ的名词选择是第四步，根据图３规则（ｄ）　

（ｔｏ　ｗｏｒｋ　ａｔ，ｕｓｅ，ｏｒ　ｏｐｅｒａｔｅ　ａ　ｓｙｓｔｅｍ，ｐｉｅｃｅ　ｏｆ　ｅ—　

ＮＰ—Ｄｅｔ　Ａｄｊ　Ｎ，”ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）”的子串归约　

ｑｕｉｐｍｅｎｔ　ｅｔｃ）”等动词释义，所以，ｍａｎ就成为具有　

为ＮＰ（图１０）。　

名词和动词两种词性释义的动名兼类词，这相应地　

第五步是“ｔｈｅ　ｂｏａｔ”的子串归约。根据图３的　

增加了计算机对ｍａｎ精确释义的难度。　

规则（ｃ）ＮＰ—Ｄｅｔ　Ｎ，其归约为ＮＰ（图¨）。　

图８中ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）按照图３规则（ｄ）ＮＰ　

第六步是“ｍａｋｅ（ｖ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）ｔｈｅ　

—Ｄｅｔ　Ａｄｊ　Ｎ归约为ＮＰ，而图９中ｍａｎ（ｖ）ｔｈｅ　ｂｏａｔ”的子串归约，根据图３的规则（ｅ）ＶＰ—Ｖ　ＮＰ　

ｂｏａｔ按照规则（ｇ）ＶＰ—Ｖ　ＮＰ归约为ＶＰ，之后又　

ＮＰ，其归约为ＶＰ（图１２）。　

Ｓｔｅｐ　４：　

０　１　２　３　４　５　６　７　

图１ｏ例１“ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）”的子串归约分析　

０　

６　７　８　

图１１　例１“ｔｈｅ　ｂｏａｔ”的子串归约分析　

Ｏ　１　２　３　４　５　６　７　８　

图１２例１“ｍａｋｅ（ｖ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）ｔｈｅ　ｂｏａｔ”的子串归约分析　

第七步是“ｔｈｅ　ｏｌｄ　ｍａｋｅ（ｖ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）　

其意义类似于Ｔｈｅ　ｏｌｄ　ｐｅｏｐｌｅ　ｍａｋｅ　ｔｈｅ　ｙｏｕｎｇ　ｐｅｒ—　

ｔｈｅ　ｂｏａｔ”的子串归约，根据图３的规则（ａ）Ｓ—ＮＰ　

ｓｏｎ（ｂｅ）ｔｈｅ　ｂｏａｔ。在缺少语境支持的情况下，ｔｈｅ　

ＶＰ，其归约为Ｓ１。　

ｙｏｕｎｇ　ｐｅｏｐｌｅ不可能成为ｔｈｅ　ｂｏａｔ，语义得不到匹　

图１３的ＷＦＳＴ中，ｍａｋｅ为动词，ｍａｎ为名词，　

配，所以系统剖析失败。　

１ｌ２　中文信息学报　２０１２焦　

Ｓｔｅｐ　７　

Ｓｌ—ＮＰＮＰ　

０　１　２　３　４　５　６　７　

图１３“ｔｈｅ　ｏｌｄ　ｍａｋｅ（ｖ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）ｔｈｅ　ｂｏａｔ”的子串归约分析　

Ｓ２一ＮＰＶＰ　

５　７　ｇ　９

∞Ｈ轮纷珥＝

Ｏ　１　２　３　４　５　６　７　８　

图１４“ｔｈｅ　ｏｌｄ　ｍａｋｅ（ｖ）ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｖ）ｔｈｅ　ｂｏａｔ”的子串归约分析　

ｓ２模式解读。这是系统最终的正确解码，其中　

（ＳＴＡＲＴ，ＦＩＮＩＳＨ　ＬＡＢＥＬ＂）－ＦＯＵＮＤ．ＴＯ　ＦＩＮＤ）　

ｍａｋｅ和ｍａｎ都作为动词出现。形成的子串表是封　

１，　（ｏ　０，Ｄｅｔ　．ｔｈｅ）　

２　（Ｏ　１，Ｄｅｔ－）ｔｈｅ．）　

闭的良构子串表。　

（１，ｌ　Ａｄｊ－－）．ｏ｜ｄ）　

（１２，Ａｄｊ４ｏｌｄ．）　

比较图ｌ３和图１４可知，由于ｍａｎ的词性不　

（Ｏ，０，ＮＰ　．ｎｅｔＡｄｊ）　

（　ｉ　ＮＰ－）－Ｄｅｔ．Ａｄｊ）　

同，系统的子串归约依据图３中不同的规则运行。　

（Ｏ　２　Ｎｐ　Ｄｅｔ　Ａｄｊ．）　

图１３中ｔｈｅ　ｙｏｕｎｇ　ｍａｎ（ｎ）按照规则（ｄ）ＮＰ—Ｄｅｔ　

犯　２　Ｖ÷．ｍａｋｅ）　

（２，３　Ｖ÷ｍａｋｅ．）　

Ａ　ｄｊ　Ｎ归约为ＮＰ，而图１４中ｍａｎ（ｖ）ｔｈｅ　ｂｏａｔ按　

（３，３，Ｄｅｔ专．ｔｈｅ）　

（３，４，Ｄｅｔ－）ｔｈｅ．）　

照规则（ｇ）ＶＰ—Ｖ　ＮＰ归约为ＶＰ，这样形成了两　

（４，４，Ａｄｊ＇－＞．ｙｏｕｎｇ）　

ｃ４，５　Ａｄｊ－＂）ｙｏｕｎｇ．）　

个不同的ＷＦＳＴ。　

（３　３，　÷．Ｄｅｔ　Ａ由）　

系统对Ｓ２模式剖析的运行程序如图１５所示。　

（３，４　ＮＰ÷ＤｅｔＡｄｊ）　

（３，５　ｊＰ　Ｄｅｔ　Ａｄｊ．）　

由此可知，系统经过了３６次运行，依次将ｍａｋｅ　

（５．５，Ｖ－＞－．ｍａｎ）　

（５　６，Ｖ　ｒｎ曩ｎ．）　

和ｍａｎ解读为动词，并向上逐步归约为ｓ２，完成了　

（６，６　Ｄｅｔ－￣．ｔｈｅ）　

（６，７，Ｄｅｒ＇）－ｔｈｅ．）　

基于ｗＦＳＴ的自动分析。　

（７，７　Ｎ　．ｂｏａＯ　

Ｓ２模式的语义匹配如图１６所示。ｍａｎ和　

（７，ｇ　Ｎ专ｂｏａｔ．）　

（６，６，ＮＰ　．Ｄｅｔ　Ｎ）　

ｍａｋｅ在《朗文当代高级英语辞典》（Ｌｏｎｇｍａｎ　Ｄｉｃ—　

（６，７　一｝Ｄｅｔ。Ｎ）　

ｆ６，８，ＮＰ÷ＤｅｔＮ。）　

ｔｉｏｎａｒｙ　ｏｆ　Ｃｏｎｔｅｍｐｏｒａｒｙ　Ｅｎｇｌｉｓｈ）中词条具有不　

（５，５　ＶＰ－）－　ＮＰ）　

（５　６．ＶＰ　Ｖ．Ｎ　

对称性。系统通过采用逐一匹配、顺次构建的语义　

ｆ５　８，、　专ＶＮＰ．　

２９．ｆ２，２，ＶＰ专．ＶＮＰＶ　

获取原则，优选出最适合例１良构子串表的语义分　

３Ｏ．（２－３，ＶＰ÷Ｖ．ＮＰＶ　

析。即例１可释义为“Ｔｈｅ　ｏｌｄ　ｐｅｏｐｌｅ　ｆｏｒｃｅ　ｔｈｅ　

３ｌ　（２，５　Ｖｐ÷ＶＮＰ．Ｖｐ）　

３２（２，８　ＶＰ－）－ＶＮＰＶＰ．）　

ｙｏｕｎｇ　ｐｅｏｐｌｅ　ｓａｉｌ　ｔｈｅ　ｂｏａｔ．”　

３３＋（ｏ　Ｏ，Ｓ２－－）．ＮＰＶＰ）　

３４　ｆＯ，２　Ｓ２÷Ｎｐ。ｖＰ）　

据此，系统根据句法规则排除ＮＰ＋ＮＰ＋ＮＰ　

３５．（ｏ，８　Ｓ２÷Ｎｐｖｐ　）　

３６　ＳＵＣＣＥＳＳ　

和ＮＰ＋Ｓ３模式，根据语义匹配排除Ｓ１模式，最后　

图１５　例１良构子串表的最优程序分析　

＂璐挎。　

５期　于屏方等：良构子串表在自然语言处理中的程序化应用：以花园幽径句为例　１１３　

图１６例１最优良构子串表的语义分析　

Ｓ２作为系统最优选择得以输出。　

ｄｅｎ－ｐａｔｈ　ｓｅｎｔｅｎｃｅｓ［Ｊ］．Ｂｒａｉｎ　ａｎｄ　Ｌａｎｇｕａｇｅ，２００９，　

１０８（３）：１４５—１５８．　

ｎｇ　ｍｉｓｉｎｔｅｒｐｒｅｔａｔｉ０ｎｓ　ｉｎ　

Ｅｓ］　

Ｐａｔｓｏｎ　Ｎ．Ｄ．，ｅｔ　ａ１．Ｌｉｎｇｅｒｉ

５　结语　

自然语言处理属于计算机科学、语言学、语义学　

等多学科交叉研究领域。适用于计算机科学的ＮＳ　

流程图和良构子串表具有程序化分析自然语言的特　

性，因此可用于对自然语言中的特殊现象进行结构　

性解读。　

花园幽径句是句法加工过程中能产生行进式错　

位且对前期模式破旧立新的特殊旬式。通过借助具　

有选择算法剖析的ＮＳ流程图和对剖析过程具有结　

ｇａｒｄｅｎ—ｐａｔｈ　ｓｅｎｔｅｎｃｅｓ：ｅｖｉｄｅｎｃｅ　ｆｒｏｍ　ａ　ｐａｒａｐｈｒａｓｉｎｇ　

ｔａｓｋ　ＥＪ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｅｘｐｅｒｉｍｅｎｔａｌ　Ｐｓｙｃｈｏｌｏｇｙ：Ｌｅａｒｎｉｎｇ，　

Ｍｅｍｏｒｙ，ａｎｄ　Ｃｏｇｎｉｔｉｏｎ，２００９，３５（１）：２８０—２８５．　

　Ｙｏｕｎｇｏｎ，Ｊｏｈｎ　Ｃ．Ｔｒｕｅｓｗｅｌ１．Ｃｈｉｌｄｒｅｎ’Ｓ　ｉｎａｂｉｌｉ—　

Ｅ６］　

Ｃｈｏｉ

ｔｙ　ｔＯ　ｒｅｃｏｖｅｒ　ｆｒｏｍ　ｇａｒｄｅｎ　ｐａｔｈｓ　ｉｎ　ａ　ｖｅｒｂ—。ｆｉｎａｌ　ｌａｎ——　

ｇｕａｇｅ：Ｅｖｉｄｅｎｃｅ　ｆｏｒ　ｄｅｖｅｌｏｐｉｎｇ　ｃｏｎｔｒｏｌ　ｉｎ　ｓｅｎｔｅｎｃｅ　

ｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｅｘｐｅｒｉｍｅｎｔａｌ　Ｃｈｉｌｄ　Ｐｓｙ—　

ｃｈｏｌｏｇｙ，２０１０，１０６（１）：４１—６１．　

ｌｅｙ　Ｋ．Ｇ．Ｄ．，Ｆ．Ｆｅｒｒｅｉｒａ．Ｄｉｓｆｌｕｅｎｃｉｅｓ　ａｆｆｅｃｔ　ｔｈｅ　

［７］　

Ｂａｉ

ｐａｒｓｉｎｇ　ｏｆ　ｇａｒｄｅｎ－ｐａｔｈ　ｓｅｎｔｅｎｃｅｓ　ＥＪ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｍｅｒｅ—　

ｏｒｙ　ａｎｄ　Ｌａｎｇｕａｇｅ，２００３（４９）：１８３—２００．　

构保存特性的良构子串表，本文以实例验证了算法　

和程序对句法分析的重要性，便于语言工作者从过　

程中分析不同句式生成的根本原因，最终从计算机　

科学领域推动语言学研究的发展。　

Ｅ８］　

黄国营．现代汉语的歧义短语［Ｊ］．语言研究，１９８５，　

（１）．　

ｎｅｙ　Ｐ．Ｆ．，Ｔ．Ｉｎｕｉ，ｅｔ　ａ１．Ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ　ｐｒｏ—　

ｒ９］　

Ｄｏｍｉ

ｃｅｓｓｉｎｇ　ｏｆ、ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ：Ｔｏｗａｒｄｓ　ａ　ｕｎｉｆｉｅｄ　ｍｏｄｅｌ　

ｏｆ　ｃｏｒｔｉｃｏｓｔｒｉａｔａｌ　ｆｕｎｃｔｉｏｎ　ｉｎ　ｌｅａｒｎｉｎｇ　ｓｅｎｔｅｎｃｅ　ｃｏｍｐｒｅ—　

ｈｅｎｓｉｏｎ　ａｎｄ　ｎｏｎ－ｌｉｎｇｕｉｓｔｉｃ　ｓｅｑｕｅｎｃｉｎｇ　－ＩＪ］．Ｂｒａｉｎ　ａｎｄ　

参考文献　

Ｉ－１］　冯志伟．自然语言的计算机处理［Ｍ］．上海外语教育　

出版社，１９９６：２５５—２５６．　

［２］　

Ｐｒｉｔｃｈｅｔｔ　Ｂ．Ｌ．Ｇａｒｄｅｎ　ｐａｔｈ　ｐｈｅｎｏｍｅｎａ　ａｎｄ　ｔｈｅ　ｇｒａｍ—

Ｌａｎｇｕａｇｅ，２００９，（１０９）：８０—９２．　

ｉｅｌｄ　Ｎ．Ｄ．，Ｊ．Ｍ．Ｌｙｏｎ，ｅｔ　ａ１．Ｄｉｓｆｌｕｅｎｃｉｅｓ　ａ—　

［１Ｏ］　

Ｍａｘｆ

ｌｏｎｇ　ｔｈｅ　ｇａｒｄｅｎ　ｐａｔｈ：Ｂｒａｉｎ　ｅ１ｅｃｔｒ０ｐｈｙｓｉ０ｌｏｇｉｃａ１　ｅｖｉ—　

ｄｅｎｃｅ　ｏｆ　ｄｉｓｒｕｐｔｅｄ　ｓｅｎｔｅｎｃｅ　ｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ｂｒａｉｎ　ａｎｄ　

Ｌａｎｇｕａｇｅ，２００９，ｌ１１（２）：８６—１００．　

ｅｒ　Ｌ．，ｅｔ　ａ１．Ｓｃａｌｅ　ｓｔｒｕｃｔｕｒｅ：ｐｒｏｃｅｓｓｉｎｇ　ｍｉｎｉ—　

Ｅｌ１］　

Ｆｒａｚｉ

ｍａｔｉｃａｌ　ｂａｓｉｓ　ｏｆ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ｌａｎｇｕａｇｅ，　

１９８８（６４）：５３９－５７６．　

ｍｕｍ　ｓｔａｎｄａｒｄ　ａｎｄ　ｍａｘｉｍｕｍ　ｓｔａｎｄａｒｄ　ｓｃａｌａｒ　ａｄｊｅｃ—　

Ｅ３］　

顾琦一，程秀苹．中国英语学习者的花园幽径句理　

ｔｉｖｅｓ［Ｊ］．Ｃｏｇｎｉｔｉｏｎ，２００８，（１０６）：２９９—３２４．　

［１２］　

Ｂａｔｅｍａｎ　Ｊ．Ａ．，Ｊ．Ｈｏｉｓ，ｅｔ　ａ１．Ａ　ｌｉｎｇｕｉｓｔｉｃ　ｏｎｔｏｌｏｇｙ　

ｏｆ　ｓｐａｃｅ　ｆｏｒ　ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ａｒｔｉｆｉｃｉａｌ　

Ｉｎｔｅｌｌｉｇｅｎｃｅ，２０１０（０６）．　

解——与工作记忆容量和语言水平的相关研究［Ｊ］．　

现代外语，２０１０（３）．　

ａ　Ｅ．，Ｒ．Ｂ．Ｗｉｌｂｕｒ　Ｃ．Ｗｅｂｅｒ—Ｆｏｘ．ＥＲＰ　ｅｖｉ—　

Ｅ４］　

Ｍａｌａｉ

ｄｅｎｃｅ　ｆｏｒ　ｔｅｌｉｃｉｔｙ　ｅｆｆｅｃｔｓ　ｏｎ　ｓｙｎｔａｃｔｉｃ　ｐｒｏｃｅｓｓｉｎｇ　ｉｎ　ｇａｒ—　

（下转第１２８页）　

１２８　中文信息学报　２０１２年　

（上接第５８页）　

Ｓｕｐｐｒｅｓｓｉｎｇ　ｏｕｔｌｉｅｒｓ　ｉｎ　ｐａｉｒｗｉｓｅ　ｐｒｅｆｅｒｅｎｃｅ　ｒａｎｋｉｎｇ　

ｆｏｒ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ，　

２０１０，１３（４）：３４６－３７４．　

［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇ　ｏｆ　ｔｈｅ　１７ｔｈ　ＣＩＫＭ，Ｎｅｗ　Ｙｏｒｋ：　

ＡＣＭ，２００８：１４８７—１４８８．　

［１３］Ｊｏａｃｈｉｍｓ　Ｔ．Ｏｐｔｉｍｉｚｉｎｇ　ｓｅａｒｃｈ　ｅｎｇｉｎｅｓ　ｕｓｉｎｇ　ｃｌｉｃｋ－　

［７］Ａｄａｍ　Ｊ．Ａ．，Ｋａｎｏｕｌａｓ　Ｅ．，Ｐａｖｌｕ　Ｖ．，ｅｔ　ａ１．Ｄｏｃｕ—　

ｍｅｎｔ　ｓｅｌｅｃｔｉｏｎ　ｍｅｔｈｏｄｏｌｏｇｉｅｓ　ｆｏｒ　ｅｆｆｉｃｉｅｎｔ　ａｎｄ　ｅｆｆｅｃｔｉｖｅ　

ｔｈｒｏｕｇｈ　ｄａｔａ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ｅｉｇｈｔｈ　ＡＣＭ　

ＳＩＧＫＤＤ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００２：１３３—１４２．　

ｌｅａｒｎｉｎｇ—ｔｏ～ｒａｎｋ［ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３２ｎｄ　ｉｎｔｅｒｎａ—　

ｔｉｏｎａ１　ＡＣＭ　ＳＩＧＩＲ，Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００９：４６８—４７５．　

［１４］Ｚｈｅ　Ｃａｏ，Ｔａｏ　Ｑｉｎ，ｅｔ　ａ１．Ｌｅａｒｎｉｎｇ　ｔｏ　ｒａｎｋ：ｆｒｏｍ　

ｐａｉｒｗｉｓｅ　ａｐｐｒｏａｃｈ　ｔｏ　ｌｉｓｔｗｉｓｅ　ａｐｐｒｏａｃｈ［Ｃ］／／Ｐｒｏｃｅｅｄ—　

ｉｎｇｓ　ｏｆ　ｔｈｅ　２４ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　

Ｌｅａｒｎｉｎｇ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００７：１２９－１３６．　

Ｅ８］　Ｇｅｎｇ　Ｘｉｕｂｏ，Ｑｉｎ　Ｔａｏ，Ｌｉｕ　Ｔｉｅ—Ｙａｎ，ｅｔ　ａ１．Ｓｅｌｅｃｔｉｎｇ　

ｏｐｔｉｍａｌ　ｔｒａｉｎｉｎｇ　ｄａｔａ　ｆｏｒ　ｌｅａｒｎｉｎｇ　ｔｏ　ｒａｎｋ［Ｊ］．Ｉｎｆｏｒ～　

ｍａｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ＆Ｍａｎａｇｅｍｅｎｔ，２０１１，４７（５）：７３０—　

７４１．　

ｒ１５１　Ｖｅｒｂａｅｔｅｎ　Ｓ．，Ｖａｎ　Ａ．Ａ．Ｅｎｓｅｍｂｌｅ　ｍｅｔｈｏｄｓ　ｆｏｒ　

ｎｏｉｓｅ　ｅｌｉｍｉｎａｔｉｏｎ　ｉｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｐｒｏｂｌｅｍｓ［Ｃ］／／Ｐｒｏ—　

ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　４ｔｈ　ｉｎｔｅｒｎａｔｉｏｎａｌ　ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ｍｕｌｔｉ—　

ｐｉｅ　ｃｌａｓｓｉｆｉｅｒ　ｓｙｓｔｅｍｓ．Ｂｅｒｌｉｎ　Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ－　

Ｖｅｒｌａｇ，２００３：３１７—３２５．　

［９］　Ｙａｎｇ　Ｈｕｉ，Ｍｉｔｙａｇｉｎ　Ａ．，Ｓｖｏｒｅ　Ｋ．Ｍ．，ｅｔ　ａ１．Ｃｏｌｌｅｃ—　

ｉｒｎｇ　ｈｉｇｈ　ｑｕａｌｉｔｙ　ｏｖｅｒｌａｐｐｉｎｇ　ｌａｂｅｌｓ　ａｔ　ｌｏｗ　ｃＯＳｔ［ｃ］／／　

Ｐｒｏｃｅｅｄｉｎｇ　ｏｆ　ｔｈｅ　３３ｒｄ　ｉｎｔｅｒｎａｔｉｏｎａｌ　ＡＣＭ　ＳＩＧＩＲ．Ｎｅｗ　

Ｙｏｒｋ：ＡＣＭ，２０１０：４５９—４６６．　

［１６］　Ａｂｅｌｌ，ｅｒ　ａ１．Ａｎ　Ｅｘｐｅｒｉｍｅｎｔａｌ　Ｓｔｕｄｙ　ａｂｏｕｔ　Ｓｉｍｐｌｅ　

Ｄｅｃｉｓｉｏｎ　Ｔｒｅｅｓ　ｆｏｒ　Ｂａｇｇｉｎｇ　Ｅｎｓｅｍｂｌｅ　ｏｎ　Ｄａｔａｓｅｔｓ　

Ｅｌ０］Ｋｕｍａｒ　Ａ．，Ｌｅａｓｅ　Ｍ．Ｌｅａｒｎｉｎｇ　ｔｏ　ｒａｎｋ　ｆｒｏｍ　ａ　ｎｏｉｓｙ　

ｃｒｏｗｄ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３４ｔｈ　ｉｎｔｅｒｎａｔｉｏｎａｌ　

ＡＣＭ　ＳＩＧＩＲ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２０１１：１２２１－１２２２．　

ｗｉｔｈ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　Ｎｏｉｓｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　

１０ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｙｍｂｏｌｉｃ　ａｎｄ　Ｑｕａｎｔｉｔａ—　

ｔｉｖｅ　Ａｐｐｒｏａｃｈｅｓ　ｔｏ　Ｒｅａｓｏｎｉｎｇ　ｗｉｔｈ　Ｕｎｃｅｒｔａｉｎｔｙ．Ｂｅｒ—　

ｌｉｎ　Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，２００９：４４６—４５６．　

［１　１３　Ｋａｎｏｕｌａｓ　Ｅ．，Ｓａｖｅｖ　Ｓ．，Ｍｅｔｒｉｋｏｖ　Ｐ．，ｅｔ　ａ１．Ａ　ｌａｒｇｅ—　

ｓｃａｌｅ　ｓｔｕｄｙ　ｏｆ　ｔｈｅ　ｅｆｆｅｃｔ　ｏｆ　ｔｒａｉｎｉｎｇ　ｓｅｔ　ｃｈａｒａｃｔｅｒｉｓｔｉｃｓ　

ｏｖｅｒ　ｌｅａｒｎｉｎｇ　ｔｏ—ｒａｎｋ　ａｌｇｏｒｉｔｈｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　

ｔｈｅ　３４ｔｈ　ｉｎｔｅｒｎａｔｉｏｎａｌ　ＡＣＭ　ＳＩＧＩＲ．Ｎｅｗ　Ｙｏｒｋ：　

ＡＣＭ，２０１１．１２４３—１２４４．　

ｒ１７］Ｔａｎ　Ｐ．Ｎ．，Ｓｔｅｉｎｂａｃｈ　Ｍ．，Ｋｕｍａｒ　Ｖ．Ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　

Ｄａｔａ　Ｍｉｎｉｎｇ［Ｍ］．Ａｄｄｉｓｏｎ—Ｗｅｓｌｅｙ，２００５：５００．　

ｒｉｓ１　Ｋｕｌｌｂａｃｋ　Ｓ．，Ｌｅｉｂｌｅｒ　Ｒ．Ａ．．Ｏｎ　ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　ｓｕｆ—　

ｆｉｃｉｅｎｃｙ［Ｊ］．Ａｎｎａｌｓ　ｏｆ　ｍａｔｈｅｍａｔｉｃａｌ　ｓｔａｔｉｓｔｉｃｓ，１９５１，　

２２（１）：７９—８６．　

［１２］Ｑｉｎ　Ｔａｏ，Ｌｉｕ　Ｔｉｅ－Ｙａｎ，Ｘｕ　Ｊｕｎ，ｅｔ　ａ１．ＬＥＴＯＲ：Ａ　

ｂｅｎｃｈｍａｒｋ　ｃｏｌｌｅｃｔｉｏｎ　ｆｏｒ　ｒｅｓｅａｒｃｈ　ｏｎ　ｌｅａｒｎｉｎｇ　ｔｏ　ｒａｎｋ　

（上接第１１９页）　

［２］　黄娴，张克亮．汉语零形回指研究综述［Ｊ］．中义信息学　

报，２００９，２３（４）：１Ｏ　１５．　

［５］　Ｍｉｃｈａｅｌ　Ｇｉｌｌｅｌａｎｄ，Ｌｅｖｅｎｓｈｔｅｉｎ　Ｄｉｓｔａｎｃｅ，ｉｎ　Ｔｈｒｅｅ　

Ｆ１ａｖｏｒｓ［ＤＢ／０Ｌ］ｈｔｔｐ：／／ｗｗｗ．ｍｅｒｒｉａｍｐａｒｋ．ｃｏｍ／ｌｄ．　

ｈｔｍ．　

［３］　Ｒｏｕ　Ｓｏｎｇ，Ｙｕｒｕ　Ｊｉａｎｇ，Ｊｉｎｇｙｉ　Ｗａｎｇ．Ｏｎ　Ｇｅｎｅｒａｌｉｚｅｄ—　

Ｔｏｐｉｃ—Ｂａｓｅｄ　Ｃｈｉｎｅｓｅ　Ｄｉｓｃｏｕｒｓｅ　Ｓｔｒｕｃｔｕｒｅ［Ｃ］／／Ｐｒｏ—　

ｃｅｅｄｉｎｇｓ　ｏｆ　ＣＩＰＳ－ＳＩＧＨＡＮ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｈｉ—　

［６］　Ｒｏｎ　Ｋｏｈａｖｉ．Ａ　ｓｔｕｄｙ　ｏｆ　ｃｒｏｓｓ—ｖａｌｉｄａｔｉｏｎ　ａｎｄ　ｂｏｏｔｓｔｒａｐ　

ｆｏｒ　ａｃｃｕｒａｃｙ　ｅｓｔｉｍａｔｉｏｎ　ａｎｄ　ｍｏｄｅｌ　ｓｅ１ｅｃｔｉ０ｎ［Ｃ］／／Ｐｒ０一　

ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１４ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　

Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　２．Ｓａｎ　Ｍａｔｅｏ：Ｍｏｒｇａｎ　Ｋａｕｆ—　

ｍａｎｎ，１９９５：１１３７—１１４３．　

ｎｅｓｅ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，Ｂｅｉｊｉｎｇ，２０１０：２３—３３．　

［４１　宋柔．现代汉语跨标点句句法关系的性质研究［Ｊ］．世　

界汉语教学．２００８．（２）：２６　４４．　

本文标签：子串系统分析解读良构

版权声明：本文标题：良构子串表在自然语言处理中的程序化应用:以花园幽径旬为例内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1714112612a666178.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

良构子串表在自然语言处理中的程序化应用:以花园幽径旬为例

更多相关文章

从菜鸟到高手，RaspapUSB帮你实现树莓派USB无线网卡WiFi网络搭建

树莓派5的无线网卡：Raspbian系统下的优化设置

快速上手TP-LINK150M无线USB网卡免驱版：wifiautoinstallsetup安装包的简便安装流程

当你的双系统遭遇了删除的厄运，这里有绝地翻盘的大招！

双系统启动出问题？EasyBCD来帮你搞定！

好友一碰就消失？揭秘QQ自动退出的神秘原因

让QQ浏览器自动更新功能恢复正常的操作指南

一步到位：教你彻底关闭QQ小程序的不二法门

解锁家庭网络配置：了解192.168.0.1和192.168.1.1的用途

Dism++上手指南：从新手到高手，轻松驾驭Windows优化

Windows系统维护新纪元：Dism命令的高效应用实践

Dism命令教程：Adobe Flash Player安装与维护的简便方法

一扫系统故障，畅享Flash内容新体验！

Dism++：让你的电脑焕然一新，快速提升性能，告别延迟！

一招搞定电脑卡顿？Dism++优化技巧大公开

告别系统崩溃，通过DISM工具让电脑重获新生

深度解析Dism++：打造Windows的私人优化专家

优化高手必备：Dism++系统管理全解析

掌握Windows 10的Dism技巧，让系统管理更高效、更便捷

Adobe Flash Player的未来发展趋势预测

发表评论

推荐文章

H3C网络设备管理秘籍：如何快速登录与设置默认用户名、密码

遇到难题：多部分文件转移后重复出现的'FileNotFound'错误

安全模式救星：让Word和Flash中心重新焕发生机！

Windows10与笔记本配合时函数紊乱？轻松搞定指南

手机WiFi顺畅，电脑却掉链子？问题全解析！

热门文章

2021最新显卡性能排行榜：谁是桌面之王

怎么连接两个路由器_接两个路由器怎么接

如何在Windows 10电脑上运行APK文件_win打开apk

关于CPU风扇智能控制转速的建议

WPS-Zotero文献插件：学术写作的终极效率工具

找回丢失的QQ好友

电脑配置怎么看 5种方法让你快速查看电脑配置

Windows Media Player专用VOB格式播放插件

Windows10解决耳机被识别为扬声器问题_耳机被识别成扬声器

浏览器能上网但不了软件的解决办法_浏览器无法

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑