admin 管理员组文章数量: 1184232
2024年4月26日发(作者:classpoll什么意思)
第26卷第5期
中文信息学报
Vo1.26,No.5
2012年9月
JoURNAL OF CHINESE INFORMATION PROCESSING
Sep.,2012
文章编号:1003~0077(2012)05—0107—07
良构子串表在自然语言处理中的程序化应用:以花园幽径旬为例
于屏方 ,杜家利。
(1.鲁东大学文学院,山东烟台264025;2.中国社会科学院博士后流动站,北京100732;
3.中国传媒大学文学院,北京100024;4.鲁东大学外国语学院,山东烟台264025)
摘 要:自然语言处理是计算语言学研究的方向之一,通常借助计算机技术进行自然语言的分析和解读。NS流
程图具有选择算法剖析的结构性特点。良构子串表具有保存剖析过程多种结构的特性。花园幽径句是句法加工
过程中能产生行进式错位且对前期模式破旧立新的特殊句式。基于Ns流程图算法的良构子串表可用于对自然语
言中的特殊现象(如花园幽径句)进行程序剖析,最终使这种程序分析法在语言学中得到应用成为可能。
关键词:自然语言处理;良构子串表;NS流程图;计算语言学;花园幽径句
中图分类号:TP391 文献标识码:A
Application of Well—formed Substring Table:A Case Study on Garden Path Sentence
YU Pingfang 。DU Jiali。
(1.School of Liberal Arts,Ludong University,Yantai,Shandong 264025,China;
2,Postdoctoral Research Station of Chinese Academy of Social Sciences,Beijing 100732,China;
3.School of Literature,Communication University of China,Beiiing 100024,China;
4.School of Foreign Languages,Ludong University,Yantai,Shandong 264025,China)
Abstract:Natural language processing is a branch of computational linguistics,and usually analyzes and understands
natural language by means of computer technology.NS flowchart has the structural features of choice algorithm par—
sing and the well—formed substring table(WFST)possesses the characters of storing multi—structures during the
parsing.Garden path sentence is a special syntactic model during the syntactic processing in which processing break—
down appears,correspon djng1y bringing the reconstruction of the original mode1.The NS algorithm—based WFST is
useful for syntactic parsing of special phenomenon(e.g.garden path sentence)in natural language processing.thus
making it possible for this programming method tO be used in language application.
Key words:natural language processing;well—formed substring table;NS flowchart;computational linguistics;gar—
den path sentence
(完全、不完全和歧义结构均可表示),所以,常用于
1 引言
保存系统剖析过程中的中间结构,避免剖析浪费 ]。
wFsT在非确定性自然语言分析器(non—determin—
良构子串表(WFST,Well—Formed Substring
istic natural language parsers)中得到广泛应用。
Table)是自然语言处理(Natural Language Pro— 花园幽径句(garden path sentence)是由语言
cessing)中句法剖析的一种,可用于表示并保存歧
解码顺序更迭导致的一种特殊语言现象,是句子加
义结构。表中每个子串在单一结构上是合格的,故
工过程中受句法关系影响而产生的行进式错位
称为“良构”,但由其形成的整体结构具有不确定性
(processing breakdown)[引。来自心理L3_5]、语言[6-9]、
收稿日期:2011-09—07定稿日期:2011-10—17 一
基金项目:教育部人文社科规划一般项目(1lYJA740111)
作者简介:于屏方(1971~),女,博士,副教授,主要研究方向为语义学;杜家利(1971一),男,博士研究生,讲师,主要研究
方向为计算语言学。
1O8 中文信息学报
认知 、计算机科学[i2-14 等领域的研究证实了花
\\\、、、
一一一
园幽径句的系统解读属于由非确定性向确定性的选
//
择性程序范畴。wFST可用于花园幽径句的程序
1
性解读。
\ \B?/ /
4
2 自然语言处理中的程序化特性分析
一e\/B 7
2 3
\D
自然语言处理是计算机科学与语言学交叉研究
5{6
的热点,语义理解与计算问题是当前面临的最大挑
图1基于NS结构的七项选择流程图
战l_】 。自然语言与程序语言的不同在于歧义的存
(如花园幽径句)时具有直观性,基于该算法的
在性,程序语言的使用可以辨别自然语言中的部分
WFST程序更易理解和分析。
歧义特征。很多方法(如依存树库、文本聚类
等)[16-17]对语义理解作出了不可磨灭的贡献。此
2.2 良构子串表的程序化构建
外,NS流程图和WFST可用于自然语言处理中的
WFST是高效实用的分析算法,常用于对子成
程序化特性分析,加深对语义的理解。
分进行完整的记录解析。其基本模式为:(start,
2.1 NS流程图的选择算法剖析
finish,label--*found.to find),即(始节点编号,终
节点编号,规则范畴一已解读节点.待解读节点)。
NS流程图由Nassi和Shneiderman提出,经常
wFST模式由四类符号组成:数字符号、规则
用于结构算法的程序性解读。这种IF—THEN~
范畴、应用符号和标记符号。
ELSE的算法陈述可形成图1的Boolean表达。三
数字符号是指始节点编号和终节点编号由数字
角图示正中表示条件,符合该条件则启动右侧处理
组成,代表WFST程序解读的起始和终结。该编号
框运行,否则系统进入左侧处理框。图1对系统的
从0开始,编号数量由被解码句子中的子成分数量
七种可能选择进行了流程分析。(1)非A;(2)非
决定。设句子由n个子成分组成,那么数字符号的
A非B;(3)非A但B;(4)A非C;(5)A非C非
数量为n+1。由0至I"1的初始解码区间平均分配给
D;(6)A非C但D;(7)A且C。
n个子成分。设定i,j分别为始节点和终节点编号,
NS流程图在解读选择特点的自然语言现象
那么{(i<j),i∈(0,n),j∈(O,n)}。请见下例:
Step1:
O 1 2 3 4 5 6 7
图2 良构子串表初始符号区间
例1 The old make the young man the boat.
G={Vn.V1.S.P}
在例1中,句子由8个子成分组成,程序解读中
1111={s、NRVRDet Adj.VN)
Vt={the.old make yo Inan.boat}
需要的数字符号就是8+1—9个,并且,起始符号是
S=S
0而不是1。从0到8共有8个解码区间,平均分配
p
后,这些子成分各自取得一个独立等长的解码区间。
S NPVP
从0开始的箭头指向数值较大的方向,指示系统解码
NP D tA (b)
的初始方向。最大值一端表示终结端,如图2所示。
NP DetN (c)
NP-3,DetAdJN ㈣d
wFsT模式中的规则范畴是指规则由上下文
VP VNP (e
无关文法(CFG,Context—Free Grammar)的非终极
vP VNPVP ∞
VP-)-VNP (蓟
符号表示。
Det÷(the}(
在图3的程序P中,左侧部分的代码均属于非
AdJ (old youngj (
N {i娃娃e.nlan,boat} )
终极符号,都可以出现在WFST模式中的规则范畴
V {lmke、n1 l} )
位置。
图3基于例1的CFG图
5期 于屏方等:良构子串表在自然语言处理中的程序化应用:以花园幽径句为例
109
WFST模式中的应用符号包括解码过程中出
现的终极和非终极符号。例如,在自底向上剖析的
WFST中,图3程序P中右侧的代码都可以出现在
应用符号位置,如NP,VP,Det,the,old等。
WFST模式中的标记符号包括四个:两个用于
在剖析的第二步(0,1,Det- ̄the.)中,始节点
编号<start>一0,终节点编号<finish>一1,规则
范畴<label>:Det,已解读节点<found>一the,
待解读节点<to find>一null。这表示例1中的第
一
个子成分“the”从(0,0)端开始经历(0,1)后被
分隔编号的逗号,指示规则方向的箭头,以及用于区
WFST系统识别。依此方式,例1中8个子成分可
以被系统先后识别(图4)。
分已解读和待解读节点的分隔号。具体解释如下。
在例1自底向上剖析的WFST的起始端(0,
0,Det一.the)中,始节点编号<start>:0,终节点
编号<finish>一0,规则范畴<label>一Det,已解
读节点<found>一nul1.待解读节点<to find>
一the。
在子成分识别完成之后,系统依据图3中的
CFG逐步向上剖析。(0,2,NP—Det Adj.)表示
系统从起始端0到编号2,依据规则(b)NP—Det
Adj完成对NP的归约(图5)。
Step 2:
Det+the.Adj ̄old.V ̄make.Det ̄the.Adj ̄young.N—man.Det ̄the.N—boat.
0 1 2
6 7
图4基于例1的8个子成分识别
NP—+DetAdj
O 1 2 6 7
图5例1“the old”子串归约分析
“The old make the young man the boat”is input
.
—
NP+V+the young man the boat
: !===:——— 『一
NP+V+the young man the boat
、、、~
NP+VP
———
NP+V+NP+VP
、、\ 。 !:——
NP+NP+V+NP
NP+NP+VP
NP+V+NP+NP NP+V+NP+V+VP NP+NP+NP
S1 NP+VP
S2
NP+S3
Unitl grammatical standard is met
、
y
S2
hesion?
Cognitive Co
\/
一
N
Sl
Until cognitive standard is met
S2is OHcput
图6基于例1的NS结构性流程图
11O 中文信息学报
所以系统解码失败。该剖析过程生成的子串表如
3 花园幽径句程序解读的可行性分析
花园幽径句解读涉及不同句法结构的选择,可
图8所示。
(START,FINISH LABEL->-FOUND.TO FIND)
l (O,0,Det-).the)
借助NS流程图的结构性选择特点进行分析。例1
的系统解码可通过图6程序算法得到直观剖析。
图6中make和man名词和动词两个词性的不
2, fo’1.Det->-he.t)
3. (1,l,A由-)-.口ld)
4 (12,Adj÷oI也)
5 (2,2,N->.-make)
6. (2 3 Det-)make.)
同选择决定例1出现了三种不同的句法结构,即
NP+VP,NP+NP+NP,NP+S3。其中NP+VP
7, (o 0 N1a÷.DetAdi N)
8 (o,l NP÷DetAdj N)
9 <O,2 NP Dct A由.N)
l0.(O,3 DetAdjN.)t'YPD
1 i c3 3,Det .me)
l2 (3 4,Det÷the.)
又分解成两种具有不同语义解读的S1和S2。这样
形成了四种不同的解码。系统从错误到正确的选择
过程可以通过WFST的自动分析展现出来。
3(4,4 Adj-).young)
t4(4,5 Adj'->yo'm ̄g.
l5 (5.5 N÷∞a妇1)
l6. 6,N专tibia,.)
l7(3,3 Np÷.DetAalK)
4花园幽径句的良构子串表程序分析
图6的四种句法结构中,右侧两列(即make作
为名词出现)不形成正确的句法生成式,系统不能自
8.(3.4 NP÷Det.AdI N
l9.(3,5,NP÷DetAcIj N)
2O(3 6 Np÷DetAajN.)
2l ,6,12 .he)t
22 (6 7 Det÷the。)
(NO2)
23 (7.7,N .boat)
24 (7,g N+boat.)
25(6,6 NP .DdN)
底向上归约到s,所以比较容易被系统识别为错误
选择。左侧两列(即make作为动词出现)都能归约
到S,但生成的语义截然不同,需要背景知识才能
区别。下面讨论错误句法结构的系统剖析(NP+
NP+NP,NP十S3),语义难以匹配的S1剖析以及
系统正确解读的s2剖析。
NP+NP+NP模式解读。图7中,从起始端到
终结端共需要27次运行。make和man都被解读
为名词。由于生成的NP+NP+NP模式不能继续
向上归约,系统不能形成正确、封闭的良构子串表,
26 f6 7 Np-)Det-.
27(6,8,
FAIL
÷DetN。)(NP3)
图7 基于例1NP+NP+NP模式的程序分析
NP+S3模式解读。在子串归约中,系统将
make和mail分别解码为名词和动词,根据图3中
的规则(d)NP—Det Adj N和规则(a)S—NP VP,
系统归约为NP+S3。
比较图8和图9可知,man词性的不同产生不
同的归约子串。按照朗文公司在线免费使用的英英
0 l 2 3 4 5 6 /
图8“the old make(n)the young man(n)the boat”的子串归约分析
S3一NP VP.
O l 2 3 4 5 0 /
图9“the old make(n)the young man(v)the boat”的子串归约分析
5期 于屏方等:良构子串表在自然语言处理中的程序化应用:以花园幽径句为例 111
词典Longman Dictionary of Contemporary English
按照规则(a)S—NP VP归约为S3。
中的释义(http://www.1doeeonline.corn/search/?
S1模式解读。在系统生成S1过程中,make首
q—man),man具有三个词性:名词、动词和感叹
先被选择为动词。在第二次选择时,系统将marl解
词。由于感叹词通常作为插入语而不作为句子成分
读为名词,生成了正确、封闭的良构子串表。图2、
(如Man,that was a lucky escape),不在本文讨论
图4和图5是系统解读的初始状态,是S1生成的前
之列。动词man具有“给配置人员、使用、、操作系统
三步,marl的名词选择是第四步,根据图3规则(d)
(to work at,use,or operate a system,piece of e—
NP—Det Adj N,”the young man(n)”的子串归约
quipment etc)”等动词释义,所以,man就成为具有
为NP(图10)。
名词和动词两种词性释义的动名兼类词,这相应地
第五步是“the boat”的子串归约。根据图3的
增加了计算机对man精确释义的难度。
规则(c)NP—Det N,其归约为NP(图¨)。
图8中the young man(n)按照图3规则(d)NP
第六步是“make(v)the young man(n)the
—Det Adj N归约为NP,而图9中man(v)the boat”的子串归约,根据图3的规则(e)VP—V NP
boat按照规则(g)VP—V NP归约为VP,之后又
NP,其归约为VP(图12)。
Step 4:
0 1 2 3 4 5 6 7
图1o例1“the young man(n)”的子串归约分析
0
6 7 8
图11 例1“the boat”的子串归约分析
O 1 2 3 4 5 6 7 8
图12例1“make(v)the young man(n)the boat”的子串归约分析
第七步是“the old make(v)the young man(n)
其意义类似于The old people make the young per—
the boat”的子串归约,根据图3的规则(a)S—NP
son(be)the boat。在缺少语境支持的情况下,the
VP,其归约为S1。
young people不可能成为the boat,语义得不到匹
图13的WFST中,make为动词,man为名词,
配,所以系统剖析失败。
1l2 中文信息学报 2012焦
Step 7
Sl—NPNP
0 1 2 3 4 5 6 7
图13“the old make(v)the young man(n)the boat”的子串归约分析
S2一NPVP
5 7 g 9
∞H轮纷珥=
O 1 2 3 4 5 6 7 8
图14“the old make(v)the young man(v)the boat”的子串归约分析
s2模式解读。这是系统最终的正确解码,其中
(START,FINISH LABEL")-FOUND.TO FIND)
make和man都作为动词出现。形成的子串表是封
1, (o 0,Det .the)
2 (O 1,Det-)the.)
闭的良构子串表。
(1,l Adj--).o|d)
(12,Adj4old.)
比较图l3和图14可知,由于man的词性不
(O,0,NP .netAdj)
( i NP-)-Det.Adj)
同,系统的子串归约依据图3中不同的规则运行。
(O 2 Np Det Adj.)
图13中the young man(n)按照规则(d)NP—Det
犯 2 V÷.make)
(2,3 V÷make.)
A dj N归约为NP,而图14中man(v)the boat按
(3,3,Det专.the)
(3,4,Det-)the.)
照规则(g)VP—V NP归约为VP,这样形成了两
(4,4,Adj'->.young)
c4,5 Adj-")young.)
个不同的WFST。
(3 3, ÷.Det A由)
系统对S2模式剖析的运行程序如图15所示。
(3,4 NP÷DetAdj)
(3,5 jP Det Adj.)
由此可知,系统经过了36次运行,依次将make
(5.5,V->-.man)
(5 6,V rn曩n.)
和man解读为动词,并向上逐步归约为s2,完成了
(6,6 Det- ̄.the)
(6,7,Der')-the.)
基于wFST的自动分析。
(7,7 N .boaO
S2模式的语义匹配如图16所示。man和
(7,g N专boat.)
(6,6,NP .Det N)
make在《朗文当代高级英语辞典》(Longman Dic—
(6,7 一}Det。N)
f6,8,NP÷DetN。)
tionary of Contemporary English)中词条具有不
(5,5 VP-)- NP)
(5 6.VP V.N
对称性。系统通过采用逐一匹配、顺次构建的语义
f5 8,、 专VNP.
29.f2,2,VP专.VNPV
获取原则,优选出最适合例1良构子串表的语义分
3O.(2-3,VP÷V.NPV
析。即例1可释义为“The old people force the
3l (2,5 Vp÷VNP.Vp)
32(2,8 VP-)-VNPVP.)
young people sail the boat.”
33+(o O,S2--).NPVP)
34 fO,2 S2÷Np。vP)
据此,系统根据句法规则排除NP+NP+NP
35.(o,8 S2÷Npvp )
36 SUCCESS
和NP+S3模式,根据语义匹配排除S1模式,最后
图15 例1良构子串表的最优程序分析
"璐挎。
5期 于屏方等:良构子串表在自然语言处理中的程序化应用:以花园幽径句为例 113
图16例1最优良构子串表的语义分析
S2作为系统最优选择得以输出。
den-path sentences[J].Brain and Language,2009,
108(3):145—158.
ng misinterpretati0ns in
Es]
Patson N.D.,et a1.Lingeri
5 结语
自然语言处理属于计算机科学、语言学、语义学
等多学科交叉研究领域。适用于计算机科学的NS
流程图和良构子串表具有程序化分析自然语言的特
性,因此可用于对自然语言中的特殊现象进行结构
性解读。
花园幽径句是句法加工过程中能产生行进式错
位且对前期模式破旧立新的特殊旬式。通过借助具
有选择算法剖析的NS流程图和对剖析过程具有结
garden—path sentences:evidence from a paraphrasing
task EJ].Journal of Experimental Psychology:Learning,
Memory,and Cognition,2009,35(1):280—285.
Youngon,John C.Trueswel1.Children’S inabili—
E6]
Choi
ty tO recover from garden paths in a verb—。final lan——
guage:Evidence for developing control in sentence
processing[J].Journal of Experimental Child Psy—
chology,2010,106(1):41—61.
ley K.G.D.,F.Ferreira.Disfluencies affect the
[7]
Bai
parsing of garden-path sentences EJ].Journal of Mere—
ory and Language,2003(49):183—200.
构保存特性的良构子串表,本文以实例验证了算法
和程序对句法分析的重要性,便于语言工作者从过
程中分析不同句式生成的根本原因,最终从计算机
科学领域推动语言学研究的发展。
E8]
黄国营.现代汉语的歧义短语[J].语言研究,1985,
(1).
ney P.F.,T.Inui,et a1.Neural network pro—
r9]
Domi
cessing of、natural language:Towards a unified model
of corticostriatal function in learning sentence compre—
hension and non-linguistic sequencing -IJ].Brain and
参考文献
I-1] 冯志伟.自然语言的计算机处理[M].上海外语教育
出版社,1996:255—256.
[2]
Pritchett B.L.Garden path phenomena and the gram—
Language,2009,(109):80—92.
ield N.D.,J.M.Lyon,et a1.Disfluencies a—
[1O]
Maxf
long the garden path:Brain e1ectr0physi0logica1 evi—
dence of disrupted sentence processing[J].Brain and
Language,2009,l11(2):86—100.
er L.,et a1.Scale structure:processing mini—
El1]
Frazi
matical basis of language processing[J].Language,
1988(64):539-576.
mum standard and maximum standard scalar adjec—
E3]
顾琦一,程秀苹.中国英语学习者的花园幽径句理
tives[J].Cognition,2008,(106):299—324.
[12]
Bateman J.A.,J.Hois,et a1.A linguistic ontology
of space for natural language processing[J].Artificial
Intelligence,2010(06).
解——与工作记忆容量和语言水平的相关研究[J].
现代外语,2010(3).
a E.,R.B.Wilbur C.Weber—Fox.ERP evi—
E4]
Malai
dence for telicity effects on syntactic processing in gar—
(下转第128页)
128 中文信息学报 2012年
(上接第58页)
Suppressing outliers in pairwise preference ranking
for information retrieval[J].Information Retrieval,
2010,13(4):346-374.
[C]//Proceeding of the 17th CIKM,New York:
ACM,2008:1487—1488.
[13]Joachims T.Optimizing search engines using click-
[7]Adam J.A.,Kanoulas E.,Pavlu V.,et a1.Docu—
ment selection methodologies for efficient and effective
through data[c]//Proceedings of the eighth ACM
SIGKDD.New York:ACM,2002:133—142.
learning—to~rank[c]//Proceedings of the 32nd interna—
tiona1 ACM SIGIR,New York:ACM,2009:468—475.
[14]Zhe Cao,Tao Qin,et a1.Learning to rank:from
pairwise approach to listwise approach[C]//Proceed—
ings of the 24th International Conference on Machine
Learning.New York:ACM,2007:129-136.
E8] Geng Xiubo,Qin Tao,Liu Tie—Yan,et a1.Selecting
optimal training data for learning to rank[J].Infor~
mation Processing&Management,2011,47(5):730—
741.
r151 Verbaeten S.,Van A.A.Ensemble methods for
noise elimination in classification problems[C]//Pro—
ceedings of the 4th international conference on multi—
pie classifier systems.Berlin Heidelberg:Springer-
Verlag,2003:317—325.
[9] Yang Hui,Mityagin A.,Svore K.M.,et a1.Collec—
irng high quality overlapping labels at low cOSt[c]//
Proceeding of the 33rd international ACM SIGIR.New
York:ACM,2010:459—466.
[16] Abell,er a1.An Experimental Study about Simple
Decision Trees for Bagging Ensemble on Datasets
El0]Kumar A.,Lease M.Learning to rank from a noisy
crowd[C]//Proceedings of the 34th international
ACM SIGIR.New York:ACM,2011:1221-1222.
with Classification Noise[C]//Proceedings of the
10th European Conference on Symbolic and Quantita—
tive Approaches to Reasoning with Uncertainty.Ber—
lin Heidelberg:Springer-Verlag,2009:446—456.
[1 13 Kanoulas E.,Savev S.,Metrikov P.,et a1.A large—
scale study of the effect of training set characteristics
over learning to—rank algorithms[C]//Proceedings of
the 34th international ACM SIGIR.New York:
ACM,2011.1243—1244.
r17]Tan P.N.,Steinbach M.,Kumar V.Introduction to
Data Mining[M].Addison—Wesley,2005:500.
ris1 Kullback S.,Leibler R.A..On information and suf—
ficiency[J].Annals of mathematical statistics,1951,
22(1):79—86.
[12]Qin Tao,Liu Tie-Yan,Xu Jun,et a1.LETOR:A
benchmark collection for research on learning to rank
(上接第119页)
[2] 黄娴,张克亮.汉语零形回指研究综述[J].中义信息学
报,2009,23(4):1O 15.
[5] Michael Gilleland,Levenshtein Distance,in Three
F1avors[DB/0L]http://www.merriampark.com/ld.
htm.
[3] Rou Song,Yuru Jiang,Jingyi Wang.On Generalized—
Topic—Based Chinese Discourse Structure[C]//Pro—
ceedings of CIPS-SIGHAN Joint Conference on Chi—
[6] Ron Kohavi.A study of cross—validation and bootstrap
for accuracy estimation and model se1ecti0n[C]//Pr0一
ceedings of the 14th International Joint Conference on
Artificial Intelligence 2.San Mateo:Morgan Kauf—
mann,1995:1137—1143.
nese Language Processing,Beijing,2010:23—33.
[41 宋柔.现代汉语跨标点句句法关系的性质研究[J].世
界汉语教学.2008.(2):26 44.
版权声明:本文标题:良构子串表在自然语言处理中的程序化应用:以花园幽径旬为例 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1714112612a666178.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论