admin 管理员组

文章数量: 1086019


2024年1月4日发(作者:android dialog)

华 中 科 技 大 学 硕 士 学 位 论 文

摘 要

随着社会信息化步伐日益加快和网络技术的飞速发展,人们的沟通方式也随之发生改变,通过网络与他人进行交流的方式日益取代了书信的方式,网络文本数据的数量日益增加。因此对海量网络文本数据的信息处理和数据挖掘具有非常重要的意义,并引起了国内外研究者的密切关注。其中一个研究方向是对网络对话信息的主题提取,它可应用于问答系统 、网络信息安全、情报获取等多个领域。

通过研究书面语文本的主题提取方法及了解国内外对对话文本主题提取技术的研究现状,总结了对话与书面语的语言特点差异。书面语具有结构紧凑、用语规范、主题思路清晰的特点,但是对话具有含大量问-答对且问-答对中信息相对重要、多主题且主题之间边界模糊、主题交织且组织结构混乱等特点。从而认识到用于书面文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。

基于上述思想,设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成模块等。其中问-答对探测模块主要针对对话里含有大量问-答对且问-答对中信息相对重要的特点,使用了机器学习的方法探测问句和其相对应的答句;主题切分模块针对的是对话中多主题且主题之间边界模糊的特点,通过主题概率模型得到词汇在语句中的分布概率,从而获得相邻语句之间的边界点;主题树生成模块针对对话中主题交织,组织结构混乱的特点,使用融入语言特征的聚类算法将切分后的语块按主题重新归类。

最后对问-答对探测模块进行了仿真实验和对主题句抽取模块进行了测试。在对问-答对探测模块的仿真实验中,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过比较分类器对训练集和测试集的问(答)句和非问(答)句的判别性能,以及选择了不同的特征集进行了多次测试和分析,得到了一系列的比对结果。对照比对结果,讨论了在不同情况下两种分类器在判别问(答)句的性能优缺点,从而得到了在不同情况下应该选取何种句子特征集与分类器的结论。在对主题句抽取模块的测试中,通过测试不同数据集得到的结果集,比较了结果之间的差异性并分析了造成差异的原因。

关键词:对话文本;主题提取;问-答对探测

I

华 中 科 技 大 学 硕 士 学 位 论 文

Abstract

With the increasing pace of social information and the fast development of the

network technology, the way of the communication between people through network has

taken the place of the old one which letters used to be, thus the number of text data online

explosively grows. Therefore, it is of great significance that the mass data should be

utilized to get mined, and this has aroused great concerns among researchers home and

abroad. One research is that the discovery or revelation of the subject of conversation,

which could be applied to multiple researching fields, such as QA system, network

information security and information access.

By studying the extraction method of subject of a written text and the status quo of

the technology home and abroad of subject extraction of the conversational text, on the

basis of in-depth understanding of this topic, we summarize the disparity between

dialogue and written text. It is clarified that written text possesses the features of compact

construction, conformed term and clear subject built in, while dialogues, however, are

commonly featured by the fact that the dialogues contains masses of QA-pairs containing

comparatively more important information and that a dialogue has multiple subjects with

vague boundaries between each other and of interweaved subject and structure within the

dialogue). Thus it is concluded that the way of extraction of written text could not be

simply ported on the extraction of the conversational subjects.

Based on the analysis above, a system of subject extraction of conversational text has

been designed which is mainly composed of the modules of QA-pair detection, theme

division, subject tree generation, among which the QA-pair detection module, as it stands

literally, detects the question sentence and its correspondent answer sentence with the

method of machine learning, based on the characteristic that the dialogues contains masses

of QA-pairs containing comparatively more important information; and the theme division

module gets the boundary between two sentences through the distribution probability

attained from the subject probability model, aiming to overcome the difficulty that a

dialogue has multiple subjects with vague boundaries between each other; the subject

tree generator module reclassifies the divided blocks of the dialogue according to cluster

algorithm with language features, based on the characteristic of interweaved subject and

II

华 中 科 技 大 学 硕 士 学 位 论 文

structure within the dialogue.

Finally, an experimental simulation of QA-pair detection has been implemented and

topic sentence identification module is tested. In the simulation, we identified the Q(A)

sentences by two methods: C4.5 decisive tree and Bayes classifier. The comparison result

has been got from distinguishing performance of training collection and testing collection

and from multiple tests and analyses on the several different features, and the performance

of the two classifier is discussed under the several distinct conditions, thus it is clarified

that what features and classifier should be chosen in that correspondent conditions. In the

test of our topic sentence identification module, we made comparisons of disparity

between the multiple result sets, obtained from the tests of several different data

collections, and the possible reasons that cause the disparity have also been looked into.

Key words: conversational text; subject identification; QA-pair detection

III

独创性声明

本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。

学位论文作者签名:

日期: 年 月 日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密,在 年解密后适用本授权书。

本论文属于 不保密。

(请在以上方框内打“√”)

学位论文作者签名: 指导教师签名:

日期: 年 月 日 日期: 年 月 日

华 中 科 技 大 学 硕 士 学 位 论 文

1 绪 论

1.1 引言

目前网络通讯已成为了人们日常沟通的重要方式,它已悄然改变了人们只依靠书信和电话通讯的生活,为人们的交流提供了巨大的便利。即时通信软件、网络留言板、电子邮件、网络会议等交流方式生成了大量的网络信息数据,这些数据相对于网页类型的数据有着本质的区别,它们是一种以对话模式存在的,内容中蕴含着两个或多个参与者的观点和态度的数据。因此网络对话数据中含有丰富的信息,可以利用于协助警察侦查疑犯的想法和行动,帮助心理医生了解病人的思考方式和辅助人类学家探究人类的行为模式等。但在海量数据中寻找有用数据需要相当大量的人力和时间,研究者希望结合计算机人工智能领域的一些方法在海量数据中高效准确地获取重要的信息,因此基于对话信息的主题提取成为了近年来关注的热点。

1.2 对话主题提取概念

本文中所谓的“主题提取”,类似于摘要,是指针对一份语料,通过对其进行一定的分析,提取有代表性和概括性的句子作为主题句,篇幅小于原文的20%,便于读者快速理解语料概要和作者意图。

基于网络聊天对话的主题提取的语料是网络通讯工具的聊天对话记录。该语料分为实时记录和存档记录两种。本文研究的语料是存于数据库的聊天对话记录,属于存档记录。

之所以将对话的主题提取独立于普通文本的主题提取划归为一个新的课题,是因为对话不同于普通文本,其语言特点上有很大的区别。对话文本作为一种全新的信息资源,属于自然语言处理范畴。早期研究者们认为对对话文本的主题提取可以由普通文本的主题提取方法过渡而来,然而对话在语言上的特点使得用在普通文本的主题提取方法发挥不了较好的效果。普通文本一般由一个作者编写,是具有逻辑合理、思维缜密、措辞得当、语句通顺、上下文联系紧密和主题脉络清晰特点的书面语。对话由两个或多个参与者共同完成,具有指代不明、语句缺省、大量问答句式存在和主题脉络混乱特点的口语。对于两种具有很大差异的语料,不能将普通文本主题的提取方法直接应用于对话主题的提取。但可以结合对话的特点,对普通文本主题的提取方法做一些扩展和创新运用于对话文本的主题提取方法。

1

华 中 科 技 大 学 硕 士 学 位 论 文

1.3 国内外相关研究状况

虽然文本主题提取的方法不能套用于对话主题提取,但一些提取方法的思想是可以借鉴的。早期的对话主题提取就是以文本主题提取的方法作为理论基础的,因为忽略了对话本身的特点,准确率较低。

1.3.1 文档的主题提取方法研究

文本主题提取从上世纪90年代中期开始引起研究者的热切关注,许多相关的研讨会和会议相继产生。文本主题提取按方法分为四类:

1.基于统计的方法进行主题句提取。结合文档中的词频、词出现过的文档数量和关键短语等数值来衡量句子的重要性。不足之处在于用数学统计的方法解决语言学问题,忽略了对篇章结构、句法、语义的理解,也不依赖于其他语料,提取出的主题准确率低。

2.基于机器学习的统计方法进行主题提取。选取出能代表主题句的特征,建立相应的模型,将训练集语料和人工提取的主题放入模型进行训练,最后将测试集放入模型,得到相应的结果。不足之处在于需要大量的训练集,并且训练集的大小难以确定。

文献[1]选择一些主题句评分特征建立了一个贝叶斯分类模型,并用训练集进行训练,用来估计新给定的句子中含有主题的概率。按照这一概率和一些用户选择最高得分的句子来对给定的句子集进行排序,得分排序靠前的句子即为主题句。文献[9]建立一个SVM的分类器模型,选取了大量的特征,根据向量到超平面的距离对句子集合进行重要性排序,从而得到主题句。

3.基于理解的方法进行主题提取。该方法是以自然语言理解技术为基础,对领域语料进行了细致的语法、语义、句法分析,在知识库中建立一系列的规则,让计算机对语料进行了深层次“理解”。不足之处在于此方法只能用于受限领域,对于一个新的领域要重新建立规则库。

文献[2]实现了一个导购领域的口语对话系统,该系统通过对句子进行语义分析和匹配规则库得到动词-格框架和形态信息,从而获得用户话语主题和用户意图,以便于计算机做出适当的回应。

4.基于结构的方法进行主题提取。将语料按句子、段落分割为独立的单元,分析单元中存在的依存关系。语料的篇章结构布局可以反应文章的思想脉络,段落的更换可能是一个主题到另一个主题的转换。针对WEB语料、新闻报道这类布局特殊的语料,采取该方法很有效。不足之处在于该方法单独使用,提取出的主题准确率 2

华 中 科 技 大 学 硕 士 学 位 论 文

低。该方法应结合统计、启发规则等方法会取得较好的效果。

以上描述的方法都是基本的文本主题提取方法, 现在的大多数实现是将这些方法进行了融合。此外还有使用语义链[3]、社会网络[4]等其他方法进行文本主题提取。

1.3.2 对话的主题提取研究现状

对话主题提取按照处理的时间点分为两类:

1.实时处理对话记录。因为实时聊天记录是动态的对话流,需要在短暂的时间内探测和提取到对话主题。2005年腾讯公司申请了一个相关专利,其中利用滑动窗口技术控制了当前处理的聊天对话的数目,使用词条的词频和相关性筛选出记录中的关键词作为主题。当实时处理的聊天对话过多时,有可能记录中的主题线索混乱。但即时处理对时效性要求很高,势必会降低算法复杂性,用简单的统计方法做即时的主题抽取处理,忽略对话与文本语料的根本区别,也不能按主题将语料进行切割,导致提取的效果不佳。

2.处理存档记录。对话记录存入数据库后再进行主题抽取工作。由于没有时间限制,,可以将语料中主题进行切分到更小的对话单位,呈现出整个对话记录的清晰的主题结构,可以获得更精准的提取结果。大多数关于对话主题提取的文献处理的都是存档记录。

近十几年来,国外对网络会议、语音手稿、新闻广播、邮件交流等不同种类的类似对话形式的内容进行了相当多的研究。所谓类似对话形式的内容,是指即时通信软件、网络留言板、电子邮件、网络会议等交流方式产生的对话内容。研究现状具体情况分类讨论:

1. 类似对话形式的内容的主题提取

(1)基于机器学习的主题提取方法

文献[6,7,8]提出了无领域限制的对话主题提取器DIASUMM,作者对语音对话的特点进行了详细的分析,并针对每个特点提出了相应的机器学习方法进行解决。文献[20,22]中对新闻广播语音进行一定预处理后,再进行主题提取,其整体方法都是使用SVM分类器实现的。文献[28]中运用传统的文本主题提取方法应用于邮件对话的主题提取。作者将每句对话看作一个文档,则对话被看做一个多文档语料;同时对这些基于同一主题的文档提取摘要,这个方法被看作对单个文档做的主题提取。所以作者认为用基于单文档和多文档的文摘技术就可以应用于邮件对话的主题提取,具体实现是通过机器学习的方法。

机器学习的方法对选取特征集、训练集大小等都有一定的要求。需要多次实验比较,选择合适的方法、特征集、训练样本等。

3

华 中 科 技 大 学 硕 士 学 位 论 文

(2)融合语义和机器学习的主题提取方法

文献[11]中提出了一种针对语音对话的统计方法。融入了一些语义特征、词网、语料结构特征和词频等,对训练集进行训练,动态的提取主题。

对于对话文本的提取,能将语言信息和机器学习等进行融合,是相当有必要的。

(3)基于语义理解的主题提取方法

文献[12]中提出一种基于语义理解的对话主题提取方法。该方法依赖于WordNet知识库,提取出句子中的名词,找到它们在知识库里对应的概念集,计算句子中名词概念集与对话中名词概念集的语义相似度,在此基础上对对话中的句子进行排序。

依赖于WordNet有一定的局限性,WordNet中的词毕竟也是有限的。特别是针对对话文本,其中包含的大部分是口语,WordNet很难全部囊括。

(4)基于统计的主题提取方法

文献[25]对传统的tf*idf方法做了一个扩展,用ridf代替了idf。并在一个滑动窗口内对21条对话记录里含有的词进行统计,从而对词进行评分,提取代表主题的词。

上述方法适合处理实时对话信息,对话中语句之间的词语相似度比较低,通过纯统计的方法,效果不好。

(5)基于知识理解的主题提取方法

文献[5]研发了限定于反恐领域新闻的主题提取器SUMMONS,其基于一个知识理解系统所生成的模板。

缺点在于有领域限制,而网络上的聊天对话是没有领域限制的。

2.类似对话形式的内容的问-答对探测

(1)基于机器学习方法的问-答对探测

文献[40]中提出一个基于CRFs(Conditional Random Fields)的框架。作者指出在问句探测中用SVM、朴素贝叶斯等分类器对对话语句进行分类,忽略了句子间的依赖联系。使用CRFs,可以通过无向图表示句子之间的依赖关系。文献[15,16]中对邮件对话中的问-答对进行探测。并结合探测到的问答对和基于机器学习的分类器对邮件对话进行主题句提取。文献[14]使用基于机器学习的决策树建立一个问句探测系统。文献[23]中使用机器学习的方法分类短小的非句子话语的类别,力图将非句子话语补全为一个完整的表意清晰的话语,以便于对话主题提取系统使用。文献[26]提出了一种提取论坛中问-答对的方法。使用分类的方法探测问题,同时通过图寻找问题所对应的答案。

(2)基于概率模型的问-答对探测

文献[39]中提出一种基于图形的联合预测模型对候选答案进行排序。作者指出在 4

华 中 科 技 大 学 硕 士 学 位 论 文

对候选答案进行排序时,候选答案之间的相关性和问题与每个答案之间的相关性都是需要考虑的。文献[38]中使用语言模型侦测文章中的问-答对,利用语言模型可以用来捕捉自然语言的统计规律。文献[31]中通过语义关联模型识别问-答对,再从问-答对所在的句子中选取主题句。这种方法有一定的不足性,完全忽略了陈述句中的包含重要信息的可能性。文献[32]中介绍了对话主题提取的一些关键技术。对问答对识别和文摘提取进行了详细说明。文中提到的分割技术应用面太窄,只能针对含有问答对的内容。在文献[41]中提出了在问句探测中引入序列模式为特征对句子进行分类,在答句探测中引入语言模型建立备选答案有向繁殖图,根据繁殖图计算排序分数。

3.类似对话形式的内容的主题探测和切分

(1)通过聚类方式集合主题

文献[37]中在一个聊天和邮件两种对话语料混合的系统里将相应的对话语句聚类到相应的主题,并识别对应主题的主题句,找出其他参与者对这个主题内容的即时反映,最后生成摘要。文献[10]提出了一种基于语音记录的主题探测方法。通过关键词特征聚类主题下的子主题,将给定的句子和其之前出现的句子作为对话集合,计算对话集合和聚类得到的每个主题之间的关联性,从而判断给定句子属于的主题类别。文献[17,18]通过聚类算法对存档讨论记录做主题划分,并引入一些特征计算对话中句子的得分。文献[13]中对动态生成的结构性网络文本进行主题追踪和切分。作者分层次的对文本进行切分,第一步是粗粒度切分,判断给定文本是否描述的是一个新的话题;第二步细粒度切分,若是给定文本是与前面的文本描述的是同一个话题,再判断给定文本与前文的层次关系。文献[19]中讨论多人语音主题提取的两个子问题:针对语料口语问题的处理和主题划分研究。文献[21]中使用融入两个自然语言特征的单通聚类算法,从而得到了对应主题的句子集合。文献[29]中通过图表对按时间序列的事件和活动进行主题剖析。

对于对话文本,若只引入统计特征的聚类方法进行主题集合,忽略了其语言特点,显然是不合适的。需要引入一些语言特征,聚类的准确率会相对高些。

(2)通过结构方式集合主题

文献[24]中在假定邮件对话在回复时引用发信者稿件,这两封邮件就属于同一个主题的前提下,使用引用有向图来划分邮件对话主题。同时将对话中以不同形态出现过但意思相同的词视为关键词,计算每句话中的词与对话的关键度评分,按照评分排序选择主题句。

上述方法只限于邮件对话这种有特殊结构的对话文本,对于一般的对话文本种 5

华 中 科 技 大 学 硕 士 学 位 论 文

类不适用。

(3)通过概率模型按主题切分文本

文献[27]中针对新闻广播语音材料进行了主题切分和关键词提取。采用了一个对数线性模型估计主题划分边界点,并运用传统的tf*idf的统计方法提取关键词。文献[36]中利用LDA的基本思想实现了对文本片段边界的概率估计,从而对文本进行了语块切分。哈尔滨工业大学信息检索研究室在文献[33,34,35]中对新闻报道的话题检索和跟踪方面进行了全面的综述和深入的研究。其中文献[34]提出用向量空间模型的相关性模型对多个文档做主题关联和追踪,并用改进模型做新话题探测。

对话信息中存在着一些潜在的语义结构,可以利用统计技术估计这种潜在语义结构。通过潜在的语义结构可以对主题进行划分。目前研究者对此种方法研究比较多。

4.主题句提取的排序模型

(1)基于图形的句子排序方法

文献[4]中用无向图表示句子与句子间的相互关系。节点代表句子,节点之间的线段权重表示两个句子的相似性大小,并计算每个节点的总权重,从而对句子进行排序。

(2)引入不同特征的句子排序方法

文献[30]中比较了多种用于中文文本主题提取的概率排序模型。文献[6,7,8]提出了无领域限制的对话主题提取器,其中用MMR(a maximal marginal relevance)方法进行的主题抽取。文献[17,18]通过聚类算法对存档讨论记录做主题划分,并引入一些特征计算对话中句子的得分。文献[12]提出一种基于语义理解的对话主题提取方法。该方法依赖于WordNet知识库,提取出句子中的名词,找到它们在知识库里对应的概念集,计算句子中名词概念集与对话中名词概念集的语义相似度,在此基础上对对话中的句子进行排序。文献[42]中提出用均衡性非消极矩阵对语义相似的句子做聚类,然后通过内部信息和外部信息对每个聚类中的句子进行排序。

1.3.3研究现状小结

从上述研究可以看出对于对话语料主题提取的研究是一个包含范畴很广泛的课题,其中包含问-答对探测、主题探测和追踪、主题切分、主题句抽取等多个子课题。在各个子课题中,研究者们针对邮件对话、新闻广播、语音对话等不同种类的对话语料进行了深入研究,提出了一些适应语料有针对性的解决方法。通过查阅大量的书籍和参考文献,对研究者们提出的一些解决方法有了大致的了解,其中涉及到大量的数理统计知识和语言学领域知识,可以认为该课题是一个交叉学科的综合性课 6

华 中 科 技 大 学 硕 士 学 位 论 文

题。

近十几年来,国外研究者们在该课题的相关方向上做了许多研究成果。国外一些知名大学都有关于自然语言处理方面的研究室,如斯坦福大学、哥伦比亚大学、爱丁堡大学等,他们的研究成果有相当成熟的理论和许多创新的想法。国内从事这方面研究起步较晚,但针对中文方面的自然语言处理研究还是有一定成果的。如董振东先生研发的针对中文的词语集HOWNET,将词义映射到概念上,为中文语义理解提供了有力的工具。国内也有一些知名大学有关于自然语言处理方面的研究室,如哈尔滨工业大学、东北大学、中国科学院计算技术研究所等。他们在已有的思想上,针对中文的语言特点,提出了许多新的解决思路。

1.4 本文主要内容及章节安排

本文通过研究书面文本的主题提取方法和国内外对基于对话文本主题提取技术的现状,在对课题研究现状深入了解的基础上,总结了对话与书面语的语言特点差异。书面语言具有结构紧凑、用语规范、主题思路清晰的特点,但是对话文本具有含大量问-答对且问-答对中信息相对重要、多主题且主题之间边界模糊、主题交织且组织结构混乱等特点。从而认识到用于书面文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。

根据上述思想,本文设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成模块等。其中问-答对探测模块主要针对对话里含有大量问-答对且问-答对中信息相对重要的特点,使用了机器学习的方法探测问句和其相对应的答句;主题切分模块针对的是对话中多主题且主题之间边界模糊的特点,通过主题概率模型得到词汇在语句中的分布概率,从而得到语句之间的边界点;主题树生成模块针对对话中主题交织,组织结构混乱的特点,使用融入语言特征的聚类算法将切分后的语块按主题重新归类。

本文随后的章节内容安排如下:

第二章:先从真实示例对对话语料的特点进行了详细的分析和总结,再针对其特点,确定系统所需实现的一系列关键技术,如问-答对探测、主题探测和追踪、主题句抽取。最后对涉及的关键技术进行了方法介绍,其中也提到了本系统中应用这些关键技术的思路。

第三章:先对系统进行了整体的构架,将各个重要的处理部分按功能模块化。再对各模块进行了详细的说明,结合图表细致地阐述了模块中所用到的技术和模型。

7

华 中 科 技 大 学 硕 士 学 位 论 文

第四章:对问-答对探测模块进行了仿真实验和主题句抽取模块进行了测试,并分析了所得到的实验结果。

第五章:对全文做了一个详细的总结,并展望了基于对话的主题提取系统的后续研究工作和发展方向。

8

华 中 科 技 大 学 硕 士 学 位 论 文

2 基于对话的主题提取系统的相关技术

本文旨在实现一个基于对话的主题提取系统。经过对对话语料特点进行详细的分析后,需要对对话语料做一系列的预处理,其中涉及到问-答对探测、主题探测和追踪、主题切分等多个子课题。以下将分析对话语料特点和介绍这些子课题涉及到的相关技术。

2.1 对话语料的特点分析

表 2.1所示的是一段真实的即时通信软件的聊天语料 ,从中可以发现对话语料与普通文本语料有许多不同之处。

表 2.1对话文本语料

1

2

3

4

5

6

7

8

9

10

A: 你知道最近那个撞死人的事吗?

B: 知道,那个人太糟糕了

A: 这个事真的,真的太可怕了,听说伤者伤势很严重

A:

而且那人撞人后,还准备逃逸。。。。。。

B: 是很可怕。他还表现出很不屑的样子

A: 你说他能逃过法律制裁吗?

B: 不知道说不清楚啊

B: 如果真的能逃过也没办法啊。顺便问一句,晚上开会吗?

B: 就是在群邮件上通知的那个会

A:

开啊,学校要求学习文件。我还有点事要做,先下了 88

仔细分析表 2.1发现对话语料如下特点:

1.对话语句是人们在毫无准备的情况下,即兴说的一些文字。有些语句出现不流利的现象(如表 2.1语句3)。不流利的现象包括语句重复、冗余等现象。

2.对话中一方说话者可能会用一个语句序列陈述自己的观点或看法(如表 2.1语句3-4,7-8-9),其中可能会含有重要信息。

3.对话语句中含有很大比例的问-答对(如表 2.1语句1-2,6-7,8-9-10),可以看出问-答对中反映了对话中的一些重要信息。仔细观察发现,(表 2.1语句8-9-10)的问-答对不同于(表 2.1语句1-2,6-7)的两个问-答对,其问题对应的答案并不是紧接在问题后面的那一句话,答案与问题中间有一定的间隔语句。

4.对话语句中主题是交织出现的,说话者不可能在说话之前布局构思话语结构,如(表 2.1语句8)就是第一个主题到第二个主题的过渡句。对话中一个主题有可能 9

华 中 科 技 大 学 硕 士 学 位 论 文

只有两三句(如表 2.1语句8-9-10),一段简短对话中可能混杂有多个主题。

根据以上的分析,将口语的语料特点进行了总结,并与普通文本语料进行了详细的比较,见表 2.2。

表 2.2对话文本语料和普通文本语料特点比较

对话文本语料和普通文本语料特点比较

对话文本语料

1.不流利,表意含糊,语句结构不完整的口语

2.多角色参与,具有大量的问答对,思维互动频繁

3.主题交织出现,各主题边界模糊,组织结构混乱

4.无领域限制 4.具有领域限制

3.逻辑合理,思维缜密,主题脉络清晰

普通文本语料

1.语句通顺,表意清晰的书面语

2.单一作者,通篇以陈述句为主

2.2 针对对话特点的解决思路

经过对对话文本语料和普通文本语料的特点进行比较,发现不能直接将对普通文本主题提取的方法应用到对话文本主题提取。针对对话文本的各个特点,将采取如下思路对对话语料的主题提取做的一系列预处理工作:

1.对话中口语的不流利现象,主要包括话语的冗余现象和重复现象。对于冗余话语部分,主要是带有停顿性的插入语、语气助词、起连贯性作用的语气词、常用的习惯性网络用语,解决思路是可以在系统语句切分处理模块后通过停用词表去掉。对于重复话语部分,判断、分析和识别重复现象在语句中出现的模式。

2.对话中含有大量的问-答对,解决思路是先探测出对话语料中的所有问句,并找到每个问句对应的答句的内容,将问句内容和对应的答句内容归并在一起。若该句被作为主题句提出,读者可以看到完整的问句和答句。这种做法的原因是在问-答对中,一部分答句是以不完整的形式出现的,可能只是简短的是非回答,若只提取出答句作为主题句,读者可能根本不明白其具体表达的意思。所以探测并找出对话语句中的问-答对是非常必要的。

3.对话中大量的主题交织出现,各主题边界模糊。解决思路是探测和追踪对话中隐藏的多个主题,估计它们相应的语义边界。并将描述同一主题的语句按时间序列聚类,按照主题分组。最后的主题句的提取是在属于同一个主题的对话组里进行的。

2.3 系统关键技术研究

以下内容将对基于对话的主题提取系统中相关的技术进行简要的总结和分析, 10

华 中 科 技 大 学 硕 士 学 位 论 文

以此为依据,从而引出本文所用的相关技术和各个相关技术的具体实施方案。

2.3.1 问-答对的探测方法研究

由于对话是一种信息交互的过程,对话语料中会有大量的问-答对存在,里面包含着交互的重要信息。通过相互的多轮回的问答模式,对一个或多个主题进行深入的讨论。所以对对话语料的主题提取中有一个关键的环节就是探测对话语料中存在的问-答对,提取的主题句信息中会包含一部分重要的问-答对。探测问-答对的方法主要分为如下三类:

1. 根据问句和答句中的词语相似性来寻找问-答对。这种方法用简单的统计来完成问-答对匹配,不足之处在于忽略了语言本身存在的语法和语义信息。如表 2.3中的对话示例,问-答对之间的词语相似性很小,不能被这种方法识别为问-答对。研究者对该方法做一些改进,融入了相关句法结构等语言信息的匹配,增强了该方法的适应性。

表 2.3对话语料问-答对示例

1

2

A: 附近哪里有医院?

B: 学校集贸市场附近。

2. 通过对大量问-答对的分析和研究,对探测答句总结出一定的经验规则。根据问句,通过规则寻找匹配的答句。其不足之处在于需要耗费大量的人力提炼规则和建立规则库,且建立的规则库是不能全面覆盖各个领域的,其扩展性不好。

3. 运用机器学习的方法探测问-答对。选择符合问-答对特点的一些语义特征、问-答对所具备的表面特征等建立分类模型,通过已标注好的训练集训练该模型,使其达到较好的探测效果。近年研究者们提出的问-答对探测方法都应用了机器学习的方法,其能将自然语言理解和概率统计有效的结合,能达到较好的提取问-答对效果。

近年来,对于问-答对的探测研究,国外研究者们在此方向上有一些成果。针对邮件的对话语料、论坛问答内容等进行了一定的分析和探索。具体方法主要分为两个方向:基于机器学习方法的问-答对探测和基于概率模型的问-答对探测。在各个方向上探测问-答对的方法是多元化的,作者们都有自己的一些想法和依据,但大体思路总结如下:

1.对对话语料中问-答对中问句的探测方法,分为浅层探测和深层探测两个层面。浅层的探测可以通过一些简单的规则来实现,如问号、疑问词等。但是在对话语料中,问号往往会被忽略,或者用陈述句的句型来表达问句,所以只用浅层探测方法是不充分的,需要使用一些其他特征来识别问句,所以引入了深层探测方法。深层的探测其实就是一个对对话语句进行分类的过程。研究者们有引入语言模型、序列 11

华 中 科 技 大 学 硕 士 学 位 论 文

模式等作为分类器的特征,将对话中的每句语句判别是“问句”和“非问句”中的一类。

2.对对话语料中问-答对中答句的探测方法,可以看作是传统的文档检索问题。将问句看作是一个检索请求,备选的一系列答句看作是一个个孤立的文档。寻找答句的问题就转化为寻找与检索请求最匹配的文档的问题。探测问-答对中答句最关键的步骤是建立一个合理的排序模型,对一系列的候选答案进行排序,找到与问句最匹配的答句。

2.3.2 对话主题探测与切分方法研究

主题探测与追踪是近年来研究者热切关注的课题。该课题源于对一系列以时间顺序排列的新闻报道流的主题线索发展的研究,其研究的对象是基于多个文档,识别多个文档的主题迁移,并对各个文档主题的时序性进行了研究。

近十几年来,对于普通文本的主题探测与追踪的研究方法很多,应用的领域广泛。具有代表性的方法:通过聚类方式集合主题、通过结构方式集合主题和通过概率模型按主题切分文本。

针对对话语料具有主题交织出现,各主题边界模糊,组织结构混乱的特点,所以本文应用了主题追踪和探测的思想,研究的对象是以对话语句为单位的,识别语句之间是否已经发生对话主题的偏移。在对话语料中所用的主题追踪和探测的方法,只能使用对普通文本主题追踪和探测的思想,不能完全套用,对对话语料应用主题追踪和探测有一定的难度,原因如下:

1.针对普通文本的传统的主题追踪和探测可以利用统计的思想,计算两个文本之间的相似性,作为它们是否为同一主题的参考依据。可是在对话语句中,有些对话内容非常简短,几乎没有关键词,即使有关键词,计算其在句子中出现的次数也基本上是1次。

2.对话语料的主题转换与普通文本的主题转换不同,普通文本在结构上会有一定的体现,如会另起一个自然段表示主题的转换,或者用一些承上启下的线索词,表示主题的转换。但对话语料的一个主题可能只有四五句对话,转换有可能就在两三句话里完成,及其平滑地完成了主题的过渡。

综上所述,应用于对话语料的主题追踪和探测方法需要将对话的特点融入到处理方法,本设计将概率统计的方法、对话语言特征和对话结构信息等结合起来考虑,以便于达到较好的主题切分效果。

12

华 中 科 技 大 学 硕 士 学 位 论 文

2.3.3 主题句抽取方法研究

对于普通文本的摘要提取一般分为三种方法:第一种方法是直接抽取文本中含有重要信息的句子作为主题句。通过一些预定的特征计算句子的得分,根据句子的得分高低排序得出主题句。该方法的不足之处在于需要抽取一定数量的句子才能表达出不同的主题。第二种方法是从文本中提取一定量的关键词,通过一定的句法分析、词法分析、语义关系自动生成主题句。这种方法需要很好的自然语言理解能力,往往生成的句子会出现表意不清的现象,提取效果不太好。第三种方法是利用信息结构表,将文本中的相关内容提取出来填入一张信息结构表。该方法可以得到很好的主题表意效果,但是不可能任何领域文本都用同一张信息结构表,该方法受领域限制。经过权衡,第一种方法在本文中可行度最高。

国内外对主题句抽取的研究很多,与该研究方向很接近的方向有根据检索请求对相关文档排序等。具有代表性的方法有基于图形的句子排序方法和引入不同特征的句子排序方法。

经过对对话语料进行问答对探测、主题探测等流程后,对话语句已按照相同的主题进行聚类,在每个聚类中语句按照时间顺序排列。所以对对话语料的主题句的抽取可以采用普通文本的主题句抽取的思想。

2.4 本章小结

本章节先从真实示例对对话语料的特点进行了详细的分析和总结,再针对其特点,确定系统所需实现的一系列关键技术,如问-答对探测、主题探测和追踪、主题句抽取。最后对涉及的关键技术进行了方法介绍,其中也提到了本系统中应用这些关键技术的思路。

13

华 中 科 技 大 学 硕 士 学 位 论 文

3 基于对话的主题提取系统的设计

本章设计了基于对话的主题提取系统的具体模块,在下文中详细叙述每个具体模块的实现和技术细节。

3.1 系统框架设计

系统中测试数据主要来源于网络聊天室得到的对话记录,是源于日常生活的真实数据,系统按照对话记录的突出特点,进行了一系列的处理。

图3.1基于对话的主题提取系统框图,系统被分为对话语料入库模块、对话数据前期处理模块、探测问-答对模块、主题探测模块、主题树生成模块、抽取主题句模块六个模块。在本章下面的六个小节中分别对每个模块进行了详细的分析以及所使用的技术进行说明。

中文切词与POS标注二次切分处理接收对话记录问答对探测数据库主题探测与切分主题树生成提取主题句

图 3.1基于对话的主题提取系统框图

3.2 对话语料入库模块

本系统中该模块的作用是将接收到的对话记录存入数据库,并按时间的先后顺 14

华 中 科 技 大 学 硕 士 学 位 论 文

序排列。对话语料是属于人类自发语言,存在着语句成分缺失,指代不明等口语问题,对于这些问题的研究和解决处理是由项目组另一名同学完成。所以本文接收到的对话语料是在假设对话成分完整、指代已标明的前提下进行的。

接收到的对话记录转换格式N对话信息补全对话信息是否完整Y存储数据库

图 3.2对话语料入库流程图

图 3.2所示的是对话语料存入数据库的流程图。在接收到对话记录后,需要将其进行一定的格式转换,为了更方便地存入数据库和以后进行功能扩展。由于一些软件协议的原因,可能接收到不完整的对话信息,如对话中源用户ID或目的用户ID缺失。对于这种情况,需要将不完整的对话信息和之前出现过的一些对话记录信息进行关联,尽量将不完整的对话信息进行补全。最后将完整的对话信息存入数据库。

表 3.1所示是对数据库表中各字段内容说明。其中字段“content”中的内容是对话者一方一轮的对话内容。表 3.2所示的是数据库内存储对话记录的表。

表 3.1对话记录表的字段信息

字段名

Time

SrcUserID

DestUserID

Content

该字段所记录的相关内容

存入数据库的时间

源用户ID

目的用户ID

对话记录内容

15

华 中 科 技 大 学 硕 士 学 位 论 文

表 3.2数据库内存储的对话记录表

3.3 对话数据前期处理模块

对话信息中存在着大量的口语现象,会影响对话信息处理的准确性。所以需要先对对话数据的口语现象进行处理。对中文和英文处理有个很大的区别,英文切词可以直接通过空格完成,而中文是紧凑排列的,需要通过专门的切词器进行切分。同时中文中有一些由词语连接成的短语,会被切词器切分成词语,系统需要将其重新转化成短语。以上问题是对话数据前期处理模块需要做的一些工作。

3.3.1 对话数据的口语现象处理

处理对话语料中不流利口语现象,主要包括话语的冗余现象和重复现象。对于冗余话语部分,主要是带有停顿性的插入语、语气助词、起连贯性作用的语气词和常用的习惯性网络用语等,解决思路是可以在系统语句切分处理模块后通过停用词表去掉。但是一些带有疑问色彩的语气词,如“吗”、“啊”等,对问答对的问句探测有一定帮助,应保留在句子中。

对于重复话语部分,判断、分析和识别重复现象在语句中出现的模式。一旦识别到这种重复模式,可以将后面重复的词去掉。

3.3.2 中文切词与POS词性标注

本系统实现中文切词与POS标注功能采用的是中科院计算所研发的一个汉语词法分析系统ICTCLAS。ICTCLAS系统提供了开源代码,可以进行一些功能扩展,有 16

华 中 科 技 大 学 硕 士 学 位 论 文

利于对系统的进一步开发。

3.3.3 二次切分处理

经过中文切词与POS词性标注后,句子被切分成了一个词集,由许多不同词性的词组成。如短语“自然语言理解”就会被切分为“自然/语言/理解”这三个词组成。但是这个短语所表达的意思与被切分为三个词后表达的意思是不一样的。

按照VSM(vector-space model)的思想,句子可以表示成n维空间向量,n维表示的是对话语句的词条项数目,用tf*idf来计算对话语句在向量空间各个维度上的权重。如果将短语“自然语言理解”划分为“自然/语言/理解”三个词,就要用向量空间的3个维度表示,若一个句子中同时出现短语“自然语言理解”和“理解”一词的时候,词条“理解”的权重就明显变高,但事实上“理解”这个词在该句子中的权重应该与短语“自然语言理解”等同。

为了避免上述情况的发生,采取的方法是在进行完切词处理后,再对句子进行二次切分处理。经过语料库统计,将一些经常连续出现的词划归为短语。该方法是基于统计的方法,选取对话记录方面的语料库,统计两个词连续出现的共现概率,选取共现概率较高的词存入共存词集。在切词结束后,扫描一次共存词集,有匹配的词将其划归为短语。

针对网络对话记录,会经常出现一些比较流行的短语。定期更新已有的共存词集,添加一些新出现的短语,可以使句子的切分达到一个更好的效果。

3.4 探测问-答对模块

探测问-答对含有两个步骤:先要找出对话中的所有问句,然后通过问句的位置,将两个问句之间的陈述语句作为答句候选集。然后在答句候选集中,根据问句和答句的一些关联性,选择出最佳答句组,从而将问-答对进行组合。

3.4.1 问-答对中问句探测

章节2.1中通过对对话语句的特点分析发现,对话语句中含有很大比例的问-答对,而且问-答对中反映了对话交互信息中的一些重要信息,所以问-答对探测是系统中的一个重要环节。

对对话语料中问-答对中问句的探测,分为两个层面。浅层的探测可以通过一些简单的特征来实现,如问号、疑问词、语气助词等。可以通过这些简单的特征判断出一些问句。但是在手写的对话语料中,问号往往会被忽略,随机抽取了1000条对话语料,有37%省略了问号,11%的句子没有答句。还有7%用陈述句的句型来表达 17

华 中 科 技 大 学 硕 士 学 位 论 文

问句,所以只用浅层探测方法是不充分的,需要使用其他方法识别问句。深层的探测其实就是一个对对话语句进行分类的过程。研究者们引入了语言模型、序列模式等得到的特征,配合那些浅层的特征,对对话中的每句语句判别是“问句”和“非问句”中的哪一类。

根据对话语料的特点,本文选择了如下特征作为分类问句的评判标准:

1.高标识特征,如问号、语气助词、问句疑问词、问句标识词(如“是不是”、“怎么样”等)。

2.输入的对话语句中词的个数

3.句子中最前面的五个词的词性和句子中最后面的五个词的词性,如图3.3所示即为系统所用的探测问句的方法框图。先通过对问句进行分析,选择适合判断问句的一些特征,然后对准备用于训练集的句子人工手动标识特征,放入分类模型进行训练。然后再对输入的新对话语句提取之前选取的特征,按照训练集特征格式放入分类器,从而获得输出的分类结果。

对话语句集输入提取问句特征属性值问句分类模型分类结果选择代表问句的特征标注训练集

图 3.3问-答对中问句探测方法框图

图 3.4所示是从对话语句中提取出问句特征属性值的流程图。训练集和测试集中的对话语句都需要提取代表特征的值。从训练集对话语句中提取出代表特征的值和人工标注的分类结果放入分类器进行训练,然后再将测试集对话语句中提取出代表特征的值放入分类器,从而得到对测试集对话语句的分类结果。

本文使用了C4.5决策树分类器作为问句分类器进行了仿真实验,决策树的原理是决策树上每个节点代表对实例的某个属性测试,若实例通过了节点A代表的属性测试,则走到节点A的叶子节点;若实例没有通过节点A代表的属性测试,则去与A对立的另一分支的节点进行属性测试,直到通过某个节点的属性测试为止,再继续往下迭代,直到得到分类结果。

18

华 中 科 技 大 学 硕 士 学 位 论 文

开始读取一句取出数据库中的聊天记录句子切词成n个词,并且词性标注否N个词性标注中的前n个与最后n个存于pos(1~n)与posR(5-n~5)中,其余去人工标记聊天记录是否为问句N>=5?是已人工标注的对话句N个词性标注中的前5个与最后5个存于pos(1~5)与posR(1~5)中从数据的第一句句子中是否包含高标识词语?是结束否高标识项置0是记录本句所有属性:词性标注、句长、高标识、句子人工标记否读取位置后移一句高标识项置1是否最后一句

图 3.4从对话语句中提取问句特征流程图

图3.5所示的是在WEKA工具平台上使用1000个人工手动标记的训练集,选取自信度为0.2的情况下得到的决策树。决策树采用的是“简单优先”的方法论,在自信度要求较低的情况下,发现高标识一个特征就可以满足自信度要求,就只用高标识特征就足以判断出输入语句是否为问句。图 3.5决策树示例。

19

华 中 科 技 大 学 硕 士 学 位 论 文

图 3.5决策树示例

3.4.2 问-答对中答句探测

答句检测中也是使用机器学习的方法。答句检测的前提是使用之前被检测出来的问句,两个问句之间的陈述句作为前一个问句的答句候选集。

所考虑的判别答句的特征量包括:

1. 候选答句中前五个词的词性标注以及最后五个词的词性标注。

2. 候选集中的答句个数。

3. 候选集中的答句与问句的距离。

4. 候选集中的答句与问句的相似度。

候选答句集输入提取答句特征答句分类模型分类结果选择代表答句的特征标注训练集

图 3.6问-答对中答句探测方法框图

图 3.6所示即为系统所用的探测答句的方法框图。先通过对答句进行分析,选择适合判断答句的一些特征,然后对准备用于训练集的句子人工手动标识特征,放入分类模型进行训练。然后再对输入的候选答句集提取之前选取的特征,按照训练集的特征格式放入分类器,从而获得分类结果输出。

图 3.7所示是从候选答句集中提取出答句特征属性值的流程图。训练集和测试集中的对话语句都需要提取代表特征的值。从训练集对话语句中提取出代表特征的 20

华 中 科 技 大 学 硕 士 学 位 论 文

值和人工标注的分类结果放入分类器进行训练,然后再将候选答句集中提取出代表特征的值放入分类器,从而得到对候选答句集分类的结果。

开始取出数据库中的聊天记录人工标记聊天记录是否为问句与答句已人工标注的对话句从数据的第一句开始读取一句并取句子缓存所有句子,清空句子缓存,本问句存入句子缓存句子切词成n个词,并且词性标注否N>=5?是N个词性标注中的前5个与最后5个存于pos(1~5)与posR(1~5)中N个词性标注中的前n个与最后n个存于pos(1~n)与posR(5-n~5)中,其余去是否为问句?否是句子缓存中有句子否存入句子缓存计算所有句子与缓存中问句的相似性是记录本句所有属性:词性标注、缓存中句子数、句子与问句距离、各句子与问句的相似性,句子人工标记是否最后一句读取位置后移一句结束

图 3.7从对话语句中提取答句特征流程图

本文采用了C4.5决策树和朴素贝叶斯两种分类器做对比仿真实验,选取上述特征,通过机器学习的方法检测答句。

3.5 主题探测模块

针对对话语料具有主题交织出现,各主题边界模糊,组织结构混乱的特点,所以在抽取主题句之前,先对主题进行追踪和探测,判别语句之间是否已经发生对话主题的偏移,识别出语义块边界,以便于对对话语句按主题进行聚类,可以更加精准的抽取主题句。

由于有些对话内容非常简短,几乎没有关键词,即使有关键词,计算其在句子 21

华 中 科 技 大 学 硕 士 学 位 论 文

中出现的次数也基本上是1次左右。所以若想简单地通过语句之间的相似性来判别语句是否属于同一主题,基本上是不可能达到效果的。因此希望通过统计的概率模型估计出对话语句中潜在的语义关系,从而计算句子间的语义相似性。

按照VSM(vector-space model)的思想,在一个对话语料中每个被切分出来的词语都可以作为向量空间的一维,N个词就构成一个N维语义空间。其中的一个句子就是N维向量的线性表示。这种情况下,若对话语料很大,这个空间就具有一个很大的维数,同时在维与维之间相关性不大。按照潜在语义分析的思想,建立一个维数不大的空间,将对话语料中的词与句子都映射到维数不大的空间,这样可以通过距离的长短来体现词与词之间的语义关系。

将基于概率的主题模型的思想精髓用于本系统处理的对话语料,对话语句可以看做是许多个主题的随机组合,其中主题可以由词汇的概率分布来体现。基于这个思想,需要计算词语在句子中的概率分布,从而算得相邻句子的语义相似度作为主题切分的标准。

给定对话语句集隐含语义概率模型计算词汇在对话语句中的概率分布计算相邻句间语义相似性边界识别

图 3.8主题切分方法框图

图 3.8所示的是主题切分方法的框图。其中的隐含语义概率模型可以使用现有的PLSA、LDA模型[36][43] 进行实现。通过隐含语义概率模型得到词汇在句子中的概率分布。再计算相邻句子间的语义相似性,如图3.9所示。最后将相邻句子间的语义相似性与设定的阈值进行比较,从而划定同一主题的语块边界,将对话文本划分为属于不同主题的语块。

22

华 中 科 技 大 学 硕 士 学 位 论 文

S1S2S3S4„„„„Sim(S1,S2)Sim(S2,S3)Sim(S3,S4)

图 3.9相邻句子相似性示例

3.6 主题树生成模块

试想对话中可能出现这样的情况:两人在对话中,可能因为一方对前一个话题有补充,而在结束完当前话题后又去讨论前一个话题。但在这种情况下,按照章节3.5所述的方法,会认为对话中有三个主题,将其分为三个语块。如图 3.10所示,按章节3.5所述的方法进行语块切分后,只能保证语块1和语块2、语块2和语块3为不同主题,但不能确定语块1和语块3为不同主题。

语块1 主题1语块2 主题2语块3 主题1

图 3.10语句切分后的可能现象

为了避免上述情况的发生,本节对章节3.5所述的方法进行了一定的补充,使得同一主题的语句能尽量聚类在一个对话语句组,这样能提高抽取出的主题句的准确度。

另外,章节3.5所述的方法是通过概率模型来寻找包含不同主题语块的边界点,从而将对话语句切分成许多相邻且主题不同的语义块,相当于将对话语句切分成许多子主题,根据对话语料的特点可能两三句话就是一个主题。若每个子主题都抽取主题句,一个对话语句组可能会产生很多主题句,这样就达不到主题提取的效果了,抽取出来的还是海量数据。所以若两个子主题语块内容之间的相似性若高于一个预设的阈值,就可以将这两个子主题所涉及的语块进行合并。

综上所述,本节使用了一种融入语言特征的聚类算法对切分后的语块进行聚类处理。在相邻两个语块之间存在着一些潜在的语言规则。选取语言特征融入聚类算法,使得其更加符合对话语料的特点。融入的一个语言特征是指代的特征,一般对 23

华 中 科 技 大 学 硕 士 学 位 论 文

话语句中代词的出现说明当前语句仍在讨论上述说过的人或事。

假定存在两个语块是Segi 和Segj,融入的语言特征用条件概率表示就是P(T(Segi,Segj)│Segi PPL,SegjPPF)。对于给与的两个语块Segi 和Segj,定义一个函数T(Segi ,Segj)

1T(Segi,Segj )={ (3.6)

2如果Segi 和Segj属于同一个主题,计算式(3.6)值为1;否则,计算式(3.6)值为0。

根据贝叶斯公式:

P(T(Segi,Segj)│SegiPPL,SegjPPF)=P(SegPPL,MPPF|T(Seg,Seg)*P(T(Seg,Seg)))ijijijP(SegPPL,SegPPF)ij(3.7)

计算式(3.7) [21]右边的参数估计是通过对训练数据做最大似然估计。

计算式(3.8)是建立的语块与建立的树之间的相似性函数:

Sim(Seg,T)=maxim│SegiPPL,SegjPPF) (3.8)

=1cos(Seg,Segi )*P(T(Segi,Segj )分析过该聚类算法,可以以此为判断标准开始建立主题树。通过计算式(3.8)作为判断当前语块是不是属于已建立的主题树或者一棵新树根节点的标准。以下是构建主题线索树的具体步骤:

1.将已切分的语块按照时间顺序进行排列。按时间排序的原因是对话主题的发展是一个时间延续的过程,从而可以判断后续语块是前面哪个语块的顺承。

2.第一个语块内容Seg1形成树的根节点,同时也形成树T1。

3.随即处理的第二个语块内容Seg2,计算它与第一个树T1的相似度Sim(Seg2,T1 )。若Sim(Seg2,T1 )>预定门限值k,将Seg2加入树T1。否则,语块内容Seg2新建一个树T2。

4.随即处理的第三个语块内容Seg3,分别计算它与前两棵树的相似度Sim(Seg3,T1 )和Sim(Seg3,T2 ),若Sim(Seg3,T1 )预定门限值k,则将语块内容加入树T2。若Sim(Seg3,T1 )

5.随即的语块内容按照4中描述的方法进行处理,直至按时间序列排序的语块 24

华 中 科 技 大 学 硕 士 学 位 论 文

序列结束为止。

6.新的一组语块序列重新从按照1中描述的方法向下开始处理。

语块按时间排列Seg1Seg2Seg3Seg4Seg5Seg6Seg7Seg8Seg1Seg2Seg7Seg5Seg3Seg4Seg6Seg8T1T2图 3.11主题树生成示例

T3

图 3.11所示是通过上述构建主题树的方法步骤得到的主题树生成示例。输出的是以树为单位的已聚类的同一主题对话语句组,并且以时间顺序排序,在下文中称之为“主题对话组”。

3.7 抽取主题句模块

从构造的主题线索树的结构来看,已经将以时间序列排序的语块组划分为一个个的主题树。针对每一个主题树,从聚类得到的主题对话组中抽取出最具代表性的句子作为主题句。

假设每个主题对话组里含有s个句子,计算主题树中当前句子k与其他句子的相似度之和作为排序依据:

SAllSimi=∑i=1Sim(Sk,Si) (3.9)

通过计算式(3.9)计算出每个句子与其他句子的相似性总和,按照由大到小的顺序进行排序,取排名靠前的句子作为主题句。图 3.12所示节点代表每个对话语句,连线代表两个节点之间的相似性。连线的权重代表两节点之间的相似性大小。

25

华 中 科 技 大 学 硕 士 学 位 论 文

S1S7S2S6S3S5S4

图 3.12句子排序示意图

3.8 本章小结

本节中先对系统进行了整体的构架,将各个重要的处理部分按功能模块化。再对各模块的功能进行了详细的说明,结合图表细致地阐述了模块中所用到的技术和模型。

26

华 中 科 技 大 学 硕 士 学 位 论 文

4 基于对话的主题提取系统的模块仿真与结果分析

本章对问-答对探测模块进行了仿真实验和对主题句抽取模块进行了测试,并结合图表分析了所得到的实验结果。

4.1 问句检测仿真测试

问句检测使用了分类器进行判决,仿真中分别使用了判决树与朴素贝叶斯分类器进行仿真实现问句检测的性能,并且进行比较。

同时,问句检测中考虑的句子特征量包括:

1. 句子前五个词的词性标注以及最后五个词的词性标注。

2. 句子包含的词个数。

3. 句子是否含有能高度标示句子为问句的特殊标志,如“?”、“为什么”、“怎么样”、“是不是”等。

仿真时通过考虑以上全部特征或者考虑部分特征进行测试,得到了相应的测试结果,并且分析。

进行仿真前首先进行样本选择,其中包括训练集的选择与测试集的选择,训练集以及测试集的选择往往是决定分类器的性能的关键。训练集以及测试集应该按照能较好的、较为全面的反映分类器需要处理的数据,全面体现数据特点的原则进行选取,即训练集与测试集应该覆盖了分类器预计要处理数据的尽量多的可能情况。

本系统的目标是对基于对话的文本进行主题句提取,其数据来源主要为网络聊天室得到的对话记录,故本测试使用来源于生活的真实聊天数据。从中随机抽取了其中733条对话片段作为训练集,一个对话片段包含一个聊天用户一次传送的一句或者多句聊天文本,并且通过人工分析后进行标注以表示该对话片段为问句或是不是问句。而该733条对话片段中,包含了310条对话片段为问句形式,而有423条为非问句的对话内容。再次从即时聊天的数据中抽取处训练集中出现之外的对话语句作为测试集,共抽取了95条对话片段,其中包含39条问句对话片与56条非问句对话片。

4.1.1 使用所有特征进行测试

1. 首先使用C4.5决策树进行处理得到结果的样本分类结果分布如图 4.1所示。

图 4.1中左方坐标系表示通过10折交叉检验后,训练集中的各条数据在C4.5 27

华 中 科 技 大 学 硕 士 学 位 论 文

决策树分类器判决后的分布。横坐标表示数据中人工标注的信息,左方蓝点集中的地方表示测试集中被人工标注为是问句的数据,而横坐标右方红点集中的位置表示测试集中被人工标注为非问句的数据;而纵坐标表示通过训练后的分类器对数据分类的结果,纵坐标的下方表示该数据被分类器判定为问句,而纵坐标的上方表示该数据被分类器判定为非问句。因此,坐标图中的左上角的数据点表示人工标注的问句被分类器误判为非问句的数据,而右下角的数据点表示人工标注为非问句的数据被分类器误判为问句的数据,坐标的右上角与左下角分别表示分类器正确判决的非问句与问句的数据。由该结果坐标图可直观的了解到分类器的性能、误判的情况等,可认为左上到右下角的对角线上的数据越少分类器性能越好。

图 4.1在所有属性下使用C4.5的训练集10折校验结果分布图

图 4.1中右方表示的是训练集在各个特征属性中的分布情况。例如第一行为对话语片段句中第一个词的词性标志,依次往下排列。

以上训练集的10折交叉校验结果可用数值表示,为:问句正确判断数209;非问句正确判断数348;问句误判为非问句数101;非问句误判为问句数75。总的正确分类率为81.14 %,错误分类率为18.86 % 。

为更加准确的评定该分类器的性能,再次使用预先选好的测试集进行测试。由 28

华 中 科 技 大 学 硕 士 学 位 论 文

于抽取的对话不在测试集中出现,故可认为测试集与训练集间不存在相关性,更能体现分类器的性能。

决策树对测试集进行处理得到结果的样本分类结果分布如图 4.2所示。

图 4.2在所有属性下使用C4.5的测试集结果分布图

图中坐标意义与之前所述相似,测试集结果为:问句正确判断数26;非问句正确判断数52;问句误判为非问句数13;非问句误判为问句数4。总的正确分类率为82.1053 %,错误分类率为17.8947 %。

2. 使用朴素贝叶斯分类器对以上相同的抽取的733条聊天对话片作为训练集,对朴素贝叶斯分类器进行训练,并进行10折交叉校验,同时使用抽选的测试集进行测试,结果如图 4.3所示。图中可直观得到使用朴素贝叶斯分类在该情况其误判数小于决策树。

29

华 中 科 技 大 学 硕 士 学 位 论 文

图 4.3在所有属性下使用朴素贝叶斯分类的测试集结果分布图

如表 4.1所示为使用表格的方式对在考虑以上所有属性时C4.5决策树与朴素贝叶斯的性能比较。

表 4.1在考虑所有问句属性下C4.5决策树与朴素贝叶斯的比较

算法模型

C4.5

决策树

朴素贝叶斯

数据集

训练集

测试集

训练集

测试集

正确率

81.14 %

82.11 %

79.74 %

84.21 %

错误率

18.86 %

17.89 %

20.26 %

15.79 %

问句误判为非问句率

10.82%

13.68%

9.32%

7.37%

非问句误判为问句率

8.04%

4.21%

10.93%

8.42%

通过表 4.1可直观的观察到,在考虑本节所述所有属性,使用本节抽取的训练集与测试集的情况下,C4.5决策树的正确率要略高于于使用朴素贝叶斯的正确率,其中使用训练集交叉校验的正确率大于朴素贝叶斯的正确率,而使用测试集的结果要略低于贝叶斯的分类器。考虑到训练集要远大于测试集的数量,分析可能是测试集抽样稍少,其覆盖的可能性不全面所得,故主要考虑训练集的交叉校验结果。

而对于C4.5与朴素贝叶斯分类器误判类型的概率进行更具体的分析可看出,C4.5判决树主要是在将问句误判为非问的情况中远多于朴素贝叶斯,而在将非问句 30

华 中 科 技 大 学 硕 士 学 位 论 文

误判为问句的情况少于朴素贝叶斯。也即是说C4.5在本小节讨论的属性下对于判断问句的性能差于朴素贝叶斯,而防止误判非问句的性能高于朴素贝叶斯分类。

然而,本文提到的问答对探测的目的是防止问句与答句孤立是表示的信息不完整而进行的,而误判了非问句首先不一定会误判出其含答句,即使误判出其含有对应的答句也会在后期的句子排序与主题句提取是将冗余句子过滤掉;而如若漏判了问句则会可能是信息一直处于孤立不完整的状态,而后期可能并不能处理。因此,问句判断的分类器的判断问句性能比防误判非问句性能在本文考虑中更加重要,故认为在本节的前提下朴素贝叶斯的性能稍高与决策树的性能。

4.1.2 使用词性标注与对话片词数作为特征进行测试

由于考虑到对基于对话文本进行问句检测的特点,即时通信软件聊天的对话内容口语化程度很高,一些在书面语中的特征往往在口语中难以分辨或不再具有其特定意义。例如“我真不知道我是不是非要去!”这样的句子,虽然其中含有“是不是”这种高度区分问句与普通句子的词或短语,但是该句却不是疑问句,还有聊天用户在快速输入文字时往往会输入错别字,例如本应是“哪里”却输入“那里”,有或者多输入了个问号等,这些都会是在书面文本中分辨疑问句的一个最主要特征在分辨口语文本中的问句是产生影响。因此本小节去掉本节中提到的三种属性中的“句子是否含有能高度标示句子为问句的特殊标志”该属性,进行测试。

将节4.1.1中使用的训练集以及测试集直接去掉其“句子是否含有能高度标示句子为问句的特殊标志”特征项,得到本节使用的只含词性标注与对话词数的训练集与测试集数据,分别使用C4.5决策树与朴素贝叶斯对其进行分类测试。

测试结果如表 4.2所示。

表 4.2在考虑词性标注与对话片词数属性下C4.5决策树与朴素贝叶斯的比较

算法模型

C4.5

决策树

朴素贝叶斯

数据集

训练集

测试集

训练集

测试集

正确率

75.46%

76.84%

74.17 %

77.89 %

错误率

24.55 %

23.16 %

25.83 %

22.11%

问句误判为非问句率

15.22%

13.68%

11.36%

8.42%

非问句误判为问句率

9.32%

9.47%

14.47%

13.68%

由表 4.2可看出,只使用词性标注与对话片词数作为特征进行分类器训练与测试中,不管其总体性能、问句正确判定性能或非问句正确判定性能均低于考虑了是否高度标识词语的属性特征时分类器的各种性能。而对总体准确率的影响分析可见,使朴素贝叶斯分类器的准确率下降要大于使用C4.5决策树的准确率的下降百分比。但是朴素贝叶斯对于判定问句的准确率仍然高于使用C4.5决策树。

31

华 中 科 技 大 学 硕 士 学 位 论 文

由本结果可得出放弃使用是否含有高度标识问句的词语该特征时,不管是对于问句的判断准确率还是对非问句的判断准确率均有所降低。而C4.5判决树在不考虑高标识特征属性的情况下,对于问句的判断性能下降得更明显;朴素贝叶斯分类器则是对于非问句的判断性能下降得更明显。

因此,语句中是否包含高标识问句的特征词的属性应该保留用于问句的检测,同时使用C4.5判定树的性能稍高于朴素贝叶斯,而考虑到问句检测后的工作,如句子排序等会对于误判为问句的非问句对应答句进行过滤个能力,使用朴素贝叶斯分类器更加合理。

综上所述,系统对问句的检测方法使用朴素贝叶斯分类器,其反映的性能好于C4.5决策树。

4.2 答句检测仿真测试

问句检测使用了分类器进行判决,仿真中分别使用了判决树与朴素贝叶斯分类器进行仿真实现答句检测的性能,并且进行比较。

同时,答句检测的前提是使用问句检测得到被判定为问句的句子,提取问句之后下一个被判定为问句之前的所有非疑问句作为非问句的候选集进行分析。

所考虑的句子特征量包括:

1. 句子前五个词的词性标注以及最后五个词的词性标注。

2. 候选的所有可能答句数。

3. 候选句与问句的距离。

4. 候选句与问句的相似度。

仿真时同样通过考虑以上全部特征或者考虑部分特征进行测试,得到了相应的测试结果,并且分析。

进行仿真前首先进行样本选择,本模块的目标是对基于对话的文本中的问句找出其对应的答句,故本测试亦使用来源于即时通信软件的真实聊天数据,随机抽取了其中525条对话片中可能答句段作为训练集,并且通过人工分析后进行标注以表示该对话片段是否为之前出现的问句对应的答句。而该525条对话片段中,包含了201条对话片段为问句对应的答句,而有324条为并非问句对应的答句的对话内容。再次从即时聊天的数据中抽取处训练集中出现之外的对话语句作为测试集,共抽取了106条对话片段,其中包含33条答句对话片与73条非答句对话片。

4.2.1 使用所有选定的特征进行测试

首先考虑的所有提出的特性作为特征值进行测试,同时使用C4.5决策树与朴素 32

华 中 科 技 大 学 硕 士 学 位 论 文

贝叶斯进行测试,输入的训练集与测试集使用的为上述所提的抽取的对话句子集。

表 4.3所示为考虑如上所提的所有答句特征属性的情况下的实验结果。

表 4.3在考虑所有答句属性下C4.5决策树与朴素贝叶斯的比较

算法模型

C4.5

决策树

朴素贝叶斯

数据集

训练集

测试集

训练集

测试集

正确率

84.38%

84.91%

80 %

77.36%

错误率

15.62%

15.09 %

20 %

22.64%

答句误判为非答句率

7.81%

4.72%

10.29%

5.66%

非答句误判为答句率

7.81%

10.38%

9.71%

16.98%

由结果可看出,C4.5决策树的性能要优于朴素贝叶斯分类器的性能,而决策树与朴素贝叶斯的性能结果中在训练集进行10折交叉校验的时候对于答句与非答句的判决性能相差不大,而在测试集中对于答句的判定性能要高于对于非答句的判定性能。分析原因,应该是测试集选择中存在着某种与训练潜在的关系,例如测试集和训练集可来源于数据的两个侧面,使测试集的结果与训练集的结果有较大的距离。

观测数据集特性,发现C4.5决策树的性能要好于朴素贝叶斯的性能的可能原因是所选的数据特征中包括了一项答句候选集与问句距离的特征属性,经过语料库统计表明,答句在问句后的较近距离内出现的概率在对话记录中往往很大,而在问句后距离较远处出现对应答句的概率较少。故该距离属性的信息增益非常大,在这种情况下使用决策树的性能往往得到较好的效果。

另外一个方面反映出决策树使用答句与问句间距离这个特征作为了主要的判断标识来分类句子的,当大部分答句在问句后很短的距离内出现的这个前提不成立时,例如聊天双方的说话速度相差较大,一个人说了多句而另一个人才回一句,这样的情况下,考虑答句与问句距离进行分类特征则可能得到不佳的结果。故使用去掉答句与问句距离的这个特征属性进行对比仿真测试。

4.2.2 使用除答句与问句间距离特征外的属性进行测试

使用同样的数据集,去掉候选句与问句距离的特征,进行相同步骤的测试,测试结果如表 4.4所示。

结果中显示在不考虑候选集与问句距离的情况下,C4.5决策树与朴素贝叶斯分类器对于判决答句的总体性能明显降低。而决策树性能降低的情况更甚。但是究其性能细分可发现,两种分类器对于非答句的判定性能有了明显的下降,而对于答句的判定性能差异不大,对于本系统中对于非答句误判为答句的情况下可有后续句子排序等工作过滤,故更关心对于答句判定的性能。

33

华 中 科 技 大 学 硕 士 学 位 论 文

表 4.4使用除答句与问句间距离特征外的属性进行测试

算法模型

C4.5

决策树

朴素贝叶斯

数据集

训练集

测试集

训练集

测试集

正确率

73.71 %

76.42%

72.95%

69.81 %

错误率

26.29 %

23.58 %

27.05 %

30.19 %

答句误判为非答句率

8.0%

3.77%

9.9%

6.6%

非答句误判为答句率

18.29%

19.81%

17.14%

23.58%

结果表示省去候选集于问句的距离这个特征,对于判断答句的性能在实验数据下显示差异不大。

综上所述,系统对答句的检测方法使用C4.5决策树作为分类器,其反映的性能好于朴素贝叶斯。

4.3 主题句抽取模块结果分析

经过主题树生成模块以后,已经将以时间序列排序的语块组划分为一个个的主题树。针对每一个主题树,从聚类得到的主题对话组中的内容其实都反映的是相同的一个主题。其实在主题树抽取模块之前的各个模块都是在针对对话文本的不同特点进行处理,目的是为了弱化对话文本的特点,让其能适用于书面语文本的主题句抽取方法

表 4.5是聚类后的真实对话数据集1:

表 4.5主题句抽取实验数据集1

1

2

3

4

5

6

7

8

9

A: 不过我建议你下次买手机的话 买三星

B: 哈哈哈 我很喜欢三星的

A: 为啥?我以前本科四年的手机就是三星...

A:

那个太老了嘛

B: 而且很可爱的那种型....像鸡蛋一样的

A: 我本来就喜欢三星的手机。。

B: 滑盖比较好看艾

B: 三星的外形是很好看的诺

B: 不得不承认

主题句抽取后的结果见表 4.6。

实验结果:主题句为“我本来就喜欢三星的手机。”

按照人类语言理解,这条机器抽取的主题句符合能表达对话文本全文的主要意思的条件,数据集1的实验结果基本满意。

34

华 中 科 技 大 学 硕 士 学 位 论 文

表 4.6主题句抽取结果数据集1

0.91369

0.87169

0.96633

0.51991

0.51991

1.00000

0.60462

0.87297

0.51991

不过我建议你下次买手机的话买三星。

哈哈哈我很喜欢三星的。

为啥?我以前本科四年的手机就是三星。

那个太老了嘛。

而且很可爱的那种型....像鸡蛋一样的。

我本来就喜欢三星的手机。

滑盖比较好看艾。

三星的外形是很好看的诺。

不得不承认。

表 4.7主题句抽取实验数据集2

表 4.7聚类后的真实对话数据集2:

1

2

3

A:

B:

A:

其实我就是希望手机可以装些软件啥的用起来方便...三星很可惜做不到...哎。。

而且,蛮不利的一个因素是...三星的价格其实并不优势...

G608比较老了,居然也还卖到1k5,升级版的G618和其他更酷的几款(很可能是你中意的类型)都在2k左右甚至更多...特别看了一下三星唯一的一款和NOKIA采用一样的系统的i458,也并不优势...市场反应并不优...而且i458又不是你喜欢的型了...

4

5

6

A:

B:

A:

所以诺记还是很不错的...通用性和兼容性的确比三星...哎...纠结

。。不喜欢诺基亚!

而索爱的短信速度和按键实在是...摩托罗拉的就更不要提了,总不可能买山寨机吧,

主题句抽取后的结果见表 4.8:

表 4.8主题句抽取实验结果集2

0.85406

0.84703

1.00000

0.78210

0.94757

0.86511

0.58035

0.84703

0.58035

其实我就是希望手机可以装些软件啥的用起来方便,三星很可惜做不到。

哎。

而且,蛮不利的一个因素是:三星的价格其实并不优势。

G608比较老了,居然也还卖到1k5,升级版的G618和其他更酷的几款(很可能是你中意的类型)都在2k左右甚至更多。

特别看了一下三星唯一的一款和NOKIA采用一样的系统的i458,也并不优势,市场反应并不优。

而且i458又不是你喜欢的型了,所以诺记还是很不错的。

通用性和兼容性的确比三星。

哎。

纠结。

35

华 中 科 技 大 学 硕 士 学 位 论 文

续表 4.8

0.58035

0.82040

0.58035

0.58035

0.58035

不喜欢诺基亚!

我会努力寻求你可能喜欢的NOKIA的。

乖,要摒弃偏见哦。

而索爱的短信速度和按键实在是。

摩托罗拉的就更不要提了,总不可能买山寨机吧。

实验结果:主题句为“而且,蛮不利的一个因素是:三星的价格其实并不优势。”

根据人工理解数据集2的对话,实验结果所提出的主题句与真实的主题句差距较大。

经过对排序算法和实验数据集仔细的分析,得到结论如下:

1.将实验数据集1和实验数据集2中的对话语料进行比较,实验数据集2中的对话语料的句子相似度较小。如果是该因素影响了结果集,说明LexRank的句子排序算法不适合句子间相似度较小的语料。可是在对话语料中句子间相似度较不大,所以LexRank的句子排序算法不适合对话语料的主题句提取。

2.对话语料中每一个语句都有一定的信息量,若想用一句主题句概括一段话所表达的意思,在对话语料中不可能达到很好的效果。可以考虑提取对话语料中的主题词,可能会将对话语料中的主题覆盖的比较全,但不足之处在于主题词不能像主题句让人很容易快速理解说话者的意思。

4.4 本章小结

在本节中对系统里的两个关键模块进行了实现。在对问-答对探测模块的仿真实验中,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过对训练集和测试集的问(答)句和非问(答)句判别性能比较,以及选择了不同的特征集重复进行了多次测试和分析,得到了比对结果,讨论了在不同情况下两种分类器在判决问(答)句的性能优缺点,从而得到在不同情况下应该选择何种句子特征集与分类器。在对主题句抽取模块的测试中,通过对不同数据集进行测试得到结果集,比较了结果间的差异性并分析了造成差异的原因。

36

华 中 科 技 大 学 硕 士 学 位 论 文

5 全文总结与展望

5.1 全文总结

随着网络技术的迅速发展,网络通讯工具为人们的交流提供了巨大的便利。通过网络进行对话的方式已成为了人们日常沟通的重要方式,从而也会产生大量的网络对话数据,对这些海量对话数据信息的挖掘和处理显得日益重要。本课题就是在这种环境下应运而生的,对话文本提取出的主题可以应用于许多领域。

本文首先研究了国内外对话文本主题提取技术的研究现状,分析了各种方法的优缺点。接着对对话与书面语的语言特点差异进行了总结,认识到用于书面语文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。然后设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成等针对于对话语言特点的处理模块。最后对系统中的问-答对探测模块进行了仿真实验和主题句抽取模块进行了测试,并对其数据结果进行了详细的和比较,分析了出现差别的原因。

本文所做的工作主要包括如下几方面:

1.阐述了书面语文本的主题提取方法以及其优缺点。并对对话文本主题提取方法的研究现状进行了分类和总结。同时对对话与书面语的语言特点差异进行了总结,说明用于书面语文本的主题提取方法不能直接适用于对话文本的主题提取。

2. 结合了对话的语言特点,设计了一种基于对话的主题提取系统,并将系统各个重要的处理部分按功能模块化,并结合图表细致地阐述了模块中所用到的关键技术。

3.对系统各模块进行了详细的分析,从数据预处理模块、问-答对探测模块、主题切分模块、主题树生成模块到主题句抽取模块,说明了每个模块所用到的技术、具体算法和模型。

4.对问-答对探测模块的进行了仿真实验,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过对训练集和测试集的问(答)句和非问(答)句判别性能比较,以及选择了不同的特征集重复进行了多次测试和分析,得到了比对结果。对照比对结果,讨论了在不同情况下两种分类器在判别问(答)句的性能优缺点,从而得到在不同情况下应该选择何种句子特征集与分类器。

37

华 中 科 技 大 学 硕 士 学 位 论 文

5. 对主题句抽取模块进行了测试,通过测试不同数据集得到结果集,比较了结果间的差异性并分析了造成差异的原因。

5.2 展望

从上世纪九十年代开始,书面语文本的主题提取技术引起了研究者们的高度关注,产生了许多研究成果。随之研究者们把目光转移到了对其他文本的主题提取,如语音文本、对话文本。这些文本的主题提取较之书面语文本,难度更大一些,因为其内容属于人类自然语言范畴。随着自然语言处理的发展,也会推动对话文本的主题提取技术的发展。

从本文抽取主题句的实验结果看来,对对话文本提取主题句的效果并不是很理想。因为对话文本中即使是同一主题下的对话语句,语句之间的相似性也很小,抽取主题句时的评分都相对偏高,这样就很难提取有代表性的主题句。改进方法可以考虑提取对话语料中的主题词,可能会将对话语料中的主题覆盖的比较全面,但其也有不足之处,主题词不如主题句容易理解。

另外,在本文中在主题切分模块中利用了隐含语义概率模型得到不同主题间的语句边界。其实这个模型也可以用到问答对探测模块,通常两个问题之间的语句可能会夹杂着答案和对话者的一些陈述句。可以利用隐含语义概率模型得到答案与陈述之间的语句边界,从而找到问句相应的答句。

38

华 中 科 技 大 学 硕 士 学 位 论 文

致 谢

时光荏苒,不知不觉中我的研究生生活已接近了尾声。当我提笔开始写致谢时,瞬间有千言万语涌上心头。回顾这两年的研究生生活,过得充实且有意义,让我一生受益。

首先要感谢黄本雄教授。黄老师严谨的治学态度、广博的学识、幽默风趣的谈吐、乐观积极的生活态度,给同学们留下了深刻的印象。他不仅教学生如何做学问,同时教学生如何做一个有能力的人,这点让我受益终生。他也提供了同学们参加科研项目的机会,让同学们在学习理论知识的同时,在项目中积累工作经验,培养团队合作能力,从而为自己的工作道路打下坚实的基础。

感谢王芙蓉教授。王老师渊博的学识、兢兢业业的工作态度、一丝不苟的治学态度、一种对科学的执着追求,是同学们学习的榜样。在学术研究上,她严谨认真,对同学严格要求;在平时生活中,她平易近人,对同学们关心照顾。她让同学学习到了严谨的治学态度和踏实的工作作风,为了完成任务的坚持努力,我在以后的工作道路上会朝着这个方向努力的。

感谢我的指导老师殷蔚华副教授。殷老师给我提供了良好的学习机会和工作环境,能让我在这样的一个集体里学习和生活,从而认识到自己学业上的不足以及和周围同学的差距。在这两年的学习生活中,与我自己比较,还是有一定进步的。再次衷心地感谢您!

感谢胡广老师、温杰博士和王君泽博士。因为他们的领导,网络安全项目组才能发展到今天人才济济、和谐相处、互帮互助的局面。他们丰富的技术经验,指导我们渡过技术难关;他们精益求精的治学态度,使得项目越做越完善;他们乐观的生活态度,让我们忘记生活上的烦恼。正因为这一切,让网络安全组这个团队具有了核心凝聚力,每个组员都努力为之贡献自己的一份力量。

然后感谢同一项目组同学兼朋友的王文、胡翔磊、徐志超、张祥,师弟王舟、方荡、禹航、王超、李文亮、秦鹏等,和大家一起渡过了一段很美好的时光。曾经为了赶项目进度以及做测试,加班到很晚;曾经在项目阶段性庆功上,大家把酒言欢;曾经在赶论文开题时,大家熬夜赶稿。。。。。。这一切都将成为我永久的回忆。

最后感谢我的父母和小黄同学,有你们长期的物质和精神支持,我才能全力地专心于自己的事情,我会好好回报你们,谢谢!

39

华 中 科 技 大 学 硕 士 学 位 论 文

参考文献

[1]Julian Kupiec, Jan Pedersen, Francine Chen. A Trainable Document :

Proceedings of the 18th annual international ACM SIGIR conference 上 Research

and development in information retrieval. New York, NY USA: ACM, 1995. 68~73

[2]王彬, 江铭虎. 口语对话系统中的语句主题提取. 计算机工程与应用, 2004(18),

58~98

[3]H. Gregory Silber, Kathleen F. McCoy. Efficient text summarization using lexical

chains. In: Proceedings of the 5th international conference on Intelligent user

interfaces. New York, NY USA: ACM, 2000. 252~255

[4]Rada Mihalcea. Graph-based ranking algorithms for sentence extraction, applied to text

summarization. In: Proceedings of the ACL 2004 on Interactive poster and

demonstration sessions. New York, NY USA: ACM, 2004. 20~23

[5]Rada Mihalcea. Generating Natural Language Summaries from Multiple On-Line

Sources. Computational Linguistics, 1998, 24(3):470~500

[6] Klaus Zechner, PAlex Waibel. DiaSumm: flexible summarization of spontaneous

dialogues in unrestricted domains. In: Proceedings of the 18th conference on

Computational linguistics. Morristown, NJ USA: Association for Computational

Linguistics, 2000. 968~974

[7]Klaus Zechner. Automatic Generation of Concise Summaries of Spoken Dialogues in

Unrestricted Domains. In: Proceedings of the 24th annual international ACM SIGIR

conference on Research and development in information retrieval. New York, NY

USA: ACM, 2001. 199~207

[8]Klaus Zechner. Automatic Summarization of Open-Domain Multiparty Dialogues in

Diverse Genres. Computational Linguistics, 2002,28(4):447~485

[9]Tsutomu Hirao, Hideki Isozaki, Eisaku Maeda, et al. Extracting Important Sentences

with Support Vector Machines. In: Proceedings of the 19th international conference on

Computational linguistics. Morristown, NJ USA: Association for Computational

Linguistics, 2002. 1~7

[10]Takayuki Nakata, Shinichi Ando, Akitoshi Okumura. Topic Detection Based on

Dialogue History. In: Proceedings of the 19th international conference on

Computational linguistics. Morristown, NJ USA: Association for Computational

Linguistics, 2002. 1~7

[11]Chiori Hori, Sadaoki Furui, Rob Malkin, et al. A Statistical Approach to Automatic

40

华 中 科 技 大 学 硕 士 学 位 论 文

Speech Summarization. URASIP Journal on Applied Signal Processing, 2003,

2003(1):128~139

[12]Iryna Gurevych, Michael Strube. Semantic Similarity Applied to Spoken Dialogue

Summarization. In: Proceedings of the 20th international conference on Computational

Linguistics. Morristown, NJ USA: Association for Computational Linguistics, 2002.

764~770

[13]Jong Wook Kim, K. Selcuk Candan, Mehmet E. Donderler. Topic Segmentation of

Message Hierarchies for Indexing and navigation support. In: Proceedings of the 14th

international conference on World Wide Web. New York, NY USA: ACM, 2005.

322~331

[14] Vu Minh Quang, Castelli, E., Pham Ngoc Yen. A decision tree-based method for

speech processing Question sentence detection. In: Fuzzy Systems and Knowledge

Discovery. Third International Conference, FSKD 2006. Proceedings. Berlin,

Germany: Springer, 2006. 1025~1012

[15] Lokesh Shrestha, Kathleen McKeown. Detection of Question-Answer Pairs in Email

Conversations. In: Proceedings of the 20th international conference on Computational

Linguistics. Morristown, NJ USA: Association for Computational Linguistics, 2004.

889~895

[16] McKeown K., Shrestha L., Rambow O. Using Question-Answer Pairs in Extractive

Summarization of Email Conversations. In: Computational Linguistics and Intelligent

Text Processing. 8th International Conference, CICLing 2007. Proceedings. Berlin,

Germany: Springer-Verlag, 2007. 542~550

[17] Newman, P.S. Exploring Discussion List Archives : Steps and Directions. In: JCDL

2002. Proceedings of the Second ACM/IEEE-CS Joint Conference on Digital Libraries.

New York, NY, USA: ACM, 2002. 126~34

[18] Newman, P.S., Blitzer, J.C. Summarizing Archived Discussions: A Beginning. In: IUI

2003, 7th International Conference on Intelligent User Interfaces. New York, NY USA:

ACM, 2003. 273~276

[19] Galley, Michel. Automatic Summarization of Conversational Multi-Party Speech. In:

21st National Conference on Artificial Intelligence and the 18th Innovative

Applications of Artificial Intelligence Conference. Menlo Park, United States:

American Association for Artificial Intelligence, 2006. 1914~1915

[20] Xiaodan Zhu, Penn Gerald. Summarization of Spontaneous Conversations. In:

INTERSPEECH 2006 and 9th International Conference on Spoken Language

Processing. United Kingdom : DUMMY PUBID, 2006. 1531~1534

[21]Dou Shen, Qiang Yang, Jian-Tao Sun. Thread Detection in Dynamic Text Message

41

华 中 科 技 大 学 硕 士 学 位 论 文

Streams. In: Proceedings of the 29th annual international ACM SIGIR conference on

Research and development in information retrieval. New York NY USA:ACM,

2006.35~42

[22]Xiaodan Zhu, Penn, G. Utterance-level extractive summarization of open-domain

spontaneous conversations with rich features. In: 2006 IEEE International Conference

on Multimedia and Expo. Piscataway, NJ, USA: IEEE, 2006. 793~796

[23]Fernandez R., Ginzburg J., Lappin, S. Classifying Non-Sentential Utterances in

Dialogue : A Machine Learning Approach. Computational Linguistics, 2007, 33(3):

397~427

[24]Carenini Giuseppe, Ng Raymond T., Zhou Xiaodong. Summarizing Email

Conversations with Clue Words. In: 16th International World Wide Web Conference,

WWW2007. New York, NY United States: Association for Computing Machinery,

2007. 91~100

[25]Murray Gabriel, Renals Steve. Towards Online Speech Summarization. In:

International Speech Communication Association - 8th Annual Conference of the

International Speech Communication Association. United Kingdom: Elsevier, 2007.

2149-2152

[26]Cong Gao, Wang Long, Lin Chin-Yew. Finding Question-Answer Pairs from Online

Forums. In: ACM SIGIR 2008 - 31st Annual International ACM SIGIR Conference on

Research and Development in Information Retrieval, Proceedings. New York, NY

USA: ACM, 2008.467~474

[27]Basu Sumit. Gupta Surabhi1, Mahajan Milind, et al. Scalable Summaries of Spoken

Conversations. In: Proceedings of the 13th International Conference on Intelligent

User Interfaces 2008. New York, NY USA: ACM, 2008.267~275

[28]Zajic D.M.,Dorr B.J.,Lin J. Single-document and multi-document summarization

techniques for email threads using sentence compression. Information Processing

and Management, 2008, 44(4):1600~1610

[29]Chen Chien Chin, Chen Meng Chang. TSCAN: A Novel Method for Topic

Summarization and Content Anatomy. In: ACM SIGIR 2008 - 31st Annual

International ACM SIGIR Conference on Research and Development in Information

Retrieval, Proceedings. New York, NY USA: ACM, 2008.579~586

[30]LinShih-Hsiang, Chen Yi-Ting, Wang Hsin-Min. A Comparative Study of

Probabilistic Ranking Models for Chinese Spoken Document Summarization. ICASSP,

IEEE International Conference on Acoustics, Speech and Signal Processing.

Piscataway, NJ, USA: IEEE, 2008. 5025~5028

[31]

陈卫平, 王永成, 刘传汉. 面向对话文本的自动摘要系统的研究. 计算机仿真,

2005, 22(5): 226~230

42


本文标签: 主题 对话 进行 提取 问句