admin 管理员组

文章数量: 1184232


2024年3月10日发(作者:jsp javabean 实例)

数据可视化

------

文本数据可视化

文本可视化背景

Ø

文本信息爆炸式增长需要高效的阅读方式

Ø

“一图胜千言”,图形表达信息的优势

Ø

标签云技术、信息文本图等文本可视化技术的不断发展

2

01

文本数据在大数据中的应用及提取

02

文本信息分析

目 录

03

文本信息可视化

04

本章小结

文本数据在大数据中的应用及提取

Ø

文本数据在大数据中的应用

Ø

文本信息层级

词汇级──一连串文本中提取的语义单元

语义单元由一个或多个字符组成的词元,是文本信息的最小单元

文本关键字属词汇级别

语法级──基于文本的语言机构对词汇级语义单元进行提取分析

语义单元的语法属语法级信息,如词性、单复数

语法级信息的提取过程被称作命名实体识别方法

语义级──研究文本整体所表达的语义内容信息和语义关系

文本的最高层信息

4

文本数据在大数据中的应用及提取

Ø

文本数据在大数据中的应用

Ø

从数据大、类型多、处理速度快、价值密度低的大数据提取有用信息的重要性

Ø

图像和图形在信息表达上的优势和效率

Ø

需要从不同层级提取与呈现文本信息

Ø

不同级的信息挖掘方法也不同,词汇级当然是用各类分词算法,语法级用一些句法分析算

法,语义级用主题抽取算法

5

文本数据在大数据中的应用及提取

Ø

文本数据在大数据中的应用

Ø

文本可视化流程

文本信息挖掘—文本数据的预处理、文本特征的抽取、文本特征的度量

视图绘制—图元设计、图元布局

人机交互

6

文本数据在大数据中的应用及提取

Ø

使用网络爬虫提取文本数据

Ø

网络爬虫

网络爬虫又称网络蜘蛛,将互联网比喻成一个蜘蛛网,Spider就是在网上爬的蜘蛛

网络爬虫就是根据网页的地址来寻找网页的,也就是URL

解析网页使用的语言为Python

7

文本数据在大数据中的应用及提取

Ø

使用网络爬虫提取文本数据

URL一般格式“protocol :// hostname[:port] / path / [;parameters][?query]#fragment”

第一部分:协议protocol,例如百度使用的就是https协议

第二部分:hostname[:port],主机名(还有端口号为可选参数,端口号一般默认为80)

第三部分:path是主机资源的具体地址,如目录和文件名等

网络爬虫就是根据URL对web信息进行获取的

8

文本数据在大数据中的应用及提取

Ø

使用网络爬虫提取文本数据

Ø

Python爬虫架构

调度器

URL管理器

网页下载器

网页解析器

应用程序

9

文本数据在大数据中的应用及提取

Ø

使用网络爬虫提取文本数据

Ø

爬虫示例

代码

爬虫结果:

10

文本信息分析

Ø

分词技术和词干提取

分词技术和词干提取方法通常用于文本数据的预处理

分词:将一段文字划分为多个词项,剔除停词,从文中提取有意义的词项

词干提取:去除词缀得到词根,得到单词最一般写法的技术

词干提取避免了同一个词的不同表现形式对文本分析的干扰

11

文本信息分析

Ø

分词技术和词干提取

以马汀路德金的“I have a dream”演讲的一段为例:

I have a dream that one day this nation will rise up and live out the true meaning of its

creed: ”We hold these truths to be self-evident, that all men are created equal.“

剔除a,the,that等停词,经过分词后,这段话可提取出20个词项:

I, have, dream, one, day, nation, rise, up, live, out, true, meaning, creed, hold,

truths, self-evident, all, men, created, equal

词干提取过程又会将“men”和“truths”分别还原为“man”和“truth”

12

文本信息分析

Ø

向量空间模型

Ø

词袋模型──将某一文本看作是一个词集合,忽略语法、词序

文本中每个词相互独立,对其它词不依赖

将一个文档的内容总结为在由关键词组成的集合上的加权分布向量

在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的

值等于单词在文本中出现的统计信息,单词间没有顺序关系

13

文本信息分析

向量空间模型

Ø

词袋模型

以Charles Dickens的《双城记》书中的一段文字为例:

“It was the best of times,

it was the worst of times,

it was the age of wisdom,

it was the age of foolishness.”

这段文字共包含24个单词,在分词以后变为10个单词;

经词干提取后,这段文字可表达为一个词频向量

14

文本信息分析

Ø

向量空间模型

Ø

TF-IDF── 一种用于资讯检索与资讯探勘的常用加权技术;

用以评估一个单词或字对于某文档集或语料库中的其中一份文档的重要程度;

核心思想:字词的重要性随着其在文档出现的次数成正相关增加,

同时会随着出现的频率而负相关下降

定义 :

表示词w对于某个文档的相对重要性;

是词w在文档中出现的次数;

文档集中包含w的文档数目,N代表文档总数

15

文本信息分析

Ø

主题抽取

Ø

主题模型,即文本的主题描述

Ø

文本主题的抽取算法大致分两类:

基于矩阵分解的非概率模型──词项-文档矩阵投影到K维空间中

每个维度代表一个主题

在主题空间中,每个文档由K个主题的线性组合来表示

隐含语义检索是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解

词项-文档矩阵

基于贝叶斯的概率模型──主题被当成多个词项的概率分布

文档可以理解成由多个主题的组合而产生的

概率隐含语义检索是广泛使用的方法

16

文本信息可视化

Ø

文本数据大体上可分为:

单文本

文档集合

时序文本数据

Ø

以上对应的文本可视化分别为:

文本内容的可视化

文本关系的可视化

文本多层面信息的可视化

17

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

标签云(Tag Cloud)

最简单、最常用的关键词可视化技术

将抽取的关键词按照一定规律整齐美观地排列在屏幕上

利用颜色和大小反映关键词在文本中分布的差异

将经过颜色映射后的字词按照其在文本中原有的位置或某种布局算法放置

18

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

标签云文本可视化示例

19

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

文档散(DocuBurst)

采用径向布局来从词汇间语义层次角度可视总结文档的内容;

外圈的词汇是里圈词的下义词;

圆心处的关键词是文章所涉及内容的最上层概述;

每个词的辐射范围覆盖其所有的下义词

20

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

文档散(DocuBurst)

如右图文档散可视化文本示例:

外层的词是内层词的下义词

颜色饱和度的深浅用来体现词频的高低

21

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

文档卡片(Document Cards)

采用文章的关键图片和关键词信息表达文本内容,并将其布局在

一张卡片中;

便于用户在不同尺寸设备中查看和对比每个文档信息

22

文本信息可视化──文本内容可视化

Ø

基于关键词的文本内容可视化

Ø

文档卡片(Document Cards)

如右图示例,采用文档卡片法对一篇InfoVis论文的的可视化结果

关键图片采用智能算法抽取图片

并根据颜色直方图进行分类,从每一类图片中选取的代表性图片

23

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

主题河流

采用河流作为可视原语来编码文档集合中的主题信息

将主题隐喻为时间上不断延续的河流

提供宏观的主题演化结果

辅助用户观察主题的产生、变化和消失等

24

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

主题河流局限性

只能将每个主题在每个时间刻度上概括为一个简单数值

一个简单的度量数值不能完整描述主题的细节,如主题内容

避免以上局限性,衍生出TIARA系统

25

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

TIARA

改进布局算法

在可视化中加入能够帮助用户理解文本主题的关键词信息

为每个文本主题在每个时间点上提取不同关键词

将关键词排布在相应色带上的相应位置

根据词的大小表示关键词在该时刻出现的频率

26

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

TIARA可视示例

TIARA将标签云技术和主题流相结合

描述文本主题在内容上随时间推进而发生的变化

27

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

StoryFlow

用来表示电影或者小说里的剧情线或者时间线

通过层次渲染的方式来生成一个StoryLine布局

28

文本信息可视化──文本内容可视化

Ø

时序性的文本可视化

Ø

StoryFlow

可视示例

如图是某部电影的StoryFlow的文本可视表达

横轴表示时间,每条线代表一个人物

当两个人在剧情中有某种联系的时候,就会在图中相交

StoryFlow允许用户实时交互,包括捆绑操作、删除、移动以及直线化等

29

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文本弧(TextArc)

Ø

文本弧方法用于可视化某文档中的词频和词的分布情况

文本弧示例图

30

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文本弧示例图解释:

Ø

整篇文档用一条螺线来表示,螺线开头是文章的首句,末尾是文章的尾句

Ø

文档的句子按照文字的组织顺序有序布局在螺线上

Ø

文档中出现的单词填充在画布上,字的大小和颜色深度代表对应的词频

Ø

单词出现的位置和频率决定了单词在画布中的位置

Ø

靠近画布中心的词出现比较频繁,局部频繁出现的单词则靠近其相应的螺线区域

Ø

鼠标单击含所选单词,会绿色高亮表示

31

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文献指纹(Literature Fingerprinting)

帮助用户了解某一特征在全文中的分布规律

采用一系列像素图(文献指纹特征)表达整个文本中的分布

可呈现特征的全局分布情况

32

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文献指纹(Literature Fingerprinting)示例

33

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文献指纹示例说明:

文本的度量特征是句子的平均长度

每一个像素块代表一段文本

一组像素块就代表一本书的“句子平均长度指纹”,其颜色代表文本特征

能直观地看出不同作者的写作风格

34

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文本特征透镜(Featurs Lens)

用于可视化文本特征在一个文档集中不同粒度的分布情况

可视化不同层级的文本特征分布

既可从文本集合的高度概括性角度查看文本特征的分布

也可查看文本特征在底层文本中的分布

采用直方图度量频率分布情况,并用三个图来展示统计结果

35

文本信息可视化──文本内容可视化

Ø

文本特征的分布模式可视化

Ø

文本特征透镜示例

36

文本信息可视化──文本关系可视化

Ø

基于图的文本关系可视化

Ø

单词树(Word Tree)

从句法层面可视表达文本词汇的前缀关系

利用树型结构来可视化总结文本的句子

树的根节点是用户感兴趣的一个词

树的子节点是原文中搭配在父节点后面的词或短语

字体大小反映词或短语在文中出现的频率

37

文本信息可视化──文本关系可视化

Ø

基于图的文本关系可视化

Ø

单词树示例

采用单词树方法可视化表达“I have a dream”演讲中有关单词“I”的所有句子

38

文本信息可视化──文本关系可视化

Ø

基于图的文本关系可视化

Ø

短语网络(Phrase Nets)

采用节点-链接图展示无结构文本中语义单元彼此间的关系

节点代表语义单元

边代表用户指定的关系

箭头指示关系的有向性

边的宽度指示这对短语关系在文本中出现的频率

39

文本信息可视化──文本关系可视化

Ø

基于图的文本关系可视化

Ø

短语网络示例

采用短语网络可视表达某小说中的“* the *”关系

40

文本信息可视化──文本关系可视化

Ø

基于图的文本关系可视化

Ø

新闻地图(NewsMap)

树图方法也可用于刻画文本间的相似性

新闻地图采用树图组织类型相近的新闻

41

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

星系视图(Galaxy View)

采用仿生的方法可视表达文档间的相似性

通过投影将所有文档按照主题相似性投影为二维平面的点集

点之间的二维距离与其主题相似性成正比

42

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

星系视图示例

越密集的点就代表这一类主题的文档越多

多个点簇代表文档集合涉及的多个主题内容

43

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

主题地貌(ThemeScape)

对星系视图的改进

在投影基础上采用等高线方式可视表达文档集合中相似文档的分布情况

文档越相似,则点分布越密集,从而等高线越紧密,颜色越显著

山峰直观简洁地可视化文档集合中涉及的中心主题

44

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

主题地貌可视示例

45

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

基于范例的大文本集合投影

先少量投影文本到二维空间,再根据用户选取的样例,选择性地将相关的文本进行二

维空间的投影

46

文本信息可视化──文本关系可视化

Ø

文档集合关系可视化

Ø

基于范例的大文本集合投影

上页图(a)──所有文本全部投影在二维空间中的结果

图(b)──显示每类文本中代表性文档的二维投影

图(c)──在(b)中用矩形框选中的样例文本的投影结果

47

文本信息可视化──文本多层面信息的可视化

Ø

文本多层面信息的可视化

Ø

ContexTour

可视化文档集合所涉及的多个层面的内容和各个层面间的关系

以学术文章为例,即会议、作者和关键词这三个方面

在数据分析阶段从语义分析论文在每个文本信息层面上的内容聚类结果

轮廓线用于刻画论文的聚集情况

48

文本信息可视化──文本多层面信息的可视化

Ø

文本多层面信息的可视化

Ø

ContexTour用多个视图揭示“会议-作者-主题”之间的关联

49

文本信息可视化──文本多层面信息的可视化

Ø

文本多层面信息的可视化

Ø

FaceAtlas

计混合了节点-链接图和气泡集两类视图,用来表达文本各层面信息的内外部联系

从文本信息的内容和关系角度出发来分析文本多层面的信息

采用圆圈可视编码相关实体编码信息,按照文档的归属布局在空间中,位置较近的属

于同一类别实体

经核密度估计而获取的轮廓线展示了每个实体的类别信息,每种颜色代表一个层面的

实体信息

50

文本信息可视化──文本多层面信息的可视化

Ø

文本多层面信息的可视化

Ø

FaceAtlas示例

基于某医疗健康文档,展示了病名、病因、症状、诊断方案等多层面信息,两团分别

代表糖尿病1号和糖尿病2号,连线代表它们之间的相似的并发症

51

文本信息可视化──文本多层面信息的可视化

Ø

文本多层面信息的可视化

Ø

平行标签云(Parallel Tag Clouds)

结合了平行坐标(在多维数据可视化中有介绍)和标签云视图

平行坐标每一列表示用户所感兴趣的某一层面的文本信息

每一列的标签云表达了该层面的文本内容,连接的折线代表此标签在多个层面的分布

52

小结

Ø

文本内容

Ø

文本关系

Ø

文本多层面信息展示

Ø

文本信息的提取和可视表达

53

THANKS

!


本文标签: 文本 可视化 信息 文档 主题