admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:webapi的优缺点)

16

卷第

1

2021

3

月出版

亚热带资源与环境学报

Journal

of

Subtropical

Resources

and

Environment

Vol.

16

No.

1

March

2021

陈齐超

林广发

梁春阳

.

基于微博数据和情感分析法的台风“

米克拉

灾情过程探测

[J].

亚热带资源与环境学报

,2021,

16

(1)

70-76.

CHEN

Q

C

,

LIN

G

F

,

LIANG

C

Y

,

et

al.

Explore

disaster

process

of

typhoon

"Mekkhala"

based

on

Sina

Weibo

and

emotion

analysis

[J].

Journal

of

Subtropical

Resources

and

Environment,

2021

,

16

(1)

70-76.

DOI

:

10.

19687/j.

cnki.

1673-7105.

2021.

01.

011.

基于微博数据和情感分析法的台风

米克拉

灾情过程探测

陈齐超

-

林广发

1,2,3

*

*

,

梁春阳

-

黄潇

-

张明锋

1,2,3

陈鑫打周星辰

1

(1.

福建师范大学地理科学学院

福州

350007

2

.

福建省陆地灾害监测评估

工程技术研究中心

福州

350007

3.

海西地理国情动态监测与应急保障研究中心

福州

350007)

摘要

2020

年第

6

号台风

米克拉

为例

采集了

5

916

条新浪微博作为数据源

综合应用

隐含狄利克雷分布

(

Latent

Dirichlet

Allocation

,

LDA)

主题模型

文本情感分析方法和空间分

析技术

挖掘、

分析台风的灾情时空过程

基于

LDA

主题模型建立了主题

-

词矩阵并进行隐含

主题聚类

这些微博文本被分为灾损类信息

预警类信息

防御类信息和无关信息

从主题信

息和文本情感值两个角度入手

对此次台风事件网络舆情的演化过程进行分析

结果表明

米克拉

登陆前有大量积极情感的微博

主要包含渴望降雨

降温等信息

此类微博大量分

布在漳州

厦门

福州等地区

在台风入境后消极情感的微博大量增多

主要描述道路

树木

等受大风和大雨影响的灾损类信息

此类信息的空间位置主要分布在漳州和厦门

能较好地反

映台风灾害影响的时空分布

通过对微博主题类别和情感极性进行时空分析

实现台风灾害事

件发展趋势的监测

为防灾减灾提供参考依据

关键词

新浪微博

台风灾害

主题模型

情感分析

灾情评估

中图分类号

TP391.

1

文献标志码

:A

文章编号

1673-7105

(2021)

01-0070-07

Explore

Disaster

Process

of

Typhoon

Mekkhala

Based

on

Sina

Weibo

and

Emotion

Analysis

CHEN

Qichao

1

,

LIN

Guangfa

1,2,3

*

,

LIANG

Chunyang

1

,

HUANG

Xiao

1

,

ZHANG

Mingfeng

1

,

CHEN

Xin

1

,

ZHOU

Xingchen

1

(1.

School

of

Geographical

Sciences,

Fujian

Normal

University,

Fuzhou

350007,

China

2.

Fujian

Provincial

Engineering

Research

Center

for

Monitoring

and

Assessing

Terrestrial

Disasters

Fuzhou

350007

China

3.

Research

Center

for

National

Geographical

Condition

Monitoring

and

Emergency

Support

in

the

Economic

Zone

on

the

West

Side

of

the

Taiwan

Strait

Fuzhou

350007

China)

Abstract

:

While

the

No.

6

typhoon

Mekkhala

appeared

and

landed

at

Zhangpu

,

Fujian

Province

,

P.

R.

China

,

from

Aug.

8th

to

13th

,

2020,

5

916

records

of

Sina

Weibo

about

the

tropical

cyclone

were

collected

as

a

dataset

to

explore

the

disaster

process.

To

analyze

its

temporal

and

spatial

process

Latent

Dirichlet

Allocation

(

LDA

)

topic

model

,

text

sentiment

analysis

method

and

spatial

analysis

technology

were

employed

for

data

mining.

Based

on

a

matrix

of

keywords

and

themes

implicit

clustering

of

LDA

model

all

Weibo

texts

were

divided

into

four

topics

as

flood

-

loss

early

warning

defense

and

irrelevant

information

and

then

the

influence

of

the

typhoon

events

on

the

Internet

public

opinion

was

measured

with

two

sides

keywords

and

emotional

values.

The

results

showed

that

there

were

a

lot

of

microblogging

with

positive

emotions

before

Mekkhala

landing

since

people

desire

for

a

raining

and

cooling

weather

after

the

long

heat

days.

After

the

typhoon

landed

a

large

number

of

negative

emotion

microblogs

were

increased

which

mainly

described

all

kinds

of

damage

on

roads

trees

收稿日期

2020-12-24

基金项目

国家重点研发计划重点专项

(2016YFC0502905)

福建省公益类科研院所专项

(

2015R1034-1)

作者简介

陈齐超

(

1996

),

福建福州人

硕士研究生

主要从事地理信息与应急管理方面的研究

geocqc

@

f'oxmail.

com

*

通信作者

林广发

(1970

),

福建上杭人

副教授

博士

主要从事遥感与地理信息系统应用方面的研究

,

guangfalin@

qq.

com

1

陈齐超等

基于微博数据和情感分析法的台风

米克拉

灾情过程探测

71

and

other

disaster-related

information

affected

by

strong

wind

and

heavy

rain.

The

location

of

microb

­

logs

was

mainly

around

Zhangzhou

and

Xiamen,

which

reflects

the

impact

of

temporal

and

spatial

dis

­

tribution

of

typhoon

disasters

very

well.

The

development

trend

of

typhoon

disaster

events

can

be

moni

­

tored

through

the

temporal

and

spatial

analysis

of

Weibo

subject

categories

and

emotional

polarity

,

which

could

provide

reference

for

disaster

prevention

and

mitigation.

Key

words

:

Sina

Weibo

typhoon

disaster

topic

model

sentiment

analysis

disaster

assessment

0

引言

台风灾害不仅影响范围广

破坏性强

而且发生频率高

是造成中国社会经济损失最严重的自然灾

害之一

1

快速

准确地了解灾害过程

获取灾损信息和识别受灾区域

并以图表形式进行直观展示,

可为防灾减灾部门开展抢险救援工作提供重要参考

微博作为一种社交媒介

已经成为了人们记录事

分享现场

发表看法

宣泄情感的一个平台

大量

实时

广域覆盖的社交媒体信息充斥在网络

2

o

对其中含有地理位置的微博文本进行采集

信息抽取和分析

从而得到数据中包含的台风灾害

相关事件发生的地理位置

时间和影响范围

以及各种实时灾情信息

逐渐成为灾害大数据领域的一个

研究热点

这些信息可用于台风天气过程跟踪

灾害事件检测

预警和灾情准实时评估

对于灾害研究

和防范

应急救灾具有独特的价值

近十年来

国内外学者对于含有时空信息的社交媒体数据在自然灾害领域的应用研究方兴未艾

中一些热点话题包括洪涝区域识别

3

干旱风险管理

4

火灾蔓延

5

地震震情评估

6-7

台风灾情评

估⑹等

这些应用的主要算法基础

包括文本主题模型和文本情感分析模型

文本主题模型抽取一段

文本所包含的特征词

并对文本集包含的所有特征词进行语义聚类

从而建立每个文本的主题概率分布

矩阵

识别文本中所蕴含的灾情相关的主题信息

如梁春阳等综合隐含狄利克雷分布

(

Latent

Dirichlet

Allocation,

LDA)

主题模型和支持向量机模型将微博文本分为

灾情

救援

等主题

实现对灾情信

息的快速识别

9

苏凯等采用

Biterm

主题模型

(

Biterm

Topic

Model

,

BTM

)

实现

灾害地点

相关信

息的识别

10

因此

通过主题模型能够快速地识别蕴含在文本中的灾情相关信息

文本情感分析模型

主要思想是在灾害事件描述文本所反映的情绪类型及其强烈程度与灾情严重程度之间建立一种对应关

常见的情感分析方法有基于情感词典的文本匹配

基于统计机器学习的方法和基于深度学习的方

基于情感词典的方法是借助情感词典

HowNet

情感词典

NTUSD

情感词典

清华大学李军中文

褒贬义词典

BosonNLP

情感词典等

结合句式对情感词加权计算得到文本的情感值

基于统计机器学

习的分类是提取语料文本特征通过朴素贝叶斯

支持向量机等分类模型训练文本情感分类器

使用文本

分类器对未标注标签的文本进行情感分类

基于深度学习的方法是使用卷积神经网络

长短时记忆网络

等神经深度学习模型自动提取文本特征

实现文本情感分级

不少学者基于以上情感分析方法开展了环

境状况监测

灾情事件感知

受灾区域识别等方面的研究

如陈顾远等使用朴素贝叶斯分类器和情感词

典对文本情感进行正负极分类并打分

分析认为公众情感能够较好地反映当前环境状态

11

陈凌等采

用长短时记忆网络构建情感分析模型

将情感分类结果结合词云对灾害期间的舆情事件进行感知

12

Gruebner

等使用

EMOTIVE

高级情感检测程序识别具有消极情绪的受灾者推文

从而挑选出最需要救援

的区域

13

张岩等使用朴素贝叶斯情感分类方法

通过分析表明情感指数能较好的用于重灾区的

判断

14

在上述研究的基础上

本研究将

LDA

主题模型

情感分析模型结合可视化技术引入台风灾情过程

探测中

2020

年第

6

号台风

米克拉

为例

挖掘了台风灾害事件相关微博中蕴含的灾情信息

题信息和情感信息并对其进行可视化

分析台风灾害前后用户发文主题和情感值的变化与时空分布

而探测台风灾害的时空过程

1

数据采集与处理

1.1

数据采集

2020

年第

6

号台风

米克拉

8

11

7

时许在福建省漳州市漳浦县登陆

12

6

时许消

72

亚热带资源与环境学报

16

本研究以新浪微博作为数据源

选择

米克拉台风

作为采集关键词,

以台风预报前一天至预警

解除后一天

(8

9

0

时至

8

13

0

)

作为采集的起止时间

使用基于模拟登录的方法

利用

前期开发并部署于华为云端的爬虫采集微博数据

采集得到的微博数据包括用户

id

微博发文时间

本信息

签到位置

用户注册位置等字段信息

通过对字段不完整和字数少于

6

的信息进行过滤

合计

采集与台风

米克拉

相关原创微博数据共

5

916

1.2

数据预处理

微博文本数据是一种非结构化的数据

其中虽蕴含着各类属性信息

但未经处理则不能直接用于分

析使用

是组成文本的最小单位

准确的中文词汇切分是文本特征提取和文本分析的基础

但中

文分词的准确度并不高

词语时常被分词器误切分

因此需要通过构造领域用户词典

实现词典内的词

汇能够被准确切分

使用

HanLP

中文分词工具的基于条件随机场

(

Conditional

Random

Field,

CRF)

分词模式

15

,实现文本词语的准确切分

中文分词对专业领域名词识别效果不佳

时常出现误切分的

情况

因此引入自定义的台风灾害事件词汇作为用户词典

分词结果中往往存在大量与分析目的无关且

频率很高的词汇

此类词汇参与分析则会影响分析结果

需要构建停用词表对无关词汇进行过滤

本研

究在哈工大停用词典的基础上补充了微博文本常出现的无关词

实现微博无关词的过滤

微博中含有

3

种位置信息

注册位置

签到位置以及文本位置

注册位置

是用户设置个人信息时

选择的位置

该位置可获得的最小范围为地市尺度

一般与具体某个微博所描述事件的地点没有什么关

签到位置

为用户发微博时自行定位的位置

多是体现微博用户发微博时所在的位置

该位置的准

确度取决于微博用户

从省域到非常具体的某个兴趣点均可

但不一定是事件发生的地点

文本位置

,

是微博文本中所蕴含的位置

该位置一般是微博描述事件所在的位置

具有较高的准确性

在位置的选

择上优先使用文本位置

当文本位置空缺时采用签到位置

文本位置蕴含在文本中

不像注册位置和签

到位置一样能够轻易的获取

本研究使用基于

CRF

的方法

16]

对文本中的位置实体进行识别

从而抽取

出文本包含的位置信息

使用以上方法获得有效的位置信息共

4

912

占微博总数的

83%o

本研究使

用百度地图提供的地理编码服务将文本地理位置转为经纬度坐标

实现文本数据的地图可视化展示

2

研究方法

2.1

基于

LDA

的台风主题模型词提取

采用

Blei

提出的

LDA

主题生成模型

17

实现台风

米克拉

微博文本的主题分类

LDA

主题模型属

于无监督分类的

3

层贝叶斯概率模型

包含词

主题

文档

3

层结构

该模型假设文档是由若干个隐含

主题构成

而这些主题由文档中若干个特定词汇构成

由于模型计算是反复迭代的过程

本研究设置迭代次数为

200

为了能得到较好的效果

较快收

先验参数根据经验取值

a

=

50

/k

,

B

=0.01

18

文本

-

主题概率分布矩阵表示每条微博文本数据

可能包含的主题的概率

文本以概率最大的那个主题作为单条微博文本的主题

最终所有微博被分为

16

个主题类别

其中出现频率排前

10

位的特征词及主题序号矩阵如表

1

所示

通过对特征词的判读可

以将相似主题进行分类

1

5

8

15

划分为预警类信息

是灾害发生前气象台等政府部门发布的预警

信号及台风运动轨迹等信息

6

9

10

12

13

划分为防御类信息

是关于交通班次停运

航线停航

公园关闭等相关信息

3

4

7

11

14

划分为灾损类信息

是用户报道的大风

暴雨

路面损失等描

述信息

0

2

为无关信息

2.2

台风微博情感分析

使用基于情感词典的方法进行划分

通过建立通用情感词

程度副词

否定词和专业领域词典

合句式词库对情感词加权计算得到微博文本的情感值

然后通过人工设定正负倾向的阈值来进行情感的

分类

该方法简单易行且通用性好

BosonNLP

情感词典是从微博

新闻

论坛等渠道获取的文本数据

经过情感标注构建生成

该词典囊括了大量的网络用语

对微博文本的情感分析有很好的实用性

。因

使用

BosonNLP

词典作为具有情感分值词的情感词词典

情感值计算公式

19

如式

(

1)

所示

degree

(

t

)

(

-

1)

k

畑,勺

i

=

1

(1)

1

陈齐超等

基于微博数据和情感分析法的台风

米克拉

灾情过程探测

1

类别主题序号词

1

台风

灾损

3

灾损

灾损

灾损

73

degree

t

是文本

t

的情

感值得分

g

i

为一篇文章

中第

i

个情感词

,

W

j

为情

主题

-

特征词

矩阵

Table

1

Subject-word

matrix

3

准备

2

公司

气象

4

抢修

醒来

来袭

5

供电

窗户

6

做好

起来

7

工作

小区

8

电力

9

队伍

上班

10

登录

感词

g

对应的程度副词

k

为情感词

g,

前否定词的

个数

通过对文本的句式

划分

对文本中多个情感

预警

预警

预警

预警

4

11

14

1

5

8

15

6

7

台风

台风

吵醒

莫兰蒂

泉州

狂风

交警

福州

安全

人员

厂房

交通

压倒

防汛

厦门

树木

道路

漳州

登陆

安全

护栏

吹倒

大风

影响

应急

注意

龙海

天气

中心

漳浦

预报

响应

/

12

部门

登陆

台风

登陆时

漳浦县

工作

防汛

风雨

减弱

上班

及时

启动

通知

台风

方向

台风

防御

市民

暴雨

轮渡

影响

词语程度副词进行加权累

中心

预计

影响

车辆

移动

码头

强度热带风暴

速度

游客

航线

交通

加强

热带低压

福建省

最终得到一篇文章的

情感值

情感值大于

0

积极正面的微博

小于

0

防御

防御

防御

厦门

树木

停航

封闭

漳州

倒伏

方向

清理

台风道路

则为消极负面消极的

微博

3

结果分析

本研究以小时作为时

台风

厦门

停运

影响

福州

/

列车旅客

铁路

线

9

台风

来袭

机场

防御

厦门

袭击

航班

停止

风雨

注意

正面

10

防御救援

人员

漳州

直播

漳州市

转移

景区

渔船

安全

避风

12

台风

台湾

防御

生成

南海

可能

中国

海峡

天气

登陆

北上

13

台风

米克拉

登陆

爆料

来袭

无关

平安

话题

注意级别

逆行

0

台风

无关天气

了解知识

影响知道

出现

局地

咼温

地区

2

编写的软件中给出了词频排序前

20

的特征词

为了节省篇幅本表只列出了前

10

的特征词

,

对应标记为词

1

、词

2

3

上述特征词中

线

大多是从

地铁1

号线

杭深线

等与轨

道交通相关的词切分出来的特征词

800

700

600

500

间分辨率

对微博文本数

内容

主题类别和情

感极性进行时空统计分

从相关微博数量随时

间变化情况来看

8

9

米克拉

登陆

米克拉

日晚

21

时发布了第一条

米克拉

台风相关的

降为热带低压

oi06

8

0

,

0

s

z

微博

随后气象部门等发

布了大量的预警信号

,

8

O

,

O

Z

O

Z

6

0

E

,

8

O

,

O

Z

O

Z

S

I

IZ

6

0

,

8

0

,

0

2

0

2

E

,80,0202,80,0202Qo

o

z

o

z

,

8

O

,

O

Z

O

Z

o

oeoz

o,ozoz

台风事件逐渐被人们所关

10

15

时许达到

第一个小高峰

由于午夜

时分用户休息

微博数量

1

微博数量

-

时间序列

Figure

1

The

number

of

microblogs-time

series

在凌晨

0

时至

6

时降为低

随着台风在

11

8

时许登陆漳州市漳浦县并对当地居民出行和生活

生产造成影响

微博数量在

11

10

时达到第二个高峰

台风登陆后逐渐减弱并于

11

14

时降为热带低压

此后相关微博也逐渐

减少

1

o

3.1

米克拉

台风事件主题分析

按预警

灾损与防御类文本主题

分别统计其发文数量和高频词随时间的变化

2

,

可以看出

,

米克拉

台风相关的第一条微博是属于预警类信息

描述了台风即将生成

并逐渐向台湾

福建

和广东地区靠近的情况

在台风登陆前

关于台风风向

风力强度

预计路径和预计暴雨强度等的预警

类信息占主要部分

其次是关于渔船撤离

景点关闭

航班取消

列车停运等相关的防御信息

关于大

风大雨影响描述的灾情信息只占少数

随着台风逐渐向内陆靠近

微博中灾损类信息大量增加

11

8

时左右微博中的灾损类信息超过预警类信息

这反映

11

8

时台风登陆漳州市漳浦县并对周边地

区造成大量的灾害损失

其中的

福建

漳州

厦门

树木

车辆

道路

交通

等高频词

可以看

米克拉

台风灾害在漳州

厦门两地

主要造成了树木倒塌

道路交通堵塞等灾损影响

在降为

热带低压且逐渐消逝的过程中

灾损类信息仍占主导地位

其中高频词语有

厂房

树木

护栏

、道

是对台风影响整个过程中造成的厂房被吹倒

树木倒塌

护栏压到民警

道路拥堵等事件的

描述

74

亚热带资源与环境学报

16

11

14

降为热带低

压一预警信息

交警交通

方向

将主题分类后微博文

250

11

8

登陆漳浦县

本信息中的文本位置转换

成地图上的点事件

并通

过核密度聚类生成热力图

对灾损类信息进行空间可

200

势克拉

舷台风暴雨

漳州

厦门

I

收费站

博贩凤

一防御信息

灾损信息

150

100

50

视化

从而与实际灾情进

微博

rs

細米克拉讣

漳州

#

駕建

誉柚台风魅

交警

»

行比较

3

o

可以发

台风登陆前

漳州

厦门有些许灾损信息

要描述大风大雨对民众出

-

e

o

k

6

0

行造成影响

台风入境后

泉州

福州等沿海地区有

些许灾情信息生成

厦门

漳州两地有大量灾情信息

oi)

o

6

e

o

e

00

Qi

oi

oi

oi

oo

6

o

e

e

o

e

o

e

Q

0

6

Z

0

C

oi

o

oeoe

oo

o

o

e

o

z

,

oo

o

,

o

z

o

z

oi

6

oi

otoi

oi

,

0

,

0

2

0

2

o

ozoe

o

oeoe

o

oeoe

o

oeoe

oloeoe

o

-

o

z

o

e

生成

主要描述了树木倒

2

°

事件主题类别

-

时间序列

Figure

2

Text

category-time

series

塌、

道路交通堵塞

仓库倒塌

停电等信息

漳浦

平和

南靖

厦门市有大量的灾损类事件聚集

反映了此次台风事

o

o

z

o

e

件的灾情分布

主要存在于福建省闽南沿海一带

根据气象部门预报

"米克拉

台风在福建漳浦登陆后向

西北方向移动

途径漳浦

平和

南靖地区

造成福建东南

沿海大风和暴雨

导致漳州多县区房屋受损

树木倒伏

力受毁等

因此

对微博数据进行文本抽取

可视化展示并

分析

能够快速直观地了解此次台风事件造成的灾情影响

影响区域等信息

3

2

米克拉

台风微博用户情感趋势

在台风灾害事件中

身处受灾区的用户会发布大量关于

灾情相关的微博

此类微博多是对灾情的描述

其情感值大

多是负向消极的

因此

对用户的情感进行分析可以探测台

风灾害的影响区域和程度

米克拉

台风的文本情感分析结

果显示有

72.

4%

的微博用户对此次台风持积极的态度

27.

6%

的微博用户持消极态度

此次台风事件微博情感值最低值为

-16,

该微博发布于厦门市湖里区东百蔡塘广场

描述了厦门

市的大风

停电和服务业受影响等多个消极事件

情感值最

高分为

27,

该微博发布于

12

声称台风为厦门市降温降

3

台风登陆前后灾损类信息点密度

Figure

3

Density

of

damage

information

before

and

after

typhoon

landing

并且在晚上能够看到英仙座流星雨

从时序和主题分析上来看

8

9

9

时之前

尚未确

定台风会影响中国时

关于

米克拉

的话题几乎没有用户讨论

此时属于舆情传播的潜伏期

8

10

日有大量预警类报道

确定台风会登陆福建闽南一带

此时微博大量发布

10

15

时达到一

个小高峰

此时持积极态度的预警类和无关类微博占主体地位

根据高频词汇可知主要是因为此次台风

预测强度不大且前期一直处于高温状态

大量用户渴望台风能够给当地带来降雨和降温

此类微博主要

分布在厦门

、福州等高温地区

11

8

米克拉

登陆漳州市漳浦县

持消极态度的微博大量生

主要描述护栏被吹倒

树木倒伏

暴雨肆虐等灾情信息

此类微博主要发布在厦门

漳州等地区

4

o

超强台风

"

莫兰蒂

2016

9

15

日登陆福建省厦门市

登陆时恰逢天文大潮

对福建

、浙

江西等省造成了严重的影响

大面积的基础设施损坏严重

上百万人受灾

本研究当时收集了台风

1

陈齐超等

基于微博数据和情感分析法的台风

米克拉

灾情过程探测

75

灾害事件相关微博共

52

882

其中有

43.

4%

的微博用户

对此次台风持积极的态度

56.6%

的微博用户持消极态度

其中持消极态度的微博多是灾损类信息

分布于以厦门为

中心的福建沿海地区

情感值最低为

-30,

该微博发布于厦

门市瑞景商业广场

描述了厦门当地停水

停电

断网、

物资紧缺

道路堵塞

交通瘫痪等多种灾情信息

情感值

最高分为

33,

因台风登陆时正好碰上传统节日中秋节

微博描述了中秋佳节的祝福信息

其他积极态度的文本包

括描述中秋佳节祝福

停课放假的欣喜

以及对灾区的祈

愿等

多分布在不受灾害影响或受灾不严重的地区

通过

对比两次台风可以发现

发布负向极性的微博多是来自于

受灾区

且描述的是当地受灾害信息

莫兰蒂

台风用户

情感持正向态度的多处于无灾区或轻灾区

米克拉

台风

持消极态度的微博占比与持积极的微博都位于台风影响范

围的区域

同样是台风灾害事件

由于造成灾害影响程度

的不同

微博文本的情感极性占比和文本类别也大不相同

严重的台风事件带来大量的灾损类消极信息

而较弱的台

风带来大量积极的信息

因此

通过对微博主题类别和情

4

登陆前后积极无关类与消极灾损类信息点密度

Figure

4

Density

of

positive

irrelevant

and

negative

damage

information

before

and

after

landing

感极性进行时空分析

可用于台风灾害事件的影响范围和

灾损影响程度的舆情监测

4

结论与展望

1

基于

LDA

主题模型对

米克拉

台风事件的微博进行聚类

分为灾损信息类

防御信息类

预警信息类和无关信息类

分析各类微博的时间过程可以看出

台风登陆前有大量预警类信息

随着台

风逐渐向内陆靠近

受灾地区的灾损类微博大量增加

灾损类微博在台风登陆时达到最高峰

因此

过对主题类别的时序统计可以辅助探测台风的登陆过程及其灾情时空分布

2

利用情感分析方法

,

挖掘微博文本所蕴含的情感值

并通过空间统计制图分析

发现台风登陆前后的微博中存在情感较为复

在台风登陆前

对福建高温地区的微博文本存在明显的正面影响

文本多是描述渴望降温

降雨的

信息

在台风登陆后

对受灾区用户的微博文本存在明显的负面影响

文本多是描述灾情信息

这很好

地佐证了台风并不总是带来负面影响的观点

[20]

o

台风登陆虽给受影响地区带来了一定的自然灾害

同时也带来了降温

降雨

往往给前期受高温干旱天气影响的当地居民带来积极的影响

3

持负向

态度的微博多是来自于受灾区

通过对比

2016

莫兰蒂

2020

米克拉

这两次台风的微博

舆情可以发现

较弱的台风会带来较多的积极信息

因此

负向微博的占比可以侧面反映台风的灾

情程度

台风灾害期间

也可以利用实时产生的微博数据进行分析

快速识别受灾区域和灾损影响程

从而辅助政府部门掌握台风动态发展趋势

利用微博数据虽能够较好地探测出台风登陆的时间节点

但是对于具体台风灾害事件发生位置并不

能很准确地探测

其限制因素包括

1

微博用户多集中于大中城市

当灾害事件在广大农村

山区

发生时

事发地并不会大量发布微博

2

用户的隐私保护意识也使得微博地理位置精度受限

在不

开放具体坐标信息时无法获得位置信息或者仅标注到县市单元

3

从微博文本中识别位置的精度则

依赖于地理特征词抽取准确性及足够详细且现势性强的地理编码库的支持

鉴于微博中往往包括很多照

视频等多媒体信息

其中经常嵌入了拍摄时间和地理坐标

因此如何利用这些信息提取地理位置,

以及基于机器学习方法从照片中直接提取路标

灾害场景特征等信息

以改进本研究前述方法是目前一

个研究热点

76

亚热带资源与环境学报

16

参考文献

(

References

)

:

[1]

陈香

.

福建

0608#

超强台风

桑美

灾害分析

[J]

.

亚热带资源与环境学报

2007,

2

(3)

:

35-41.

[

CHEN

X.

Analysis

of

devastating

Sangmei

typhoon

No.

0608

in

Fujian

[J].

Journal

of

Subtropical

Resources

and

Environment

,

2007,

2

(3)

:

35-41.]

[2]

陈瑗瑗

高勇

.

利用社交媒体的位置潜语义特征提取与分析

[J].

地球信息科学学报

2017,

19

(11)

1405-1414.

[

CHEN

Y

Y

GAO

Y.

Extracting

and

analyzing

latent

semantic

characteristics

of

locations

using

social

media

data

[

J]

.

Journal

of

Earth

Information

Science

,

2017,

19

(11)

1405-1414.]

[

3]

SMITH

L

LIANG

Q

JAMES

P

et

al.

Assessing

the

utility of

social

media

as

a

data

source

for

flood

risk

management

using

a

real-time

modelling

framework

[J].

Journal

of

Flood

Risk

Management

,

2017,

10

(3)

370-380.

[4]

TANG

Z

,

ZHANG

L,

XU

F,

et

al.

Examining

the

role

of

social

media

in

California's

drought

risk

management

in

2014

[J].

Natural

Hazards,

2015,

79

(1)

:

171-193.

[

5]

SACHDEVA

S

MCCAFFREY

S

LOCKE

D.

Social

media

approaches

to

modeling

wildfire

smoke

dispersion

Spatio-temporal

and

social

scientific

investigations

[J].

Information

,

Communication

&

Society

,

2016,

20

(8)

1146-1161.

[

6]

WANG

Y

RUAN

S

WANG

T

et

al.

Rapid

estimation

of

an

earthquake

impact

area

using

a

spatial

logistic

growth

model

based

on

social

media

data

[J].

International

Journal

of

Digital

Earth

,

2019,

12

(11)

1265-1284.

[7]

薄涛

.

基于社交媒体的地震灾情数据挖掘与烈度快速评估应用

[D].

哈尔滨

中国地震局工程力学研究所

2018

122

-

129.

[

BO

T.

Earthquake

disaster

data

mining

and

application

of

rapid

intensity

assessment

based

on

social

media

[D].

Institute

of

Engineering

Mechanics

,

Harbin

:

China

Earthquake

Administration

,

2018

:

122-129.]

[

8]

KRYVASHEYEU

Y

CHEN

H

OBRADOVICH

N

et

al.

Rapid

assessment

of

disaster

damage

using

social

media

activity

[J].

Science

Advances

,

2016,

2

(3)

e1500779.

[9]

梁春阳

林广发

张明峰

.

社交媒体数据对反映台风灾害时空分布的有效性研究

[J]

.

地球信息科学学报

,

2018,

20

(6)

:

807-816.

[LIANG

C

Y

,

LIN

G

F,

ZHANG

M

F,

et

al.

Assessing

the

effectiveness

of

social

media

data

in

mapping

the

distribution

of

typhoon

disasters

[J].

Journal

of

Geo-information

Science

,

2018,

20

(6)

:

807-816.]

[10]

苏凯

程昌秀

MURZINTCEV

N,

.

主题模型在基于社交媒体的灾害分类中的应用及比较

[J].

地球信息科学学报

,

2019,

21

(8)

:

1152-1160.

[SU

K,

CHENG

C

X,

MURZINTCEV

N,

et

al.

Application

and

comparison

of

topic

model

in

identif

­

ying

latent

topics

from

disaster-related

tweets

[J].

Journal

of

Geo-information

Science

,

2019,

21

(8)

:

1152-1160.]

[11]

陈顾远

王超

刘富强

.

一种基于微博数据的公众环境污染情感指数估算方法

[C]

//2016

全国环境信息技

术与应用交流大会暨中国环境科学学会环境信息化分会年会论文集

.

北京

中国环境管理

杂志社

2016

469

­

476.

[

CHEN

G

Y,

WANG

C

,

LIU

F

Q,

et

al.

Estimate

of

public

environment

-

emotional

index

base

on

mirco-blog

data

[C]

/

/Proceedings

of

the

2016

national

environmental

information

technology

and

application

exchange

conference

and

the

annual

meeting

of

environmental

informatization

branch

of

the

Chinese

society

for

environmental

sciences.

Beijing

China

En

­

vironmental

Management

Magazine

,

2016

:

469-476.]

[12]

陈凌

宋衍欣

.

基于公众情绪上下文的

LSTM

情感分析研究

以台风

利奇马

为例

[J].

现代情报

,2020,40

(6)

:

98-105.

[

CHEN

L

,

SONG

Y

X.

LSTM

sentiment

analysis

based

on

the

context

of

public

emotion

:

A

case

study

of

su

­

per

typhoon

Lekima

[J].

Journal

of

Modern

Information,

2020,

40

(6)

:

98-105.]

[13]

GRUEBNER

O,

LOWE

S,

SYKORA

M,

et

al.

Spatio-temporal

distribution

of

negative

emotions

in

New-

York

City

after

a

natural

disaster

as

seen

in

social

media

[J].

International

Journal

of

Environmental

Research

and

Public

Health

,

2018,

15

(10)

:

2275.

[14]

张岩

李英冰

郑翔

.

基于微博数据的台风

山竹

舆情演化时空分析

[J].

山东大学学报

(

工学版

)

2020

,

50

(5)

:

118-126.

[

ZHANG

Y,

LI

Y

B,

ZHENG

X.

Spatial

and

temporal

analysis

of

network

public

opinion

evolution

of

typhoon

Mangkhut

based

on

Weibo

data

[J].

Journal

of

Shandong

University

(

Engineering

Science

)

,

2020,

50

(5)

:

118-126.]

[15]

何晗

.

自然语言处理入门

[M].

北京

人民邮电出版社

2019

:

212-221.

[

HE

H.

Introduction

to

Natural

Language

Processing

[M].

Beijing

:

People's

Posts

and

Telecommunications

Press

,

2019

:

212-221.]

[16]

梁春阳

.

基于社交媒体的台风灾情信息抽取方法研究

[D].

福州

福建师范大学

2019

54-62.

[d

of

extraction

typhoon

disaster

information

using

social

media

data

[

D]

.

Fuzhou

:

Fujian

Normal

University

,

2019

54-62.]

[17]

BLEI

D

M,

NG

A

Y,

JORDAN

M

I.

Latent

dirichlet

allocation

[J].

Journal

of

Machine

Learning

Research

,

2003

,

3

(4

/

5)

:

993-1022.

[18]

WEI

X,

CROFT

W

B.

LDA-based

document

models

for

ad-hoc

retrieval

[C]

//

Proceedings

of

the

29th

annual

international

acm

sigir

conference

on

research

&

development

in

information

retrieval.

Seattle

,

Washington

,

USA

:

ACM,

2006:

178-185.

[19]

黄翔

.

环境污染事件中的微博信息分析及个性化推荐方法研究

[D].

福州

福建师范大学

2020

47-50.

[

HUANG

X.

Microblog

information

analysis

and

personalized

recommendation

methods

in

environmental

pollution

events

[

D]

.

Fuzhou

Fujian

Normal

University

2020

47-50.]

[20]

沈洛冰

.

王宁

.

台风对浙江地区的正面影响

[J].

世界科技研究与发展

2008,

30

(6)

846-848.

[SHEN

L

B,

WANG

N.

The

positive

impact

of

the

typhoon

on

Zhejiang

[

J]

.

World

Science

and

Technology

Research

and

Development

2008,

30

(6)

846-848.]

(

责任编辑

钟羡芳

)


本文标签: 台风 情感 信息 文本 灾害