admin 管理员组文章数量: 1086019
2024年3月10日发(作者:webapi的优缺点)
第
16
卷第
1
期
2021
年
3
月出版
亚热带资源与环境学报
Journal
of
Subtropical
Resources
and
Environment
Vol.
16
No.
1
March
2021
陈齐超
,
林广发
,
梁春阳
,
等
.
基于微博数据和情感分析法的台风“
米克拉
”
灾情过程探测
[J].
亚热带资源与环境学报
,2021,
16
(1)
:
70-76.
CHEN
Q
C
,
LIN
G
F
,
LIANG
C
Y
,
et
al.
Explore
disaster
process
of
typhoon
"Mekkhala"
based
on
Sina
and
emotion
analysis
[J].
Journal
of
Subtropical
Resources
and
Environment,
2021
,
16
(1)
:
70-76.
DOI
:
10.
19687/j.
cnki.
1673-7105.
2021.
01.
011.
基于微博数据和情感分析法的台风
“
米克拉
”
灾情过程探测
陈齐超
-
林广发
1,2,3
*
*
,
梁春阳
-
黄潇
-
张明锋
1,2,3
,
陈鑫打周星辰
1
(1.
福建师范大学地理科学学院
,
福州
350007
;
2
.
福建省陆地灾害监测评估
工程技术研究中心
,
福州
350007
;
3.
海西地理国情动态监测与应急保障研究中心
,
福州
350007)
摘要
:
以
2020
年第
6
号台风
“
米克拉
”
为例
,
采集了
5
916
条新浪微博作为数据源
,
综合应用
隐含狄利克雷分布
(
Latent
Dirichlet
Allocation
,
LDA)
主题模型
、
文本情感分析方法和空间分
析技术
,
挖掘、
分析台风的灾情时空过程
。
基于
LDA
主题模型建立了主题
-
词矩阵并进行隐含
主题聚类
,
这些微博文本被分为灾损类信息
、
预警类信息
、
防御类信息和无关信息
;
从主题信
息和文本情感值两个角度入手
,
对此次台风事件网络舆情的演化过程进行分析
。
结果表明
:
“
米克拉
”
登陆前有大量积极情感的微博
,
主要包含渴望降雨
、
降温等信息
,
此类微博大量分
布在漳州
、
厦门
、
福州等地区
;
在台风入境后消极情感的微博大量增多
,
主要描述道路
、
树木
等受大风和大雨影响的灾损类信息
,
此类信息的空间位置主要分布在漳州和厦门
,
能较好地反
映台风灾害影响的时空分布
。
通过对微博主题类别和情感极性进行时空分析
,
实现台风灾害事
件发展趋势的监测
,
为防灾减灾提供参考依据
。
关键词
:
新浪微博
;
台风灾害
;
主题模型
;
情感分析
;
灾情评估
中图分类号
:
TP391.
1
文献标志码
:A
文章编号
:
1673-7105
(2021)
01-0070-07
Explore
Disaster
Process
of
Typhoon
“
Mekkhala
”
Based
on
Sina
and
Emotion
Analysis
CHEN
Qichao
1
,
LIN
Guangfa
1,2,3
*
,
LIANG
Chunyang
1
,
HUANG
Xiao
1
,
ZHANG
Mingfeng
1
,
CHEN
Xin
1
,
ZHOU
Xingchen
1
(1.
School
of
Geographical
Sciences,
Fujian
Normal
University,
Fuzhou
350007,
China
;
2.
Fujian
Provincial
Engineering
Research
Center
for
Monitoring
and
Assessing
Terrestrial
Disasters
,
Fuzhou
350007
,
China
;
3.
Research
Center
for
National
Geographical
Condition
Monitoring
and
Emergency
Support
in
the
Economic
Zone
on
the
West
Side
of
the
Taiwan
Strait
,
Fuzhou
350007
,
China)
Abstract
:
While
the
No.
6
typhoon
“
Mekkhala
”
appeared
and
landed
at
Zhangpu
,
Fujian
Province
,
P.
R.
China
,
from
Aug.
8th
to
13th
,
2020,
5
916
records
of
Sina
about
the
tropical
cyclone
were
collected
as
a
dataset
to
explore
the
disaster
process.
To
analyze
its
temporal
and
spatial
process
,
Latent
Dirichlet
Allocation
(
LDA
)
topic
model
,
text
sentiment
analysis
method
and
spatial
analysis
technology
were
employed
for
data
mining.
Based
on
a
matrix
of
keywords
and
themes
implicit
clustering
of
LDA
model
,
all
texts
were
divided
into
four
topics
as
flood
-
loss
,
early
warning
,
defense
and
irrelevant
information
;
and
then
the
influence
of
the
typhoon
events
on
the
Internet
public
opinion
was
measured
with
two
sides
,
keywords
and
emotional
values.
The
results
showed
that
,
there
were
a
lot
of
microblogging
with
positive
emotions
before
“
Mekkhala
”
landing
,
since
people
desire
for
a
raining
and
cooling
weather
after
the
long
heat
days.
After
the
typhoon
landed
,
a
large
number
of
negative
emotion
microblogs
were
increased
which
mainly
described
all
kinds
of
damage
on
roads
,
trees
收稿日期
:
2020-12-24
基金项目
:
国家重点研发计划重点专项
(2016YFC0502905)
;
福建省公益类科研院所专项
(
2015R1034-1)
作者简介
:
陈齐超
(
1996
—
),
男
,
福建福州人
,
硕士研究生
,
主要从事地理信息与应急管理方面的研究
,
geocqc
@
f'oxmail.
com
。
*
通信作者
:
林广发
(1970
—
),
男
,
福建上杭人
,
副教授
,
博士
,
主要从事遥感与地理信息系统应用方面的研究
,
guangfalin@
qq.
com
。
第
1
期
陈齐超等
:
基于微博数据和情感分析法的台风
“
米克拉
”
灾情过程探测
71
and
other
disaster-related
information
affected
by
strong
wind
and
heavy
rain.
The
location
of
microb
logs
was
mainly
around
Zhangzhou
and
Xiamen,
which
reflects
the
impact
of
temporal
and
spatial
dis
tribution
of
typhoon
disasters
very
well.
The
development
trend
of
typhoon
disaster
events
can
be
moni
tored
through
the
temporal
and
spatial
analysis
of
subject
categories
and
emotional
polarity
,
which
could
provide
reference
for
disaster
prevention
and
mitigation.
Key
words
:
Sina
;
typhoon
disaster
;
topic
model
;
sentiment
analysis
;
disaster
assessment
0
引言
台风灾害不仅影响范围广
、
破坏性强
,
而且发生频率高
,
是造成中国社会经济损失最严重的自然灾
害之一
[
1
]
。
快速
、
准确地了解灾害过程
,
获取灾损信息和识别受灾区域
,
并以图表形式进行直观展示,
可为防灾减灾部门开展抢险救援工作提供重要参考
。
微博作为一种社交媒介
,
已经成为了人们记录事
件
、
分享现场
、
发表看法
、
宣泄情感的一个平台
,
大量
、
实时
、
广域覆盖的社交媒体信息充斥在网络
中
[
2
]
o
对其中含有地理位置的微博文本进行采集
、
信息抽取和分析
,
从而得到数据中包含的台风灾害
相关事件发生的地理位置
、
时间和影响范围
,
以及各种实时灾情信息
,
逐渐成为灾害大数据领域的一个
研究热点
。
这些信息可用于台风天气过程跟踪
、
灾害事件检测
、
预警和灾情准实时评估
,
对于灾害研究
和防范
、
应急救灾具有独特的价值
。
近十年来
,
国内外学者对于含有时空信息的社交媒体数据在自然灾害领域的应用研究方兴未艾
,
其
中一些热点话题包括洪涝区域识别
[
3
]
、
干旱风险管理
[
4
]
、
火灾蔓延
[
5
]
、
地震震情评估
[
6-7
]
、
台风灾情评
估⑹等
。
这些应用的主要算法基础
,
包括文本主题模型和文本情感分析模型
。
文本主题模型抽取一段
文本所包含的特征词
,
并对文本集包含的所有特征词进行语义聚类
,
从而建立每个文本的主题概率分布
矩阵
,
识别文本中所蕴含的灾情相关的主题信息
。
如梁春阳等综合隐含狄利克雷分布
(
Latent
Dirichlet
Allocation,
LDA)
主题模型和支持向量机模型将微博文本分为
“
灾情
”
“
救援
”
等主题
,
实现对灾情信
息的快速识别
[
9
]
;
苏凯等采用
Biterm
主题模型
(
Biterm
Topic
Model
,
BTM
)
实现
“
灾害地点
”
相关信
息的识别
[
10
]
。
因此
,
通过主题模型能够快速地识别蕴含在文本中的灾情相关信息
。
文本情感分析模型
主要思想是在灾害事件描述文本所反映的情绪类型及其强烈程度与灾情严重程度之间建立一种对应关
系
。
常见的情感分析方法有基于情感词典的文本匹配
、
基于统计机器学习的方法和基于深度学习的方
法
。
基于情感词典的方法是借助情感词典
,
如
HowNet
情感词典
、
NTUSD
情感词典
、
清华大学李军中文
褒贬义词典
、
BosonNLP
情感词典等
,
结合句式对情感词加权计算得到文本的情感值
;
基于统计机器学
习的分类是提取语料文本特征通过朴素贝叶斯
、
支持向量机等分类模型训练文本情感分类器
,
使用文本
分类器对未标注标签的文本进行情感分类
;
基于深度学习的方法是使用卷积神经网络
、
长短时记忆网络
等神经深度学习模型自动提取文本特征
,
实现文本情感分级
。
不少学者基于以上情感分析方法开展了环
境状况监测
、
灾情事件感知
、
受灾区域识别等方面的研究
。
如陈顾远等使用朴素贝叶斯分类器和情感词
典对文本情感进行正负极分类并打分
,
分析认为公众情感能够较好地反映当前环境状态
[
11
]
;
陈凌等采
用长短时记忆网络构建情感分析模型
,
将情感分类结果结合词云对灾害期间的舆情事件进行感知
[
12
]
;
Gruebner
等使用
EMOTIVE
高级情感检测程序识别具有消极情绪的受灾者推文
,
从而挑选出最需要救援
的区域
[
13
]
;
张岩等使用朴素贝叶斯情感分类方法
,
通过分析表明情感指数能较好的用于重灾区的
判断
[
14
]
。
在上述研究的基础上
,
本研究将
LDA
主题模型
、
情感分析模型结合可视化技术引入台风灾情过程
探测中
。
以
2020
年第
6
号台风
“
米克拉
”
为例
,
挖掘了台风灾害事件相关微博中蕴含的灾情信息
、
主
题信息和情感信息并对其进行可视化
,
分析台风灾害前后用户发文主题和情感值的变化与时空分布
,
进
而探测台风灾害的时空过程
。
1
数据采集与处理
1.1
数据采集
2020
年第
6
号台风
“
米克拉
”
于
8
月
11
日
7
时许在福建省漳州市漳浦县登陆
,
于
12
日
6
时许消
72
亚热带资源与环境学报
第
16
卷
逝
。
本研究以新浪微博作为数据源
,
选择
“
米克拉台风
”
作为采集关键词,
以台风预报前一天至预警
解除后一天
(8
月
9
日
0
时至
8
月
13
日
0
时
)
作为采集的起止时间
,
使用基于模拟登录的方法
,
利用
前期开发并部署于华为云端的爬虫采集微博数据
。
采集得到的微博数据包括用户
id
、
微博发文时间
、
文
本信息
、
签到位置
、
用户注册位置等字段信息
。
通过对字段不完整和字数少于
6
的信息进行过滤
,
合计
采集与台风
“
米克拉
”
相关原创微博数据共
5
916
条
。
1.2
数据预处理
微博文本数据是一种非结构化的数据
,
其中虽蕴含着各类属性信息
,
但未经处理则不能直接用于分
析使用
。
“
词
”
是组成文本的最小单位
,
准确的中文词汇切分是文本特征提取和文本分析的基础
。
但中
文分词的准确度并不高
,
词语时常被分词器误切分
,
因此需要通过构造领域用户词典
,
实现词典内的词
汇能够被准确切分
。
使用
HanLP
中文分词工具的基于条件随机场
(
Conditional
Random
Field,
CRF)
的
分词模式
[
15
]
,实现文本词语的准确切分
。
中文分词对专业领域名词识别效果不佳
,
时常出现误切分的
情况
,
因此引入自定义的台风灾害事件词汇作为用户词典
。
分词结果中往往存在大量与分析目的无关且
频率很高的词汇
,
此类词汇参与分析则会影响分析结果
,
需要构建停用词表对无关词汇进行过滤
。
本研
究在哈工大停用词典的基础上补充了微博文本常出现的无关词
,
实现微博无关词的过滤
。
微博中含有
3
种位置信息
:
注册位置
、
签到位置以及文本位置
。
注册位置
,
是用户设置个人信息时
选择的位置
,
该位置可获得的最小范围为地市尺度
,
一般与具体某个微博所描述事件的地点没有什么关
系
;
签到位置
,
为用户发微博时自行定位的位置
,
多是体现微博用户发微博时所在的位置
,
该位置的准
确度取决于微博用户
,
从省域到非常具体的某个兴趣点均可
,
但不一定是事件发生的地点
;
文本位置
,
是微博文本中所蕴含的位置
,
该位置一般是微博描述事件所在的位置
,
具有较高的准确性
。
在位置的选
择上优先使用文本位置
,
当文本位置空缺时采用签到位置
。
文本位置蕴含在文本中
,
不像注册位置和签
到位置一样能够轻易的获取
。
本研究使用基于
CRF
的方法
[
16]
对文本中的位置实体进行识别
,
从而抽取
出文本包含的位置信息
。
使用以上方法获得有效的位置信息共
4
912
条
,
占微博总数的
83%o
本研究使
用百度地图提供的地理编码服务将文本地理位置转为经纬度坐标
,
实现文本数据的地图可视化展示
。
2
研究方法
2.1
基于
LDA
的台风主题模型词提取
采用
Blei
提出的
LDA
主题生成模型
[
17
]
实现台风
“
米克拉
”
微博文本的主题分类
。
LDA
主题模型属
于无监督分类的
3
层贝叶斯概率模型
,
包含词
、
主题
、
文档
3
层结构
。
该模型假设文档是由若干个隐含
主题构成
,
而这些主题由文档中若干个特定词汇构成
。
由于模型计算是反复迭代的过程
,
本研究设置迭代次数为
200
次
,
为了能得到较好的效果
、
较快收
敛
,
先验参数根据经验取值
,
a
=
50
/k
,
B
=0.01
[
18
]
。
文本
-
主题概率分布矩阵表示每条微博文本数据
可能包含的主题的概率
,
文本以概率最大的那个主题作为单条微博文本的主题
,
最终所有微博被分为
16
个主题类别
,
其中出现频率排前
10
位的特征词及主题序号矩阵如表
1
所示
。
通过对特征词的判读可
以将相似主题进行分类
:
1
、
5
、
8
、
15
划分为预警类信息
,
是灾害发生前气象台等政府部门发布的预警
信号及台风运动轨迹等信息
;
6
、
9
、
10
、
12
、
13
划分为防御类信息
,
是关于交通班次停运
、
航线停航
、
公园关闭等相关信息
;
3
、
4
、
7
、
11
、
14
划分为灾损类信息
,
是用户报道的大风
、
暴雨
、
路面损失等描
述信息
。
0
、
2
为无关信息
。
2.2
台风微博情感分析
使用基于情感词典的方法进行划分
,
通过建立通用情感词
、
程度副词
、
否定词和专业领域词典
,
结
合句式词库对情感词加权计算得到微博文本的情感值
,
然后通过人工设定正负倾向的阈值来进行情感的
分类
,
该方法简单易行且通用性好
。
BosonNLP
情感词典是从微博
、
新闻
、
论坛等渠道获取的文本数据
经过情感标注构建生成
。
该词典囊括了大量的网络用语
,
对微博文本的情感分析有很好的实用性
。因
此
,
使用
BosonNLP
词典作为具有情感分值词的情感词词典
,
情感值计算公式
[
19
]
如式
(
1)
所示
。
degree
(
t
)
=£
(
-
1)
k
畑,勺
,
i
=
1
(1)
第
1
期
陈齐超等
:
基于微博数据和情感分析法的台风
“
米克拉
”
灾情过程探测
表
1
类别主题序号词
1
台风
灾损
3
灾损
灾损
灾损
73
degree
(
t
)
是文本
t
的情
感值得分
,
g
i
为一篇文章
中第
i
个情感词
,
W
j
为情
“
主题
-
特征词
”
矩阵
Table
1
Subject-word
matrix
词
3
准备
雨
词
2
公司
风
气象
词
4
抢修
醒来
来袭
词
5
供电
窗户
词
6
做好
起来
词
7
工作
小区
词
8
电力
词
9
队伍
上班
词
10
登录
感词
g
对应的程度副词
,
k
为情感词
g,
前否定词的
个数
。
通过对文本的句式
划分
,
对文本中多个情感
预警
预警
预警
预警
4
11
14
1
5
8
15
6
7
台风
台风
吵醒
莫兰蒂
泉州
狂风
交警
福州
安全
人员
厂房
交通
压倒
防汛
厦门
树木
道路
漳州
登陆
安全
护栏
吹倒
大风
影响
应急
注意
龙海
天气
中心
漳浦
预报
响应
米
/
秒
12
级
部门
登陆
台风
登陆时
漳浦县
工作
防汛
风雨
减弱
上班
防
及时
启动
通知
台风
方向
台风
防御
市民
暴雨
轮渡
影响
词语程度副词进行加权累
中心
预计
影响
车辆
移动
码头
强度热带风暴
;
速度
游客
航线
交通
加强
热带低压
福建省
加
,
最终得到一篇文章的
情感值
,
情感值大于
0
为
积极正面的微博
,
小于
0
防御
防御
防御
厦门
树木
停航
封闭
漳州
倒伏
方向
清理
台风道路
则为消极负面消极的
微博
。
3
结果分析
本研究以小时作为时
台风
厦门
停运
影响
福州
米
/
秒
列车旅客
铁路
线
9
台风
来袭
机场
防御
厦门
袭击
航班
停止
风雨
注意
正面
10
防御救援
人员
漳州
直播
漳州市
转移
景区
渔船
安全
避风
12
台风
台湾
防御
生成
南海
可能
中国
海峡
天气
登陆
北上
13
台风
米克拉
登陆
爆料
来袭
无关
平安
话题
注意级别
逆行
0
台风
无关天气
了解知识
影响知道
出现
局地
咼温
地区
2
注
:
编写的软件中给出了词频排序前
20
的特征词
,
为了节省篇幅本表只列出了前
10
的特征词
,
对应标记为词
1
、词
2
、
词
3
等
;
上述特征词中
,
“
线
”
大多是从
“
地铁1
号线
”
“
杭深线
”
等与轨
道交通相关的词切分出来的特征词
。
800
700
600
500
间分辨率
,
对微博文本数
量
、
内容
、
主题类别和情
感极性进行时空统计分
析
。
从相关微博数量随时
间变化情况来看
,
8
月
9
“
米克拉
”
登陆
一
米克拉
日晚
21
时发布了第一条
与
“
米克拉
”
台风相关的
降为热带低压
oi06
8
・
0
,
0
s
z
微博
,
随后气象部门等发
布了大量的预警信号
,
该
,
8
O
,
O
Z
O
Z
6
0
E
,
8
O
,
O
Z
O
Z
S
I
IZ
6
0
,
8
0
,
0
2
0
2
E
,80,0202,80,0202Qo
o
z
o
z
,
8
O
,
O
Z
O
Z
o
oeoz
o,ozoz
台风事件逐渐被人们所关
注
,
在
10
日
15
时许达到
第一个小高峰
;
由于午夜
时
间
时分用户休息
,
微博数量
图
1
微博数量
-
时间序列
Figure
1
The
number
of
microblogs-time
series
在凌晨
0
时至
6
时降为低
谷
;
随着台风在
11
日
8
时许登陆漳州市漳浦县并对当地居民出行和生活
、
生产造成影响
,
微博数量在
11
日
10
时达到第二个高峰
;
台风登陆后逐渐减弱并于
11
日
14
时降为热带低压
,
此后相关微博也逐渐
减少
(
图
1
)
o
3.1
“
米克拉
”
台风事件主题分析
按预警
、
灾损与防御类文本主题
,
分别统计其发文数量和高频词随时间的变化
(
图
2
)
,
可以看出
,
与
“
米克拉
”
台风相关的第一条微博是属于预警类信息
,
描述了台风即将生成
,
并逐渐向台湾
、
福建
和广东地区靠近的情况
;
在台风登陆前
,
关于台风风向
、
风力强度
、
预计路径和预计暴雨强度等的预警
类信息占主要部分
;
其次是关于渔船撤离
、
景点关闭
、
航班取消
、
列车停运等相关的防御信息
;
关于大
风大雨影响描述的灾情信息只占少数
。
随着台风逐渐向内陆靠近
,
微博中灾损类信息大量增加
,
在
11
日
8
时左右微博中的灾损类信息超过预警类信息
,
这反映
11
日
8
时台风登陆漳州市漳浦县并对周边地
区造成大量的灾害损失
,
其中的
“
福建
、
漳州
、
厦门
、
树木
、
车辆
、
道路
、
交通
”
等高频词
,
可以看
出
“
米克拉
”
台风灾害在漳州
、
厦门两地
,
主要造成了树木倒塌
、
道路交通堵塞等灾损影响
。
在降为
热带低压且逐渐消逝的过程中
,
灾损类信息仍占主导地位
,
其中高频词语有
“
厂房
、
树木
、
护栏
、道
路
”
等
,
是对台风影响整个过程中造成的厂房被吹倒
、
树木倒塌
、
护栏压到民警
、
道路拥堵等事件的
描述
。
74
亚热带资源与环境学报
第
16
卷
(
)
11
日
14
时
,
降为热带低
压一预警信息
交警交通
方向
将主题分类后微博文
250
11
日
8
时
,
登陆漳浦县
本信息中的文本位置转换
成地图上的点事件
,
并通
过核密度聚类生成热力图
对灾损类信息进行空间可
200
势克拉
爲
舷台风暴雨
漳州
厦门
I
辆
收费站
微
博贩凤
一防御信息
•
…
灾损信息
150
100
50
视化
,
从而与实际灾情进
微博
rs
細米克拉讣
漳州
#
駕建
誉柚台风魅
交警
»
行比较
(
图
3
)
o
可以发
现
:
台风登陆前
,
漳州
、
厦门有些许灾损信息
,
主
要描述大风大雨对民众出
-
e
o
k
6
0
行造成影响
;
台风入境后
,
泉州
、
福州等沿海地区有
些许灾情信息生成
,
厦门
、
漳州两地有大量灾情信息
oi)
o
6
e
o
e
00
Qi
oi
oi
oi
oo
6
o
e
e
’
o
e
o
e
Q
0
6
Z
0
C
oi
o
oeoe
时
间
’
oo
o
o
’
e
o
z
,
oo
o
,
o
z
o
z
oi
倉
6
冒
oi
otoi
oi
,
0
,
0
2
0
2
o
ozoe
o
oeoe
o
oeoe
o
oeoe
oloeoe
o
-
o
z
o
e
生成
,
主要描述了树木倒
”
图
2
°
事件主题类别
-
时间序列
Figure
2
Text
category-time
series
塌、
道路交通堵塞
、
仓库倒塌
、
停电等信息
;
漳浦
、
平和
、
南靖
、
厦门市有大量的灾损类事件聚集
,
反映了此次台风事
o
’
o
z
o
e
件的灾情分布
,
主要存在于福建省闽南沿海一带
。
根据气象部门预报
,
"米克拉
”
台风在福建漳浦登陆后向
西北方向移动
,
途径漳浦
、
平和
、
南靖地区
,
造成福建东南
沿海大风和暴雨
,
导致漳州多县区房屋受损
、
树木倒伏
、
电
力受毁等
。
因此
,
对微博数据进行文本抽取
、
可视化展示并
分析
,
能够快速直观地了解此次台风事件造成的灾情影响
、
影响区域等信息
。
3
・
2
“
米克拉
”
台风微博用户情感趋势
在台风灾害事件中
,
身处受灾区的用户会发布大量关于
灾情相关的微博
,
此类微博多是对灾情的描述
,
其情感值大
多是负向消极的
。
因此
,
对用户的情感进行分析可以探测台
风灾害的影响区域和程度
。
“
米克拉
”
台风的文本情感分析结
果显示有
72.
4%
的微博用户对此次台风持积极的态度
,
27.
6%
的微博用户持消极态度
。
此次台风事件微博情感值最低值为
-16,
该微博发布于厦门市湖里区东百蔡塘广场
,
描述了厦门
市的大风
、
停电和服务业受影响等多个消极事件
;
情感值最
高分为
27,
该微博发布于
12
日
,
声称台风为厦门市降温降
图
3
台风登陆前后灾损类信息点密度
Figure
3
Density
of
damage
information
before
and
after
typhoon
landing
雨
,
并且在晚上能够看到英仙座流星雨
。
从时序和主题分析上来看
,
在
8
月
9
日
9
时之前
,
尚未确
定台风会影响中国时
,
关于
“
米克拉
”
的话题几乎没有用户讨论
,
此时属于舆情传播的潜伏期
。
在
8
月
10
日有大量预警类报道
,
确定台风会登陆福建闽南一带
,
此时微博大量发布
。
在
10
日
15
时达到一
个小高峰
,
此时持积极态度的预警类和无关类微博占主体地位
,
根据高频词汇可知主要是因为此次台风
预测强度不大且前期一直处于高温状态
,
大量用户渴望台风能够给当地带来降雨和降温
,
此类微博主要
分布在厦门
、福州等高温地区
。
在
11
日
8
时
“
米克拉
”
登陆漳州市漳浦县
,
持消极态度的微博大量生
成
,
主要描述护栏被吹倒
、
树木倒伏
、
暴雨肆虐等灾情信息
,
此类微博主要发布在厦门
、
漳州等地区
(
图
4
)
o
超强台风
"
莫兰蒂
”
于
2016
年
9
月
15
日登陆福建省厦门市
,
登陆时恰逢天文大潮
,
对福建
、浙
江
、
江西等省造成了严重的影响
,
大面积的基础设施损坏严重
,
上百万人受灾
。
本研究当时收集了台风
第
1
期
陈齐超等
:
基于微博数据和情感分析法的台风
“
米克拉
”
灾情过程探测
75
灾害事件相关微博共
52
882
条
,
其中有
43.
4%
的微博用户
对此次台风持积极的态度
,
56.6%
的微博用户持消极态度
。
其中持消极态度的微博多是灾损类信息
,
分布于以厦门为
中心的福建沿海地区
。
情感值最低为
-30,
该微博发布于厦
门市瑞景商业广场
,
描述了厦门当地停水
、
停电
、
断网、
物资紧缺
、
道路堵塞
、
交通瘫痪等多种灾情信息
;
情感值
最高分为
33,
因台风登陆时正好碰上传统节日中秋节
,
该
微博描述了中秋佳节的祝福信息
;
其他积极态度的文本包
括描述中秋佳节祝福
、
停课放假的欣喜
、
以及对灾区的祈
愿等
,
多分布在不受灾害影响或受灾不严重的地区
。
通过
对比两次台风可以发现
,
发布负向极性的微博多是来自于
受灾区
,
且描述的是当地受灾害信息
。
“
莫兰蒂
”
台风用户
情感持正向态度的多处于无灾区或轻灾区
;
“
米克拉
”
台风
持消极态度的微博占比与持积极的微博都位于台风影响范
围的区域
。
同样是台风灾害事件
,
由于造成灾害影响程度
的不同
,
微博文本的情感极性占比和文本类别也大不相同
。
严重的台风事件带来大量的灾损类消极信息
,
而较弱的台
风带来大量积极的信息
。
因此
,
通过对微博主题类别和情
图
4
登陆前后积极无关类与消极灾损类信息点密度
Figure
4
Density
of
positive
irrelevant
and
negative
damage
information
before
and
after
landing
感极性进行时空分析
,
可用于台风灾害事件的影响范围和
灾损影响程度的舆情监测
。
4
结论与展望
(
1
)
基于
LDA
主题模型对
“
米克拉
”
台风事件的微博进行聚类
,
分为灾损信息类
、
防御信息类
、
预警信息类和无关信息类
。
分析各类微博的时间过程可以看出
,
台风登陆前有大量预警类信息
;
随着台
风逐渐向内陆靠近
,
受灾地区的灾损类微博大量增加
,
灾损类微博在台风登陆时达到最高峰
。
因此
,
通
过对主题类别的时序统计可以辅助探测台风的登陆过程及其灾情时空分布
。
(
2
)
利用情感分析方法
,
挖掘微博文本所蕴含的情感值
,
并通过空间统计制图分析
,
发现台风登陆前后的微博中存在情感较为复
杂
:
在台风登陆前
,
对福建高温地区的微博文本存在明显的正面影响
,
文本多是描述渴望降温
、
降雨的
信息
;
在台风登陆后
,
对受灾区用户的微博文本存在明显的负面影响
,
文本多是描述灾情信息
,
这很好
地佐证了台风并不总是带来负面影响的观点
[20]
o
台风登陆虽给受影响地区带来了一定的自然灾害
,
但
同时也带来了降温
、
降雨
,
往往给前期受高温干旱天气影响的当地居民带来积极的影响
。
(
3
)
持负向
态度的微博多是来自于受灾区
。
通过对比
2016
年
“
莫兰蒂
”
和
2020
年
“
米克拉
”
这两次台风的微博
舆情可以发现
,
较弱的台风会带来较多的积极信息
。
因此
,
正
、
负向微博的占比可以侧面反映台风的灾
情程度
;
台风灾害期间
,
也可以利用实时产生的微博数据进行分析
,
快速识别受灾区域和灾损影响程
度
,
从而辅助政府部门掌握台风动态发展趋势
。
利用微博数据虽能够较好地探测出台风登陆的时间节点
,
但是对于具体台风灾害事件发生位置并不
能很准确地探测
。
其限制因素包括
:
(
1
)
微博用户多集中于大中城市
,
当灾害事件在广大农村
、
山区
发生时
,
事发地并不会大量发布微博
;
(
2
)
用户的隐私保护意识也使得微博地理位置精度受限
,
在不
开放具体坐标信息时无法获得位置信息或者仅标注到县市单元
;
(
3
)
从微博文本中识别位置的精度则
依赖于地理特征词抽取准确性及足够详细且现势性强的地理编码库的支持
。
鉴于微博中往往包括很多照
片
、
视频等多媒体信息
,
其中经常嵌入了拍摄时间和地理坐标
,
因此如何利用这些信息提取地理位置,
以及基于机器学习方法从照片中直接提取路标
、
灾害场景特征等信息
,
以改进本研究前述方法是目前一
个研究热点
。
76
亚热带资源与环境学报
第
16
卷
参考文献
(
References
)
:
[1]
陈香
.
福建
0608#
超强台风
“
桑美
”
灾害分析
[J]
.
亚热带资源与环境学报
,
2007,
2
(3)
:
35-41.
[
CHEN
X.
Analysis
of
devastating
“
Sangmei
”
typhoon
No.
0608
in
Fujian
[J].
Journal
of
Subtropical
Resources
and
Environment
,
2007,
2
(3)
:
35-41.]
[2]
陈瑗瑗
,
高勇
.
利用社交媒体的位置潜语义特征提取与分析
[J].
地球信息科学学报
,
2017,
19
(11)
:
1405-1414.
[
CHEN
Y
Y
,
GAO
Y.
Extracting
and
analyzing
latent
semantic
characteristics
of
locations
using
social
media
data
[
J]
.
Journal
of
Earth
Information
Science
,
2017,
19
(11)
:
1405-1414.]
[
3]
SMITH
L
,
LIANG
Q
,
JAMES
P
,
et
al.
Assessing
the
utility of
social
media
as
a
data
source
for
flood
risk
management
using
a
real-time
modelling
framework
[J].
Journal
of
Flood
Risk
Management
,
2017,
10
(3)
:
370-380.
[4]
TANG
Z
,
ZHANG
L,
XU
F,
et
al.
Examining
the
role
of
social
media
in
California's
drought
risk
management
in
2014
[J].
Natural
Hazards,
2015,
79
(1)
:
171-193.
[
5]
SACHDEVA
S
,
MCCAFFREY
S
,
LOCKE
D.
Social
media
approaches
to
modeling
wildfire
smoke
dispersion
:
Spatio-temporal
and
social
scientific
investigations
[J].
Information
,
Communication
&
Society
,
2016,
20
(8)
:
1146-1161.
[
6]
WANG
Y
,
RUAN
S
,
WANG
T
,
et
al.
Rapid
estimation
of
an
earthquake
impact
area
using
a
spatial
logistic
growth
model
based
on
social
media
data
[J].
International
Journal
of
Digital
Earth
,
2019,
12
(11)
:
1265-1284.
[7]
薄涛
.
基于社交媒体的地震灾情数据挖掘与烈度快速评估应用
[D].
哈尔滨
:
中国地震局工程力学研究所
,
2018
:
122
-
129.
[
BO
T.
Earthquake
disaster
data
mining
and
application
of
rapid
intensity
assessment
based
on
social
media
[D].
Institute
of
Engineering
Mechanics
,
Harbin
:
China
Earthquake
Administration
,
2018
:
122-129.]
[
8]
KRYVASHEYEU
Y
,
CHEN
H
,
OBRADOVICH
N
,
et
al.
Rapid
assessment
of
disaster
damage
using
social
media
activity
[J].
Science
Advances
,
2016,
2
(3)
:
e1500779.
[9]
梁春阳
,
林广发
,
张明峰
,
等
.
社交媒体数据对反映台风灾害时空分布的有效性研究
[J]
.
地球信息科学学报
,
2018,
20
(6)
:
807-816.
[LIANG
C
Y
,
LIN
G
F,
ZHANG
M
F,
et
al.
Assessing
the
effectiveness
of
social
media
data
in
mapping
the
distribution
of
typhoon
disasters
[J].
Journal
of
Geo-information
Science
,
2018,
20
(6)
:
807-816.]
[10]
苏凯
,
程昌秀
,
MURZINTCEV
N,
等
.
主题模型在基于社交媒体的灾害分类中的应用及比较
[J].
地球信息科学学报
,
2019,
21
(8)
:
1152-1160.
[SU
K,
CHENG
C
X,
MURZINTCEV
N,
et
al.
Application
and
comparison
of
topic
model
in
identif
ying
latent
topics
from
disaster-related
tweets
[J].
Journal
of
Geo-information
Science
,
2019,
21
(8)
:
1152-1160.]
[11]
陈顾远
,
王超
,
刘富强
,
等
.
一种基于微博数据的公众环境污染情感指数估算方法
[C]
//2016
全国环境信息技
术与应用交流大会暨中国环境科学学会环境信息化分会年会论文集
.
北京
:
《
中国环境管理
》
杂志社
,
2016
:
469
476.
[
CHEN
G
Y,
WANG
C
,
LIU
F
Q,
et
al.
Estimate
of
public
environment
-
emotional
index
base
on
mirco-blog
data
[C]
/
/Proceedings
of
the
2016
national
environmental
information
technology
and
application
exchange
conference
and
the
annual
meeting
of
environmental
informatization
branch
of
the
Chinese
society
for
environmental
sciences.
Beijing
:
China
En
vironmental
Management
Magazine
,
2016
:
469-476.]
[12]
陈凌
,
宋衍欣
.
基于公众情绪上下文的
LSTM
情感分析研究
—
—
以台风
“
利奇马
”
为例
[J].
现代情报
,2020,40
(6)
:
98-105.
[
CHEN
L
,
SONG
Y
X.
LSTM
sentiment
analysis
based
on
the
context
of
public
emotion
:
A
case
study
of
su
per
typhoon
“
Lekima
”
[J].
Journal
of
Modern
Information,
2020,
40
(6)
:
98-105.]
[13]
GRUEBNER
O,
LOWE
S,
SYKORA
M,
et
al.
Spatio-temporal
distribution
of
negative
emotions
in
New-
York
City
after
a
natural
disaster
as
seen
in
social
media
[J].
International
Journal
of
Environmental
Research
and
Public
Health
,
2018,
15
(10)
:
2275.
[14]
张岩
,
李英冰
,
郑翔
.
基于微博数据的台风
“
山竹
”
舆情演化时空分析
[J].
山东大学学报
(
工学版
)
,
2020
,
50
(5)
:
118-126.
[
ZHANG
Y,
LI
Y
B,
ZHENG
X.
Spatial
and
temporal
analysis
of
network
public
opinion
evolution
of
typhoon
“
Mangkhut
”
based
on
data
[J].
Journal
of
Shandong
University
(
Engineering
Science
)
,
2020,
50
(5)
:
118-126.]
[15]
何晗
.
自然语言处理入门
[M].
北京
:
人民邮电出版社
,
2019
:
212-221.
[
HE
H.
Introduction
to
Natural
Language
Processing
[M].
Beijing
:
People's
Posts
and
Telecommunications
Press
,
2019
:
212-221.]
[16]
梁春阳
.
基于社交媒体的台风灾情信息抽取方法研究
[D].
福州
:
福建师范大学
,
2019
:
54-62.
[d
of
extraction
typhoon
disaster
information
using
social
media
data
[
D]
.
Fuzhou
:
Fujian
Normal
University
,
2019
:
54-62.]
[17]
BLEI
D
M,
NG
A
Y,
JORDAN
M
I.
Latent
dirichlet
allocation
[J].
Journal
of
Machine
Learning
Research
,
2003
,
3
(4
/
5)
:
993-1022.
[18]
WEI
X,
CROFT
W
B.
LDA-based
document
models
for
ad-hoc
retrieval
[C]
//
Proceedings
of
the
29th
annual
international
acm
sigir
conference
on
research
&
development
in
information
retrieval.
Seattle
,
Washington
,
USA
:
ACM,
2006:
178-185.
[19]
黄翔
.
环境污染事件中的微博信息分析及个性化推荐方法研究
[D].
福州
:
福建师范大学
,
2020
:
47-50.
[
HUANG
X.
Microblog
information
analysis
and
personalized
recommendation
methods
in
environmental
pollution
events
[
D]
.
Fuzhou
:
Fujian
Normal
University
,
2020
:
47-50.]
[20]
沈洛冰
.
王宁
.
台风对浙江地区的正面影响
[J].
世界科技研究与发展
,
2008,
30
(6)
:
846-848.
[SHEN
L
B,
WANG
N.
The
positive
impact
of
the
typhoon
on
Zhejiang
[
J]
.
World
Science
and
Technology
Research
and
Development
,
2008,
30
(6)
:
846-848.]
(
责任编辑
:
钟羡芳
)
版权声明:本文标题:基于微博数据和情感分析法的台风“米克拉”灾情过程探测 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710067511a556175.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论