admin 管理员组文章数量: 1086019
2024年3月14日发(作者:c语言?:什么意思)
第
61
卷
第
5
期
2023
年
9
月
)
JournalofJilinUniversitScienceEdition
y
(
吉林大学学报
(
理学版
)
Vol.61 No.5
Se 2023
p
:/
.2022433
jj
基于扩展
San
表示的电力变压器
p
运维知识抽取与知识图谱构建
22
,
谢
庆
3
,
王洪涛
1
,
牛增贤
1
,
刘海峰
1
,
徐伟峰
1
,
李
刚
1
,
2.
华北电力大学复杂能源系统智能计算教育部工程研究中心
,
河北保定
071003
;
)
3.
华北电力大学电力工程系
,
河北保定
071003
(
1.
华北电力大学计算机系
,
河北保定
071003
;
摘要
:
为实现电力变压器运维知识的有效沉淀
,
以运维文本为研究对象
,
提出一种融合规则
的电力变压器运维知识图谱深度构建框架
.
首先根据专家指导自顶向下构建知识图谱概念
层
;
然后融合规则和深度神经网络模型抽取知识
,
构建知识图谱的数据层
.
针对运维文本中
()
获取扩展
Sbidirectionalencoderreresentationsfromtransformersan
标签的方法
,
用于
pp
实体和关系抽取
.
算例分析表明
,
该方法在电力变压器运维数据集中知识抽取效果良好
.
关键词
:
电力变压器
;
运维文本
;
知识图谱
;
深度学习
;
知识抽取
()
中图分类号
:
TP399
文献标志码
:
A
文章编号
:
1671-5489202305-1112-11
的实体界限模糊和上下文信息利用不充分问题
,
提出一种通过扩展上下文信息和
BERT
ConstructionofPowerTransformerOerationand
p
MaintenanceKnowledeExtractionandKnowledeGrah
ggp
BasedonExtendedSanReresentation
pp
(
1.
Deartmentoom
p
uter
,
NorthChinaElectricPowerUniversitBaodin
71003
,
HebeiProvince
,
China
;
pf
C
y
,
g
0
2.
EnineerinesearchCenterontellientCom
p
utinorCom
p
lexEnerstemsMinistrducation
,
gg
R
f
I
ggfgy
S
yy
o
f
E
11112312
,
NIUZenxianLIUHaifenXUWeifenLIGanXIEQinontao
gg
,
g
,
g
,
g
,
WANGH
g
,,
,
3.
DeartmentolectricalEnineerin
NorthChinaElectricPowerUniversitBaodin
71003
HebeiProvince
,
China
)
pf
E
gg
,
y
,
g
0
NorthChinaElectricPowerUniversitBaodin
71003
,
HebeiProvince
,
China
;
y
,
g
0
frameworkfordeeonstructionof
p
owertransformeroerationandmaintenanceknowlede
g
rah
p
c
pgp
:
Abstract
Inordertorealizetheeffective
p
reciitationofowertransformeroerationandmaintenance
ppp
,,
wknowledetakinheoerationandmaintenancetextastheresearchobecte
p
rooseda
gg
t
pjp
tconstructedtheconcetlaeroftheknowlede
g
rahfromtoobottom
pygpp
t
,
accordinothe
g
uidanceofexertsandtheninteratedrulesanddeeeuralnetworkmodelsto
g
t
pgp
n
extractknowledeandconstructthedatalaeroftheknowlede
g
theblurred
gygpg
a
boundariesofentitiesandinsufficientutilizationofcontextualinformationinoerationand
p
,
maintenancetextswe
p
roosedamethodforobtaininxtendedSanlablesbxtendinontextual
pg
e
py
e
g
c
收稿日期
:
2022-11-10.
informationandbidirectionalencoderreresentationsfromtransformersforentitndrelation
py
a
,
男
,
汉族
,
博士
,
副教授
,
从事自然语言处理的研究
,:
王洪涛
(
1983
—)
E-mailwanht@.
gp
)
基金项目
:
国家重点研发计划项目
(
批准号
:
2020YFB0906000
;
2020YFB0906005.
,
男
,
汉族
,
硕士研究生
,
从事知识抽取的研究
,
E
:
第一作者简介
:
牛增贤
(
1997
—)
-mailnzx
_
nuu@.
通信作者简介
:
Copyright©博看网. All Rights Reserved.
第
5
期
牛增贤
,
等
:
基于扩展
San
表示的电力变压器运维知识抽取与知识图谱构建
p
mleanalsisshowsthatthe
p
roosedmethod
p
erformswellinknowlede
pypg
knowledeextraction
g
1113
extractionfrom
p
owertransformeroerationandmaintenancedata.
p
:;
o
;
k
;
Kewords
owertransformererationandmaintenancetextnowlede
g
rah
;
deeearnin
ppgpp
l
g
y
]
1-2
变压器作为电力能源输送的重要中间节点
,
其健康情况直接影响整个电力系统的安全运行
[
.
目前
,
变压器的运维工作主要依赖于技术和管理人员的知识与经验
,
需要工作人员熟悉变压器运维知
识
,
并对变压器运维的历史数据进行查阅
、
分类和统计
.
该方法工作量大
、
知识提取效率低
,
且易产生
]
3
疏忽和遗漏
[
.
虽然通过关键词在传统数据库中进行检索的方法能提高知识提取的效率
,
但传统数据
4
]
库建模不灵活
,
很难适用于复杂多变的变压器运维场景
[
.
随着电网规模的不断扩大
,
变压器运维工
作具有数量大
、
类型多
、
处置难
、
响应慢等特点
,
仅靠人工积累和传统数据库检索的方法提取可用知
]
5
识效率低
,
难以实现大量变压器的快速有效运维
[
.
因此
,
电力系统亟需智能化技术提高知识提取的
效率
,
从而形成专业的变压器运维知识库
,
支撑变压器的快速精准运维
.
[]
6-7
图谱以形式化
、
简洁化的方式表示知识
,
表示方式一般为
<
头实体
,
关系
,
尾实体
>
.
与传统数据库相
)
知识图谱
(
是一种将实体和属性通过关系联结在一起的语义网络知识库
.
知识
knowlede
g
rah
gp
比
,
知识图谱的知识表达形式简洁直观
,
能有效组织复杂多样的知识
.
构建电力变压器运维知识图谱
,
一方面能充分挖掘和沉淀变压器运维中的知识
,
另一方面可为变压器健康管理辅助决策
、
变压器缺陷
故障分析等场景提供支持
.
]
近年来
,
知识图谱在电力领域的应用逐渐增多
.
例如
:
文献
[
提出了一种电力设备知识图谱
,
用
8
于避免电力设备信息丢失
,
提高数据储存和提取的效率
;
文献
[
提出了知识图谱在设备健康管理中
9
]
的应用场景
,
并分析了当前电力领域对知识图谱技术的需求
;
文献
[
利用缺陷记录实现了电力设备
10
]
缺陷知识图谱
;
文献
[
完成了电网故障处置知识图谱的构建
,
并进行了可视化
.
虽然近几年知识
11
]
变压器运维知识不全面
,
尚未形成用于变压器运维的专业知识图谱
.
图谱技术在电力领域中的应用得到快速发展
,
但这些知识图谱中涉及到变压器信息的节点数量较少
,
本文以电力变压器为核心设备
,
拟基于变压器运维文本数据
,
提出一个电力变压器运维知识图谱
的构建框架
.
首先
,
根据专家经验建立电力变压器运维知识图谱模式层
;
其次
,
为解决变压器运维
文本的实体界限模糊和语义信息理解不充分问题
,
提出一种基于扩展
San
表示的深度神经网络知识
p
使用特征匹配和深度模型相融合的方法抽取实体和关系
,
创建电力变压器运维知识图谱数据层
.
;
最后
,
抽取框架
,
其中
S
即为跨度为
3
的
San
指句中跨度为
n
的某个片段
,
如某句出现的
“
2
号变
”
an
pp
1
变压器运维文本
1.1
电力变压器运维文本类型
在变压器日常运行和维护的过程中
,
工作人员积累了大量变压器运维相关的文本资料
,
统称为变
压器运维文本
.
变压器运维文本蕴含着与变压器最密切的信息
,
如变压器故障现象和设备质量状况
变压器运维文本类型包括变压器设备事故调查报告书
、
设备异常分析报告等
.
这些文本都是对某地区
某一变压器故障的详细记录
,
包含变压器
、
变电站以及故障等信息
.
表
1
变压器运维文本示例
等
,
这些信息为工作人员的变压器运维工作提供了帮助
.
变压器运维文本示例列于表
1.
由表
1
可见
,
Table1 Examlesoftransformeroerationandmaintenancetext
pp
变压器运维文本类型
设备事故调查报告书
设备事故调查报告书
设备异常分析报告
设备异常分析报告
故障识别文档
变压器运维文本示例
220kVXX
变电站
1
号主变后备保护动作跳闸事故调查报告书
XX
变
319
电压互感器事故调查报告书
220kVXX
变电站
2217
间隔局放异常分析报告
220kVXX
变电站
4
号变电缆仓局放异常分析报告
变压器油中溶解气体分析导则
Copyright©博看网. All Rights Reserved.
1114
1.2
电力变压器运维文本的特点
通过对大量实际变压器运维文本的分析发现
,
变压器运维文本内容丰富
、
语义复杂
,
给提取变压
器运维知识带来了挑战
.
此外
,
由于人为记录的主观性
,
不同变压器运维文本的侧重点也不同
.
变压
器运维文本具有以下特点
:
)
变压器运维文本种类多
,
文本内容差异大
,
不同类型的变压器都会发生局部放电故障
,
但由于
1
变压器种类和处理人员不同
,
变压器运维文本的格式和处置方式的描述也不同
;
)
变压器运维文本的专业性强
,
描述清晰
,
变压器运维文本包含大量专有名词和专业术语
,
如变
2
压器的型号
、
故障的类型等
,
都有详细清晰的记录
;
)
变压器运维文本中实体之间边界模糊
,
如
“
,
这句话包含
“
某变电站
2
号变局部放电故障
”
某变
3
、“
电站
”
和
“
局部放电
”
2
号变
”
3
个实体
,
且它们之间无明显边界词
.
的知识抽取方法
.
对特征明显的知识
,
使用特征匹配方法
;
对无明显特征的知识
,
使用深度学习方法
.
吉林大学学报
(
理学版
)
第
61
卷
本文在构建变压器运维知识图谱时
,
充分考虑了上述文本特点
,
提出一种融合特征匹配和深度学习
2
变压器运维知识图谱构建
[
3
]
面向各行各业
,
覆盖面广
,
但对知识的准确度要求较低
,
常见的通用知识图谱有
D
和
Bedia
1
p
[
4
]
等
.
本文面向电力领域
,
从本体设计
、
模式层和数据层
3
个方面构建电力变压器运维知
YAGO
1
某一领域
,
例如医疗领域知识图谱等
,
是由某一领域专业数据构成的行业知识库
.
不限领域知识图谱
识图谱
.
[]
12
知识图谱可分为两类
:
领域知识图谱和不限领域知识图谱
(
通用知识图谱
)
.
领域知识图谱面向
2.1
本体设计
]
15
领域知识图谱的本体设计方法有自顶向下式
、
自底向上式和混合式
[
3
种
.
自顶向下式能清晰地
展现概念间的层级关系
,
但人工依赖性强
,
数据质量要求高
;
自底向上式数据质量要求较低
,
适合大
型知识图谱的构建
,
但抽取到的知识噪声较大
、
准确性不高
;
混合式是前两种方式的结合
,
融合了这两
种方式的优点
,
先依靠专家指导进行知识图谱的模式层构建
,
再通过知识抽取建立知识图谱的数据层
.
本文采用混合方式对电力变压器运维知识图谱进行构建
,
如图
1
所示
.
首先
,
采用自顶向下式的
构建方法
,
建立变压器运维的本体概念以及本体之间的关系
,
完成电力变压器运维知识图谱的模式层
构建
.
其次
,
为确保知识图谱的完备性
,
采用自底向上式的构建方法
,
对变压器运维文本进行实体
、
关
系和属性的抽取
,
完成电力变压器运维知识图谱的数据层构建
;
同时
,
对抽取结果进行归纳总结
,
将
Neo4
j
图数据库中
,
完成电力变压器运维知识图谱的构建
.
归纳总结出的概念映射补充到知识图谱模式层中
.
最后
,
将构建好的概念层与数据层知识图谱存储到
图
1
电力变压器运维知识图谱构建框架
Fi.1 Constructionframeworkof
p
owertransformeroerationandmaintenanceknowlede
g
rah
gpgp
Copyright©博看网. All Rights Reserved.
第
5
期
牛增贤
,
等
:
基于扩展
San
表示的电力变压器运维知识抽取与知识图谱构建
p
2.2
模式层构建
模式层建立在数据层之上
,
描述了实体关系和属性关系
.
本文根据电力专家的指导创建了电力变
压器运维知识图谱的模式层
,
如图
2
所示
.
首先
,
变压器是本文构建的知识图谱中最核心的本体
,
且
变压器在概念上属于变电设备
,
故定义了变压器和变电设备本体
.
其次
,
为了解变压器内部构件
、
历
史发生故障等信息
,
针对变压器定义了部件
、
故障等本体
.
此外
,
由于变压器历史故障现象以及故障
故障等级和处置措施等本体
.
处置方法等信息可有效辅助工作人员对变压器故障进行诊断
,
故针对变压器的故障定义了故障类别
、
1115
图
2
变压器运维知识图谱模式层
Fi.2 Modellaeroftransformeroerationandmaintenanceknowlede
g
rah
gypgp
2.3
数据层构建
2.3.1
数据层知识抽取框架
电力领域的知识抽取一般采用基于规则的方法
,
通过电力专家制定规则和模板完成对模式相对固
16
]
定知识的抽取
[
.
这种方法相对简单
,
对模式固定的语句抽取准确率高
,
缺点是灵活性较低
,
难以适
应具有丰富语义的场景
.
目前
,
基于深度学习的方
法已成功应用于知识抽取问题
,
并取得了很好的效
果
.
这种方法对专家的依赖较低
,
且灵活性高
.
本文提出一种融合特征规则和深度学习的知识
抽取框架
,
如图
3
所示
.
由图
3
可见
:
第一步
,
输入
一篇变压器运维文本
;
第二步
,
抽取输入文本中的
实体
,
对有明显触发词
,
即特征明显的实体
,
使用
特征匹配的方法
;
对于无明显触发词的实体
,
使用
深度学习的方法识别实体
;
第三步
,
利用上一步实
体抽取的结果进行关系抽取
;
第四步
,
得到三元组
2.3.2
基于特征匹配的实体抽取技术
取的实体类别和示例列于表
2.
形式的输出
.
图
3
融合规则和深度学习的知识抽取框架
Fi.3 Knowledeextractionframework
gg
offusionrulesanddeelearnin
pg
变压器运维文本中对于发生故障时的天气状况以及故障处置措施描述非常详细
.
基于特征匹配抽
表
2
基于特征匹配抽取的实体类别和示例
Table2 Entittesandexamlesbasedonfeaturematchinxtraction
yyppg
e
实体类型
天气
处置措施
:
)
运行方式
,
变压器
1
号
、
事故前电网运行工况
(
运行方式
、
电网功率
、
气象条件等
)
1
示例
))
气温
9℃
,
湿度
72
号主变运行
;
22
号主变功率
18MW
;
30%
,
风速
3
级
.
)
及时对设备进行清扫
;)
对低压侧套管绝缘化处理
,
缠绕绝缘自粘带
.
防止事故重复发生的对策
:
12
Copyright©博看网. All Rights Reserved.
1116
由表
2
可见
,
这两类实体内容广
、
字符跨度大
,
深度学习方法很难捕捉实体特征
,
但句式和位置
相对固定
,
特征明显
.
如表
2
中天气实体
,
有明显实体触发词位于最后位置
,
且存在固定单位
,
使用特
征匹配方法能准确匹配到该实体信息
.
特征匹配是指通过特征模板与文本内容的比较
,
找到文本内容与模板相匹配的部分
.
特征匹配实
体抽取流程如图
4
所示
.
以表
2
中的天气实体为例
,
实体触发词设为
“
气象条件
”
.
输入文本
,
发现文本
(‘(’,
示例句
)、(‘(’,
示例句
)、(‘(’,
示气温
.
湿度
.
风速
.+
?
℃
)
l+
?
%
)
l+
?
级
)
”
例句
)
对示例句进行特征匹配
,
最后将结果拼接在一起
,
完成对天气实体的抽取
.
人工记录具有主观
性
,
特征匹配的方法有时不能或不能完整地抽取知识
,
所以特征匹配的模板需要定期更新
.
对于不能
本文将已抽取结果与原文实体所在句进行余弦相似度匹配判断抽取是否完整
,
根据实体情形设置不同
的阈值
.
若匹配结果大于阈值
,
则无需更新
;
若匹配结果小于阈值
,
则人工进行正则表达式的更新
.
吉林大学学报
(
理学版
)
第
61
卷
存在
“
气象条件
”
触发词
;
然后锁定触发词所在句
,
即为表
2
中示例句
;
通过正则表达式
:“
l
抽取知识的情形
,
由专家分析该类变压器运维文本
,
并进行触发词的更新
;
对于不能完整抽取的情形
,
图
4
基于特征匹配的实体抽取流程
Fi.4 Flowchartofentitxtractionbasedonfeaturematchin
gy
e
g
抽取关系很难提取实体之间的依赖关系
,
故使用关系匹配
.
关系匹配将实体类型与预设关系三元组进
关系匹配技术仅用于抽取表
2
中两类实体的关系
,
这两类实体通常是一段话
,
使用深度学习模型
行匹配
,
图
2
中所有的边及边的两个端点作为预设关系三元组
.
如特征匹配出实体的类型是处置措施
,
关系匹配后发现处置措施只与故障有关系
,
且变压器运维文本通常只针对某变压器的某一具体故障
,
2.3.3
基于扩展
San
表示的实体抽取技术
p
,
N
,
基于深度学习的实体抽取方法
实体抽取也称为命名实体识别
(
namedentiteconitionER
)
y
r
g
位置不固定
,
基于特征匹配的方法很难灵活地抽取实体
.
深度学习方法可以自动学习特征
,
具有较强
的灵活性
.
但将深度学习应用到变压器运维文本
,
仍存在实体界限模糊和语义信息理解不充分
的问题
.
表
3
基于深度学习抽取的实体类型和示例
Table3 Entittesandexamlesextractedbeeearnin
yyppy
d
p
l
g
实体类型
变电设备
变压器
部件
生产厂商
部件型号
故障
示例
220kVXXX
变电站
2
号主变
、
三相变压器
XXX
电气有限公司
/
SRZ7-1250220
差动保护动作异常
2
号主变保护装置
实体类型
投运时间
最近一次检修时间
故障类别
故障等级
故障开始时间
故障结束时间
示例
2006-09-09
2019-08-27
设备原因
三级
2020-09-30
2020-10-31
故处置措施与实体抽取出的故障实体建立关系
.
主要抽取变压器
、
部件等实体
,
其实体类型列于表
3.
由表
3
可见
,
这些实体成分复杂
、
出现频率高
、
为解决变压器运维文本的实体界限模糊和语义信息理解不充分问题
,
本文提出一种使用扩展上下
[
7
]
文信息和
B
预训练模型获取扩展
SERT
1
an
表示的方法
,
分别实现实体和关系抽取
.
p
BERT
预训练模型是一种带有掩码的语言模型
,
通过在海量语料库上的学习可生成单词的特征表
Copyright©博看网. All Rights Reserved.
第
5
期
牛增贤
,
等
:
基于扩展
San
表示的电力变压器运维知识抽取与知识图谱构建
p
示
,
提升下游任务的性能
.
针对实体界限模糊问题
,
模型对输入进行改进
:
在训练时
,
根据实体的位置
,“
标注
,
将每个实体的实体类型插入到原始句子中
.
例如
“
为变压器实体类
2
号变发生故障
”
2
号变
”
<
:
变压器
>
/
:
变压器
>
型
,
改进后的句子为
“
发生故障
”
e2
号变
<
e.
这种方法可以明确实体界限
,
使模
如图
5
所示
,
若只输入本句信息
,
模型会很难理解
2
号变究竟发生了哪个具体故障
,
难以建立
2
号变
与具体故障等信息之间的依赖关系
,
导致模型不能完整地捕获
2
号变的语义特征
.
针对语义信息理解
不充分的问题
,
模型采用合并句子上下文方式构建更好的上下文表示
:
设定扩充上下文大小为
N
,
在
//
输入句前填充
N
2
个字的前文信息
,
在句后添加
N
2
个字的下文信息
.
[
8
]
本文采用
S
的方式标注数据
.
基于扩展
SanlevelNER
1
an
表示的实体抽取模型结构如图
5
所
pp
-
1117
型更好学习实体的特征
.
模型只学习本句信息
,
可能会忽略上下文的联系
,
导致语义信息理解不充分
.
示
,
由预训练语言模型
BERT
以及带有
ReLU
激活函数的两层前向神经网络组成
.
首先
,
通过
BERT
然后
,
设置
S
即有
an
跨度
,
以该跨度枚举所有
San
标签
.
如图
5
中
,
若
San
跨度设为
3
,“
2
号变
”
ppp
“”、“
、“
,
且每个
S
等多个
S22
号
”
2
号变
”
anan
均为候选实体
.
每个
San
表示为
ppp
获得输入句子中每个字的上下文表示
H
t
,
其中
E
t
是每个字的字向量
、
句子向量和位置向量之和
.
),()
)
,
)
,
h
s
X
START
(
X
END
(
Φ
(
s
1
=
(
e
(
i
)
iii
)
其中
:
)
为
S
)
为
S
X
START
(
an
开始位置的上下文表示
,
对应图
5
中绿点
;
X
END
(
an
结束位置的上下文表
pp
ii
示
,
对应图
5
中的紫点
;
为
S
Φ
(
s
an
跨度的特征表示
,
对应图
5
中黄点
.San
跨度指包含字符的数
pp
i
)
”
目
,
如
“
的跨度为
1
,“
的跨度为
3.
最后
,
通过预测实体为类型的概率
:
22
号变
”
[)],
Pes
oftmax
FFNN
(
h
s
=
S
e
(
i
)
e
(
i
)
[
9
]
其中
F
为带有
RFNN
1
eLU
激活函数的两层前馈神经网络
.
()
2
图
5
基于扩展
San
表示的知识抽取模型
p
Fi.5 KnowledeextractionmodelbasedonextendedSanreresentation
ggpp
,
关系抽取
(
依赖于实体抽取的结果
,
两个抽取任务相互独立
,
可以更好地学习
relationextractionRE
)
特定任务的特征
.
关系抽取仍采用基于扩展
San
表示的方法
,
变压器运维文本中实体间的关系类型
p
列于表
4.
San
前后
,
作为关系模型的输入
,
表示为
p
,…,…<,…,…,
)
,
)
,
)
,
)
,
S
=
…<
S
:
e
E
START
(
E
END
(
S
:
eO
:
e
E
START
(
E
END
(
O
:
e
i
>
iii
>
j
>
jjj
>
基于扩展
San
表示的关系抽取模型结构为
:
首先
,
实体边界以及类型作为标识符被加入到实体
p
()
3
2.3.4
基于扩展
San
表示的关系抽取技术
p
属性抽取和关系抽取本质上都是抽取两个实体之间的关系
,
故本文采用统一的抽取方法
.
实体间
Copyright©博看网. All Rights Reserved.
1118
表示尾实体结束位置
;
其次
,
通过
B
O
:
e
ERT
模型获得填充后的实体对之间的
San
表示为
p
j
>
,
)
,
)
)
h
ss
E
START
(
E
START
(
=
(
r
(
i
,
i
j
)
j
[)]
Prss
oftmax
FFNN
(
h
ss
.
=
S
r
(
i
,
r
(
i
,
j
)
j
)
表
4
基于深度学习抽取的关系类型
尾实体类别
变压器
故障
投运时间
最近检修时间
生产厂商
部件型号
头实体类别
故障
故障
故障
故障
故障
Table4 Relationtesextractedbeeearnin
ypy
d
p
l
g
头实体类别
变电设备
变压器
变压器
变压器
变压器
部件
关系
包含
发生
投运日期
检修日期
制造厂
型号
关系
编号
等级
类别
开始日期
结束日期
/
其中
<
表示头实体开始位置
,<
表示头实体结束位置
,<
表示尾实体开始位置
,
S
:
eS
:
eO
:
e
i
>
i
>
j
>
()
4
其中
E
START
()
为头实体开始位置的向量表示
,
)
为尾实体开始位置的向量表示
;
最后
,
预测两个
E
START
(
i
j
实体之间最可能的关系为
()
5
吉林大学学报
(
理学版
)
第
61
卷
尾实体类别
故障编号
故障等级
故障类别
故障开始时间
故障结束时间
3
实验与分析
基于扩展
San
表示的关系抽取模型利用实体模型的抽取结果以及关系标签信息进行训练
,
最终
p
完成关系抽取任务
.
3.1
数据集与实验设计
本文选取
240
份变压器运维文本作为变压器运维文本数据集
.
变压器运维文本数据集主要来源于
变压器现场故障分析报告
、
异常检测报告等半结构化文本
,
其中变压器的故障分析报告约占
70%.
运
维文本的内容包括变压器的属性
、
变压器故障运维方案等
,
涵盖了电力变压器领域大部分的故障类
型
、
故障诊断方法以及热点研究内容
.
数据集经过人工标注后
,
按
8∶1∶1
随机划分为训练集
、
验证集和测试集
.
表
5
列出了变压器运
[
0
]
F
1
值
2
.
对于实体抽取任务
,
如果一个实体边界和类型的预测值与标注信息相同
,
则认为该预测是正
确的
;
对于关系抽取任务
,
如果两个实体边界的预测值与关系类型的预测值均与标注信息相同
,
则认
、
召回率
(
维文本数据集的句子统计数据
.
本文选取标准的评价方法
,
模型评价指标为准确率
(
和
P
)
R
)
为该关系预测正确
.
表
5
数据集统计信息
Table5 Statisticalinformationofdatasets
训练集
1728
验证集
225
测试集
216
数据集
句子数量
3.2
变压器运维文本实验与分析
,
深度学习框架
实验数据集为本文构建的变压器运维文本数据集
,
实验环境为
VisualStudioCode
3.2.1
基于特征匹配的实体抽取实验与分析
基于特征匹配的实体抽取方法用于抽取天气和处置措施两类实体
,
两类实体的最初触发词设置及
实验结果列于表
6
,
关系匹配结果列于表
7.
表
6
基于特征匹配的实体抽取实验结果
触发词
气象条件
,
天气
,
气温
,
雨天
处置
,
措施
,
对策
,
防止
准确率
(
P
)
0.9166
0.9041
召回率
(
R
)
0.8333
0.7800
版本为
Ptorch1.4.0
,
Transformers3.0.2
,
Pthon
版本为
3.7
,
显卡为
TeslaK80.
yy
Table6 Exerimentalresultsofentitxtractionbasedonfeaturematchin
py
e
g
实体类型
天气
处置措施
0.8729
0.8374
F
1
值
Copyright©博看网. All Rights Reserved.
第
5
期
牛增贤
,
等
:
基于扩展
San
表示的电力变压器运维知识抽取与知识图谱构建
p
1119
表
7
关系匹配实验结果
Table7 Exerimentalresultsofrelationshiatchin
pp
m
g
实体类型
天气状况
处置方法
准确率
(
P
)
0.9068
0.8606
召回率
(
R
)
0.8125
0.7333
0.8570
0.7918
F
1
值
由表
6
可见
,
天气和处置措施的召回率偏低
.
这是因为人为记录具有主观性
,
工作人员对变压器
运维的描述存在差异
.
例如
,
对于天气实体
,
有些变压器运维文本存在定义的天气实体触发词
,
从而
有利于匹配
;
但有些文本中不存在定义的触发词
,
特征匹配的方法就不能匹配到天气信息
.
此外
,
实
体触发词可能与其他信息相关
,
影响了抽取准确率
.
例如
,“
处置
”
是处置措施实体的触发词
,
但在一
些变压器运维文本中
,“
处置
”
一词出现在变压器部件处置情况中
.
但本文基于特征匹配的实体抽取方
法所用的正则表达式和触发词是不断更新的
,
为匹配效果的提升提供了支撑
.
而关系匹配的准确率依
赖于天气
、
处置措施和故障
3
个实体是否能被准确识别
,
任一实体识别失败
,
都会降低某关系抽取的
3.2.2
基于扩展
San
表示的实体抽取实验
p
本文基于所构建的数据集验证所提方法在实体抽取上的性能
,
参数设置列于表
8.
基于扩展
San
p
准确度
.
)
表示的实体抽取模型
(
对比实验模型选择隐
M
以及深度学习模型
:
ExtendedSanarkov
模型
(
HMM
)
p
BiLSTM
和
BiLSTM+CRF.
本文设置上下文数量
N
=100
,
实验结果列于表
9.
表
8
实体抽取模型参数设置
Table8 Parameterssettinfentitxtractionmodel
g
o
y
e
模型参数
编码器
优化器
训练轮次
参数值
bertbasechinese
--
AdamW
16
模型参数
批次大小
学习率
预热学习率
参数值
64
0.005
0.1
表
9
实体抽取实验结果
Table9 Exerimentalresultsofentitxtraction
py
e
HMM
BiLSTM
模型准确率
(
P
)
0.8477
0.9083
召回率
(
R
)
0.8353
0.8697
变压器运维文本具有描述清晰和流程性强的特点
,
为知识抽取任务带来了帮助
.
由表
9
可见
,
各
模型的实验结果均在
80%
以上
.
其中
,
ExtendedSan
模型通过跨句信息的帮助取得了最优
.HMM
p
主要学习了电力数据集的初始状态分布
,
当文本的描述发生变化时
,
会导致预测精度降低
.
双向长短
离上下文信息
,
自然语言处理
(
可对
BCRF
)
iLSTM
预测结果进行优化
,
辅助提高预测精度
.
与
ExtendedSan
模型相比
,
对比模型的输入没有经过预训练语言模型
,
所以词向量表示的质量可能会
p
下降
,
影响了后续训练
.
此外
,
变压器运维文本数据集存在实体界限模糊的现象
,
导致对比模型难以
为模型的训练提供了较准确的词向量表示
.
准确捕获不同实体的特征
.
与对比模型相比
,
作为编码器
,
ExtendedSan
模型由预训练模型
(
BERT
)
p
ExtendedSan
模型通过添加实体标签以及合并句子上下文方式进行了实体抽取
.
为验证本文
p
方法的有效性
,
对本文方法进行了消融实验
,
实验结果列于表
10.
表
10
消融实验结果
Table10 Resultsofablationexeriment
p
ExtendedSan
p
去实体标签
去上下文
去实体标签和上下文
模型准确率
(
P
)
0.9574
0.9485
0.8993
0.8975
召回率
(
R
)
0.9202
0.9137
0.9051
0.8616
F
1
值
0.8414
0.8885
BiLSTM+CRF
ExtendedSan
p
模型准确率
(
P
)
0.9110
0.9574
召回率
(
R
)
0.9021
0.9202
F
1
值
0.9065
0.9384
期记忆网络
(
具有一定的非线性拟合能力
,
可以从前后两个方向对句子进行建模
,
捕获长距
BiLSTM
)
F
1
值
0.9384
0.9307
0.9022
0.8791
Copyright©博看网. All Rights Reserved.
1120
由表
10
可见
,
添加实体标签的方式提升了模型的性能
,
但去除上下文信息后
,
模型准确率和召回
率明显下降
,
说明上下文信息可使模型更好地理解句子信息
.
实验结果表明
,
本文方法给实体抽取任
3.2.3
基于扩展
San
表示的关系抽取实验
p
本文基于所构建的数据集验证所提方法在关系抽取模型上的性能
,
关系抽取同样设置上下文数量
务带来了帮助
.
吉林大学学报
(
理学版
)
第
61
卷
N
=100
,
模型参数设置列于表
11.
表
11
关系抽取模型参数设置
Table11 Parameterssettinfrelationshixtractionmodel
g
o
p
e
模型参数
编码器
优化器
训练轮次
参数值
bertbasechinese
--
AdamW
16
模型参数
批次大小
学习率
预热学习率
参数值
0.0008
0.1
32
ExtendedSan
模型的各指标均取得领先
.
分析认为
,
变压器运维文本中关系种类多
,
但具有共指关系
p
的实体少
,
所以影响了
SSAN
模型的性能
.
而变压器运维文本中多种关系存在较明显的关系触发词
,
且
ExtendedSan
模型以句子作为输入
,
并融合了上下文信息
,
模型可更好地学习到各关系的特征
,
p
故抽取结果高于
SSAN
模型
.
表
12
关系抽取实验结果
准确率
(
P
)
0.8904
0.8524
召回率
(
R
)
0.8818
0.8761
Table12 Exerimentalresultsofrelationshixtraction
pp
e
模型
ExtendedSan
p
SSAN
0.8861
0.8641
[
1
]
深度学习模型作为对比模型
.
为验证本文方法的有效性
,
选取
SSAN
2
SSAN
模型将每篇文档作
为输入进行关系抽取
,
充分考虑了实体之间的共指关系
.
关系抽取实验结果列于表
12.
由表
12
可见
,
F
1
值
表
4
中待抽取关系类型的抽取结果列于表
13.
由于变压器运维文本中的部件有很多别名以及代
,
号
,
且变压器和部件之间很少有触发词
,
如
“
XX
变
954
跳闸事故报告
”
954
代表某一部件
,
变压器和
部件之间无关系触发词
.
关系模型难以提取它们之间的关系
,
故本文不再列出
.
表
13
表
4
中特征抽取关系类型的关系抽取实验结果
Table13 ExerimentalresultsofrelationshixtractionfortesofrelationshistobeextractedinTable4
pp
e
ypp
关系类别
包含
发生
投运日期
检修日期
制造厂
准确率
(
P
)
0.9508
0.9529
0.8461
0.8328
0.8910
召回率
(
R
)
0.9438
0.8359
0.9262
0.6871
0.9026
0.9472
0.8905
0.8843
0.7529
0.8967
准确率
(
P
)
0.9377
0.9572
0.8571
0.9500
0.9047
召回率
(
R
)
0.8328
0.9438
0.8390
0.9641
0.9162
F
1
值
关系类别
编号
等级
类别
开始日期
结束日期
0.8821
0.9504
0.8480
0.9569
0.9104
F
1
值
由表
13
可见
,
模型对各关系类别的抽取结果存在差异
.
分析认为
,
变压器运维文本中多种关系存
”,
模型通
在较明显的关系触发词
,
为关系识别提供了帮助
.
如
“
2
号变局放故障开始时间为
2021-12-03
,
可以判断
“
”
过
“
开始时间
”
和
“
之间是有开始日期的关系
.
型号关系识别的
2
号变局放故障
”
2021-12-03
准确率较低
,
但召回率较高
,
达到
90%
以上
,
这是由于该关系触发词帮助了模型识别变压器和型号的
3.3
变压器运维知识图谱
本文对
240
份变压器运维文本进行实体和关系抽取后
,
共形成
1278
个实体和
1653
条关系
.
将实
体之间的关系以三元组形式存储到
Neo4
j
图数据库
,
进行了展示
,
图
6
为部分电力变压器运维知
识图谱
.
器的知识
,
当该变压器再次发生故障时
,
知识图谱辅助处理人员会迅速明晰变压器运行工况
、
历史故
图
7
为基于变压器运维文本构建的电力领域变压器运维知识图谱中有关
110kV
变电站
1
号变压
关系
,
但如果实体抽取没能正确识别出
“
型号
”
实体
,
则会间接影响关系抽取
.
Copyright©博看网. All Rights Reserved.
第
5
期
牛增贤
,
等
:
基于扩展
San
表示的电力变压器运维知识抽取与知识图谱构建
p
1121
图
6
部分变压器运维知识图谱
Fi.6 Partoftransformeroerationandmaintenanceknowlede
g
rah
gpgp
障等关键信息
,
查明故障原因
.
综上所述
,
本文以电力变压器运维文本为对
象
,
构建了电力变压器运维知识图谱
.
首先
,
搭建
了电力变压器运维知识图谱框架
,
完整构建了变压
器运维知识图谱
;
其次
,
为解决变压器运维文本中
实体界限模糊
、
语义信息理解不充分的问题
,
提出
了一种基于扩展
San
表示的知识抽取方法
,
并使
p
用特征匹配和深度模型相融合的方法抽取了实体和
关系
;
最后将知识抽取结果存储到
Neo4
j
图数据
库
,
并进行了展示
.
实验结果表明
,
本文知识抽取
方法准确率较高
.
参考
图
7
某变压器运维知识图谱的部分信息
Fi.7 Partofinformationofatransformeroeration
gp
andmaintenanceknowlede
g
rah
gp
文献
[]
1
]
黄彦钦
,
余浩
,
尹钧毅
,
等
.
电力物联网数据传输方案
:
现状与基于
5G
技术的展望
[
J.
电工技术学报
,
2021
,
():
36173581-3593.
(
HUANGYQ
,
YUH
,
YINJY
,
ansmissionSchemeofPowerInternetof
,():)
Societ2021
,
36173581-3593.
y
:]
ctionsofChinaElectrotechnical
gpgy
[
[]
2
]
李刚
,
张博
,
赵文清
,
等
.
电力设备状态评估中的数据科学问题
:
挑战与展望
[
J.
电力系统自动化
,
2018
,
():
422110-20.
(
LIG
,
ZHANGB
,
ZHAOWQ
,
ienceIssuesinStateEvaluationofPower
:],():)
EuimentChallenesandProsects
[
tionofElectricPowerSstems2018
,
422110-20.
qpgpy
[]
3
]
乔骥
,
王新迎
,
闵睿
,
等
.
面向电网调度故障处理的知识图谱框架与关键技术初探
[
J.
中国电机工程学报
,
:
5
,
WAN2020
,
40
(
18
)
837-5849.
(
QIAOJGXY
,
MINR
,
orkandKeechnoloiesof
y
T
g
)
5837-5849.
]:
KnowledeGrahBasedFaultHandlinsteminPowerGrid
[
dinsoftheCSEE
,
2020
,
40
(
18
)
gpg
S
yg
--
[]
4
]
吴界辰
,
艾欣
,
胡俊杰
.
需求侧资源灵活性刻画及其在日前优化调度中的应用
[
J.
电工技术学报
,
2020
,
():
3591973-1984.
(
WUJC
,
AIX
,
sforCharacterizinlexibilitiesfromDemandSide
g
F
-
,():)
ElectrotechnicalSociet2020
,
3591973-1984.
y
ResourcesandTheirAlicationsintheDaAheadOtimalSchedulinJ
]
.TransactionsofChina
ppypg
[
-
[]:
5
]
贺兴
,
艾芊
,
朱天怡
,
等
.
数字孪生在电力系统应用中的机遇和挑战
[
J.
电网技术
,
2020
,
44
(
6
)
2009-2019.
Copyright©博看网. All Rights Reserved.
1122
吉林大学学报
(
理学版
)
第
61
卷
[]():,
6
]
黄恒琪
,
于娟
,
廖晓
,
等
.
知识图谱研究综述
[
J.
计算机系统应用
,
2019
,
2861-12.
(
HUANGHQ
,
YUJ
[]
7
]
王军平
,
张文生
,
王勇飞
,
等
.
面向大数据领域的事理认知图谱构建与推断分析
[
J.
中国科学
:
信息科学
,
():,
WAN2020
,
507988-1002.
(
WANGJP
,
ZHANGWSGYF
,
uctinndInferrinventLoic
g
a
g
E
g
]:,():)
ConitiveGrahintheFieldofBiata
[
iaSinicaInformationis2020
,
507988-1002.
gpg
D
],():)
LIAOX
,
ewofKnowledeMaesearch
[
rSstemAlication2019
,
2861-12.
gp
R
pypp
,():)
PowerSstemTechnolo2020
,
4462009-2019.
ygy
(]
HEX
,
AIQ
,
ZHUTY
,
itiesandChallenesofDiitalTwininPowerSstemAlication
[
J.
ppggypp
[
8
]
TANGYC
,
LIUTT
,
LIUGY
,
ementofPowerEuimentManaementUsinnowledeGrah
qpgg
K
gp
[]
9
]
李刚
,
李银强
,
王洪涛
,
等
.
电力设备健康管理知识图谱
:
基本概念
、
关键技术及研究进展
[
J.
电力系统自动
[//),:
C
]
2019IEEEInnovativeSmartGridTechnoloiesAsia
(
awaNJIEEE
,
2019
:
905-910.
gy
-
():
化
,
2022
,
4631-13.
(
LIG
,
LIYQ
,
WANGHT
,
deGrahofPowerEuimentHealth
gpqp
[]]():
10
刘梓权
,
王慧芳
.
基于知识图谱技术的电力设备缺陷记录检索方法
[
J.
电力系统自动化
,
2018
,
4214
158-164.
(
LIUZQ
,
valMethodforDefectRecordsofPowerEuimentBasedonKnowlede
qpg
],():)
tionofElectricPowerSstems2018
,
4214158-164.
pgy
[
y
,():)
Sstems2022
,
4631-13.
y
:
B
,
KManaementasicConcetseechnoloiesandResearchProress
[
J
]
.AutomationofElectricPower
gpy
T
gg
[]]:
11
郭榕
,
杨群
,
刘绍翰
,
等
.
电网故障处置知识图谱构建研究与应用
[
J.
电网技术
,
2021
,
45
(
6
)
2092-2100.
],():)
KnowledeGrah
[
stemTechnolo2021
,
4562092-2100.
gpygy
(
GUOR
,
YANGQ
,
LIUSH
,
chontheConstructionandAlicationofPowerGridFaultHandin
ppg
[]]():
12
杨玉基
,
许斌
,
胡家威
,
等
.
一种准确而高效的领域知识图谱构建方法
[
J.
软件学报
,
2018
,
2910
,
X2931-2947.
(
YANGYJUB
,
HUJW
,
teandEfficientMethodforConstructinomain
g
D
],():)
KnowledeGrah
[
lofSoftware2018
,
29102931-2947.
gp
[],
B
:
AN
:
13 AUERSIZERC
,
KOBILAROVG
,
ucleusforaWebofOenData
[
M
]
.Berlin
pp
[]:
AL
]
14 SUCHANEKFM
,
KASNECIG
,
OntoloromWikiediaandWordnet
[
J.
gggy
f
p
,():
JournalofWebSemantics2008
,
63203-217.
췍
[]:
A15 AL-MOSLMIT
,
OCANAMG
,
OPDAHLAL
,
ntitxtractionforKnowledeGrahs
y
E
gp
],
LiteratureOverview
[
cess2020
,
8
:
32862-32881.
,
Sriner2007
:
722-735.
pg
[]]
,
理学版
)
16
王磊
,
刘露
,
牛亮
,
等
.
基于关系触发词与单层
GRU
模型的关系抽取方法
[
J.
吉林大学学报
(
2020
,
():
58195-103.
(
WANGL
,
LIUL
,
NIUL
,
onExtractionMethodBasedonRelationTrierWords
gg
]),():)
andSinleLaerGRUModel
[
lofJilinUniversitScienceEdition2020
,
58195-103.
gyy
(
-
/)[]:////
UnderstandinEBOL
]
.
(
1810.04805.
g
[
pg
[],
17 DEVLINJCHANGMW
,
LEEK
,
:
PretraininfDeeidirectionalTransformersforLanuae
g
o
p
B
gg
-
[]
18 LUANY
,
WADDEND
,
HELH
,
alFrameworkforInformationExtractionUsinnamicSan
g
D
yp
[],
R
,
19 WADDEND
,
WENNBERGU
,
LUANY
,
lationandEventExtractionwithContextualized
y
/)[]:////
Grahs
[
EBOL
]
.
(
1904.03296.
ppg
//
SanReresentations
[
C
]
Proceedinsofthe2019ConferenceonEmiricalMethodsinNaturalLanuae
ppgpgg
[]:
,
2019
:
5784-5789.
Processinndthe9thInternationalJointConferenceonNaturalLanuaeProcessinEMNLP-IJCNLP
)
.
g
a
ggg
(
[]]
,
:
理学版
)
20
高云龙
,
左万利
,
王英
,
等
.
基于集成神经网络的短文本分类模型
[
J.
吉林大学学报
(
2018
,
56
(
4
)
933-938.
(
GAOYL
,
ZUOWL
,
WANGY
,
extClassificationModelBasedonInteratedNeural
g
]),():)
Network
[
lofJilinUniversitScienceEdition2018
,
564933-938.
y
(
[],:
M21 XUBF
,
WANGQ
,
LÜructurewithinandThrouhoutodelinentionDeendenciesfor
y
S
gg
M
p
//
DocumentLevelRelationExtraction
[
C
]
gg
-
:
AAA
,
AltoI2021
:
14149-14157.
(
责任编辑
:
韩
啸
)
Copyright©博看网. All Rights Reserved.
版权声明:本文标题:基于扩展Span表示的电力变压器运维知识抽取与知识图谱构建 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710360195a569519.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论