admin 管理员组

文章数量: 1086019


2024年3月13日发(作者:个人简历模板下载2022)

CHINA

PORT

SCIENCE

AND

TECHNOLOGY

海关大数据知识图谱构建技术及应用

赵碧君

信鸽

I

海关业务改革的不断深化对海关管理提岀了新的要求

本文结合信息爆炸时代海关管理而临的挑战及业界知

识图谱的应用情况

全面分析

r

在海关管理中引人知识图谱的必要性

提出了海关大数据知识图谱的构建技术流程及应用

场景

旨在为智慧海关建设提供参考

关键词

大数据

知识图谱

构建技术流程

Construction

Technology

and

Application

of

Customs

Big

Data

Knowledge

Graph

ZHAO

Bi-Jun

*

1

XIN

Ge

1

Abstract

The

deepening

of Customs

business

reform

has

put

forward

new

requiremenls

for

Customs

management.

Combining

the

challenges

faced

by

Customs

rrmn

agement

in

the

era

of

in

formation

explosi

on

and

the

applicatio

n

of

kno

wledge

graph

in

industry,

the

paper

comprehensively

analyzes

the

necessity

of

introducing

knowledge

graph

into

Customs

management,

and

proposes

the

construction

process

and

application

seenarios

of

Customs

big

data

knowledge

graph,

aiming

to

provide

reference

for

the

construction

of

smart

Customs.

Keywords

big

data

knowledge

graph

construction

process

2017

7

国务院发布

新一代人工智能发

所集聚的海量数据也为海关传统数据管理及应用模式

展规划

,

明确

建立新一代人工智能关键共性技术

体系

首先提出建立

知识计算引擎与知识服务技

带来新的挑战,如何有效打破各类结构复杂的业务数

据间的信息壁垒

,快速从海量数据中获取关键信息.

最大程度挖掘数据的隐藏价值

打造

管得住

放得

.

强调要

重点突破知识加工

深度搜索和可视

化交互核心技术

.

“形成涵盖数十亿实体规模的多元

效率高

的智能化海关监管服务体系

成为海关

业务管理中亟须解决的问题

海关

十三五

规划明

多学科和多数据类型的跨媒体知识图谱

当前我国

外贸迅猛发展所带来的进出口业务量骤增对海关监管

服务提岀更高要求

同时

海关信息化建设不断加快

确指出,

要运用大数据技术提升海关管理智能化水平

海关全面深化业务改革

2020

框架方案

明确指出.

第一作者:

赵碧君

(1988-

,

汉族.山西人.硕士

高级数据分析师.主要从勺进出口数据分析

理模相关工作.

E-mail

****************

1

.全国海关信息中心

全国海关电子通关中心

北京

100005

1.

National

Information

Center

of

G/CC

National

E-Clearance

Center

of

GACC

,

Beijing

100005

92

依托大数据

情报信息

人工智能和专家研判等.

强化人工风险分析.突出布控精准性

通过建立海

关各业务领域知识图谱

梳理海关通关业务各主体间

的关系,

将碎片化的业务知识进行有效整合形成统一

的知识体系

将为海关业务分析提供一种新思路

实现海关管理由人工转向智能具有重要意义

1

构建海关大数据知识图谱的必要性

知识图谱

(

Knowledge

Graph

)

作为人工智能从感

知智能向认知智能进阶的关键技术组成部分.最早由

Google

出于优化搜索结果的目的于

2012

年提出

后便在工业界与学术界受到广泛关注

知识图谱是一

个将现实世界映射到数字世界

由节点和边组成的语

义网络

其中

节点代表现实世界中的实体或概念

边代表实体的属性或实体间的关系

与传统的数据管

理及应用模式相比

知识图谱具有以下优势叫

1.1

重构数据价值

实现对多源异构数据的统一

范管理

海关信息化建设的快速发展为海关各业务系统集

聚了海量数据

其中包括文本

图片

视频等

目前

海关虽已初步建成大数据资源平台

但平台内的数据

仍以结构化数据为主

海关监管过程中产生的大量音

视频

、文本等非结构化数据仍分散在不同业务系统中

无法得到有效利用,知识图谱作为一种新型的知识表

示与数据管理模式

其本质是结构化的语义知识库

逻辑上由模式层与数据层构成,

、其中.模式层类似于

关系型数据库中的表结构

通过模式层统一确定和规

范知识图谱中的本体

本体属性及本体之间的关联关

系;

然后针对模式层.采用知识抽取技术对分散在各

系统中的结构化数据

、半结构化数据

非结构化数据

进行高度提炼融合

形成包含大量先验知识的结构化

高度关联的高质量知识体系.可以有效解决多源异构

数据源数据不一致

不完整等问题

1.2

创新数据应用模式

提供从

关系

角度分析解

决问题的能力

目前海关业务人员对数据的应用模式仍主要基于

传统的关系型数据库

通过关联多张结构化的数据表

中国口岸科学技术

开展分析工作该模式不仅对海关业务人员的技术水

平有一定要求

同时也不利于快速直观地从海量数据

中定位有用信息而海关知识图谱通过将碎片化的信

息进行充分融合.建立起数据之间的关联关系.形成

海关通关业务各主体间的巨大关系网络

并以图形化

的方式进行展示

可以很好地帮助业务人员准确

、直观地从海量数据中发现内在规律

找出关键信

同时

以利用知识图谱相关技术形成的结构化网

络为基础

借助知识推理

图计算等

,业务人员可以

关系

出发

挖掘复杂关系中隐藏的潜在关系

从而发现新线索

1.3

赋予机器认知智能

提高人机协同解决问题的精

准性

机器学习模型虽已被广泛应用于海关各业务领域

的风险监测与防控

但其预测结果的准确性严重依赖

大规模的标注数据

且预测结果缺乏可解释性"因此

要实现更高级别的人工智能.提高机器预测的可解释

必须让机器具备理解和解释能力

而这种能力的

获得与知识库密不可分通过知识图谱形成的包含实

关系

属性的符号化知识结构

不仅符合人类的

思维模式

同时也能很好地满足机器理解与解释数据

的需求

基于知识图谱性的知识

机器可以更加精准

地理解用户需求

并针对需求提供更加可靠可用的决

策辅助

2

海关大数据知识图谱构建技术流程

知识图谱的构建目前主要有两种模式

一种是自

底向上

(Bottom-Up)

的方法

利用知识抽取技术自

动得到数据层

再由数据层抽象出模式层

,适用于没

有完整知识体系的数据

通用知识图谱的构建多采用

该模式

另一种是自顶向下

(Top-Down)

的方法

先构建模式层

再利用知识抽取技术对模式层进行数

据填充得到数据层.适用于知识体系完备的数据.领

域知识图谱的构建多采用该模式

海关大数据知识图

谱属于领域知识图谱

主要采用自顶向下模式进行构

建.涉及知识建模

知识抽取

知识融合

知识存储

及知识应用等

5

个阶段心

(

具体流程详见图

1

)

93

CHINA

PORT

SCIENCE

AND

TECHNOLOGY

知识建模

大数据资源平台

PIM

模型

数据

ETL

知识图谱应用

服务器

(ODPS)

数据读取

流入

Nifi

数据抽取服

务器

流入

流入

hbase

流入

流入

TRSGraph

kafka

1

海关大数据知识图谱构建技术流程

Fig.1

Con

struct!

on

Process

of

Customs

Big

Data

Kno

wledge

Graph

2.1

知识建模

形成全局统一的知识标识和关联通过知识融合可以

有效解决不同数据源知识重复

知识间关联不够明确

知识建模是建立知识图谱模式层的过程该过程

需要工程师与业务专家不断交互

根据业务特点.抽

象出本体

属性

关系等信息.涉及节点及节点属性

标签确定

关联关系设计等步骤

2.2

知识抽取

等问题

提高知识质量及应用价值

是确保知识质量

的重要步骤

2.4

知识存储

知识存储是对构建完成的知识图谱设计底层存

储方式

完成知识存储

知识存储方式的选择直接

知识抽取是指从不同来源

不同结构的数据中提

取知识

并存入知识图谱的过程

包括实体抽取

系抽取与属性抽取

是构建知识图谱的重要环节知

关系到知识图谱的应用效率

目前知识存储主要有

三种模式

第一种是基于

RDF

的存储

该模式以

三元组方式存储数据

常用数据库包括

RDF4J

gStore

GraphDB

第二种是基于原生图数据的

识图谱的数据源主要包括三类

一是结构化数据

包括关系型数据以及开放链接数据

二是半结构化

数据.包括各类百科数据等

三是以文本为代表的非

结构化数据.目前结构化数据和文本数据是知识图谱

最主要的知识来源

存储

该模式以属性图方式存储数据

常用数据库

包括

Neo4j

JanusGraph

s

OrientDB

等;第三种是

基于关系数据库的存储

该模式以表格的形式存

知识抽取一般通过图谱构建工具实现,

涉及自然

语言处理

、深度学习等技术

2.3

知识融合

储数据

2.5

知识应用

知识图谱应用是指将知识图谱特有的应用形态与

领域数据和业务场景相结合.辅助业务开展知识图

知识融合是指将不同来源的知识进行对齐

合并

,

94

谱的应用依赖于图的挖掘计算与知识推理等技术"

3

行业典型应用范例

知识图谱为多源

异构

动态海量数据的表达

管理及应用提供了一种更为有效的方式

国内关于知

识图谱的研究虽仍处于起步阶段

但已在金融

医疗

司法

电商

政府管理等领域得到了广泛应用并取得

成效

3.4

服务政府管理

助力疫情防控与复工复产

面对严峻复杂的新冠肺炎疫情形势

为满足国

家在疫情防控与复工复产方面的迫切需求

以国家

卫生健康委员会

交通运输部

铁路总公司等单位

提供的权威数据作为数据源

利用知识图谱技术.

围绕病例

疫区

交通工具和活动地点等本体建立

疫情知识图谱

通过个人密接情况查询

基层住户

健康情况精准管控

、交通站点流动人员健康情况自

动识别

企业员工健康状态掌握等服务

及时发现

感染病例

为政府

企业及个人的疫情防控与复工

复产提供参考依据

3.2

服务公共安全

,筑牢平安中国的社会治理防线同

近年来

在公共安全领域的很多案件中不难发

犯罪分子作案手法愈发隐秘

案件破获的难度

也越来越大

围绕公共安全领域重点关注的人

组织

虚拟身份等本体

以案件

轨迹

通讯

社交

个人背景

工商

税务

银行交易等信息为

数据源构建公共安全知识图谱

借助知识推理帮助

警务人员快速掌握涉案人员关系

推理预测涉案人

员家庭

社交

隐藏关系人等情况

快速

精准锁

定目标

3.3

服务公众健康

实现寻医问诊足不出户⑴

医学知识博大精深

医疗领域专家在实践过程中

积累了丰富的临床经验

并针对各类疾病形成了完整

的知识体系

围绕疾病

症状

药品

临床路径

生等本体构建医学领域知识图谱

可以帮助患者快速

查询到与所关注疾病相关的临床表现

治疗方法等

通过挖掘症状与药品

症状与体征

症状组合与药品

之间的关系等.帮助临床医生进行决策

中国口岸科学技术

4

海关应用场景举例

围绕海关业务中涉及的企业

运输工具

国家地区

商品

/

物品

执法信息等对象

充分

融合海关内外部包括外汇

报关单

提运单

工商总

局企业注册登记

互联网文本等各类信息

,构建海关

大数据知识图谱

可以有效协助海关业务人员快速准

确地发现关键信息.实现海关监管服务中效率与安全

兼顾的目标

4.1

进口商品风险甄别与防控

通过梳理整合境外疫情疫区信息

进境食品和化

妆品风险信息

进出口商品假冒伪劣及知识产权侵权

风险信息

海关内部企业注册信息

海关检验检疫要

货物通关等数据

形成包括进口冷链商品检验

危化品检验

食品和化妆品检验

知识产权侵权

冒伪劣商品检验等在内的进口商品检验检疫知识图

海关业务人员可以通过知识图谱检索及时了解全

球疫情疫区变动情况

不同商品检验检疫要求

知识

产权侵权

假冒伪劣商品种类及产销地等

;通过图谱

拓展

从特定商品出发

准确直观地获取相关商品的

轨迹及企业信息

并利用图计算等技术,迅速掌握商

品携带疫情的几率,

有效阻止传染病和检疫性有害生

物的传播

此外

海关业务人员可以通过图谱的关联

性直观获取假冒伪劣商品的产销地及收发货企业等情

提前在准入阶段对风险较高的商品进行布控

现精准打击

4.2

跨境电子商务商品进口征税

以海关内部与跨境电子商务相关的进口商品订单、

支付单

运单

商品征税税率及外部的商品条形码等

信息为数据源,

以商品

订购人

电商平台

电商企

业等为本体

构建跨境电子商务商品进口征税知识图

通过对知识图谱进行一致性检验

海关业务人员

可以从特定风险点出发

快速定位到与该风险点相关

的订单

企业

商品

通过图形化的方式展示同一商

品条形码所对应商品的申报计量单位的差异

,帮助海

关业务人员精准定位到存在偷逃税风险的商品或企业

4.3

防范团伙走私

围绕通关过程中涉及的企业

人等对象

以海关

95

CHINA

PORT

SCIENCE

AND

TECHNOLOGY

内外部的企业注册

吊销等信息,

建立企业与企业

合海关各业务领域的各类数据资源

沉淀专家经验.

业与人

人与人之间的关系图谱以此为基础,

从特定

直观展示海关通关业务中各个主体之间的关系.为海

关管理提供新模式

新思路

同时基于知识图谱开展

机器学习

可以进一步提高模型预测结果准确性与可

的商品

运输工具等线索出发

借助知识挖掘

知识推

社群检测等技术

海关业务人员可以快速发现相关

线索所涉及主体间的潜在关系及关系的亲密程度

,

找到

解释性

为实现

智慧海关

提供

脑力支持

来知识图谱必将在推进海关治理能力和治理体系现代

具有异常通关行为的团体

进而锁定作案对象

化建设进程中发挥重要作用

5

结语

该文经

CNKI

学术不端文献检测系统检测

通过建设海关大数据知识图谱.不仅可以有效整

文字复制比为

6.2%o

参考文献

1

王昊奋

,

漆桂林

,

陈华钧

.

知识图谱'方法

实践与应用

M

,

电子工业出版社.

2019:

1-270,

420-461.

2

马忠贵

倪润宁

,

余开航

.

知识图谱的最新进展

关键技术和挑战

J

,

工程科学学报,

2020,

42(10)

1254-1266.

3

周鹏

胡运涛

,

ffiltt

.

知识图诜作公安领域的构建与应用研究

C

.

第八届中国指挥控制大会论文集

2020

378-384.

⑷雷瑛.李军讣.曾熠

,

.

多源数据融合的军事伽识图谱构建

C

,

第八届中国指挥控制大会论文集

2020

220-225.

(文章类别

CPST-A)

96


本文标签: 知识 数据 图谱 海关