admin 管理员组文章数量: 1086019
2024年3月10日发(作者:active在代码中的意思)
科技风
2021
年
5
月
电子信息
DOD10.19392/j.
cnki.
1671-7341.202115043
大数据与机器学习构建动态企业级画像系统
房金龙
北京对外经济贸易大学统计学北京
100000
摘要
:
目前市场上有不少基于
B2C
业务的客户画像的系统以及方法论
,
而针对
B2B
业务的企业级的画像系统和相应的
技术却相对比较缺乏
,
因此
,
在借鉴了
B2C
客户画像方法论的基础上
,
利用大数据与机器学习去构建一个动态的企业级的画
像系统是这整篇论文的主旨
。
在构建企业画像的过程中
,
一方面通过网络爬虫获取实时的海量的企业数据
,
来实现数据采集
上的实时性和多维度性
;
而在应用场景处理的问题上
,
通过使用自然语言处理对文本数据建模来自动化处理大量的文本信
息
,
完成海量文本的分类和标签化处理
,
从而最终实现动态企业级的画像系统
。
关键词
:
网络爬虫
;
自然语言处理
;
动态企业画像
1
绪论
判定
;
企业健康指数需要通过公司招聘信息
、
申请专利数
、
盈
利状况等数据进行计算;
公司主营业务变更以及最新舆情可
企业级画像系统是以企业为主体
,
通过对企业规模
、
经
营范围
、
公司人数
、
注册资本、
财务状况
、
招聘状态
、
最新业务
动态等信息进行采集和分析,构建岀不同标签的企业画
像
&
1
'
#
企业画像的内容可以根据具体的应用场景进行定制
以通过公司在新闻网站发布的官方新闻获取
。
(
3
)
爬虫技术
。
针对网络爬虫的工具有很多
,
由于
Python
语言优美
,
代码简单
,
模块功能强大
,
现已成为数据挖掘
、
机器
学习
、
人工智能首选编程语言
。
其中
Python
Scrapy
网络爬虫
框架由于灵活性高
、
社区人数多
、
文档完善
,
所以被广泛使用
。
化设定
。
企业画像的标签可以是一个公司的发展阶段
(初
创
、
成熟
、
衰退
)
,
可以通过财务状况而判断出来的公司的健
康程度
,
亦可以是公司的发展方向等
,
从而为
B2B
业务的企
由于部分网站存在大量
JavaScript
以及加密信息的反爬虫壁
业画像提供更多维度来帮助企业进行精准营销
,
优化推广渠
道
,
以及实时调整市场战略
。在此
,
尝试利用大数据与机器
学习构建一个企业级画像系统
,
并且实现精准实时地更新企
业画像
,
从而可对以
B2B
业务为主的公司起到一定的辅助
垒
,
可能会涉及需要更多的破解方法来进行爬虫
,
可利用
c
U-
nium+chromdriver
模拟
chrome
浏览器获得渲染后的页面
,
再使
用
PyQuay
对源码进行解析
,
解决
JavaScript
加载问题
,
针对文
字图片加密
,
可以通过文字坐标解密方法进行文字解密操作
,
从而最终获取文字信息
,
常见的反爬虫机制及应对如下表
所示
。
反爬虫及破解技术表
反爬虫技术
302
重定向
作用
。
2
数据采集
通过网络爬虫获取实时数据
。
(
1
)
爬取网站
。由于企业级画像主要会涉及公司信息
,
目前提供公司信息的主要平台有天眼查
、
L
桔子
、企查查等
,
而公司的最新动态以及最新科技新闻可通过新浪网
、
腾讯
破解技术
代理
IP
网
、
今日头条等获取
。
这些网站所提供的数据都为公开数
据
,
不存在商业敏感问题
,
且数据质量较高
,
还能够提供较为
完整的企业信息
,
但有些网站需付费使用
,
而有些网站有反
请求频次过高封掉
IP
减缓访问频次
、
更换代理
IP
、
账户登录
修改
htto
中的
headee
来实现
requests
发送登录数据
拒绝爬虫请求
爬虫机制
,
因此需要结合特定的应用场景以及成本预算
,
选
择合适的网站进行爬取
。
根据数据库的性能以及业务需求
,
模拟登录
JavaScript
加载
ajrx
异步加载
制定合理的爬取范围以及爬取时间
,
如要实现实时动态的企
业画像
,
则需要较高的数据库配置以及模型训练所需要的内
存空间
。
selenium+chromedgves
模拟浏览器
找到
ajrx
请求的
urt
(
2
)
爬取内容
。
企业画像的维度通常包括企业行业的分
类
、
企业所处阶段
(
初创
、
成熟
、
衰退
)
、
企业健康指数
、公司主
营业务变更
、
企业最新舆情等
。
其中企业行业分类通常可以
文字图片化文字坐标解密
(
4
)
数据预处理
。
由于企业画像涉及的数据维度较多
,
数据错综复杂
,
文本数据质量无法保证
,
因此需要进行数据
预处理
,
经过数据验证
(
公司信息验证
)
、
数据整理
(
公司信息
按照主要经营业务
、
经营范围
、
企业简介等信息中的关键词
,
例如
“
娱乐
”
“
工业
”
“
医药
”
等进行分类
&
2
'
;
企业所处阶段通
整合
)
、
数据清洗
(公司信息过滤
),
最终整合成结构化数据入
常需要获取公司创立时间
、注册资本
、
财务报表等数据进行
库
,
具体流程如图
1
所示
。
101
电子信息
科技风
2021
年
5
月
图
1
数据预处理流程图
3
企业画像
如图
2
所示。
基于自然语言处理实现企业级画像。
自然语言处理
(
Nature
Language
Processing
,
NLP
)
是采用计算机方法来理解
和使用人类语言的技术与思想
,
现阶段
,
自然语言的应用场
景主要包括机器翻译
、
文本分类
、
信息抽取
、
语音识别
、
情感
析
、
主题分析
、
舆情检测和智能问答等⑶
#
其中
,
企业画像
1.
!
2."
3
・
#
4
・
$
主要会用到信息抽取
、
文本分类
、
舆情监测等算法对文本进
行建模
,
这些算法的建模流程通常为
:
文本分词
、
去停用词
、
关键词提取
、
模型训练。
(
1
)
文本分词
。
针对中文文本分词
,
可以使用
jieba
分词
器
,
该工具是一款开源的
,
使用较为广泛
、
分词效果较好的分
词器⑷
。
它基于前缀词典实现高效的词图扫描
,
生成句子中
5
・%
6
・
&
7.'
8.(
9
・)
10.*
图
2
停用词
2
•
—
下
2
•
—
个
3
•
—
些
4.
—
何
5
•
—
切
6
•
—
则
7
•
—
则通过
8
•
—
天
9
•一定
10.
—
方面
(
3
)关键词提取
。经过分词和去停用词之后的文本
,
还
汉字所有可能成词情况所构成的有向无环图
(
DAG
)
,
采用了
动态规划查找最大概率路径
,
找出基于词频的最大切分组
会存在大量的低频词汇或非核心词汇
,
这些词通常数据量较
大
,
不仅会带来存储的浪费
,
而且也不利于文本模型的训练,
合
,
对于未登录词
,
采用了基于汉字成词能力的
HMM
模型
(
Hidden
Markw
Modet
,
隐马尔可夫模型
)
,
使用了
ViteVi
算
所以通常在文本模型训练前
,
需要先从文本中提取出核心关
键词
,
再对这些关键词进行模型训练
。
常用的关键词提取算
法
,
并且
jieba
支持自定义专业词典和未登录词典
&
5
'
。
jieba
法包括
TF-IDF
、
LDA
、
LSI
、
TextRank
等
。
例如
TF-IDF
(
term
frequency-inveve
document
frquency
,
词频-逆向文件频率
)
是
分词器另外一个强大的功能是
,
它可以提供自定义词典的接
口
,
用户可以根据自己的需要
,
将自定义的词典导入到
jieba
一种用于信息检索与文本挖掘的常用加权技术
&
6
'
,
TF-IEF
是
一种统计模型
,
用以评估一个词在一个文本中的重要程度
,
字典库
,
之后的分词可以根据用户自定义的词典进行分词
。
(
2
)
去停用词
。
分好词后
,根据具体的应用场景需要将
词的重要性会随着它在当前文本中出现的次数成正比增加
,
同时会随着它在整个语料库中出现的次数成反比下降
,
其中
TF(
Term-Crequenca
)
是当前文本中的词频统计
,
IDF
(
Inverse
文本中大量出现的语气助词
、
标点符号
、
连接词
、
量词等在文
本模型训练前从文本中过滤掉
,
然而有些应用场景需要保留
量词
,
所以并没有一个固定的停用词表来适用于所有场景
,
所有的停用词表需要根据实际情况人为输入
。
停用词列表
Document
Frequency
)
是逆向文档频率统计
,
具体算法公式如
图
3
所示。
tfij
=
寸話
其中叫
是第
i
个词在文档
j
中出现的次数
,
分母则是文档
j
中所有词汇出现的次数总和
TF
W
=
某文档中词条如出现的次数
^3^
中所有词舷目
|D|
idfi
=
log
IDF
=
log
圖斗库
包禹条询
,
分母加
1,
是为了避免分母为
o
FT-IDF
=
TF*IDF
图
3
TF-IEF
计算公式
(
4
)
模型训练
。
关于文本训练的模型有很多
,
通常要根
据不同的业务场景选择合适的模型训练
,
针对公司画像可能
到的模型有
word2vec,LSTM
,
TextRNN+
Attention
,
BERT
等
,
所
有模型都会涉及词向量的概念(
Word
Embedding
)
,
它是由实
数组成的固定维数的向量
,
每个词条对应一个词向量
,
通过会涉及的场景包括信息抽取
、
文本分类
、
舆情监测等
,
可以用
#02
科技风
2021
年
5
月
电子信息
模型训练
(
如图
4
所示
)
最终可以将词条映射到对应的词向
型
、
计算相似度模型、
聚类模型中进行最终模型的训练
。
量上
,
然后将词向量作为输入变量放到不同模型比如分类模
I ogp(
bu
|
C
ontext(bv))
0.286
0.792
-0.177
-0.107
0.109
-0.542
0.349
0.271
0.487
0.887
图
4
word2vec
基于
CBOW
训练词向量
(
5
)
企业画像
O
通过网络爬虫获取到的结构化数据
,
经
体分析
;
企业倾向性模型可以预测企业是否有购买某项产品
过数据清洗后可直接入库
,包括公司名称
、
注册资本
、
注册城
或服务的可能性
,
从而促成精准营销
;
企业生命周期管理模
市
、
注册时间
、
财务报表
、
招聘人数
、
申请专利
、
员工人数等信
息
,
并可作为企业基础信息
,
用以确定企业所处阶段
、
企业健
型可以实时洞悉企业价值
(
历史价值
、当前价值
、
潜在价值
),
从而挖掘出企业所有可能机会点
;
销售漏斗报告模型可以实
时观察企业忠诚度以及流失度
,从而调整企业营销策略
;企
业产品推荐模型可以通过计算企业用户销售行为
,
从而定制
化的推荐高可能性购买产品
。
根据以上结构化数据和模型
康指数
、
企业标签等
。
非结构化的文本数据经过模型训练后
转化成结构化数据再入库
,
如文本分类模型可以确定企业所
属行业
、
企业最新舆情动态
;关键词提取模型可以构建企业
新闻词云
,
了解企业的最新动态和发展方向
;文本相似度模
结果最终可以得到企业级画像
。
整体架构如图
5
所示
。
型可以查询到具有相似属性的公司
,
实现企业间聚类进行群
图
5
企业画像概览
4
结论
*
2
:
钱晓真
,
周
餠
烨•基于网络爬虫技术的用电企业分析
*
J
]
•
集成电路应用
,
2021
,
38
(
01
)
:
136-137.
*3
:
陈宣雨.自然语言处理在企业语调领域的应用与展
望
*
J
].
新经济
,
2021
(
02
)
:
59-63.
由于市场上有关企业画像的方法论和系统不够普及
,
导
致以
B2B
业务为主的公司很少像
B2C
公司一样对客户进行
画像
,
从而进行精准营销
,
为此本文基于大数据与机器学习
技术构建了动态企业画像系统
,
尽管设计的系统已经通过验
*
4
+
石凤贵.基于
jiebr
中文分词的中文文本语料预处理
模块实现
*
J
]
•
电脑知识与技术
,
2020
,16
(
14
)
:
248-251+257
.
证性实验具备一定的可行性,
但以上都只是基于
PC
端做的
相关研究
,并没有实时收集海量数据以及大规模进行模型训
练
,
因此还不能确定企业画像在海量数据上的表现,
因此接
下来会尝试搭建或租用阿里云
、
AWS
'
Azue
云平台进行海量
数据的验证
。
*
5
+
结巴中文分词
*
EB/
OL
+
.
https
:
//github
.
com/
fxsjy/
jieba.
*
6
:
王国桥
,
牛少彰.基于
TF-IDF
的社交电商文本信息
分类研究
*
J
]
•
网络空间安全
,
2020
,
11
(
12
)
:
32-38.
作者简介
:
房金龙
(
1986
—
),
男
,
黑龙江鹤岗人
,
数据
参考文献
:
:
1
:
王莉•基于标签库的企业画像系统优化设计
*
J
]
•信
息与电脑
(
理论版
)
,
2020
,
32
(
18
)
:
78-79.
分析师
,
对外经济贸易大学统计学院在职人员高级课程研修
班学员
。
103
版权声明:本文标题:大数据与机器学习构建动态企业级画像系统 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710067440a556172.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论