admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:active在代码中的意思)

科技风

2021

5

电子信息

DOD10.19392/j.

cnki.

1671-7341.202115043

大数据与机器学习构建动态企业级画像系统

房金龙

北京对外经济贸易大学统计学北京

100000

摘要

目前市场上有不少基于

B2C

业务的客户画像的系统以及方法论

而针对

B2B

业务的企业级的画像系统和相应的

技术却相对比较缺乏

因此

在借鉴了

B2C

客户画像方法论的基础上

利用大数据与机器学习去构建一个动态的企业级的画

像系统是这整篇论文的主旨

在构建企业画像的过程中

一方面通过网络爬虫获取实时的海量的企业数据

来实现数据采集

上的实时性和多维度性

而在应用场景处理的问题上

通过使用自然语言处理对文本数据建模来自动化处理大量的文本信

完成海量文本的分类和标签化处理

从而最终实现动态企业级的画像系统

关键词

网络爬虫

自然语言处理

动态企业画像

1

绪论

判定

;

企业健康指数需要通过公司招聘信息

申请专利数

利状况等数据进行计算;

公司主营业务变更以及最新舆情可

企业级画像系统是以企业为主体

通过对企业规模

营范围

公司人数

注册资本、

财务状况

招聘状态

最新业务

动态等信息进行采集和分析,构建岀不同标签的企业画

&

1

'

#

企业画像的内容可以根据具体的应用场景进行定制

以通过公司在新闻网站发布的官方新闻获取

3

爬虫技术

针对网络爬虫的工具有很多

由于

Python

语言优美

代码简单

,

模块功能强大

现已成为数据挖掘

机器

学习

人工智能首选编程语言

其中

Python

Scrapy

网络爬虫

框架由于灵活性高

社区人数多

文档完善

所以被广泛使用

化设定

企业画像的标签可以是一个公司的发展阶段

(初

成熟

衰退

可以通过财务状况而判断出来的公司的健

康程度

亦可以是公司的发展方向等

,

从而为

B2B

业务的企

由于部分网站存在大量

JavaScript

以及加密信息的反爬虫壁

业画像提供更多维度来帮助企业进行精准营销

优化推广渠

以及实时调整市场战略

。在此

尝试利用大数据与机器

学习构建一个企业级画像系统

,

并且实现精准实时地更新企

业画像

从而可对以

B2B

业务为主的公司起到一定的辅助

可能会涉及需要更多的破解方法来进行爬虫

,

可利用

c

U-

nium+chromdriver

模拟

chrome

浏览器获得渲染后的页面

再使

PyQuay

对源码进行解析

解决

JavaScript

加载问题

,

针对文

字图片加密

,

可以通过文字坐标解密方法进行文字解密操作

,

从而最终获取文字信息

常见的反爬虫机制及应对如下表

所示

反爬虫及破解技术表

反爬虫技术

302

重定向

作用

2

数据采集

通过网络爬虫获取实时数据

1

爬取网站

。由于企业级画像主要会涉及公司信息

目前提供公司信息的主要平台有天眼查

L

桔子

、企查查等

,

而公司的最新动态以及最新科技新闻可通过新浪网

腾讯

破解技术

代理

IP

今日头条等获取

这些网站所提供的数据都为公开数

,

不存在商业敏感问题

且数据质量较高

还能够提供较为

完整的企业信息

但有些网站需付费使用

而有些网站有反

请求频次过高封掉

IP

减缓访问频次

更换代理

IP

账户登录

修改

htto

中的

headee

来实现

requests

发送登录数据

拒绝爬虫请求

爬虫机制

因此需要结合特定的应用场景以及成本预算

择合适的网站进行爬取

根据数据库的性能以及业务需求

,

模拟登录

JavaScript

加载

ajrx

异步加载

制定合理的爬取范围以及爬取时间

如要实现实时动态的企

业画像

则需要较高的数据库配置以及模型训练所需要的内

存空间

selenium+chromedgves

模拟浏览器

找到

ajrx

请求的

urt

2

爬取内容

企业画像的维度通常包括企业行业的分

企业所处阶段

初创

成熟

衰退

企业健康指数

、公司主

营业务变更

企业最新舆情等

其中企业行业分类通常可以

文字图片化文字坐标解密

4

数据预处理

由于企业画像涉及的数据维度较多

,

数据错综复杂

文本数据质量无法保证

因此需要进行数据

预处理

经过数据验证

公司信息验证

数据整理

公司信息

按照主要经营业务

经营范围

企业简介等信息中的关键词

例如

娱乐

工业

医药

等进行分类

&

2

'

;

企业所处阶段通

整合

数据清洗

(公司信息过滤

),

最终整合成结构化数据入

常需要获取公司创立时间

、注册资本

财务报表等数据进行

,

具体流程如图

1

所示

101

电子信息

科技风

2021

5

1

数据预处理流程图

3

企业画像

如图

2

所示。

基于自然语言处理实现企业级画像。

自然语言处理

(

Nature

Language

Processing

,

NLP

)

是采用计算机方法来理解

和使用人类语言的技术与思想

,

现阶段

自然语言的应用场

景主要包括机器翻译

文本分类

信息抽取

语音识别

情感

主题分析

舆情检测和智能问答等⑶

#

其中

企业画像

1.

!

2."

3

#

4

$

主要会用到信息抽取

文本分类

舆情监测等算法对文本进

行建模

这些算法的建模流程通常为

:

文本分词

去停用词

关键词提取

模型训练。

(

1

)

文本分词

针对中文文本分词

可以使用

jieba

分词

该工具是一款开源的

,

使用较为广泛

分词效果较好的分

词器⑷

它基于前缀词典实现高效的词图扫描

生成句子中

5

・%

6

&

7.'

8.(

9

・)

10.*

2

停用词

2

2

3

4.

5

6

7

则通过

8

9

•一定

10.

方面

(

3

)关键词提取

。经过分词和去停用词之后的文本

汉字所有可能成词情况所构成的有向无环图

(

DAG

)

采用了

动态规划查找最大概率路径

找出基于词频的最大切分组

会存在大量的低频词汇或非核心词汇

,

这些词通常数据量较

不仅会带来存储的浪费

,

而且也不利于文本模型的训练,

对于未登录词

采用了基于汉字成词能力的

HMM

模型

(

Hidden

Markw

Modet

隐马尔可夫模型

)

使用了

ViteVi

所以通常在文本模型训练前

需要先从文本中提取出核心关

键词

再对这些关键词进行模型训练

常用的关键词提取算

并且

jieba

支持自定义专业词典和未登录词典

&

5

'

jieba

法包括

TF-IDF

LDA

LSI

TextRank

例如

TF-IDF

(

term

frequency-inveve

document

frquency

,

词频-逆向文件频率

)

分词器另外一个强大的功能是

,

它可以提供自定义词典的接

用户可以根据自己的需要

将自定义的词典导入到

jieba

一种用于信息检索与文本挖掘的常用加权技术

&

6

'

,

TF-IEF

一种统计模型

用以评估一个词在一个文本中的重要程度

,

字典库

之后的分词可以根据用户自定义的词典进行分词

(

2

)

去停用词

分好词后

,根据具体的应用场景需要将

词的重要性会随着它在当前文本中出现的次数成正比增加

同时会随着它在整个语料库中出现的次数成反比下降

其中

TF(

Term-Crequenca

)

是当前文本中的词频统计

IDF

(

Inverse

文本中大量出现的语气助词

标点符号

连接词

量词等在文

本模型训练前从文本中过滤掉

,

然而有些应用场景需要保留

量词

所以并没有一个固定的停用词表来适用于所有场景

所有的停用词表需要根据实际情况人为输入

停用词列表

Document

Frequency

)

是逆向文档频率统计

具体算法公式如

3

所示。

tfij

=

寸話

其中叫

是第

i

个词在文档

j

中出现的次数

分母则是文档

j

中所有词汇出现的次数总和

TF

W

=

某文档中词条如出现的次数

^3^

中所有词舷目

|D|

idfi

=

log

IDF

=

log

圖斗库

包禹条询

,

分母加

1,

是为了避免分母为

o

FT-IDF

=

TF*IDF

3

TF-IEF

计算公式

(

4

)

模型训练

关于文本训练的模型有很多

通常要根

据不同的业务场景选择合适的模型训练

针对公司画像可能

到的模型有

word2vec,LSTM

,

TextRNN+

Attention

,

BERT

有模型都会涉及词向量的概念(

Word

Embedding

)

,

它是由实

数组成的固定维数的向量

,

每个词条对应一个词向量

通过会涉及的场景包括信息抽取

文本分类

舆情监测等

可以用

#02

科技风

2021

5

电子信息

模型训练

(

如图

4

所示

)

最终可以将词条映射到对应的词向

计算相似度模型、

聚类模型中进行最终模型的训练

量上

然后将词向量作为输入变量放到不同模型比如分类模

I ogp(

bu

|

C

ontext(bv))

0.286

0.792

-0.177

-0.107

0.109

-0.542

0.349

0.271

0.487

0.887

4

word2vec

基于

CBOW

训练词向量

(

5

)

企业画像

O

通过网络爬虫获取到的结构化数据

体分析

;

企业倾向性模型可以预测企业是否有购买某项产品

过数据清洗后可直接入库

,包括公司名称

注册资本

注册城

或服务的可能性

,

从而促成精准营销

;

企业生命周期管理模

注册时间

财务报表

招聘人数

申请专利

员工人数等信

并可作为企业基础信息

,

用以确定企业所处阶段

企业健

型可以实时洞悉企业价值

(

历史价值

、当前价值

潜在价值

),

从而挖掘出企业所有可能机会点

;

销售漏斗报告模型可以实

时观察企业忠诚度以及流失度

,从而调整企业营销策略

;企

业产品推荐模型可以通过计算企业用户销售行为

从而定制

化的推荐高可能性购买产品

根据以上结构化数据和模型

康指数

企业标签等

非结构化的文本数据经过模型训练后

转化成结构化数据再入库

如文本分类模型可以确定企业所

属行业

企业最新舆情动态

;关键词提取模型可以构建企业

新闻词云

,

了解企业的最新动态和发展方向

;文本相似度模

结果最终可以得到企业级画像

整体架构如图

5

所示

型可以查询到具有相似属性的公司

实现企业间聚类进行群

5

企业画像概览

4

结论

*

2

:

钱晓真

烨•基于网络爬虫技术的用电企业分析

*

J

]

集成电路应用

,

2021

,

38

(

01

)

136-137.

*3

:

陈宣雨.自然语言处理在企业语调领域的应用与展

*

J

].

新经济

,

2021

(

02

)

59-63.

由于市场上有关企业画像的方法论和系统不够普及

致以

B2B

业务为主的公司很少像

B2C

公司一样对客户进行

画像

从而进行精准营销

为此本文基于大数据与机器学习

技术构建了动态企业画像系统

,

尽管设计的系统已经通过验

*

4

+

石凤贵.基于

jiebr

中文分词的中文文本语料预处理

模块实现

*

J

]

电脑知识与技术

,

2020

,16

(

14

)

248-251+257

.

证性实验具备一定的可行性,

但以上都只是基于

PC

端做的

相关研究

,并没有实时收集海量数据以及大规模进行模型训

因此还不能确定企业画像在海量数据上的表现,

因此接

下来会尝试搭建或租用阿里云

AWS

'

Azue

云平台进行海量

数据的验证

*

5

+

结巴中文分词

*

EB/

OL

+

.

https

:

//github

.

com/

fxsjy/

jieba.

*

6

:

王国桥

牛少彰.基于

TF-IDF

的社交电商文本信息

分类研究

*

J

]

网络空间安全

,

2020

,

11

(

12

)

32-38.

作者简介

:

房金龙

(

1986

),

黑龙江鹤岗人

数据

参考文献

:

1

:

王莉•基于标签库的企业画像系统优化设计

*

J

]

•信

息与电脑

(

理论版

)

2020

,

32

(

18

)

78-79.

分析师

对外经济贸易大学统计学院在职人员高级课程研修

班学员

103


本文标签: 企业 数据 画像 文本 模型