admin 管理员组文章数量: 1184232
2024年4月29日发(作者:myeclipse下载地址)
Microcomputer
Applications
Vol.
37,
No.
6,2021
文章编号
:
1007-757X(2021)06-0194-04
技术交流
微型电脳%用
2021
年第
37
)第
6
期
基于分布式数据库的大数据平台动态页面数据生成技术
苏莉娜
(江苏省第二中医院
,
江苏南京
210019
)
摘要
:
随着计算机网络的发展,
包含有音频等多种信息形式的动态页面广泛应用
,
动态页面的应用为页面数据提取带来了
一定难度
。
针对分布式数据库的特点从大数据网络平台中建立了
一
套
动态页面数据生成系统
,
首先用
MapReduce
方法对分
布式数据库的大数据进行了预处理
,
之后根据页面
JavaScript
脚本特
d
建立了脚本提取子系统
,
结合分布式数据存储方式建
立了动态页面信息采集系统
,
最后对系统功能进行了测试分析
。
关键词
:
动态页面
;
脚
本提取
;
系统
;
测试
中图分类号
:
TP391
文献标志码
:
A
Dynamic
Page
Data
Generation
Technology
of
Big
Data
Platform
Based
on
Distributed
Database
SU
Lina
(Jiangsu
Second
Chinese
Medicine
Hospital
,
Nanjing
210019,
China)
Abstract
:
With
the
development
of
computer
network,
the
dynamic
page
with
audio
and
other
information
forms
is
widely
used.
The
application
of
dynamic
page
brings
some
difficulties
for
page
data
extraction.
According
to
the
characteristics
of
distributed
database
,
a
set
of
dynamic
page
data
generation
system
is
established
from
the
big
data
network
platform.
Firstly,
the
MapRe
duce
method
is
used
to
preprocess
the
big
data
of
distributed
database,
then
the
script
extraction
subsystem
is
established
ac
cording
to
the
characteristics
of
page
JavaScript
script,
and
the
dynamic
page
information
collection
system
is
established
by
combining
the
distributed
data
storage
method.
Finally,
the
system
function
is
tested
and
analyzed.
Key
words
:
dynamic
page
;
script
extraction
;
system
;
test
0
引言
随着网络技术和计算机科学的发展
,
我国的计算机网络
用户数量不断攀升
,
根据
2019
年
《
中国互联网络发展状况统
计报告
》
显示
,
截
止到
2019
年底
,我国互联网用户数量达到
了
9.
87
亿
,
比
2018
年同
期
增长约
9.
4%
*
勺
。
互联网用户数
量增长的背后是网络数据爆发式增长
,
如何使网络用户在海
量数据中集中
筛
选有用信息
,
节
省
时间提高上网查询效率是
一个突出问题
,
其次
,
现有的数据结构由传统的嵌入式
HT
ML
网页静态数据变成了以语音
、
视频等为载体的动态数
图
1
MapReduce
数据处理流程
由图
1
可知
,
首先在数据输入端将分布式数据库中的数
据分解为几个
splite
集合
,
之后根据
map
函数对
splite
集合
中的数据进行匹配计算,匹配后的数据经过
middle
result
数
据
,
相比于静态数据
,
其筛选难度更大
*
「
5
+
。
因此
,
本文结合
动态页面特点
,建立了动态页面脚本提取系统
,
在分布式数
据提取基础上对动态页面的脚本信息进行提取
,
最后对系统
据整合后以函数形式输出结果
,
最后数据经过函数反解
,
以
规定的表现形式输出结果
。
数据处理的前提是数据的安全性问题
,
为此本文专门开
的功能进行了测试分析
&
发了符合数据库特点的数据安全访问流程,
如图
2
所示
&
1
分布式数据处理
MapReduce
是一种建立在分布式数据存储基础上的数
据
云
计算方法
*
7+
,
它是将分布式数据库中的大量数据进行
分解
,
将数据库逐渐分解成需要的目标节点
,
之后从整合的
目标节点中寻找需要的数据并将数据汇总。
MapReduce
数
据处理流程如图
1
所示
&
图
2
数据
访问
流程
由图
2
可知
,
用户依次进行
user
权限
、
db
权限
、
tables-
作者简介
:
苏莉娜
(1977-),
女
,
本科
,
高级工程师
,
研究方向
:
集
成平台、
医院信息化
&
・
194
・
Microcomputer
Applications
Vol.
37,
No.
6,2021
prive
权限
、
columns-prive
权限认证
,
根据安全等级的不同
,
技术交流
微型电脳%用
2021
年第
37
)
第
6
期
采取不同层级的认证访问权限
。
2
脚本提取子系统
为了对动态页面实现信息采集
,
需要在动态页面和系统
数据库间增设脚本提取系统
,
以处理提取数据的临时存储和
数据筛选交换
&
脚本解析系统的工作流程如图
3
所示
&
图
4
算法架构
^
Z
^
W1
C
Z
^
W4
-
u
d
.
I
Q
W3
Q
W6
O
按照以上算法架构
,
建立了调度算法流程
,
如图
5
所示
&
图
3
脚本解析流程
由图
3
可知,
首先在
HTML
网页文件中构建
DOM
树
,
根据
JavaScript
中目标信息与
DOM
树的关系
,
采取二元化
的信息处理方式
,
解析环境初始化后提取
HTML
网页文件
中的脚本信息
,
脚本提取完成后运行脚本
,
若脚本是一个
open
#
类函数,则保存
URL,
否则重构
DOM
树
,
重复上述流
程
。
脚本解析的难点是
DOM
解析
,
它的原理是将对象按照
模型树的方式
,
在
HTML
网页文件中将网页信息用结构化
的方式展现&
根据目前计算机软硬件的发展特点
,
需要采用有针对性
的数据调动方式和程序以克服不同软件条件下作业命令和
数据格式
的弊端】
8
切
。
本文开
适用于动态信息提
取和
MySQL
数据库特点的
MapReduce
调度算法&算法架
构如图
4
所示
。
由图
4
可知
,
作业池是将所有的工作任务按照任务间的
图
5
调度算法流程
由图
5
可知
,
算法的第一步是选择最优任务
,
算法按照
预定的规则将作业池中的任务进行优先级别排序
,
同时根据
任务特点从资源池匹配与之对应的节点
。
HS
调度判定是作
业任务和资源节点间的匹配调度过程
,
若资源池中节点无法
匹配任务
,
则
HS
调度判定命令会选择下一个紧邻的任务进
行资源池中节点的匹配
。
落后任务判定与推测执行是对于
级别有所调整的执行任务进行优先级别的调整
,
并利用资源
池节点进行匹配
&
脚本提取系统数据文件存储结构
,
如图
6
所示
&
由图
6
可知
,
cawldb
是系统连接的爬行数据库
,
是对网
页
的数据采集
记录
进行跟
踪;
jscawldb
数据库包含两个子系
统
,
对
页面
JavaScript
文
行
%
Segments
数据
逻辑关系进行分类
,
在同一个工作任务下可按照时间顺序
、
优先顺序等进行任务细化分解
。
实时资源列表是为了提高
调度效率设置的具有列表黑名单功能的信息筛选功能
,
它是
根据作业池向资源池发送的
Task
Scheduling
信息
,
采用两
次发送两次接收的模式
,
若资源池只收到一次
Task
Schedu-
lng
请求,
则表明该节点是非法的
,
将其列入黑名单
。
・
195
是对每一个完成访问的页面进行信息存储
,将每一个页面存
储生成一个单独的文件
;
Lnkdb
是一种网页链接数据库是对
所有访问的网页地址进行存储
。
根据以上脚本提取方式
,
建立了动态页面信息采集系统
架构
,
如图
7
所示
。
Microcomputer
Applications
Vol.
37,
No.
6,2021
—
|
crawldb
—
|
jscrawldb
r
l
js
—
URL
|
—
|
content_dyn
技术交流
微型电脳%用
2021
年第
37
)
第
6
期
网页信息的形式将筛选结果进行保存
&
—
|
js
content
contentsta
3
系统测试分析
动态
页
面数据生成系统是针对音视频等动态数据进行
提取的以对象为目标的信息捕捉系统
,
根据系统数据处理流
—
|
crawlfetch
—
|
segment
1
----
crawl_generate
—
|
crawl_parse
—
|
segments
程和脚本提取方式对系统的性能进行
试分析
,
测试中选
择某市科技局网
站为对象,对网站中的动态信息进行采集
,
—
|
prasedata
—
|
prasetext
Contentdyn
N
segmentN
与其
集方式对比
&
3.
1
测试环境
系统集成模拟系统由
4
台并联的计算机组成
&
系统测
—
|
prasetext
—
|
linkdb
|
试软硬件的
1
所示
&
表
1
测试软硬件
图
6
数据存储结构
项目
测试应用
计算机硬件
Inter(R)Corei73615QMCPU
@
2.
3
GHz
,
4
GB,500
GB
硬盘
抓取
脚本解析
页面解析
翻转
操作系统
Ubuntull.
10
Hadoop-0.20.2release
脚本提取软件
segments/2012
—
/dyn_content
segments/2012
—
/sta
content
segments/2012
segments/2012
—
/parse_text
—
/parse_data
数据
任务排序软件
Apache-ant-1.
8-bin
tar
gz
Jdk-7u11-linux-i586.
bin
图
7
动态
页
面信息采集系统架构
3.
2
测试结果
由图
7
可知
,
首先系统根据筛选种子从系统白名单中对
数据进行抓
取
,
对于
抓
取的网
页
,
利用脚本提取系统对网
页
系统
试后对科技局网站进行了静态数据提取
,
提
取结果如图
8
所示
&
本进行提取
,
按照页面脚本信息对
页面数据进行
处理
筛选
,
最后根据筛选
对筛选数据进行翻转
,
以数据及
新华网
Glas^*tEd36
bald
lh5Q*>
naDE?=
J
Title'
7
醐沪吕口
4
匕
14>
何梁何示!]基金
ED1
炜度颇奖夫会在京举彳亍刘延东出席
qrr=ViTiwgpq/det Bi l-linfi. jpe " ■呂 9D" heieli1=*ll"' 歹可 12 Lh22 F > 日期 : 2014^-1 31 Qfaibsp;Axihap ; Axihap ;
id=*Zbnn*
clflaa=*trBhuil3
Lh22*>
aligpFcmt
erXDIV
i
^ImaacX/tH
nemeF^C 口毗如航世上亠/) ■^slylE 1 ^_Cu3-tEH]_E-t j -L e _> hi PA&E-BREAE-hFTCE: intcr-i 血 akh; TEXT-ALI&N: justify; LINE-HEIGHT: 17pt (km 16. fot F0WT-EI2E: 22 P t ; FONT-WEICffl': bold 13pt (km : JUTT-SIZE l&jit : FaNT-WEIGHT: hold ’ PADI-BKEAE-^IER: Hroid; imTUSTUY: intEr-idaacrgjih; TEKT-ALJGn : justify; LIHE-HEIGHT: IT 刃 h3 PAGE-BREAE-JtFTEE: nruid; ■JEH-JU^TIF? intn-idflagr^ph; TEKT-ALJGN : justify; LINE-HEIGE?T 173* nAE&IM: 1 曲 t (km; FOUT-SIZE l&pt; F0H7-WEIGHT: bald DIV. union UWE-HEIGHT: 1 劭 x : FONT-SIZE: 14^7 DIV. union TD [ 口 hE-HBIGKT: 18 讹 ; PONT-SIZE: 1 如: } 图 8 网 页 静态提取 由图 8 可知 , 相比较于动态网 页数据 , 静态数据提取技 术能有效提取 页 面的有效信息 & 由表 2 可知 , 在抽取网 页 总数和 字段 总数相同的前提 下 , 加入脚本提取解析系统后其提取的准确率上升了 32% , 本文以对比的方式分析了系统在脚本加入前后系统抽 取有效信息数量和提取效率 , 测试结果如表 2 所示 & 而系统消耗的时间与原来相比只增加 9.5% , 因此该脚本提 取解析系统达到了预定功能需求 & 2 数据提取 工况 取网 页 总数 抽 取 字段 正确抽取 4 总结 消耗时间 总数 字段 数 随着动态网 页 信息的丰富 , 网页中的数据类型也有所丰 富 ,用户的上网体验效果更佳 , 与此同时 , 动态网页中的信息 加入脚本提取 解析系统前 加入脚本提取 解析系统后 650 2 500 1 500 105 s 采集难度也随之增加 & 本文以从分布式数据库为基础 , 开发 了适用于动态网页的脚本解析系统和数据调度方式 , 在分析 650 2 500 2 300 115 s 了分布式数据库类型基础上对动态 页 面信息采集系统进行 了架构分析,最后对系统的应用效果进行了测试 , 结果表明 ・ 196 Microcomputer Applications Vol. 37, No. 6,2021 加入脚本提取解析系统后其提取的准确 率上升了 32% ,而系 技术交流 微型电脳%用 2021 年第 37 )第 6 期 46(12):213-219. 统消 耗 的时间与原来相比只增加 9. 5% & & 5 ' 陈晓琳 , 李盛乐 , 刘坚 , 等.分布式数据库 Greenplum 在地震前兆数据存储中的应用 & J ' . 地震研究 , 2020 , 参考文献 : 1 ' 米伟娟 ,李娜 , 李微 , 等.基于分布式数据库的船舶大 43(2 ) : 412-416. : 6 ' 梁勇 , WANG Chao. 关系数据库中分布式大数据集成 数据平台动态页面数据生成技术[ J ] . 舰船科学技术 ! 冲 突 消 解仿真 J 计算机仿真 ,2019,36(5 ) *99-402. : 7 ' 李婕 . 分布式 多空间数据库复杂时态数据提取技术 & J ' . 科学技术与工程 ,2019,19(12 ) : 200205. 2020,42(6):157-159. & 2 ' 程光德.数据库中分布式大数据关键特征防篡改 仿真 & J ' . 计算机仿真 ,2019,36(6 ) : 332-336. : 8 ' 徐梓荐 , 叶盛 , 张孝.分布式异构数据库数据同步工具 & J ' . 软件学报 ,2019,30(3):684-699. & 3 ' 田子建 , 贺方圆.一种基于分布式 压 缩感知的矿井目 标指纹数据库建立方法& J ' . 电子与信息学报 , 2019 , & 9 ' 乐鹏 , 吴昭炎 , 上官博屹.基于 Spark 的分布式空间数 据存储结构设计与实现 & J ' . 武汉大学学报(信息科学 41(10):2450-2456. & 4 ' 廖彬 ,张陶 , 李敏 , 等.基于操作历史图的分布式 Key- 版 ), 2018,43(12 ) : 2295-2302. ( Value 数据库一致性检测算法 & J ' . 计算机科学 , 2019 , : 2020.09.18 ) (上接第 193 页 ) a 阴 ZEasyParking 用户 ID 密码 D 预约医师 , 侈 arc > 国 2easyparking > 团 com,)n2 D 異 { 提交 • uanze 1> 』 > ® ZizhuxuarzeAdivityjava > 册 ^tujian 图 6 自主预约子 菜 单设计 参考文献 : 1 ' 张磊, 张美英 . 社区服务中心开展护理预约服务的体 会探讨 J 中国保健营养 , 2013,23(4 ): 801802. 作中的应用与效果评价 & J ' . 中国数字医学, 2015 , 10 ( 9 ): 57-60 : 7 ' 卢明 , 俞燕娟, 李中东 , 等 . 基于家庭医护平台延续 性护理模式的构建及应用 & J ' . 中华护理杂志 , 2019 , : 2 ' 柯锦秀 ,吴德红 . 探讨门诊预约服务对护理工作的作 用 & J ' . 护理实践与研究 , 2010 , 7(15):6970. 54 ( 12 ): 1851-1855 & 8 ' 贾美娜 . 信息化管理在外科门诊护理服务流程中的 实践 J 医学信息学杂志 , 2015 , 36(8 ) : 38-41. : 3 ' 吴玉梅 , 吉承玲, 刘香 , 等.全程预约护理在血液科 层流病房患者中的应用效果 & J ' . 国际护理学杂志 , : 9 ' 潘明皓 , 高伟 , 李红, 等.山东省临床护士移动护理 2019 ! 38 ( 3 ): 335-338 & 4 ' 徐丽莎.门诊预约服务对护理工作的作用 & J ' . 名医 , 类 APP 功能需求及使用意愿的现状调查& J ' . 全科护 ! 2020 ! 18 ( 1 ): 104-108 & 10 ' 胡婉玲 . 移动 APP 在门诊输液护理流程优化中的应 用 J 中国医药科学 , 2019 , 9(12) : 135"38. 2018 ! 66 ( 11 ): 153 : 5 ' 何丽昆 . 优质护理在预约挂号服务中的应用分析 [ J ' . 中国社区医师 , 2018 , 34(17 ): 140. ( : 2020.09.03 ) & 6 ' 郝佳 ,苏慧 , 赵彬彬.手机 APP 在数字化门诊护理工 ・ 197 ・
版权声明:本文标题:基于分布式数据库的大数据平台动态页面数据生成技术 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1714347995a676549.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论