admin 管理员组

文章数量: 1184232


2024年4月29日发(作者:myeclipse下载地址)

Microcomputer

Applications

Vol.

37,

No.

6,2021

文章编号

1007-757X(2021)06-0194-04

技术交流

微型电脳%用

2021

年第

37

)第

6

基于分布式数据库的大数据平台动态页面数据生成技术

苏莉娜

(江苏省第二中医院

江苏南京

210019

)

摘要

随着计算机网络的发展,

包含有音频等多种信息形式的动态页面广泛应用

动态页面的应用为页面数据提取带来了

一定难度

针对分布式数据库的特点从大数据网络平台中建立了

动态页面数据生成系统

首先用

MapReduce

方法对分

布式数据库的大数据进行了预处理

之后根据页面

JavaScript

脚本特

d

建立了脚本提取子系统

结合分布式数据存储方式建

立了动态页面信息采集系统

最后对系统功能进行了测试分析

关键词

动态页面

本提取

系统

测试

中图分类号

TP391

文献标志码

A

Dynamic

Page

Data

Generation

Technology

of

Big

Data

Platform

Based

on

Distributed

Database

SU

Lina

(Jiangsu

Second

Chinese

Medicine

Hospital

,

Nanjing

210019,

China)

Abstract

:

With

the

development

of

computer

network,

the

dynamic

page

with

audio

and

other

information

forms

is

widely

used.

The

application

of

dynamic

page

brings

some

difficulties

for

page

data

extraction.

According

to

the

characteristics

of

distributed

database

,

a

set

of

dynamic

page

data

generation

system

is

established

from

the

big

data

network

platform.

Firstly,

the

MapRe

­

duce

method

is

used

to

preprocess

the

big

data

of

distributed

database,

then

the

script

extraction

subsystem

is

established

ac

­

cording

to

the

characteristics

of

page

JavaScript

script,

and

the

dynamic

page

information

collection

system

is

established

by

combining

the

distributed

data

storage

method.

Finally,

the

system

function

is

tested

and

analyzed.

Key

words

:

dynamic

page

script

extraction

system

test

0

引言

随着网络技术和计算机科学的发展

我国的计算机网络

用户数量不断攀升

根据

2019

中国互联网络发展状况统

计报告

显示

止到

2019

年底

,我国互联网用户数量达到

9.

87

亿

2018

年同

增长约

9.

4%

*

互联网用户数

量增长的背后是网络数据爆发式增长

如何使网络用户在海

量数据中集中

选有用信息

时间提高上网查询效率是

一个突出问题

其次

现有的数据结构由传统的嵌入式

HT

­

ML

网页静态数据变成了以语音

视频等为载体的动态数

1

MapReduce

数据处理流程

由图

1

可知

首先在数据输入端将分布式数据库中的数

据分解为几个

splite

集合

之后根据

map

函数对

splite

集合

中的数据进行匹配计算,匹配后的数据经过

middle

result

相比于静态数据

其筛选难度更大

*

5

+

因此

本文结合

动态页面特点

,建立了动态页面脚本提取系统

在分布式数

据提取基础上对动态页面的脚本信息进行提取

最后对系统

据整合后以函数形式输出结果

最后数据经过函数反解

规定的表现形式输出结果

数据处理的前提是数据的安全性问题

为此本文专门开

的功能进行了测试分析

&

发了符合数据库特点的数据安全访问流程,

如图

2

所示

&

1

分布式数据处理

MapReduce

是一种建立在分布式数据存储基础上的数

计算方法

*

7+

,

它是将分布式数据库中的大量数据进行

分解

将数据库逐渐分解成需要的目标节点

之后从整合的

目标节点中寻找需要的数据并将数据汇总。

MapReduce

据处理流程如图

1

所示

&

2

数据

访问

流程

由图

2

可知

用户依次进行

user

权限

db

权限

tables-

作者简介

苏莉娜

(1977-),

本科

高级工程师

研究方向

成平台、

医院信息化

&

194

Microcomputer

Applications

Vol.

37,

No.

6,2021

prive

权限

columns-prive

权限认证

根据安全等级的不同

技术交流

微型电脳%用

2021

年第

37

6

采取不同层级的认证访问权限

2

脚本提取子系统

为了对动态页面实现信息采集

需要在动态页面和系统

数据库间增设脚本提取系统

以处理提取数据的临时存储和

数据筛选交换

&

脚本解析系统的工作流程如图

3

所示

&

4

算法架构

^

Z

^

W1

C

Z

^

W4

-

u

d

.

I

Q

W3

Q

W6

O

按照以上算法架构

建立了调度算法流程

如图

5

所示

&

3

脚本解析流程

由图

3

可知,

首先在

HTML

网页文件中构建

DOM

根据

JavaScript

中目标信息与

DOM

树的关系

采取二元化

的信息处理方式

解析环境初始化后提取

HTML

网页文件

中的脚本信息

脚本提取完成后运行脚本

若脚本是一个

open

#

类函数,则保存

URL,

否则重构

DOM

重复上述流

脚本解析的难点是

DOM

解析

它的原理是将对象按照

模型树的方式

HTML

网页文件中将网页信息用结构化

的方式展现&

根据目前计算机软硬件的发展特点

需要采用有针对性

的数据调动方式和程序以克服不同软件条件下作业命令和

数据格式

的弊端】

8

本文开

适用于动态信息提

取和

MySQL

数据库特点的

MapReduce

调度算法&算法架

构如图

4

所示

由图

4

可知

作业池是将所有的工作任务按照任务间的

5

调度算法流程

由图

5

可知

算法的第一步是选择最优任务

算法按照

预定的规则将作业池中的任务进行优先级别排序

同时根据

任务特点从资源池匹配与之对应的节点

HS

调度判定是作

业任务和资源节点间的匹配调度过程

若资源池中节点无法

匹配任务

HS

调度判定命令会选择下一个紧邻的任务进

行资源池中节点的匹配

落后任务判定与推测执行是对于

级别有所调整的执行任务进行优先级别的调整

并利用资源

池节点进行匹配

&

脚本提取系统数据文件存储结构

如图

6

所示

&

由图

6

可知

cawldb

是系统连接的爬行数据库

是对网

的数据采集

记录

进行跟

踪;

jscawldb

数据库包含两个子系

页面

JavaScript

%

Segments

数据

逻辑关系进行分类

在同一个工作任务下可按照时间顺序

优先顺序等进行任务细化分解

实时资源列表是为了提高

调度效率设置的具有列表黑名单功能的信息筛选功能

它是

根据作业池向资源池发送的

Task

Scheduling

信息

采用两

次发送两次接收的模式

若资源池只收到一次

Task

Schedu-

lng

请求,

则表明该节点是非法的

将其列入黑名单

195

是对每一个完成访问的页面进行信息存储

,将每一个页面存

储生成一个单独的文件

Lnkdb

是一种网页链接数据库是对

所有访问的网页地址进行存储

根据以上脚本提取方式

建立了动态页面信息采集系统

架构

如图

7

所示

Microcomputer

Applications

Vol.

37,

No.

6,2021

|

crawldb

|

jscrawldb

r

l

js

URL

|

|

content_dyn

技术交流

微型电脳%用

2021

年第

37

6

网页信息的形式将筛选结果进行保存

&

|

js

content

contentsta

3

系统测试分析

动态

面数据生成系统是针对音视频等动态数据进行

提取的以对象为目标的信息捕捉系统

根据系统数据处理流

|

crawlfetch

|

segment

1

----

crawl_generate

|

crawl_parse

|

segments

程和脚本提取方式对系统的性能进行

试分析

测试中选

择某市科技局网

站为对象,对网站中的动态信息进行采集

,

|

prasedata

|

prasetext

Contentdyn

N

segmentN

与其

集方式对比

&

3.

1

测试环境

系统集成模拟系统由

4

台并联的计算机组成

&

系统测

|

prasetext

|

linkdb

|

试软硬件的

1

所示

&

1

测试软硬件

6

数据存储结构

项目

测试应用

计算机硬件

Inter(R)Corei73615QMCPU

@

2.

3

GHz

,

4

GB,500

GB

硬盘

抓取

脚本解析

页面解析

翻转

操作系统

Ubuntull.

10

Hadoop-0.20.2release

脚本提取软件

segments/2012

/dyn_content

segments/2012

/sta

content

segments/2012

segments/2012

/parse_text

/parse_data

数据

任务排序软件

Apache-ant-1.

8-bin

tar

gz

Jdk-7u11-linux-i586.

bin

7

动态

面信息采集系统架构

3.

2

测试结果

由图

7

可知

首先系统根据筛选种子从系统白名单中对

数据进行抓

对于

取的网

利用脚本提取系统对网

系统

试后对科技局网站进行了静态数据提取

取结果如图

8

所示

&

本进行提取

按照页面脚本信息对

页面数据进行

处理

筛选

最后根据筛选

对筛选数据进行翻转

以数据及

新华网

Glas^*tEd36

bald

lh5Q*>

naDE?=

J

Title'

7

醐沪吕口

4

14>

何梁何示!]基金

ED1

炜度颇奖夫会在京举彳亍刘延东出席

qrr=ViTiwgpq/det

Bi

l-linfi.

jpe

"

■呂

9D"

heieli1=*ll"'

歹可

12

Lh22

F

>

日期

2014^-1

31

Qfaibsp;Axihap

;

Axihap

;

id=*Zbnn*

clflaa=*trBhuil3

Lh22*>

aligpFcmt

erXDIV

i

^ImaacX/tH

nemeF^C

口毗如航世上亠/)

■^slylE

1

^_Cu3-tEH]_E-t

j

-L

e

_>

hi

PA&E-BREAE-hFTCE:

intcr-i

akh;

TEXT-ALI&N:

justify;

LINE-HEIGHT:

17pt

(km

16.

fot

F0WT-EI2E:

22

P

t

FONT-WEICffl':

bold

13pt

(km

JUTT-SIZE

l&jit

FaNT-WEIGHT:

hold

PADI-BKEAE-^IER:

Hroid;

imTUSTUY:

intEr-idaacrgjih;

TEKT-ALJGn

justify;

LIHE-HEIGHT:

IT

h3

PAGE-BREAE-JtFTEE:

nruid;

■JEH-JU^TIF?

intn-idflagr^ph;

TEKT-ALJGN

justify;

LINE-HEIGE?T

173*

nAE&IM:

1

t

(km;

FOUT-SIZE

l&pt; F0H7-WEIGHT:

bald

DIV.

union

UWE-HEIGHT:

1

x

FONT-SIZE:

14^7

DIV.

union

TD

[

hE-HBIGKT:

18

PONT-SIZE:

1

如:

}

8

静态提取

由图

8

可知

相比较于动态网

页数据

静态数据提取技

术能有效提取

面的有效信息

&

由表

2

可知

在抽取网

总数和

字段

总数相同的前提

加入脚本提取解析系统后其提取的准确率上升了

32%

,

本文以对比的方式分析了系统在脚本加入前后系统抽

取有效信息数量和提取效率

测试结果如表

2

所示

&

而系统消耗的时间与原来相比只增加

9.5%

因此该脚本提

取解析系统达到了预定功能需求

&

2

数据提取

工况

取网

总数

字段

正确抽取

4

总结

消耗时间

总数

字段

随着动态网

信息的丰富

网页中的数据类型也有所丰

,用户的上网体验效果更佳

与此同时

动态网页中的信息

加入脚本提取

解析系统前

加入脚本提取

解析系统后

650

2

500

1

500

105

s

采集难度也随之增加

&

本文以从分布式数据库为基础

开发

了适用于动态网页的脚本解析系统和数据调度方式

在分析

650

2

500

2

300

115

s

了分布式数据库类型基础上对动态

面信息采集系统进行

了架构分析,最后对系统的应用效果进行了测试

结果表明

196

Microcomputer

Applications

Vol.

37,

No.

6,2021

加入脚本提取解析系统后其提取的准确

率上升了

32%

,而系

技术交流

微型电脳%用

2021

年第

37

)第

6

46(12):213-219.

统消

的时间与原来相比只增加

9.

5%

&

&

5

'

陈晓琳

李盛乐

刘坚

等.分布式数据库

Greenplum

在地震前兆数据存储中的应用

&

J

'

.

地震研究

2020

,

参考文献

:

1

'

米伟娟

,李娜

李微

等.基于分布式数据库的船舶大

43(2

)

412-416.

:

6

'

梁勇

WANG

Chao.

关系数据库中分布式大数据集成

数据平台动态页面数据生成技术[

J

.

舰船科学技术

!

解仿真

J

计算机仿真

,2019,36(5

)

*99-402.

:

7

'

李婕

.

分布式

多空间数据库复杂时态数据提取技术

&

J

'

.

科学技术与工程

,2019,19(12

)

200205.

2020,42(6):157-159.

&

2

'

程光德.数据库中分布式大数据关键特征防篡改

仿真

&

J

'

.

计算机仿真

,2019,36(6

)

332-336.

:

8

'

徐梓荐

叶盛

张孝.分布式异构数据库数据同步工具

&

J

'

.

软件学报

,2019,30(3):684-699.

&

3

'

田子建

贺方圆.一种基于分布式

缩感知的矿井目

标指纹数据库建立方法&

J

'

.

电子与信息学报

2019

,

&

9

'

乐鹏

吴昭炎

上官博屹.基于

Spark

的分布式空间数

据存储结构设计与实现

&

J

'

.

武汉大学学报(信息科学

41(10):2450-2456.

&

4

'

廖彬

,张陶

李敏

等.基于操作历史图的分布式

Key-

),

2018,43(12

)

2295-2302.

(

Value

数据库一致性检测算法

&

J

'

.

计算机科学

2019

,

:

2020.09.18

)

(上接第

193

)

a

ZEasyParking

用户

ID

密码

D

预约医师

arc

>

2easyparking

>

com,)n2

D

提交

uanze

1>

>

®

ZizhuxuarzeAdivityjava

>

^tujian

6

自主预约子

单设计

参考文献

:

1

'

张磊,

张美英

.

社区服务中心开展护理预约服务的体

会探讨

J

中国保健营养

,

2013,23(4

):

801802.

作中的应用与效果评价

&

J

'

.

中国数字医学,

2015

,

10

(

9

):

57-60

:

7

'

卢明

俞燕娟,

李中东

.

基于家庭医护平台延续

性护理模式的构建及应用

&

J

'

.

中华护理杂志

2019

,

:

2

'

柯锦秀

,吴德红

.

探讨门诊预约服务对护理工作的作

&

J

'

.

护理实践与研究

2010

,

7(15):6970.

54

(

12

):

1851-1855

&

8

'

贾美娜

.

信息化管理在外科门诊护理服务流程中的

实践

J

医学信息学杂志

,

2015

,

36(8

)

38-41.

:

3

'

吴玉梅

吉承玲,

刘香

等.全程预约护理在血液科

层流病房患者中的应用效果

&

J

'

.

国际护理学杂志

,

:

9

'

潘明皓

高伟

李红,

等.山东省临床护士移动护理

2019

!

38

(

3

):

335-338

&

4

'

徐丽莎.门诊预约服务对护理工作的作用

&

J

'

.

名医

APP

功能需求及使用意愿的现状调查&

J

'

.

全科护

!

2020

!

18

(

1

):

104-108

&

10

'

胡婉玲

.

移动

APP

在门诊输液护理流程优化中的应

J

中国医药科学

2019

,

9(12)

135"38.

2018

!

66

(

11

):

153

:

5

'

何丽昆

.

优质护理在预约挂号服务中的应用分析

J

'

.

中国社区医师

2018

,

34(17

):

140.

(

:

2020.09.03

)

&

6

'

郝佳

,苏慧

赵彬彬.手机

APP

在数字化门诊护理工

197


本文标签: 数据 进行 系统 提取