admin 管理员组

文章数量: 1184232


2024年4月15日发(作者:linux命令练习工具)

大数据预处理的学习与实操复盘总结。

大数据采集与预处理概述

21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的

边界和应用范围,各种数据正在迅速膨胀并变大。杰姆·格雷(Jim Gray)提出著名的"新摩尔定

律",即人类有史以来的数据总量,每过18个月就会翻一番。

互联网每天产生的全部内容可以刻满6.4亿张DVD;全球每秒发送290万封电子邮件,一

分钟读一篇的话,足够一个人昼夜不停地读5.5年;Google每天需要处理24PB的数据;每天

会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年;网民每天在

Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB;Twitter

上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年。

随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能

源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、

越来越复杂。

下面列举下大数据采集的途径:

(1)系统日志采集

可以使用海量数据采集工具,用于系统日志采集,如Hadoop的Chukwa、Cloudera的

Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集

和传输需求。

(2)互联网数据采集

通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数据从网页中抽

取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,附

件与正文可以自动关联。除了网站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术

实现对网络流量的采集。

(3)APP移动端数据采集

APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的

信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应

用的数量和类型等。单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终

端数据和部分行为数据也会达到数亿的量级。

(4)与数据服务机构进行合作

数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取

自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可

以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。

(5)大企业基础支撑平台

提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物

联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术,大数据获取、存储、组织、分

析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。


本文标签: 数据 采集 用户 信息