admin 管理员组文章数量: 1184232
2024年4月15日发(作者:linux命令练习工具)
大数据预处理的学习与实操复盘总结。
大数据采集与预处理概述
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的
边界和应用范围,各种数据正在迅速膨胀并变大。杰姆·格雷(Jim Gray)提出著名的"新摩尔定
律",即人类有史以来的数据总量,每过18个月就会翻一番。
互联网每天产生的全部内容可以刻满6.4亿张DVD;全球每秒发送290万封电子邮件,一
分钟读一篇的话,足够一个人昼夜不停地读5.5年;Google每天需要处理24PB的数据;每天
会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年;网民每天在
Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB;Twitter
上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年。
随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能
源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、
越来越复杂。
下面列举下大数据采集的途径:
(1)系统日志采集
可以使用海量数据采集工具,用于系统日志采集,如Hadoop的Chukwa、Cloudera的
Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集
和传输需求。
(2)互联网数据采集
通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数据从网页中抽
取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,附
件与正文可以自动关联。除了网站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术
实现对网络流量的采集。
(3)APP移动端数据采集
APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的
信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应
用的数量和类型等。单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终
端数据和部分行为数据也会达到数亿的量级。
(4)与数据服务机构进行合作
数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取
自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可
以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
(5)大企业基础支撑平台
提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物
联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术,大数据获取、存储、组织、分
析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
版权声明:本文标题:大数据预处理的学习与实操复盘总结。 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1713114807a620576.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论