admin 管理员组文章数量: 1184232
2024年3月28日发(作者:shrouded)
硕士论文开题报告5篇
硕士论文开题报告精选篇1
一、课题来源:
本课题来源于作者在学习和实习中了解到的两个事实,属于自拟课题。
其一,作者在11年7月在__X公司调研,了解到现如今各行业都面临着数据
量剧增长,并由此带来业务处理速度缓慢,数据维护困难等问题。为了应对此
挑战,很多企业开实施大数据发展战略。现如今的大数据发展战略可以概括为
两类,一类是垂直扩展。即采用存储容量更大,处理能力更强的设备,此种方
式成本较大,过去很多大公司一直采用此种方法处理大数据。但自从04年
Google发布关于GFS,MapReduce和BigTable三篇技术论文之后,云计算开始
兴起,06年Apache Hadoop项目启动。随后从09年开始,随着云计算和大数
据的发展,Hadoop作为一种优秀的数据分析、处理解决方案,开始受到许多
IT企业的关注。相较于垂直扩张所需的昂贵成本,人们更钟情于采用这种通过
整合廉价计算资源的水平扩展方式。于是很多IT企业开始探索采用Hadoop框
架构建自己的大数据环境。
其二,作者自13年4月在__X实习过程中进一步了解到,因为关系数据库在
存储数据格式方面的局限,以及其Schema机制带来的扩展性上的不便,目前在
大部分的大数据应用环境中都采用非结构化的数据库,如列式存储的Hbase,
文档型存储的MangoDB,图数据库neo4j等。这些非结构化数据库因为可扩展
性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到
了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现
商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据
仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解
决方案。
二、研究目的和意义:
现如今,数据已经渗透到每一个行业,成为重要的生产因素。近年来,由于
第 1 页 共 16 页
历史积累和和数据增长速度加快,各行业都面临着大数据的难题。事实上,大
数据既是机遇又时挑战。合理、充分利用大数据,将其转变为海量、高增长率
和多样化的信息资产,将使得企业具有更强的决策力、洞察发现力和流程优化
等能力。因此,很多IT企业都将大数据作为其重要的发展战略,如亚马逊、脸
谱网已布局大数据产业,并取得了骄人的成绩。事实上,不止谷歌、易趣网或
亚马逊这样的大型互联网企业需要发展大数据,任何规模的企业都有机会从大
数据中获得优势,并由此构建其未来业务分析的基础,在与同行的竞争中,取
得显著的优势。
相较于大型企业,中小企业的大数据发展战略不同。大公司可以凭借雄厚的
资本和技术实力,从自身环境和业务出发,开发自己的软件平台。而中小企业
没有那样的技术实力,也没有那么庞大的资金投入,更倾向于选择一个普遍
的、相对廉价的解决方案。本文旨在分析大数据环境下数据库的特点,结合当
下流行的Hadoop框架,提出了一种适用于大数据环境的数据仓库的解决方案并
实现。为中小企业在大数据环境中构建数据仓库提供参考。其具体说来,主要
有以下三方面意义:
首先,目前主流的数据库如Oracle、SQL Server都有对应自己数据库平台的
一整套的数据仓库解决方案,对于其他的关系型数据库如MySQL等,虽然没有
对应数据库平台的数据仓库解决方案,但有很多整合的数据仓库解决方案。而
对于非结构化的数据库,因其数据模型不同于关系型数据库,需要新的解决方
案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为其提供一个参
考。
其次,通过整合多源非结构化数据库,生成一个面向主题、集成的数据仓
库,可为大数据平台上的联机事务处理、决策支持等提供数据环境,从而有效
利用数据资源辅助管理决策。
再次,大数据是一个广泛的概念,包括大数据存储、大数据计算、大数据分
析等各个层次的技术细节,本文提出的“大数据环境下的数据仓库解决方案及
实现“丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据
挖掘等提供支撑。
第 2 页 共 16 页
版权声明:本文标题:硕士论文开题报告5篇 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1711636592a602977.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论