admin 管理员组

文章数量: 1184232


2024年3月28日发(作者:shrouded)

硕士论文开题报告5篇

硕士论文开题报告精选篇1

一、课题来源:

本课题来源于作者在学习和实习中了解到的两个事实,属于自拟课题。

其一,作者在11年7月在__X公司调研,了解到现如今各行业都面临着数据

量剧增长,并由此带来业务处理速度缓慢,数据维护困难等问题。为了应对此

挑战,很多企业开实施大数据发展战略。现如今的大数据发展战略可以概括为

两类,一类是垂直扩展。即采用存储容量更大,处理能力更强的设备,此种方

式成本较大,过去很多大公司一直采用此种方法处理大数据。但自从04年

Google发布关于GFS,MapReduce和BigTable三篇技术论文之后,云计算开始

兴起,06年Apache Hadoop项目启动。随后从09年开始,随着云计算和大数

据的发展,Hadoop作为一种优秀的数据分析、处理解决方案,开始受到许多

IT企业的关注。相较于垂直扩张所需的昂贵成本,人们更钟情于采用这种通过

整合廉价计算资源的水平扩展方式。于是很多IT企业开始探索采用Hadoop框

架构建自己的大数据环境。

其二,作者自13年4月在__X实习过程中进一步了解到,因为关系数据库在

存储数据格式方面的局限,以及其Schema机制带来的扩展性上的不便,目前在

大部分的大数据应用环境中都采用非结构化的数据库,如列式存储的Hbase,

文档型存储的MangoDB,图数据库neo4j等。这些非结构化数据库因为可扩展

性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到

了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现

商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据

仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解

决方案。

二、研究目的和意义:

现如今,数据已经渗透到每一个行业,成为重要的生产因素。近年来,由于

第 1 页 共 16 页

历史积累和和数据增长速度加快,各行业都面临着大数据的难题。事实上,大

数据既是机遇又时挑战。合理、充分利用大数据,将其转变为海量、高增长率

和多样化的信息资产,将使得企业具有更强的决策力、洞察发现力和流程优化

等能力。因此,很多IT企业都将大数据作为其重要的发展战略,如亚马逊、脸

谱网已布局大数据产业,并取得了骄人的成绩。事实上,不止谷歌、易趣网或

亚马逊这样的大型互联网企业需要发展大数据,任何规模的企业都有机会从大

数据中获得优势,并由此构建其未来业务分析的基础,在与同行的竞争中,取

得显著的优势。

相较于大型企业,中小企业的大数据发展战略不同。大公司可以凭借雄厚的

资本和技术实力,从自身环境和业务出发,开发自己的软件平台。而中小企业

没有那样的技术实力,也没有那么庞大的资金投入,更倾向于选择一个普遍

的、相对廉价的解决方案。本文旨在分析大数据环境下数据库的特点,结合当

下流行的Hadoop框架,提出了一种适用于大数据环境的数据仓库的解决方案并

实现。为中小企业在大数据环境中构建数据仓库提供参考。其具体说来,主要

有以下三方面意义:

首先,目前主流的数据库如Oracle、SQL Server都有对应自己数据库平台的

一整套的数据仓库解决方案,对于其他的关系型数据库如MySQL等,虽然没有

对应数据库平台的数据仓库解决方案,但有很多整合的数据仓库解决方案。而

对于非结构化的数据库,因其数据模型不同于关系型数据库,需要新的解决方

案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为其提供一个参

考。

其次,通过整合多源非结构化数据库,生成一个面向主题、集成的数据仓

库,可为大数据平台上的联机事务处理、决策支持等提供数据环境,从而有效

利用数据资源辅助管理决策。

再次,大数据是一个广泛的概念,包括大数据存储、大数据计算、大数据分

析等各个层次的技术细节,本文提出的“大数据环境下的数据仓库解决方案及

实现“丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据

挖掘等提供支撑。

第 2 页 共 16 页


本文标签: 数据 环境 数据库 数据仓库 企业