关于数据挖掘论文范文资料与基于改进Hadoop云平台海量文本数据挖掘有关论文参考文献-论文写作网

《基于改进Hadoop云平台海量文本数据挖掘》：这篇数据挖掘论文范文为免费优秀学术论文范文,可用于相关写作参考。

摘要针对常用的文本数据挖掘系统在处理海量文本数据时时间效率较低的问题,论文提出了一种基于改进Hadoop云平台的海量文本数据挖掘方法.该方法首先将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验证了该平台的有效性和高效性.

关键词文本挖掘；Hadoop；云计算；文本数据

中图分类号 TP301 文献标识码 A 文章编号 1000-2537（2016）03-0084-05

Abstract To overcome the problem of low time efficiency for commonly used text data mining system in the treatment of massive text data, an improved mass text data mining method was put forward based on the Hadoop cloud platform.This method firstly improved traditional Hadoop cloud framework to meet the needs of the massive text data mining, and then decomposed mass text data sets and mining task to multiple computers of the improved platform for parallel processing. By doing so, this method realizes the mass text data mining platform based on the improved Hadoop cloud platform. The effectiveness of this improved platform is verified by the mass experimental data set composed of 10 000 news materials.

Key words text mining； Hadoop； cloud computing； text data；

随着计算机技术和信息技术的飞速发展,国民经济各行业所获得的数据呈爆炸式增长,TB级甚至PB级海量数据无处不在[1].由于数据主要来自于互联网,例如电子商务、微博等,这些数据主要以文本形式存储,十分繁杂但又极具价值.它们产生的速度远远超过了人们收集信息、利用信息的速度,使得人们无法快速有效地查找到自己真正感兴趣的信息,从而造成了时间、资金和精力的巨大浪费,导致“数据资源”变成“数据灾难”[2].因此,如何有效地从这类海量数据中获取信息或规律已成为当今信息科学技术领域所面临的基本科学问题之一.

然而, 在传统计算框架下,海量文本数据的处理一般需要借助高性能机或者是更大规模的计算设备来完成[3].这虽然能够在一定程度上解决海量数据的处理问题,但是其具有成本昂贵、随着时间推移容错性能差、可扩展性差等缺点,从而导致其很难普及[4].

Hadoop云平台作为一种专门处理海量数据的新式计算模型于2005年被提出,2011年1.0.0版本释出,标志着Hadoop已经初具生产规模,它将现代计算机的高性能和人的高智能相结合,是当今处理海量数据最有效、最核心的手段和途径[5].论文将传统Hadoop云平台进行改进以适应海量文本数据挖掘的需要,然后将海量文本数据集和挖掘任务分解到该改进平台上的多台计算机上并行处理,从而实现了一个基于改进Hadoop云平台的海量文本数据挖掘平台,并通过对10 000篇新闻材料组成的实验数据集进行挖掘验验证了平台的有效性和高效性.

1 Hadoop云平台简介

Hadoop云平台[6]是由Apache基金会开发的一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台.通过该框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储.Hadoop框架由HDFS[7]和MapReduce[8]组成,其中,Hadoop分布式文件系统（HDFS）[3]在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的,目前已经是Apache Hadoop Core项目的一部分.HDFS被设计成适合运行在通用硬件（commodity hardware）上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式文件系统的区别也很明显[9].HDFS是一个高度容错性的系统,适合部署在廉价的机器上；能提供高吞吐量的数据访问,非常适合大规模数据集上的应用[10].MapReduce[11]是谷歌开发的一种分布式程序设计框架,基于它编写的应用程序能够运行在由上千台计算机组成的大型集群上,并且以一种可靠容错的方式对海量数据进行并行处理.Hadoop能够实现对多种类型文件的处理,比如文本、图像、视频等.我们可以根据自己的需要编写特定的应用程序来完成任务目标 [12].

2 传统基于Hadoop云平台的文本数据挖掘

在传统基于Hadoop云平台的文本挖掘系统中,节点主要分为主节点（Master）和从节点（Slave）这两类.整个系统仅有一个Master节点,由NameNode、文本数据集、JobTracker、文本挖掘算法库组成.在系统中可有多个Slave节点,它由DataNode、TaskTracker组成,主要负责系统的存储和计算任务.系统的整体架构如图1所示.

数据挖掘论文参考资料：

结论：基于改进Hadoop云平台海量文本数据挖掘为适合不知如何写数据挖掘方面的相关专业大学硕士和本科毕业论文以及关于数据挖掘是什么专业论文开题报告范文和相关职称论文写作参考文献资料下载。