分类筛选
分类筛选:

关于第四范式论文范文资料 与大数据科学第四范式演化中新热点有关论文参考文献

版权:原创标记原创 主题:第四范式范文 科目:专科论文 2024-03-11

《大数据科学第四范式演化中新热点》:本论文可用于第四范式论文范文参考下载,第四范式相关论文写作参考研究。

关键词:大数据;科学研究;挑战;趋势

摘 要:文章对有关大数据方面的研究做简要综述,对大数据的理论研究、大数据的应用研究、大数据时代面临的挑战和发展趋势这4个方面进行简要分析.

中图分类号:G250文献标识码:A文章编号:1003-1588(2015)05-0095-03

近年来,高度连接的世界和迅速扩张的社交媒体使得数据产生的范围、方式、途径发生了翻天覆地的变化,其组成结构、类型格式、存在形态等都愈加复杂,全球进入到一个以数据驱动社会创新、经济增长的大数据时代.大数据时代,人类在实践中逐渐意识到数据的重要性,并通过对数据的进一步采集、存储、整合、分析、利用发现新的知识、创造新的价值,为社会带来全新的发展机遇.目前,大数据作为一项新兴的信息技术,受到了大型企业、信息服务机构乃至政府的高度重视,其带来了一场知识革命,庞大的数据量将对各个领域产生巨大影响.因此,大数据成为一个至关重要的课题,吸引了大量学者对其进行深入研究,笔者在查阅国内外相关文献的基础上,对大数据的理论研究、大数据的应用研究、大数据时代面临的挑战进行了综合分析,以期展望未来大数据的发展趋势.

1大数据的理论研究

由于“大数据”一词是近几年才提出的,因此理论研究是学术界研究的热点,其包括大数据的内涵、技术等方面.

1.1大数据的内涵

1.1.1定义.大数据作为新出现的名词,尚未有一个标准的定义,人们对大数据的理解也各不相同.全球知名咨询机构麦肯锡公司在其发布的研究报告中对大数据作了如下定义:其大小超越了典型数据库软件的采集、存储、管理以及分析等能力的数据集.李国杰院士及程学旗教授认为,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1].学者韩翠峰则认为,大数据是存储在数据库中的结构化数据以及由图片、音视频、电子邮件、社交网络等产生的半结构化数据和非结构化数据的总和[2].笔者通过对 析发现,大数据并非单纯指数据量的大小,而是指在体量浩大、模态繁多的数据中能快速获取有价值的信息.

1.1.2特点.大数据是指无法用现有的软件工具提取、存储、搜索、共享、分析、处理的海量且复杂的数据集合.业界通常用“4V”来描述其特征:①数据体量巨大(Volume).随着科学技术的进步和发展,数据集合的规模不断扩大,已由TB级升至PB级.②数据种类繁多(Variety).目前,数据类型愈发多样,非结构化数据越来越多,如微博微信、图片视频、地理位置信息等,这对数据处理能力提出了更高要求.③处理速度快(Velocity).随着移动网络的发展,人们对数据的实时应用需求变得更为普遍,因为一些数据具有很强的时效性,所以需要快速处理,这是其区别于传统数据挖掘的最显著特征.④价值密度低(Value).数据的价值巨大,但囿于传统的思维方式和技术方法,其价值密度却和数据总量成反比.NetApp指出,大数据主要包括3大要素:大分析,通过对巨大数据集合的实时分析,帮助用户获取新的价值;高带宽,达到更快的数据处理速度;多内容,能轻松实现数据的恢复、备份、复制和管理,在不丢失任何信息的情况下实现高扩展性[3].Wakefield Research在2012年的大数据研究中揭示了大数据的3个特点和现状.首先,大数据已经到达了一个临界点,数据已变得普遍,现在其已是大家的事务.其次,大数据在开创领导者工作议程的价值上已经达到了一个顶点.最后,关键业务功能不充分地支持数据为它许诺的价值,挣扎于庞大的体积和安全问题中,公司开始重新考虑他们的数据战略.

1.2大数据的技术

大数据技术是近年来备受关注的一个热点,是指从各种各样类型的数据中,快速获得有价值信息的能力.随着互联网的迅猛发展,数据量的增长速度越来越快,传统技术已无法满足人们对大数据的处理需要,很多研究者开始关注和大数据分析相关的技术.

1.2.1云计算.中国人民大学孟小峰教授认为,大数据的关键技术主要涉及云计算和大数据分析工具[4].云计算是大数据的基础平台,正是有了云计算技术在数据存储、数据管理以及数据分析等方面的支撑,大数据才得以广泛应用.云计算技术中主要涉及文件系统、数据库系统、检索和查询技术、数据分析技术等.

1.2.2大数据分析工具.目前被广泛关注和应用的分布式系统基础架构Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReuce)等功能模块在内的完整生态系统(Ecosystem).其可以高速捕捉、发现并分析数量大、结构复杂的数据,为用户决策和创新提供丰富的知识和有效的答案.

1.2.3并行数据库.并行数据库技术起源于20世纪80年代后期,研究的重点是并行数据库的物理组织、操作算法、优化调度策略.当前主流的并行数据库都支持标准SQL,并且实现了数据库界过去30年提出的许多先进技术.其主要采用shared-nothing结构,将关系表在节点间横向划分,并利用优化器对执行过程进行调度和管理,目标是通过多个处理节点并行来执行数据库任务,提高整个数据库系统的性能和可用性.

1.2.4MapReduce.MapReduce是一种用于大规模数据集的并行运算的编程模型,其主要思想源于函数式编程语言以及矢量编程语言.MapReduce起初主要用来处理互联网数据,但其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,使其迅速在机器学习、数据挖掘、数据分析等领域被广泛应用.MapReduce将数据处理任务抽象为一系列的Map(映射)—Reduce(归约)操作,Map主要完成数据的过滤操作,Reduce主要完成数据的聚集操作.其输入、输出数据均以〈key, value〉格式存储,用户在使用该编程模型时只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce框架会自动对任务进行划分以做到并行执行[5].

第四范式论文参考资料:

结论:大数据科学第四范式演化中新热点为关于本文可作为第四范式方面的大学硕士与本科毕业论文第四范式offer怎么样论文开题报告范文和职称论文论文写作参考文献下载。

和你相关的