




如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
大数据工程实验室申报书 第一篇:大数据工程实验室申报书大数据工程实验室申请书1.工程实验室拟突破的技术方向大数据工程实验室拟突破的技术方向为:R语言与Hadoop分布式计算平台交互技术。R语言是一种自由免费软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的RossIhaka和RobertGentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R的源代码可自由下载使用,可在多种平台下运行,包括UNIX,Linux,Windows和MacOS。R主要是以命令行操作为主,同时支持GUI的图形用户界面。R内建多种统计学及数字分析功能,R比其他统计学或数学专用的编程语言有更强的物件导向功能。R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNUOctave甚至商业软件MATLAB。CRAN为ComprehensiveRArchiveNetwork的简称,它除了收藏了R的执行档下载版、源代码和说明文件,也收录了各种用户撰写的软件包。全球有超过一百个CRAN镜像站,上万个第三方的软件包。R的行业应用非常广泛,例如:统计分析,应用数学,计量经济,金融分析,财经分析,人文科学,数据挖掘,人工智能,生物信息学,生物制药,全球地理科学,数据可视化。Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了可移植操作系统接口的要求,这样可以以流的形式访问文件系统中的数据。自2006年,Hadoop以MapReduce和HDFS独立发展开始,到今年2013年不过7年时间,Hadoop的家族已经孵化出多个Apache的顶级项目。特别是最近1-2年,发展速度越来越快,并且融入了很多新技术(YARN,Hcatalog,Oozie,Cassandra)。Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算)成为了可能。R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。所以,hadoop重点是全量数据分析,而R语言重点是样本数据分析。两种技术放在一起,恰好是取长补短。以计算机开发人员的思路,所有事情都用Hadoop去做,没有数据建模和证明,“预测的结果”一定是有问题的;以统计人员的思路,所有的事情都用R去做,以抽样方式,得到的“预测的结果”也一定是有问题的。所以R语言与Hadoop的结合,是产界业的必然的导向,也是产界业和学术界的交集,同时也为交叉学科的人才提供了无限广阔的想象空间。目前,通常有两种方法将R语言与大数据处理平台相结合使用。第一种方法是,在Hadoop上用MapReduce处理PB、TB量级的数据,缩小数据容量到GB量级,然后将其加载到R中进行处理。在R中,GB级别的数据可以利用MPI并行处理框架构建的集群计算。R包Rmpi、snow、snowfall都可以实现多种MPI支持的并行编程模式。第二种方法是,直接使用支持Hadoop的R包,在R中操作存放在HDFS中的数据,并利用R语言完成MapReduce算法,用来替代Java的MapReduce实现。R包Rhadoop使得R语言具有处理高达TB甚至PB级的大数据的能力。在GitHub社区可以找到该项目与开源实现代码。Rhadoop包含有三个包,分别是rhdfs,rmr以及rHBase,分别对应Hadoop系统架构中的HDFS,MapReduce和Hbase三个部分。除了Rhadoop之外,还有从R中进行Hive查询的Rhive包,能够直接从Hive中进行查询。将R和结合起来,其既能够利用分布式计算打破数据量的限制,又能够利用R中的众多优秀的免费扩展包,快速实现所需的数据处理分析。综上所述,R语言与Hadoop的交互使用技术就成了本项目急需突破的技术方向。2.工程实验室的主要功能与任务大数据工程实验室的主要功能如下:(1)为统计学学科与大数据有关的课程教学提供支持。统计学专业的就业前景非常广阔。整个世界已经迎来了大数据时代,就业市场对熟悉并且能够分析大数据的应用型人才思贤若渴,所以对《大数据挖掘》等与大数据相关的课程的理论学习和实践操作显得尤为重要。一个功能齐全、技术先进的大

书生****文章
实名认证
内容提供者


最近下载
贵州省城市管理行政执法条例.doc
贵州省城市管理行政执法条例.doc
一种基于双轨缆道的牵引式雷达波在线测流系统.pdf
一种基于双轨缆道的牵引式雷达波在线测流系统.pdf
一种胃肠道超声检查助显剂及其制备方法.pdf
201651206021+莫武林+浅析在互联网时代下酒店的营销策略——以湛江民大喜来登酒店为例.doc
201651206021+莫武林+浅析在互联网时代下酒店的营销策略——以湛江民大喜来登酒店为例.doc
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf
用于空间热电转换的耐高温涡轮发电机转子及其装配方法.pdf