大数据分析
xinxiangsui2008
这个作者很懒,什么都没留下…
展开
-
通往数据分析成功之路的五大挑战
挑战一:IT人员缺乏随着信息化建设速度的加快,企业也越来越重视数据分析产生的效能。然,数据分析对IT软件公司只是小case,但是对于一些传统企业,或是只运营线下产品的公司来说,他们的公司组成大部分是销售业务人员,只有极少数IT人员,从事的也仅是网站建设及维护。这在现在是远远不够的,即使是经营线下产品的公司,也会产生大量的销售,库存等数据,如果能对这些数据进行有效的数据分析,带来的利转载 2015-12-20 23:45:01 · 546 阅读 · 0 评论 -
Mahout和Hadoop:机器学习的基本原理
计算技术通常用来分析数据,而理解数据则依赖于机器学习。多年来,对于大多数开发者来说,机器学习却是非常遥远、一直是难以企及的。 这可能是现在收益最高,也是最受欢迎的一项技术之一。毫无疑问——作为开发人员,机器学习是一个能够大展身手的舞台。图1:机器学习的构成 机器学习是简单数据检索与存储的合理扩展。通过开发各种组件,使计算机更加智能学习和发生行为。转载 2016-03-02 13:50:20 · 3651 阅读 · 0 评论 -
基于分布式hadoop的机器学习算法工具包
Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序,并且,在 Mahout 的最近版本中还加入了对Apache Hadoop 的支持,使这些算法可以更高效的运行在云计算环境中。Mahout实现的机器学习算法见表转载 2016-03-02 14:39:49 · 2468 阅读 · 0 评论 -
利用Mahout实现在Hadoop上运行K-Means算法
K-Means算法是基于分划分的最基本的聚类算法,是学习机器学习、数据挖掘等技术的最基本的知识,所以掌握其运行原理是很重要的。转载 2016-03-03 10:45:01 · 688 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。转载 2016-03-16 16:50:45 · 456 阅读 · 0 评论 -
算法时间复杂度的计算
时间复杂度的定义一般情况下,算法中基本操作重复执行的次数是问题规模n的某个函数,用T(n)表示,若有某个辅助函数f(n),使得当n趋近于无穷大时,T(n)/f(n)的极限值为不等于零的常数,则称f(n)是T(n)的同数量级函数。记作T(n)=O(f(n)),称O(f(n))为算法的渐进时间复杂度(O是数量级的符号 ),简称时间复杂度。转载 2016-03-09 13:57:54 · 800 阅读 · 0 评论 -
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。 传统的文件系统是单机的,不能横跨不同的机器。转载 2016-03-09 15:10:29 · 461 阅读 · 0 评论