自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Thinking in BigData(五)大数据之统计学与数据挖掘

原文章来自于《Statistics and Data Mining: Intersecting Disciplines》作者:David J. Hand文章中指出统计学与数据挖掘的区别。开始认识它们,开始了解大数据处理的最基本的技术概念吧。 说明:前段时间这篇文章,对于数据挖掘工作者来所,很有价值的一篇文章,但是翻译的很拗口。希望通过自己的语言总结一下,可以把一些概念理清。如有错误, 后会继续完善。 今天回来,在原来的文章中,添加了一些数据挖掘方面的概念。

2014-01-28 23:09:22 10004 2

原创 Thinking in BigData(四)大数据之“大”的来源与价值

大数据之“大”的来源与价值 在上篇博客中,我们仅仅是从一个简单的利用案例,谈到了大数据的机理和趋势。但我们更多的人,还是对大数据模糊。究竟多少算是“大”?大数据究竟来源于哪些产业?大数据在哪些公司应用更广泛?大数据的价值是什么?大数据阻碍了哪些商业的发展?又究竟给哪些产业带来新的活力? 大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所

2014-01-27 23:26:12 7034

原创 Thinking in BigData(三)大数据运作机理与趋势

Thinking in BigData(三)大数据运作机理与趋势 2013年12月5-6日,在北京召开的,中国大数据技术大会。从一开始,这个名词似乎已经预示着,这将是再一次将大数据的影响力进一步拉大。集结上百名国内外技术专家,在一起谈到它带给我们的价值。在这里,我们不去过多的探讨,会议将会对14年大数据的转型带来什么风向标,但有一点必须肯定,一年的疯狂乱抄过后,必是开始技术实施的阶段。这也就是,为什么印刷时代经历了几百年的积累,在工业革命只需要几十年的技术革新,再到如今的互联网、移动互联网时代,

2014-01-26 17:57:52 7416

原创 Thinking in BigData(二)大数据时代下的变革

大数据时代的思维变革 A Revolution That Will Transform How WeLive, Work, and Think. 不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000左右的互联网浪潮,错过电商竞争的时代,但我们赶上了云计算和大数据的兴起,这将是一次难得的转型与立足机会。而它的到来,会给我们带来什么转变?

2014-01-25 20:28:00 6652

原创 Thinking in BigData(一)前序

Thinking in BigDate 前序  谁也无法说服他人改变,因为我们每一个人都守着一扇只能从内开启的改变之门,不论动之以情或说之以理,我们都不能替别人开门。 ——弗格森  BigDate这一名词,第一次蹦出脑袋应该是13年3月份,一次地铁悄然而遇。自此11个月之后至今,它可能俨然成为这个时代阶段性的代言词。也在你的思维与轨迹中产生深远的影响,以至于你的生活与生存方式也将为此改变。这之中,它蕴含着什么信息、又蕴含着什么。乃至整个圈子都在讨论,都在揣测,它到底是什么?到底带来的什么?

2014-01-23 16:57:06 7200 4

转载 MySQL百万级数据库优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id f

2014-01-22 17:34:30 1892 1

原创 hadoop学习(四)Map/Reduce数据分析简述-示例-电话通讯清单

假如我们集群和伪分布式hadoop系统已经搭建完毕。我们都会根据官网或一些资料提供的wordcount函数来测试我们系统是否能正常工作。假设,我们在执行wordcount函数,都没有问题。那我们就可以开始写M/R程序,开始数据分析了。 因为,hadoop集群,还有其他一些组件需要我们去安装,这里还没有涉及,暂时不考虑。你要做的就是,把要分析的数据上传到HDFS中。至于其余组件,遇到的时候,在学习。这里对概念,不做太多的介绍。必要的概念,和程序执行步骤,这个是必须了解的。 电话通讯清单

2014-01-22 16:57:31 3616 1

原创 hadoop学习(三)hadoop集群从windows移植到linux中问题与技巧

在开始讲Map-Reduce数据分析之前,首先讲解一下,这两天遇到的问题,自己在这上面确实是耽误了很多时间:希望为自己或后来者提供经验。scp 的利用hadoop集群,局域网,hosts文件的配置。

2014-01-22 14:14:48 2217

原创 hadoop学习(二)ubuntu下安装virtual box 问题与解决

在官网下载virtual box linux版本。我选择的是32位的系统。http://download.virtualbox.org/virtualbox/4.3.6/virtualbox-4.3_4.3.6-91406~Ubuntu~lucid_i386.deb

2014-01-20 14:15:05 5393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除