大数据
xuzhengzheng32
这个作者很懒,什么都没留下…
展开
-
详细探究Spark的shuffle实现
Background 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2015-07-08 15:33:21 · 501 阅读 · 0 评论 -
spark on yarn
spark on yarn 的支持两种模式 1)yarn-cluster:适用于生产环境; 2)yarn-client:适用于交互、调试,希望立即看到app的输出 Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa转载 2015-07-08 16:41:56 · 432 阅读 · 0 评论 -
Akka简介
我们相信编写出正确的具有容错性和可扩展性的并发程序太困难了。这多数是因为我们使用了错误的工具和错误的抽象级别。Akka就是为了改变这种状况 而生的。通过使用Actor模型我们提升了抽象级别,为构建正确的可扩展并发应用提供了一个更好的平台。在容错性方面我们采取了“let it crash”(让它崩溃)模型,人们已经将这种模型用在了电信行业,构建出“自愈合”的应用和永不停机的系统,取得了巨大成功。Ac转载 2015-07-08 17:18:34 · 384 阅读 · 0 评论 -
hive基本命令操作
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样 hive> create table n转载 2015-07-09 14:22:07 · 369 阅读 · 0 评论 -
hive基本命令操作
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样 hive> create table n转载 2015-07-09 14:21:11 · 497 阅读 · 0 评论 -
Running the Cloudera Training VM in VirtualBox(转)
找了很久相关的知识是搜另一个东西发现这个博客,炒鸡有用~~~~~ Cloudera’s Training VM is one of the most popular resources on our website. It was created with VMware Workstation, and plays nicely with the VMware Player for Window转载 2015-07-03 15:34:01 · 474 阅读 · 0 评论 -
机器学习相关数据库(转)
KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。加拿大开放数据,许多政转载 2015-09-08 14:35:31 · 460 阅读 · 0 评论 -
想看的书籍记录
http://www.douban.com/doulist/1677105/#sb6709783转载 2015-08-13 10:29:08 · 445 阅读 · 0 评论