spark
xuzhengzheng32
这个作者很懒,什么都没留下…
展开
-
详细探究Spark的shuffle实现
Background 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2015-07-08 15:33:21 · 502 阅读 · 0 评论 -
spark on yarn
spark on yarn 的支持两种模式 1)yarn-cluster:适用于生产环境; 2)yarn-client:适用于交互、调试,希望立即看到app的输出 Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa转载 2015-07-08 16:41:56 · 433 阅读 · 0 评论 -
hive基本命令操作
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string 创建一个新表,结构与其他一样 hive> create table n转载 2015-07-09 14:21:11 · 499 阅读 · 0 评论 -
Akka简介
我们相信编写出正确的具有容错性和可扩展性的并发程序太困难了。这多数是因为我们使用了错误的工具和错误的抽象级别。Akka就是为了改变这种状况 而生的。通过使用Actor模型我们提升了抽象级别,为构建正确的可扩展并发应用提供了一个更好的平台。在容错性方面我们采取了“let it crash”(让它崩溃)模型,人们已经将这种模型用在了电信行业,构建出“自愈合”的应用和永不停机的系统,取得了巨大成功。Ac转载 2015-07-08 17:18:34 · 384 阅读 · 0 评论 -
filter的相关应用
今天看scala看到了filter这一方法,而在spark中也是有这一方法,所以对这个方法查了一下相关内容。原创 2015-07-29 14:29:24 · 351 阅读 · 0 评论 -
map数据与Jason数据
http://www.mkyong.com/java/how-to-convert-java-map-to-from-json-jackson/转载 2015-07-31 16:19:30 · 496 阅读 · 0 评论 -
ERROR YarnScheduler: Lost executor 7 on quickstart.cloudera: remote Akka client disassociated
出现原因是存储分配不够,多分配一个就会解决。原创 2015-07-23 13:51:39 · 1591 阅读 · 0 评论 -
hadoop mapred(hive)执行目录 文件权限问题
看到一篇文章,觉得非常有用,转载一下,以后可能用得着,下面是原文的地址。 http://blog.csdn.net/azhao_dn/article/details/6921398 在配置其他linux用户使用hive 的cli客户端时,发现该用户没有对/tmp目录的写权限,于是将/tmp目录下权限设置为777:bin /hadoop fs -chmod -R 777 /tmp,然而第二转载 2015-07-23 14:22:02 · 1496 阅读 · 0 评论 -
spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有: 如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;如果转载 2015-11-17 10:17:52 · 2587 阅读 · 0 评论