2015年03月_xiao_jun_0820

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创让cloudera manager装的spark支持hql

如何编译spark源码的assembly来支持hive前面的文章已经介绍过，如果你是用cm装的搭建的集群：第一步：在cm 中的spark service里指定gateway为你要使用spark命令行的节点。第二步：将assembly jar上传到hdfs第三步：在spark的服务范围中修改以下配置为你在hdfs上的assembly jar第四步：spark

2015-03-27 19:32:38 7106

转载利用PuTTY的SSH Tunnels实现安全的代理

利用PuTTY的SSH Tunnels实现安全的代理1 Comment五月 28, 2011by 大漠标签：Putty使用 , SSH代理安全外壳协议（Secure Shell Protocol / SSH）是一种在不安全网络上提供安全远程登录及其它安全网络服务的协议。最初是UNIX系统上的一个程序，后来又迅速扩展到其他操作平台。常用的SSH工具有开

2015-03-27 14:38:42 27381

原创 shell执行scala脚本

新建一个helloworld.sh如下：#!/bin/shexec scala "$0" "$@"!#case class Person(name:String)object HelloWorld { def main(args:Array[String]){ require(args.length==1) val al = Per

2015-03-26 17:37:11 9343

转载 Tuning the Cluster for MapReduce v2 (YARN)

Tuning the Cluster for MapReduce v2 (YARN)This topic applies to YARN clusters only, and describes how to tune and optimize YARN for your cluster. It introduces the following terms:ResourceMana

2015-03-23 09:48:55 1799

原创如何在spark-shell命令行执行spark hql

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。cloudera manager装好的spark,直接执行spark-shell进入命令行后，写入如下语句：val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) 你会发现没法执行通过，因为c

2015-03-17 19:02:06 18698

转载 MLlib中的Random Forests和Boosting

在Spark 1.2中，MLlib引入了Random Forests和Gradient-Boosted Trees（GBTs）。在分类和回归处理上，这两个算法久经验证，同时也是部署最广泛的两个方法。Random Forests和GBTs属于ensemble learning algorithms（集成学习算法），通过组合多个决策树来建立更为强大的模型。在本篇文章，我们将介绍这两个模型和他们在M

2015-03-17 10:13:08 1478

原创 spark实现hive的合并输入很多小文件为指定大小的大文件的优化功能

源码地址：https://github.com/RetailRocket/SparkMultiTool找到的先记下来，有空研究一下。

2015-03-16 18:54:51 9753

转载 spark storage相关配置

Storage相关配置参数spark.local.dir这个看起来很简单，就是Spark用于写中间数据，如RDD Cache，Shuffle，Spill等数据的位置，那么有什么可以注意的呢。首先，最基本的当然是我们可以配置多个路径（用逗号分隔）到多个磁盘上增加整体IO带宽，这个大家都知道。其次，目前的实现中，Spark是通过对文件名采用hash算法分布到多个路径下的目录中去

2015-03-16 17:35:56 1010

原创用spark实现count(distinct fieldname)形式的聚合

举个例子,比如要统计用户的总访问次数和去除访问同一个URL之后的总访问次数,随便造了几条样例数据(四个字段:id,name,vtm,url,vtm字段本例没用,不用管)如下:id1,user1,2,http://www.hupu.comid1,user1,2,http://www.hupu.comid1,user1,3,http://www.hupu.comid1,user1,100

2015-03-12 16:47:34 9981 3

原创用spark实现hive中的collect_set函数的功能

import org.apache.spark.SparkContext._import org.apache.spark._/** * Created by xiaojun on 2015/3/9. */object SparkDemo2 { def main(args: Array[String]) { case class User(id: String, name

2015-03-12 14:42:38 4523

原创 spark中的SparkContext实例的textFile使用的小技巧

网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是：1. 一个文件路径，这时候只装载指定的文件2. 一个目录路径，这时候只装载指定目录下面的所有文件（不包括子目录下面的文件）3. 通过通配符的形式加载多个文

2015-03-12 10:23:43 38740 4

原创编译支持hive的spark assembly

原生的spark assembly jar是不依赖hive的，如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法：假设已经装好了maven,1添加环境变量，如果jvm的这些配置太小的话，可能导致在编译过程中出现OOM，因此放大一些：export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -X

2015-03-10 17:49:54 6757 4