2015年01月_xiao_jun_0820

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载从Java代码远程提交YARN MapReduce任务

http://blog.csdn.net/mercedesqq/article/details/16885115#在Hadoop上运行MapReduce任务的标准做法是把代码打包到jar里面，上传到服务器，然后用命令行启动。如果你是从一个Java应用中想要启动一个MapReduce，那么这个方法真是又土又麻烦。其实YARN是可以通过Java程序向Hadoop集群提交MapRed

2015-01-30 16:42:27 11276 2

转载 spark用程序提交任务到yarn

因为spark文档中只介绍了两种用脚本提交到yarn的例子，并没有介绍如何通过程序提交yarn，但是我们的需求需要这样。网上很难找到例子，经过几天摸索，终于用程序提交到yarn成功，下面总结一下。先介绍官网提交的例子，我用的是spark 0.9.0 hadoop2.2.0一.使用脚本提交1.使用spark脚本提交到yarn，首先需要将spark所在的主机和hadoop集群之

2015-01-28 14:38:38 25632 1

原创 mapreduce合并小文件成sequencefile

import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.InputSplit;impor

2015-01-15 20:34:35 4624

转载 hive 常用运算

hive 常用运算第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REG

2015-01-06 17:35:04 4107

原创 hive开启本地模式执行

先讲一个hive使用的一个小技巧。对于使用惯了oracle数据库的人来说，hive中没有dual啊，想验证一些函数的执行结果很是麻烦。比如我们在oracle数据库里面可以写select (1+2) from dual可以返回3。为了保证使用习惯，我们类似的在hive中也建一张dual表:create table dual(dummy string)然后往这张表中导入一个只有一行数据的文

2015-01-06 17:32:08 10611 1

原创 mahout推荐之关于动态刷新推荐引擎

我们知道FileDataModel可以装载一个偏好值文件，其实FileDataModel还支持动态更新装在的数据，增量更新文件命名规则如下：假如主数据文件为：intro.txt ,则增量更新文件的命名应为intro.1.txt ,intro.2.txt如此跟进。当调用refresh()方法时，会自动装在更新文件并更新现有偏好值数据。但是一般不会单独刷新DataModel组件，一般都是连

2015-01-05 21:22:19 1954 1