自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (7)
  • 收藏
  • 关注

原创 mahout数据承载之FileDataModel的一个小插曲

FileDataModel在官方说是除了装载csv,tsv文件外,还可以装载压缩文件例如zip或gzip的,mahout in action书中也是那样说的。于是我抱着学习的态度去试验了一把,结果是出人意料的报错了:Exception in thread "main" java.util.NoSuchElementException at com.google.common.coll

2014-12-25 11:11:11 3320

原创 mahout推荐入门之评估GroupLens数据集

前面都是在一个非常小的测试数据集上进行推荐评估,现在我们下载一个真实的数据集来进行评估。在http://www.grouplens.org/node/73上找到并下载ml-100k.zip,解压在其中找到ua.base文件作为我们的评估数据集。这是一个制表符分隔的文件,对于FileDataModel同样适合装载,包括我们前面用到的逗号分隔符的文件也可以。这个数据集中有100000个偏好值,相对

2014-12-24 12:53:24 3150

转载 hadoop作业引用第三方jar文件

要想让mapreduce程序引用第三方jar文件, 可以采用如下方式:通过命令行参数传递jar文件, 如-libjars等;直接在conf中设置, 如conf.set(“tmpjars”,*.jar), jar文件用逗号隔开;利用分布式缓存, 如DistributedCache.addArchiveToClassPath(path, job), 此处的path必须是hdfs, 即自己讲

2014-12-24 11:23:57 2752

原创 mahout入门之对推荐结果进行评估

package com.besttone.mahout.demo.recommender;import java.io.File;import java.io.IOException;import org.apache.mahout.cf.taste.common.TasteException;import org.apache.mahout.cf.taste.eval.Recomme

2014-12-23 23:41:34 2782

原创 mahout入门之编写第一个基于用户的推荐程序

首先创建一个java工程,导入必要的jar包,工程结构类似下图:intro.txt测试数据如下:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.03,105,4.53,107,5.04,101,5.04,103,3.

2014-12-23 16:04:58 2439 1

原创 mahout入门之初次使用mahout

由于我是用parcels安装的hadoop集群,对应的example jar包在/opt/cloudera/parcels/CDH/lib/mahout/mahout-examples-0.8-cdh5.0.0-job.jar。a .下载测试数据:wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_c

2014-12-23 14:10:14 2579

原创 linux bash中的三目运算符

对于三目运算符大家一般都很熟悉,java中的写法是 a==b?c:d  当a==b时为c否则为d在linux bash中用   “:-”来表示,如:export HADOOP_HOME=${HADOOP_HOME:-$LIB_DIR/hadoop}我们在hadoop的相关脚本中容易看到这句,意思就是如果你有自己指定环境变量$HADOOP_HOME,那么就用你指定的,否则就取$LIB_DIR

2014-12-23 13:07:14 17142 2

转载 使用 Eclipse Memory Analyzer 进行堆转储文件(heapdump)分析

http://www.ibm.com/developerworks/cn/opensource/os-cn-ecl-ma/index.htmlEclipse Memory Analyzer(MAT)是著名的跨平台集成开发环境 Eclipse Galileo 版本的 33 个组成项目中之一,它是一个功能丰富的 JAVA 堆转储文件分析工具,可以帮助你发现内存漏洞和减少内存消耗。本文主

2014-12-22 13:07:58 4313

原创 pig 通过参数替换实现动态运行脚本

一般情况下,都会有定期运行的pig脚本,比如每天运行一次的脚本,这类脚本往往在内部都要用到当天的日期作为参数,pig支持参数替换,参数由前缀$字符来标示,例如我们需要load每天的数据进行统计分析,每天的数据在hdfs上是按日期进行进行命名的,我们可以新建一个test.pig脚本:a = load '$input' as (.....);store a into '$output';然

2014-12-15 10:17:23 2281

原创 pig自定义load udf

假设文件test4.txt有这么两行数据:19800801133121212120181985080113313131313023规则是前8位为年月日,中间11位为手机号码,后3位表示的是年龄。我们可以自定义一个加载udf来加载这个文件package com.besttone.pig.udf.load;import java.io.IOException;im

2014-12-12 14:20:26 1789

原创 pig自定义FilterFunc实现数据流的过滤

假设test.txt文件中有如下数据:xiaojun 28      shanghaiyangna  24      lanzhouyangna  24      shanghaixiaojun 28      上海想实现过滤其中为上海的数据。我们可以写 :a = load 'test.txt' as (name:chararray,age:int,city:chara

2014-12-11 19:16:27 2196

转载 Apache Pig的一些基础概念及用法总结

转载必须注明出处:http://www.codelast.com/转载地址本文可以让刚接触pig的人对一些基础概念有个初步的了解。本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题

2014-12-11 10:53:12 914

原创 关于pig中文输入的问题

新建了一个文件test.txt,随便造了几条测试数据(tab键分隔,是pig默认的分隔方式,若要以其他分隔,load的时候load 'test.txt' using PigStorage(',') as .... 就可以以逗号分隔):xiaojun 28      上海yangna  24      兰州在pig grant shell中输入中文是没法解析的,会报错,比如在shel

2014-12-10 15:31:41 793

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma

2014-12-10 09:43:46 758

原创 mapreduce程序如何跳过待处理文件的首行

首选明白一点,map的输入key为当前行在文件内的位置偏移量,所以首行的偏移量肯定是0,所以可以进行如下判断来跳过第一行的处理public void map(Object key, Text value, Context context) throws IOException, InterruptedException { log.info("----------key" + k

2014-12-09 11:19:49 4313 2

原创 基数排序(桶排序)

第一步以LSD为例,假设原来有一串数值如下所示:73, 22, 93, 43, 55, 14, 28, 65, 39, 81首先根据个位数的数值,在走访数值时将它们分配至编号0到9的桶子中:01 812 223 73 93 434 145 55 65678 289 39第二步接下

2014-12-08 12:53:54 845

原创 归并排序

归并排序  1、基本思想:归并(Merge)排序法是将两个(或两个以上)有序表合并成一个新的有序表,即把待排序序列分为若干个子序列,每个子序列是有序的。然后再把有序子序列合并为整体有序序列。  2、实例3、java实现 // 将r[i…m]和r[m +1 …n]归并到辅助数组rf[i…n] public static int[] merge(int[] a

2014-12-07 23:02:33 624

我的windows系统的nc工具

windows系统的nc工具,类似于linux上的nc。 nc.exe -l -p 9999,监听9999端口

2018-04-02

kafka-manager

kafka-manager最新编译可运行包

2015-05-19

jsonserde.jar

hive json 序列化与反序列化工具类q

2014-11-16

wordcount.jar

mapreduce

2014-10-22

delphi写的DLL子窗体生成为主程序的TabSheet

delphi写的DLL子窗体生成为主程序的TabSheet,主程序调用DLL来生成窗体,并把窗体变成主程序上的一个TabSheet,这样更利于模块化分工开发,目前我们ERP项目就是采用这种客户端架构,本例只是粗略的描述下这个功能。提供给读者广泛的想象空间,可以自己去发挥

2008-09-26

Dephi写的用IdUDP实现的P2P聊天软件

自己用IdUdp写的一个聊天工具,比较粗糙,基本的一些聊天的功能都有了,可能代码还有点乱,delphi 7 在WIN XP系统中测试通过,如果在同一电脑上运行两个客户端,请把Listen的2008端口改一改,否则会报错,说2008端口已占用

2008-09-26

cd_catalog.xml

把这个文件导入到HTML页面

2007-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除