自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wuzhongju的技术人生

我是扛起大数据时代的一只蚂蚁

  • 博客(12)
  • 收藏
  • 关注

原创 mahout中的相似度算法

mahout中的相似度算法一需要有喜好值的算法1、皮尔逊相关系数定义:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商公式:值域:(-1,1),趋于1紧密,趋于0不紧密,负数为反向相关缺陷:(1)没有把两个变量之间重叠部分的元素数量考虑在内(2)如果两个变量间只有一个重叠元素,则该系数不可计算(3)如果其中任意一个变量的所有prefer

2013-05-30 11:22:34 2569

原创 hive Exception in thread "main" java.lang.NoSuchFieldError: type

将hive lib目录下的jar包拷贝到hadoop 的lib目录下cp antlr-runtime-3.0.1.jar /usr/local/hadoop/hadoop-1.0.3/lib

2013-05-28 14:30:07 2164

原创 mahout0.7 hadoop1.0.3 slf4j

由于mahout0.7 和hadoop1.0.3所使用的slf4j版本不一致,导致运行mahout job时失败,解决办法是删除hadoop lib目录下原有的slf4j相关的jar包,换成和mahout对应的jar包即可。

2013-05-28 13:56:29 726

原创 mahout怎么读

mahout来源于印度语大象=驯象师音同英语单词,trout [英] [traʊt] [美][traʊt] n. 鲑鳟鱼

2013-05-17 15:13:22 1407

原创 基于hbase mapreduce和coprocessor实现hbase二级索引创建与自动维护

基于hbase mapreduce和coprocessor实现hbase二级索引创建与自动维护设计思路:每个索引建立一个索引表(表名由用户自定义相当于oracle中的索引名,)索引表一个列族“IDX”,一个字段“IDX:V”,rowkey有索引列值拼装而成,“IDX:V”由索引行的rowkey拼装而成。例子:“Rowkey”:2013-04-014982332782

2013-05-17 09:54:35 2162 2

原创 hbase的安装与配置(zookeeper3.4.3,hbase0.94.1,hadoop1.03)

安装zookeeper(zookeeper也可以托管给hbase,测试环境可以这样做,生产上不建议)1.解压zookeepertar –zxvf zookeeper-3.4.3.tar.gz 2.新建data目录和logs目录 mkdir zookeeper/zookeeper-data/ mkdir zookeeper/logs 3.配置zoo.cfg 进入zooke

2013-05-17 09:53:38 1131

原创 sqoop的两种使用方式 命令行 java调用

4.1 sqoop简介Sqoop是hadoop与关系型数据库之间的数据迁移工具,使用该工具可以实现将关系型数据库中的数据导入到hadoop环境下(包括hdfs,hive,hbase),也可以将hadoop环境下的数据导出到关系型数据库。在2011年6月之前,sqoop只是hadoop下的一个子模块,2011年6月之后获准进入apache基金会的孵化器,2012年3月开始,sqoop已经成为

2013-05-17 09:32:17 8728 1

原创 hive简介 安装 hivesql hive开发 性能优化

3.1 hive简介hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供sql查询功能,可以将sql语句转换为MapReduce任务运行。 优点:学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。缺点:不能支持实时响应,单条记录的更新操作不能实现,不支持半结构化数据,不支持索引和

2013-05-17 09:29:52 1001

原创 hive0.9安装

wget http://labs.mop.com/apache-mirror/hive/hive-0.10.0/hive-0.10.0.tar.gzmv hive-0.9.0.tar.gz /home/hadoop/file/chown -R hadoop hive-0.9.0/chmod 755 -R hive-0.9.0/cp hive-env.sh.template hi

2013-05-17 09:27:11 938

原创 java.io.IOException: File /tmp could only be replicated to 0 nodes, instead of 1

问题现象:hadoop进程正常启动,jps都能看到,ssh无密码登录正常,防火墙关闭,hadoop fs -ls /命令正常,但是put有问题可能原因及解决方案:原因:namenode多次格式化后导致namenode和datanode之间的格式化VERSION不一致解决:删除namenode和datanode上所有格式化信息再重新格式化 原因:指定的namenode元数据文件夹

2013-05-17 09:23:56 1518

原创 hadoop1.0.3完全分布式安装详细教程

前提安装hadoop的服务器上需统一创建hadoop用户(其它用户名也可),要求uid一致。useradd –u 1000 hadoop   (root用户执行,uid需指定)指定密码passwd hadoop xxx   (xxx为密码)Namenode节点服务器可以无密码ssh到自身以及DataNode所在服务器上。hadoop用户操作(su – hadoop)cd (

2013-05-17 09:10:25 979

原创 hadoop(hdfs mapreduce)及异常处理

一 开篇1.1 学习方法:战略上藐视,战术上重视让你的hadoop跑起来,让helloworld跑起来要有清晰的路线图1.3 hadoop与大数据时代一提到大数据,我们就想到hadoop,hadoop几乎成为了大数据的代名词,不可置疑的是hadoop确实是处理大数据的一种利器。但是,hadoop只是新时代(大数据时代)里的老东西(hadoop早就有,大数据时代才刚到来,我们

2013-05-17 08:56:55 1701

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除