自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Cassandra Vs HBase

Cassandra vs HBaseBy Vaibhav Puranik Translated By Jametong我们是一家广告网络公司.我们需要存储展示与点击信息.我们在为我们的新项目评估多个不同的大批量数据(或nosql,或任何你喜欢的称呼)系统.过去8个月中,我们一直在一个测试产品上使用HBase,并且满意它的表现,但是,最近Cassandra的风头很高,因此,我们决定对它做个测试.我认...

2011-03-31 17:27:33 230

原创 Slope one:简单高效的推荐算法

推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的其他书来,也算是技术极大的促进了销售。一般的协同过滤算法,首先是收集用户对事物(产品)的评分情况,一种直接对某本书,或者某个歌曲打分,另种是隐性的打分,比如商务系统中,购买了表示打2分,浏览了打1分,其他的0分。我比较看好隐性打分,...

2011-03-31 17:16:33 144

原创 Hadoop 状态分析系统Chukwa

http://hi.baidu.com/ops_bd/blog/item/5f39abde48a10f3f10df9b12.html  Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对...

2011-03-31 16:50:15 160

原创 Hadoop安装, Hive 安装。

 Hadoop安装指南 / Hive安装指南 Hadoop集群需要一个机器作为Master节点,其余的机器都是slave节点。HIVE只需在Master节点中安装和配置即可。 配置HadoopHadoop的配置比较简单,下面详细讲一下安装与配置步骤。以配置Hadoop 0.20.2版本为例。(1) 从hadoop官网上下载hadoop-0.20.2.ta...

2011-03-30 17:48:44 173

原创 Hive 的扩展特性

Hive 的扩展特性文章分类:Java编程Hive 是一个很开放的系统,很多内容都支持用户定制,包括:文件格式:Text File,Sequence File内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本:不管什么语言,利用 stdin/stdout 传输数据...

2011-03-30 15:54:50 144

原创 HIVE中map,array和structs使用

1:怎样导入文本文件(格式是怎样的?),2:怎样查询数据,已经能否在join中使用?在子查询中使用?等等知道怎么在hive中导入数组不?例如:我想把 数组[1,2,3] 和 数组["a","b","c"]导入到table1中create table table2 ( a array<int> , b array<string>);那么 我如何 导入呢?使得...

2011-03-30 15:25:11 208

原创 Hive 中UDF和UDAF简述

 From: http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753001.aspx一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格...

2011-03-30 15:24:10 142

原创 Hive 中 SerDe 概述

From: http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753791.aspx一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、H...

2011-03-30 15:17:57 195

原创 做事遵循一个好的习惯

     Habit 1:积极主动 Habit 2:以终为始 Habit 3:重者先行 Habit 4:互惠互利 Habit 5:知彼知己 Habit 6:团结协作 Habit 7:坚持不懈

2011-03-29 13:25:54 110

原创 Hive 与 Hbase 的简单区别

Hive是為簡化編寫MapReduce程序而生的,使用MapReduce做過數據分析的人都知道,很多分析程序除業務邏輯不同外,程序流程基本一樣。在這種情況下,就需要Hive這樣的用戶編程接口。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapReduce,Hive中的表純邏輯表,就是些表的定義等,也就是表的元數據。使用SQL實現Hive是因為SQL大家都熟悉,轉換成本低,類似作用的Pig就...

2011-03-28 11:10:49 161

原创 通过Thrift 方式访问 Hive

 package com.netqin.hive.kpi;import org.apache.hadoop.hive.service.HiveClient;import org.apache.hadoop.hive.service.HiveServerException;import org.apache.log4j.Logger;import org.apache.thr...

2011-03-21 14:09:35 523

Hive 安装手册

 安装Hive安装Hive是非常简单的,前提是你已经在你的机器上安装好了Java 1.6 Hive 可以从 http://hive.apache.org/releases.html下载到,最新版为0.6.0(2010-10-19) Hive的目录结构为 README.txt: readme 文件bin/: directory 包含所有Shell脚本...

2011-03-21 14:04:02 103

原创 Hive 日志

Hive日志存储在什么地方呢? 打开Hive安装目录的 conf /hive-log4j.properties 文件。 hive.log.dir=/tmp/${user.name}hive.log.file=hive.log 这两行就表示了你的Hive中日志的存储目录,${user.name}是你在 服务器中启动Hive使用的用户名。 以后使用Hive...

2011-03-17 17:44:12 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除