Hadoop
文章平均质量分 79
我非英雄
语言温和不等于没有个性,外表温和不等于没有傲骨。
展开
-
Hadoop学习--HBase与MapReduce的使用
HBase以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列zu原创 2014-04-13 18:30:48 · 1627 阅读 · 0 评论 -
hadoop学习-海量日志分析(二) HBase
之前一篇文章介绍了使用MapReduce原创 2014-05-30 11:41:12 · 2446 阅读 · 0 评论 -
hadoop面试题
zu原创 2014-06-05 20:39:09 · 903 阅读 · 0 评论 -
Hadoop MapReduce 性能调优:减小数据倾斜的性能损失
6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样转载 2014-06-05 20:08:57 · 1587 阅读 · 0 评论 -
hadoop学习--K-Means算法实现
本例子介绍使用hadoop做聚类分析。原创 2014-04-26 14:46:44 · 1931 阅读 · 0 评论 -
hadoop学习-Mapper和Reducer的输出类型
Mapper过程:MapperrEDUCE原创 2014-05-20 23:33:49 · 2828 阅读 · 0 评论 -
hadoop学习-海量日志分析(提取KPI指标)
1、Web日志分析从Web日志中,我们可以获取网站各类页面的PV值(yem)原创 2014-05-15 00:11:54 · 2136 阅读 · 0 评论 -
hadoop学习-倒排索引
本例子来源于《hadoop-开启通向云计算的捷径》(liu)原创 2014-04-10 10:56:41 · 1454 阅读 · 0 评论 -
hadoop学习-stream-Top K记录
这是《hadoop实战》(陆嘉恒)第4.1原创 2014-04-07 23:44:35 · 1779 阅读 · 0 评论 -
hadoop学习--基于Hive的Hadoop日志分析
环境:原创 2014-04-18 00:15:43 · 3592 阅读 · 1 评论 -
Hadoop 在关机重启后,namenode启动报错
Hadoop 在关机重启后,namenode启动报错:2011-10-21 05:22:20,504 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directory /tmp/hadoop-fzuir/dfs/name does not exist. 2011-10-21 05:22:20,506 ERROR or转载 2014-04-06 09:53:07 · 1804 阅读 · 1 评论 -
hadoop学习-mahout-Bayes分类算法示例程序
最近在看《hadoop实战》(陆嘉恒),原创 2014-04-05 13:22:54 · 1808 阅读 · 0 评论 -
Hadoop学习--Hive安装与配置
最近在学习hive的安装与使用,第一次使用还是遇到了很多问题。下面介绍下具体的过程。笔者开发环境:ubuntu10.04 jdk:1.7.0_40Hadoop:1.2.11、下载安装包首先从http://hive.apache.org/downloads.html下载并解压到一个目录下,笔者是/root/hive。Hiva需要Hadoop已经启动并运行,所以先得运行ha原创 2014-03-20 13:35:42 · 1154 阅读 · 0 评论 -
Hadoop启动失败
晚上重启下hadoop,突然不能用了。原创 2014-04-17 22:37:23 · 1312 阅读 · 0 评论 -
hadoop学习--多表关联
本例从多个表中提取出所需要的信息。输入是2个文件,一个表示工厂表,包含工厂名和地址编号;另一个表示地址表,包含地址名和地址编号。根据2个表的信息输出工厂名-地址名表。factory.txt:factorynameaddressedBeijing Red Star1Shenzhan Thunder3Guangzhou Hon原创 2014-03-29 15:46:23 · 1017 阅读 · 0 评论 -
hadoop学习--数据排序
环境:hadoop1.2.1 + JDK7 +ubuntu10.04对输入文件中的数据进行排序,输入文件中每行为一个数字。输出的每行为2个间隔的数字,第一个代表序号,第二个代表原始数字。输入:27517687输出:1 12 23 54 65 76 77 78 81、设计思路在map过程中就有排序,因原创 2014-03-29 10:44:15 · 1145 阅读 · 0 评论 -
hadoop学习--单表关联
本例子是对原有数据所包含的信息的挖掘。根据孩子与父母的信息,获取孩子与祖父母,外祖父母的信息。由child-parent表求得grandchild-grandparent表原始数据如下:family.txt:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJ原创 2014-03-29 11:28:45 · 1373 阅读 · 1 评论 -
hadoop学习-Netflix电影推荐系统
1、推荐系统概述原创 2014-05-20 22:39:07 · 3198 阅读 · 0 评论