hadoop面试题

zu

2014-06-05 20:39:09

阅读数 746

评论数 0

Hadoop MapReduce 性能调优:减小数据倾斜的性能损失

6.4.4 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类: 数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大...

2014-06-05 20:08:57

阅读数 1395

评论数 0

hadoop学习-海量日志分析(二) HBase

之前一篇文章介绍了使用MapReduce

2014-05-30 11:41:12

阅读数 1845

评论数 0

hadoop学习-Mapper和Reducer的输出类型

Mapper过程:Mapper rEDUCE

2014-05-20 23:33:49

阅读数 2026

评论数 0

hadoop学习-Netflix电影推荐系统

1、推荐系统概述

2014-05-20 22:39:07

阅读数 1423

评论数 0

hadoop学习-海量日志分析(提取KPI指标)

1、Web日志分析 从Web日志中,我们可以获取网站各类页面的PV值(yem)

2014-05-15 00:11:54

阅读数 1470

评论数 0

hadoop学习--K-Means算法实现

本例子介绍使用hadoop做聚类分析。

2014-04-26 14:46:44

阅读数 1047

评论数 0

hadoop学习--基于Hive的Hadoop日志分析

环境:

2014-04-18 00:15:43

阅读数 2794

评论数 1

Hadoop启动失败

晚上重启下hadoop,突然不能用了。

2014-04-17 22:37:23

阅读数 790

评论数 0

Hadoop学习--HBase与MapReduce的使用

HBase以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列zu

2014-04-13 18:30:48

阅读数 1210

评论数 0

hadoop学习-倒排索引

本例子来源于《hadoop-开启通向云计算的捷径》(liu)

2014-04-10 10:56:41

阅读数 1154

评论数 0

hadoop学习-stream-Top K记录

这是《hadoop实战》(陆嘉恒)第4.1

2014-04-07 23:44:35

阅读数 1221

评论数 0

Hadoop 在关机重启后,namenode启动报错

Hadoop 在关机重启后,namenode启动报错: 2011-10-21 05:22:20,504 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directory /tmp/hadoop-fzuir/dfs/nam...

2014-04-06 09:53:07

阅读数 1238

评论数 1

hadoop学习-mahout-Bayes分类算法示例程序

最近在看《hadoop实战》(陆嘉恒),

2014-04-05 13:22:54

阅读数 1528

评论数 0

hadoop学习--多表关联

本例从多个表中提取出所需要的信息。 输入是2个文件,一个表示工厂表,包含工厂名和地址编号;另一个表示地址表,包含地址名和地址编号。根据2个表的信息输出工厂名-地址名表。 factory.txt: factoryname addressed Beijing Red ...

2014-03-29 15:46:23

阅读数 738

评论数 0

hadoop学习--单表关联

本例子是对原有数据所包含的信息的挖掘。根据孩子与父母的信息,获取孩子与祖父母,外祖父母的信息。由child-parent表求得grandchild-grandparent表 原始数据如下: family.txt: child parent Tom Lucy Tom Jack Jone ...

2014-03-29 11:28:45

阅读数 1065

评论数 1

hadoop学习--数据排序

环境:hadoop1.2.1 + JDK7 +ubuntu10.04 对输入文件中的数据进行排序,输入文件中每行为一个数字。输出的每行为2个间隔的数字,第一个代表序号,第二个代表原始数字。 输入: 2 7 5 1 7 6 8 7 输出: 1 1 2 2 3 ...

2014-03-29 10:44:15

阅读数 711

评论数 0

Hadoop学习--Hive安装与配置

最近在学习hive的安装与使用,第一次使用还是遇到了很多问题。下面介绍下具体的过程。 笔者开发环境: ubuntu10.04  jdk:1.7.0_40 Hadoop:1.2.1 1、下载安装包 首先从http://hive.apache.org/downloads.html下载并解压到一个目录下...

2014-03-20 13:35:42

阅读数 899

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭