hadoop
KeeJee
机器学习,数据挖掘
展开
-
combiner的使用误区
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这原创 2017-04-09 17:18:18 · 1200 阅读 · 0 评论 -
mapreduce过程
如大家所知道的,Hadoop的计算框架主要是两个过程分别是map和reduce,但是还有好几个过程跟性能调优有关。如:shuffle、partition和combiner。shuffle:数据从map端传输到reduce端的过程。据说是可以期待奇迹发生的环节。计算框架总体的过程如下:map阶段:从磁盘读入数据 --> map函数 --> combine结果(非必原创 2017-04-09 18:49:03 · 329 阅读 · 0 评论 -
Hbase数据模型与table设计
最近在学习Hbase的使用,并仔细阅读了一篇官方推荐的博客,在这里就以一边翻译一边总结的方式和大家一起梳理一下HBase的数据模型和基本的表设计思路。官方推荐的博客原文地址:http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login1210_khurana.pdf点击打开转载 2017-03-26 14:15:24 · 742 阅读 · 0 评论 -
mapreduce计算均值combine加速
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable;转载 2017-04-12 19:06:54 · 909 阅读 · 0 评论 -
图计算模型GraphLab——pregel原理API
简介在Hadoop兴起之后,google又发布了三篇研究论文,分别阐述了了Caffeine、Pregel、Dremel三种技术,这三种技术也被成为google的新“三驾马车”,其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等等计算。在Pregel计算模式中,输入是一个有向图,该有向图的每一个顶点都有一个转载 2017-04-15 15:52:54 · 4277 阅读 · 1 评论 -
磁盘中存取信息的最小单位是?
从应用程序包括用户界面的角度来看,存取信息的最小单位是Byte(字节);从磁盘的物理结构来看存取信息的最小单位是扇区,一个扇区是512字节;从操作系统对硬盘的存取管理来看,存取信息的最小单位是簇,簇是一个逻辑概念,一个簇可以是2、4、8、16、32或64个连续的扇区。一个簇只能被一个文件占用,哪怕是只有1个字节的文件,在磁盘上存储时也要占用一个簇,这个簇里剩下的扇区是无用的。例原创 2017-05-24 15:36:19 · 19476 阅读 · 2 评论 -
一致性哈希算法(consistent hashing), p2p关键技术
一致性 hash 算法( consistent hashing )张亮consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在cache 系统中应用越来越广泛;1 基本场景比如你有 N 个 cache 服务器(后面简称 cache ),那么如何将一个对象 object 映射到转载 2017-05-26 20:38:10 · 18383 阅读 · 0 评论 -
Quorom机制
Quorom 机制,是一种分布式系统中常用的,用来保证数据冗余和最终一致性的投票算法,其主要数学思想来源于鸽巢原理。 什么是鸽巢原理? 其中一种简单的表述法为: 若有n个笼子和n+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少2只鸽子。 另一种为: 若有n个笼子和kn+1只鸽子,所有的鸽子都被关在鸽笼里,那么至少有一个笼子有至少k+1只鸽子。转载 2017-05-26 21:25:28 · 1716 阅读 · 0 评论 -
局部敏感哈希算法
阅读目录1. 基本思想2. 局部敏感哈希LSH 3. 文档相似度计算 局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法。局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论依据并且在高维数据空间中表现优异。它的主要作用就是从海量的数据中挖掘出相似的数据,可以具体应用到转载 2017-05-22 11:31:52 · 1705 阅读 · 0 评论