2017年04月_KeeJee

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创机器学习 - 距离计算

在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距

2017-04-25 16:24:38 696

转载图计算模型GraphLab——pregel原理API

简介在Hadoop兴起之后，google又发布了三篇研究论文，分别阐述了了Caffeine、Pregel、Dremel三种技术，这三种技术也被成为google的新“三驾马车”，其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历（BFS）、最短路径（SSSP）、PageRank计算等等计算。在Pregel计算模式中，输入是一个有向图，该有向图的每一个顶点都有一个

2017-04-15 15:52:54 4233 1

转载 mapreduce计算均值combine加速

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable;

2017-04-12 19:06:54 894

原创 mapreduce过程

如大家所知道的，Hadoop的计算框架主要是两个过程分别是map和reduce，但是还有好几个过程跟性能调优有关。如：shuffle、partition和combiner。shuffle：数据从map端传输到reduce端的过程。据说是可以期待奇迹发生的环节。计算框架总体的过程如下：map阶段：从磁盘读入数据 --> map函数 --> combine结果（非必

2017-04-09 18:49:03 315

原创 combiner的使用误区

问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这

2017-04-09 17:18:18 1184

转载 LBP人脸识别

第三种算法称之为LBP算法，这个算法的思路与PCA和Fisher有很大不同，他是考虑局部特征算子，并不是全局考虑。这种算法定义了一种LBP特征，这种特征与我们经常见到的Haar特征、HoG特征没有啥太大不同，都是特征算子，只是算法不同。因此，我们按照理解特征算子一类的算法去理解LBP就可以了。注意，LBP对关照不敏感，为什么？因为LBP算子是一种相对性质的数量关系，相比于PCA或者

2017-04-01 14:32:11 2782 1

转载 LBP人脸识别

LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子。原始的LBP于1994年提出，它反映内容是每个像素与周围像素的关系。后被不断的改进和优化，分别提出了LBP旋转不变模式、LBP均匀模式等。一：原始的LBP 给出一个简单的案例计算LBP：如下图，周围8个像素点比中间点像素值大(或者相等)的记为1，小的记为0，这样就得到二值图，然后按顺时针方向得到二进

2017-04-01 14:28:43 2021