- 博客(7)
- 资源 (15)
- 收藏
- 关注
原创 机器学习 - 距离计算
在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距
2017-04-25 16:24:38 696
转载 图计算模型GraphLab——pregel原理API
简介在Hadoop兴起之后,google又发布了三篇研究论文,分别阐述了了Caffeine、Pregel、Dremel三种技术,这三种技术也被成为google的新“三驾马车”,其中的Pregel是google提出的用于大规模分布式图计算框架。主要用于图遍历(BFS)、最短路径(SSSP)、PageRank计算等等计算。在Pregel计算模式中,输入是一个有向图,该有向图的每一个顶点都有一个
2017-04-15 15:52:54 4233 1
转载 mapreduce计算均值combine加速
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.DoubleWritable;
2017-04-12 19:06:54 894
原创 mapreduce过程
如大家所知道的,Hadoop的计算框架主要是两个过程分别是map和reduce,但是还有好几个过程跟性能调优有关。如:shuffle、partition和combiner。shuffle:数据从map端传输到reduce端的过程。据说是可以期待奇迹发生的环节。计算框架总体的过程如下:map阶段:从磁盘读入数据 --> map函数 --> combine结果(非必
2017-04-09 18:49:03 315
原创 combiner的使用误区
问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显的Mapper只需要输出它所知道的最大值即可。这
2017-04-09 17:18:18 1184
转载 LBP人脸识别
第三种算法称之为LBP算法,这个算法的思路与PCA和Fisher有很大不同,他是考虑局部特征算子,并不是全局考虑。这种算法定义了一种LBP特征,这种特征与我们经常见到的Haar特征、HoG特征没有啥太大不同,都是特征算子,只是算法不同。因此,我们按照理解特征算子一类的算法去理解LBP就可以了。注意,LBP对关照不敏感,为什么?因为LBP算子是一种相对性质的数量关系,相比于PCA或者
2017-04-01 14:32:11 2782 1
转载 LBP人脸识别
LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子。原始的LBP于1994年提出,它反映内容是每个像素与周围像素的关系。后被不断的改进和优化,分别提出了LBP旋转不变模式、LBP均匀模式等。一:原始的LBP 给出一个简单的案例计算LBP:如下图,周围8个像素点比中间点像素值大(或者相等)的记为1,小的记为0,这样就得到二值图,然后按顺时针方向得到二进
2017-04-01 14:28:43 2021
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人