![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
Edward-liang
If you really want to do something, there'll be a way. If you don't, there'll be an excuse.
展开
-
Yahoo!的分布式数据平台PNUTS简介及感悟
在分布式领域有个CAP理论(Brewer’s CAP Theorem) ,是说Consistency(一致性), Availability(可用性), Partition tolerance(分布) 三部分在系统实现只可同时满足二点,没法三者兼顾。所以架构设计师不要把精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍,选取最适合应用需求的其中之二。比如MySQL 5.1 clust转载 2014-02-17 12:35:54 · 1379 阅读 · 0 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
Why Yarn: Map-reduce老矣,尚能饭否? 第一次看到Yarn的问题,就需要问问,为什么要重新设计之前这样一个成熟的架构。 “The Apache Hadoop Map-reduce framework is showing it’s age, clearly”, 社区的Yarn设计文档 ”MapReduce_NextGen-Architecture”如是说。转载 2014-02-16 21:51:21 · 1024 阅读 · 0 评论 -
MinHashing原理
转载http://roba.rushcj.com/?p=533&cpage=1#comment-5985 读书笔记:相似度计算(1) 所谓minhash是指把一个集合(即特征矩阵的一列)映射为一个0..R-1之间的值。具体方法是,以等概率随机抽取一个0..R-1的排列,依此排列查找第一次出现1的行。 例如有集合S1={a,d}, S2={c}, S3 = {b,d,e}, S转载 2014-07-02 18:12:15 · 3125 阅读 · 0 评论 -
[科研日志] EWH(1)
继续快速相似文件查询的研究,用到一篇文献的思想,对其进行仿真。 文献:A Fast Approximate Nearest Neighbor Search Algorithm in the Hamming Space 下载文献 该文献的主要思想是:输入文件的哈希值(我用的是文件名)例如一个64位的哈希值,多次随机抽取若干位(例如4位)的值组成一个字串,按照字串值的不同将文件放原创 2014-08-19 17:09:03 · 1152 阅读 · 0 评论 -
Java反射 二三事
为什么需要反射 关于反射有很多场景可能会用到,这里用到是因为有一些私有方法必须要写单元测试。 关于为什么会对私有方法进行单元测试,也许这并不是常见的需求。然而当外部环境变化很大(比如网站的url)时,保证你的函数正确有助于快速排错。 对私有方法反射的主要流程 1.首先获得方法A所在类的Class object,即通过Class.forName(ClassName)以及原创 2015-10-10 10:03:31 · 734 阅读 · 0 评论