zhjw1006-CSDN博客

原创谷歌能查到结果，但是跳转失败，怎么办

谷歌被赶到香港之后名国内想用谷歌查点资料都那么麻烦。很多时候baidu无法查到我希望的资料，就抱着侥幸的心态打开谷歌页面，哇，打开了，输入搜索的内容，成功了，然后点击网页，死活进不去，伤心了后来无意之间看到可以这样然后复制右侧的网址，就可以打开你希望的网址了

2012-11-09 14:26:06 736

原创 I-Match算法

最近在看怎么比较文本相似的一些资料，看到I-Match算法，思想比较简单，但是看到的一些文档介绍都看的有点迷糊，按照自己的想法整理一下。I-Match算法是2002年提出的，它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义，即特别高频和特别低频词无法反映文档的真是内容，就像比赛中去掉最高分和最低分。算法框架：1.获取文档2.移除格式化的标签，将文档分解成token流

2012-11-09 14:14:49 2161

转载 SHINGLE

shingle是指文档中一组邻近的有序词。基于shingle的算法要求从文档中选取一系列 shingle，然后把shingle映射到Hash表中,一个 shingle对应一个Hash值，最后统计Hash表中相同的shingle比率,作为判定文本相似度依据，比率越高，相似度越高。　　下面就用维基百科的一个浅显例子来讲解shingle算法的原理，这个比较权威。　　比如，一个

2012-11-09 13:55:41 969

转载网页去重-算法篇

网页去重-算法篇前一篇（网页去重-比较文本的相似度-Near duplication detection ）提到了5个解决网页去重的算法，这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing（ locality sensitive hash） 4. Random Projection5. SpotSig 6. combinedI-Ma

2012-11-09 13:54:11 441

转载网页去重-比较文本的相似度-Near duplication detection

网页去重-比较文本的相似度-Near duplication detection 　　near duplicate detection 的任务是检测重复的内容，这项工作在搜索引擎，版权保护，信息展示等方面都有很好的应用。在搜索引擎上，主要是去掉重复的页面，图片，文件，文档等等。下面就指讨论网页的deduplication。　　问题是什么? 　　据统计，网页上的大部分相同的页面占2

2012-11-09 13:52:38 524

原创简单自动获取文件编码

前段时间，在文章中用到读取文件，由于文件的编码不同，需要在程序中不断的调整读取文件的编码格式。BufferedReader reader = newBufferedReader(newInputStreamReader(new FileInputStream(new File(文件名)),编码格式)); 在网上找了一些资料，对他们总结一下，以备以后需要用的时候能够方

2012-09-19 15:55:13 344

zhjw1006的专栏

原创谷歌能查到结果，但是跳转失败，怎么办

原创 I-Match算法

转载 SHINGLE

转载网页去重-算法篇

转载网页去重-比较文本的相似度-Near duplication detection

原创简单自动获取文件编码

空空如也

空空如也

原创 谷歌能查到结果，但是跳转失败，怎么办

原创 I-Match算法

转载 SHINGLE

转载 网页去重-算法篇

转载 网页去重-比较文本的相似度-Near duplication detection

原创 简单自动获取文件编码

空空如也

空空如也

原创谷歌能查到结果，但是跳转失败，怎么办

转载网页去重-算法篇

转载网页去重-比较文本的相似度-Near duplication detection

原创简单自动获取文件编码