- 博客(6)
- 收藏
- 关注
原创 谷歌能查到结果,但是跳转失败,怎么办
谷歌被赶到香港之后名国内想用谷歌查点资料都那么麻烦。很多时候baidu无法查到我希望的资料,就抱着侥幸的心态打开谷歌页面,哇,打开了,输入搜索的内容,成功了,然后点击网页,死活进不去,伤心了后来无意之间看到可以这样然后复制右侧的网址,就可以打开你希望的网址了
2012-11-09 14:26:06 736
原创 I-Match算法
最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。算法框架:1.获取文档2.移除格式化的标签,将文档分解成token流
2012-11-09 14:14:49 2161
转载 SHINGLE
shingle是指文档中一组邻近的 有序词。基于shingle的算法要求从文档中选取一系列 shingle,然后把shingle映射到Hash表中,一个 shingle对应一个Hash值,最后统计Hash表中相同的shingle比率,作为判定文本相似度依据,比率越高,相 似度越高。 下面就用维基百科的一个浅显例子来讲解shingle算法的原理,这个比较权威。 比如,一个
2012-11-09 13:55:41 969
转载 网页去重-算法篇
网页去重-算法篇 前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match 2. Shingliing3. SimHashing( locality sensitive hash) 4. Random Projection5. SpotSig 6. combinedI-Ma
2012-11-09 13:54:11 441
转载 网页去重-比较文本的相似度-Near duplication detection
网页去重-比较文本的相似度-Near duplication detection near duplicate detection 的任务是检测重复的内容,这项工作在搜索引擎,版权保护,信息展示等方面都有很好的应用。在搜索引擎上,主要是去掉重复的页面,图片,文件,文档等等。下面就指讨论网页的deduplication。 问题是什么? 据统计,网页上的大部分相同的页面占2
2012-11-09 13:52:38 524
原创 简单自动获取文件编码
前段时间,在文章中用到读取文件,由于文件的编码不同,需要在程序中不断的调整读取文件的编码格式。BufferedReader reader = newBufferedReader(newInputStreamReader(new FileInputStream(new File(文件名)),编码格式)); 在网上找了一些资料,对他们总结一下,以备以后需要用的时候能够方
2012-09-19 15:55:13 344
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人