自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 谷歌能查到结果,但是跳转失败,怎么办

谷歌被赶到香港之后名国内想用谷歌查点资料都那么麻烦。 很多时候baidu无法查到我希望的资料,就抱着侥幸的心态 打开谷歌页面,哇,打开了,输入搜索的内容,成功了,然后点击网页,死活进不去,伤心了 后来无意之间看到可以这样 然后复制右侧的网址,就可以打开你希望的网址了

2012-11-09 14:26:06 714

原创 I-Match算法

最近在看怎么比较文本相似的一些资料,看到I-Match算法,思想比较简单,但是看到的一些文档介绍都看的有点迷糊,按照自己的想法整理一下。 I-Match算法是2002年提出的,它有一个基本的假设——在文档中高频词和低频词不太会邮箱文章语义,即特别高频和特别低频词无法反映文档的真是内容,就像比赛中去掉最高分和最低分。 算法框架: 1.获取文档 2.移除格式化的标签,将文档分解成token流

2012-11-09 14:14:49 2127

转载 SHINGLE

shingle是指文档中一组邻近的 有序词。基于shingle的算法要求从文档中选取一系列 shingle,然后把shingle映射到Hash表中,一个 shingle对应一个Hash值,最后统计Hash表中相同的shingle比率,作为判定文本相似度依据,比率越高,相 似度越高。    下面就用维基百科的一个浅显例子来讲解shingle算法的原理,这个比较权威。    比如,一个

2012-11-09 13:55:41 929

转载 网页去重-算法篇

网页去重-算法篇   前一篇(网页去重-比较文本的相似度-Near duplication detection )提到了5个解决网页去重的算法,这里我想讨论下这些算法1. I-Match  2. Shingliing3. SimHashing( locality sensitive hash)  4. Random Projection5. SpotSig  6. combinedI-Ma

2012-11-09 13:54:11 424

转载 网页去重-比较文本的相似度-Near duplication detection

网页去重-比较文本的相似度-Near duplication detection    near duplicate detection 的任务是检测重复的内容,这项工作在搜索引擎,版权保护,信息展示等方面都有很好的应用。在搜索引擎上,主要是去掉重复的页面,图片,文件,文档等等。下面就指讨论网页的deduplication。    问题是什么?    据统计,网页上的大部分相同的页面占2

2012-11-09 13:52:38 509

原创 简单自动获取文件编码

前段时间,在文章中用到读取文件,由于文件的编码不同,需要在程序中不断的调整读取文件的编码格式。 BufferedReader reader = newBufferedReader(newInputStreamReader(new FileInputStream(new File(文件名)),编码格式));          在网上找了一些资料,对他们总结一下,以备以后需要用的时候能够方

2012-09-19 15:55:13 332

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除