网络爬虫相关
文章平均质量分 78
jinmingz
ASR SRE DeepLearning
展开
-
网络爬虫中动态的获取页面编码
动态获取页面编码有两种实现方式:根据下载的网页源代码的URL地址来获取 或者是 根据下载的网页源代码进行判断页面的编码。 这两种方式都用到了第三方的库:antlr.jar、chardet.jar和cpdetector.jar 第一种方式: public String getURLEncoding(String url) { java.nio.charset.Charset c原创 2015-06-27 12:40:04 · 803 阅读 · 0 评论 -
关于布隆过滤器(Bloom-Filter)的理解
简介: Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中,其优点是空间效率和查询时间都远远超过其他算法,其不足在于Bloom- Filter存在着误判。 因此, Bloom Filter 不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下, Bloom Filter 通过极少的错误换取了存储空间的极大节省。原创 2015-06-27 10:35:42 · 1239 阅读 · 0 评论