搜索引擎
will_guofeng
这个作者很懒,什么都没留下…
展开
-
HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容
HtmlParser应用,使用Filter从爬取到的网页中获取需要的内容htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。下载地址: http://sourceforge.net/projects/htmlparser/转载 2014-05-06 11:40:08 · 706 阅读 · 0 评论 -
用HTMLParser提取URL页面超链接的一段代码
转载自:http://topstar.blog.51cto.com/693408/140866转载 2014-05-01 22:22:41 · 2156 阅读 · 0 评论 -
网络爬虫---HTMLParser使用详解
本文转自:HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。 这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习HTMLParser的朋友们有所帮助。(不过当年高考本人语文只比及格高一转载 2014-05-06 12:55:36 · 806 阅读 · 0 评论 -
berkeley db储存URL队列的简单实现增、删、查
Berkeley DB(BDB)是一个高效的嵌入式数据库编程库,C语言、C++、Java、Perl、Python、Tcl以及其他很多语言都有其对应的API。Berkeley DB可以保存任意类型的键/值对(Key/Value Pair),而且可以为一个键保存多个数据。Berkeley DB支持让数千的并发线程同时操作数据库,支持最大256TB的数据,广泛用于各种操作系统,其中包括大多数类U原创 2014-04-30 10:35:06 · 3335 阅读 · 6 评论 -
berkeley db使用手册
一、 简介 Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。l 能够高效率的处理1到1百万条记录,制约JE数据库的往往是硬件系统,而不是JE本身。l 多线程支持,JE使用超时的方式来处理线程间的死琐问题。l Data转载 2014-04-25 16:25:28 · 1429 阅读 · 0 评论 -
VIPS:基于视觉的Web页面分页算法
1.问题的提出目前,随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web 作为信息技术的载体已成为人们重要的工作、学习、生活、娱乐工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。但是如何去获取这些Web信息为我们所用则是大家面临的共同问题。在最基本的层次上,整个Web网络就是由无数的Web页面而构成,因此如果获取了这些We转载 2014-06-06 10:09:43 · 2052 阅读 · 0 评论 -
Lucene 4.8全文检索引擎入门示例
花了小半天的时间研究了一下Lucene全文检索引擎的使用,看网上的教程动辄十几章着实吓人,想起来N年前学习JDBC的时候买了巨厚的一本专门描写JDBC的书籍,现在想想做数据库编程就那么个套路,其实是很简单的,这个Lucene应该也是一样的,先入了门再关注各个细节的犄角旮旯。 先看项目中要用Lucene的话需要引入哪些jar包,我是用maven自动下载的,依赖包如下:Xml代码转载 2014-06-07 07:55:41 · 1200 阅读 · 0 评论 -
基于hadoop 网络爬虫
一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoo转载 2014-10-16 09:53:16 · 2981 阅读 · 4 评论