- 博客(1)
- 收藏
- 关注
转载 dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫
本系列文章将逐步介绍 dySE 这个开源的 Java 小型搜索引擎的实现过程。该搜索引擎分为三个模块:爬虫模块、预处理模块和搜索模块。其中详细阐述了: 多线程页面爬取、正文内容提取、文本提取、分词、索引建立、快照等功能的实现。本文将重点介绍 dySE 的整体结构和爬虫模块的设计与实现。 查看本系列更多内容 | 12 评论: 董 宇, 研究生 2010 年 7 月 30
          2014-03-19 14:12:42
           1783
1783
        
         
      
空空如也
         
      
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
 RSS订阅
RSS订阅