Java网络爬虫crawler4j学习笔记<4> Net类

haoshenwang

于 2016-11-08 10:25:54 发布

阅读量1.3k

点赞数 1

分类专栏：网络爬虫 crawler4j 文章标签：网络爬虫 crawler4j

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wanghao109/article/details/53079641

版权

网络爬虫同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

源代码

package edu.uci.ics.crawler4j.util;

import edu.uci.ics.crawler4j.url.WebURL;

import java.util.HashSet;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Net {
  private static Pattern pattern = initializePattern();

  // 根据正则表达式抽取出所有的Url链接
  public static Set<WebURL> extractUrls(String input) {
    Set<WebURL> extractedUrls = new HashSet<>();

    if (input != null) {
      Matcher matcher = pattern.matcher(input);
      // 依次获取满足过滤条件的链接
      while (matcher.find()) {
        WebURL webURL = new WebURL();
        String urlStr = matcher.group();
        // 加上协议名，便于网络访问
        if (!urlStr.startsWith("http"))
          urlStr = "http://" + urlStr;

        webURL.setURL(urlStr);
        extractedUrls.add(webURL);
      }
    }
    return extractedUrls;
  }

  /** Singleton like one time call to initialize the Pattern */
  private static Pattern initializePattern() {
    return Pattern.compile(
      "\\b(((ht|f)tp(s?)\\:\\/\\/|~\\/|\\/)|www.)" +
      "(\\w+:\\w+@)?(([-\\w]+\\.)+(com|org|net|gov" +
      "|mil|biz|info|mobi|name|aero|jobs|museum" +
      "|travel|[a-z]{2}))(:[\\d]{1,5})?" +
      "(((\\/([-\\w~!$+|.,=]|%[a-f\\d]{2})+)+|\\/)+|\\?|#)?" +
      "((\\?([-\\w~!$+|.,*:]|%[a-f\\d{2}])+=?" +
      "([-\\w~!$+|.,*:=]|%[a-f\\d]{2})*)" +
      "(&(?:[-\\w~!$+|.,*:]|%[a-f\\d{2}])+=?" +
      "([-\\w~!$+|.,*:=]|%[a-f\\d]{2})*)*)*" +
      "(#([-\\w~!$+|.,*:=]|%[a-f\\d]{2})*)?\\b");
  }
}

代码分析

这里需要用到url包的WebURL类，根据名字判断应该是一个关于网络地址的类，应该包含URL和一些关于URL的自定义信息。
在函数initializePattern()中使用单例模式，在程序启动阶段就初始化一个过滤器的静态实例，该过滤器指定了满足要求的超链接，之后在程序运行过程中可以一直使用，提高性能。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java网络爬虫crawler4j学习笔记<4> Net类

源代码package edu.uci.ics.crawler4j.util;import edu.uci.ics.crawler4j.url.WebURL;import java.util.HashSet;import java.util.Set;import java.util.regex.Matcher;import java.util.regex.Pattern;public class
复制链接

扫一扫

专栏目录

haoshenwang CSDN认证博客专家 CSDN认证企业博客

码龄13年

136: 原创

13万+: 周排名

169万+: 总排名

45万+: 访问

: 等级

5245: 积分

160: 粉丝

240: 获赞

68: 评论

442: 收藏

私信

关注

热门文章

分类专栏

data structure and algorithm 18篇
c 26篇
c++ 15篇
others
unix 11篇
java 33篇
operation system 2篇
非程序员人生 7篇
internet 3篇
shell
STL 3篇
编译原理 2篇
机器学习 4篇
python 9篇
数学 10篇
scala 1篇
hadoop 1篇
spark 1篇
网络爬虫 26篇
crawler4j 25篇

最新评论

操作系统虚拟内存中的四种典型页替换算法(OPT,LRU,FIFO,Clock)
HEiiX: 关于指针，作者理解错误，指针指向的是被替换页框的下一个页框（课本有写）。J到K，J步将第三个页框进行替换，所以K步的指针指向了第一个页框，而并不是单纯+1。
呕心沥血的java复杂项目(包括自定义应用层协议、CS多线程、多客户端登录、上下线提醒等等)
Florence lu: TCP的阻塞问题可以通过Java多线程解决，但用UDP也ok的，因为udp本身不存在这个问题
数据在全局变量区（堆）和局部变量区（栈）上存储顺序是增还是减
qq_45693423: 再补充一点，关于地址，博主说的其实是windows，linux不适用的，你会发现全局，局部，malloc申请的的地址都是递增的。为啥是这样了？其实linux会给程序申请一块内存，从系统申请内存的低地址开始向上，如果不够则会拷贝到更大一块内存。
最简单的快速排序代码
qq_27854405: while (a[++i]<x); 会数组越界吧？
呕心沥血的java复杂项目(包括自定义应用层协议、CS多线程、多客户端登录、上下线提醒等等)
只想做个凡人、: 请问这个程序中是使用了netty中IO框架吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。