Java——正则表达式_初识网络爬虫

目的

获取某网站中所有的链接地址

思路

(1)获取该网站的HTML源码
(2)利用正则表达式,获取其中的链接地址(href=”http://……”)

代码

这里以www.163.com为例

package TestRegex;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 初识网络爬虫
 * @author yangzheng
 *
 */

public class Demo2 {
    public static String getURLContent(String urlStr, String charset){
        StringBuffer res = new StringBuffer();
        try {
            URL url = new URL(urlStr);

            BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset)));
            String str = null;

            while ((str = br.readLine()) != null) {
                res.append(str);
            }
        } catch (MalformedURLException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }

        return res.toString();
    }

    public static ArrayList<String> getMatherSubstrs(String destStr, String regexStr){
        Pattern pattern = Pattern.compile(regexStr);
        Matcher mather = pattern.matcher(destStr);
        ArrayList<String> res = new ArrayList<String>();
        while(mather.find()){
            //System.out.println(mather.group());
            //System.out.println(mather.group(1));
            res.add(mather.group(1));
        }

        return res;
    }

    public static void main(String[] args) {
        String destStr = getURLContent("http://www.163.com", "gbk");
        //System.out.println(destStr);

        ArrayList<String> list = getMatherSubstrs(destStr, "href=\"(.+?)\"");

        for (String temp : list) {
            System.out.println(temp);
        }

    }
}

结果

输出destStr:
destStr
(其实是很长很长的)

输入list中的链接地址:
链接地址
(也有很多,图片中只是一下部分)

延伸

可以利用递归,再获取源码中地址对应的网页的源码中的地址。这样可以将整个网站下载到电脑本地中(当然,很多网站是有防护的)。

总结

对爬虫充满了好奇。有时间再学爬虫。
正则表达式就学到这,虽然学完了,但用起来并不熟练。在其它语言中还没有尝试过。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值