目的
获取某网站中所有的链接地址
思路
(1)获取该网站的HTML源码
(2)利用正则表达式,获取其中的链接地址(href=”http://……”)
代码
这里以www.163.com为例
package TestRegex;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* 初识网络爬虫
* @author yangzheng
*
*/
public class Demo2 {
public static String getURLContent(String urlStr, String charset){
StringBuffer res = new StringBuffer();
try {
URL url = new URL(urlStr);
BufferedReader br = new BufferedReader(new InputStreamReader(url.openStream(), Charset.forName(charset)));
String str = null;
while ((str = br.readLine()) != null) {
res.append(str);
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return res.toString();
}
public static ArrayList<String> getMatherSubstrs(String destStr, String regexStr){
Pattern pattern = Pattern.compile(regexStr);
Matcher mather = pattern.matcher(destStr);
ArrayList<String> res = new ArrayList<String>();
while(mather.find()){
//System.out.println(mather.group());
//System.out.println(mather.group(1));
res.add(mather.group(1));
}
return res;
}
public static void main(String[] args) {
String destStr = getURLContent("http://www.163.com", "gbk");
//System.out.println(destStr);
ArrayList<String> list = getMatherSubstrs(destStr, "href=\"(.+?)\"");
for (String temp : list) {
System.out.println(temp);
}
}
}
结果
输出destStr:
(其实是很长很长的)
输入list中的链接地址:
(也有很多,图片中只是一下部分)
延伸
可以利用递归,再获取源码中地址对应的网页的源码中的地址。这样可以将整个网站下载到电脑本地中(当然,很多网站是有防护的)。
总结
对爬虫充满了好奇。有时间再学爬虫。
正则表达式就学到这,虽然学完了,但用起来并不熟练。在其它语言中还没有尝试过。