正则表达式总结
爬虫
本地爬虫
1.这是爬取的是本地的数据,可以按照步骤来进行,用的是正则表达式的方式去爬取的
Pattern:表示正则表达式
Matcher:文本匹配器:按照正则表达式的规则读取字符串
示例代码:
import org.w3c.dom.ls.LSOutput;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class regexDemo2 {
public static void main(String[] args) {
String str = "Java is a big big big Java23 so hard Java1";
//method1(str);
Pattern p = Pattern.compile("Java\\d{0,2}");
Matcher m = p.matcher(str);
while (m.find()) {
String s = m.group();
System.out.println(s);
}
}
private static void method1(String str) {
Pattern p = Pattern.compile("Java\\d{0,2}");
Matcher m = p.matcher(str);
boolean b = m.find();
String s1 = m.group();
System.out.println(s1);
b = m.find();
String s2 = m.group();
System.out.println(s2);
}
}
网络爬虫
- 网络爬虫(Web crawler),可以自动地在互联网中进行数据信息的采集整理。按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集能够访问到的页面内容,以获取或更新这些网站的内容和检索方式
- 一些网站是爬取不了的,只能爬取一些没有反爬的网站
- 从功能上来讲,爬虫分为数据采集,处理,储存。爬虫初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新 的URL放入队列,直到满足系统停止条件
例如: