我们可以先下载一个网页文件在自己的硬盘上,然后通过URL地址读取文件,利用这则表达式一一对比所读出的字符串是否是email地址,实现抓取!传说的垃圾邮件首先就是要先再网页中抓取别人的email地址,具体的小程序如下:
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Pattern;
import java.util.regex.*;
public class Spider {
public static void main(String[] args) {
try {
BufferedReader buf = new BufferedReader(new FileReader("F:\\a.mht"));
String line = "";
while ((line = buf.readLine()) != null)
pattern(line);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
private static void pattern(String line) {
Pattern p = Pattern.compile("[\\w[._]]+@[\\w[._]]+\\.[\\w]+");//email地址的正则表达式;
Matcher m = p.matcher(line);
while(m.find()){
System.out.println(m.group());
}
/*while(p.matcher(line)!=null){
}*/
}
}