使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中




import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


/*
 * 网页爬虫(蜘蛛)
 * 
 */
public class RegexTest2 {
public static void main(String[] args) {

}
//获取网页中的邮件地址
/*
 * 只要服务器开着就可以从服务器上的数据
 */
public static void  getmails1() {
try {
URL url=new URL("指定的网站");
URLConnection conn=url.openConnection();
BufferedReader bufrin=new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line=null;
String mailreg="[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,3}";


Pattern p=Pattern .compile(mailreg);


while ((line=bufrin.readLine())!=null) {
Matcher m=p.matcher(line);
while (m.find()) {
System.out.println(m.group());
}



}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
//获取指定文档中的邮件地址。使用获取功能。pattern matches
public static void  getmails() {
try {
BufferedReader bufr=new BufferedReader(new FileReader("d:\\3.txt"));
String  line=null;
String mailreg="[a-zA-Z0-9_]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,3}";
Pattern p=Pattern .compile(mailreg);

while ((line=bufr.readLine())!=null) {
Matcher m=p.matcher(line);
while (m.find()) {
System.out.println(m.group());
}



}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}

}
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值