网页信息抓取

最新推荐文章于 2022-03-16 23:15:56 发布

置顶

wushuai1346

最新推荐文章于 2022-03-16 23:15:56 发布

阅读量5k

点赞数 3

分类专栏：数据挖掘正则表达式 .Net相关知识随笔文章标签：正则表达式 webbrowser dreamweaver string xml url

本文链接：https://blog.csdn.net/wushuai1346/article/details/7108424

版权

本文介绍了网页信息抓取的三种方法，包括System.Net.WebClient下载、HttpWebRequest和HttpWebResponse，以及WebBrowser控件的使用。重点讲述了通过正则表达式定位网页数据的步骤，并解答了关于匹配结果和正则匹配选项的常见问题。建议长期从事数据采集工作的人深入学习正则表达式，并推荐使用XML格式保存抓取的数据。

摘要由CSDN通过智能技术生成

——看到社区里面好多人都有抓取网页信息的需要,特地把我自己做的DEMO放上来,供大家参考,也希望大家多提意见,共同学习完善这个小程序.

准备工具：Dreamweaver,RegexBuddy

抓取分3步进行:
1)下载网页数据;
2)处理网页得到想要的数据;
3)保存数据

一、下载网页源代码
这个步骤有很多种方法可以实现,但是目的只有一个,那就是: 给定网页Url,获得网页源代码.

1.使用WebClient下载:

//...
//这里是WebClient需要使用的命名空间
using System.Net;					
//...
WebClient wbDown = new WebClient();		
string strResult = wbDown.DownloadString("http://www.baidu.com/");
//OK,strResult就是下载到的网页源代码
//...