——看到社区里面好多人都有抓取网页信息的需要,特地把我自己做的DEMO放上来,供大家参考,也希望大家多提意见,共同学习完善这个小程序.
准备工具:Dreamweaver,RegexBuddy
抓取分3步进行:
1)下载网页数据;
2)处理网页得到想要的数据;
3)保存数据
一、下载网页源代码
这个步骤有很多种方法可以实现,但是目的只有一个,那就是: 给定网页Url,获得网页源代码.
1.使用WebClient下载:
准备工具:Dreamweaver,RegexBuddy
抓取分3步进行:
1)下载网页数据;
2)处理网页得到想要的数据;
3)保存数据
一、下载网页源代码
这个步骤有很多种方法可以实现,但是目的只有一个,那就是: 给定网页Url,获得网页源代码.
1.使用WebClient下载:
//...
//这里是WebClient需要使用的命名空间
using System.Net;
//...
WebClient wbDown = new WebClient();
string strResult = wbDown.DownloadString("http://www.baidu.com/");
//OK,strResult就是下载到的网页源代码
//...