这里指的是,你发现任意一个页面,没有RSS,没有数据接口,只是通过浏览器能够访问,把上面的数据用程序拿过来用。 基本原理: 1,通过http请求页面,返回字符串的代码; 2,通过第一步后,数据就是一组字符串,相当于你在浏览器点击查看源代码的内容。一般就开始用正则表达式,提取有用的数据,排除无用的; 3,有需要的可以把数据存储到自己的数据库中,也报过图片处理等。 4,把提取出来的数据生成自己需要的页面。 一个偷取页面的过程就这样完成了。下面是两种第一步的代码,原理是一样的。 ------------------------------------------------------------------ /// <summary> } ---------------------------------------------- /// 获取远程文件源代码 ----------------------------- 第二步,正则表达式的一个小例子,把div中的内容全部返回了,接下来,存到自己的数据库还做什么就随意了。 string Reg = "<div id=m>.+?</div>"; public bool GetRegValue(string RegexString, string RemoteStr) |
[C#]数据采集
最新推荐文章于 2024-04-18 12:31:40 发布
数据采集
2008-02-02 11:02