C#爬虫，让你不再觉得神秘

大大大大大板牙

于 2020-12-21 17:16:27 发布

阅读量188

点赞数

文章标签： python css

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wy122222222/article/details/111479119

版权

本文介绍了如何使用C#的HtmlAgilityPack库进行网页爬虫开发，包括从文件、字符串和网址获取HTML信息，重点讲解了通过XPath选择器定位和提取所需数据的方法，以及自定义类库封装爬虫辅助函数。

摘要由CSDN通过智能技术生成

// From File 从文件获取html信息
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 从字符串获取html信息
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web 从网址获取html信息
var url = “http://html-agility-pack.net/”;
var web = new HtmlWeb();
var doc = web.Load(url);
1.1、这里介绍一下最后一种用法
var web = new HtmlWeb();
var doc = web.Load(url);
在 web 中我们还可以设置cookie、headers等信息，来处理一些特定的网站需求，比如需要登陆等。

1.2 用法解释
网页在你查看网页源代码之后只是一段字符串，而爬虫所做的就是在这堆字符串中，查询到我们想要的信息，挑选出来。
以往的筛选方法：正则（太麻烦了，写起来有些头疼）
HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath？
网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息？
获取选中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/head

最低0.47元/天解锁文章

大大大大大板牙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。