使用HtmlAgilityPack解析html

最新推荐文章于 2021-05-31 05:34:10 发布

wnety

最新推荐文章于 2021-05-31 05:34:10 发布

阅读量658

点赞数

分类专栏： .NET Web开发

本文链接：https://blog.csdn.net/wnety/article/details/78807186

版权

.NET 同时被 2 个专栏收录

76 篇文章 2 订阅

订阅专栏

Web开发

48 篇文章 0 订阅

订阅专栏

需要先在项目中引用HtmlAgilityPack.dll

解析html时，最常见的场景是在列表页抓取到列表内容，然后做循环根据列表中标题的超链接抓取详情内容。

要抓取的目标网页核心html内容：

<ul>

</ul>

</div>

C#代码：

string content = GetUrlHtml("http://xxxx.com/newslist.aspx", "gb2312"); //获取目标网页的html

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(content);
HtmlNode contentNode = doc.DocumentNode.SelectSingleNode("//div[@class='list' ]/ul"); //列表内容所在的大区域
HtmlNodeCollection list = contentNode.SelectNodes("li"); //生成循环
foreach(HtmlAgilityPack.HtmlNode item in list)
{
var a = item.SelectSingleNode("a");
var txt = a.InnerText; //标题
var href = a.Attributes["href"].Value; //详情地址
var dt = item.SelectSingleNode("span").InnerText; //时间
var detail = GetUrlHtml(href, "gb2312"); //获得详情页html，再进行解析获得最终内容

//插入数据库
}

private string GetUrlHtml(string url, string code = "utf-8")
{
try
{
  WebRequest rGet = WebRequest.Create(url);
      WebResponse rSet = rGet.GetResponse();
      Stream s = rSet.GetResponseStream();
      StreamReader reader = new StreamReader(s, Encoding.GetEncoding(code));
      return reader.ReadToEnd();
  }
  catch (WebException)
  {
      //连接失败
      return "";
  }
}

wnety

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用HtmlAgilityPack解析html

需要先项目中引用HtmlAgilityPack.dll解析html时，最常见的场景是在列表页抓取到列表内容，然后做循环根据列表中标题的超链接抓取详情内容。要抓取的目标网页核心html内容：新闻标题12017-1-11 新闻标题22017-1-10 C#代码：string content =
复制链接

扫一扫