用C#爬虫小说网站
主要实现逻辑:“套娃”通过MyWebClient获取小说网站页面内所有小说的网络地址,然后通过网络地址找到每本小说的单独的网络地址,然后再通过每本小说的网络地址 找到小说章节正文的网络地址,最后通过章节地址获取到章节内容,最最后将章节内容整合起来的到整本小说。2、分析bookPageHtml_Default中获取到的网站页面源代码文本,从而用正则表达式获取所有小说的url、小说名。最近学习爬虫,做了个简单能实现爬取小说网站整页小说功能的DEMO。3、用以上获取到的小说url,获取每本小说的章节地址url。
原创
2023-02-13 14:17:09 ·
705 阅读 ·
0 评论