爬取网页:urllib,requests等
解析网页:beautifulsoup4,lxml等
一.网站类型(1)
从乐文小说网站上爬取小说相见欢,并存放至txt文件中
URL:从前有座灵剑山
(一)介绍
该类网站为静态网站。
特点:(1)章节目录直接加载所有章节内容【如下图所示】
(2)章节链接暴露在html中(非动态js加载)
(二)爬取教程
首先,我们引入我们需要的库文件
接下来,我们进行爬虫伪装(伪装报头)
(该网站没有反爬虫机制,可以选择跳过)
爬取网页:urllib,requests等
解析网页:beautifulsoup4,lxml等
一.网站类型(1)
从乐文小说网站上爬取小说相见欢,并存放至txt文件中
URL:从前有座灵剑山
(一)介绍
该类网站为静态网站。
特点:(1)章节目录直接加载所有章节内容【如下图所示】
(2)章节链接暴露在html中(非动态js加载)
(二)爬取教程
首先,我们引入我们需要的库文件
接下来,我们进行爬虫伪装(伪装报头)
(该网站没有反爬虫机制,可以选择跳过)