爬虫代码
该程序可以自动爬取小说《断天魂》(添加链接描述
)所有章节的内容并保存在TXT文件中。
核心步骤
其实Python爬虫程序很简单,只不过初学者会遇到许多问题,不断的遇到各种坑。本程序核心步骤就是构造所有章节的URL,通过循环访问这些URL,不断提取小说内容。
难点
1.构造URL
2.获取小说内容
# _*_ coding: utf-8 _*_
import requests #导入网页请求库
from bs4 import BeautifulSoup #导入网页解析库
"""爬取小说《断天魂》并保存在TXT文件中
"""
#获取网页请求,将网页内容保存
def start_requests(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044