前言
大家早好、午好、晚好吖~
相信不少小伙伴都知道这个网站,特别是中二期得时候
博主我就看过,哈哈哈哈
今天我的得目的就是这个,咋来采集一下它
代码展示
# 导入数据请求模块 --> 第三方模块 需要 pip install requests
import requests
# 导入数据解析模块 --> 第三方模块 需要 pip install parsel
import parsel
# 导入正则模块 --> 内置模块 不需要安装
import re
from show import get_content
请求目录页url <复制>
本文只是大致展示,完整代码和视频教程点击下方蓝字
点击 蓝色字体 自取,我都放在这里了。
模拟浏览器对于 本子 目录页面url地址 发送请求
模拟浏览器 headers 请求头 字典数据类型 <复制>
headers = {
# Cookie 用户信息, 检测是否有登陆账号 <登陆与否都是有cookie>
'Cookie': '',
# User-Agent 用户代理 表示浏览器基本身份信息
'User-Agent': ''
}
发送请求
requests模块 get模块里面方法
response = requests.get(url=url, headers=headers)
print(response)
<Response [200]>
表示请求成功
“”"
2. 获取数据: 获取服务器返回响应数据
开发者工具 --> response
response.text
获取响应文本数据 网页源代码
3. 解析数据: 提取我们想要数据内容
提取本子名字 / 本子章节标题 / 本子章节url
解析数据方法:
-
xpath
-
css
-
re: 对于字符串数据直接提取的话
-
css选择器: 根据标签属性提取数据内容
转换数据类型
获取下来 response.text html
字符串数据类型
get()
获取一个 返回字符串
getall()
获取多个 返回列表
“”"
转换数据类型, 可解析对象 <Selector xpath=None data='<html xmlns="http://www.w3.org/1999/x...'>
selector = parsel.Selector(response.text)
提取本子名字
name = selector<