【python】采集**本子，不要看了，快进来~

最新推荐文章于 2023-11-10 17:46:51 发布

「已注销」

最新推荐文章于 2023-11-10 17:46:51 发布

阅读量1.6k

点赞数 2

分类专栏：爬虫小案例文章标签： python 前端开发语言

本文链接：https://blog.csdn.net/weixin_62853513/article/details/127710613

版权

本文介绍如何使用Python进行网络爬虫，详细讲解了如何模拟浏览器请求、解析网页数据、提取本子信息及VIP章节内容，并通过正则表达式处理数据。提供了部分代码展示和视频教程链接。

摘要由CSDN通过智能技术生成

前言

大家早好、午好、晚好吖~

相信不少小伙伴都知道这个网站，特别是中二期得时候

博主我就看过，哈哈哈哈

今天我的得目的就是这个，咋来采集一下它

目录标题

代码展示

# 导入数据请求模块 --> 第三方模块 需要 pip install requests 
import requests
# 导入数据解析模块 --> 第三方模块 需要 pip install parsel
import parsel
# 导入正则模块 --> 内置模块 不需要安装
import re
from show import get_content

请求目录页url <复制>

本文只是大致展示，完整代码和视频教程点击下方蓝字

点击蓝色字体自取，我都放在这里了。

模拟浏览器对于本子目录页面url地址发送请求

模拟浏览器 headers 请求头字典数据类型 <复制>

headers = {
   
    # Cookie 用户信息, 检测是否有登陆账号 <登陆与否都是有cookie>
    'Cookie': '',
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': ''
}

发送请求

requests模块 get模块里面方法

response = requests.get(url=url, headers=headers)
print(response)

<Response [200]> 表示请求成功

“”"
2. 获取数据: 获取服务器返回响应数据

开发者工具 --> response

response.text 获取响应文本数据网页源代码

3. 解析数据: 提取我们想要数据内容

提取本子名字 / 本子章节标题 / 本子章节url

解析数据方法:

xpath
css
re: 对于字符串数据直接提取的话
css选择器: 根据标签属性提取数据内容

转换数据类型

获取下来 response.text html字符串数据类型

get() 获取一个返回字符串
getall() 获取多个返回列表
“”"

转换数据类型, 可解析对象 <Selector xpath=None data='<html xmlns="http://www.w3.org/1999/x...'>

selector = parsel.Selector(response.text)

提取本子名字

name = selector<

最低0.47元/天解锁文章

「已注销」

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录