【python】采集**本子,不要看了,快进来~

本文介绍如何使用Python进行网络爬虫,详细讲解了如何模拟浏览器请求、解析网页数据、提取本子信息及VIP章节内容,并通过正则表达式处理数据。提供了部分代码展示和视频教程链接。
摘要由CSDN通过智能技术生成

前言

大家早好、午好、晚好吖~

相信不少小伙伴都知道这个网站,特别是中二期得时候

博主我就看过,哈哈哈哈

今天我的得目的就是这个,咋来采集一下它

代码展示

# 导入数据请求模块 --> 第三方模块 需要 pip install requests 
import requests
# 导入数据解析模块 --> 第三方模块 需要 pip install parsel
import parsel
# 导入正则模块 --> 内置模块 不需要安装
import re
from show import get_content

请求目录页url <复制>

本文只是大致展示,完整代码和视频教程点击下方蓝字

点击 蓝色字体 自取,我都放在这里了。

模拟浏览器对于 本子 目录页面url地址 发送请求

模拟浏览器 headers 请求头 字典数据类型 <复制>

headers = {
   
    # Cookie 用户信息, 检测是否有登陆账号 <登陆与否都是有cookie>
    'Cookie': '',
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': ''
}

发送请求

requests模块 get模块里面方法

response = requests.get(url=url, headers=headers)
print(response)

<Response [200]> 表示请求成功

“”"
2. 获取数据: 获取服务器返回响应数据

开发者工具 --> response

  • response.text 获取响应文本数据 网页源代码

3. 解析数据: 提取我们想要数据内容

提取本子名字 / 本子章节标题 / 本子章节url

解析数据方法:

  • xpath

  • css

  • re: 对于字符串数据直接提取的话

  • css选择器: 根据标签属性提取数据内容

转换数据类型

获取下来 response.text html字符串数据类型

get() 获取一个 返回字符串
getall() 获取多个 返回列表
“”"

转换数据类型, 可解析对象 <Selector xpath=None data='<html xmlns="http://www.w3.org/1999/x...'>

selector = parsel.Selector(response.text)

提取本子名字

name = selector<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值