Python顶点小说爬虫（《三寸人间》爬取）

最新推荐文章于 2024-07-06 16:54:04 发布

weixin_44071336

最新推荐文章于 2024-07-06 16:54:04 发布

阅读量1.1k

点赞数

分类专栏： Python 文章标签： Python爬虫

本文链接：https://blog.csdn.net/weixin_44071336/article/details/85284001

版权

使用Python爬虫技术，详细解析如何抓取顶点小说《三寸人间》的全部章节内容，包括从网页获取信息、内容写入文本文件以及如何通过replace函数优化和处理数据。同时介绍了如何实现爬虫的自动化，将整个过程封装为函数。

摘要由CSDN通过智能技术生成

Python顶点小说爬虫（《三寸人间》爬取）

获取整个页面

import requests
from bs4 import BeautifulSoup
url = "https://www.23us.so/files/article/html/0/43/3615671.html"
r = requests.get(url, timeout=30)
r.raise_for_status()#检验连接状态
r.encoding = 'utf-8'#中文格式
soup = BeautifulSoup(r,"html.parser")

在这里插入图片描述

a = str(soup.find_all('h1'))#得到章节标题并转化成str类型

在这里插入图片描述

b = str(soup.find_all('dd',{
   'id',contents}))#得到小说内容并将它转化成str类型

写入.txt文档

dingdian = open("顶点.txt","a",encoding = "utf-8"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44071336

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Python爬取顶点小说网站中的《庆余年》思路参考——记一次不成功的抓取

Rustone的博客

01-03

1774

目的：用python爬虫抓取顶点小说网站中的《庆余年》小说内容个，并保存为txt格式文件。环境：Win10系统，Anaconda3 + PyCharm, python3.6版本思路：（1）先在整个目录页，下载每一章节对应的URL和标题；（2）针对每一章的URL，下载对应的内容，将内容按照顺序存在TXT文件中。步骤： 1.顶点小说中《庆余年》的主页网址： https://www.b...

从“顶点小说”下载完整小说——python爬虫

weixin_30664539的博客

01-26

865

　　此程序只是单纯的为了练习而做，首先这个顶点小说非收费型的那种小说网站（咳咳，我们应该支持正版，正版万岁，✌）。经常在这个网站看小说，所以就光荣的选择了这个网站。此外，其实里面是自带下载功能的，而且支持各种格式:（TXT,CHM,UMD,JAR,APK,HTML),所以可能也并没有设置什么反爬措施，我也只设置了请求头。然后内容是保存为txt格式。　　内容涉及到request的使用(...

参与评论您还未登录，请先登录后发表或查看评论

《从零开始学习Python爬虫：顶点小说全网爬取实战》

最新发布

m0_74087660的博客

07-06

1451

python爬取顶点小说简单版

weixin_58520733的博客

08-11

604

python爬取顶点小说简单版爬取网络资源首先要下载requests库因为这里面也有数据提取和分析所以也要有etree库，re库下载库的代码是：pip install 库名如：pip install requsets 下载库：可以通过win+R 键进入cmd模式，直接运行pip install requsets 废话不多说代码如下： import requests import time import re from lxml import etree if __name__ == '__main

python3爬虫实战-requests+beautifulsoup-爬取下载顶点网站的小说

lxfHaHaHa的博客

05-27

1001

python3爬虫实战之一下载顶点小说的小说，有单线程和多线程两种方式，自行体验两种方式快慢环境先安装requests库、beautifulsiup库 # coding:utf-8 ## 先安装环境python3、pip环境 ## pip3 install requests ## pip3 install BeautifulSoup4 ## 顶点小说爬虫 ## 输入小说...

python爬虫（顶点小说的一本小说）

qq_40116936的博客

12-04

382

网址： https://www.xiaoshuopu.com。感兴趣的可以了试一下。也是刚开始用python ，写的很烂。解析用的BeautifulSoup。请求用的：requests;

Python爬虫之爬取小说

青柚的博客

06-12

9866

(^_−)☆本喵的放松方式是看小说，而且类型不限，属于偏好成谜的那一种。所以从爬取完天气预报开始，我就开始想着爬取小说，编写了一个还不算完善的爬取小说程序，期待你们的完善。小说来源：努努书坊：https://www.kanunu8.com/ 山海经：https://www.kanunu8.com/book3/7766/index.html 解析页面源代码：在页面源...

python-selenium爬虫解决python作业爬取中国大学排名榜单

01-07

python-selenium爬虫解决python作业爬取中国大学排名榜单 result = open('data.xls', 'w', encoding='utf-8') result.write('大学名称\t英文名\t大学级别\t所在省市\t大学类型\t总分\t办学层次\n') for m in ...

python爬虫-基于python 实现的爬取人民日报，爬取人民日报文章后存储到本地课程设计（课程设计报告+源码）

06-27

【作品名称】：python爬虫-基于python 实现的爬取人民日报，爬取人民日报文章后存储到本地【课程设计】（课程设计报告+源码）【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程...

python爬虫-python多线程爬虫爬取电影天堂资源.zip

02-25

本教程将详细讲解如何利用Python实现多线程爬虫来爬取电影天堂资源。首先，我们需要了解Python爬虫的基础知识。Python作为一门非常适合进行网络爬虫开发的语言，拥有丰富的库支持，如requests用于发送HTTP请求，...

python3.6爬虫案例：爬取顶点小说（爱看小说同学的福利）

JiShun_Wang的博客

03-08

9095

一、写在前面这次本来打算爬百思不得姐视频的，谁料赶上此网站调整，视频专栏下线了，网站中也没有视频可爬。所幸先来说说如何爬取顶点小说吧。顶点小说（https://www.x23us.com）里面的内容很丰富，不过我们要爬的话最好爬已经完结的全本小说（https://www.x23us.com/quanben/）。爬完我们可以直接将.txt文件放入手机看，很过瘾的哦。（本篇博客由于内容丰富，篇...

异步爬取小说---三寸人间

RayMand168的博客

04-23

494

思路 1.先写同步代码，遇到多个url时，创建异步任务。 2.保存到txt文件导包 import requests from lxml import etree import asyncio import aiohttp, aiofiles import os 得到url列表 async def get_urls(url, headers): resp = requests.get(url=url, headers=headers) resp.encoding = 'utf-8'

小白进阶之Scrapy安装.使用.爬取顶点小说信息

LJXZDN的博客

07-12

602

感谢原作者的文章小白进阶之Scrapy第一篇里面写的非常详细,但是转存数据库的时候,用的模块是mysql.connector.这个模块官网显示只支持到python3.5. 我用的则是pymysql.本文目的是整理这个项目的整体结构,并介绍用pymysql传输数据的用法.建议大家先看原文后,再看我的. 另附上(中文版) Scrapy入门教程零.安装srayp. 1...

urllib2爬取小说三寸人间

mannnn__的博客

10-10

274

# -*- coding: UTF-8 -*- import urllib2 import re import ssl import sys if __name__ == "__main__": #代理 proxy = { 'http': 'xxx', 'https': 'xxx' } ssl_context = ssl._...

python爬虫实战-爬取小说

快乐是一切的博客

12-19

4250

今天做一个爬虫练手的小实战：爬取顶点小说网的小说，实现下载到本地（虽然网站上本来就可以下载，不过还是自己写代码来有成就感嘛！）爬取网站进入官网后，点击元尊，就爬取这本书了。我们先把整个网页爬下来吧！ import requests url = r'https://www.booktxt.net/6_6453/' # 网站路径 # 伪装请求头 headers = { 'User-Ag...

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码 Scrapy是一个基于Python的爬虫框架，能够快速、高效地爬取网站数据。本文将详细介绍如何使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码。 Scrapy...