小说爬虫

最新推荐文章于 2024-01-22 02:04:26 发布

程序猿玖月柒

最新推荐文章于 2024-01-22 02:04:26 发布

阅读量546

点赞数 2

分类专栏： python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45257157/article/details/103505999

版权

python爬虫专栏收录该内容

32 篇文章 1 订阅

订阅专栏

因为最近几个小伙伴遇到了一些小问题，爬小说有乱码，或者不成功的情况，所有今天上午特意写了一个简单的顶点的小说爬虫。这里做了简单的演示所以只爬取了前几页如果需要更多，自行更改range里面参数就可了。
代码如下：

import requests
from lxml import etree

urls = ["https://www.23us.us/html/14/14593/{}.html".format(i) for i in range(5374091, 5374095)]
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.75 Safari/537.36"
}


def get_novel(url):
    response = requests.get(url, headers=headers)
    text = etree.HTML(response.text)
    title = text.xpath("//div[@class='content']/h1/text()")[0]
    contents = text.xpath("//div[@id='content']/text()")
    with open("小说.txt" + title, "w", encoding="utf-8")as f:
        for content in contents:
            f.write(content)


if __name__ == '__main__':
    for url in urls:
        get_novel(url)

程序猿玖月柒

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
小说爬虫

   因为最近几个小伙伴遇到了一些小问题，爬小说有乱码，或者不成功的情况，所有今天上午特意写了一个简单的顶点的小说爬虫。这里做了简单的演示所以只爬取了前几页如果需要更多，自行更改range里面参数就可了。代码如下：import requestsfrom lxml import etreeurls = ["https://www.23us.us/html/14...
复制链接

扫一扫

专栏目录

程序猿玖月柒 CSDN认证博客专家 CSDN认证企业博客

码龄5年

165: 原创

3万+: 周排名

1万+: 总排名

16万+: 访问

: 等级

4106: 积分

1588: 粉丝

1555: 获赞

167: 评论

2031: 收藏

私信

关注

热门文章

分类专栏

最新评论

瑞芯微RV1126——人脸识别框架分析
光脚怕穿鞋: 大佬请教下，您1126是用了哪款相机呢？能带几路吗？
嵌入式软件工程师面试题——2025校招社招通用(C/C++篇)（十）
weixin_51697074: #if defined(__GNUC__) || defined(__GNUG__) #define ONEBYTE_ALIGN __attribute__((packed)) #elif defined(_MSC_VER) #define ONEBYTE_ALIGN #pragma pack(push,1) #endif struct Info { uint16_t a : 1; uint16_t b : 2; uint16_t c : 3; uint16_t d : 2; uint16_t e : 1; uint16_t pad : 7; } ONEBYTE_ALIGN; #if defined(__GNUC__) || defined(__GNUG__) #undef ONEBYTE_ALIGN #elif defined(_MSC_VER) #pragma pack(pop) #undef ONEBYTE_ALIGN #endif std::cout << sizeof(Info) << std::endl; // 2 std::cout << alignof(Info) << std::endl; // 1 中std::cout << sizeof(Info) << std::endl;是不是应该是15呀
FFmpeg学习记录（四）——SDL音视频渲染实战
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
史上最全嵌入式（学习路线、应用开发、驱动开发、推荐书籍、软硬件基础）
程序猿玖月柒: 面试题也已经更新！可以翻看主页！
史上最全嵌入式（学习路线、应用开发、驱动开发、推荐书籍、软硬件基础）
qq_40854227: 博主整理的太实用了，感谢感谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。