批量下载文档有救了：Python下载某网站文档保存PDF

最新推荐文章于 2024-05-13 08:28:12 发布

蚂蚁爱Python

最新推荐文章于 2024-05-13 08:28:12 发布

阅读量1.2k

点赞数 1

分类专栏： python基础知识 Python Python实战项目文章标签： python pdf pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xff123456_/article/details/129669438

版权

人生苦短，我用python

最近毕业季要做毕业设计的同学真的特别多

需要大量文献、文档、PDF但是不想因为这个花money的

举起你们的双手！！！

接下来就以某度某库为例，

下载我们想要的文档并保存为PDF！

源码资料电子书:点击此处跳转文末名片获取

在这里插入图片描述

基本开发环境💨

Python 3.6
Pycharm

相关模块的使用💨

import requests
import parsel
import re
import os
import pdfkit

安装Python并添加到环境变量，
pip安装需要的相关模块即可。

需要使用到一个软件 wkhtmltopdf
这个软件的作用就是把html文件转成PDF

想要把文档内容保存成PDF，
首先保存成html文件，
然后把html文件转PDF

在这里插入图片描述

💥需求数据来源分析

请添加图片描述

网站分类有比较多种，
也可以选择自己要爬取的。

这个网站如果你只是正常直接去复制文章内容的话，
会直接弹出需要money的窗口…

在这里插入图片描述

但是这个网站上面的数据内容又非常好找，
因为网站本身仅仅只是静态网页数据，
可以直接获取相关的内容。

请添加图片描述

通过上述内容，
如果想要批量下载文章内容，
获取每篇文章的url地址即可，
想要获取每篇文章的url地址，
这就需要去文章的列表页面找寻相关的数据内容了。

请添加图片描述

在这里插入图片描述

💥整体思路

发送请求，对于文章列表url地址发送请求
获取数据，获取网页源代码数据内容
解析数据，提取文章url地址
发送请求，对于文章url地址发送请求
获取数据，获取网页源代码数据内容
解析数据，提取文章标题以及文章内容
保存数据，把获取的数据内容保存成PDF
转成PDF文件

最低0.47元/天解锁文章

蚂蚁爱Python

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
批量下载文档有救了：Python下载某网站文档保存PDF

已经码得很厚了，审核给过吧....
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。