人生苦短,我用python
最近毕业季要做毕业设计的同学真的特别多
需要大量文献、文档、PDF但是不想因为这个花money的
举起你们的双手!!!
接下来就以某度某库为例,
下载我们想要的文档并保存为PDF!
源码资料电子书:点击此处跳转文末名片获取
基本开发环境💨
Python 3.6
Pycharm
相关模块的使用💨
import requests
import parsel
import re
import os
import pdfkit
安装Python并添加到环境变量,
pip安装需要的相关模块即可。
需要使用到一个软件
wkhtmltopdf
这个软件的作用就是把html文件转成PDF
想要把文档内容保存成PDF,
首先保存成html文件,
然后把html文件转PDF
💥需求数据来源分析
网站分类有比较多种,
也可以选择自己要爬取的。
这个网站如果你只是正常直接去复制文章内容的话,
会直接弹出需要money的窗口…
但是这个网站上面的数据内容又非常好找,
因为网站本身仅仅只是静态网页数据,
可以直接获取相关的内容。
通过上述内容,
如果想要批量下载文章内容,
获取每篇文章的url地址即可,
想要获取每篇文章的url地址,
这就需要去文章的列表页面找寻相关的数据内容了。
💥整体思路
- 发送请求,对于文章列表url地址发送请求
- 获取数据,获取网页源代码数据内容
- 解析数据,提取文章url地址
- 发送请求,对于文章url地址发送请求
- 获取数据,获取网页源代码数据内容
- 解析数据,提取文章标题以及文章内容
- 保存数据,把获取的数据内容保存成PDF
- 转成PDF文件