Python爬虫案例：下载文章数据，转制成PDF格式

最新推荐文章于 2024-08-04 18:30:00 发布

「已注销」

最新推荐文章于 2024-08-04 18:30:00 发布

阅读量258

点赞数

分类专栏： python 爬虫小案例文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_62853513/article/details/124519893

版权

本文介绍了如何使用Python爬虫获取文章内容，并借助wkhtmltopdf工具将内容先保存为HTML文件，再转换成PDF格式。首先确保安装了wkhtmltopdf，然后通过发送请求获取文章，解析数据提取内容，最后将HTML文件转化成PDF。

摘要由CSDN通过智能技术生成

wkhtmltopdf [软件]，这个是必学准备好的，不然这个案例是实现不出来的

获取文章内容代码

发送请求, 对于url地址发送请求
解析数据, 提取内容
保存数据, 先保存成html文件
再把html文件转成PDF

代码实现

# 请求数据
import requests  # 数据请求模块

url = f'https://blog.csdn.net/fei347795790/article/list/1'  # 确定请求网址
# headers 请求头, 主要用于伪装python, 防止程序被服务器识别出来
headers = {
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.88 Safari/537.36'