如何下载csdn的文章并保存成pdf格式呢？并实现某个博主的全部博文下载？

最新推荐文章于 2024-06-07 16:23:14 发布

喵猿

最新推荐文章于 2024-06-07 16:23:14 发布

阅读量9.3k

点赞数 21

文章标签： python xpath css

本文链接：https://blog.csdn.net/weixin_47729434/article/details/114983932

版权

文章目录

一、分析写代码的思路

1.作者url+headers 
2.看作者所在的url是否是静态网页 
3.解析网页，获取作者的每个作品的url，及作者名字 
4.根据每个作品url继续访问，然后数据分析 
5.提取html文本字符串，标题 
6.创建文件夹 
7.保存html文本 
8.转换pdf文本

二、代码步骤

1.导入需要的库

代码如下（示例）：

import requests,parsel,os,pdfkit
from lxml import etree

2.分析某个博客的主页

2.1.任意点进某个博主的网页，例如：“w要变强”的博主

2.2 点击开发者工具，刷新加载出博主主页的网址

2.3 右键点击查看网页源代码，发现博主主页为静态网页，这里我选择了xpath解析网页，当然还可以用css选择器，beautifulsoup等其他解析器

代码如下：
    #1.author_url+headers
    author_url=input('请输入csdn博主的url:')
    headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/87.0.4280.88 Safari/537.36'}
    response = requests.get(author_url,headers=headers).text
    # 2.作者所在的url是静态网页,xpath解析每个作品url
    html_xpath = etree.HTML(response)