文章目录
一、分析写代码的思路
1.作者url+headers 2.看作者所在的url是否是静态网页 3.解析网页,获取作者的每个作品的url,及作者名字 4.根据每个作品url继续访问,然后数据分析 5.提取html文本字符串,标题 6.创建文件夹 7.保存html文本 8.转换pdf文本
二、代码步骤
1.导入需要的库
代码如下(示例):
import requests,parsel,os,pdfkit
from lxml import etree
2.分析某个博客的主页
2.1.任意点进某个博主的网页,例如:“w要变强”的博主
![]()
2.2 点击开发者工具,刷新加载出博主主页的网址
![]()
2.3 右键点击查看网页源代码,发现博主主页为静态网页,这里我选择了xpath解析网页,当然还可以用css选择器,beautifulsoup等其他解析器
代码如下:
#1.author_url+headers author_url=input('请输入csdn博主的url:') headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/87.0.4280.88 Safari/537.36'} response = requests.get(author_url,headers=headers).text # 2.作者所在的url是静态网页,xpath解析每个作品url html_xpath = etree.HTML(response)
3.提取需要的数据
3.1提取博客的名字和所有作品的url
![]()
代码