python微信公众号文章爬虫存成PDF版（目前唯一可行办法）_python 根据微信公众号文章的链接生成pdf文档-CSDN博客

本文链接：https://blog.csdn.net/weixin_47755864/article/details/112372206

微信公众号爬虫

主要通过搜狗微信进行文章搜索，然后依次模拟浏览获取文章网页源码（主要搜狗微信有反爬虫机制，这是我认为唯一可行的办法），通过pdfkit存到本地，每一篇文章大概需要2-4分钟，公众号文章较多的话建议下班跑脚本

1.导入基本库（主要用selenium）

from selenium import webdriver
import pandas as pd
import numpy as np
import random
from time import sleep
base = r'//*[@id="sogou_vr_11002601_title_' #每个公众号可能不一样，自己复制一个文章标题的xpath
def drop_e(s):#对html源码加工，否则爬下来不显示图片
    string_error=   r'?wx_fmt=jpeg&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1'
    string_error2 = r'?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1'
    string_error3=  r'?wx_fmt=jpeg'
    string_error4 = r'?wx_fmt=png'
    string_error5 = r'?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1&amp;wx_co=1'
    string_error6 = r'?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1'
    v = s.replace(string_error,'')
    v = v.replace(string_error2,'')