python微信公众号文章爬虫 存成PDF版(目前唯一可行办法)

微信公众号爬虫

主要通过搜狗微信进行文章搜索,然后依次模拟浏览获取文章网页源码(主要搜狗微信有反爬虫机制,这是我认为唯一可行的办法),通过pdfkit存到本地,每一篇文章大概需要2-4分钟,公众号文章较多的话建议下班跑脚本

1.导入基本库(主要用selenium)

from selenium import webdriver
import pandas as pd
import numpy as np
import random
from time import sleep
base = r'//*[@id="sogou_vr_11002601_title_' #每个公众号可能不一样,自己复制一个文章标题的xpath
def drop_e(s):#对html源码加工,否则爬下来不显示图片
    string_error=   r'?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1'
    string_error2 = r'?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&wx_co=1'
    string_error3=  r'?wx_fmt=jpeg'
    string_error4 = r'?wx_fmt=png'
    string_error5 = r'?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1'
    string_error6 = r'?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1'
    v = s.replace(string_error,'')
    v = v.replace(string_error2,'')
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值