python爬取公众号号内搜文章链接笔记

python爬取公众号号内搜文章链接笔记

前言:最近入了一台kindle,水墨屏看文章很舒服,于是想尝试在kindle上面看公众号文章,决定自己写爬虫把文章爬下来。因为是python新手,所以只做到了爬取文章链接,很多地方写的不好,如果有侵权,请联系我进行删除!
先贴网址:惊人院
默认查找的是全部文章,网页版打开是这样的(按了F12后):
在这里插入图片描述
发现名为search的文件的response有我想要的信息,于是查看payload,
在这里插入图片描述
网页版号内搜有个问题,查询结果向下拉并没有办法刷新,于是我用手机上的kiwi browser浏览器打开该网页(因为这个浏览器有开发者工具),并上拉刷新了两次得到如下结果:
在这里插入图片描述
在这里插入图片描述
观察到在刷新时form data里只有三个地方发生变化:page,nonce,xyz,其中page是页码,nonce和xyz是加密过的内容。
参考这篇博客,可对JavaScript代码进行查看以得知nonce,xyz是怎么产生的。
利用这个工具方便查看js代码的结构,查找到nonce和xyz生成的位置:
在这里插入图片描述
可以看出nonce只是随机生成的长度为9的字符串,于是我直接用最开始的nonce。但是xyz的值我没通过代码审计看出,但是直接利用别的博主的结论得出xyz等于headers里Request URL的值、
“?AppKey=joker”、form data里除xyz外各个值的字符串拼接之后再由md5加密后的值,在这里就是

/xdnphb/app/data/searchinaccount/search?AppKey=joker&keyword=&media=0&order=1&page=1&position=0&publicPosition=0&secret=OywuPjU2LjxI&time=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值