微信爬取过程中参数分析

一:找到永久的历史信息列表:http://mp.weixin.qq.com/mp/getmasssendmsg?__biz=XXX==#wechat_redirect

将XXX==替换为自己的BIZ


二:4个参数可以唯一确定一篇微信文章:

__biz可以认为是微信公众平台对外公布的公众帐号的唯一id
mid是图文消息id
idx是发布的第几条消息(1就代表是头条位置消息)
sn是一个随机加密串(对于一篇图文消息是唯一的,如果你想问这个sn的生成规则是什么或者怎么破解,你基本上只能从微信公众平台开发团队才能得到答案)熬伪装


三:伪装微信客户端登陆,取历史信息页时,最重要4个参数:__biz;uin=;key=;pass_ticket=;这4个参数。【有时候需要手机配合】


四:取得general_msg_list 后,分析各个字段
"list": [ //最外层的键名;只出现一次,所有内容都被它包含。
    {//这个大阔号之内是一条多图文或单图文消息,通俗的说就是一天的群发都在这里
        "app_msg_ext_info":{//图文消息的扩展信息
            "content_url": "图文消息的链接地址",
            "cover": "封面图片",
            "digest": "摘要",
            "is_multi": "是否多图文,值为1和0",
            "multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息,如果is_multi=0,这里将为空
                {
                    "content_url": "图文消息的链接地址",
                    "cover": "封面图片",
                    "digest": ""摘要"",
                    "source_url": "阅读原文的地址",
                    "title": "子内容标题"
                },
                ...//循环被省略
            ],
            "source_url": "阅读原文的地址",
            "title": "头条标题"
        },
        "comm_msg_info":{//图文消息的基本信息
            "datetime": '发布时间,值为unix时间戳',
            "type": 49 //类型为49的时候是图文消息
        }
    },
    ...//循环被省略
]

五:采集程序原型

建立表:
 

1、微信公众号表

CREATE TABLE `weixin` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `biz` varchar(255) DEFAULT '' COMMENT '公众号唯一标识biz',
  `collect` int(11
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

紫气东来_999

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值