最近业务需要,大体就是从一些相关的微信公共号来抓取每日推送的内容来。
想来想去没有什么思路,好在前几天看到搜狗可以搜索微信公共号,一看果然有戏。
这样一来就能看到该微信号完整的历史信息了。哈哈,然后果断用jsoup抓之
但是高兴的好像早了点,发现网页的渲染用的是jsonp,貌似jsoup不能执行js,然后分析了一下来源。
发现数据来自这样一个链接
http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid=oIWsFtz7I769OeSHNhnxcWbsas8s&page=1&t=1421556435543
返回的格式如下
然后剩下的事情就简单啦,直接从里面拿到第一个文章的链接就行啦。