抓包分析
用Fiddler进行抓包分析
抓取HTTPS数据包
怕取腾讯视频评论
所谓抓包分析,就是网站的传输的数据包,数据会隐藏在网址的源代码,或者不在源代码中,所以要通过抓包分析,去抓取哪些隐藏起来的信息。
下载Fiddlers,在对应的浏览器里面安装,在高级,选择使用代理服务器。爬虫抓取工具,比如去分析淘宝的评论,在fiddler中找到评论的url,复制到文档上,并且进行分析,找到他的规律,比如actionicon为编号为多少的商品,以及页码为多少的商品,以及分析规律,用另外一个浏览器打开。看看是否为商品的评论,然后通过正则表达式,进行分析和抓取。
爬去腾讯视频的评论,用fiddler,打开评论都是uuu
其实这些都是unicode编码,发现这些数字都是uuuu里面的title,可以用引号引起来,然后前面加上u进行解码
先找到last:对应的id,然后进行爬取,再通过正则pat=匹配content,
用循环取爬去,爬取的有unicode编码,则有一些需要转换位unicode
eval(“u”+“comid”)