开头:爬取新浪微博数据的时候发现多了一个Sina Visitor System,如果之前没有登录过新浪微博,没有cookie值的话,即便网页打开也会过上几秒钟才能进入正常的页面,访问其他 weibo.com 下的页面 ,如果不用selenium、模拟登录或者带cookie值的话,那么只能爬取Sina Visitor System的内容
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-type" content="text/html; charset=gb2312"/>
<title>Sina Visitor System</title>
</head>
<body>
<span id="message"></span>
<script type="text/javascript" src="/js/visitor/mini_original.js?v=20161116"></script>
<script type="text/javascript">
window.use_fp = "1" == "1"; // 是否采集设备指纹。
var url = url || {};
(function () {
this.l = function (u, c) {
try {
var s = document.createElement("script");
s.type = "text/javascript";
s[document.all ? "onreadystatechange" : "onload"] = function () {
以下省略,其实还挺贴心的,有中文注释
一开始我以为是js反爬取,我寻思js逆向我也不会啊,那就放弃吧,直接headers带cookie爬取吧
后面发现设置一下User-Agent,把自己伪装成搜索引擎爬虫这位的思路可以,但是实际如何操作,我是萌新并不太知道如何操作,一开始以为是直接加Referer,装作我是百度来的。
referer的作用就是记录你在访问一个目标网站时,在访问前你的原网站的地址,比如说你从百度访问csdn,你的头部信息的referer就是www.baidu.com,有的网站会针对只让referer是本网站的访问其他模块之类的。
后面经过检查抓包看到,从百度点击新浪微博跳转后的页面自带一个cookie,也不知道是谁的cookie,可能是新浪给百度这种搜索引擎的Cookie吧,拿来使用就可以正常爬取了。
经过百度后,发现貌似是新浪会给无登录的用户一个cookie值,使得他们在没有登录的情况下以游客的身份也能访问新浪微博的一些页面内容。以后可以先网页打开新浪微博,获得一个游客cookie再进行爬虫了。这位讲解了如何自动获取访客cookie,但是有点麻烦,不是需要多量自动化爬微博不太需要。微博爬虫——自动获取访客COOKIE