关于Sina Visitor System

开头:爬取新浪微博数据的时候发现多了一个Sina Visitor System,如果之前没有登录过新浪微博,没有cookie值的话,即便网页打开也会过上几秒钟才能进入正常的页面,访问其他 weibo.com 下的页面 ,如果不用selenium、模拟登录或者带cookie值的话,那么只能爬取Sina Visitor System的内容

<!DOCTYPE html>
<html>
<head>
    <meta http-equiv="Content-type" content="text/html; charset=gb2312"/>
    <title>Sina Visitor System</title>
</head>
<body>
<span id="message"></span>
<script type="text/javascript" src="/js/visitor/mini_original.js?v=20161116"></script>
<script type="text/javascript">
    window.use_fp = "1" == "1"; // 是否采集设备指纹。
    var url = url || {};
    (function () {
        this.l = function (u, c) {
            try {
                var s = document.createElement("script");
                s.type = "text/javascript";
                s[document.all ? "onreadystatechange" : "onload"] = function () {
以下省略,其实还挺贴心的,有中文注释

一开始我以为是js反爬取,我寻思js逆向我也不会啊,那就放弃吧,直接headers带cookie爬取吧

后面发现设置一下User-Agent,把自己伪装成搜索引擎爬虫这位的思路可以,但是实际如何操作,我是萌新并不太知道如何操作,一开始以为是直接加Referer,装作我是百度来的。

referer的作用就是记录你在访问一个目标网站时,在访问前你的原网站的地址,比如说你从百度访问csdn,你的头部信息的referer就是www.baidu.com,有的网站会针对只让referer是本网站的访问其他模块之类的。

后面经过检查抓包看到,从百度点击新浪微博跳转后的页面自带一个cookie,也不知道是谁的cookie,可能是新浪给百度这种搜索引擎的Cookie吧,拿来使用就可以正常爬取了。


经过百度后,发现貌似是新浪会给无登录的用户一个cookie值,使得他们在没有登录的情况下以游客的身份也能访问新浪微博的一些页面内容。以后可以先网页打开新浪微博,获得一个游客cookie再进行爬虫了。这位讲解了如何自动获取访客cookie,但是有点麻烦,不是需要多量自动化爬微博不太需要。微博爬虫——自动获取访客COOKIE 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
设计模式中的访问者模式(Visitor Pattern)是一种行为型模式,它允许你在不修改对象结构的情况下定义新的操作。访问者模式通过将操作封装在访问者对象中,使得可以在不改变被访问对象的类的前提下,定义新的操作。 访问者模式的参与者包括: - 抽象接口(Glaph):定义了需要操纵对象的抽象接口。 - 具体实现类(Character):实现了抽象接口,并接受访问者的访问和操作。 - 访问者抽象类(Visitor):定义了访问者的缺省方法。 - 具体访问者(ConcreteVisitor):实现了访问者抽象类,对需要增加的操作进行实现。 Java中的实际应用举例可以以ASM技术为例。ASM是一个Java字节码操纵框架,它可以用来动态生成、修改和分析Java字节码。在ASM中,访问者模式被广泛应用于字节码的访问和操作。 以下是一个使用访问者模式的Java代码示例: ```java // 抽象接口 public interface Acceptable { void accept(Visitor visitor); } // 具体实现类 public class Character implements Acceptable { @Override public void accept(Visitor visitor) { visitor.visit(this); } } // 访问者抽象类 public abstract class Visitor { public abstract void visit(Character character); } // 具体访问者 public class ConcreteVisitor extends Visitor { @Override public void visit(Character character) { // 对Character进行操作 } } // 使用访问者模式 public class Main { public static void main(String[] args) { Character character = new Character(); Visitor visitor = new ConcreteVisitor(); character.accept(visitor); } } ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值