Java 爬虫遇到需要登录的网站，该怎么办？

最新推荐文章于 2025-02-21 22:36:04 发布

平头哥的技术博文

最新推荐文章于 2025-02-21 22:36:04 发布

阅读量1.9w

点赞数 64

分类专栏： Java 基础笔记文章标签： Java爬虫爬虫登录 jsoup 登录 httpclient登录爬虫

本文链接：https://blog.csdn.net/z694644032/article/details/102452844

版权

本文介绍了在Java爬虫遇到需要登录的网站时的两种解决方案：手动设置cookie和模拟登录。通过实例展示了如何使用Jsoup和httpclient进行模拟登录，强调了各自适用的场景和优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是 Java 网络爬虫系列博文的第二篇，在上一篇 Java 网络爬虫，就是这么的简单中，我们简单的学习了一下如何利用 Java 进行网络爬虫。在这一篇中我们将简单的聊一聊在网络爬虫时，遇到需要登录的网站，我们该怎么办？

在做爬虫时，遇到需要登陆的问题也比较常见，比如写脚本抢票之类的，但凡需要个人信息的都需要登陆，对于这类问题主要有两种解决方式：一种方式是手动设置 cookie ，就是先在网站上面登录，复制登陆后的 cookies ，在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性，这种方式适用于采集频次不高、采集周期短，因为 cookie 会失效，如果长期采集的话就需要频繁设置 cookie，这不是一种可行的办法，第二种方式就是使用程序模拟登陆，通过模拟登陆获取到 cookies，这种方式适用于长期采集该网站，因为每次采集都会先登陆，这样就不需要担心 cookie 过期的问题。

为了能让大家更好的理解这两种方式的运用，我以获取豆瓣个人主页昵称为例，分别用这两种方式来获取需要登陆后才能看到的信息。获取信息如下图所示：

获取图片中的缺心眼那叫单纯，这个信息显然是需要登陆后才能看到的，这就符合我们的主题啦。接下来分别用上面两种办法来解决这个问题。

手动设置 cookie

手动设置 cookie 的方式，这种方式比较简单，我们只需要在豆瓣网上登陆，登陆成功后就可以获取到带有用户信息的cookie，豆瓣网登录链接：https://accounts.douban.com/passport/login。如下图所示：

图中的这个 cookie 就携带了用户信息，我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式，具体代码如下：

/**
 * 手动设置 cookies
 * 先从网站上登录，然后查看 request headers 里面的 cookies
 * @param url
 * @throws IOException
 */
public void setCookies(String url) throws IOException {
   

    Document document = Jsoup.connect(url)
            // 手动设置cookies
            .header("Cookie", "your cookies")
            .get();
    //
    if (document != null) {
   
        // 获取豆瓣昵称节点
        Element element = document.select(".info h1").first();
        if (element == null) {
   
            System.out.println("没有找到 .info h1 标签");
            return;
        }
        // 取出豆瓣节点昵称
        String userName = element.ownText();
        System.out.println("豆瓣我的网名为：" + userName);
    } else {
   
        System.out.println("出错啦！！！！！");
    }
}