Java爬虫新浪微博的帖子

最新推荐文章于 2024-05-20 22:06:37 发布

置顶

zuiziyoudexiao

最新推荐文章于 2024-05-20 22:06:37 发布

阅读量1.7k

点赞数 1

分类专栏： JAVA 文章标签： java 爬虫微博帖子

本文链接：https://blog.csdn.net/zuiziyoudexiao/article/details/104146882

版权

需求分析

最近新型肺炎肆虐寒假在家闲来无事就突发奇想，爬取新浪微博中与肺炎患者自救有关的帖子以texcel形式保存起来做一些分析。
经过一番折腾，最终使用webMagic框架成功爬取了200个微博页面共3263条帖子。
立图为证

环境搭建

首先创建一个空的maven工程。
在pom.xml文件引入相关依赖

<dependencies>
<!--        读写excel文件-->
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.15</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.15</version>
        </dependency>
<!--        webmagic-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
        </dependency>
       <!-- 布隆过滤器-->
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>25.1-jre</version>
        </dependency>
    </dependencies>

实现步骤

因为自己爬取的是肺炎患者自助相关帖子，爬虫的入口链接为 https://s.weibo.com/weibo?q=肺炎患者自助&Refer=index&page=1。
我们知道微博必须要登录才能访问，如果直接爬取链接爬到的只是空页面。为了方便，这里直接伪装一个登录态。
首先登录微博，然后在浏览器调试窗口抓取cookie信息。
然后将cookie信息添加到请求头中，伪装一个登录态。

Site site = Site.me()
            .setCharset("utf8")   //设置编码
            .setTimeOut(10*1000)  //设置超时时间
            .setRetrySleepTime(3000) //设置重试的间隔时间
            .setRetryTimes(3)  //设置重试的次数
            //添加抓包获取的cookie信息
			.addCookie("s.weibo.com", "ALF","1612149474")
			.addCookie("s.weibo.com", "Apache","8262060252464.451.1580612613221")
			.addCoo

最低0.47元/天解锁文章

zuiziyoudexiao

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
Java爬虫新浪微博的帖子

需求分析最近新型肺炎肆虐寒假在家闲来无事就突发奇想，爬取新浪微博中与肺炎患者自救有关的帖子以texcel形式保存起来做一些分析。经过一番折腾，最终使用webMagic框架成功爬取了200个微博页面共3263条帖子。立图为证环境搭建首先创建一个空的maven工程。在pom.xml文件引入相关依赖<dependencies><!-- 读写ex...
复制链接

扫一扫

专栏目录