【GitHub精选项目】微博数据采集:weibo-crawler使用指南

【GitHub精选项目】微博数据采集:weibo-crawler使用指南

前言

本文为大家带来的是 dataabcweibo-crawler 开源项目,这是一个高效的下载微博数据的开源项目。它可以轻松的帮助用户获取微博数据从而进行分析。

在众多社交媒体平台中,微博以其海量的用户和实时的信息流成为了研究的热点。而weibo-crawler帮可以助研究人员、数据分析师甚至是好奇的个人用户,高效地从微博抓取数据。

本文介绍的不够详尽!仅展示该项目的一小部分!读者朋友们可以前往项目主页进行全面的学习!

项目地址:https://github.com/dataabc/weibo-crawler

项目概览

weibo-crawler 是一个开源的微博爬虫项目,能够自动化地抓取微博用户的帖子、评论、点赞数和转发数等信息。该项目使用 Python 开发,简化了数据收集的过程,支持将数据保存为CSV和JSON等格式,方便后续的数据分析工作。

在这里插入图片描述

它采集的数据也是很全面的!

CSV文件

在这里插入图片描述

下载图片

在这里插入图片描述

下载视频

在这里插入图片描述


克隆项目

git clone

最简单的,在命令行工具输入以下命令即可,如下图所示:

git clone https://github.com/dataabc/weibo-crawler.git

在这里插入图片描述

Download ZIP

如果没有安装Git,那么使用 Download ZIP 也是个不错的选择。

在这里插入图片描述

运行程序

本项目是由Python编程语言所编写,默认读者朋友们已经安装好了。

配置环境

step 1 安装依赖

去到项目目录下,安装所需要的库。在命令行执行以下命令即可。

pip install -r requirement.txt
step 2 定义参数

安装好项目所需要的依赖之后,可以打开config.json进行程序运行之间必要的配置

  • 以下是完整的参数
{
    "user_id_list": ["1669879400"],
    "only_crawl_original": 1,
    "remove_html_tag": 1,
    "since_date": "2018-01-01",
    "write_mode": ["csv"],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 1,
    "retweet_video_download": 0,
    "download_comment":1,
    "comment_max_download_count":1000,
    "download_repost": 1,
    "repost_max_download_count": 1000,
    "user_id_as_folder_name": 0,
    "cookie": "your cookie",
    "mysql_config": {
        "host": "localhost",
        "port": 3306,
        "user": "root",
        "password": "123456",
        "charset": "utf8mb4"
    },
    "mongodb_URI": "mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"
}

具体的配置参数需要去看官方文档 的介绍,我们这里试运行只需要关注 user_id_list 这个参数即可。

设置user_id_list

具体如何获取 user_id如何获取user_id

user_id_list是要爬取的微博用户的id列表,可以直接在配置中指定,也可以将其设置为一个txt文件的路径。

  1. 直接指定:将用户id以列表形式列出,如:(这这里我们选择了第一种方式)
"user_id_list": ["1223178222", "1669879400", "1729370543"]
  1. 使用txt文件:创建一个txt文件,每行包含一个用户id和可选的注释(如用户昵称),id和注释之间以空格分隔,示例如下:
1223178222 胡歌
1669879400 迪丽热巴
1729370543 郭碧婷

然后将文件路径指定给 user_id_list,例如:

"user_id_list": "user_id_list.txt"

本次试运行的config.json

  • since_date:10 是取最近10天的内容
{
    "user_id_list":  ["1223178222", "1669879400", "1729370543"],
    "only_crawl_original": 0,
    "since_date": 10,
    "start_page": 1,
    "write_mode": [
        "csv"
    ],
    "original_pic_download": 1,
    "retweet_pic_download": 0,
    "original_video_download": 0,
    "retweet_video_download": 0,
    "download_comment": 1,
    "comment_max_download_count": 100,
    "download_repost": 1,
    "repost_max_download_count": 100,
    "user_id_as_folder_name": 0,
    "remove_html_tag": 1,
    "cookie": "your cookie",
    "mysql_config": {
        "host": "localhost",
        "port": 3306,
        "user": "root",
        "password": "123456",
        "charset": "utf8mb4"
    },
    "mongodb_URI": "mongodb://[username:password@]host[:port][/[defaultauthdb][?options]]"
}

运行方式

命令行

在做完上述的配置操作之后,就可以运行程序了!

运行 weibo.py

python weibo.py

运行情况如下图所示,
在这里插入图片描述

docker

此项目也支持docker运行,

在项目根路径创建一个名为docker-compose.yml 的文件,填下以下内容:

  • path/to 修改成你的项目的根路径
version: '3'
services:
  weibo-crawler:
    build:
      context: .
      dockerfile: Dockerfile
    volumes:
      - path/to/config.json:/app/config.json
      - path/to/weibo:/app/weibo
    environment:
      - schedule_interval=1 # 可选:循环间隔(分钟)

然后在命令行输入以下命令启动

docker-compose up -d

结果展示

可以参考前面的项目概览或项目文档,这里不做具体展示!

运行结果如下图所示:

  • 程序在项目根目录下生成了对应的文件!

在这里插入图片描述

迪丽热巴

在这里插入图片描述


注意事项

  1. 尊重版权:在使用weibo-crawler时应尊重微博用户的版权和隐私,仅用于非商业性研究和学习目的。
  2. 遵守法律法规:在使用该工具时,应遵守当地法律法规,不得用于任何违法活动。
  3. 配置Cookie:获取并配置自己的微博Cookie到config.json文件中,因为有效的Cookie对于获取部分受限内容是必需的。

总结

通过这个工具,用户可以自动化地抓取微博用户的帖子、评论、点赞数和转发数等信息,支持将数据保存为CSV和JSON等格式,大大简化了数据收集的过程。

本文详细介绍了weibo-crawler的项目概览、克隆项目、运行程序及结果展示等步骤,旨在帮助用户快速上手使用这个工具。在实际使用过程中,用户应当尊重版权、遵守法律法规,并妥善配置个人的微博Cookie,以确保爬虫的正常运行及数据获取的合规性。

美中不足的是,作者并没有在 Releases 发布编译好的拿来即用的版本。但是我相信能去逛Github网站的小伙伴,动手能力都不会太差!所以这也是小问题~

后话

本次分享到此结束,
see you~~🎈🎈

Fanuc CNC数据采集是指通过Fanuc数控机床系统进行数据采集的过程。Fanuc数控机床系统是一种高精度、高效率的数控机床系统,并且具有丰富的功能和灵活的操作界面。 在Fanuc CNC数据采集过程中,首先需要将数据采集设备与Fanuc数控机床系统进行连接。这些数据采集设备可以是传感器、监控设备或者其他类型的数据采集设备。通过与Fanuc数控机床系统的连接,可以实现实时数据的采集和传输。 接下来,在Fanuc CNC数据采集过程中,需要设定数据采集的参数和条件。根据具体的应用需求,可以设定需要采集的数据类型,如温度、压力、速度等,以及采集的时间间隔和采集的持续时间等。 开始数据采集后,Fanuc CNC系统会根据设定的参数和条件自动进行数据的采集。采集的数据会被传输到数据采集设备的存储器中,以便后续的数据处理和分析。 在Fanuc CNC数据采集过程中,还可以进行实时监控和数据处理。通过连接的监控设备,可以实时监测和显示采集的数据,以便对机床运行状态进行实时监控和调整。 最后,在Fanuc CNC数据采集过程中,采集到的数据可以用于进行数据分析和优化。通过对采集的数据进行分析,可以了解机床运行状态、故障诊断和性能优化等。 总的来说,Fanuc CNC数据采集是一个重要的过程,通过采集和处理数据,可以实现对数控机床系统的监控和优化,提高机床的运行效率和生产质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是小菜欸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值