GitHub 上高星的爬虫项目

64a41ffd157335d0912c189f21c80f09.png

文 | 某某白米饭

来源:Python 技术「ID: pythonall」

dddbc2b0d78624844d0d53b6d350d2b3.png

GitHub 是一个开源宝库,上面有许多第三方的爬虫库,是可以拿来直接使用和学习的。不需要我们花费大量的时间去研究特定的网站如何去抓取数据。

1. gopup

GoPUP (https://github.com/justinzm/gopup) 项目所采集的数据皆来自公开的数据源,数据接口:百度、谷歌、头条、微博指数,宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视票房数据,高校名单,疫情数据等等

fddac2dc95a3a87538b79e7eeb5052fa.png

安装

使用清华的 pip 源

pip install gopup -i https://pypi.tuna.tsinghua.edu.cn/simple
使用

查看文档 http://doc.gopup.cn/#/

import gopup as gp
df_index = gp.weibo_index(word="疫情", time_type="3month")
print(df_index)

示例结果:

9882ec208f2abe87bcbf65933c36b15d.png

2. weibo-spider

weibo-spider (https://github.com/dataabc/weiboSpider) 是一个微博的爬虫,可以连续的爬取一个或多个微博用户的数据,并将数据写入文件和数据库。支持下载微博中的原始图片/视频、转载图片/视频,Live Photo 中的视频。

5d72093bdf638a00b3ba6b14f8b58dd8.png

安装

安装有两种方式,一种是源码安装,一种是pip

$ git clone https://github.com/dataabc/weiboSpider.git
$ cd weiboSpider
$ pip install -r requirements.txt

或者

python3 -m pip install weibo-spider
使用

weibo-spider 爬虫已经在公众号文章 《中秋不发女朋友,发追女神的方法》 中使用了一次,可以抓取到用户的各种资料、图片、视频。

  1. 安装后第一次运行命令行 python3 -m weibo_spider ,会自动在当前目录创建config.json配置文件

  2. 修改 config.json 文件中 user_id_list 微博用户 ID。

  3. 再次运行 python3 -m weibo_spider

示例结果:

aa2ea11b55465fee6528b3ae9a6d4610.png

3. You-Get

you-get (https://github.com/soimort/you-get) 提供便利的方式来下载网络上的媒体信息,包括视频、音频、图片,支持 80+ 网站。小编经常用来下载 B 站视频。

安装

在 pip 之前需要安装 FFmpeg (强烈推荐) 或 Libav、(可选) RTMPDump。

pip3 install you-get

升级用 
pip3 install --upgrade you-get
使用

只需要简单的使用 you-get 命令就可以下载视频、图片、音频

you-get 网址

如:

you-get https://www.bilibili.com/video/BV1Dq4y1Z7zC?spm_id_from=333.851.b_7265636f6d6d656e64.1

示例结果:

0c908f25e4169927559f398c40c73d14.png

4. musicdl

Music-dl (https://github.com/0xHJK/music-dl) 是一个基于 Python3 的命令行工具,可以从多个网站搜索和下载音乐,解决音乐不知道在哪个网站的问题。Music-dl 的 API 是从公共网络获取的,下载不了 VIP 音乐。

Music-dl 支持 QQ音乐,酷狗音乐,网易云音乐,咪咕音乐和百度音乐。

5bbfdcb3d5e301a735a92e07a28a8998.png

安装
pip install musicdl
使用
music-dl -k 周杰伦

示例结果:

b05b83bf103fb876878f57f14df160d2.png

总结

介绍了 GitHub 上高赞的爬虫项目,大家都可以看看源码,学习源码,让自己的 python 之道更加强大。

PS:公号内回复「Python」即可进入Python 新手学习交流群,一起 100 天计划!

老规矩,兄弟们还记得么,右下角的 “在看” 点一下,如果感觉文章内容不错的话,记得分享朋友圈让更多的人知道!

fbc89f88f3e8233fd0a1d4d5963d0ed6.gif

代码获取方式

识别文末二维码,回复:某某白米饭

2e9cbac97cd942a31f8721333d65ae05.png

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值