爬虫大全

爬虫大全

github项目地址:https://github.com/wpwbb510582246/Spider

爬虫大全集合了大家常用的爬虫,为大家日常的开发提供方便。希望大家能共同努力,让这个项目变得丰富而充实。

这个项目主要基于 pythonscrapy,数据库采用MongoDB数据库,采集到的数据都保存在 MongodbDB数据库。

本项目仅为学习之作,请勿用作商业用途,否则后果自负!

功能说明

腾讯视频

网址为:https://v.qq.com,爬虫名称:tencent,内容:主要包括各种最新影视资源

最大资源网

网址为:www.zuidazy1.net,爬虫名称:zuida,内容:主要包括各种最新影视资源

酷云资源网

网址为:www.kuyunzy1.com,爬虫名称:kuyun,内容:主要包括各种最新影视资源

好趣网

网址为:www.haoqu.net,爬虫名称:tv,内容:主要包括各种电视资源

戏曲屋

网址为:www.xiqu5.com,爬虫名称:drama,内容:主要包括各种戏曲资源

小品屋

网址为:www.xiaopin5.com,爬虫名称:piece,内容:主要包括各种小品资源

QQ相册

网址为:i.qq.com,爬虫名称:album,内容:用于批量下载QQ空间中的照片

打赏


  • 解决上面这些问题,需要花费很多时间与精力。支持项目继续完善下去,你也可以贡献一份力量!

  • 有了打赏,也就会有更新的动力 : )

更新日志


v1.1.0 2019/9/30
  • 新增腾讯影视爬虫(tencent)
  • 电视爬虫接口更新为好趣网(http://www.haoqu.net)
  • 优化原有爬虫部分逻辑
v1.0.0 2019/9/25
  • 完成项目的初始化
  • 当前项目中包含的爬虫包括最大资源网(www.zuidazy1.net)、酷云资源网(www.kuyunzy1.com)、爱看TV(www.icantv.cn)、戏曲屋(www.xiqu5.com)、小品屋(www.xiaopin5.com)、QQ相册(i.qq.com)

开发文档[待完善]


爬虫代码(Spider)使用方法

1、将Spider/PocketLifeSpider/PocketLifeSpider/util下面的MongoDbUtils.py中的139.199.24.205环卫数据库所在机器的域名或ip地址。

settings = {
    # "ip":'localhost',   #ip
    "ip":'127.0.0.1',   #ip
    "port":27017,           #端口
    "db_name" : "spider",    #数据库名字
}

2、资源名称及其对应的命令

资源名称命令
最大资源网scrapy crawl zuida
酷云资源网scrapy crawl kuyun
爱看TVscrapy crawl tv
爱看TV(指定关键词)scrapy crawl tv -a keyword=CCTV-1
戏曲屋scrapy crawl drama
戏曲屋(指定关键词)scrapy crawl drama -a keyword=民间小调
戏曲屋(戏曲类型)scrapy crawl drama_type
小品屋scrapy crawl piece
小品屋(小品类型)scrapy crawl piece_type
QQ相册scrapy crawl album
腾讯视频scrapy crawl tencent
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GraysonWP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值