爬虫大全

最新推荐文章于 2023-05-30 14:44:22 发布

GraysonWP

最新推荐文章于 2023-05-30 14:44:22 发布

阅读量5.5k

点赞数 1

分类专栏：爬虫文章标签：爬虫 python scrapy

本文链接：https://blog.csdn.net/wpwbb510582246/article/details/101377513

版权

1 篇文章

订阅专栏

github项目地址：https://github.com/wpwbb510582246/Spider

爬虫大全集合了大家常用的爬虫，为大家日常的开发提供方便。希望大家能共同努力，让这个项目变得丰富而充实。

这个项目主要基于 python、scrapy，数据库采用MongoDB数据库，采集到的数据都保存在 MongodbDB数据库。

本项目仅为学习之作，请勿用作商业用途，否则后果自负！

网址为：https://v.qq.com，爬虫名称：tencent，内容：主要包括各种最新影视资源

网址为：www.zuidazy1.net，爬虫名称：zuida，内容：主要包括各种最新影视资源

网址为：www.kuyunzy1.com，爬虫名称：kuyun，内容：主要包括各种最新影视资源

网址为：www.haoqu.net，爬虫名称：tv，内容：主要包括各种电视资源

网址为：www.xiqu5.com，爬虫名称：drama，内容：主要包括各种戏曲资源

网址为：www.xiaopin5.com，爬虫名称：piece，内容：主要包括各种小品资源

网址为：i.qq.com，爬虫名称：album，内容：用于批量下载QQ空间中的照片

完成项目的初始化
当前项目中包含的爬虫包括最大资源网(www.zuidazy1.net)、酷云资源网(www.kuyunzy1.com)、爱看TV(www.icantv.cn)、戏曲屋(www.xiqu5.com)、小品屋(www.xiaopin5.com)、QQ相册(i.qq.com)

1、将Spider/PocketLifeSpider/PocketLifeSpider/util下面的MongoDbUtils.py中的139.199.24.205环卫数据库所在机器的域名或ip地址。

settings = {
    # "ip":'localhost',   #ip
    "ip":'127.0.0.1',   #ip
    "port":27017,           #端口
    "db_name" : "spider",    #数据库名字
}

2、资源名称及其对应的命令

资源名称	命令
最大资源网	scrapy crawl zuida
酷云资源网	scrapy crawl kuyun
爱看TV	scrapy crawl tv
爱看TV(指定关键词)	scrapy crawl tv -a keyword=CCTV-1
戏曲屋	scrapy crawl drama
戏曲屋(指定关键词)	scrapy crawl drama -a keyword=民间小调
戏曲屋(戏曲类型)	scrapy crawl drama_type
小品屋	scrapy crawl piece
小品屋(小品类型)	scrapy crawl piece_type
QQ相册	scrapy crawl album
腾讯视频	scrapy crawl tencent