python 采集网站数据,本教程用的是scrapy蜘蛛
1、安装Scrapy框架
命令行执行:
pip install scrapy
安装的scrapy依赖包和原先你安装的其他python包有冲突话,推荐使用Virtualenv安装
安装完成后,随便找个文件夹创建爬虫
scrapy startproject 你的蜘蛛名称
文件夹目录
爬虫规则写在spiders目录下
items.py
——需要爬取的数据
pipelines.py
——执行数据保存
settings
—— 配置
middlewares.py
——下载器
下面是采集一个小说网站的源码
先在items.py定义采集的数据
# author 小白<qq群:810735403>
import scrapy
class BookspiderItem(scrapy.Item):
# define the fields for your item here like:
i = scrapy.Field()
book_name = scrapy.Field()
book_img = scrapy.Field()
book_author = scrapy.Field()
book_last_chapter = scrapy.Field()
book_last_time = scrapy.Field()
book_list_name = scrapy.Field()
book_content = scrapy.Field()
pass
编写采集规则
# author 小白<qq群:810735403>
import scrapy
from ..items import BookspiderItem
class Book(scrapy.Spider):
name = "BookSpider"
start_urls = [
'http://www.xbiquge.la/xiaoshuodaquan/'