"股票数据Scrapy 爬虫"实例介绍
Scrapy爬虫获取股票数据
功能描述
目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:scrapy
数据网站的确定
获取股票列表:
东方财富网:http://quote.eastmoney.com/stocklist.html
获取个股信息:
课程中的百度股票已经不适用,故换成
https://www.laohu8.com/stock/
单个股票:https://www.laohu8.com/stock/002439
程序框架
编写spider处理链接爬取和页面解析,编写pipelines处理信息存储
实例编写
步骤1:建立工程和Spider模板
D:\>cd laohuStock
D:\laohuStock>scrapy startproject laohuStock
D:\laohuStock>cd laohuStock
D:\laohuStock\laohuStock>scrapy genspider stocks laohu.com
步骤2:编写Spider
配置stocks.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理
步骤3:编写ITEM Pipelines
程序执行
scrapy crawl stocks
如何进一步提高scrapy爬虫爬取速度?
通过更改settings的参数
选项 | 说明 |
---|---|
CONCURRENT_REQUESTS | Downloader最大并发请求下载数量,默认32 |
CONCURRENT_ITEMS | Item Pipeline最大并发ITEM处理数量,默认100 |
CONCURRENT_REQUESTS_PER_DOMAIN | 每个目标域名最大的并发请求数量,默认8 |
CONCURRENT_REQUESTS_PER_IP | 每个目标IP最大的并发请求数量,默认0,非0有效 |