第四周学习笔记——Scrapy的实例二

最新推荐文章于 2024-04-30 23:00:09 发布

z11111z11

最新推荐文章于 2024-04-30 23:00:09 发布

阅读量246

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/z11111z11/article/details/108215116

版权

爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

"股票数据Scrapy 爬虫"实例介绍

Scrapy爬虫获取股票数据

Scrapy爬虫获取股票数据

功能描述

目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：scrapy

数据网站的确定

获取股票列表：
东方财富网：http://quote.eastmoney.com/stocklist.html
获取个股信息：
课程中的百度股票已经不适用，故换成
https://www.laohu8.com/stock/
单个股票：https://www.laohu8.com/stock/002439

程序框架

编写spider处理链接爬取和页面解析，编写pipelines处理信息存储

实例编写

步骤1：建立工程和Spider模板

D:\>cd laohuStock
D:\laohuStock>scrapy startproject laohuStock
D:\laohuStock>cd laohuStock
D:\laohuStock\laohuStock>scrapy genspider stocks laohu.com

步骤2：编写Spider

配置stocks.py文件
修改对返回页面的处理
修改对新增URL爬取请求的处理

步骤3：编写ITEM Pipelines

程序执行
scrapy crawl stocks

如何进一步提高scrapy爬虫爬取速度？

通过更改settings的参数

选项	说明
CONCURRENT_REQUESTS	Downloader最大并发请求下载数量，默认32
CONCURRENT_ITEMS	Item Pipeline最大并发ITEM处理数量，默认100
CONCURRENT_REQUESTS_PER_DOMAIN	每个目标域名最大的并发请求数量，默认8
CONCURRENT_REQUESTS_PER_IP	每个目标IP最大的并发请求数量，默认0，非0有效