scrapy-北京新发地爬虫实战练习

bug智造

已于 2023-02-27 20:05:41 修改

阅读量700

点赞数

分类专栏：大数据 Python 文章标签： python 爬虫

于 2022-01-05 10:28:45 首次发布

本文链接：https://blog.csdn.net/weixin_45971950/article/details/122317768

版权

Python 同时被 2 个专栏收录

21 篇文章 12 订阅

订阅专栏

大数据

18 篇文章 5 订阅

订阅专栏

本文介绍了如何利用Scrapy框架创建爬虫，抓取北京新发地农产品市场的价格行情数据。首先创建Scrapy项目，定义爬虫文件，设置爬取URL及参数，并解析JSON响应来提取价格、种类、产地等信息。最终通过`scrapy crawl`命令运行爬虫，收集并导出数据。

摘要由CSDN通过智能技术生成

北京新发地

新发地-价格行情

前提：安装有scrapy

打开pycharm，点击Terminal，输入scrapy startproject name

ps:name为你要创建的工程的名字

如下：我创建的scrapy工程名为bjxfd，即北京新发地的拼音缩写

scrapy startproject bjxfd

之后会自动生成目录和一系列文件

这时提示你需要创建源文件

先cd 工程文件名进入scrapy工程目录

然后使用scrapy genspider scrapyname www.xxx.com

scrapy genspider scrapyname www.xxx.com

其中，scrapyname为爬虫名，自己定义，www.xxx.com是要爬取网站的域名网址

在scrapy工程目录里，我们可以看到多了一个你刚刚创建的name的名字，比如我刚刚创建的爬虫文件名为xfd，这就多了个xfd.py文件，用于写爬虫代码的

到这里我们的项目就建好了，可以开始写代码了

根据网页源代码结构查看，发现数据是在json内，且为post请求

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_15,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_20,color_FFFFFF,t_70,g_se,x_16

根据分析可得，http://www.xinfadi.com.cn/getPriceData.html为具体数据的基础url

http://www.xinfadi.com.cn/getPriceData.html?limit=20&current=1的url中，limit参数为一页数据量为20条数据，current为页数

文件目录结构

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_8,color_FFFFFF,t_70,g_se,x_16

settings.py

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_20,color_FFFFFF,t_70,g_se,x_16

# 种类，名字，最低价，最高阶，平均价，规格，产地，单位，发布时间
FEED_EXPORT_FIELDS = ['kind', 'name', 'lowPrice', 'highPrice', 'avgPrice', 'norms', 'place', 'unit', 'date']
# 屏蔽一些日志信息
LOG_LEVEL='WARNING'

items.py

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_18,color_FFFFFF,t_70,g_se,x_16

代码如下：

import scrapy
# 种类，名字，最低价，最高阶，平均价，规格，产地，单位，发布时间
class XinfadiItem(scrapy.Item):
    kind = scrapy.Field()
    name = scrapy.Field()
    lowPrice = scrapy.Field()
    highPrice = scrapy.Field()
    avgPrice = scrapy.Field()
    norms = scrapy.Field()
    place = scrapy.Field()
    unit = scrapy.Field()
    date = scrapy.Field()

spiders.py

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_20,color_FFFFFF,t_70,g_se,x_16

代码如下：

import scrapy
import json
from ..items import XinfadiItem

class XfdSpiderSpider(scrapy.Spider):
    name = 'xfd_spider'
    allowed_domains = ['www.xinfadi.com.cn']
    start_urls = 'http://www.xinfadi.com.cn/priceDetail.html'

    def start_requests(self):
        max = 10
        for page in range(1, max+1):
            urls = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20&current={page}'
            yield scrapy.Request(urls, callback=self.parse)

    def parse(self, response):
        json_data = json.loads(response.text)['list']
        for i in json_data:
            item = XinfadiItem()
            item['kind'] = i['prodCat']
            item['name'] = i['prodName']
            item['lowPrice'] = i['lowPrice']
            item['highPrice'] = i['highPrice']
            item['avgPrice'] = i['avgPrice']
            item['norms'] = i['specInfo']
            item['place'] = i['place']
            item['unit'] = i['unitInfo']
            item['date'] = i['pubDate']
            yield item

运行结果如下

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnVn5pm66YCg,size_20,color_FFFFFF,t_70,g_se,x_16