【Python】Django中运行scrapy框架，并将数据存入数据库

浪荡子爱自由

已于 2022-06-25 10:52:30 修改

阅读量4.6k

点赞数 11

文章标签： django python 爬虫

于 2022-06-23 16:26:22 首次发布

本文链接：https://blog.csdn.net/weixin_56516468/article/details/125008516

版权

【解决的问题】

1、django和scrapy如何结合

2、通过django启动scrapy爬虫

此文仅介绍Django和scrapy的简单实现，适合想要快速上手的朋友。

任务一、单独使用django框架创建web项目

Django项目可以用命令创建，也可以用pycharm手动创建。此文用pycharm手动创建。

1、使用pycharm创建Django项目：菜单栏File-->New project-->Django-->填写项目名称pro，app名称为app01-->create.

此时项目的目录结构为如下，app01为项目pro的子应用。

2、创建首页，首页内容为"这是一个测试页面"。

3、运行程序，在浏览器中输入http://127.0.0.1:8000/index/。出现【这是一个测试页面！】则成功。

demo下载：单独使用django框架创建web项目-Webpack文档类资源-CSDN下载单独使用django框架创建web项目更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/weixin_56516468/85745510

任务二、单独使用scrapy实现简单爬虫

一、准备工作

scrapy安装：确保已经安装了scrapy，如未安装，则打开cmd,输入pip install scrapy.

常用命令：

scrapy startproject 项目名      # 创建scrapy项目

scrapy genspider 爬虫名 域名

scrapy crawl 爬虫名

任务描述：

1、爬取凤凰网，网址是：http://app.finance.ifeng.com/list/stock.php?t=ha，爬取此网页中沪市A股的代码、名称、最新价等信息。

2、将文件保存在H:\2022年学习资料中。

3、项目名为ifengNews

二、实现步骤

1、使用cmd进入要创建项目的目录【2022学习资料】，使用命令【scrapy startproject ifengNews】创建scrapy项目。

效果：出现【蓝框】内容，【ifengNews】项目已经创建成功。

2、使用pycharm打开文件夹【ifengNews】。文件目录如下：

items.py:定义爬虫程序的数据模型

middlewares.py:定义数据模型中的中间件

pipelines.py:管道文件，负责对爬虫返回数据的处理

settings.py:爬虫程序设置，主要是一些优先级设置(将ROBOTSTXT_OBEY=True 改为 False,这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取)

scrapy.cfg:内容为scrapy的基础配置

spiders目录:放置spider代码的目录

3、在pycharm终端中输入【scrapy genspider ifeng_spider ifeng.com】其中:ifeng_spider 是文件名,可以自定义,但是不能与项目名一样；ifeng.com为域名。

效果：spiders文件夹下创建一个ifeng_spider.py文件,爬虫代码都写在此文件的def parse中。

3.1此步骤也可在cmd中完成。

4、修改setting

第一个是不遵循机器人协议

# Obey robots.txt rules
ROBOTSTXT_OBEY = False  # 是否遵循机器人协议，默认是true，需要改为false，否则很多东西爬不了

第二个是请求头，添加一个User-Agent

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
   'Cookie':'adb_isBlock=0; userid=1652710683278_ihrfq92084; prov=cn0731; city=0732; weather_city=hn_xt; region_ip=110.53.149.x; region_ver=1.2; wxIsclose=false; ifengRotator_iis3=6; ifengWindowCookieName_919=1'
# 默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑，简单点洗一个Mozilla/5.0即可

}

第三个是打开一个管道

# ITEM_PIPELINES：项目管道，300为优先级，越低越爬取的优先度越高
ITEM_PIPELINES = {
    'ifengNews.pipelines.IfengnewsPipeline': 300,
    # 'subeiNews.pipelines.SubeinewsMysqlPipeline': 200,  # 存数据的管道
}

5、页面爬取。首先在ifeng_spider.py中写自己的爬虫文件：

import scrapy
from ifengNews.items import IfengnewsItem

class IfengSpiderSpider(scrapy.Spider):
    name = 'ifeng_spider'
    allowed_domains = ['ifeng.com']
    start_urls = ['http://app.finance.ifeng.com/list/stock.php?t=ha']  # 爬取地址

    def parse(self, response):
        # 爬取股票具体的信息
        for con in response.xpath('//*[@class="tab01"]/table/tr'):
            items = IfengnewsItem()
            flag = con.xpath('./td[3]//text()').get()  # 最新价

            if flag:
                items['title'] = response.xpath('//div[@class="block"]/h1/text()').get()
                items['code'] = con.xpath('./td[1]//text()').get()  # 代码
                items['name'] = con.xpath('./td[2]//text()').get()  # 名称
                items['latest_price'] = con.xpath('./td[3]//text()').get()  # 最新价
                items['quote_change'] = con.xpath('./td[4]//text()').get()  # 涨跌幅
                items['quote_num'] = con.xpath('./td[5]//text()').get()  # 涨跌额
                items['volume'] = con.xpath('./td[6]//text()').get()  # 成交量
                items['turnover'] = con.xpath('./td[7]//text()').get()  # 成交额
                items['open_today'] = con.xpath('./td[8]//text()').get()  # 今开盘
                items['closed_yesterday'] = con.xpath('./td[9]//text()').get()  # 昨收盘
                items['lowest_price'] = con.xpath('./td[10]//text()').get()  # 最低价
                items['highest_price'] = con.xpath('./td[11]//text()').get()  # 最高价
                print(items['title'], items['name'])
                yield items

打开items.py,更改items.py用于存储数据：

import scrapy


class IfengnewsItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    code = scrapy.Field()
    name = scrapy.Field()
    latest_price = scrapy.Field()
    quote_change = scrapy.Field()
    quote_num = scrapy.Field()
    volume = scrapy.Field()
    turnover = scrapy.Field()
    open_today = scrapy.Field()
    closed_yesterday = scrapy.Field()
    lowest_price = scrapy.Field()
    highest_price = scrapy.Field()

如要实现二级页面、翻页等操作，需自行学习。

6、运行爬虫：在终端中输入【scrapy crawl ifeng_spider】.

6.1 也可以写一个run.py文件来运行程序，将数据存储在infos.csv中。

demo下载：单独使用scrapy实现简单爬虫-Python文档类资源-CSDN下载单独使用scrapy实现简单爬虫更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/weixin_56516468/85745577

任务三、django+scrapy结合

任务描述：将Django和scrapy结合，实现通过Django控制scrapy的运行，并将爬取的数据存入数据库。

1、在Django项目的根目录中创建一个子应用warehouse，单独存放scrapy的数据库等信息。使用命令行创建app,在终端输入执行命令：python manage.py startapp warehouse.

此时的目录结构：

并在pro-settings.py中注册warehouse这个应用，如下图。

2、在Django项目中创建scrapy项目，并修改项目的setting.py，与任务二中的步骤4一致.

并调整目录结构，与下图一致：

3、在scrapy的setting.py中加入以下代码：

import os
import sys
import django

sys.path.append(os.path.dirname(os.path.abspath('.')))
os.environ['DJANGO_SETTINGS_MODULE'] = 'pro.settings'    # 项目名.settings
django.setup()

4、warehouse下的model.py中创建数据库，用来存储爬到的数据。并在终端执行命令python manage.py makemigrations和 python manage.py migrate，生成数据库表。

from django.db import models


class StockInfo(models.Model):
    """
    股票信息
    """

    title = models.TextField(verbose_name="股票类型" )
    code = models.TextField(verbose_name="代码" )
    name = models.TextField(verbose_name="名称" )
    latest_price = models.TextField(verbose_name="最新价" )
    quote_change = models.TextField(verbose_name="涨跌幅" )
    quote_num = models.TextField(verbose_name="涨跌额" )
    volume = models.TextField(verbose_name="成交量" )
    turnover = models.TextField(verbose_name="成交额" )
    open_today = models.TextField(verbose_name="今开盘" )
    closed_yesterday = models.TextField(verbose_name="昨收盘" )
    lowest_price = models.TextField(verbose_name="最低价" )
    highest_price = models.TextField(verbose_name="最高价" )

5、修改pipelines.py 、 items.py 、 ifeng_spider.py。

ifeng_spider.py：

import scrapy
from ifengNews.items import IfengnewsItem

class IfengSpiderSpider(scrapy.Spider):
    name = 'ifeng_spider'
    allowed_domains = ['ifeng.com']
    start_urls = ['http://app.finance.ifeng.com/list/stock.php?t=ha']

    def parse(self, response):
        # 爬取股票具体的信息
        for con in response.xpath('//*[@class="tab01"]/table/tr'):
            items = IfengnewsItem()
            flag = con.xpath('./td[3]//text()').get()  # 最新价

            if flag:
                items['title'] = response.xpath('//div[@class="block"]/h1/text()').get()
                items['code'] = con.xpath('./td[1]//text()').get()  # 代码
                items['name'] = con.xpath('./td[2]//text()').get()  # 名称
                items['latest_price'] = con.xpath('./td[3]//text()').get()  # 最新价
                items['quote_change'] = con.xpath('./td[4]//text()').get()  # 涨跌幅
                items['quote_num'] = con.xpath('./td[5]//text()').get()  # 涨跌额
                items['volume'] = con.xpath('./td[6]//text()').get()  # 成交量
                items['turnover'] = con.xpath('./td[7]//text()').get()  # 成交额
                items['open_today'] = con.xpath('./td[8]//text()').get()  # 今开盘
                items['closed_yesterday'] = con.xpath('./td[9]//text()').get()  # 昨收盘
                items['lowest_price'] = con.xpath('./td[10]//text()').get()  # 最低价
                items['highest_price'] = con.xpath('./td[11]//text()').get()  # 最高价
                print(items['title'], items['name'])
                yield items

pipelines.py：

class IfengnewsPipeline(object):
    def process_item(self, item, spider):
        print('打开了数据库')
        item.save()
        print('关闭了数据库')
        return item

items.py中，导入DjangoItem，与数据库进行连接。

from warehouse.models import StockInfo
from scrapy_djangoitem import DjangoItem


class  IfengnewsItem(DjangoItem):
    django_model = StockInfo

如下图安装scrapy_djangoitem：
5、

6、修改url.py 、views.py

7、运行程序，在浏览器中输入http://127.0.0.1:8000/stocks/update/.页面返回ok,则可以在数据库中查看到爬取的数据。

demo下载：

django+scrapy结合-Python文档类资源-CSDN下载将Django和scrapy结合，实现通过Django控制scrapy的运行，并将爬取的数据存入数据更多下载资源、学习资料请访问CSDN下载频道.https://download.csdn.net/download/weixin_56516468/85750917