python爬虫学习笔记 4.2 （Scrapy入门案例（创建项目））

最新推荐文章于 2022-07-17 15:43:28 发布

还算小萌新？

最新推荐文章于 2022-07-17 15:43:28 发布

阅读量596

点赞数 1

分类专栏： python爬虫学习文章标签： python

本文链接：https://blog.csdn.net/zyzy123321/article/details/105842455

版权

本文是Python Scrapy爬虫学习笔记的4.2部分，讲解如何创建Scrapy项目，包括新建项目、定义Item、编写Spider以及保存数据。通过实例详细介绍了爬取特定网站数据的步骤，最后提出关于yield作用的思考问题。

摘要由CSDN通过智能技术生成

scrapy startproject mySpider

在这里插入图片描述
下面来简单介绍一下各个主要文件的作用：
scrapy.cfg ：项目的配置文件

mySpider/ ：项目的Python模块，将会从这里引用代码

mySpider/items.py ：项目的目标文件

mySpider/pipelines.py ：项目的管道文件

mySpider/settings.py ：项目的设置文件

mySpider/spiders/ ：存储爬虫代码目录

我们打算抓取：http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。

import scrapy

class ItcastItem(scrapy.Item):
    name = scrapy.Field()
    level = scrapy.Field()
    info = scrapy.Field()

pycharm中创建scrapy

scrapy startproject mySpider

在这里插入图片描述

cd test_scrapy

scrapy genspider itcast itcast.cn

在这里插入图片描述

scrapy crawl itcast

关注