mac 环境下 Scrapy 入门

最新推荐文章于 2024-01-03 22:03:12 发布

minisal

最新推荐文章于 2024-01-03 22:03:12 发布

阅读量3.2k

点赞数 3

分类专栏：网络爬虫文章标签： scrapy mac

本文链接：https://blog.csdn.net/xx_yan/article/details/89947572

版权

文章目录

安装

sudo pip install scrapy

python3环境配置

步骤

新建爬虫项目（scrapy startproject name)
明确数据目标（编写 items.py）
制作网页爬虫（spiders/xxspider.py）
存储爬取内容（pipelines.py）

新建爬虫项目 - scrapy startproject

终端进入项目目录

scrapy startproject spiderName
spiderName - 项目名称

系统创建一个 spiderName 文件夹，目录结构：

spiderName/
    scrapy.cfg                项目配置文件
    spiderName/               Python模块 - 从这里引用代码
        __init__.py
        items.py              目标文件
        pipelines.py
        settings.py           设置文件
        spiders/              存储爬虫代码目录
            __init__.py
            ...

明确数据目标 - disease/items.py

目标：抓取 http://yao.xywy.com/class/4-0-0-1-0-1.htm 网站里的药品的名称、生产公司和功能主治

打开 disease 目录下的 items.py

Item 定义结构化数据字段，用来保存爬取到的数据
scrapy.Item 创建一个类
scrapy.Field 定义类型类属性

创建一个 MedicaldataItem 类，构建 item 模型

import scrapy

class MedicaldataItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()  # 药品名称
    company = scrapy.Field()  # 生产公司
    function = scrapy.Field()  # 功能主治