mac 环境下 Scrapy 入门


安装

sudo pip install scrapy

python3环境配置


步骤

  • 新建爬虫项目 (scrapy startproject name)
  • 明确数据目标 (编写 items.py
  • 制作网页爬虫 (spiders/xxspider.py)
  • 存储爬取内容 (pipelines.py

新建爬虫项目 - scrapy startproject

终端进入项目目录

scrapy startproject spiderName
spiderName - 项目名称

系统创建一个 spiderName 文件夹,目录结构:

spiderName/
    scrapy.cfg                项目配置文件
    spiderName/               Python模块 - 从这里引用代码
        __init__.py
        items.py              目标文件
        pipelines.py
        settings.py           设置文件
        spiders/              存储爬虫代码目录
            __init__.py
            ...

明确数据目标 - disease/items.py

目标:抓取 http://yao.xywy.com/class/4-0-0-1-0-1.htm 网站里的药品的名称、生产公司和功能主治

打开 disease 目录下的 items.py

  • Item 定义结构化数据字段,用来保存爬取到的数据
    scrapy.Item 创建一个类
    scrapy.Field 定义类型类属性

创建一个 MedicaldataItem 类,构建 item 模型

import scrapy

class MedicaldataItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()  # 药品名称
    company = scrapy.Field()  # 生产公司
    function = scrapy.Field()  # 功能主治
    


制作网页爬虫 - spiders/MedicaldataSpider.py

爬虫功能 : 爬 => 取


创建爬虫

创建一个名为Medicaldata的爬虫,并指定爬取域的范围:
cd disease

scrapy genspider Medicaldata "http://yao.xywy.com"

打开 dise

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值