python爬虫+scrapy+xpath

最新推荐文章于 2024-04-08 16:44:58 发布

DeanXIA

最新推荐文章于 2024-04-08 16:44:58 发布

阅读量916

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_47803451/article/details/106399245

版权

步骤是windows+r，输入cmd回车进入终端

有时pip版本过于老旧不能使用，需要升级pip版本，输入pip install --upgrade pip回车，升级成功

安装scrapy命令：pip install Scrapy,lxml

spiders:你的爬虫文件，页面解析
items:爬虫内容存储格式，类似字典
pipelines: 数据存储管道，用于存储数据
middleware:中间组件，用于反爬策略以及爬取设置
settings:相关联各种设置

用于页面解析，可将文档格式化并提取节点，具体语法地址
https://www.cnblogs.com/lone5wolf/p/10905339.html

创建项目(cmd)：scrapy startproject 项目名称

cd project_name（进入项目目录）
scrapy genspider 应用名称爬取网页的起始url （例如：scrapy genspider FirstPa www.qidian.com）

scrapy crawl 应用名称

爬虫文件，test.py

import scrapy
from FirstPa.items import FirstpaItem

class TestSpider(scrapy.Spider):
    name = 'Test'

关注