Python爬虫-----周东海

柒鸢-------周东海

于 2022-04-03 09:05:28 发布

阅读量77

点赞数

文章标签：网络爬虫

本文链接：https://blog.csdn.net/weixin_57121160/article/details/123932464

版权

Scrapy安装与使用

打开命令提示符下载安装Scrapy所必须的环境：

优先下载python下载更新文件：python -m pip install --upgrade pip

然后在下载这四个：pip install wheel

pip install lxml

pip install twisted

pip install pywin32

pip install scrapy

下载之后输入：pip list查询是否下载成功

创建项目

打开终端输入：scrapy startproject 项目名

然后输入：cd （刚创建的项目名) 进入项目中

最后拟定项目名:scrapy genspider (拟定的爬虫名字) (网址)

创建后文件为

修改文件

修改setting文件

#是否遵循机器协议
ROBOTSTXT_OBEY = False

#爬虫等待时间
DOWNLOAD_DELAY = 1。

#默认请求头
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
}

#定义管道优先级
ITEM_PIPELINES = {
   'TXmovies.pipelines.TxmoviesPipeline': 300,
}

class TxmoviesItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

Field方法实际上的做法是创建一个字典，给字典添加一个建，暂时不赋值，等待提取数据后再赋值。下面item的结构可以表示为：{'name':'','descripition':''}
 如：class TxmoviesItem(scrapy.Item):
        name = scrapy.Field()

写自己的爬虫程序，最后写一个跑的程序。

柒鸢-------周东海

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫-----周东海

Scrapy安装与使用打开命令提示符下载安装Scrapy所必须的环境：优先下载python下载更新文件：python -m pip install --upgrade pip然后在下载这四个：pip install wheelpip install lxml pip install twisted...
复制链接

扫一扫