快速构建Scrapy项目脚手架

文子阳

已于 2022-02-25 11:01:29 修改

阅读量8.7w

点赞数

分类专栏：爬虫文章标签： elementui vue.js 前端

于 2021-07-18 14:24:16 首次发布

本文链接：https://blog.csdn.net/wenxingchen/article/details/118876695

版权

爬虫专栏收录该内容

23 篇文章 4 订阅

订阅专栏

第一步：下载并安装python3.9
第二步：下载并安装Anaconda
第三步：安装scrapy（安装也可通过：pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
）

conda install -c conda-forge scrapy

如果第三步scrapy安装不了请看安装scrapy失败CondaHTTPError: HTTP 000 CONNECTION FAILED for url ＜https://conda.anaconda.o_与市场搏斗-CSDN博客修改Anaconda镜像源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --set show_channel_urls yes此时在C:\Users\Administrator（这里是电脑用户名）下就会生成配置文件.condarcchannels: - https://mirrors.tuna.tsinghua.edu.cn/anacohttps://blog.csdn.net/wenxingchen/article/details/120161236
第四步：创建项目::新建一个文件夹作为存放项目的空间在并黑窗口cd到该文件夹下

scrapy startproject 项目名称

第五步:创建一个爬虫::在项目根路径下:(建议去掉限制域,他过滤掉很多url...会出现parse不生效的假象)

scrapy genspider 爬虫名称 要爬取的限制域

第六步:启动爬虫:

scrapy crawl 爬虫名称

将settings.py文件中反爬限制改为False
第七步:调试爬虫:在根路径下新建文件main.py，内容如下：修改一下爬虫名称即可

from scrapy.cmdline import execute
import os
import sys
 
if __name__ == '__main__':
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    execute(['scrapy', 'crawl', '爬虫名称'])

第八步:IP代理中间件:打开middlewares.py文件添加一个中间件

# 配置IP代理
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = get_proxy_ip_free() #这是我封装好的一个工具,该方法能获取代理IP和端口

import urllib.request
import json
import requests

# 阿里云IP代理
def get_proxy_ip():
    host = 'http://zip.market.alicloudapi.com'
    path = '/devtoolservice/ipagency'
    method = 'GET'
    appcode = 'sdfasdfsdfsdfsdfsdffd'
    querys = 'foreigntype=0&protocol=0'
    bodys = {}
    url = host + path + '?' + querys

    request = urllib.request.Request(url)
    request.add_header('Authorization', 'APPCODE ' + "dfgcccccfgdfg2dfgg")
    response = urllib.request.urlopen(request)
    content = response.read()
    if (content):
        load = json.loads(str(content, encoding='utf8'))
        address_ = load['result'][0]['address']
        return address_

# 自己搭建的代理服务器
def get_proxy_ip_free():
    json_result = requests.get("http://xxx.xxx.xxx.xxx:8080/get/").json()
    return 'http://' + json_result['proxy']

打开settings.py文件开启中间件即可生效.

第九步:UserAgent中间件:采用了fake_useragent库

pip install fake-useragent

pip install -U fake-useragent

这个库很容易就报错了解决方法如下:下载文件fake_useragent_0.1.11.json放到项目中,然后copy一下绝对地址

打开middlewares.py文件,配置代理如下

from fake_useragent import UserAgent

location = r"D:\biantu\biantuscrapy\biantuscrapy\spiders\fake_useragent_0.1.11.json" #配置成刚刚copy的地址


# 配置headers
class RandomUserAgentMidddlware(object):
    # 随机更换user-agent
    def __init__(self, crawler):
        super(RandomUserAgentMidddlware, self).__init__()

        self.ua = UserAgent(path=location)
        # 从配置文件读取随机类型
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):
        # 通过配置文件的随机类型进行调用
        def get_ua():
            return getattr(self.ua, self.ua_type)

        request.headers.setdefault('User-Agent', get_ua())

打开settings.py文件开启中间件即可生效.

第十步:捕获ajax请求:安装selenium

文子阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
快速构建Scrapy项目脚手架

第一步：下载并安装python3.9 第二步：下载并安装Anaconda 第三步：安装scrapyconda install -c conda-forge scrapy第四步：创建项目::新建一个文件夹作为存放项目的空间在并黑窗口cd到该文件夹下scrapy startproject 项目名称第五步:创建一个爬虫::在项目根路径下:scrapy genspider 爬虫名称要爬取的限制域第六步:启动爬虫:scrapy crawl 爬虫名称第七步:调试爬虫:在根路径下.
复制链接

扫一扫