python爬虫环境配置及Scrapy爬虫框架使用

你华还是你华

已于 2024-09-19 13:32:08 修改

阅读量1.1k

点赞数 1

分类专栏： Python 文章标签： python 爬虫 mongodb redis mysql

于 2022-05-10 21:13:15 首次发布

本文链接：https://blog.csdn.net/weixin_44103733/article/details/124688070

版权

Python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这里写目录标题

一、安装python3
二、安装MongoDB
三、安装Redis
四、安装mysql
五、常用爬虫库安装
六、代码初演示
- 6.1 网站内容
- 6.2 抓取图片
七、Scrapy爬虫框架的使用
八、pyspider遇到的问题

本环境教程基于mac m1芯片。

一、安装python3

运行命令brew install python3，安装完成之后输入python3出现如下图，安装成功：
在这里插入图片描述

二、安装MongoDB

运行命令brew tap mongodb/brew 完成之后，再输入命令brew install mongodb-community安装社区版
输入命令：sudo brew services start mongodb/brew/mongodb-community启动服务后，
在输入mongo：
如下图即安装成功：
在这里插入图片描述

在安装MongoDB的时候如果出现了如下问题：

Error: Your Command Line Tools are too outdated.
Update them from Software Update in System Preferences or run:
  softwareupdate --all --install --force

If that doesn't show you any updates, run:
  sudo rm -rf /Library/Developer/CommandLineTools
  sudo xcode-select --install

Alternatively, manually download them from:
  https://developer.apple.com/download/all/.
You should download the Command Line Tools for Xcode 13.3.

在这里插入图片描述
那么我们先去这个网址找到：

点击下载，下载完成之后安装，重新运行安装MongoDB的命令即可。

三、安装Redis

运行命令brew install redis，安装完成之后输入redis-cli出现如下图，安装成功：
在这里插入图片描述
安装完成之后修改/opt/homebrew/etc/redis.conf配置：

将这行注释打开。
输入命令brew services list查看服务开启的状态：

接着输入命令brew services restart redis启redis服务：
在这里插入图片描述
然后就可以输入命令redis-cli -a foobared进入redis命令行当中：

四、安装mysql

输入命令brew install mysql安装mysql。
输入命令mysql.server start运行mysql：
在这里插入图片描述
接着输入命令mysql -uroot -p出现如下图，则mysql安装成功：

五、常用爬虫库安装

输入命令pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter：
出现如下图即安装成功：
在这里插入图片描述

六、代码初演示

6.1 网站内容

打开终端，输入：python3：
在这里插入图片描述
然后输入代码：

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
response = requests.get('https://你想请求的网址', headers=headers)
print(response.text)
print(response.headers)
print(response.status_code)

在这里插入图片描述

可以看到我们已经将网站内容请求回来了。

6.2 抓取图片

输入代码：

import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
response = requests.get('https://img.cc0.cn/unsplash/2019102200275640703.jpg/tuijian', headers=headers)

with open('/Users/justin/Downloads/1.png', 'wb') as f:
    f.write(response.content)
    f.close()

在这里插入图片描述
可以看到图片已经下载成功：

七、Scrapy爬虫框架的使用

7.1 爬虫框架Scrapy安装

运行命令pip3 install scrapy，安装完之后输入python3 -m scrapy，出现如下图，则安装成功：
在这里插入图片描述

7.2 创建Scrapy项目

我们爬去scrapy推荐的爬取它自己的网站quotes.toscrape.com
输入命令：python3 -m scrapy startproject spiderdemo：
在这里插入图片描述
接着cd spiderdemo：

然后输入命令python3 -m scrapy genspider spider1 quotes.toscrape.com 创建一个爬虫，名称，域名：

在上图可以看到，为我们生成了一个spider1.py文件。

用pycharm打开创建的项目：
在这里插入图片描述
我们可以看到项目结构解读如下：

item.py：数据存储结构；
middlewares.py：爬取过程中的中间件；
piplines.py：获取items；
settings.py：配置文件；
spider1.py：写主逻辑；

我们将spider1.py改为如下，然后输入命令python3 -m scrapy crawl spider1 ：
在这里插入图片描述

7.3 分析网页，编写爬虫代码

打开quotes.toscrape.com调试网页代码查看：
在这里插入图片描述
scrapy提供了调试命令python3 -m scrapy shell http://quotes.toscrape.com/后进入调试模式：

我们输入quotes = response.css('.quote')：

再输入quotes[0].css('.tags .tag::text').extract()：

在这里插入图片描述
可以看到这里的调试器都是实时测试结果。

7.4 存储到json

在items.py文件中写入，要抓取的格式：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class SpiderdemoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

在spider1.py中写入，分页抓取逻辑：

import scrapy
from spiderdemo.items import SpiderdemoItem

class Spider1Spider(scrapy.Spider):
    name = 'spider1'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        spider1s = response.css('.quote')
        for spider1 in spider1s:
            item = SpiderdemoItem()
            text = spider1.css('.text::text').extract_first()
            author = spider1.css('.author::text').extract_first()
            tags = spider1.css('.tags .tag::text').extract()
            item['text'] = text
            item['author'] = author
            item['tags'] = tags
            yield item
        next = response.css('.pager .next a::attr(href)').extract_first()
        url = response.urljoin(next)
        yield scrapy.Request(url=url, callback=self.parse)

1、reponse已经是scrapy给我们处理后的，并且其上还有css选择器的功能，抓取网页节点。
2、::text获取文本。
3、extract_first获取第一个值。
4、extract获取所有值。
5、item定义好的格式直接赋值。
6、yield返回生成器，结束程序。
7、::attr获取元素属性。
8、response.urljoin域名拼接。
9、yield scrapy.Request(url=url, callback=self.parse)返回生成器，回调函数是调用自己，再将数据抓取下来。

输入命令python3 -m scrapy crawl spider1 -o spider1.json，抓取并且将数据存储为json格式：
在这里插入图片描述
可以看到数据抓取回来，并且存储到json文件里了。
还可以支持远程服务器的存储：
python3 -m scrapy crawl spider1 -o ftp:://username:password@ftp.example.com/data/spider1.json

7.5 存储到MongoDB

如果要将抓取到的数据存储到数据库的话，那么在piplines.py中修改为如下代码：

 # Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
import pymongo
from scrapy.exceptions import DropItem

class TextPipeline(object):
    def process_item(self, item, spider):
        if item['text']:
            item['text'] = item['text']
            return item
        else:
            return DropItem('Missing Text')

class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB')
        )

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]

    def process_item(self, item, spider):
        name = item.__class__.__name__
        self.db[name].insert_one(dict(item))
        return item

    def close_spider(self, spider):
        self.client.close()

在settings.py中加入MongoDB配置信息：
在这里插入图片描述

300，400代表着优先级。

确保你的MongoDB是开启的状态，接着运行命令：python3 -m scrapy crawl spider1 ：
可以看到：
在这里插入图片描述
数据已经存储到MongoDB中了。

八、pyspider遇到的问题

在这边前提是建立在pyspider已经安装好了，phantomjs也已经下载，并且也添加的环境变量了，这边对添加环境变量不多做过多的赘述了，网上一大堆。
主要的问题是在命令窗口输入 pyspider all 出现phantomjs exited，以及在端口localhost：5000打不开pyspider 的web服务。
我这边就不说我走过的坑了，主要讲讲如何解决：

现在async已经是python的关键词了，但是你正常的pyspider all 运行却不会报错，学IT不怕有错，最为致命有错不报错，所以关掉这个窗口，重新开一个窗口运行pyspider这个时候就会看见报错，按照报错所报的路径，找到报错的run.py文件，打开编辑，按报错的意思，应该是语法出错了，一查原来async已经是python的关键词了，所以这边把async修改成asyn（我是这么改的）你也可以改成其他，别引用关键词就可了。然后在ctrl+f 搜索是在这个文件下是否还存在相同的关键词，我们发现果然还有，这个时候在继续改，改完保存。pycharm自动保存。
这个时候命令窗口再次运行pyspider发现又有相同的错误，但是发现虽然有错但是还是运行起来了，不过webui还是打不开。再次找到这报错的文件所在，打开编辑，修改的方法跟上面一样，改关键词。
再次关掉这个命令窗口，重开个命令窗口。发现此时运行跟命令pyspider all命令一样，一样是phantomjs exited，不要慌，这个时候竟然还是这个错误，通过分析，看pyspider这个框架可以知道一点，在webui这个文件夹下app.py应该是开始端口服务的然后在我们的命令行里启动的服务却没有webui running on 0.0.0.0:5000的提示，这个时候找到找到pyspider文件下的webui文件打开app.py搜索async果然还是出现了关键词，修改既可，OK 大功完成，附上两张美美的图，希望对入坑的小伙伴有帮助，谢谢。
在这里插入图片描述