这里写目录标题
本环境教程基于mac m1芯片。
一、安装python3
运行命令brew install python3
,安装完成之后输入python3出现如下图,安装成功:
二、安装MongoDB
运行命令brew tap mongodb/brew
完成之后,再输入命令brew install mongodb-community
安装社区版
输入命令:sudo brew services start mongodb/brew/mongodb-community
启动服务后,
在输入mongo
:
如下图即安装成功:
在安装MongoDB的时候如果出现了如下问题:
Error: Your Command Line Tools are too outdated.
Update them from Software Update in System Preferences or run:
softwareupdate --all --install --force
If that doesn't show you any updates, run:
sudo rm -rf /Library/Developer/CommandLineTools
sudo xcode-select --install
Alternatively, manually download them from:
https://developer.apple.com/download/all/.
You should download the Command Line Tools for Xcode 13.3.
那么我们先去这个网址找到:
点击下载,下载完成之后安装,重新运行安装MongoDB的命令即可。
三、安装Redis
运行命令brew install redis
,安装完成之后输入redis-cli出现如下图,安装成功:
安装完成之后修改/opt/homebrew/etc/redis.conf
配置:
将这行注释打开。
输入命令brew services list
查看服务开启的状态:
接着输入命令brew services restart redis
启redis服务:
然后就可以输入命令redis-cli -a foobared
进入redis命令行当中:
四、安装mysql
输入命令brew install mysql
安装mysql。
输入命令mysql.server start
运行mysql:
接着输入命令mysql -uroot -p
出现如下图,则mysql安装成功:
五、常用爬虫库安装
输入命令pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter
:
出现如下图即安装成功:
六、代码初演示
6.1 网站内容
打开终端,输入:python3
:
然后输入代码:
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
response = requests.get('https://你想请求的网址', headers=headers)
print(response.text)
print(response.headers)
print(response.status_code)
可以看到我们已经将网站内容请求回来了。
6.2 抓取图片
输入代码:
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
response = requests.get('https://img.cc0.cn/unsplash/2019102200275640703.jpg/tuijian', headers=headers)
with open('/Users/justin/Downloads/1.png', 'wb') as f:
f.write(response.content)
f.close()
可以看到图片已经下载成功:
七、Scrapy爬虫框架的使用
7.1 爬虫框架Scrapy安装
运行命令pip3 install scrapy
,安装完之后输入python3 -m scrapy
,出现如下图,则安装成功:
7.2 创建Scrapy项目
我们爬去scrapy推荐的爬取它自己的网站quotes.toscrape.com
输入命令:python3 -m scrapy startproject spiderdemo
:
接着cd spiderdemo
:
然后输入命令python3 -m scrapy genspider spider1 quotes.toscrape.com
创建一个爬虫,名称,域名:
在上图可以看到,为我们生成了一个spider1.py
文件。
用pycharm打开创建的项目:
我们可以看到项目结构解读如下:
item.py
:数据存储结构;
middlewares.py
:爬取过程中的中间件;
piplines.py
:获取items;
settings.py
:配置文件;
spider1.py
:写主逻辑;
我们将spider1.py
改为如下,然后输入命令python3 -m scrapy crawl spider1
:
7.3 分析网页,编写爬虫代码
打开quotes.toscrape.com
调试网页代码查看:
scrapy
提供了调试命令python3 -m scrapy shell http://quotes.toscrape.com/
后进入调试模式:
我们输入quotes = response.css('.quote')
:
再输入quotes[0].css('.tags .tag::text').extract()
:
可以看到这里的调试器都是实时测试结果。
7.4 存储到json
在items.py
文件中写入,要抓取的格式:
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
import scrapy
class SpiderdemoItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
text = scrapy.Field()
author = scrapy.Field()
tags = scrapy.Field()
在spider1.py
中写入,分页抓取逻辑:
import scrapy
from spiderdemo.items import SpiderdemoItem
class Spider1Spider(scrapy.Spider):
name = 'spider1'
allowed_domains = ['quotes.toscrape.com']
start_urls = ['http://quotes.toscrape.com/']
def parse(self, response):
spider1s = response.css('.quote')
for spider1 in spider1s:
item = SpiderdemoItem()
text = spider1.css('.text::text').extract_first()
author = spider1.css('.author::text').extract_first()
tags = spider1.css('.tags .tag::text').extract()
item['text'] = text
item['author'] = author
item['tags'] = tags
yield item
next = response.css('.pager .next a::attr(href)').extract_first()
url = response.urljoin(next)
yield scrapy.Request(url=url, callback=self.parse)
1、reponse已经是scrapy给我们处理后的,并且其上还有css选择器的功能,抓取网页节点。
2、::text
获取文本。
3、extract_first
获取第一个值。
4、extract
获取所有值。
5、item
定义好的格式直接赋值。
6、yield
返回生成器,结束程序。
7、::attr
获取元素属性。
8、response.urljoin
域名拼接。
9、yield scrapy.Request(url=url, callback=self.parse)
返回生成器,回调函数是调用自己,再将数据抓取下来。
输入命令python3 -m scrapy crawl spider1 -o spider1.json
,抓取并且将数据存储为json格式:
可以看到数据抓取回来,并且存储到json
文件里了。
还可以支持远程服务器的存储:
python3 -m scrapy crawl spider1 -o ftp:://username:password@ftp.example.com/data/spider1.json
7.5 存储到MongoDB
如果要将抓取到的数据存储到数据库的话,那么在piplines.py
中修改为如下代码:
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# useful for handling different item types with a single interface
import pymongo
from scrapy.exceptions import DropItem
class TextPipeline(object):
def process_item(self, item, spider):
if item['text']:
item['text'] = item['text']
return item
else:
return DropItem('Missing Text')
class MongoPipeline(object):
def __init__(self, mongo_uri, mongo_db):
self.mongo_uri = mongo_uri
self.mongo_db = mongo_db
@classmethod
def from_crawler(cls, crawler):
return cls(
mongo_uri=crawler.settings.get('MONGO_URI'),
mongo_db=crawler.settings.get('MONGO_DB')
)
def open_spider(self, spider):
self.client = pymongo.MongoClient(self.mongo_uri)
self.db = self.client[self.mongo_db]
def process_item(self, item, spider):
name = item.__class__.__name__
self.db[name].insert_one(dict(item))
return item
def close_spider(self, spider):
self.client.close()
在settings.py
中加入MongoDB
配置信息:
300,400代表着优先级。
确保你的MongoDB
是开启的状态,接着运行命令:python3 -m scrapy crawl spider1
:
可以看到:
数据已经存储到MongoDB
中了。
八、pyspider遇到的问题
在这边前提是建立在pyspider已经安装好了,phantomjs也已经下载,并且也添加的环境变量了,这边对添加环境变量不多做过多的赘述了,网上一大堆。
主要的问题是在命令窗口输入 pyspider all 出现phantomjs exited,以及在端口localhost:5000打不开pyspider 的web服务。
我这边就不说我走过的坑了,主要讲讲如何解决:
现在async已经是python的关键词了,但是你正常的pyspider all 运行却不会报错,学IT不怕有错,最为致命有错不报错,所以关掉这个窗口,重新开一个窗口运行pyspider这个时候就会看见报错,按照报错所报的路径,找到报错的run.py文件,打开编辑,按报错的意思,应该是语法出错了,一查原来async已经是python的关键词了,所以这边把async修改成asyn(我是这么改的)你也可以改成其他,别引用关键词就可了。然后在ctrl+f 搜索是在这个文件下是否还存在相同的关键词,我们发现果然还有,这个时候在继续改,改完保存。pycharm自动保存。
这个时候命令窗口再次运行pyspider发现又有相同的错误,但是发现虽然有错但是还是运行起来了,不过webui还是打不开。再次找到这报错的文件所在,打开编辑,修改的方法跟上面一样,改关键词。
再次关掉这个命令窗口,重开个命令窗口。发现此时运行跟命令pyspider all命令一样,一样是phantomjs exited,不要慌,这个时候竟然还是这个错误,通过分析,看pyspider这个框架可以知道一点,在webui这个文件夹下app.py应该是开始端口服务的然后在我们的命令行里启动的服务却没有webui running on 0.0.0.0:5000的提示,这个时候找到找到pyspider文件下的webui文件打开app.py搜索async果然还是出现了关键词,修改既可,OK 大功完成,附上两张美美的图,希望对入坑的小伙伴有帮助,谢谢。
如果你觉得本文对你有所帮助的话,那就请关注点赞评论三连吧,谢谢,你的肯定是我写博的另一个支持。