三岁带你白话学编程,讲的一定懂,不懂的私下问,耐心到你懂!!!
前言
你还在为了找图片烦恼,还在为需要大量图片烦恼?那么你就out了
爬虫,动动手,想要的全都有。
不会怎么办,这个三岁已经给大家准备好了。
点击链接下载可执行文件,有网即可下载。
爬取思路
主要的思路是这样子的。
先找的网站的API
分析获得的网页,从网页中获得图片地址
在列表中保存地址
查看是否存在下载文件夹,没有就新建一个
把列表中的图片地址进行下载
保存照片
涉及到的第三方库
requests #请求网站数据
BeautifulSoup #分析页面
os #查看文件及创建文件
BeautifulSoup 需要安装
在cmd中输入 pip install bs4
分析网站
以必应网站为准https://cn.bing.com/images/async?
查看其代码情况
在网站查找发现q=后面的内容就是我们查找的内容emmm这个应该就是我们所说的API接口?
有可能吧
爬取网页信息初尝试
import requests
url = 'https://cn.bing.com/images/search?q=小猫'
kv = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 '
'Safari/537.36'}
def GetHtmlHTML(url, kv):
try:
r = requests.get(url, headers = kv)
r.raise_for_status() # 不是200报错
r.encoding = r.apparent_encoding
return r.text
except:
print('请求错误')
print(GetHtmlHTML(url, kv))
看了一下好像不是我们要的?那么问题在哪里呢?
emmm接口不对?
启用传说中的F12
没明白就是这个那么它里面是什么?
用prevew查看大致内容
嗯,是他是他就是他
几乎一模一样的
那那那怎么没有
我们往下看
它里面没有图片的内容,就是一个网址,那么api还是不对
那么再找,去抓包去
API再查找
这些就是图片,找到了那么不可能一个一个去找,目标还没有达到,继续吧
清空network里面的内容,然后点击查看更多图片
貌似找到了,全部都是图片
###爬取网页信息
import requests
url = 'https://cn.bing.com/images/async?q=%e5%b0%8f%e7%8c%ab&first=245&count=35&relp=35&scenario=ImageBa' \
'sicHover&datsrc=N_I&layout=RowBased&mmasync=1&dgState=x*0_y*0_h*0_c*7_i*211_r*34&IG=F74FC825DA634' \
'4CB990A128C90605EF0&SFX=7&iid=images.5624'
kv = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 '
'Safari/537.36'}
def GetHtmlHTML(url, kv):
try:
r = requests.get(url, headers = kv)
r.raise_for_status() # 不是200报错
r.encoding = r.apparent_encoding
return r.text
except:
print('请求错误')
print(GetHtmlHTML(url, kv))
结果:
里面蓝色的就是图片地址,我们把地址提取出来就好了
网页分析
分析代码
<img class="mimg"
style="background-color:#a02b35;color:#a02b35"
height="204" width=