关键词爬取图片(Python)

最新推荐文章于 2023-10-22 12:00:00 发布

刘h宇

最新推荐文章于 2023-10-22 12:00:00 发布

阅读量1k

点赞数 5

文章标签： python

原文链接：https://blog.csdn.net/weixin_42453746/article/details/87724348

版权

废话不多说，直接上代码，测试了好几遍，确认管用才发出来

import requests
import os
import re
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
#word是要爬的图片名字
word=input("请输入关键词：")
#j用来标记图片数量
j=1
class PaChong:
    def __init__(self,word,i):
        #path是图片存放的地方
        self.path="D:/"+word+"/"
#         第几页
        self.page=i/20+1
        #如果文件夹不存在，则创建文件夹
        if not os.path.exists(self.path):
            os.mkdir(self.path)
    #发出requests请求
    def requests_get(self,url):
        req=requests.get(url,timeout=30,headers=headers,allow_redirects=False)
        req.encoding="utf-8"
        self.req=req.text
    
    #正则找到图片链接
    def  get_imgurl(self):
        imgurls=re.findall('"objURL":"(.*?)"',self.req,re.S)
        self.imgurls=imgurls
    #下载图片到本地
    def download(self):
        global j
        for imgurl in self.imgurls:
            path=self.path+word+str(j)
            #写入文件
            with open(path+".jpg","wb") as f:
                r=requests.get(imgurl)
                f.write(r.content)
            print("%s下载成功"%path)
            j+=1
        print("第{}页下载结束！".format(self.page))
#通过pn参数实现翻页，第一页为0，,间隔为20
for i in range(0,60,20):
    url="https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word={0}&pn={1}&gsm=50&ct=&ic=0&lm=-1&width=0&height=0".format(word,i)
    Run=PaChong(word,i)
    Run.requests_get(url)
    Run.get_imgurl()
    Run.download()

参考链接：通过关键词爬取百度图片——Python爬虫_竹溪听风的博客-CSDN博客

因为他的这个没有请求头，所以直接运行会有错误，我修改了一下，还是非常感谢他的，没有他的那篇文章我编不出这文章

刘h宇

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
4
评论
关键词爬取图片(Python)

废话不多说，直接上代码，测试了好几遍，确认管用才发出来import requestsimport osimport reheaders={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}#word是要爬的图片名字word=input("请输入关键词：")#j用来标记图片数量
复制链接

扫一扫