1.软件要求
在此之前需要安装好python 的使用环境,这里对于新手来说,可以使用jupyter
【1】安装anaconda
【2】配置环境
在anaconda
import re
import os
import requests
2.在jupyter 上修改一下代码
【1】抓取多少页的图片
【2】修改保存的路径
找到这个进行修改替换你想要保存的路径 E:/data_HMa/baidu/
# 爬取百度图片
import re
import os
import requests
if __name__=="__main__":
if not os.path.exists('E:/data_HMa/baidu/'):
os.mkdir('E:/data_HMa/baidu/')
url = 'https://image.baidu.com/search/acjson?'
keyword = "悍马车"
param = {
'tn': 'resultjson_com',
'logid': '8846269338939606587',
'ipn': 'rj',
'ct': '201326592',
'is': '',
'fp': 'result',
'queryWord':keyword,
'cl': '2',
'lm': '-1',
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': '-1',
'z':'' ,
'ic':'' ,
'hd': '',
'latest': '',
'copyright': '',
'word': keyword,
's':'' ,
'se':'' ,
'tab': '',
'width': '',
'height': '',
'face': '0',
'istype': '2',
'qc': '',
'nc': '1',
'fr': '',
'expermode': '',
'force': '',
'cg': 'hanma',
'pn': '0',
'rn': '100',
'gsm': '1e',
}
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:92.0) Gecko/20100101 Firefox/92.0'
}
response = requests.get(url=url+'2',headers=headers,params=param) # 2代表总共爬取二页
page_text = response.text
print(page_text)
ex = '"thumbURL":"(.*?)",'
img_list = re.findall(ex,page_text)
for img_url in img_list:
img_name = str(img_list.index(img_url)) + '.jpg'
img_data = requests.get(url=img_url,headers=headers).content
with open('E:/data_HMa/baidu/'+img_name,'wb') as fp:
fp.write(img_data)
print(img_name,"爬取成功")
爬取之后的一个结果如下: