没有什么别的想法,就只是人我心情愉悦,哈哈哈哈,懂得都懂,小编就不继续说下起了,感觉车开远了,回归正题。下面开始上干货。
目录
千里之行,始于足下,我们先找到一个目标。(小编百度搜索了一个,地址:妹纸图片)
果然,就是让人心情愉悦,下面可以点击鼠标右键检查或者f12查看源代码,让我们看看这些小姐姐图片放在那里,点击绿色部分更快让我们找到我们需要都内容。
第二步,请求网址
下面就开始用代码加图片进行理解了。(如果爬取其他网址请求不到,说明有反爬机制,反爬机制解决办法)
import requests
# 导入请求库
# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
print(response.text)
内容如下(绿色部分,表示出现了乱码问题,下面修改一下编译方式,乱码解决办法)
按方法可以看到网页的编码格式,(gbk)
修改代码如下
import requests
# 导入请求库
# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')
print(html)
现象
第三步,解析网址
往往我们需要从网页中获取图片连接,然后进行爬取保存。
# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')
#解析网址
url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)
print(url)
效果
第四步,保存图片
下面就是进行图片保存,一般都以二进制形式保存。
import requests
# 导入请求库
import re
#导入正则表达(筛选需要内容)
import time
# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')
#解析网址
url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)
#保存图片
for ul in url:
#增加延时
time.sleep(1)
#设置图片名称,以/为分隔符获取最后部分
name=ul.split('/')[-1]
new_response=requests.get(ul)
with open(name,mode='wb') as f:
f.write(new_response.content)
print('下载完成')
现象
代码优化(完整代码)
import requests
# 导入请求库
import re
#导入正则表达(筛选需要内容)
import time
import os
#导入操作系统模块
def picture(urls):
# 请求网页
response=requests.get(urls)
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')
#解析网址
url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)
# 判断是否存在文件夹,不存在就创建
return url
if __name__ == '__main__':
if not os.path.exists('pictur'):
os.mkdir('pictur')
# 保存图
page = 1
while page <= 2:
urls = f'http://www.jj20.com/bz/nxxz/list_7_{page}.html'
for ul in picture(urls):
print(ul)
time.sleep(1)
name = ul.split('/')[-1]
new_response = requests.get(ul)
with open(file=r'D:\pr\pythonProject\pictur\{}'.format(name), mode='ab') as f:
f.write(new_response.content)
print('下载完成')
page+=1
现象