爱美x之心人皆有之(爬虫获取妹纸图片,附加完整代码)

没有什么别的想法,就只是人我心情愉悦,哈哈哈哈,懂得都懂,小编就不继续说下起了,感觉车开远了,回归正题。下面开始上干货。

 

目录

第一步(先找到一个目标)

第二步,请求网址

第三步,解析网址

第四步,保存图片

代码优化


  千里之行,始于足下,我们先找到一个目标。(小编百度搜索了一个,地址:妹纸图片

果然,就是让人心情愉悦,下面可以点击鼠标右键检查或者f12查看源代码,让我们看看这些小姐姐图片放在那里,点击绿色部分更快让我们找到我们需要都内容。

 

第二步,请求网址

下面就开始用代码加图片进行理解了。(如果爬取其他网址请求不到,说明有反爬机制,反爬机制解决办法

import requests
# 导入请求库

# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
print(response.text)

 内容如下(绿色部分,表示出现了乱码问题,下面修改一下编译方式,乱码解决办法

按方法可以看到网页的编码格式,(gbk)

修改代码如下

import requests
# 导入请求库

# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')
print(html)

现象

第三步,解析网址

往往我们需要从网页中获取图片连接,然后进行爬取保存。

# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')

#解析网址
url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)
print(url)

效果

第四步,保存图片

下面就是进行图片保存,一般都以二进制形式保存。

​
import requests
# 导入请求库
import re
#导入正则表达(筛选需要内容)
import time

# 请求网页
response=requests.get('http://www.jj20.com/bz/nxxz/')
#指定编译方式
html=response.text.encode('iso-8859-1').decode('gbk')

#解析网址
url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)

#保存图片
for ul in url:
    #增加延时
    time.sleep(1)
    #设置图片名称,以/为分隔符获取最后部分
    name=ul.split('/')[-1]
    new_response=requests.get(ul)
    with open(name,mode='wb') as f:
        f.write(new_response.content)
        print('下载完成')

 

现象

代码优化(完整代码)

import requests
# 导入请求库
import re
#导入正则表达(筛选需要内容)
import time
import os
#导入操作系统模块
def picture(urls):
    # 请求网页
    response=requests.get(urls)
    #指定编译方式
    html=response.text.encode('iso-8859-1').decode('gbk')
    #解析网址
    url=re.findall('<img src="(.*?)" width=".*?" height=".*?" alt=".*?">',html)
    # 判断是否存在文件夹,不存在就创建

    return url
if __name__ == '__main__':
    if not os.path.exists('pictur'):
        os.mkdir('pictur')
        # 保存图
    page = 1
    while page <= 2:
        urls = f'http://www.jj20.com/bz/nxxz/list_7_{page}.html'
        for ul in picture(urls):
            print(ul)
            time.sleep(1)
            name = ul.split('/')[-1]
            new_response = requests.get(ul)
            with open(file=r'D:\pr\pythonProject\pictur\{}'.format(name), mode='ab') as f:
                f.write(new_response.content)
                print('下载完成')
            page+=1
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

现象

 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韶光不负

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值