python爬虫(1) 之下载图片

最新推荐文章于 2024-07-22 20:44:36 发布

zzyandzzzy

最新推荐文章于 2024-07-22 20:44:36 发布

阅读量510

点赞数 1

分类专栏： python 文章标签： python 爬虫网络编程

本文链接：https://blog.csdn.net/zzyandzzzy/article/details/75948455

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

python爬虫(1) 之下载图片

1.爬取对象：http://www.jikexueyuan.com/course/pythonbase/

2.爬取目的：将目标网站中该页面所有图片下载下来

3.爬取步骤：（1）先将需要爬取的网页打开，然后把源代码存下来，存为yuanma.txt文件

（2）编写代码，打开yuanma.txt文件

（3）利用正则表达式匹配，找出含有课程的图片，并把url保存下来

（4）遍历所有图片的url，对每个提交get请求，并将图片内容写入pic文件夹中的文件中，再进行保存

4.源代码：

# -*- coding:utf-8 -*-
import re
import requests
#打开文本
file = open('yuanma.txt','r')
html = file.read()
file.close()
#进行匹配
lessons = re.findall('div class="lessonimg-box">(.*?)</div>',html,re.S)
lessons = str(lessons)
pic_url = re.findall('img src="(.*?)" class="lessonimg"',lessons,re.S)
i = 0
for each in pic_url:
    i = i+1
    print("正在下载第"+str(i)+"张图片："+each)
    pic = requests.get(each)
    fp = open('pic\\'+str(i)+'.jpg','wb')
    fp.write(pic.content)
    fp.close()

5.需要注意知识的：

（1）学会正则表达式的使用，（.*？）表示非贪心算法，而（.*）表示贪心算法

（2）python脚本的第一行需要用注释表示出编码类型

（3）必须在文件目录下新建pic文件夹

（4）本次代码使用了两次正则表达式，利用先抓大再抓小的方法，就是先爬取到每个课程的代码，在从代码中爬取图片的url

6.运行结果：