对于赫本相信大家都非常熟悉了,绝对是一代女神,今天我们就来爬取女神的近千张美照,在一饱眼福的同时,还可以学习下如何做网站,对于老旧的黑白照片,还有一键上色功能可以玩,真是一举多得
照片爬取
我们选择的目的网站是时光网,话不多说,直接开整
http://people.mtime.com/951204/images
网站基本是没有反爬虫设置的,而且网页结构也比较简单,我们直接上代码
先编写一个搜集所有图片 URL 的函数以及一个保存函数
def download_url():
images = []
res = requests.get("http://front-gateway.mtime.com/library/person/imageAll.api?personId=951204")
data = res.json().get("data")
if data:
images_list = data.get("images")
for image in images_list:
images.append(image.get("imageOrigin"))
return images
def save_url(url):
with open("url.csv", "w") as f:
for i in url:
f.write(i + "\n")
然后就可以解析得到的文件,逐个爬取图片了
def download_pic():
with open("url.csv", "r") as f:
url_list = f.readlines()
print(url_list)
for url in url_list:
res = requests.get(url.replace("\n", ""))
file = open("pic/" + url.replace("\n", "").split("/")[-1], "wb")
file.write(res.content)
file.close()
这要我们就完成了女神照片的采集工作
我们可以看到,有相