用Python写网络爬虫
这是我第一次写博客,手法比较生疏。写网络爬虫的第一件事是确定网站
今天我来爬一个图片比较多的网站,校花网: http://www.521609.com/daxuexiaohua/
首先要导入两个包,urllib.request需要手动导入,另外再手动导入re
import urllib.request
import re
先设置一个变量保存地址
# 1.确定要爬取的网址
path = "http://www.521609.com/daxuexiaohua/"
需要根据源代码来爬取图片,所以要先根据网址获取源代码,但是要注意网页的编码,不然会产生乱码,在网页上右击查看源代码可看到编码
获取源代码之后可以先打印看与页面上的查看源代码有什么区别
# 2.根据网址获取源代码
content = urllib.request.urlopen(path).read().decode("gb2312", "ignore")
print(content)
根据页面分析需要下载的图片在什么位置,下面是正则表达式,可以打印这个网页需要下载多少图片
# 3.正则表达式
imgRe = re.compile(r'src="(.+?\.jpg)"')
# 在content查找与imgRe相匹配的图片
imagePaths = imgRe.findall(content)
print(imagePaths.__sizeof__())
在网页的图片上右击查看审查元素可以看到图片的位置和路径,但是复制路径在网页查是差不到的,用鼠标放在路径上几秒会出现完整的路径
因为路径的不完整所以要在前面加上完整的路径
#4.保存路径
#给图片命名
i = 0
#下载图片的保存路径
image = "D:\\java\\TT"
for imagePath in imagePaths:
# 打印路径
print(imagePath)
if "http:" not in imagePath:
imagePath = "http://www.521609.com"+imagePath
i += 1
urllib.request.urlretrieve(imagePath, f"{image}\\{i}.jpg")