用Python写网络爬虫

用Python写网络爬虫


这是我第一次写博客,手法比较生疏。写网络爬虫的第一件事是确定网站
今天我来爬一个图片比较多的网站,校花网: http://www.521609.com/daxuexiaohua/

首先要导入两个包,urllib.request需要手动导入,另外再手动导入re

import urllib.request
import re

先设置一个变量保存地址

# 1.确定要爬取的网址
path = "http://www.521609.com/daxuexiaohua/"

需要根据源代码来爬取图片,所以要先根据网址获取源代码,但是要注意网页的编码,不然会产生乱码,在网页上右击查看源代码可看到编码
在这里插入图片描述
获取源代码之后可以先打印看与页面上的查看源代码有什么区别

# 2.根据网址获取源代码
content = urllib.request.urlopen(path).read().decode("gb2312", "ignore")
print(content)

根据页面分析需要下载的图片在什么位置,下面是正则表达式,可以打印这个网页需要下载多少图片

# 3.正则表达式
imgRe = re.compile(r'src="(.+?\.jpg)"')
# 在content查找与imgRe相匹配的图片
imagePaths = imgRe.findall(content)
print(imagePaths.__sizeof__())

在网页的图片上右击查看审查元素可以看到图片的位置和路径,但是复制路径在网页查是差不到的,用鼠标放在路径上几秒会出现完整的路径

在这里插入图片描述

因为路径的不完整所以要在前面加上完整的路径

#4.保存路径
#给图片命名
i = 0
#下载图片的保存路径
image = "D:\\java\\TT"
for imagePath in imagePaths:
    # 打印路径
    print(imagePath)
    if "http:" not in imagePath:
        imagePath = "http://www.521609.com"+imagePath
    i += 1
    urllib.request.urlretrieve(imagePath, f"{image}\\{i}.jpg")
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值