用Python写网络爬虫

最新推荐文章于 2024-05-27 13:16:19 发布

时光不老°

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量161

点赞数 1

分类专栏：网络爬虫文章标签：网络爬虫

本文链接：https://blog.csdn.net/weixin_43726410/article/details/84196404

版权

网络爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用Python写网络爬虫

这是我第一次写博客，手法比较生疏。写网络爬虫的第一件事是确定网站
今天我来爬一个图片比较多的网站，校花网： http://www.521609.com/daxuexiaohua/

首先要导入两个包，urllib.request需要手动导入，另外再手动导入re

import urllib.request
import re

先设置一个变量保存地址

# 1.确定要爬取的网址
path = "http://www.521609.com/daxuexiaohua/"

需要根据源代码来爬取图片，所以要先根据网址获取源代码，但是要注意网页的编码，不然会产生乱码，在网页上右击查看源代码可看到编码
在这里插入图片描述
获取源代码之后可以先打印看与页面上的查看源代码有什么区别

# 2.根据网址获取源代码
content = urllib.request.urlopen(path).read().decode("gb2312", "ignore")
print(content)

根据页面分析需要下载的图片在什么位置，下面是正则表达式，可以打印这个网页需要下载多少图片

# 3.正则表达式
imgRe = re.compile(r'src="(.+?\.jpg)"')
# 在content查找与imgRe相匹配的图片
imagePaths = imgRe.findall(content)
print(imagePaths.__sizeof__())

在网页的图片上右击查看审查元素可以看到图片的位置和路径，但是复制路径在网页查是差不到的，用鼠标放在路径上几秒会出现完整的路径

在这里插入图片描述

因为路径的不完整所以要在前面加上完整的路径

#4.保存路径
#给图片命名
i = 0
#下载图片的保存路径
image = "D:\\java\\TT"
for imagePath in imagePaths:
    # 打印路径
    print(imagePath)
    if "http:" not in imagePath:
        imagePath = "http://www.521609.com"+imagePath
    i += 1
    urllib.request.urlretrieve(imagePath, f"{image}\\{i}.jpg")

时光不老°

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用Python写网络爬虫

用Python写网络爬虫这是我第一次写博客，手法比较生疏。写网络爬虫的第一件事是确定网站今天我来爬一个图片比较多的网站，校花网：http://www.521609.com/daxuexiaohua/首先要导入两个包，urllib.request需要手动导入，另外再手动导入reimport urllib.requestimport re先设置一个变量保存地址# 1.确定要爬取的网址...
复制链接

扫一扫