【Python】爬虫——urlretrieve下载不完整问题且避免用时过长

最新推荐文章于 2024-04-08 07:24:33 发布

zou_albert

最新推荐文章于 2024-04-08 07:24:33 发布

阅读量1.4k

点赞数

分类专栏： python学习文章标签： python

本文链接：https://blog.csdn.net/zou_albert/article/details/104616788

版权

python学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

随手记

我们使用urllib.urlretrieve(url,filename)时经常遇到下载到一半时，出现urllib.ContentTooShortError错误。这是因为文件下载不完全导致的错误。
urllib.urlretrieve(url,filename)等待时间过长，导致程序死循环或者卡死。

			import socket
			import urllib.request
			#设置超时时间为30s
			socket.setdefaulttimeout(30)
			#解决下载不完全问题且避免陷入死循环
			‘’‘’‘’  代码省略‘’‘’‘’‘
			
            for page_2 in range(2,int(pageEle)+1):
                try:
                    url=imgUrl.replace('.html', '_%s.html' % str(page_2))
                    response = requests.get(url).text
                    selector = html.fromstring(response)
                    imgEle = selector.xpath('//a[@class="down-btn"]/@href')[0]
                    print(imgEle)
                    imgName='%s_%s_%s.jpg'%(page,str(index+1),page_2)
                    coverPath = '%s/%s/%s' % (os.getcwd(), ss, imgName)
                    # coverPath = '%s/meizi1/%s' % (os.getcwd(), imgName)
                    # print("zoujunbo")

                    urllib.request.urlretrieve(imgEle, coverPath)   ###unknown url type: ''
                except socket.timeout:   ##### 超出时间直接就跳过
                    print("单个图片下载失败")
                    # urllib.request.urlretrieve(imgEle, coverPath)