请问我写的python爬虫，为什么爬下来的图片都是坏的

最新推荐文章于 2024-08-10 10:46:00 发布

不说220

最新推荐文章于 2024-08-10 10:46:00 发布

阅读量338

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_65473076/article/details/128614461

版权

在尝试爬取jdlingyu.com网站上的ACG集合图片时，遇到一个问题：下载的图片无法正常显示。代码中使用了requests和lxml库进行网页抓取，并通过XPath解析HTML。每页图片链接通过遍历页面找到，然后逐个下载。然而，图片在本地保存后出现损坏。可能的原因包括：编码问题、图片URL错误、二进制写入文件时的问题等。为了解决这个问题，需要检查请求头、响应状态码、以及图片写入过程是否正确。

摘要由CSDN通过智能技术生成

import requests
import os #文件夹操作模块，标准库
from lxml import etree

for page in range(1,48+1):
if page == 1:
url = 'https://www.jdlingyu.com/collection/acg'
else:
url = 'https://www.jdlingyu.com/collection/acg/page/' + str(page)
page += 1
page_index = page - 1
html_str = requests.get(url).text
xpath_str = etree.HTML(html_str)
name_list =xpath_str.xpath('//h2/a/text()')
href_list =xpath_str.xpath('//h2/a/@href')

index_num = 0

for name,href in zip(name_list,href_list):
# print(img_url)
res = requests.get(href).text
html = etree.HTML(res)
img_url_list =html.xpath(