requests img src xpath 下载图片返回404-问题记录

weixin_51326837

于 2024-01-01 23:31:46 发布

阅读量377

点赞数 9

文章标签： pycharm python

本文链接：https://blog.csdn.net/weixin_51326837/article/details/135330394

版权

目前只针对普通html的记录先说xpath提取内容，再说img 下载失败

先说症状 xpath 网页端可以找到相应内容，编译环境里找不到内容。

尝试解决

1、判断网页是否能通过编译器requests.get(url)下载到本地，不能下载加上headers和cookies试试。

2、下载后，通过编译环境在浏览器中打开网页

3、复制服务器上的xpath表达式到，编译环境打开的网页中查找，发现第一次找不到内容，刷新后又能找到内容。

4、代码比对，发现下载的网页第一次加载会在html目标元素查找元素里多了一个空格，刷新后又没有那个空格了，所以xpath查询语句中也应该加上相应空格

例如下面的区别

通过xpath可以正确取得img的src地址，通过printf输出src后点击src地址可以打开网页看到图片，只是下载不了。

尝试增加，headers和cookies后无法还是无法下载。

并且返回值是404

通过尝试发现xpath获得的地址带有空格，导致requests.get(src)是提交给服务器的地址也带空格服务器找不到指定地址返回404

通过 string.replace(" ", "")去除空格

可以解决问题

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_51326837

关注关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python之requests+xpath爬取猫眼电影并写入数据库(图文教程)

12-21

img_ar = tree.xpath('//dl/dd//img[2]/@src') urls_ar = tree.xpath('//dd/div[@class="movie-item film-channel"]/a/@href') ``` 在这里，`xpath()`函数用于获取指定路径的元素属性。例如，`//dl/dd//img[2]/@...

使用 requests 库下载文件的解决方案与技术解析

热门推荐

Katios

03-24

5万+

在python 中获取网页中的图片，保存到本地。例子：html = requests.get('https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1490350083846&di=01e5ca0ce5499719c43f5d1e9f75d8c9&imgtype=0&src=http%3A%2F%2Fwww.th7.

静态页面的图片爬取器（爬虫）批量下载图片

12-13

4. **下载图片**：爬虫逐个发起对图片URL的GET请求，将返回的二进制图片数据保存到本地，这个过程可以使用`requests`库完成。 5. **处理异常**：在下载过程中，可能会遇到404错误、网络延迟等问题，需要设置合理的重...

selenium-批量下载图片及滚动加载的元素获取

02-14

4. **下载图片**：遍历所有图片元素，获取`src`属性，然后使用`requests`库下载图片到本地。 ```python import requests for img in images: img_url = img.get_attribute('src') response = requests.get...

用scrapy爬取下载某图片网站的全部图片

08-20

img_links = response.xpath('//img/@src').getall() ``` 这将返回一个包含所有图片URL的列表。 5. **下载图片**：为了下载图片，我们需要定义一个新的回调函数，例如`download_image`。在`parse`方法中，对每...

python多线程爬取图片（自动记录爬取页数，防止断网断电）

03-23

image_tags = html.xpath('//img[@src]') # 找到所有含有src属性的img标签 links = [img.attrib['src'] for img in image_tags] # 提取图片链接 return links ``` 为了实现多线程爬取，我们需要使用Python的`...

python爬虫requests 下载图片

weixin_30519071的博客

10-09

310

1 import requests 2 3 # 这是一个图片的url 4 url = 'http://yun.itheima.com/Upload/Images/20170614/594106ee6ace5.jpg' 5 response = requests.get(url) 6 # 获取的文本实际上是图片的二进制文本 7 img = response.co...

requests库下载图片的方法

weixin_30621711的博客

03-04

332

方法：传入图片url，requests.get()方法请求一下，将源码以二进制的形式写在本地即可。以前一直以为requests库中有特定的方法获取图片，类似urllib.request.urlretrieve，其实是没有的。 urllib.request.urlretrieve下载图片转载于:https://www.cnblogs.com/zrmw/p/10470381...

requests下载图片

weixin_46129834的博客

12-23

1883

requests下载图片一. 首先是直接把图片显示出来,采用下面的方式 def download_img(imgurl): try: rsp = requests.get(imgurl) if rsp.status_code == 200: content = rsp.content # 注意下面open里面的mode是"wb+", 因为content的类

requests下载单张图片

Gscsd的博客

06-21

1717

1. 随便从网上找一张图片，复制其链接，新建一个download_image.py文件，并运行这个文件import requests url = 'http://img.hb.aicdn.com/178dbee440c8bc025ff3a31f0f53816a7af647191cf67-td5UxW_fw658' # 请求这个图片url headers = { 'User-Agent':...

python requests库下载图片保存到本地

刘延林

09-18

4万+

import requests ''' 图片下载 @:param url_info ('http://img.xixik.net/custom/section/country-flag/xixik-cdaca66ba3839767.png','北马里亚纳群岛) ''' def download_img(url_info): if url_info[1]: print("-...

一键自动下载百度美女图片

谭小谭的专栏

11-29

1678

我一直认为学习一个新东西成就感和兴趣很重要，前面几篇文章介绍了python的安装和使用，这篇文章以一个图片爬虫脚本例子来感受下python的魅力。大家可以参考之前关于python安装的文章复制并运行下面这个python脚本，同时为了方便更多小白读者快速体验python爬虫，我把文章中的python脚本打包成了一个可执行程序，大家可以直接双击运行程序即可下载你想要的图片，在本公众号后台回复关键字00...

python requests下载图片_Python requests使用教程（简明版）

weixin_39543758的博客

11-23

525

我们只要把网页链接输入浏览器里，浏览器就会返回一个界面给我们，TA 的背后的原理是怎么样的？比如，在浏览器的搜索栏输入 baidu.com，得到的是百度首页。拷贝 baidu.com 这个网页链接，再粘贴到浏览器的地址栏，发现链接好像多了点东西。最开头有一个 https，https 是最常用的协议，也是最容易忽略的协议；www.baidu.com 是域名（如同互联网上的门牌号）。其实最早期的互联...

python--requests下载图片

木天

12-22

5970

转载自http://stackoverflow.com/questions/13137817/how-to-download-image-using-requests You can either use the response.raw file object, or iterate over the response. To use the response.raw file-

python爬虫下载图片xpath

09-05

下面是一个示例代码，演示了如何使用XPath来下载图片： ```python import requests from lxml import html # 定义目标网页的URL url = 'http://example.com' # 发送请求获取网页内容 response = requests.get(url...