python爬虫下载文件，Content-Disposition中的文件名乱码问题

最新推荐文章于 2024-05-15 07:59:17 发布

weixin_45700016

最新推荐文章于 2024-05-15 07:59:17 发布

阅读量1.6k

点赞数 1

文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_45700016/article/details/124914949

版权

问题描述：

下载链接的响应头如下，可以看到filename是乱码，但是用浏览器下载可以显示正常的文件名。

：

原因：

按照RFC规范，HTTP头文件中的字符编码被指定为 ISO-8859-1，中文文件名被用 ISO-8859-1解码后出现乱码也毫不出奇了。

解决方法：

把乱码文件名重新用ISO-8859-1编码后，再解码即可（默认用uft-8）。

示例代码：

import requests
import re


r = requests.get(url)  # url为下载文件的Request URL
Content_Disposition = r.headers['Content-Disposition']
compiler = re.compile(r'filename=(.*)')
filename = compiler.search(Content_Disposition).group(1)  # 正则提取文件名
filename = filename.encode('ISO-8859-1').decode()   
print(filename)