python urllib解析网页编码出错

最新推荐文章于 2023-07-12 22:30:11 发布

NLP万事通

最新推荐文章于 2023-07-12 22:30:11 发布

阅读量593

点赞数 1

分类专栏：工具文章标签： python

本文链接：https://blog.csdn.net/worfs123456/article/details/62889580

版权

工具专栏收录该内容

20 篇文章 0 订阅

订阅专栏

问题描述：在用urllib解析网页的时候，有时候的编码并不是网页中的编码（如下）。
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />

解决过程
尝试检查编码

import chardet
req = urllib2.Request(url)
data = urllib2.urlopen(req).read()
det = chardet.detect(data)
###{'confidence': 0.511502818949318, 'encoding': 'ISO-8859-2'}

我们可以看到编码是西欧的编码（可自己百度百科），不是我们想要的，接下来就是查各种资料。

答案
通过查资料，找到了一个解决方法，尝试成功，

data = urllib2.urlopen(req).read().decode('gbk','ignore').encode('utf-8')

原因
刚找到了问题所在，这是因为html中混入了非法字符，导致chardet.detect(data)辨认错误
直接decode(‘gbk’,’ignore’).encode(‘utf-8’)应该就可以解决

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NLP万事通

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

urllib库：网络请求，url编码，url分解，反爬虫(请求头、代理、cookie)

旧人小表弟的博客 - 无业游民学习笔记

09-24

1293

通常网页请求、下载保存网页(图片)、参数编码、解码会用到这个库发送请求-保存网页文件(图片)：使用urllib下的request 导入urllib下的request库 from urllib import request urlopen()方法用法：发送请求模拟访问网页 resp = request.urlopen('http://www.baidu.com') # 参数1是请求的url地址；参数data=是提交参数，默认None(get方式)，有参数就是post方式获取返回信息： # 返.

python requests模块解析html_用python3教你任意Html主内容提取

weixin_39610188的博客

12-03

2722

0x1 工具准备工欲善其事必先利其器，爬取语料的根基便是基于python。我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。简单介绍一个各模块的功能01｜requestsrequests是一个Python第三方库，处理URL资源特别方便。它的官方文档上写着大大口号：HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib...

参与评论您还未登录，请先登录后发表或查看评论

Web请求响应编码问题详解

xcymorningsun的专栏

10-23

2350

乱码问题一直是困扰开发人员的比较头疼的问题，而发生在 web 请求响应中的乱码问题由于牵扯到比较多的协议框架和技术实现，又显得更加棘手。web 请求中的乱码一般容易出现在两个地方：一是所请求的资源名称，二是查询参数；更复杂的是，不同的浏览器对 URL 和查询参数采用的默认编码可能还不一样，这就更加加深了问题的难度。本文将深入浅出地分析 web 请求响应中乱码产生的原因与解决该问题的关键因素，并

Python：urllib与urllib2错误解析

CS笔记本

04-22

4667

原文地址：http://www.zhenv5.com/?p=398 首先说一下我用的Python版本是2.7.1,等换了新主机就用最新的3.1版本，现在先将就着学习Python的基本知识。悲剧的原因很简单，为了看看python的urllib和urllib2模块到底是干么的。我新建了个文件，命名为urllib.py，于是悲剧开始了，因为很明显它和

网页中遇到的网页文件编码问题的解决办法

ningjingdemayi的专栏

09-07

889

在处理网页源文件的时候，经常会遇到网页源文件编码的问题，这些问题在解析标签的时候倒是没什么问题，但是就是在存储的时候会有乱码发生。这个数据库，操作系统的默认编码有关系，当然罪魁祸首依然是千变万化的网页源文件造成的。解决这个问题通常的做法是无论是什么编码格式，一律转化为utf-8，但是事与愿违，转化为utf-8 需要首先知道当前源文件的编码，这就麻烦了，因为源文件里提供的编码标签并不能准确的描

decode函数的用法_urllib库的用法（上）

weixin_39926014的博客

11-25

328

阅读提示理解本文内容需要具备python基础知识和爬虫基础知识（HTML、JS）爬虫基础可参考以往文章：爬虫基础——HTTP基本原理爬虫基础——网页基础爬虫的基本原理爬虫基础——会话和Cookie爬虫基础——代理的基本原理urllib库的作用在爬虫的基本原理中，我们已经讲过，爬虫的第一个步骤是获取网页，urllib库就是用来实现这个功能：向服务器发送请求，得到服务器响应，获取网页的内容。Pytho...

解决python3 urllib 链接中有中文的问题

09-20

此外，如果需要进一步处理返回的网页数据，如HTML解析等，最好在请求阶段就设置合适的headers，告知服务器客户端可以接受的字符集是UTF-8，避免因字符集解析问题导致数据处理出错。这里的内容概述了Python3中...

解决Python下json.loads()中文字符出错的问题

09-19

在Python 2.7版本中，开发者使用`json.loads()`方法解析从网络请求中获取到的JSON格式数据时，可能会发现其中的中文字符被转换成了Unicode编码的形式。例如，原本的中文字符串"我爱你"会被转换为`u'\u4f60\u7231\u...

python解析pdf乱码_详解Python解决抓取内容乱码问题（decode和encode解码）

weixin_39793189的博客

12-11

2183

一、乱码问题描述经常在爬虫或者一些操作的时候，经常会出现中文乱码等问题，如下原因是源网页编码和爬取下来后的编码格式不一致二、利用encode与decode解决乱码问题字符串在Python内部的表示是unicode编码，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码(decode)成unicode，再从unicode编码(encode)成另一种编码。decode的作...

关于urllib.request解析网站不能decode

最新发布

错过人间飞鸿的博客

07-12

1167

urllib_get请求方法的quote方法和urlencode方法

python 3.x 爬虫基础---Urllib详解

weixin_30436101的博客

02-23

247

python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requersts,BeautifulSoup4（bs4） python 3.x 爬虫基础---正则表达式前言　　爬虫也了解了一段时间了希望在半个月的时间内结束它的学习，开启pyt...

Python爬虫urllib的基础使用详解

写写平时的技术与感想

05-19

5632

通过上述的方式，我们已经知道了代理是如何进行使用的。但是，实际上爬虫不会简单的使用一个固定的ip来进行访问。处理器：目的是用来定制更高级的请求头，随着业务逻辑的复杂，请求对象的定制已经满足不了我们的需求（例如动态。：在进行爬虫时候，程序模仿浏览器操作，但是反爬虫机制在响应爬虫请求时候需要进行UA识别，这时候就需要将。所以，我们需要自己定制一个请求对象，这个请求对象中包含了所有真实用户需要的头。我们知道判断一个用户是否登录的操作就是通过判断用户的唯一标识，大部分都是。来进行解码，才能变成我们能看懂的东西。

python 中的 urlencode 编码与 urldecode 解码

活在当下！输出快乐！

03-10

7726

文章目录脚本示例运行结果脚本示例在 python 中进行 UrlEncoded 与 UrlDecode 操作需要导入 urllib 相关函数库： import urllib.parse 脚本示例如下： import urllib.parse gb_url="http://www.baidu.com" def start(): print("hello imxiaoqi\n") print("原值 = " + gb_url) # urlencode

请求模块urllib的基本使用

hacker707的博客

03-23

3333

在实现网络爬虫的爬取工作时，就必须使用网络请求，只有进行了网络请求才可以对响应结果中的数据进行提取，urllib模块是python自带的网络请求模块，无需安装，导入即可使用。下面将介绍如果使用python中的urllib模块实现网络请求

urllib.request.urlopen(req).read().decode解析http报文报“utf-8 codec can not decode”错处理

老猿Python

09-09

6181

老猿前期执行如下代码时报“‘utf-8’ codec can’t decode byte”错，代码及错误信息如下： >>> import urllib.request >>> def mkhead(): header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,im...

Python urllib.unquote乱码解析与解决方案

在Python编程中，urllib模块是一个重要的工具，特别是处理URL相关的编码和解码操作。unquote函数的功能类似于JavaScript的urldecode，它的作用是对包含"%xx"形式的URL编码字符进行解码，将其还原为对应的字符。然而...