获取html页面的编码

最新推荐文章于 2022-08-16 14:01:42 发布

zhaoweikid

最新推荐文章于 2022-08-16 14:01:42 发布

阅读量4k

点赞数

分类专栏： Python其他文章标签： html 正则表达式 python import

本文链接：https://blog.csdn.net/zhaoweikid/article/details/1675802

版权

Python其他专栏收录该内容

9 篇文章 0 订阅

订阅专栏

html页面一般都会指定一个编码，如何获取到是处理html页面的第一步，因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个：

import re

a = [ " <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> " ,

' <meta http-equiv=Content-Type content="text/html;charset=gb2312"> ' ,

' <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> ' ,

' <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> ' ,

' <meta http-equiv="content-type" content="text/html; charset=utf-8" /> ' ,

' <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> ' ,

' <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> '

]

b = " <meta[ ]+http-equiv=["']?content-type["']?[ ]+content=["']?text/html;[ ]*charset=([0-9-a-zA-Z]+)["']? "

B = re.compile(b, re.IGNORECASE)

for ax in a:

r1 = B.search(ax)

if r1:

print r1.group()

print r1.group( 1 ), len(r1.group())

else :

print ' not match '

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhaoweikid

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

获取网页的Html文件源代码

08-14

是一个获取网页html文件的源代码~ 在程序中写网址如“www.xiaonei.com”,html文件被写入对应的result.txt 文本文档中 ~！！

Python正则表达式匹配HTML页面编码

09-22

在处理HTML页面内容时，正则表达式可以用来提取特定的信息，例如本文所介绍的HTML页面编码。 HTML页面编码是指网页文档在传输过程中所使用的字符编码方式。编码通常定义在HTML文件的部分，通过标签的http-equiv属性...

参与评论您还未登录，请先登录后发表或查看评论

获取HTML编码的细节

yeisman的专栏

08-22

409

获取HTML编码：首先获取Response响应流中的字符编码。第二、获取HTML源码中的字符编码，若HTML编码中的字符编码与响应的字符编码不一致就取HTML中的编码。

获取页面编码的方法

admini1234的博客

12-11

136

1,通过分析Header提取编码。 WebRequest webRequest = WebRequest.Create(url); HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse(); Regex reg_charset = new Regex(@"charset\b\s*=\s*(?&...

获取页面编码

Focus-Fe

05-03

153

简单记录，个人学习 document.charset -------读写多可以，支持ie|safari|chrome|opera document.characterSet -------只读，支持ff https://developer.mozilla.org/en/DOM/document.characterSet...

获取页面的编码方式

m0_37737148的博客

11-07

266

我们用爬虫爬取页面时会出现因解码方式错误出现乱码。需要去查询页面的编码方式。直接F12中控制台输入document.charset

python抓取并保存html页面时乱码问题的解决方法

09-21

2. **网页实际编码与声明编码不符**：HTML页面中通过`<meta>`标签声明的编码可能与网页实际使用的编码不同。例如，HTML可能声明为`charset=utf-8`，但实际上可能是GBK或其他编码。针对上述问题，我们可以采取以下...

HTML+CSS实战：酷狗音乐静态页面编码示例 - 谷歌浏览器兼容

05-28

使用这个资源，用户可以期待获得对前端页面构建的深入理解，学习到如何模仿实际网站进行页面设计和布局。同时，这也是一个展示个人编码能力的良好机会。这个资源的介绍旨在吸引对前端开发和网页设计感兴趣的用户，...

python BeautifulSoup设置页面编码的方法

09-22

页面编码则是网页制作中用于指定网页内容的编码格式，如UTF-8、GB2312等，确保浏览器正确显示和处理网页中的文本数据。当使用Python结合BeautifulSoup库来解析网页时，如果源网页的编码与解析库内部使用的编码不...

获取网页编码方式apparent_encoding（自动识别网页编码）

m0_48600544的博客

08-16

1517

假如说，我爬取电影天堂网页的时候，没去关心它是什么编码的，就习惯写成编码'utf-8'但还有一个方法，就是可以通过res.apparent_encoding查看是用什么标准编码的。这时候，第一时间就是想到去网页，看看这个网页是用什么标准编码的。使用爬虫的时候，时常被编码问题困扰，可以通过打开检查，查看网页的源代码。但因为这个网页不是用utf-8编码的，所以爬取时就会出现乱码。我可以把请求的编码设置为原网页的编码(留意下方代码第四行)可以看到电影天堂网页，是GB2312编码的。电影天堂的编码是gb2312。.

获取网页的编码格式(含JAVA源码 )

01-16

获取网页的编码格式(含JAVA源码 ) 含 antlr.jar chardet.jar cpdetector.jar 编码格式

jquery获得当前html页面源码的方法

12-11

本文实例讲述了jquery获得当前html页面源码的方法。分享给大家供大家参考。具体实现方法如下： $("#btnGetCode").click(function(){ var a = '<!DOCTYPE html><html lang="zh-cn">'; var z = "</html>" var by = $(":root").html(); $("#codeView").val(a+by+z); }); 其中 $(“:root”) 选择器为根选择器它总是从<html>开始希望本文所述对大家的jquery程序设计有所帮助。

获取页面的编码

sizhixin的博客

04-19

114

获取页面编码最准确的方法输入js代码 document.charset

尝试获取页面的字符编码

长空阁

10-01

1816

/**//* * EncodeGoter.java * * Created on 2007年9月30日, 下午4:49 * * To change this template, choose Tools | Template Manager * and open the template in the editor. */package com.ckcs.url;import java.io.

获取页面源码（自动获取页面的编码格式）

码农

08-20

1330

#region 获取页面源码（自动获取页面的编码格式） /// /// 获取页面源码（自动获取页面的编码格式） /// url /// 页面源码 /// private string GetHtmlAutoEncoding(string url) { HttpW

js如何获取当前页面字符编码？ http://bbs.51js.com/thread-75687-1-1.html

xu的blog

01-17

6430

DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">html xmlns="http://www.w3.org/1999/xhtml">head>meta http-equiv="Content-Type" c

怎么自动获取html代码实现,自动编码获取页面html代码

weixin_32133403的博客

05-31

290

/// summary ///获取http流字符串 /// /summary /// param name="Url"/param /// returns/returns public static string GetHttpData(string Url) { /// summary ///获取http流字符串 /// /summary /// param name="Url"/param /...

【转载保存】获取页面编码

dreamzuora的博客

11-01

160

https://blog.csdn.net/u010061897/article/details/9116879

html文件：包含的告诉浏览器用什么编码显示的信息

weixin_34235135的博客

12-23

184

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>title</title> </head> <body> ... 其中<meta charset="UTF-8">这句...

lxml获取页面正确的编码

最新发布

09-12

lxml是一个Python库，用于处理HTML和XML文档，它提供了丰富的API来进行文档的解析、修改和序列化等操作。在使用lxml获取HTML页面内容时，正确的编码非常重要，因为它涉及到字符集的解码问题，直接关系到数据的准确性。要在lxml中获取页面正确的编码，通常需要查看HTTP响应头中的`Content-Type`字段，该字段会包含字符集信息。例如，对于`text/html; charset=utf-8`的`Content-Type`，页面编码就是`utf-8`。 lxml提供了`etree.HTML()`函数用于解析HTML文档，并且它能够根据文档内部的`<meta>`标签来自动识别文档编码。如果文档内部的编码信息与HTTP响应头中的编码信息不一致，lxml会尝试使用文档内的编码。下面是一个使用lxml解析HTML并获取页面编码的例子： ```python import requests from lxml import html # 发送HTTP请求获取页面内容 response = requests.get('http://example.com') # 解析响应内容 tree = html.fromstring(response.content) # 获取页面的编码方式 encoding = response.encoding # 这是从HTTP响应中获取的编码信息 # 或者从HTML文档内的<meta>标签中获取编码信息 meta_encoding = tree.xpath("string(/html/@http-equiv)") if meta_encoding.startswith('Content-Type'): _, _, encoding = meta_encoding.partition('charset=') encoding = encoding.strip('"\' ') # 输出编码 print(f"页面的编码为: {encoding}") ``` 在上述代码中，我们首先使用`requests`库获取了页面内容，并通过HTTP响应对象的`encoding`属性来获取编码。然后，我们使用XPath查询`<html>`标签中的`http-equiv`属性，以确认文档内是否有指定的字符集。需要注意的是，如果页面内有多个`<meta>`标签指定了不同的编码，可能需要额外的逻辑来判断使用哪个编码。