python lxml.html.fromstring与etree.HTML()

最新推荐文章于 2024-01-10 09:49:20 发布

小生听雨园

最新推荐文章于 2024-01-10 09:49:20 发布

阅读量3k

点赞数 3

分类专栏： Python 文章标签： html lxml xpath etree

本文链接：https://blog.csdn.net/weixin_44154094/article/details/115533531

版权

Python 专栏收录该内容

16 篇文章

订阅专栏

@[TOC](python lxml.html.fromstring与etree.HTML())
晚上看了一个大佬的爬虫解析代码，
有下面这样一段

import lxml.html


resp = requests.get(url, headers=headers)
text = resp.content.decode('utf8')
# 查了一下，下面这一句也是把html转换为html document树
doc = lxml.html.fromstring(text)

我看的很懵
因为我以前从来都是下面这样写的

from lxml import etree


resp = requests.get(url,headers= headers)
# text = resp.text
text = resp.content.decode("utf-8")
html = etree.HTML(text)

查看文档之后，etree功能更多，lxml.html专解析html,带了点特殊的方法

lxml.html特有：link[0].text_content()
lxml.html.diff：可以比较两个文件的差别

参考文章：http://blog.sina.com.cn/s/blog_8bbe95060102x5rv.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小生听雨园

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python-爬虫基础-lxml.etree(4)-从字符串和文件中解析

Aldeo

08-30

4062

Etree 支持从所有重要来源(即字符串、文件、 url (http / ftp)和类似文件的对象)以多种方式解析 XML。主要的解析函数是 fromstring ()和 parse () ，它们都是以 source 作为第一个参数来调用的。默认情况下，它们使用标准的解析器，但是您总是可以将不同的解析器作为第二个参数传递。 (1)The fromstring() function 函数是解...

【小白必胜-xpath】lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()三者的区别与联系

沧海济洲云的博客

11-23

3774

对于使用xpath()之前的文档格式化问题，可能不同的人，会遇到不一样的情况，但是基本上只要搞懂了lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()这三者之间的区别和联系，那么文档格式化这一步一定不会有问题……

参与评论您还未登录，请先登录后发表或查看评论

lxml.html.fromstring 和 etree.HTML(sample)区别

weixin_44818729的博客

10-22

3441

lxml 通常都是用etree解析，书上却用的是lxml.html，用我浅薄的英文看了下，貌似etree功能更多，lxml.html专解析html,带了点特殊的方法.... etree from lxml import etree html = etree.HTML(sample) result1 = etree.tostring(html,pretty_print =True) print(re...

lxml.etree.fromstring的使用

m0_63664949的博客

04-19

4132

该方法是将xml格式转化为Element 对象，Element 对象代表 XML 文档中的一个元素。元素可以包含属性、其他元素或文本。如果一个元素包含文本，则在文本节点中表示该文本。 with open(xml_path) as f: xml_str = f.read() xml = etree.fromstring(xml_str) 传入的为一个xml文件，经过该方法后变成一个Element对象<Element annotation at 0x24b46496680> ...

Html.fromHtml(str)

11-27

883

txt.setText(Html.fromHtml()) str=" The Awesome Sliding Up Panel Brought to you byhttp://umanoapp.com]]> " 格式： TextView设置超链接有两种方法： 1、 TextView txt=new TextView(this); String html = "有问

lxml.html和lxml.etree将string解析成htmlTree的问题

qq_41814976的博客

09-29

498

一开始使用lxml.html.fromstring()，解析后到使用getroot时提示目标对象是一个htmlElement，这和说明文档里写的不一样啊…后来改用lxml.etree.fromstring()，报错解析不了，猜想是字符编码的问题，于是指定parser替换默认parser： parser = etree.HTMLParser(encoding="utf-8") html_tree = lxml.etree.fromstring(data, parser=parser) 解析成功，之后再从根节

【python】报错lxml.etree.XPathEvalError: Invalid expression

dxtql的博客

10-18

9405

报错信息： Traceback (most recent call last): File “c:\Users\86130\Desktop\Study\python\spider_learning\hello_spider.py”, line 6, in text = ht.xpath(xpath) File “src\lxml\etree.pyx”, line 1583, in lxml.et...

执行pyshark报错的解决方法 lxml.etree.XMLSyntaxError: Input is not proper UTF-8, indicate encoding !

weixin_42612178的博客

06-11

1578

python代码 import pyshark cap = pyshark.FileCapture(r'E:\test.pcap') def print_conversation_header(pkt): try: protocol = pkt.transport_layer src_addr = pkt.ip.src src_port = pkt[pkt.transport_layer].srcport dst_addr =

使用lxml.etree解析中文网页时出现乱码问题的解决办法

胡LiuJia@BLOG

01-30

4520

吐槽不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x 这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。 lxml.etree.tostring 乱码的解决方案话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。 #!env python3 from urllib.request

python的lxml库简介_Python lxml教程

weixin_42322782的博客

02-21

306

>>> html = etree.Element('html')>>> body = etree.SubElement(html, 'body')>>> body.text = 'Text'>>> print(etree.tostring(html))b'Text'>>> br = etree.SubElem...

python html解析查找字符串,如果字符串包含html代码，如何用python检测？

weixin_42376671的博客

12-19

265

How to detect either the string contains an html (can be html4, html5, just partials of html within text)? I do not need a version of HTML, but rather if the string is just a text or it contains an ht...

超实用的 Python 库之lxml使用详解

Rocky006的博客

01-10

1万+

XML（可扩展标记语言）和HTML（超文本标记语言）是广泛用于数据交换和网页构建的标记语言。在Python中，有许多库可以用来解析和处理XML和HTML文档，其中最强大和常用的之一是lxml。lxml是一个高性能、功能丰富的库，它提供了强大的XML和HTML处理功能。本文将深入介绍Python lxml库，包括其基本用法、XPath查询、XML和HTML解析、数据提取和实际应用场景，并提供丰富的示例代码，以帮助大家充分利用这个强大的工具。

Python中尝试用lxml去解析html

zhengalen的博客

05-16

9871

【记录】Python中尝试用lxml去解析html 【背景】 Python中，之前一直用BeautifulSoup去解析html的：【教程】Python中第三方的用于解析HTML的库：BeautifulSoup 后来听说BeautifulSoup很慢，而lxml解析html速度很快，所以打算去试试lxml。【折腾过程】 1.去lxml主页看了看简介： lxml

lxml一些函数说明

TobyTime

03-07

477

etree篇 from lxml import etree html篇 from lxml import html fromstring(content) 如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset，对源码进行解码。 <meta http-equiv="content-type" ...

xpath应用之lxml模块使用

z_ipython的博客

08-31

355

lxml 是一个 HTML/XML 的解析器，主要的功能是如何解析和提取 HTML/XML 数据。 lxml 和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用上篇文件的 XPath 语法，来快速的定位特定元素以及节点信息。 lxml python 官方文档安装lxml模块： pip install lxml（或通过 wheel 方式安装）...

使用 lxml 解析 xml 文档

abcque的专栏

04-26

715

一、从字符串中解析 1、fromstring from lxml import etree if __name__ == '__main__': text = "<div><h1>1</h1><h2>2</h2><h3>3</h3><h4>4</h4><h5>5</h5><h6>6</h6></div>" # 从..

html语言中form是定义什么,htmlfrom的含义以及form的用法

weixin_39820136的博客

05-31

3205

htmlfrom的含义以及form的用法在HTML中，from代表的意思是表单。那么大家知道htmlfrom的含义以及form的用法是什么呢?下面一起来看看!from是什么意思?1.表单是一个包含表单元素的区域。2.表单元素是允许用户在表单中(比如：文本域、下拉列表、单选框、复选框等等)输入信息的元素。3.表单使用表单标签()定义。html表单的相关知识1. HTML表单的详细介绍HTML 表单用...

python lxml包学习笔记