python爬虫中使用lxml解析本地HTML文件报错

青春不张扬

已于 2022-01-23 21:32:06 修改

阅读量1.3k

点赞数 1

文章标签： python 爬虫 html

于 2022-01-23 21:31:31 首次发布

本文链接：https://blog.csdn.net/weixin_44322716/article/details/122657570

版权

问题描述：使用lxml.etree.parse()解析html文件，该方法默认使用的是“XML”解析器，所以如果碰到不规范的html文件时就会解析错误，报错代码如下：

解决方法：自己创建html解析器，增加parser参数

from lxml import etree

parser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse("b.html", parser=parser)
result = tree.xpath('/html')
print(result)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

青春不张扬

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python通过Lxml库解析网络爬虫抓取到的html

weixin_42098295的博客

02-11

1541

Lxml是基于 libxml2解析库的Python封装。libxml2是使用C语言编写的，解析速度很好，不过安装起来稍微有点复杂。安装说明可以参考(http: //Lxml.de/installation.html)，在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/)，使用lxml库来解析网络爬虫抓取到的HTML是一种非常高效的方式。

python3.8安装lxml库,Python3爬虫利器之lxml解析库的安装

weixin_36356002的博客

03-25

2721

lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。本节中，我们了解一下lxml的安装方式，这主要从Windows、Linux和Mac三大平台来介绍。1. 相关链接官方网站：http://lxml.deGitHub：https://github.com/lxml/lxmlPyPI：https://pypi.python.org/pypi/lx...

参与评论您还未登录，请先登录后发表或查看评论

python3 lxml解析html_解析HTML：Python中的LXML错误

weixin_39809584的博客

12-10

277

I am writing a simple script to fetch the big grey table from here.The code I have is the following:import urllib2from lxml import etreehtml = urllib2.urlopen("http://www.afi.com/100years/movies10.asp...

lxml解析本地HTML文件报错的问题

Kwoky的博客

07-18

6510

使用lxml.etree.parse()解析html文件，该方法默认使用的是“XML”解析器，所以如果碰到不规范的html文件时就会解析错误，报错代码如下： lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 3 and head, line 3, column 87 解决办法：自己创建html解析器，增...

lxml解析html报错

linuxvfast的博客

06-18

300

报错如下： lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and

etree.html乱码,lxml 中文乱码解决 | CN-SEC 中文网

weixin_34404671的博客

06-17

1073

今天帮群友解决一个lxml抓取所有文本时遇到的问题，lxml抓取中文会乱码，搜索一下，找到如下的解决方案，分享给大家。1、要保证传给lxml的参数都是unicode2、用 urlopen() 抓到的 file-like object ，或者用open()打开的硬盘上的 file object 不一定是unicode3、用 unicode(file-like-object.read(),"utf-8...

pycharm里面lxml报错

最新发布

yn616的博客

02-23

1239

pycharm里面lxml报错

python爬虫代码运行之后不报错也没有结果_看完！一小时带你入门Python爬虫

weixin_39615643的博客

12-14

6667

一、什么叫爬虫爬虫，又名“网络爬虫”，就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度和GOOGLE都是凭借强大的网络爬虫，来检索海量的互联网信息的然后存储到云端，为网友提供优质的搜索服务的。二、爬虫有什么用你可能会说，除了做搜索引擎的公司，学爬虫有什么用呢？哈哈，总算有人问到点子上了。打个比方吧：企业A建了个用户论坛，很多用户在论坛上留言讲自己的使用体验等等。现在A...

对于Python爬虫中，bs解析html后,获取特定标签时，用“class”还是“class_”？

qq_60300168的博客

03-18

2038

本文探究了在Beautifulsoup采用css选择器时，对于html中的“class”标签属性，具体在代码中如何表现，即对于“class”与“class_”的抉择。

lxml python如何读取xml到本地_简单粗暴的使用lxml从网页HTML/XML中提取数据

weixin_39721009的博客

01-27

719

Python 的 lxml 模块是一个非常好用且性能高的HTML、XML解析工具，通过它解析网页，爬虫就可以轻松的从网页中提取想要的数据。lxml是基于C语言的libxml2和libxslt库开发的，所以速度是相当的快。使用lxml提取网页数据的流程要从网页里面提取数据，使用lxml需要两步：第一步，用lxml把网页(或xml)解析成一个DOM树。这个过程，我们可以选择etree、etree.HT...

关于lxml包中没有etree及parse报错问题解决方法（附带HTML文档及源代码）

qq_61210648的博客

08-23

1043

关于python爬虫数据xpath解析数据过程中，from lxml import etree，etree下边报红线的问题解决方法及etree.parse报错的解决方法（完整解决过程及代码演示）

python导入模块失败_导入lxml模块导致PyImport_ImportModule失败

weixin_39639698的博客

11-23

499

我想在C++中调用foo。如果我添加了from lxml import html，但效果很好，当我删除它Test.pyimport osimport sysimport requestsfrom lxml import html #it will cause faileddef foo():host = "http://www.baidu.com"s = requests.session()re...

pythonfromlxml导入html_Python 通过lxml遍历html xpath

weixin_39929602的博客

12-10

#coding:utf-8'''Created on 2017年10月9日@author: li.liu'''from selenium import webdriverfrom lxml import etreeimport urllibimport urllib2import time#url='http://www.woyihome.com'url='http://sso.woyihome....

lxml包没有etree模块和parse报错处理

热门推荐

指尖魔法师

08-15

1万+

lxml包没有etree模块的解决方法: 环境：python3.7+ lxml4.4.4 因为etree是C语言写的，所以在import时，不会有提示，直接输入即可 from lxml import etree 在使用etree.parse时报错，原因：该方法默认使用的是“XML”解析器，所以如果碰到不规范的html文件时就会解析错误 htmlElement = e...

python etree.parse参数_lxml.etreeiterparse（）并完全解析元素

weixin_39958112的博客

03-01

705

我有一个XML文件，其节点如下所示：41.36811072015-04-11T03:52:33.000Z3.9598我正在使用lxml.etree.iterparse()以迭代方式解析树。我循环遍历每个trkpt元素的子元素，并希望打印子节点的文本值。E、 g^{pr2}$问题是在这个阶段节点没有文本，所以打印的输出是“None”。在我已经通过替换“打印”来验证这一点子级.text“语句与”打印e...

用 Pandas 读写网页中的 HTML 表格数据

Python中文社区

12-26

4789

介绍超文本标记语言（HTML）是用于构建网页的标准标记语言。我们可以使用HTML的<table>标签来呈现表格数据。Pandas 数据分析库提供了read_html（）和to...

python lxml中etree.html和etree.parse有什么区别

cbiexi的博客

02-24

8316

etree.parse直接接受一个文档，按照文档结构解析（本地文件） import xml.etree.ElementTree as ET tree = ET.parse('country_data.xml') root = tree.getroot() etree.html可以解析html文件：（服务器上返回的html数据） page = etree.HTML(html.lower()...

使用由 Python 编写的 lxml 实现高性能 XML 解析

hunyxv的博客

10-04

4537

转载自：文章lxml 简介 Python 从来不出现 XML 库短缺的情况。从 2.0 版本开始，它就附带了 xml.dom.minidom 和相关的 pulldom 以及 Simple API for XML (SAX) 模块。从 2.4 开始，它附带了流行的 ElementTree API。此外，很多第三方库可以提供更高级别的或更具有 python 风格的接口。尽管任

【python爬虫】parse加载本地HTML文件：lxml.etree.XMLSyntaxError报错的分析和解决方案

weixin_63133658的博客

02-14

1579

lxml.etree.XMLSyntaxError报错的分析和解决方案

Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息

05-23

好的，下面是一个简单的 Python 爬虫程序，使用 lxml 解析器爬取汽车之家二手车信息： ```python import requests from lxml import etree url = "https://www.che168.com/china/used/" response = requests.get(url) html = etree.HTML(response.text) car_list = html.xpath("//ul[@class='viewlist_ul']/li") for car in car_list: title = car.xpath(".//a[@class='carinfo_title']/text()")[0] price = car.xpath(".//p[@class='carinfo_price']/text()")[0] km = car.xpath(".//p[@class='carinfo_km']/text()")[0] year = car.xpath(".//p[@class='carinfo_year']/text()")[0] print(title, price, km, year) ``` 这段代码会先发送一个 GET 请求获取汽车之家二手车页面的 HTML 内容，然后使用 lxml 解析器解析 HTML，并通过 XPath 表达式获取到每辆二手车的标题、价格、公里数和年份信息。最后，将这些信息打印出来。需要注意的是，如果要获取更多的二手车信息，可以通过修改 URL 中的参数来实现。例如，将 URL 修改为 `https://www.che168.com/china/used/o1s2i7`，可以获取到所有价格在 2 万元以下、公里数在 7 万公里以下的二手车信息。