使用lxml+xpath解析51job

1 lxml

llxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。今天我们来尝试lxml使用xpath语法来解析页面。

1.1 使用lxml解析HTML代码:
  1. 解析HTMl字符串:使用’lxml.etree.HTML’进行解析
  2. 解析HTMl文件,使用’lxml.etree.parse’进行解析,默认是’XML’解析器
    如果是不规范的HTML文件,需要创建一个HTML解析器:
    parser = etree.HTMLParser(encoding=‘utf-8’)
    htmlElement = etree.parse(file, parser=parser)
  3. 输出时如果出现乱码大部分应进行如下解码:
    print(etree.tostring(htmlElement, encoding=‘utf-8’).decode(‘utf-8’)
1.2 lxml基本练习
from lxml import etree

text = '''
<h2>HTML 媒体</h2>
<ul>
<li><a href="/html/html_media.asp" title="HTML 多媒体">HTML 媒体</a></li>
<li><a href="/html/html_object.asp" title="HTML Object 元素">HTML 对象</a></li>
<li><a href="/html/html_audio.asp" title="HTML 音频">HTML 音频</a></li>
<li><a href="/html/html_video.asp" title="HTML 视频">HTML 视频</a></li>
</ul>
<h2>HTML API</h2>
<ul>
<li><a href="/html/html5_geolocation.asp" title="HTML5 地理定位">HTML5 地理定位</a></li>
<li><a href="/html/html5_draganddrop.asp" title="HTML5 拖放">HTML5 拖放</a></li>
<li><a href="/html/html5_webstorage.asp" title="HTML5 Web 存储">HTML5 Web 存储</a></li>
<li><a href="/html/html5_app_cache.asp" title="HTML 5 应用程序缓存">HTML5 应用缓存</a></li>
<li><a href="/html/html5_webworkers.asp" title="HTML5 Web Workers">HTML5 Web Workers</a></li>
<li><a href="/html/html5_serversentevents.asp" title="HTML5 服务器发送事件">HTML5 SSE</a></li>
</ul>
<h2>实例/测验/总结</h2>
<ul>
<li><a href="/example/html_examples.asp" title="HTML 实例">HTML 实例</a></li>
<li><a href="/html/html_quiz.asp" title="HTML 测验">HTML 测验</a></li>
<li><a href="/html/html_summary.asp" title="HTML 总结">HTML 总结</a></li>
</ul>
<h2>HTML 参考手册</h2>
'''
# 1. 基本使用:解析HTML字符串
def parse_text(text):
    htmlElement = etree.HTML(text)
    # print(htmlElement)  # 是一个对象
    # print(etree.tostring(htmlElement))  # 返回的是bytes,需要解码成utf8。
    print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))  # 先按utf-8编码再解码,就能输出中文

# 2. 从文件中解析
def parse_file(file):
    # 碰到不规范html文件,需要特定解析器
    parser = etree.HTMLParser(encoding='utf-8')
    htmlElement = etree.parse(file, parser=parser)  # parse(source, parser=None, base_url=None)
    print(etree.tostring(htmlElement, encoding='utf-8'
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值