使用lxml+xpath解析51job

本文介绍了使用Python的lxml库配合xpath解析HTML,特别是针对51job页面的实战。讲解了lxml的基本用法,包括HTML解析器的设置,以及在浏览器中使用xpath的辅助工具。文章详细展示了从下载51job页面到设定解析思路,再到具体实现的步骤,并提醒在处理中文编码时可能遇到的问题和解决方案。
摘要由CSDN通过智能技术生成

1 lxml

llxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。今天我们来尝试lxml使用xpath语法来解析页面。

1.1 使用lxml解析HTML代码:
  1. 解析HTMl字符串:使用’lxml.etree.HTML’进行解析
  2. 解析HTMl文件,使用’lxml.etree.parse’进行解析,默认是’XML’解析器
    如果是不规范的HTML文件,需要创建一个HTML解析器:
    parser = etree.HTMLParser(encoding=‘utf-8’)
    htmlElement = etree.parse(file, parser=parser)
  3. 输出时如果出现乱码大部分应进行如下解码:
    print(etree.tostring(htmlElement, encoding=‘utf-8’).decode(‘utf-8’)
1.2 lxml基本练习
from lxml import etree

text = '''
<h2>HTML 媒体</h2>
<ul>
<li><a href="/html/html_media.asp" title="HTML 多媒体">HTML 媒体</a></li>
<li><a href="/html/html_object.asp" title="HTML Object 元素">HTML 对象</a></li>
<li><a href="/html/html_audio.asp" title="HTML 音频">HTML 音频</a></li>
<li><a href="/html/html_video.asp" title="HTML 视频">HTML 视频</a></li>
</ul>
<h2>HTML API</h2>
<ul>
<li><a href="/html/html5_geolocation.asp" title="HTML5 地理定位">HTML5 地理定位</a></li>
<li><a href="/html/html5_draganddrop.asp" title="HTML5 拖放">HTML5 拖放</a></li>
<li><a href="/html/html5_webstorage.asp" title="HTML5 Web 存储">HTML5 Web 存储</a></li>
<li><a href="/html/html5_app_cache.asp" title="HTML 5 应用程序缓存">HTML5 应用缓存</a></li>
<li><a href="/html/html5_webworkers.asp" title="HTML5 Web Workers">HTML5 Web Workers</a></li>
<li><a href="/html/html5_serversentevents.asp" title="HTML5 服务器发送事件">HTML5 SSE</a></li>
</ul>
<h2>实例/测验/总结</h2>
<ul>
<li><a href="/example/html_examples.asp" title="HTML 实例">HTML 实例</a></li>
<li><a href="/html/html_quiz.asp" title="HTML 测验">HTML 测验</a></li>
<li><a href="/html/html_summary.asp" title="HTML 总结">HTML 总结</a></li>
</ul>
<h2>HTML 参考手册</h2>
'''
# 1. 基本使用:解析HTML字符串
def parse_text(text):
    htmlElement = etree.HTML(text)
    # print(htmlElement)  # 是一个对象
    # print(etree.tostring(htmlElement))  # 返回的是bytes,需要解码成utf8。
    print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))  # 先按utf-8编码再解码,就能输出中文

# 2. 从文件中解析
def parse_file(file):
    # 碰到不规范html文件,需要特定解析器
    parser = etree.HTMLParser(encoding='utf-8')
    htmlElement = etree.parse(file, parser=parser)  # parse(source, parser=None, base_url=None)
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

2 xpath

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。
关于xpath,网上会有很多的教程和指导,这里贴出来W3school的说明,比较喜欢他的页面风格
https://www.w3school.com.cn/xpath/xpath_syntax.ASP

xpath还有几个的知识点:

知识点例子说明
谓语的下标是从1开始的//tr/td[1]匹配tr下的第1个td
text() 可以匹配文字内容//td/text()匹配所有td标签的文本内容
contains()匹配某个属性中包含的多个值//a[contains(@class,‘lg’)]匹配所有带有的class属性中含有’lg’的a标签
position() 可以设定位置参数//tr[position()>1 and position()<11]匹配位置大于1小于11的tr标签

3 在浏览器中的xpath实验性使用

chrome可以下载Xpath Helper插件,
firefox可以下载Try Xpath插件,
基本所有浏览器都可以在开发者工具中使用查找功能,该方法也支持Xpath
这样,我们就可以现在浏览器中尝试选用合适的Xpath语法,以此来保证在代码中不出现语法错误。在Chrome中使用Xpath实验性验证

4 lxml使用xpath筛选信息(实战)

以51job为例来进行实战。强烈推荐!招聘网站就51和58友好一点,其他现在差不多都是使用的js动态生成,而58同城的html排版有点乱,所以,51是小白最好练手的了。

4.1 下载51job页面

为什么要下载页面呢?
纯属我想练习一下urllib,以及使用lxml的解析文件方法,还有就是,我直接把页面下载了好试错,不用每次请求服务器,练练手就行了。

from urllib import request

request.urlretrieve('https://search.51job.com/list/190000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=', '51job.html')
4.2 设定大概思路
  1. 创建对象,解析页面
  2. 通过对象,调用xpath方法
  3. 尝试使用各种xpath操作
  4. 获取所有的职位信息
4.3 具体实施
  1. 创建对象
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse('51job.html', parser=parser)
print(html)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))

''' 报错!
<lxml.etree._ElementTree object at 0x0000026A2B182088>
Traceback (most recent call last):
  File "C:/Users/YJ/Desktop/mocc/urlib_requests/ul_17_.py", line 8, in <module>
    print(etree.tostring(html,encoding='utf-8').decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcd in position 259: invalid continuation byte
'''

发现错误。原因是’utf-8’无法完成转码工作。更改一下decode参数,看看是什么情况

print(etree.tostring(html,encoding='utf-8').decode('utf-8','ignore'))

''' 发现有乱码
 alt="΢ÐÅ·þÎñºÅ"/>
                <span>΢ÐÅ·þÎñºÅ</span>
'''

???什么情况,居然有乱码?好吧,原因是,使用etree.parse(‘51job.html’, parser=parser)这种直接传入文件的方法,可能会因为初始文件的编码并不是unicode编码而出现问题。如何解决呢?
几经试验:51job很可能采用的是‘gbk’字符集,
所以最开始我们可以指定成‘gbk’,或者不指定也行
parser = etree.HTMLParser(encoding=‘gbk’)
或者
parser = etree.HTMLParser()

  1. 各种试验
    好了,既然页面已经解析完毕了,就没有其他问题了,剩下的就是开始各种xpath语法试验
    首先,我们要关注的问题就是,使用.xpath并没有Tab提示,所以别输错。。。
    其次,.xpath返回的是一个list,所以,如果要打印结果,需指定哪一个或者遍历打印
    最后,遇到问题,就返回到浏览器中做实验,尝试xpath语法,增加记忆,这好过你在IDE中瞎较劲

尝试获取所有标签 //nodename

# 1. 获取所有div标签  //div
divs = html.xpath('//div')
for div in divs:
	print(etree.tostring(div,encoding='utf-8').decode('utf-8'))

尝试获取某个标签 //nodename[index]

# 2. 获取第2个div标签
div2 = html.xpath('//div[2]')  # 返回的是列表 <class 'list'>  24个
print(div2)
print(type(div2))
print(len(div2))
# print(etree.tostring(div2,encoding='utf-8').decode('utf-8')) 要指定列表中哪一个或者for循环遍历

尝试获取带有某个属性的标签 //nodename[@class=‘t2’]

# 3. 获取所有class="t2"的span标签
span1 = html.xpath('//span[@class="t2"]')  # <class 'list'>  51个
print(span1)
print(type(span1))
print(len(span1))

尝试直接获取链接 //a/@href

# 4. 获取所有带有职位属性的a标签的href属性
# ah = html.xpath('//a[@href]')  # 不对的语法,返回的会是所有标签,而不是我们只想要的链接
ah = html.xpath('//div/p/span/a[@target="_blank"]/@href')  # perfect!正好
for a in ah:
	print(a)
print(len(ah))  # perfect!正好50个职位信息!!!

尝试直接获取文本 //a/text()

# 5. 获取所有的职位信息(纯文本)
# 分析,职位信息都保存在 //div[@class="dw_table"]/div[@class="e1"]中,名称和详情页在./p/span/a中,
# 公司信息在./span[@class="t2"]/a 中,月薪等在 ./span[@class="t3-t5"] 3个标签中
# 所以,我们需要先获取到能存放每一个职位信息的最小标签,然后再遍历
ah = html.xpath('//div[@class="dw_table"]/div[@class="el"]')
positions = []
for a in ah:
    href = a.xpath('./p//a/@href')  # 职位链接
    title = a.xpath('./p//a/text()')[0].strip()  # 职位信息

需要注意的是职位信息会返回老大一块充满着空格的列表,所以我们需要优化一下信息

5 完整代码

from lxml import etree

# parser = etree.HTMLParser(encoding='utf-8')
# 在这使用指定编码集会出错,分析原因,文件可能并不是由utf8编码的
parser = etree.HTMLParser()
html = etree.parse('51job.html', parser=parser)

# 1. 获取所有div标签  //div
# divs = html.xpath('//div')
# for div in divs:
#     print(etree.tostring(div,encoding='utf-8').decode('utf-8'))

# 2. 获取第2个div标签
# div2 = html.xpath('//div[2]')  # 返回的是列表 <class 'list'>  24个
# print(div2)
# print(type(div2))
# print(len(div2))
# print(etree.tostring(div2,encoding='utf-8').decode('utf-8')) 要指定列表中哪一个或者for循环遍历

# 3. 获取所有class="t2"的span标签
# span1 = html.xpath('//span[@class="t2"]')  # <class 'list'>  51个
# print(span1)
# print(type(span1))
# print(len(span1))

# 4. 获取所有带有职位属性的a标签的href属性
# ah = html.xpath('//a[@href]')  # 不对的语法,返回的会是所有标签,而不是我们只想要的链接
# ah = html.xpath('//div/p/span/a[@target="_blank"]/@href')  # perfect!正好
# for a in ah:
#     print(a)
# print(len(ah))  # perfect!正好50个职位信息!!!

# 5. 获取所有的职位信息(纯文本)
# 分析,职位信息都保存在 //div[@class="dw_table"]/div[@class="e1"]中,名称和详情页在./p/span/a中,
# 公司信息在./span[@class="t2"]/a 中,月薪等在 ./span[@class="t3-t5"] 3个标签中
# 所以,我们需要先获取到能存放每一个职位信息的最小标签,然后再遍历
ah = html.xpath('//div[@class="dw_table"]/div[@class="el"]')
positions = []
for a in ah:
    href = a.xpath('./p//a/@href')  # 职位链接
    title = a.xpath('./p//a/text()')[0].strip()  # 职位信息
    com = a.xpath('./span[1]//text()')  # 公司
    chref = a.xpath('./span[1]//@href')  # 公司链接
    addr = a.xpath('./span[2]/text()')  # 地址
    sal = a.xpath('./span[3]/text()')  # 工资
    date = a.xpath('./span[4]/text()')  # 发布时间

    position = {
        'title': title,
        'url': href[0] if href else None,
        'company': com[0] if com else None,
        'company_url': chref[0] if chref else None,
        'address': addr[0] if addr else None,
        'salary': sal[0] if sal else None,
        'pubdate': date[0] if date else None
    }
    positions.append(position)
print(positions)

刚刚试手,可能言辞不够准确,欢迎各位大佬斧正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值