网络爬虫之lxml

Python lxml包用于解析htmlXML文件,个人觉得比beautifulsoup要更灵活些

Lxml中的路径表达式如下:


在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:




路径表示中还可以选取多个路径,使用’|’运算符,比如下面的样子:
//book/title | //book/price 选取 book 元素的所有 title  price 元素。
下面就来看下lxml的用法:还是用我们之前用过的网站,代码如下:
from lxml import etree
def parse_url_xml():

    try:

        req=urllib2.Request('http://www.xunsee.com/article/8c39f5a0-ca54-44d7-86cc-148eee4d6615/index.shtml')

        fd=urllib2.urlopen(req)

        html=etree.HTML(fd.read())

        result=html.xpath('//*[@id="content_1"]/span[7]/a')

        print type(result)

        for r in result:

            print r.text



    except BaseException,e:

        print e 
首先使用etree,然后利用etree.HTML()初始化。然后用xpath进行查找。其中xpath中的//*[@id="content_1"]/span[7]/a就是网页元素的xpath地址



从表达式中可以看到首先找到id属性为content_1的任意标签。//*表示不管位置,只管后面的属性满足即可。然后往下查找第7span标签,找到下面a的标签。然后的result是一个列表。代表找到的所有的元素。通过遍历列表打印出内容。运行结果如下:
E:\python2.7.11\python.exe E:/py_prj/test.py
<type 'list'>
7
从上面可以看出,其实xpath还是很好写,相对beautifulsoup对元素的定位更加准确。其实如果嫌麻烦,不想写xpath,还有一个更简单的方法。在浏览器中按F12,在网页源代码中找到想定位的元素,然后鼠标右键,点击Copy Xpath就可以得到xpath路径



下面再多举几个例子:比如获取到最后一个span元素,可以用到下面的例子
result=html.xpath('//*[@id="content_1"]/span[last()]/a')
结果如下:
E:\python2.7.11\python.exe E:/py_prj/test.py
657
我们还可以精简刚才用到的//*[@id="content_1"]/span[7]/a
精简为://*[@href="7.shtml"]表示直接查找属性为7.shtml的元素
如果想返回多个元素,则可以用下面的方式,表示反悔第7节和第8
result=html.xpath('//*[@href="7.shtml"] | //*[@href="8.shtml"]')

如果想得到所找节点的属性值:可以用get的方法
result=html.xpath('//*[@href="7.shtml"] | //*[@href="8.shtml"]')

print type(result)

for r in result:

    print r.get('href')
结果就会显示节点href属性的值
E:\python2.7.11\python.exe E:/py_prj/test.py
<type 'list'>
7.shtml
8.shtml



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿与代码

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值