xpath: Python网页爬虫定位辅助利器

本文介绍了Python网页爬虫中XPath的使用,包括安装lxml库、通过XPath获取网页元素及属性、基本的XPath语法,并给出了通过Chrome获取元素XPath的方法。示例展示了如何利用XPath提取网页列表内容和链接。
摘要由CSDN通过智能技术生成

网页爬虫可以使用Python的正则模块(re), 当然我今天要隆重推荐的是xpath.
xpath需要安装xpath的基础包:lxml
首先看一个例子:(爬取果壳最新推荐文章列表)
这里写图片描述

import requests
from lxml import etree

url = 'http://www.guokr.com/'
page = requests.get(url).content

s = etree.HTML(page)
h = s.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/ul/li/h2/a/text()')

for i in h:
    print i

输出结果是:

早餐!早餐!
蚂蚁为什么会绕着手机转圈走?
蚂蚁、蜜蜂都是近亲繁殖吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值