网页爬虫可以使用Python的正则模块(re), 当然我今天要隆重推荐的是xpath.
xpath需要安装xpath的基础包:lxml
首先看一个例子:(爬取果壳的最新推荐文章列表)
import requests
from lxml import etree
url = 'http://www.guokr.com/'
page = requests.get(url).content
s = etree.HTML(page)
h = s.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/div[2]/ul/li/h2/a/text()')
for i in h:
print i
输出结果是:
早餐!早餐!
蚂蚁为什么会绕着手机转圈走?
蚂蚁、蜜蜂都是近亲繁殖吗?