一、方法:
学习爬虫采用的是Requests+Xpath的方法,使用的requests+lxml库
二、步骤:
爬取网页基本结构为:
导入、下载网页、解析网页、获取元素Xpath信息并获得文本、打印获取的信息
三、实例:
实例一:爬取豆瓣图片top250为例
本实例要爬取豆瓣图书top250的书名、链接、评分、评分人数、简介
1.导入
import requests
from lxml import etree
import time
导入requests和lxml库以及time
2.下载网页
for a in range(10):
url = 'http://book.douban.com/top250?start={}'.format(a * 25)
data = requests.get(url).text
豆瓣top250每页25本图片,总共十页,观察每一页的url可以发现url的末尾start=‘’里的数字呈25递增,于是写循环以获取多个页面的信息。
3.解析网页
s = etree.HTML(data)
4.获取Xpath信息并获得文本
file = s.xpath('/html/body/div[3]/div[1]/div/div[1]/div/table')
for div in file:
title = div.xpath('./tr/td[2]/div[1]/a/@title')[0]
href = div.xpath('./tr/td[1]/a/@href')[0]
score = div