刚刚接触Python,简单地学习了一下基础后,利用xpath爬取一下豆瓣top250电影作为练习。
一.先来到豆瓣top250电影界面
二.F12打开发者工具,提取影片的xpath信息
电影名的xpath为:
//*[@id=“content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
电影评分的xpath为:
//*[@id=“content”]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[2]
电影链接的xpath为:
//*[@id=“content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a
再来看看整部电影框架的xpath:
//*[@id=“content”]/div/div[1]/ol/li[1]
比较前三个和最后一个,发现前一部分都是
*[@id=“content”]/div/div[1]/ol/li[1]
所以爬取的时候就可以这样写了:
三.写代码爬取
from lxml import html
import requests
import xlwt
etree = html.etree
#伪装成浏览器访问
headers = {
"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"}
allList = []
none =