数据采集案例(二):基于Xpath采集某瓣Top100电影

目标

  1. 数据采集
  2. 数据预处理
  3. 数据存储

一、数据采集

1、导入相关库

# 导入相关库
import requests
from lxml import etree
import pandas as pd

# 忽略警告
import warnings
warnings.filterwarnings("ignore")

2、获取一页内容

# 是静态网页
# 先爬取一页
—————————————发送请求——————————————
# 发送请求
url = 'https://movie.douban.com/top250?start=0&filter='
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
rq = requests.get(url, headers=headers)

# html文件
rq.text

—————————————网页解析——————————————
# 网页解析
dom = etree.HTML(rq.text)

—————————————数据提取——————————————
# 数据提取
movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演,主演
movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份,出品地,类型
movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分

—————————————数据整理——————————————
# 数据整理
data = pd.DataFrame({
    '电影名称': movie_names,
    '导演,主演': director_actor,
    '年份,出品地,类型': movie_desc,
    '评分': movie_score
})

一页内容展示如下。douban movie页面中,一页有25部,故top100需爬5页。
一页内容,共25条

3、获取多页内容

urls = [] # 存放网页链接
for i in range(4):
    url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
    urls.append(url)

movie_data = pd.DataFrame()
for i in urls:
    # 请求网络
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}
    rq = requests.get(url, headers=headers)
    # 网页解析
    dom = etree.HTML(rq.text)
    # 数据提取
    movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
    director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演,主演
    movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份,出品地,类型
    movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分
    # 数据整理
    data = pd.DataFrame({
        '电影名称': movie_names,
        '导演,主演': director_actor,
        '年份,出品地,类型': movie_desc,
        '评分': movie_score
    })
    movie_data = pd.concat([movie_data,data])

二、数据预处理

1. 重设索引

此时的索引是按照0~24为一组,循环5次的结果。故需重设索引为0至99,共100条数据。
在这里插入图片描述

movie_data.reset_index(drop=True,inplace=True) # 重置index,便于后续的索引

2. 字符处理

(1)实现删除换行符以及空格
(2)实现字符分割

movie_data['导演,主演'] = movie_data['导演,主演'].str.replace('\n| ','').str.split('\xa0\xa0\xa0')

movie_data['年份,出品地,类型'] = movie_data['年份,出品地,类型'].str.replace('\n| ','').str.split('\xa0/\xa0')
# 取出相应位置的结果并赋值
movie_data['导演'] = movie_data['导演,主演'].str[0] # 导演
movie_data['主演'] = movie_data['导演,主演'].str[1] # 主演
movie_data['年份'] = movie_data['年份,出品地,类型'].str[0] # 年份
movie_data['出品地'] = movie_data['年份,出品地,类型'].str[1] # 出品地
movie_data['类型'] = movie_data['年份,出品地,类型'].str[2] # 类型

在这里插入图片描述
在这里插入图片描述

3. 数据筛选

# 数据筛选
movie_c_data = movie_data[['电影名称','评分','导演','主演','年份','出品地','类型']]
movie_c_data

在这里插入图片描述

三、数据存储

movie_c_data.to_excel('./data/豆瓣电影Top100.xlsx',index=False)
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值