数据采集案例（二）：基于Xpath采集某瓣Top100电影

最新推荐文章于 2024-04-12 02:17:38 发布

麦麦的辣翅

最新推荐文章于 2024-04-12 02:17:38 发布

阅读量415

点赞数 1

分类专栏：数据采集文章标签： python pandas 爬虫

本文链接：https://blog.csdn.net/weixin_46578004/article/details/127807295

版权

数据采集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基于Xpath的数据采集

目标
一、数据采集
二、数据预处理
三、数据存储

目标

数据采集
数据预处理
数据存储

一、数据采集

1、导入相关库

# 导入相关库
import requests
from lxml import etree
import pandas as pd

# 忽略警告
import warnings
warnings.filterwarnings("ignore")

2、获取一页内容

# 是静态网页
# 先爬取一页
—————————————发送请求——————————————
# 发送请求
url = 'https://movie.douban.com/top250?start=0&filter='
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
rq = requests.get(url, headers=headers)

# html文件
rq.text

—————————————网页解析——————————————
# 网页解析
dom = etree.HTML(rq.text)

—————————————数据提取——————————————
# 数据提取
movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演，主演
movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份，出品地，类型
movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分

—————————————数据整理——————————————
# 数据整理
data = pd.DataFrame({
    '电影名称': movie_names,
    '导演，主演': director_actor,
    '年份，出品地，类型': movie_desc,
    '评分': movie_score
})

一页内容展示如下。douban movie页面中，一页有25部，故top100需爬5页。
一页内容，共25条

3、获取多页内容

urls = [] # 存放网页链接
for i in range(4):
    url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
    urls.append(url)

movie_data = pd.DataFrame()
for i in urls:
    # 请求网络
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}
    rq = requests.get(url, headers=headers)
    # 网页解析
    dom = etree.HTML(rq.text)
    # 数据提取
    movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
    director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演，主演
    movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份，出品地，类型
    movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分
    # 数据整理
    data = pd.DataFrame({
        '电影名称': movie_names,
        '导演，主演': director_actor,
        '年份，出品地，类型': movie_desc,
        '评分': movie_score
    })
    movie_data = pd.concat([movie_data,data])

二、数据预处理

1. 重设索引

此时的索引是按照0~24为一组，循环5次的结果。故需重设索引为0至99，共100条数据。
在这里插入图片描述

movie_data.reset_index(drop=True,inplace=True) # 重置index，便于后续的索引

2. 字符处理

（1）实现删除换行符以及空格
（2）实现字符分割

movie_data['导演，主演'] = movie_data['导演，主演'].str.replace('\n| ','').str.split('\xa0\xa0\xa0')

movie_data['年份，出品地，类型'] = movie_data['年份，出品地，类型'].str.replace('\n| ','').str.split('\xa0/\xa0')
# 取出相应位置的结果并赋值
movie_data['导演'] = movie_data['导演，主演'].str[0] # 导演
movie_data['主演'] = movie_data['导演，主演'].str[1] # 主演
movie_data['年份'] = movie_data['年份，出品地，类型'].str[0] # 年份
movie_data['出品地'] = movie_data['年份，出品地，类型'].str[1] # 出品地
movie_data['类型'] = movie_data['年份，出品地，类型'].str[2] # 类型

在这里插入图片描述

3. 数据筛选

# 数据筛选
movie_c_data = movie_data[['电影名称','评分','导演','主演','年份','出品地','类型']]
movie_c_data