目标
- 数据采集
- 数据预处理
- 数据存储
一、数据采集
1、导入相关库
# 导入相关库
import requests
from lxml import etree
import pandas as pd
# 忽略警告
import warnings
warnings.filterwarnings("ignore")
2、获取一页内容
# 是静态网页
# 先爬取一页
—————————————发送请求——————————————
# 发送请求
url = 'https://movie.douban.com/top250?start=0&filter='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
rq = requests.get(url, headers=headers)
# html文件
rq.text
—————————————网页解析——————————————
# 网页解析
dom = etree.HTML(rq.text)
—————————————数据提取——————————————
# 数据提取
movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演,主演
movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份,出品地,类型
movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分
—————————————数据整理——————————————
# 数据整理
data = pd.DataFrame({
'电影名称': movie_names,
'导演,主演': director_actor,
'年份,出品地,类型': movie_desc,
'评分': movie_score
})
一页内容展示如下。douban movie页面中,一页有25部,故top100需爬5页。
3、获取多页内容
urls = [] # 存放网页链接
for i in range(4):
url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
urls.append(url)
movie_data = pd.DataFrame()
for i in urls:
# 请求网络
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}
rq = requests.get(url, headers=headers)
# 网页解析
dom = etree.HTML(rq.text)
# 数据提取
movie_names = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()') # 电影名称
director_actor = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[1]') # 导演,主演
movie_desc = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()[2]') # 年份,出品地,类型
movie_score = dom.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()') # 评分
# 数据整理
data = pd.DataFrame({
'电影名称': movie_names,
'导演,主演': director_actor,
'年份,出品地,类型': movie_desc,
'评分': movie_score
})
movie_data = pd.concat([movie_data,data])
二、数据预处理
1. 重设索引
此时的索引是按照0~24为一组,循环5次的结果。故需重设索引为0至99,共100条数据。
movie_data.reset_index(drop=True,inplace=True) # 重置index,便于后续的索引
2. 字符处理
(1)实现删除换行符以及空格
(2)实现字符分割
movie_data['导演,主演'] = movie_data['导演,主演'].str.replace('\n| ','').str.split('\xa0\xa0\xa0')
movie_data['年份,出品地,类型'] = movie_data['年份,出品地,类型'].str.replace('\n| ','').str.split('\xa0/\xa0')
# 取出相应位置的结果并赋值
movie_data['导演'] = movie_data['导演,主演'].str[0] # 导演
movie_data['主演'] = movie_data['导演,主演'].str[1] # 主演
movie_data['年份'] = movie_data['年份,出品地,类型'].str[0] # 年份
movie_data['出品地'] = movie_data['年份,出品地,类型'].str[1] # 出品地
movie_data['类型'] = movie_data['年份,出品地,类型'].str[2] # 类型
3. 数据筛选
# 数据筛选
movie_c_data = movie_data[['电影名称','评分','导演','主演','年份','出品地','类型']]
movie_c_data
三、数据存储
movie_c_data.to_excel('./data/豆瓣电影Top100.xlsx',index=False)