·~~~~~~内容参考如下使用python抓取豆瓣top250电影数据进行分析 - 简书
https://www.jianshu.com/p/720b193a5c2b
#导入库,三大常用数据分析库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
#读取保存本地的excel文件,我的存放地址就是当前文件夹打印出来
a = pd.read_excel(r'豆瓣电影top250.xls')
#设置每行内容太多,不换行,方便
pd.set_option('expand_frame_repr', False)
#输出查看使用a.head()进行,我这边head函数失效,不知道什么原因,下面统一用print打印出来。
print(a)
右边还有好多内容放不下。。。。。
#查看数据基本信息
a.info()
#查看是否有重复电影
a.duplicated().value_counts()
print(a)
#检查是否有重名电影
len(a.电影名.unique())
#筛选电影的国家或地区,有多个国家或地区时,按顺序并列
country = a['国家'].str.split(' ').apply(pd.Series)
print(country)
这是显示的数据类型
#将空值 NaN 替换为“0”,再按行汇总
all_country = country.apply(pd.value_counts).fillna('0')
all_country.columns = ['area1','area2','area3','a