数据分析
文章平均质量分 61
Savannah913
这个作者很懒,什么都没留下…
展开
-
数据分析常见操作
①df(series)["name"].str.split(",")以列表的形式截取各种电影类型,常见的各种字符串操作eg:.strip(),.upper(),.replace()等等,都可以采取这种操作,对df的某一列属性进行规范。②对df["name"](df的某一列属性)用.tolist()方法就可以将其转换为列表类型数据③去重的操作可以采用set([]),该操作返回的是集合类型数据,一般来说可以在其基础上采用list()操作,将其返回值转换成list类型,即list(set(["","",""]))原创 2022-06-04 19:41:28 · 163 阅读 · 0 评论 -
人口分析案例
需求:导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state补上正确的值,从而除掉state这一列的所有NaN 合并各州面积数据areas 我们会发现area(sq.mi)这一列有缺失数据,找出是哪些行 去除含有缺失数据的行 找出2010年的全民人口数据 计算各州的人口密度 排序,原创 2022-05-30 22:23:37 · 123 阅读 · 0 评论 -
Pandas时间序列
案例一统计出出这些数据中不同类型的紧急情况的次数现在我们有2015到2017年25万条911的紧急电话的数据,请统计出出这些数据中不同类型的紧急情况的次数, 数据来源:https://www.kaggle.com/mchirico/montcoalert/data用np.zeros()来实现import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt#获取数据 df = pd.read_csv(原创 2022-05-29 23:45:22 · 313 阅读 · 0 评论 -
数据分组聚合练习和总结
DataFrame按照复合索引取值import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt df1 = pd.DataFrame(np.array([[0,1,2,3],["d","e","q","q"],["r","r","q","p"]]),index=list("abc"),columns=list("lxyz"))print(df1)print("*"*100)df1 = df1.s...原创 2022-05-29 13:35:48 · 239 阅读 · 0 评论 -
数据的合并和分组聚合
字符串离散化案例对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1import pandas as pdimport numpy as npfile_path = "./IMDB-Movie-Data.csv"df = pd.read_csv(file_path,delimiter=",")#将电影分类这一列取出来df1 = df["Genre"]print(d原创 2022-05-29 00:18:10 · 299 阅读 · 0 评论 -
数据分析pandas
了解Seriespandas常用数据类型:Series一维,带标签数组。DataFrame二维,Series容器创建一个Series通过切片和索引取值Series原创 2022-05-27 19:57:29 · 76 阅读 · 0 评论 -
#numpy与matplotlib的应用
#numpy与matplotlib的应用import numpy as npfrom matplotlib import pyplot as pltus_file_path = './US_video_data_numbers.csv'uk_file_path = './GB_video_data_numbers.csv'#加载国家数据uk_data = np.loadtxt(uk_file_path,dtype='int',delimiter=",")us_data = np.load.原创 2022-05-27 14:25:15 · 73 阅读 · 0 评论 -
数据分析numpy
目录什么是numpy数组的创建数组的形状数组的计算数组的转置编辑numpy读取本地数据索引和切片操作数值的修改什么是numpy一个在Python中做科学计算的基础库,重在数值计算,也是大部分Python科学计算库的基础库,多用于在大型多维数组上执行数值运算。数组的创建import numpy as npimport randomt1 = np.array([1,2,3,4])print(t1,type(t1))#t2和t3是...原创 2022-05-26 20:40:24 · 202 阅读 · 0 评论 -
数据分析matplotlib
绘制某种图表时,首先根据数据绘制出大体的轮廓,然后再根据需要进行细节的调整。折线图基础代码from matplotlib import pyplot as pltx = range(2,11,2)y = [2,3,4,5,6]z = [3,4,5,6,7]fig = plt.figure(figsize=(10,4),dpi=80) #figsize表示图片大小,dpi表示图片清晰程度#图像线条的属性设置,颜色可以用颜色代码16进制plt.plot(x,y,label="defeat原创 2022-05-26 14:27:33 · 90 阅读 · 0 评论