day02:数据加载及探索数据分析
文件信息处理的几种简单的命令:
series:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
dataframe:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
查看DataFrame数据的每列的项
df.columns
查看特定一列的所有项:
df['Cabin'].head(3)
df.Cabin.head(3)
删除项:
del test_1['a']
列元素隐藏并且查看前三行:
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
筛选:
df[df["Age"]<10].head(3)
midage = df[(df["Age"]>10)& (df["Age"]<50)]
将数据中特定行的特定项数据显示出来:
midage = midage.reset_index(drop=True)
midage.loc[[100],['Pclass','Sex']]
将几列数据的几个特定项数据展示出来:
midage.loc[[100,105,108],['Pclass','Name','Sex']]
或者
midage.iloc[[100,105,108],[2,3,4]]
关于教程中的问题的思考:
1. 两个数据类型DateFrame和Series
dataframe相当于表格(有表头), series相当于数组;
详细参考:https://blog.csdn.net/u012474716/article/details/78550391
* Series.order()进行排序,而DataFrame则用sort或者sort_index
2. 删除多余的列的方式
* del df操作
* df= df.drop('column_name', 1)
* df.drop('column_name',axis=1, inplace=True)
*df.drop(df.columns[[0,1, 3]], axis=1,inplace=True)
3. 对比任务五和任务六,是不是使用了不一样的方法(函数),如果使用一样的函数如何完成上面的不同的要求呢?
(隐藏和删除不一样)如果想要完全的删除你的数据结构,使用inplace=True,因为使用inplace就将原数据覆盖了,所以这里没有用
4. pandas的条件筛选方式以及如何使用交集和并集操作
* 多条件筛选的时候,必须加括号'()'
* 找出df中A列值为100且B列值为100的所有数据 :df[(df.A==100)&(df.B==100)]
* 找出df中A列值为100或B列值为100的所有数据 :df[(df.A==100)|(df.B==100)]
5. reset_index()函数的作用是什么?如果不用这个函数,下面的任务会出现什么情况?
使用索引重置生成一个新的DataFrame或Series,可以把索引用作列。重置索引后,drop参数默认为False,想要删除原先的索引列要置为True.想要在原数据上修改要inplace=True.特别是不赋值的情况必须要加,否则drop无效.
详细参考:https://blog.csdn.net/lady_chen/article/details/114294899
https://blog.csdn.net/weixin_30821731/article/details/97422652
本次的学习基于datawhale学习打卡小组:
链接:https://github.com/datawhalechina/hands-on-data-analysis