今天是个好天气,风和日丽的、不过早上还是下了点儿雨。早上看着天空灰蒙蒙的,有一种风雨欲来的趋势,就从地铁站快步走到公司。一路上,对比了一下快走和慢走,觉得快走应该是相对而言更适合我的吧。一来我是个慢性子,慢走习惯了,这一条每个工作日都要至少走上一遍的路,生生是于我没有什么吸引力;二来快走与对面而来骑自行车的人速度想来是更快了;三是能早早的到公司,吃上早餐。
还有一件事,以后7点50就出门吧。稍微晚点的话,地铁上人挤人的感觉着实是不太爽,写完了。对于此点,现在想来,真是惭愧,经常出门的时候都8点16了。必须7点50出门,fighting。
接着上篇的pandas基础。
数据框的最重要的能力自然是可筛选,选出我所需要的数据集。
首先是对单列单条件筛选,不过要注意的是数据框的列标识是对大小写敏感的,所以要记得区分大小写。
第二个任务是对单列多条件筛选,这个和多列多条件类似。注意各个条件要用括号括起来,要不然可能结果并不是你想要的筛选数据集。
展示筛选数据集的第6行
midage = test_data[(test_data['Age'] <= 10)|(test_data['Age'] >= 50)]
midage.iloc[5,:]
要想展示某一行的某几个列字段。在知道字段名的情况下,需要用到df.loc[:,:].所以刚才做筛选的时候就需要对筛选后的数据集重新设置行索引,涉及到的方法叫做reset_index(),方便我们定位数据。
接下来就是对比iloc和loc,iloc 用的是索引的数值标识 ,loc用的是索引值。这里我没想到的是reset_index之后,原来的index会变成一列单独存在。
赶在星期四把文章给发布了,优秀,谢谢自己。