Datawhale Pandas研习社 第二次打卡记录
一、习题解答 (这里给出官方解答)
【练习】 现有一份关于口袋妖怪的数据集,请解决下列问题:
(a)双属性的Pokemon占总体比例的多少?
df['Type 2'].count()/df.shape[0]
(b)在所有种族值(Total)不小于580的Pokemon中,非神兽(Legendary=False)的比例为多少?
df.query('Total >= 580')['Legendary'].value_counts(normalize=True)
(c)在第一属性为格斗系(Fighting)的Pokemon中,物攻排名前三高的是哪些?
df[df['Type 1']=='Fighting'].sort_values(by='Attack',ascending=False).iloc[:3]
(d)请问六项种族指标(HP、物攻、特攻、物防、特防、速度)极差的均值最大的是哪个属性(只考虑第一属性,且均值是对属性而言)?(
df['range'] = df.iloc[:,5:11].max(axis=1)-df.iloc[:,5:11].min(axis=1)
attribute = df[['Type 1','range']].set_index('Type 1')
max_range = 0
result = ''
for i in attribute.index.unique():
temp = attribute.loc[i,:].mean()
if temp.values[0] > max_range:
max_range = temp.values[0]
result = i
result
(e)哪个属性(只考虑第一属性)神兽占总Pokemon的比例最高?该属性神兽的种族值也是最高的吗?
df.query('Legendary == True')['Type 1'].value_counts(normalize=True).index[0]
attribute = df.query('Legendary == True')[['Type 1','Total']].set_index('Type 1')
max_value = 0
result = ''
for i in attribute.index.unique()[:-1]:
temp = attribute.loc[i,:].mean()
if temp[0] > max_value:
max_value = temp[0]
result = i
result
二、学习体会
第二章主要讲的是pandas索引,实话说pandas包的索引功能真的有些复杂,可以包括多层索引等,功能十分强大。但是单就“数据预处理”这个环节来说,和R语言的tidyverse系列有很大不同,R更注重直接对数据进行整理、操纵、清洗,迅速让数据达到“整洁”——可建模的状态,相对来说,个人认为R的代码更灵活、更易读。如果实现同样一个数据清洗的工作,我认为R的代码量会比pandas少。但是反过来说,pandas能做的事情更多、功能更强大。
因为我个人是统计学背景,所以对R语言比较熟悉,学习python主要是为了在机器学习建模方面使用sklearn这个大杀器。从目前的学习经历来说,个人觉得R可以说是”包治百病“,有海量优秀的包,但是每个包功能其实并不多,因为很多R包都是为了解决某一些特定任务而设计的,这也符合R大神Hadlry所提倡的创造精神,比如觉得自己遇到什么想解决的问题就写个包,所以很多包只能解决特定问题,甚至tidyverse也是8个包组合成的一个系列,所以R包的特点就是“小而精”;而python不同,总共数据科学领域常用的包总共就这么几个,numpy、pandas、matplotlib、seaborn、sklearn等等,每个包都是“大而全",这也造成了对python每个包的学习要比R包的学习时间多得多。
说到底,两个都要会啊。就像你不可能因为爱吃米饭就再也不吃面条,或者因为爱吃面条就再也不吃米饭,两个都需要,只是个人更喜好的问题。