Datawhale Pandas研习社第二次打卡记录_pandas口袋妖怪习题-CSDN博客

本文链接：https://blog.csdn.net/weixin_45494886/article/details/105720677

Datawhale Pandas研习社第二次打卡记录

一、习题解答 (这里给出官方解答)

【练习】现有一份关于口袋妖怪的数据集，请解决下列问题：

（a）双属性的Pokemon占总体比例的多少？

df['Type 2'].count()/df.shape[0]

（b）在所有种族值（Total）不小于580的Pokemon中，非神兽（Legendary=False）的比例为多少？

df.query('Total >= 580')['Legendary'].value_counts(normalize=True)

（c）在第一属性为格斗系（Fighting）的Pokemon中，物攻排名前三高的是哪些？

df[df['Type 1']=='Fighting'].sort_values(by='Attack',ascending=False).iloc[:3]

（d）请问六项种族指标（HP、物攻、特攻、物防、特防、速度）极差的均值最大的是哪个属性（只考虑第一属性，且均值是对属性而言）？（

df['range'] = df.iloc[:,5:11].max(axis=1)-df.iloc[:,5:11].min(axis=1)
attribute = df[['Type 1','range']].set_index('Type 1')
max_range = 0
result = ''
for i in attribute.index.unique():
    temp = attribute.loc[i,:].mean()
    if temp.values[0] > max_range:
        max_range = temp.values[0]
        result = i
result

（e）哪个属性（只考虑第一属性）神兽占总Pokemon的比例最高？该属性神兽的种族值也是最高的吗？

df.query('Legendary == True')['Type 1'].value_counts(normalize=True).index[0]
attribute = df.query('Legendary == True')[['Type 1','Total']].set_index('Type 1')
max_value = 0
result = ''
for i in attribute.index.unique()[:-1]:
    temp = attribute.loc[i,:].mean()
    if temp[0] > max_value:
        max_value = temp[0]
        result = i
result

二、学习体会

第二章主要讲的是pandas索引，实话说pandas包的索引功能真的有些复杂，可以包括多层索引等，功能十分强大。但是单就“数据预处理”这个环节来说，和R语言的tidyverse系列有很大不同，R更注重直接对数据进行整理、操纵、清洗，迅速让数据达到“整洁”——可建模的状态，相对来说，个人认为R的代码更灵活、更易读。如果实现同样一个数据清洗的工作，我认为R的代码量会比pandas少。但是反过来说，pandas能做的事情更多、功能更强大。
因为我个人是统计学背景，所以对R语言比较熟悉，学习python主要是为了在机器学习建模方面使用sklearn这个大杀器。从目前的学习经历来说，个人觉得R可以说是”包治百病“，有海量优秀的包，但是每个包功能其实并不多，因为很多R包都是为了解决某一些特定任务而设计的，这也符合R大神Hadlry所提倡的创造精神，比如觉得自己遇到什么想解决的问题就写个包，所以很多包只能解决特定问题，甚至tidyverse也是8个包组合成的一个系列，所以R包的特点就是“小而精”；而python不同，总共数据科学领域常用的包总共就这么几个，numpy、pandas、matplotlib、seaborn、sklearn等等，每个包都是“大而全"，这也造成了对python每个包的学习要比R包的学习时间多得多。
说到底，两个都要会啊。就像你不可能因为爱吃米饭就再也不吃面条，或者因为爱吃面条就再也不吃米饭，两个都需要，只是个人更喜好的问题。