pandas学习-task1

练习一、现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:
在所有的数据中,一共出现了多少人物?
564个人物
方法一:直接统计

import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Game_of_Thrones_Script.csv')
result = df['Name'].nunique()
print(df)
print(result)


输出为:
564

方法二:根据表长统计:
import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Game_of_Thrones_Script.csv')
result = df['Name'].value_counts()
print(df)
print(result)

输出为:
tyrion lannister      1760
jon snow              1133
daenerys targaryen    1048
cersei lannister      1005
jaime lannister        945
                      ... 
robett glover            1
tribesmen of vale        1
bolton bannerman         1
watchman                 1
officer                  1
Name: Name, Length: 564, dtype: int64

2.以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?
import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Game_of_Thrones_Script.csv')
result = df['Name'].value_counts()
man = result.index[0]
print(df)
print(result)
print(man)
输出结果:
tyrion lannister      1760
jon snow              1133
daenerys targaryen    1048
cersei lannister      1005
jaime lannister        945
                      ... 
lord bolton              1
officer                  1
eddision                 1
pyattpree                1
rodrik cassal            1
Name: Name, Length: 564, dtype: int64
tyrion lannister

3.以单词计数,谁说了最多的单词?
import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Game_of_Thrones_Script.csv')
print(df)
result1 = df.groupby('Sentence')['Name'].unique().apply(lambda x: x[0]).value_counts()
result1 = result1.index[0]
print(result1)

结果为:tyrion lannister

练习二、现有一份关于科比的投篮数据集,请解决如下问题:
1.哪种action_type和combined_shot_type的组合是最多的?
import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Kobe_data.csv')
print(df)
result1 = pd.Series(df['action_type']).value_counts()
result1 = result1.index[0]
print(result1)

结果为:Jump Shot
2. 在所有被记录的game_id中,遭遇到最多的opponent是一个支?

import pandas as pd

df = pd.read_csv(
    r'D:\Desktop\pandas\Learning\joyful-pandas-master\data\Kobe_data.csv')
print(df)
result1 = df.groupby('game_id')['opponent'].unique().apply(lambda x: x[0]).value_counts()
result1 = result1.index[0]
print(result1)
结果为:SAS

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python机器学习入门的第一个任务是处理数据。数据是机器学习的基础,因此了解如何处理和准备数据是非常重要的。在Python中,有许多库和工具可用于数据处理,例如NumPy和Pandas。NumPy是一个用于科学计算的强大库,可以处理多维数组和矩阵。Pandas是一个用于数据分析和处理的库,它提供了灵活的数据结构和数据操作功能。 在任务1中,您需要学习如何加载数据集,了解数据的结构和特征,处理缺失值和异常值,进行数据清洗和转换等。您可以使用Pandas库来加载和处理数据集,使用其提供的函数和方法来完成这些任务。例如,您可以使用Pandas的read_csv函数来加载CSV文件,使用head函数来查看数据的前几行,使用describe函数来获取数据的统计信息,使用dropna函数来删除缺失值等。 此外,您还可以使用Matplotlib和Seaborn等库来可视化数据,以便更好地理解数据的分布和关系。这些库提供了各种绘图函数和方法,可以创建直方图、散点图、箱线图等。 总之,Python机器学习入门的第一个任务是数据处理,您需要学习如何加载、清洗和转换数据。使用Pandas、NumPy和其他相关库可以帮助您完成这些任务。\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *2* *3* [python机器学习模块_机器学习所需的python基础知识及其库模块](https://blog.csdn.net/weixin_26711425/article/details/108935596)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值