pandas数据分析
文章平均质量分 95
DataWhale组队学习—pandas数据分析
黄元帅
努力做好一件事
展开
-
【Task Final】Pandas之综合练习2
前言Mission04 显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking I原创 2021-01-13 23:47:59 · 421 阅读 · 2 评论 -
【Task10】Pandas之时序数据
前言【Numpy学习03】时间日期和时间增量之前在Numpy中,我们学习过关于时间日期和时间增量的内容,本章让我们看看pandas中的时序数据与它们究竟有什么异同:一、时序中的基本对象概念单元素类型数组类型pandas数据类型时间戳 DateStampTimestampDatetimeIndexdatetime64[ns]时间差 Time deltasTimedeltaTimedeltaIndextimedelta64[ns]时间段Time spans原创 2021-01-10 23:57:30 · 736 阅读 · 0 评论 -
【Task09】Pandas之分类数据
前言分类数据直白来说就是取值为有限的,或者说是固定数量的可能值,这个概念与C或Java中的enum枚举类型相似:接下来让我们介绍分类数据的创建方法:一、创建分类数据1.新建Series时直接指定s_blood = pd.Series(data=["A", "AB", np.nan, "AB", "O", "B"],dtype="category")s_blood0 A1 AB2 NaN3 AB4 O5 Bdtype: categ原创 2021-01-07 23:55:32 · 557 阅读 · 0 评论 -
【Task08】Pandas之文本数据
前言 文本数据 也就是我们常说的 字符串 ,Pandas 为 Series 提供了 str 属性,通过它可以方便的对每个元素进行操作。在之前的学习中,我们可以使用 apply 或 map方法对 Series 中每个元素处理:依然使用learn_pandas数据集:df = pd.read_csv('./data/learn_pandas.csv')df.head()使用python自带方法将学校的名字都变为大写:df.School.map(lambda x:x.upper()).head原创 2021-01-06 23:57:02 · 458 阅读 · 0 评论 -
【Task07】Pandas之缺失数据
前言本章介绍pandas中的缺失数据,主要内容有:pandas中对np.nan的操作: 统计 、 删除 、 填充 、 插值 pandas中的Nullable类型及相关操作在无特殊说明时,本章主要采用的df数据如下,不再重复说明:df = pd.read_csv('./data/learn_pandas.csv',usecols=['Grade','Name','Gender','Height','Weight','Transfer'])df一、缺失值的统计和删除1.缺失值的统计我们原创 2021-01-03 23:55:48 · 2271 阅读 · 3 评论 -
【Task Special】Pandas之综合练习
前言本次打卡用于巩固知识Mission01 企业收入的多样性题目:一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:其中pi是企业该年某产业收入额占该年所有产业总收入的比重。在Company.csv中存有需要计算的企业和年份,在Company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年份的收入熵指标 I。第一步,观察数据:df1 = pd.read_csv('./data/mission01/Company.原创 2021-01-02 11:34:24 · 1571 阅读 · 6 评论 -
【Task06】Pandas之连接
前言一、关系型连接1.连接的基本概念2.值连接1)按相同列进行连接df1 = pd.DataFrame([['San Zhang',20],['Li Si',30]],columns=['Name','Age'])df2 = pd.DataFrame([['Li Si','F'],['Wu Wang','M']],columns=['Name','Gender'])df1df2df1.merge(df2, on='Name', how='left')注意这里并不会改变原来的d原创 2020-12-29 23:55:00 · 962 阅读 · 1 评论 -
【Task05】Pandas之变形
前言一、长宽表中的变形1.长宽表的概念长表和宽表的是针对某个特征而言的。长表:即为在数据中,某列的数据 仅表示某个特征 (特征A),那么对于这个特征A来说,这张数据表就是A的长表,如之前我们学生数据中的‘Gender’列,该列只有‘Female’和‘Male’这样仅代表性别的数据:又如下面这张表,对于‘Type’特征来说就是长表:宽表:对于某个特征A来说,其列中的元素是 表示其他特征的数据 (特征B),我们可以称它们所在的数据表为特征A的宽表,也同时为特征B的长表。如将上面例子中表的变形后原创 2020-12-27 23:56:10 · 733 阅读 · 1 评论 -
【Task04】Pandas之分组
前言一、分组模式及其对象2.分组依据的本质练一练>>> def func(x):>>> if x>b:>>> return 'high'>>> elif x < a:>>> return 'low'>>> elif x>=a and x <=b:>>> return原创 2020-12-25 23:51:32 · 1623 阅读 · 1 评论 -
【Task03】Pandas之索引
前言上一章的内容主要有:pandas两种基本的数据结构:Series 和 DataFrame 及它们的一些重要属性和方法pandas中的I/O方法窗口对象的简单介绍和使用在本次学习中,我们主要聚焦于Series和DataFrame中的一些索引操作。比如:通过索引访问Series、DataFrame中指定的元素随机访问Series、DataFrame中的数组多级索引的构造和访问索引层的交换和删除索引值和名的修改索引的设置和重置索引的运算希望通过学会“索引”的相关知识,让我们原创 2020-12-22 23:53:30 · 742 阅读 · 2 评论 -
【Task02】Pandas之基础
前言Pandas基础注,本次打卡所以用到的数据都放在了同级目录下的data文件夹中:一、文件的读取和写入1.文件读取#读csv 逗号分隔值df_csv = pd.read_csv('data/my_csv.csv')print(df_csv) col1 col2 col3 col4 col50 2 a 1.4 apple 2020/1/11 3 b 3.4 banana 2020/1/22 6 c原创 2020-12-19 23:56:17 · 452 阅读 · 0 评论 -
【Task01】Pandas之预备知识
前言先看Pandas的百科介绍pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。所以学好Python原生和Numpy对于学习Pandas很重要,在这一章节我们主要介绍Python和Numpy的一些比较重要的知识。一、Python基础语法糖原创 2020-12-16 23:56:48 · 2457 阅读 · 4 评论 -
Win10利用Anaconda搭建Pandas+Numpy环境
序写在开头的开头,为什么要用Anaconda来搭建Pandas+Numpy环境呢?直接用命令行运行python它不香吗?只用命令行当然可以跑Numpy,但是会涉及到版本冲突问题,此话怎讲?比如你开发两个项目A和B,项目A需要Python2,项目B需要Python3,你怎么处理这种情况,做完项目A然后再装一个Python3?或者简单点,重新设置系统Python的环境变量?这有点“费力不讨好”的意思,所以我们用Anaconda来搭建Numpy环境,这样的话遇到上面的情况,我们直接一句代码切换环境即可~原创 2020-12-12 23:14:22 · 4937 阅读 · 3 评论