头歌实训-机器学习(Pandas基本操作)

目录

第7关:时间序列处理

第8关:Series

第9关:DataFrame

第10关:读取数据

第11关:排序

第12关:去重


第7关:时间序列处理

import pandas as pd
from datetime import datetime


def task1():
    '''
    任务:创建以 2021 年1 月1 日为开始的 12 条时间索引,相邻索引间隔时间长度为一个月。
    '''
    ########## Begin ##########
    result= pd.date_range('2021-1-1', periods=12, freq='M')
    
    ########## End ##########
    
    return result


def task2():
    '''
    任务:在 2021 年 1 月 1 日到 2021 年 3 月 1 日间,每隔一周创建一条索引。
    '''
    ########## Begin ##########
    start = datetime(2021, 1, 1)
    end = datetime(2021, 3, 1)
    result = pd.date_range(start, end, freq='W')

    ########## End ##########
    
    return result


def task3():
    '''
    任务:给定以时间为索引的 Series 对象,查找索引时间在 2021 年 1 月内的所有记录。
    '''
    start = datetime(2021, 1, 1)
    end = datetime(2021, 2, 1)
    rng = pd.date_range(start, end, freq='W')
    ts = pd.Series(range(len(rng)), index=rng)

    ########## Begin ##########
    result = ts
    ########## End ##########

    return result

第8关:Series

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def create_series():
    '''
    返回值:
    series_a: 一个Series类型数据
    series_b: 一个Series类型数据
    dict_a:  一个字典类型数据
    '''
    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    series_a=Series([1,2,5,7],index=['nu','li','xue','xi'])
    dict_a={'ting':1,'shuo':2,'du':32,'xie':44}
    series_b=Series(dict_a)
    
    # ********** End **********#

    # 返回series_a,dict_a,series_b
    return series_a,dict_a,series_b

第9关:DataFrame

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def create_dataframe():
    '''
    返回值:
    df1: 一个DataFrame类型数据
    '''
    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    data={'states':['Ohio','Ohio','Ohio','Nevada','Nevada'],'years':[2000,2001,2002,2001,2002],'pops':[1.5,1.7,3.6,2.4,2.9]}
    df1=DataFrame(data,index=['one','two','three','four','five'])
    df1['new_add'] = [7,4,5,8,2]

    # ********** End **********#

    #返回df1
    return df1

第10关:读取数据

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd
# pandas版本原因显示,设置列名仅显示4列
pd.set_option('display.max_columns', 4)


def read_csv_data():
    '''
    返回值:
    df1: 一个DataFrame类型数据
    length1: 一个int类型数据
    '''
    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    df1=pd.read_csv('test3/uk_rain_2014.csv', header=0,encoding = 'gbk')
    df1.columns = ['water_year','rain_octsep','outflow_octsep','rain_decfeb', 'outflow_decfeb', 'rain_junaug', 'outflow_junaug']
    length1=len(df1)
    # ********** End **********#
    #返回df1,length1
    return df1,length1

第11关:排序

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd
# pandas版本原因显示,设置列名仅显示4列
pd.set_option('display.max_columns', 4)


def sort_gate():
    '''
    返回值:
    s2: 一个Series类型数据
    d2: 一个DataFrame类型数据
    '''

    # s1是Series类型数据,d1是DataFrame类型数据
    s1 = Series([4, 3, 7, 2, 8], index=['z', 'y', 'j', 'i', 'e'])
    d1 = DataFrame({'e': [4, 2, 6, 1], 'f': [0, 5, 4, 2]})

    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    s2=s1.sort_index()
    d2=d1.sort_values(by='f')
    # ********** End **********#

第12关:去重

# -*- coding: utf-8 -*-
from pandas import Series,DataFrame
import  pandas as pd

def delete_duplicated():
    '''
    返回值:
    df2: 一个DataFrame类型数据
    '''

    # df1是DataFrame类型数据
    df1 = DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 'k2': [1, 1, 2, 3, 3, 4, 4])
    # 请在此添加代码 完成本关任务
    # ********** Begin *********#
    df2=df1.drop_duplicates()

    # ********** End **********#

    # 返回df2
    return df2

  • 21
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Pandas是一个强大的数据处理和分析库,它提供了许多基本操作来处理和操作数据。下面是一些pandas基本操作的介绍。 1. 数据读取:Pandas可以从不同的数据源读取数据,如CSV文件、Excel文件、数据库等。使用pandas的read_csv()、read_excel()、read_sql()等函数可以方便地读取数据。 2. 数据查看:使用head()函数可以查看数据的前几行,默认是显示前5行。如果想要查看更多行数,可以在函数中传入具体的行数。 3. 数据选择:Pandas提供了许多方法来选择需要的数据。使用方括号[]可以选择一列数据,使用loc[]可以选择指定的行和列,使用iloc[]可以通过行号和列号来选择数据。 4. 数据过滤:通过条件筛选数据是数据分析中常用的操作。使用布尔数组可以对满足条件的数据进行过滤,例如df[df['列名'] > 10]可以筛选出某一列中大于10的数据。 5. 数据排序:使用sort_values()函数可以实现对数据进行排序,默认是按升序排列。可以通过传入参数ascending=False来实现降序排序。 6. 数据统计:Pandas提供了许多统计函数可以对数据进行统计分析,如mean()计算均值、sum()计算总和、max()计算最大值等。这些函数可以对整个数据集进行统计,也可以对某一列或某一行进行统计。 7. 数据处理:Pandas中还提供了许多数据处理的函数和方法,如drop_duplicates()用于删除重复数据、fillna()用于填补缺失值、replace()用于替换数据等。 总而言之,Pandas提供了丰富的基本操作函数和方法,可以方便地进行数据处理和分析。上述介绍的只是其中的一部分,还有许多其他的功能可以在实际使用中灵活运用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值