Pandas-Task02

一、文件读取和写入

  1. pandas读取文件
    pd.read_csv 读取csv文件
    pd.read_excel 读取xlsx文件
    pd.read_table 读取txt文件
    
    相关参数

    header=None表示第一行不作为列名
    index_col表示把某些列或几列作为索引
    usecols表示读取列的集合,替换为所有的列,
    parse_dates表示需要转换为时间的列
    nrows表示读取的数据行数

  2. 数据写入
    df_csv.to_csv('data/my_csv_saved.csv', index=False)
    df_excel.to_excel('data/my_excel_saved.xlsx', index=False)
    

    数据写入时,最常用的操作是把index置为False,目的是保存时去除索引
    pandas没有to_table函数,但是to_csv可以保存为txt文件,并且允许自定义分隔符

二、 基本的数据结构

pandas有两种基本的数据存储结构,存储一维用 Series ,二维用DataFrame 。

  1. series
    1. Series一般由四个部分组成,分别是序列的值data,索引index,存储类型dtype,序列的名字name。其中,索引也可以指定它的名字,替换为空。
      s = pd.Series(data = [100, 'a', {'dic1':5}],
      index = pd.Index(['id1', 20, 'third'], name='my_idx'),
      dtype = 'object',
       name = 'my_name')
      """
      	my_idx
      	idl              100
      	20                 a
      	third    {'dict': 5}
      	Name: my_name, dtype: object
      """	
      
  2. DataFrame
    	data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
    	df = pd.DataFrame(data=data,
                 index=  ['row_%d'%i for i in range(3)],
                   columns=['col_0', 'col_1', 'col_2']
                 )
    
    	print(df)
    	"""
    	       col_0 col_1  col_2
    	row_0      1     a    1.2
    	row_1      2     b    2.2
    	row_2      3     c    3.2
    	"""	
    

三、常用基本函数

  1. head, tail 函数分别表示返回表或者序列的前 n 行和后 n 行,其中 n 默认为 5
  2. nfo, describe 分别返回表的信息概况和表中数值列对应的主要统计量
  3. 唯一值函数 unique 和 nunique 可以分别得到其唯一值组成的列表和唯一值的个数。value_counts 可以得到唯一值和其对应出现的频数
  4. 替换函数 replace 可以通过字典的构造,来替换
    res ['Gender'].replace({'Female':0, 'Male':1}).head()
    res ['Gender'].replace(['Female', 'Male'], [0, 1]).head()
    
  5. 排序函数

分为值排序和索引排序,分别对应的方法是sort_values和sort_index

  1. apply方法

常用于DateFrame的行或者列迭代

re = res[['Height', 'Weight']]
def my_mean(x):
    res = x.mean()
    return res

print(re .apply(my_mean))

"""
Height    163.218033
Weight     55.015873
dtype: float64

"""
re.apply(lambda x:x.mean())  # 匿名函数的使用

四、滑窗对象

五、练习题

  1. 思路:提取出来,求和、验证
    	res = pd.read_csv('D:\\Git\\pandas\\numpy&pandas\\pokemon.csv')
    
    if_true = (res[['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def', 'Speed']])
    if_true = if_true.sum(1)
    #print(if_true)
    """
    0      318
    1      405
    2      525
    3      625
    4      309
    ......... 
    """
    a = (if_true != res['Total']).mean()
    print(a)
    
    """
    0.0
    """
    
    
Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值