4.数据分析-Pandas_①

本文介绍了Pandas的初识,详细讲解了Series和DataFrame的数据结构,包括它们的创建和属性。接着,讨论了基本数据操作,如索引、赋值和排序。还探讨了DataFrame的算术、逻辑和统计运算,以及自定义运算。最后提供了相关资料的网盘链接。
摘要由CSDN通过智能技术生成
import pandas as pd
# pd.Series(data=None,index=None,dtype=None)

import numpy as np
import matplotlib.pyplot as plt
import random
from pylab import mpl
#显示中文字体
mpl.rcParams["font.sans-serif"] = ["SimHei"]
#设置正常显示字符
mpl.rcParams["axes.unicode_minus"] = False

一、Pandas初识

#① 什么是pandas
# 以Numpy为基础,借力Numpy模块再计算方面的性能高的优势;基于matplotlib,能够简便的画图;独特的数据结构

#②为什么用Pandas
# 增强图表可读性;便捷的数据处理能力;读取文件方便,封装了matplotlib和numpy的画图和计算

二、Pandas数据结构

# Pandas有三种数据结构:Series、DataFrame、MuiltiLndex

2.1 Series

# Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。
# ·参数:
# o data:传入的数据,可以是ndarray、list等
# o index:索引,必须是唯一的,且与数据的长度相等。如果没有传入索引参数,则默认会自动创建一个从O-N的整数索引。
# o dtype:数据的类型

2.1.1 Series创建

#没有索引值
pd.Series(np.arange(10))
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32
# 有索引值(索引值要和内容元素相同个数)
pd.Series(['a','b','c','d','e'],index=[1,2,3,4,5])
1    a
2    b
3    c
4    d
5    e
dtype: object
#通过字典数据创建
d_s = pd.Series({
   'red':100,"blue":20,"green":50,"yellow":70},dtype=np.float32)
d_s
red       100.0
blue       20.0
green      50.0
yellow     70.0
dtype: float32

2.1.2 Series的属性

#index属性(获取索引值)
d_s.index
Index(['red', 'blue', 'green', 'yellow'], dtype='object')
#values属性(获取内容值)
d_s.values
array([100.,  20.,  50.,  70.], dtype=float32)

2.2 DataFrame

# DataFrame是一个类似于二维数组或表格(如excel)的对象,既有行索引,又有列索引
# ·行索引,表明不同行,横向索引,叫index,0轴,axis=O
# ·列索引,表名不同列,纵向索引,叫columns,1轴,axis=1

# ·参数:
# 。index:行标签。如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引
# 。columns:列标签。如果没有传入索引参数,则默认会自动创建一个从O-N的整数索引
# 。通过已有数据创建

2.2.1 DataFrame的创建

pd.DataFrame(np.random.randn(2,3))
0 1 2
0 0.272134 0.434924 -1.632143
1 2.136276 0.413088 -1.156421
score = np.random.randint(40,100,(10,5))
score
array([[57, 81, 54, 94, 68],
       [73, 83, 41, 40, 75],
       [73, 99, 44, 51, 73],
       [66, 72, 62, 62, 44],
       [77, 81, 78, 73, 91],
       [60, 65, 82, 61, 83],
       [91, 78, 64, 95, 84],
       [74, 63, 86, 47, 87],
       [52, 85, 64, 51, 86],
       [70, 96, 59, 70, 72]])
score_df = pd.DataFrame(score)
score_df
0 1 2 3 4
0 57 81 54 94 68
1 73 83 41 40 75
2 73 99 44 51 73
3 66 72 62 62 44
4 77 81 78 73 91
5 60 65 82 61 83
6 91 78 64 95 84
7 74 63 86 47 87
8 52 85 64 51 86
9 70 96 59 70 72
#构建行索引
subject =['语文','数学','英语'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Padaz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值