pd.DataFrame

pd.DataFrame 是 Pandas 库中的一个类,用于创建和操作数据表格。它类似于电子表格或 SQL 表格,提供了强大的数据操作和分析功能。

pd.DataFrame 构造函数

pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

  • data: 可以是各种类型的数据结构,如字典、列表、NumPy 数组、Pandas Series、另一个 DataFrame 等。它是构造 DataFrame 的主要数据源。
  • index: 行标签,默认为 RangeIndex (0, 1, 2, ..., n)。可以传入一个列表或 NumPy 数组来指定行标签。
  • columns: 列标签,默认为从数据中推断的标签。可以传入一个列表或 NumPy 数组来指定列标签。
  • dtype: 每列的类型,可选。如果没有指定,Pandas 会自动推断。
  • copy: 默认为 False。如果为 True,则复制数据。

示例

1. 从字典创建
import pandas as pd

# 从字典创建 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)

"""
##输出

      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
"""
2. 从列表创建
data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
]

df = pd.DataFrame(data, columns=['name', 'age', 'city'])
print(df)

"""
#输出

      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
"""
3. 从 NumPy 数组创建
import numpy as np

data = np.array([
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Los Angeles'],
    ['Charlie', 35, 'Chicago']
])

df = pd.DataFrame(data, columns=['name', 'age', 'city'])
print(df)

"""
#输出

      name age         city
0    Alice  25     New York
1      Bob  30  Los Angeles
2  Charlie  35      Chicago
"""

常见操作

1. 查看数据
# 查看前几行
print(df.head())

# 查看数据信息
print(df.info())

# 查看描述性统计
print(df.describe())
2. 选择数据
# 选择一列
print(df['name'])

# 选择多列
print(df[['name', 'city']])

# 选择行
print(df.loc[0])  # 按标签选择
print(df.iloc[0])  # 按位置选择
3. 筛选数据
# 根据条件筛选
print(df[df['age'] > 30])

4. 添加和删除列

# 添加新列
df['country'] = 'USA'
print(df)

# 删除列
df.drop(columns=['country'], inplace=True)
print(df)
5. 处理缺失值
# 检查缺失值
print(df.isnull().sum())

# 填充缺失值
df.fillna(0, inplace=True)

# 删除缺失值
df.dropna(inplace=True)
6. 合并和连接
# 合并两个 DataFrame
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value': [4, 5, 6]})

# 按照 key 列合并
merged_df = pd.merge(df1, df2, on='key')
print(merged_df)
7. 分组和聚合
# 按某列分组并计算聚合值
grouped = df.groupby('city').agg({'age': 'mean'})
print(grouped)
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值