长格式和宽格式的用法

最新推荐文章于 2025-02-03 10:33:42 发布

Lucky ＆powerful

最新推荐文章于 2025-02-03 10:33:42 发布

阅读量1.6k

点赞数 4

文章标签：数据挖掘

本文链接：https://blog.csdn.net/zkj000000/article/details/136768820

版权

数据挖掘专栏收录该内容

5 篇文章

订阅专栏

长格式和宽格式是数据组织的两种不同方式，它们在处理和分析数据时各有优缺点。

宽格式 (Wide Format)：每个值有行属性和列属性，对应两个属性

在宽格式数据中，每个主题（例如，每个个体或实验单位）的多个观测值被存储在同一行中，并且每个观测值都有自己的列。例如，一个数据集记录了三个人在不同时间点的体重，宽格式可能如下所示：

Person  | Weight_Time1 | Weight_Time2 | Weight_Time3
--------|--------------|--------------|-------------
Alice   | 60           | 62           | 63
Bob     | 70           | 72           | 74
Charlie | 80           | 81           | 82

在这个例子中，每个人的体重在三个不同时间点被记录在同一行中。

长格式 (Long Format)：一行一个观测值，也是对应两个属性

相比之下，在长格式数据中，每一行通常只包含一个观测值。如果使用长格式来表示上述同样的数据，它可能如下所示：

Person  | Time   | Weight
--------|--------|-------
Alice   | Time1  | 60
Alice   | Time2  | 62
Alice   | Time3  | 63
Bob     | Time1  | 70
Bob     | Time2  | 72
Bob     | Time3  | 74
Charlie | Time1  | 80
Charlie | Time2  | 81
Charlie | Time3  | 82

在这个例子中，每一行代表一个人在一个特定时间点的体重。

比较：

长格式通常更适合数据分析和统计建模，因为它使数据更容易被不同的分析工具和函数处理。
宽格式通常更适合展示数据和制作报表，因为它可以直观地显示每个主题的所有观测值。
在进行数据处理和分析时，根据需要，你可能需要在长格式和宽格式之间转换数据。Pandas 的 melt 和 pivot 函数是实现这种转换的常用工具。长格式和宽格式是数据组织的两种不同方式，它们在处理和分析数据时各有优缺点。

宽格式 (Wide Format)：

Person  | Weight_Time1 | Weight_Time2 | Weight_Time3
--------|--------------|--------------|-------------
Alice   | 60           | 62           | 63
Bob     | 70           | 72           | 74
Charlie | 80           | 81           | 82

在这个例子中，每个人的体重在三个不同时间点被记录在同一行中。

长格式 (Long Format)：

相比之下，在长格式数据中，每一行通常只包含一个观测值。如果使用长格式来表示上述同样的数据，它可能如下所示：

Person  | Time   | Weight
--------|--------|-------
Alice   | Time1  | 60
Alice   | Time2  | 62
Alice   | Time3  | 63
Bob     | Time1  | 70
Bob     | Time2  | 72
Bob     | Time3  | 74
Charlie | Time1  | 80
Charlie | Time2  | 81
Charlie | Time3  | 82

在这个例子中，每一行代表一个人在一个特定时间点的体重。