1.使用中间变量的方法
data_path = 'Cedar.csv'
data_df = pd.read_csv(data_path)
data = data_df.to_numpy()
- 这种方法首先将数据集的路径
‘Cedar.csv'
存储在变量data_path
中。 - 然后,使用 Pandas 的
read_csv
函数根据data_path
中的路径找到‘Cedar.csv'
,并从中读取数据并将其存储在 DataFramedata_df
中。 - 最后,通过
to_numpy()
方法将 DataFrame 转换为 NumPy 数组data。
- 当使用 pandas 读取 CSV 文件时,默认情况下会得到一个 DataFrame 对象。虽然DataFrame 对象也可以直接用于一些数据处理,但在许多机器学习任务中,处理 numpy 数组更加直接和高效。除此之外,将数据转换为 numpy 数组后,能够更方便地与 PyTorch 的 Dataset 类和 DataLoader 类兼容
。
2.直接方法
data = pd.read_csv('Cedar.csv').values
- 这种方法将一行代码合并为读取 CSV 文件并直接转换为 NumPy 数组。
pd.read_csv('Cedar.csv')
返回一个 DataFrame 对象,然后通过.values
属性获取其对应的 NumPy 数组。
3.直接方法
-
可读性和维护性: 使用中间变量的方法(第一种)更具可读性,尤其是在处理复杂代码或需要在读取数据后进行其他操作时。它使得你可以在读取数据后检查或修改
data_df
,然后再将其转换为 NumPy 数组。 -
简洁性: 直接方法(第二种)更为简洁,特别是在一行代码中完成读取和转换操作,适合简单场景或者在你只需要读取数据并快速进行处理时。