对比两种读取数据的方法——PyTorch

最新推荐文章于 2024-09-12 10:43:48 发布

Cedar...

最新推荐文章于 2024-09-12 10:43:48 发布

阅读量235

点赞数 6

文章标签： pytorch 人工智能 python 算法机器学习深度学习

本文链接：https://blog.csdn.net/weixin_45044014/article/details/139886885

版权

data_path = 'Cedar.csv'
data_df = pd.read_csv(data_path)
data = data_df.to_numpy()

这种方法首先将数据集的路径‘Cedar.csv' 存储在变量 data_path 中。
然后，使用 Pandas 的 read_csv 函数根据data_path 中的路径找到‘Cedar.csv' ，并从中读取数据并将其存储在 DataFrame data_df 中。
最后，通过 to_numpy() 方法将 DataFrame 转换为 NumPy 数组 data。
当使用 pandas 读取 CSV 文件时，默认情况下会得到一个 DataFrame 对象。虽然DataFrame 对象也可以直接用于一些数据处理，但在许多机器学习任务中，处理 numpy 数组更加直接和高效。除此之外，将数据转换为 numpy 数组后，能够更方便地与 PyTorch 的 Dataset 类和 DataLoader 类兼容。

2.直接方法

data = pd.read_csv('Cedar.csv').values

可读性和维护性： 使用中间变量的方法（第一种）更具可读性，尤其是在处理复杂代码或需要在读取数据后进行其他操作时。它使得你可以在读取数据后检查或修改 data_df，然后再将其转换为 NumPy 数组。
简洁性： 直接方法（第二种）更为简洁，特别是在一行代码中完成读取和转换操作，适合简单场景或者在你只需要读取数据并快速进行处理时。

关注