读取文件
import pandas as pd
data = pd.read_csv
(data_file)
print(data)
处理缺失值
典型的方法包括插值法和删除法。
通过位置索引iloc
,我们将data分成inputs和outputs, 其中前者为data的前两列,而后者为data的最后一列。
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)
- 独热编码
inputs = pd.
get_dummies
(inputs, dummy_na=True)
print(inputs)
转换为张量格式
import torch
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y