解决报错ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument.
用开源数据集kaggle运行DeepCTR中的DeepFM时可以运行成功,换成自己的数据集时,报错:
ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument.
显然是我自己数据集的问题
经过一系列排查后,发现是model.fit(train_model_input, train[target].values,batch_size=4096, epochs=20, verbose=2,validation_split=0.2)
中validation_split
这个参数将训练集划分了20%做验证集,这部分验证集的label全为0,没有1 。
解决方法
加一段代码,使训练集中的label=1均匀分布
# 使label=1均匀分布
label_1_index = [] # 存放label=1的index的列表
for i in range(1,len(train)):
if train.iloc[i, 0] == 1:
label_1_index.append(i)
print(label_1_index)
print(len(label_1_index))
i = 0
while i * 141 < len(train) and i < len(label_1_index):
index = int(i * 141) # 我的数据集中正负样本比例是1:140,所以我这里i*141,即每140个label=0,就会跟一个label=1
a, b = train.iloc[index, :].copy(), train.iloc[label_1_index[i], :].copy()
train.iloc[index, :], train.iloc[label_1_index[i], :] = b, a
# 交换 index索引数据 和 label_1_index[i]索引数据
i += 1