最近在学机器学习,利用自己的数据,在分割训练集和数据集时会采用随机种子,但是设置的种子数值不一样时,会产生结果偏差过大的影响。例如seed=1时,score结果为70%,而seed=666时,结果只为40%,这种情况我应该以哪一个结果为准呢?
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=1)
poly_reg.score(X_test,y_test)
out:0.7493216782658907
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=666)
poly_reg.score(X_test,y_test)
out:0.4421265961709441
或者有没有可能是因为数据量太小,导致产生的偏差过大。
我用的数据为(79,4),算法为多项式回归。