简单的对数据集划分为训练集和测试集(train,test)
哦豁,鉴于有些小伙伴想自己拆分数据集,却不大明白怎么实现这个过程,我在这里给小伙伴们讲解一下,具体代码就不写了,告诉你用到哪些东西,可以让大家好好学习。
假设数据集只有10行,拆分为70%训练集,30%为测试集。
很简单,第一步将数据集的序列取出,这里你其实可以直接生成一个0到数据集,长度的list,python就是用range()方法,比如x = [i for i in range(10)],x=[0 1 行序号的行取出2 3 4 5 6 7 8 9],然后使用random.shuffle(x)将x里面的值打乱,因为一开始生成的数值是有序的(从小到大),使用此方法会将x里的值随机打乱,从而变成乱序,如[2 7 1 0 3 9 4 5 8 6],此后就得到了一个行序列的list,我们将x的前七个数和后三个数分为两个list ,就会得到index1= [2 7 1 0 3 9 4 ]和index2=[5 8 6],这便将序列分成了7/3,通过将数据集中序列号与符合index1中值相等的行取出保存便可作为训练集,同理将另一部分取出即可作为测试集train= data.iloc[index1]
叮,这个东西只是个人使用的一种拆分方法,方法千万种,只分优劣。