机器学习中基础数据分割成一部分训练和一部分学习的数据

最新推荐文章于 2024-02-15 11:35:01 发布

weixin_44274975

最新推荐文章于 2024-02-15 11:35:01 发布

阅读量787

点赞数

分类专栏： python 文章标签：机器学习中基础数据分割成一部分训练和一部分学习的数据

本文链接：https://blog.csdn.net/weixin_44274975/article/details/88697131

版权

该博客介绍了如何在机器学习中将数据集按指定比例划分，用于训练和测试。通过定义`tain_custom_split`函数，以`test_size`参数控制分割比例，将数据切分为训练数据和测试数据两部分。文中使用numpy数组举例，并展示了函数调用及结果打印。

摘要由CSDN通过智能技术生成

#第二版
注释：加#是注释或者屏蔽不需要
def tain_custom_split(in_data,in_target,test_size):
#根据下面的需求
‘’’
将数据集按照test_size指定的比例进行分割
:param in_data:
:param in_target:
:param test_size: 是个小数,表示比例
:return:
‘’’
#计算总体数据的长度
data_len = len(in_data)
#就是把数据分为训练和学习的数据
data_num = data_len - int(data_len*test_size)
#把训练的数据建立一个空列表,存放用于训练的数据
train_data_index = []
#因为索引值是相同的所以，直接用上面的就可以了
# train_target_index = []

# test_data_index =   []
# test_target_index = []

#不确定循环多少次,所以用while True
while True:
    #生成in_data长度的随机数,一次拿出来一个数
    c_index = np.random.randint(1,data_len,1)[0]
    # c_value = in_data[c_index]
    #如果拿出来的索引值不在train_data_index里面就直接追加在train_data_index
    if c_index not in train_data_index:
        train_data_index.append(c_index)
        # train_target_index.append(in_target[c_index])

    #这个作为两个分界点的
    if len(train_data_index) =&#