无监督学习的最终数据测试验证

关于无监督学习的测试问题,翻阅了很多资料和博客,大家都避重就轻的说了很多的无监督的聚类算法以及无监督模型的算法原理。给了一大堆公式图片还有论文的链接。
其实现阶段来说,很多的无监督算法模型在训练过程中的确应用着各种聚类的算法实现数据的分类和异常检测,或者应用着类似于VAE这类流行算法做无监督训练达到很好的效果。
但是结果的呈现方式大致分为两种,一种是聚类结果的展示,比如通过T-sne生成聚类效果图,让人一目了然,也有通过准确率这一数据的统计结果进行展示,这里就需要用到“带标签的测试数据”来进行一个检测结果的校验,这里呢,大部分用到一种伪标签的概念对之后的结果进行校验。包括T-sne中各类的标注都用到一种伪标签的概念。对最终的分类结果进行了检验。
关于未标签的知识还有文章呢也有很多,大家有兴趣可以自行查阅一下。虽然吧也说的有些抽象,但是也有很大的参考价值。就本人从相关程序中看到的关于伪标签的概念,类似于一种字典的键的概念,就是每一条数据(输入网络之前已经做了分类分装,打包在个文件夹中)都有一个自己的键(类似于输入路径)可以追踪到这一条数据来自于哪里(这里就是我理解的键的概念)从而知道他之前正确的分类。然后我们训练好的模型会根据自己的学习的知识对数据的数据进行一个分类分组,这时候我们取这个类别最多的组中的一个数据和之前输入的每个组进行比较,如果对应的上(这里是通过算法规则比较的)就认为这个分类为何种数据。最终通过符合以及不符合的计数来计算准确率,或者分别渲染呈现出来。关于最后的分类标注或者统计,会在程序中自动匹配对应的预设值,完成验证。所以最终的结果呈现是算法与计算机程序的完美结合,并非单方面完成的任务。

不喜勿喷,希望可以为大家解决一些疑问!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
神经网络的训练集、验证集和测试集是在有监督机器学习中用于训练和评估模型性能的重要数据集。 训练集是用来训练神经网络模型的数据集。在训练过程中,神经网络通过对训练集中的样本进行学习和调整参数,逐渐提高模型的性能和准确度。 验证集是用来评估模型在训练过程中的性能和选择最佳模型的数据集。在训练过程中,通过在验证集上进行验证,可以根据模型在验证集上的表现来调整模型的超参数、网络结构或者控制模型复杂程度的参数,以提高模型的泛化能力和避免过拟合。 测试集是用来评估最终选择的最优模型的性能的数据集。在训练和验证阶段结束后,使用测试集来评估模型在未见过的数据上的性能,以验证模型的泛化能力和预测准确度。 以下是一个示例: ```python # 导入所需的库和模块 import numpy as np from sklearn.model_selection import train_test_split # 假设有一个包含特征和标签的数据集 features = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) labels = np.array([0, 1, 0]) # 将数据集分成训练集、验证集和测试集 train_features, test_features, train_labels, test_labels = train_test_split(features, labels, test_size=0.2, random_state=42) train_features, val_features, train_labels, val_labels = train_test_split(train_features, train_labels, test_size=0.25, random_state=42) # 打印数据集的大小 print("训练集大小:", train_features.shape[0]) print("验证集大小:", val_features.shape[0]) print("测试集大小:", test_features.shape[0]) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值