关于无监督学习的测试问题,翻阅了很多资料和博客,大家都避重就轻的说了很多的无监督的聚类算法以及无监督模型的算法原理。给了一大堆公式图片还有论文的链接。
其实现阶段来说,很多的无监督算法模型在训练过程中的确应用着各种聚类的算法实现数据的分类和异常检测,或者应用着类似于VAE这类流行算法做无监督训练达到很好的效果。
但是结果的呈现方式大致分为两种,一种是聚类结果的展示,比如通过T-sne生成聚类效果图,让人一目了然,也有通过准确率这一数据的统计结果进行展示,这里就需要用到“带标签的测试数据”来进行一个检测结果的校验,这里呢,大部分用到一种伪标签的概念对之后的结果进行校验。包括T-sne中各类的标注都用到一种伪标签的概念。对最终的分类结果进行了检验。
关于未标签的知识还有文章呢也有很多,大家有兴趣可以自行查阅一下。虽然吧也说的有些抽象,但是也有很大的参考价值。就本人从相关程序中看到的关于伪标签的概念,类似于一种字典的键的概念,就是每一条数据(输入网络之前已经做了分类分装,打包在个文件夹中)都有一个自己的键(类似于输入路径)可以追踪到这一条数据来自于哪里(这里就是我理解的键的概念)从而知道他之前正确的分类。然后我们训练好的模型会根据自己的学习的知识对数据的数据进行一个分类分组,这时候我们取这个类别最多的组中的一个数据和之前输入的每个组进行比较,如果对应的上(这里是通过算法规则比较的)就认为这个分类为何种数据。最终通过符合以及不符合的计数来计算准确率,或者分别渲染呈现出来。关于最后的分类标注或者统计,会在程序中自动匹配对应的预设值,完成验证。所以最终的结果呈现是算法与计算机程序的完美结合,并非单方面完成的任务。
不喜勿喷,希望可以为大家解决一些疑问!!