Lecture 8(Preparation):Auto-encoder && Anomaly Detection

目录

自编码器 (Auto-encoder)

Basic ldea of Auto-encoder

Feature Disentanglement

Discrete Latent Representation

More Applications

Anomaly Detection(异常侦测)


自编码器 (Auto-encoder)

Auto-encoder也可以算是self-supervised learning的一环。在self-supervised learning的任务中,即不用标注资料就可以学习的任务中,在BERT、GPT出现之前,有一个更古老的任务——Auto-encoder:

Basic ldea of Auto-encoder

Dimension Reduction:把高维度的东西转成低维度的东西

假设输入一张3*3的图片,Encoder输出的向量是二维的,如下图,能从二维的向量去还原3*3的图片是因为图片的变化是有限的:

Auto-encoder常见的变形——De-noising Auto-encoder:

BERT也可以看做一个De-noising Auto-encoder:

Feature Disentanglement

Feature Disentanglement在语音上的应用举例——Voice Conversion:

Discrete Latent Representation

Discrete Representation的encoder的输出不一定要是real numbers的vector,也可以是其他的,比如binary vector或者one-hot vector:

在Discrete Representation的技术中,最知名的就是VQVAE:

Discrete Representation的encoder的输出也不一定要是vector,也可以是一段文字,即拿一段文字来当做embedding。

如下图,输入一篇document,经过一个seq2seq的encoder之后,输出一个word sequence,即文字表示的embedding,再经过一个seq2seq的decoder,把word sequence还原成document。那我们期待说这个word sequence会是这篇文章的summary,但在实际中,这段word sequence是一段decoder可以看懂但人类看不懂的文字,并不是文章的摘要。

所以加入一个discriminator,用于分辨输入的word sequence是否是人类写的summary,要求encoder输出的word sequence能够骗过discriminator:

More Applications

① 把Auto-encoder的decoder拿出来当做generator用:

② Auto-encoder可以拿来做压缩,不过解压缩后的图片会是失真的

把encoder的输出当做压缩的结果:

③ Auto-encoder可以拿来做Anomaly Detection(异常检测)

Anomaly Detection:

Anomaly Detection的应用:欺诈侦测、网络侵入侦测、癌细胞侦测

Anomaly Detection(异常侦测)

注:假设表述相应的英文名词为problem formulation,相当于中文论文常采用的“问题提出”,不过“问题提出”还不能完全反映formulation的含义,后者包括问题提出和主观回答两方面的内容,实质上是提出一种“假设”。

异常侦测的problem formulation:

Anomaly Detection要找的是训练资料不一样的东西

Anomaly Detection要探讨的问题:什么叫做像训练资料

异常侦测的应用:欺诈侦测、网络侵入侦测、癌细胞侦测

不太能把异常侦测的问题当做binary classification的问题来做,一是因为异常资料并不都是一个种类(只要不是训练资料这一类的,都是异常资料。比如训练资料是宝可梦,异常资料可以是其他二次元人物、真人、茶壶等),二是因为异常资料比较难收集。

Anomaly Detection的categories:

        ① Open-set Recognition

        每一笔训练资料都有label标注,期待训练好一个classifier后,machine看到一个不在训练资料里的x,能够给这个x贴上“unknown"的标签。

        Example Framework:

        异常侦测没有办法用一般的方法去评价一个系统的好坏。

        如何衡量一个异常侦测系统的效能好坏,取决于这个系统被用来做什么任务,下面举个例子:

        直接用分类器进行异常侦测,可能会出现某些异常的图片也具有正常图片的的特征,从而侦测不出来的现象。

        一个解决方法是,假设我们可以收集到一些异常的资料(如果收集不到异常的data,可以用generative model去generating),那么可以教machine除了学习做分类任务以外,看到正常资料的时候要给出高的confidence,看到异常资料的时候要给出低的confidence。

        ② 训练资料没有label

        没有classifier的时候,我们把confidence换成机率模型:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值