Lecture 8(Preparation)：Auto-encoder && Anomaly Detection

最新推荐文章于 2024-07-05 22:10:12 发布

zzz_qing

最新推荐文章于 2024-07-05 22:10:12 发布

阅读量125

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/zzz_qing/article/details/130392123

版权

自编码器 (Auto-encoder)

Basic ldea of Auto-encoder

Feature Disentanglement

Discrete Latent Representation

More Applications

Anomaly Detection（异常侦测）

自编码器 (Auto-encoder)

Auto-encoder也可以算是self-supervised learning的一环。在self-supervised learning的任务中，即不用标注资料就可以学习的任务中，在BERT、GPT出现之前，有一个更古老的任务——Auto-encoder：

Basic ldea of Auto-encoder

Dimension Reduction：把高维度的东西转成低维度的东西

假设输入一张3*3的图片，Encoder输出的向量是二维的，如下图，能从二维的向量去还原3*3的图片是因为图片的变化是有限的：

Auto-encoder常见的变形——De-noising Auto-encoder：

BERT也可以看做一个De-noising Auto-encoder：

Feature Disentanglement

Feature Disentanglement在语音上的应用举例——Voice Conversion：

Discrete Latent Representation

Discrete Representation的encoder的输出不一定要是real numbers的vector，也可以是其他的，比如binary vector或者one-hot vector：

在Discrete Representation的技术中，最知名的就是VQVAE：

Discrete Representation的encoder的输出也不一定要是vector，也可以是一段文字，即拿一段文字来当做embedding。

如下图，输入一篇document，经过一个seq2seq的encoder之后，输出一个word sequence，即文字表示的embedding，再经过一个seq2seq的decoder，把word sequence还原成document。那我们期待说这个word sequence会是这篇文章的summary，但在实际中，这段word sequence是一段decoder可以看懂但人类看不懂的文字，并不是文章的摘要。

所以加入一个discriminator，用于分辨输入的word sequence是否是人类写的summary，要求encoder输出的word sequence能够骗过discriminator：

More Applications

① 把Auto-encoder的decoder拿出来当做generator用：

② Auto-encoder可以拿来做压缩，不过解压缩后的图片会是失真的

把encoder的输出当做压缩的结果：

③ Auto-encoder可以拿来做Anomaly Detection（异常检测）

Anomaly Detection:

Anomaly Detection的应用：欺诈侦测、网络侵入侦测、癌细胞侦测

Anomaly Detection（异常侦测）

注：假设表述相应的英文名词为problem formulation，相当于中文论文常采用的“问题提出”，不过“问题提出”还不能完全反映formulation的含义，后者包括问题提出和主观回答两方面的内容，实质上是提出一种“假设”。

异常侦测的problem formulation：

Anomaly Detection要找的是训练资料不一样的东西

Anomaly Detection要探讨的问题：什么叫做像训练资料

异常侦测的应用：欺诈侦测、网络侵入侦测、癌细胞侦测

不太能把异常侦测的问题当做binary classification的问题来做，一是因为异常资料并不都是一个种类（只要不是训练资料这一类的，都是异常资料。比如训练资料是宝可梦，异常资料可以是其他二次元人物、真人、茶壶等），二是因为异常资料比较难收集。

Anomaly Detection的categories：

① Open-set Recognition

每一笔训练资料都有label标注，期待训练好一个classifier后，machine看到一个不在训练资料里的x，能够给这个x贴上“unknown"的标签。

Example Framework:

异常侦测没有办法用一般的方法去评价一个系统的好坏。

如何衡量一个异常侦测系统的效能好坏，取决于这个系统被用来做什么任务，下面举个例子：

直接用分类器进行异常侦测，可能会出现某些异常的图片也具有正常图片的的特征，从而侦测不出来的现象。

一个解决方法是，假设我们可以收集到一些异常的资料（如果收集不到异常的data，可以用generative model去generating），那么可以教machine除了学习做分类任务以外，看到正常资料的时候要给出高的confidence，看到异常资料的时候要给出低的confidence。

② 训练资料没有label

没有classifier的时候，我们把confidence换成机率模型：

zzz_qing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lecture 8(Preparation)：Auto-encoder && Anomaly Detection

一个解决方法是，假设我们可以收集到一些异常的资料（如果收集不到异常的data，可以用generative model去generating），那么可以教machine除了学习做分类任务以外，看到正常资料的时候要给出高的confidence，看到异常资料的时候要给出低的confidence。不太能把异常侦测的问题当做binary classification的问题来做，一是因为异常资料并不都是一个种类（只要不是训练资料这一类的，都是异常资料。
复制链接

扫一扫