写在前面
始于2022年11月4日,本人双非硕士研一在读,cv方向,本科期间没有接触过,只有一点c的编程基础,现在每天除了上课就需要完成导师布置的每周任务,对cv的学习路径不太了解,打算先从机器学习学起,再逐步深入,争取早日发论文实习工作,加油!。
此系列博客是看的是2022年的吴恩达的机器学习,以下是相关的笔记,如有不对的地方,请大家指出!
监督学习
常见的监督学习是指,学习x到y或输入到输出映射的算法,关键特征是给学习算法提供学习的例子,对于给定的输入x,输出正确的答案y,在学习完这些输入输出后,再给他们一个全新的输入x,算法会得出相应的输出y
回归算法
、
常见的例子是根据房子的大小预测房价,横轴是房子大小,纵轴是对应的价格
假如你的房子大小是750平方英尺,想知道房子的价格
不同的算法会有不同的解决方案:一种算法可以给你拟合出一条直线,另一种算法拟合出一条二次函数或二次多项式
第一种算法给出房子的价格大概是150k,用另一种算法进行拟合时,房子的价格大概是200k
小结:给算法一个数据集,包含了正确的答案(每个房子的正确的价格),算法的任务是根据现有的这些数据进行学习,学习输入输出,或x到y的映射,最后可以预测出无限多的数字产生更多的这样正确的答案
以上例子其实是个回归问题,回归是指我们的目标是预测一个连续值的输出
分类算法
检测乳腺癌,确定是否是恶性的(0良性,1恶性)
只有两个可能的输出或两个可能的类别,与试图预测任何数字的回归算法不同
也可以有两个以上的输出类别,比如良性、恶性1,恶性2等
分类算法预测类别,预测一个离散值的输出,类别可以是数值,也可以是非数值(比如预测一张图片是猫还是狗,肿瘤是良性还是恶性)
分类问题也可以使用多个输入值来预测输出
还是这个肿瘤问题,我们不仅知道肿瘤的大小,还知道患者的年龄
学习算法会找到一些边界,将良性和恶性肿瘤区分开来,根据肿瘤的大小和患者的年龄定位到了粉色点处,可以看出粉色点位于良性肿瘤区
总结:监督学习将输入x映射到输出y,算法从事先给定的正确答案中学习,主要的两种类型是回归和分类
回归:算法必须懂无限多的可能的输出数字中去预测
分类:算法只需要对输入输出进行预测,所有的输出都是离散的
无监督学习
聚类算法
左图是监督学习,每个样本都被标明了是良性还是恶性的肿瘤,对于监督学习,每个样本,我们都已经告知了正确答案
右图是无监督学习,数据与任何输出标签y都没有关联,我们只知道肿瘤大小和患者年龄,但是不知道哪个是良性的,哪个是恶性的,对于无监督学习,他们没有标签或都具有相同的标签,只是告诉了机器这里有个数据集
聚类算法:他们没有标签或都具有相同的标签,只是告诉了机器这里有个数据集,它将未标记的数据放在不同的簇中
比如谷歌新闻,在每篇文章中都提到了panda,twin以及zoo,采用聚类算法,找那天在互联网上数十万条新闻文章,找到相似次的文章并分组
比如根据每个人的DNA,算法将其分成不同类型的人,每种类型的人具有相似的特征
这是一种无监督算法,获取没有标签的数据,并将它们分到不同的簇中
在监督学习中,数据有输入x和输出标签y,在无监督学习中,数据只有输入x,没有输出标签y,算法必须找到数据中的一些共有的结构或某种模式,然后将他们分为不同的簇
当然也有其他的无监督学习算法,比如异常检测、降维算法
课后问题
监督学习、无监督学习、无监督学习、监督学习
总结
监督学习:就是给输入和输出,算法根据给的输入和输出,输出就是所谓的正确的答案,算法会拟合出一条符合该特性的线,当任意给定一个输入时,可以根据这条线预测出准确的输出,比如我们要区分猫和狗的照片,先找一定数量的猫和狗的图片,给它们打上标签猫和狗,让机器学习,最后我们随意给张图片,机器就能识别出是猫还是狗
回归模型:是对连续值进行预测
分类模型:预测离散类别
在分类模型中,只有少数可能的输出,而回归模型可以可以输出无限多可能的数字,
无监督学习:只给输入,算法会自动根据输出数据一些共有的特性,自动将它们分簇,分成不同的类,但是并不知道该类是什么。比如给一定数量猫和狗的照片,不告诉机器哪些照片是猫,哪些照片是狗,让机器自己学习,最后将猫分为一类,狗分为一类,但是机器并不知道分的这类是猫还是狗,只是将它们分成了两类而已。