MachineLearning(Hsuan-Tien Lin)第三讲

最新推荐文章于 2015-08-20 11:15:00 发布

DanaMeng

最新推荐文章于 2015-08-20 11:15:00 发布

阅读量593

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/danameng/article/details/21115815

版权

Machine Learning 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

第三讲

机器学习的类型：

1、根据输出空间

（1）分类(Classification)问题

上一讲说到要不要给顾客信用卡，输出是+1和-1，这是二元分类问题。

二元分类(Binary classification)问题概况起来就是：

给计算机上面这些x（红色）和o（蓝色）的点，让它在这个平面找到一条线把平面分成两个部分，线的一边都是红色的x，另一边都是蓝色的o 。

之后，有新的点的时候就知道放在哪个部分

二元分类问题还有：

是否给信用卡；

是否是垃圾邮件；

病人是否患有某种疾病；

广告是否挣钱；

答案是否正确。

多元分类（Multiclass classification）问题：

输出的结果不再只有两类，有限多个，y={1,2,3……k}

多元分类的应用有：

区分数字：{1,2,3……9}

区分水果图片：{苹果,梨子,草莓……}

邮件分类：{垃圾邮件,重要邮件,社交邮件,……}

常用于视觉和听觉辨识

（2）回归分析（Regression）问题

输出空间是实数，如天气的温度，分数，价格

bounded regression 输出有范围，[lower ,upper]

统计中学到线性回归等

回归分析应用：

公司资料预测股票价格；

天气预测。

（3）结构学习（Structured learning）问题

上面讲到输出都是数字，Structured learning的输出不限于数字，而是一个complex structured object，可以是一副图片，一个标签，一个序列或者解析树。

比如输出句子中每一个词的词性

结构学习应用：

给计算机蛋白质的资料，输出蛋白质三D立体图像；

自然语言处理，讲一段话，输出这段话里句子的关系。

就是我们的输入有某种结构，希望计算机能输出这种结构。

2、根据数据标签（label）分类

在Andrew第一讲里提到的将不再重复。

（1）监督学习（Supervised learning）

（2）无监督学习（Unsupervised Learning）

应用：

-文章分主题

-商业顾客将顾客分类，分别采取不同促销方式

其他无监督学习问题：

-分群：文章主题分类

-密度估计（density estimation）：交通路口常发生事故地点分析（≈unsupervised bounded regression）

-异常检测：QQ被盗异常登录

（3）半监督学习（Semi-supervised learning）

人脸识别；

医药测试。

特点：标记很贵（如找人看照片识人或者吃药看效果）

（4）增强式学习（Reinforcement learning）

通过鼓励或者惩罚，一步一步的使计算机越变越强。

线上广告系统，像顾客在训练那个系统。比如，放一个广告在某个位置，看顾客点击量，再算有没有挣到钱。就知道这个广告适不适合放这里。

棋牌类游戏系统，比如拿到了某类型的牌，然后按照某方式打，赢了或者输了，就决定之后要不要按照那样方式打。使系统越来越厉害。

3、根据协议不同

（1）批量学习（Batch learning）

数据集收集到一定规模，全部都放入A中求g 。

应用：

给A一批已知是否为垃圾邮件的邮件；

给A一批已知是否有癌症的病人资料。

（2）在线学习（Online learning）

g一直在变动，数据D不是一批给A，而是收集一个就给A一个。循序渐进的方式。

邮件一封一封的进来，一封一封判断是否为垃圾邮件。

PLA可以用于Online learning

增强式学习也是用Online learning

每一轮都有一个g，g1，g2，g3……随着新的数据进来，使g越变越好

Batch learning 比较像填鸭式教育，给一本书，里面有答案，学生自己去看。

Online learning 像老师教书，老师一条一条教。

（3）主动学习（Active learning）

计算机主动问问题。

应用：

标签很贵的时候，我们只给少数的标签，机器学习的时候，如果它有把握说出答案就输出，但是如果它有疑惑，就可以主动问，让人告诉它答案。当人们参与告诉它答案，会使机器中有标记的数据增多。

4、根据输入空间分类

（1）具体特征（Concrete features）

钱币分类：钱币的大小和重量

是否给顾客信用卡：具体的顾客资料

病人是否有癌症：病人的资料

这些特征带有人类对问题的描述，对这个问题的专业知识，human intelligence

（2）原始特征（Raw features）

数字辨识时，需要给机器什么资料呢？比如分1和5，在写下1 和5的时候，可以考虑数字的对称性、密度。这是具体特征。如果，我们想数字就是16*16灰度的图片，就是把数字变成256维度的向量。声音数据就是信号等。

深度学习，做的事情就是希望大量的资料甚至就是非监督的方式从中抽取具体的特征。

（3）抽象特征（abstract features）

如，预测每个使用者对每首歌曲的分数，输出很容易，就是1-100之间的数字，这是回归分析。输入呢？只有使用者ID和歌曲ID。输入是二维向量，但是和上面提到的密度这样具体的特征不一样，这个二维向量都是抽象的特征。所以，就要对使用者抽取特征，比如对哪些歌曲的喜欢，哪些不喜欢。也要对歌曲抽取特征，比如区分作曲者、曲风等。

越抽象对机器越困难。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MachineLearning(Hsuan-Tien Lin)第三讲

第三讲机器学习的类型：1、根据输出空间（1）分类(Classification)问题上一讲说到要不要给顾客信用卡，输出是+1和-1，这是二元分类问题。二元分类(Binary classification)问题概况起来就是：给计算机上面这些x（红色）和o（蓝色）的点，让它在这个平面找到一条线把平面分成两个部分，线的一边都是红色的x，另一边都是蓝色的o 。之后，有新
复制链接

扫一扫

专栏目录

DanaMeng CSDN认证博客专家 CSDN认证企业博客

码龄13年

35: 原创

118万+: 周排名

131万+: 总排名

3万+: 访问

: 等级

784: 积分

10: 粉丝

10: 获赞

6: 评论

16: 收藏

私信

关注

热门文章

分类专栏

最新评论

《A Few useful things to Know About machine Learning》读后感
超粉红毛毛兔: 大哥无敌了大哥
MachineLearning(Andrew)Week1
seabeam: 补充一处文中描述容易误解的地方，牛顿迭代法≠梯度下降法，牛顿迭代法（也就是文中取切线横截距作为新的θ）是二阶收敛的，而gradient decent是一阶收敛的
Machine Learning(Andrew)Week3（上）
seabeam: 赞一个，把背后很多数学细节补充进来了。然而现在苦逼算偏导中，高数不过关，还没算出怎么最后偏导就和回归一样了
《A Few useful things to Know About machine Learning》读后感
lemonSongTech: 哈，学习的时候正准备翻译一篇，被你抢了先机啦。多谢多谢！
《A Few useful things to Know About machine Learning》读后感
DanaMeng 回复春夏秋冬又一年: O(∩_∩)O谢谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。