【机器学习基石】概述(一)


写在前面

本节内容主要是介绍什么是机器学习,以及机器学习在我们日常生活中的常见应用场景,它与我们的生活并不是分离开来互不影响的。最后引申了它与其他领域的一些关系,整体来说,本节内容较为简单。

本文整理自台湾大学林轩田的《机器学习基石》


1.什么是机器学习

∙ \bullet 机器学习(Machine Learning,简称ML)就是提供给计算机大量的数据,让它分析这些数据得到一些联系并且学会自己处理数据(学会技巧)。

d a t a → [ M L ] → s k i l l data \to \begin{bmatrix} ML \end{bmatrix} \to skill data[ML]skill

这里有一个形象的比喻来说明:Give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.

∙ \bullet 适合使用的场景。(通过以下三条可以判断能否使用机器学习)

▹ \triangleright 存在一些潜在的规律。

▹ \triangleright 难以用普通编程解决。

▹ \triangleright 存在学习的大量数据。

∙ \bullet 练习

判断下面哪一条最适合使用机器学习(ML):

a.预测婴儿下次哭泣发生在奇数分钟还是偶数分钟。

b.判断一张图中是否存在一个圆圈。

c.决定是否给一些银行顾客提供信用卡。

d.预测地球会不会因为大量使用核能而毁灭。


对于a,没有明确的规律

对于b,可以很轻易的描述圆圈

对于c,可以通过分析顾客的信息,来判断什么样的顾客可以放心的给信用卡,什么样的顾客不可以给信用卡,所以选c

对于d,没有大量的数据来进行分析


2.ML在日常生活中的应用

data表示需要的数据,skill表示机器学习后得到的技巧。

∙ \bullet :

▹ \triangleright data:销售量+顾客评价

▹ \triangleright skill: 分析得到怎么样搭配好看

∙ \bullet :

▹ \triangleright data:一些社交网站上对于餐厅的评价以及餐厅定位。(words+location)

▹ \triangleright skill:判断哪家餐厅干净卫生好吃,哪家餐厅服务差饭菜差。

∙ \bullet :

▹ \triangleright data:已经建好建筑物的特征以及耗能情况。

▹ \triangleright skill:判断这一栋房子盖好以后的耗能情况。

∙ \bullet :

▹ \triangleright data:一些交通标志的图像以及含义。

▹ \triangleright skill:正确分辨不同标志信号的含义,从而应用于无人驾驶中。

∙ \bullet 教育:

▹ \triangleright data:网上答题的正误情况

▹ \triangleright skill:分析每道题的难度等级,从而给答题者适合他自己的题目。

∙ \bullet 娱乐:

▹ \triangleright data:对于电影行业,使用者对不同电影的打分评价。

▹ \triangleright skill:预测使用者喜欢哪一类型电影,从而进行推荐。


∙ \bullet 练习

判断哪个领域不能使用机器学习

a.财经

b.医学

c.法律

d.以上领域都可以使用


对于a,预测股票的涨跌,可以使用ML

对于b,可以预测每种药的药效,可以使用ML

对于c,为法律学习者提供学习的摘要,帮助学习,可以使用ML

对于d,所以选d


3.ML的简单组成

∙ \bullet 简单组成

▹ \triangleright 输入x

▹ \triangleright 输出y

▹ \triangleright 函数 f : x → y f : x \to y f:xy (理想状态下的函数关系,很难得到)

▹ \triangleright data (样本数据),D={(x1,y1),(x2,y2),…(xN,yN)}

▹ \triangleright hypothesis (假设),一个机器学习模型会提供很多的假设,通过演算法A选择一个最接近函数 f 的函数 g 作为表达式。

{ ( x n , y n ) } f r o m   f → [ M L ] → g \left \{ (x_{n},y_{n}) \right \} from \ f \to [ML] \to g {(xn,yn)}from f[ML]g

∙ \bullet 练习

如何使用下面这些部分组合成歌曲打分系统的机器模型公式。

S1 = [0,100]

S2 = (使用者名字,歌曲名字)信息

S3 = 对使用者因素与歌曲因素进行相乘,得到一个分数。

S4 = 1,000,000条数据,每条数由((使用者名字,歌曲名字),打分)总成。


a. S1 =x , S2 =y, S3 = H ,S4 = D (H表示假设,D表示数据样本)

b. S1 =y, S2 =x, S3 = H ,S4 = D

c. S1 =D, S2 =H, S3 = y ,S4 = x

d. S1 =x , S2 =D, S3 = y,S4 = H


我们通过分析可以得到S1 为输出y,表示分数,S2为输入x,S3为演算法进行假设H,S4为样本数据data。

S 4 → A o n S 3 ( g : S 2 → S 1 ) S_{4} \overset{A on S_{3}}{\rightarrow}(g:S_{2} \to S_{1}) S4AonS3(g:S2S1)


4.ML与其他领域的联系

∙ \bullet ML与DM(数据挖掘 Data Mining)

DM是通过数据发现一些有关联的东西,如果要找的就是ML假设里面的关系式g,那么它们就是相同的。如果只是找出一些性质的话,那么ML可以通过性质得出关系式g,此时它们就是相互帮助的关系。

∙ \bullet ML与AI(人工智能 Artificial Intelligence)

AI就是通过学习变得非常聪明,而ML是通过学习趋向于很聪明,所以从这个角度来看的话,ML是实现AI的一种途径。

∙ \bullet ML与Statistic(统计)

Statistic就是通过大量的数据推出不知道事情,比如说求丢硬币正反面的概率,这个时候就要用到Statistic。因此可以看出来统计是实现ML的一种方法。

∙ \bullet 练习

下面哪句话的描述是错误的

a.ML是实现AI的一种方法

b.ML,DM,和Statistic都需要数据

c.DM是ML的另一个名字

d.statistic能帮助DM


很明显我们发现c是错误的,在特定情况下DM和ML是相同的,而其他情况则不同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

比奇堡咻飞兜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值