❤️【机器学习从入门到高手】第一章:绪论

在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。
譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。
图 Google成功预测H1N1
百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。
所以让我们开启机器学习新篇章,让机器学习更多的运用到我们的现实生活中吧!
在这里插入图片描述

一、人工智能和机器学习

在这里插入图片描述

包含关系:人工智能>机器学习>深度学习
人工智能是机器学习想达到的目标,而机器学习是达到人工智能的手段。
深度学习是机器学习的一个小部分。
在这里插入图片描述
人类设定好的天性本能
使用人工设定规则的问题

  • 很难考虑所有的可能性(永远无法超越其创造者)
    -耗费太多人力(不适合中小企业)

二、机器学习定义

1、什么是机器学习
写程序让其具备学习能力
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
2、机器学习=找一个函数的能力(根据数据)

  • 信号识别

f(脑电波) = “Deep Sleeping”

  • 图像识别

f(图片) = “Cat”

  • AlphaGo

f(棋盘) = “5-5”(next action)

  • 聊天机器人

f(“How are you?”) = “I am fine!”

3、更广泛的机器学习定义
从数据中自动提取知识
最常用定义:“计算机系统能够利用【经验】提高自身性能”
可操作定义:“机器学习本质就是一个基于【经验数据】的函数估计问题”
统计学定义:“提取重要模式、趋势,并【理解数据】,从数据中学习“

三、 机器学习的主要框架

请添加图片描述

1、A set of function
f1,f2,f3…
准备一个函数集合
2、Training Data
看到什么图片输出什么动物名称
function input:
function output:
有监督学习:所有的输入输出都是正确的,类似有老师监督。
3、Pick the “Best” Function
挑选出最好的函数 f ’
4、Using f '(测试过程)
给模型喂新的图片(测试数据),具备举一反三的能力,泛化能力。
请添加图片描述
机器学习模块

请添加图片描述

监督学习

  1. Regression(回归):函数的输出是一个标量或者数值

举例:预测PM2.5 输出过去的PM2.5的数值,预测明天的PM2.5

请添加图片描述
挑选出和实际最相符合的函数,进行预测。
2.Classification (分类)
输出标签
二分类:函数判断这张图片是不是猫

举例:垃圾邮件、过滤系统。给机器喂一大堆邮件,告诉他哪些是垃圾邮件,机器会自动学习。

多分类:从集合中把猫狗分出来

举例:文本分类。新闻分类,函数输入是新闻,函数输出是标签(政治、娱乐、体育…),学习出最优的判别器。

Classification—深度学习
请添加图片描述
请添加图片描述

半监督学习:减少对标签的需求量
有少量的有标签的数据集,还有大量的无标签的数据集

迁移学习
迁移学习是机器学习中的一个名词,是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响。迁移广泛存在于各种知识、技能与社会规范的学习中。

迁移学习专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。
请添加图片描述

无监督学习
机器看大量的文章,学会每个单词的意思。任何数据都没有标签。
结构化学习

强化学习
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

四、西瓜书的引言部分

  1. 基本术语
  2. 假设空间
  3. 归纳偏好
  4. "没有免费午餐"定理

1、基本术语

数据
请添加图片描述
泛化能力
机器学习的目标是使得学到的模型能很好的适用于“新样本”,而不仅仅是训练集合,我们称模型适用于新样本的能力为泛化(generalization)能力。
通常假设样本空间中的样本服从一个未知分布𝒟,样本从这个分布中独立获得,即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。
2、假设空间
在这里插入图片描述
3、归纳偏好
假设空间中有三个与训练集一致的假设,但他们对(色泽=青绿;根蒂=蜷缩;敲声=沉闷)的瓜会预测出不同的结果:
在这里插入图片描述
在这里插入图片描述
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,选最简单
的那个”。具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

4、”没有免费午餐“定理

一个算法𝒜如果在某些问题上比另一个算法ℬ好,必然存在另一些问题,ℬ比𝒜好,也即没有免费的午餐定理。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

快乐小多多

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值