《白话强化学习与PyTorch》第1章 强化学习是什么----读书笔记

强化学习主要是(Reinforcement learning)是一个独立的机器学习研究领域。

1.监督学习:

监督学习主要希望研究映射关系:

\begin{equation} y=f(x \mid \theta) \end{equation}

\begin{equation} \theta \end{equation}:它是待定系数。

 机器学习范畴:知道x,y,不知道\begin{equation} \theta \end{equation}。反向推导出“\begin{equation} \theta \end{equation}

训练过程:足够的x,及对应的y,作为参数,逐步求出待定系数\begin{equation} \theta \end{equation} 的过程

当通过这样一个过程学习到\begin{equation} \theta \end{equation} 应该为什么值的时候,如果再有x,通过函数 \begin{equation} y=f(x \mid \theta) \end{equation}

 可以计算出y的值。

这是监督学习中一个典型问题---线性回归。

2.非监督学习:

入门算法k-means.

在一个空间中,有很多的空间点向量(Vector),这些点在空间中的分布很可能是不均匀的。

是否能够找出各自分布的区域的中心点位置?通过k-means算法可以做到。

例子:用户的年龄、收入、贷款金额数据,通过聚类找出人群的分布,研究相同分布下的这些点的共性,针对不同的人群尝试设计相应的产品和业务,以分别满足他们的需要。

另外,可以研究离群点,它们为什么特殊?数据收集系统本身的问题还是这个点本来就是个“异类”。如诈骗事件的特征点描述。

模型体系,方法论

迁移学习(Transfer Learning)、生成对抗网络(Generative Adversarial Networks,GAN)、强化学习

处理数据,建模,训练,调优

1.1 题设

我们希望机器人足够“智能”:推理能力,判断能力,分析能力。基于这些能力自动进化,完成任务。

未来机器人电影:《终结者》《机器人总动员》

人形机器人的研究范畴:材料学,工程力学,大规模集成电路,高精度传感器工程学

算法,机器学习只占了其中一小部分。

基于海量样本训练的阿尔法围棋(Alphago)惊叹表现

问题:人脸识别(face Recognition),物体识别(Object Detective)等可以通过强化学习实现吗?

1.1.1 多智能才叫智能

强化学习:优美自然的推理过程

深度神经网络,是仿生学对人体神经结构顶礼膜拜在计算机领域的完美落地

遗传算法:大大减少计算量,对于NP问题等复杂问题有着极高的提升效率的作用

自举:自己抓着自己的头发把自己举起来

神经网络之间的信号传递、遗传因子,“孟山都”

1.1.2 人工智能的定义

到底什么是人工智能?

机器自己分析、思考、进化?

有多少“人工”,就有多少“智能”

艾伦 麦席森 图灵 图灵测试(The Turing test):将一个测试者(一个人)与被测试者(一台机器)隔开,由测试者通过一些装置(键盘等)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。

人工智能:高质量自动化过程,只要它能在人类关心的范畴高质量地完成作业就够了。

在一定的应用范畴提高自动化程度、降低错误率、或者能在错误率与人类相当的情况下极大地提高处理效率,给出的结果和我们期望由一个人来完成工作的结果很接近,就可以了。

1.2 强化学习的研究对象

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值