《白话强化学习与PyTorch》第1章强化学习是什么----读书笔记

夜空霓虹

于 2021-09-05 13:38:34 发布

阅读量650

点赞数 1

分类专栏：机器学习&深度学习文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhang_xiaomeng/article/details/120113433

版权

机器学习&深度学习专栏收录该内容

5 篇文章

订阅专栏

强化学习主要是(Reinforcement learning)是一个独立的机器学习研究领域。

1.监督学习：

监督学习主要希望研究映射关系：

$\begin{equation} y=f(x \mid \theta) \end{equation}$

$\begin{equation} \theta \end{equation}$ ：它是待定系数。

机器学习范畴：知道x,y,不知道 $\begin{equation} \theta \end{equation}$ 。反向推导出“ $\begin{equation} \theta \end{equation}$ ”

训练过程：足够的x,及对应的y，作为参数，逐步求出待定系数 $\begin{equation} \theta \end{equation}$ 的过程

当通过这样一个过程学习到 $\begin{equation} \theta \end{equation}$ 应该为什么值的时候，如果再有x，通过函数 $\begin{equation} y=f(x \mid \theta) \end{equation}$

可以计算出y的值。

这是监督学习中一个典型问题---线性回归。

2.非监督学习：

入门算法k-means.

在一个空间中，有很多的空间点向量（Vector），这些点在空间中的分布很可能是不均匀的。

是否能够找出各自分布的区域的中心点位置？通过k-means算法可以做到。

例子：用户的年龄、收入、贷款金额数据，通过聚类找出人群的分布，研究相同分布下的这些点的共性，针对不同的人群尝试设计相应的产品和业务，以分别满足他们的需要。

另外，可以研究离群点，它们为什么特殊？数据收集系统本身的问题还是这个点本来就是个“异类”。如诈骗事件的特征点描述。

模型体系，方法论

迁移学习（Transfer Learning）、生成对抗网络（Generative Adversarial Networks,GAN）、强化学习

处理数据，建模，训练，调优

1.1 题设

我们希望机器人足够“智能”：推理能力，判断能力，分析能力。基于这些能力自动进化，完成任务。

未来机器人电影：《终结者》《机器人总动员》

人形机器人的研究范畴：材料学，工程力学，大规模集成电路，高精度传感器工程学

算法，机器学习只占了其中一小部分。

基于海量样本训练的阿尔法围棋（Alphago）惊叹表现

问题：人脸识别（face Recognition），物体识别（Object Detective）等可以通过强化学习实现吗？

1.1.1 多智能才叫智能

强化学习：优美自然的推理过程

深度神经网络，是仿生学对人体神经结构顶礼膜拜在计算机领域的完美落地

遗传算法：大大减少计算量，对于NP问题等复杂问题有着极高的提升效率的作用

自举：自己抓着自己的头发把自己举起来

神经网络之间的信号传递、遗传因子，“孟山都”

1.1.2 人工智能的定义

到底什么是人工智能？

机器自己分析、思考、进化？

有多少“人工”，就有多少“智能”

艾伦麦席森图灵图灵测试（The Turing test）：将一个测试者（一个人）与被测试者（一台机器）隔开，由测试者通过一些装置（键盘等）向被测试者随意提问。进行多次测试后，如果有超过30%的测试者不能确定被测试者是人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。

人工智能：高质量自动化过程，只要它能在人类关心的范畴高质量地完成作业就够了。

在一定的应用范畴提高自动化程度、降低错误率、或者能在错误率与人类相当的情况下极大地提高处理效率，给出的结果和我们期望由一个人来完成工作的结果很接近，就可以了。

1.2 强化学习的研究对象

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。