人工智能学习笔记(一)Agent

开篇前言

这段时间找工作,发现自己太菜了,一直刷题也刷不动,索性总结一下以前学习的课程。在外留学的这两年学了好多东西,无奈总不用都忘记了。所以我决定开始写博客,整理一下以前的学习资料,感觉好多东西不看都忘记了,学费挺贵的,我不能把知识还给老师。本系列博文覆盖内容为search,KRR和planning,教材为人工智能:一种现代的方法(第三版)。笔记中也会记录老师引申出的一些内容,原书中是没有的。作者水平有限,希望大家多多指点。这篇文章的内容在书上第二章。(PS:去年年中出了第四版,不过是英文的,1800一本好贵呀,买不起ค(TㅅT)ค)

agent的分类

1、简单反射agent

简单反射agent是最简单的agent,这类agent仅仅基于当前的感知来做决定。
在这里插入图片描述

2、基于状态的反射agent

这种agent的内部状态可以跟踪环境中不可见的相关方面,环境模型描述环境如何工作(环境状态如何受到动作的影响。
在这里插入图片描述

3、基于目标的agent

目标用于描述理想的情况。此时,agent结合目标和环境模型来选择行动。planning 和 search是人工智能子领域中致力于建立基于目标的agent。(PS:planning挺难的,当时我就没学会)
在这里插入图片描述

4、基于效用的agent

效用函数的出现使得agent将性能度量内部化。在一些不确定的情况下,agent会选择那些能让期望效用最大化的动作。
在这里插入图片描述
(PS:最近朋友圈里火了的那个自杀狼就是因为效用问题导致的狼的自杀。狼吃羊加10分,狼撞到障碍物扣1分。为了鼓励狼吃羊,每过1秒减0.1分。这导致了狼抓到羊也可能会是负分,可能不如直接撞死的好。我们可以把羊的分数按照时间递减,这样应该不会出现狼自杀的情况)

5、学习agent

动作选择元件跟上面讲的agent一样,跟前面的agent不一样的是学习agent多了学习元件。学习元件使用评判元件的反馈来修改动作的选择。学习agent中的问题生成器负责得到新的和有信息的经验的行动提议。
在这里插入图片描述

Exploration vs Exploitation

为什么我要写这一段东西那?这是因为学习agent其实是有一个基本原则困境的。那就是探索和利用(这个是我自己翻译的,第三版书上还没有这部分)。首先我们来看一下这两个词的定义。

  • Exploration: 采取其他(可能是随机的)行动来了解更多内容,希望找到比目前已知的内容更好的内容。
  • Exploitation: 为了有最好的结果,agent根据当前的知识,贪婪的使用已经学会的东西去做选择。
    这就是学习agent面临的困境。如果我们只为了最好的结果,一味的在每一步追求最优解,最终agent可能会被困在次优解。(比如贪心算法,总是选当前的最优解,可能最终得不到最优解,不过大部分时候贪心算法得到的结果都不错)所以agent必须进行探索以避免卡在次优行为。但是探索是有成本的,如何平衡exploration和exploitation是一个问题。通常情况下,我们建议agent在早期阶段的探索多余后期。(大家可以看看模拟退火算法).。
  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
人工智能研究中,状态空间法是一种基于解空间的问题表示和求解方法。该方法通过在可能的解空间内寻找一个解来求解问题。状态空间法以状态和算符为基础来表示和求解问题。在传统人工智能问题中,复杂的求解技术都离不开表示与搜索这两个方面的内容,其中状态空间表示是其中的一个重要概念。状态空间法采用试探搜索方法,在某个可能的解空间内寻找一个解来求解问题。图解人工智能第二章学习笔记中可能会涉及到状态空间法的概念和问题状态描述。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [人工智能及其应用——第二章学习笔记(上)](https://blog.csdn.net/JallinRicher/article/details/122752897)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [《人工智能及其应用》课程笔记(二)第2章 知识表示方法](https://blog.csdn.net/qq_46485137/article/details/122101559)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值