•
强化学习的思想源于行为心理学(
behavioural psychology
)的研究。
1911
年
Thorndike
提出了效用法则(
Law of Effect
):一定情境下让动物感到舒服的行为,
就会与此情景加强联系,当此情景再现时,动物的这种行为也更易再现;相反,让动
物感觉不舒服的行为,会减弱与此情景的联系,此情景再现时,此行为将很难再现。
换句话说,那种行为会被记住取决于该行为产生的效用。例如:在主人扔出飞盘时,
狗叼回飞盘给主人的行为获得了肉骨头,将会使得“狗叼回扔出的飞盘”这个行为和
“主人扔出飞盘时”这个情景加强了联系,“获得肉骨头”的效用将使狗记住“叼回
扔出的飞盘”的行为。
•
在给定情境下,得到奖励的行为会被“强化”而受到惩罚的行为会被“弱化”。这样
一种生物智能模式使得动物可以从不同行为尝试获得的奖励或惩罚学会在该情境下选
择训练者最期望的行为。这就是强化学习的核心机制:用试错(
trail-and-error
)来
学会在给定的情境下选择最恰当的行为。
Sutton
定义强化学习为:通过试错学习如何
最佳地匹配状态(
states
)和动作(
actions
),以期获得最大的回报(
rewards
)。
•
强化学习不仅直接模仿了生物学习的智能模式,而且也不像其它大多数机器学习方法
中,智能体需要被告诉去选择哪种动作,使用强化学习方法的智能体能够通过尝试不
同的动作,自主地发现并选择产生最大回报的动作。正如
Tesauro
所描述的那样:强
化学习使得智能体可以根据自己的经验进行自主地学习,既不需要任何预备知识也不
依赖任何外部智能“老师”的帮助。
•
生成器
G
:输入“噪声”
z
(
z
服从一个人为选取的先验概率分布,如均匀分布、高斯
分布等)。采用多层感知机的网络结构,用最大似然估计
(MLP)
的参数来表示可导映
射
G(z)
,将输入空间映射到样本空间。
•
判别器
D
:输入为真实样本
x
和伪造样本
G(z)
,并分别带有标签
real
和
fake
。判别器网
络可以用带有参数多层感知机。输出为判别样本是否为真实样本数据的概率
D(G(z))
。
•
在上图中,蓝色虚线表示判别器,黑色虚线表示真实数据分布,绿色实线表示生成器
生成的虚假数据分布,
z
表示隐向量,
x
表示生成的虚假图像
G(z)
。
▫ 在训练刚开始的时候,生成器和判别器的质量都比较差,生成器会随机生成一
个数据分布。
▫ 判别器通过求取梯度和损失函数对网络进行优化,将靠近真实数据分布的数据
判定为1
,将靠近生成器生成出来数据分布的数据判定为
0
。
▫ 生成器通过优化,生成出更加贴近真实数据分布的数据。
▫ 生成器所生成的数据和真实数据达到相同的分布,此时判别器的输出为
1/2
。
•
人工智能的训练是需要大量的数据集的,如果全部靠人工收集和标注,成本是很高的。
GAN
可以自动的生成一些数据集,提供低成本的训练数据。
•
把一种形式的图像转换成另外一种形式的图像,就好像加滤镜:把照片转换成油画。
•
语义网络(
semantic network
)提出于上世纪
60
年代,
是一种用图来表示知识的结构
化方式。由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关
系。
•
知识库的概念来自两个不同的领域,一个是人工智能及其分支
-
知识工程领域,另一
个是传统的数据库领域。由人工智能和数据库两项计算机技术的有机结合。知识库是
基于知识且具有智能性的系统。
• https://www.huaweicloud.com/product/nlpkg.html
•
发展历程介绍可参考《人工智能之知识图谱》
P3-5
• 1960
年提出了语义网络,作为知识表示的一种方式,主要帮助理解人类语言,最典型
的应用是
WordNet
,从不同维度表达词与词的语义关系
• 1980
年提出了本体论,先定义本体,再定义本体之间的关系,最典型且成熟的应用是
专家系统
• 1989
年提出万维网
• 1998
年从超文本链接到了语义链接,即对每一个网页加上语义的含义
• 2012
年,
Google
提出了知识图谱这一概念,目的是提升其系统的搜索效果
•
•
确定领域:一个大的知识图谱不一定是好的知识图谱。
•
知识映射:知识映射是建立从基础数据抽取出的结构化信息与知识图谱本体的映射关
系,例如抽取出的有关电影结构化信息与图谱本体映射关系
|||
知识映射是指建立两个
数据模型,利用相关语言或技术将模型之间的元素进行关系的链接形成网状结构。比
如从关系型数据库
→
图谱(也可直接到非关系型数据库,比如图数据库),可介绍图
数据库相关知识。
•
知识融合:数据存在重叠、不一致等特定时进行的数据处理,实体消歧
•
部分知识可参考:
https://support.huaweicloud.com/productdesc
kg/kg_02_0004.html#kg_02_0004__fig895816278185
•
图数据库:支持百亿级别数据存储、高性能高效查询、在线实时更新
•
自然语言处理:从结构化的数据库及半
/
非结构化的文本、语音、视频中抽取知识
•
人工智能:利用知识库模拟大脑思考,理解人类语言
•
结构化数据:酒店名、酒店地址、客房数等 非结构化数据:语音、视频或者酒店简
介 从中抽取关键信息(比较酒店整洁 靠近火车站等) 半结构化数据:比如简历这类,
每个人的简历复杂情况都不一样,有的人存在工作经历少、也有的人工作经历多。有
的人存在某项技术技能,也有人没有。以及存在一些信息系统也无法预料的信息。
• https://consumer.huawei.com/cn/mobileservices/music/
•
精准推荐:配合知识图谱,推荐系统形成用户画像,达成精准推荐。
•
语义搜索:华为
Petal
搜索引擎、别的搜索引擎能够精确定位你搜的知识。
•
智能对话机器人:
Siri
,小度小度,
Cortana
。
•
石油领域的图谱示例图,可以看到有油井、储层、区块等实体类型,油井还有自己的
属性信息。
•
通过搭建这样一个统一的知识图谱,一方面可以用来提供统一的知识库入口,搜索问
答这种,也能够结合图谱表征用到其他场景的模型中。
华为
MDC
,就是这样的一套智能驾驶计算平台,通过“平台
+
生态”的模式,使能智能
驾驶快速商用。
MDC智能驾驶计算平台
,主要含硬件平台、软件平台与配套的工具链,软件平台兼容
AUTOSAR
。
平台之下,可以与多个传感器、线控合作伙伴的产品对接;平台之上,支持感知、融合、
定位、决策、规划、控制等不同合作伙伴的应用算法。基于这些算法,实现不同的智能
驾驶使用场景,如长途货运、园区通勤等。
利用平台
+
生态的力量,降低成本,快速催熟智能驾驶的场景化落地。
数据服务
:
Octopus
数据服务提供对自动驾驶车辆采集的原始数据进行自动化处理,
方便开发人员数据管理、
KPI
统计和问题点回放定位,并通过标注平台进行新的训练
数据集加工。
▫ 数据存储:
PB
级海量数据存储,支持
OBS
数据导入和硬盘快递
▫ 流水线数据处理:
数据处理流水线自动完成
RosBag
数据解析、回放转码、统计
分析等功能
▫ 数据总览:
接管大屏和数据总览大屏支持快速一栏车队的数据和轨迹概况
▫ 数据回放:
数据回放支持查看路测过程中的各路传感器数据详细图像信息
▫ 标注平台:
在线标注提供人工标注和部分预置自动化标注能力,提升标注效率
▫ 数据管理:
支持
Pascal VOC
等业界主要数据集的生成、导入和管理
训练服务
:
Octopus
训练服务提供在线的算法管理和模型训练,方便开发者专注于核
心算法开发,无需过多关注底层资源。
▫ 训练任务:
支持多种
AI
框架,硬件加速模型训练
▫ 算法管理:
预置部分目标检测开源算法,快速上手模型训练
▫ 模型管理:
预置部分模型用于常见物体如乘用车、行人、大巴车、车道线、红
绿灯、可行驶区域等
▫ 算法迭代:
持续迭代标注算法,生成高质量感知算法训练数据集
▫ 模型评估:自定义多维度模型评估,持续优化模型精度
•
希迪智驾(简称
CiDi
)基于华为
MDC
智能驾驶计算平台,以及开放的
AUTOSAR
标准
架构,采用
CiDi
自研的多重异构融合感知、智能规划决策、自适应车辆控制、故障管
理与响应、功能安全等子系统,适配多场景感知决策配置方案,整车系统软硬件具备
极高的可靠性与可维护性,具备快速扩展和裁剪能力,满足多场景、多工况的自动驾
驶需求,可实现
L2
至
L4
不同等级智能驾驶方案的平滑演进。
CiDi
除了智能重卡商用
解决方案外,正继续基于华为
MDC
,在智慧公交、无人矿卡及智慧清扫车等多种车
型上进行智能驾驶量产方案部署测试,以实现该方案在不同车型上的适配与应用落地。
•
视频网站:
https://developer.huaweicloud.com/content/dam/cloudbu
develop/archive/china/zh-cn/developer/resource
tools/mdc/customer_case/CIDI&MDC%E6%99%BA%E8%83%BD%E9%A9%BE%E
9%A9%B6%E8%A7%86%E9%A2%91.small.h264.fps.mp4
• 1. ABC
• 2.
错