人工智能基础知识
- 诞生:达特莫斯会议
- 学派:符号主义,联接主义,行为主义
- 机器学习分为有监督学习和无监督学习
模糊理论
模糊集的定义
论域
X
X
上的模糊集合由隶属函数
μA˜(x)
μ
A
~
(
x
)
来表征,其中
μA˜(x)
μ
A
~
(
x
)
在实轴的闭区间
[0,1]
[
0
,
1
]
上取值,
μA˜(x)
μ
A
~
(
x
)
的值反映了
X
X
中的元素对于
A˜
A
~
的隶属程度。
经典集合的运算
μA∪B(x)=max{μA(x),μB(x)}
μ
A
∪
B
(
x
)
=
max
{
μ
A
(
x
)
,
μ
B
(
x
)
}
μA∩B(x)=min{μA(x),μB(x)}
μ
A
∩
B
(
x
)
=
min
{
μ
A
(
x
)
,
μ
B
(
x
)
}
μAc(x)=1−μA(x)
μ
A
c
(
x
)
=
1
−
μ
A
(
x
)
,
μBc(x)=1−μB(x)
μ
B
c
(
x
)
=
1
−
μ
B
(
x
)
μA−B(x)=min{μA(x),μBc(x)}
μ
A
−
B
(
x
)
=
min
{
μ
A
(
x
)
,
μ
B
c
(
x
)
}
μA⊖B(x)=min{μA−B(x),μB−A(x)}
μ
A
⊖
B
(
x
)
=
min
{
μ
A
−
B
(
x
)
,
μ
B
−
A
(
x
)
}
例题:
S={a,b,c,d},A={a,b,c},B={b,c,d}
S
=
{
a
,
b
,
c
,
d
}
,
A
=
{
a
,
b
,
c
}
,
B
=
{
b
,
c
,
d
}
使用隶属度表示
A,B
A
,
B
两个集合
A=1/a+1/b+1/c+0/d
A
=
1
/
a
+
1
/
b
+
1
/
c
+
0
/
d
B=0/a+1/b+1/c+1/d
B
=
0
/
a
+
1
/
b
+
1
/
c
+
1
/
d
A∩B=max(1,0)/a+max(1,1)/b+max(1,1)/c+max(0,1)/c+max(0,1)/d
A
∩
B
=
m
a
x
(
1
,
0
)
/
a
+
m
a
x
(
1
,
1
)
/
b
+
m
a
x
(
1
,
1
)
/
c
+
m
a
x
(
0
,
1
)
/
c
+
m
a
x
(
0
,
1
)
/
d
Ac=(1−1)/a+(1−1)/b+(1−0)/c+(1−0)/d
A
c
=
(
1
−
1
)
/
a
+
(
1
−
1
)
/
b
+
(
1
−
0
)
/
c
+
(
1
−
0
)
/
d
A−B=min(1,1)/a+min(1,0)/b+min(1,0)/c+min(0,0)/d=1/a+0/b,+0/c+0/d
A
−
B
=
m
i
n
(
1
,
1
)
/
a
+
m
i
n
(
1
,
0
)
/
b
+
m
i
n
(
1
,
0
)
/
c
+
m
i
n
(
0
,
0
)
/
d
=
1
/
a
+
0
/
b
,
+
0
/
c
+
0
/
d
隶属度函数
给定论域
U
U
上的一个模糊集合F用一个在闭区间上取值的隶属度函数
μF(U)
μ
F
(
U
)
表示, 即
μ
μ
隶属集合
F的程度:
μF:U→[0,1]
μ
F
:
U
→
[
0
,
1
]
A={(x,μA(a))|x∈X}
A
=
{
(
x
,
μ
A
(
a
)
)
|
x
∈
X
}
模糊集合表示
假设论域X={0,1,2,3,4,5,6,7,8,9},设A表示一个接近于0的模糊集合,各元素的隶属度函数依次为 {1.0,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1}, 则A可表示为:
- 特征函数法:
A={(x,μA(a))|x∈X}
A
=
{
(
x
,
μ
A
(
a
)
)
|
x
∈
X
}
{(0,1.0),(1,0.9),(2,0.8),(3,0.7),(4,0.6),(5,0.5),(6,0.4),(7,0.3),(8,0.2),(9,0.1)}
{
(
0
,
1.0
)
,
(
1
,
0.9
)
,
(
2
,
0.8
)
,
(
3
,
0.7
)
,
(
4
,
0.6
)
,
(
5
,
0.5
)
,
(
6
,
0.4
)
,
(
7
,
0.3
)
,
(
8
,
0.2
)
,
(
9
,
0.1
)
}
- 扎德表示法:
A=∑i=110μA(xi)xi=10+0.91+0.82+0.73+0.64+0.55+0.46+0.37+0.28+0.19
A
=
∑
i
=
1
10
μ
A
(
x
i
)
x
i
=
1
0
+
0.9
1
+
0.8
2
+
0.7
3
+
0.6
4
+
0.5
5
+
0.4
6
+
0.3
7
+
0.2
8
+
0.1
9
- 向量表示法
1,0.9,0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1
1
,
0.9
,
0.8
,
0.7
,
0.6
,
0.5
,
0.4
,
0.3
,
0.2
,
0.1
连续模糊集合
如果论域U是实数域,即U ,论域中有无穷多个连续的点,该论域称为连续论域 ,连续论域上的模糊集合可表示为 :
∫μ∈UμF(μ)dμ.
∫
μ
∈
U
μ
F
(
μ
)
d
μ
.
这里的积分号也不是通常的含义,该式只是表示对论域中每个元素 都定义了相应的隶属函数。
若以年龄作为论域,并设X=[0,200]。设O表示模糊集合“年老”, 其隶属度函数为:
μ(x)=⎧⎩⎨⎪⎪011+5x−520<x<50x>50
μ
(
x
)
=
{
0
0
<
x
<
50
1
1
+
5
x
−
5
2
x
>
50
年老的集合可以表示为:
∫0≥x≥500x+∫200≥x≥50[1+(5x−50)2]−1x
∫
0
≥
x
≥
50
0
x
+
∫
200
≥
x
≥
50
[
1
+
(
5
x
−
50
)
2
]
−
1
x
模糊集两要素:论域、隶属度函数
模糊集合的运算
- 模糊集合的相等:
若有两个模糊集合A和B,对于所有的 x∈X x ∈ X (对于每一个元素 x x ),下列关系成立:
则称模糊集合A模糊集合B相等。记作 A=B A = B 模糊集合的包含关系
若有两个模糊集合A和B,对于所有的 x∈X x ∈ X (对于每一个和元素x),下列管辖成立:
μA(x)≤μB(x) μ A ( x ) ≤ μ B ( x )
则称A包含于B,或者A是B的子集。记作: A⊆B A ⊆ B模糊集合的交集
若有三个模糊集合A,B,C, ∀x∈X ∀ x ∈ X ,均有:
μC(x)=μA(x)∧μB(x)=min[μA(x),μB(x)] μ C ( x ) = μ A ( x ) ∧ μ B ( x ) = m i n [ μ A ( x ) , μ B ( x ) ]
记作C为A与B的交集。记作: C=A∩B C = A ∩ B- 非运算
若有两个模糊集合A与B, ∀x∈X ∀ x ∈ X ,均有
μB(x)=1−μA(x) μ B ( x ) = 1 − μ A ( x )
则称B为A的补集,记作 B=A¯ B = A ¯ - 代数积
对于模糊集合A,B;他们的代数积为:
μAB=μAμB μ A B = μ A μ B - 代数和
模糊集合A和B的代数和为 A⊕B A ⊕ B
μA⊕B=μA+μB−μAB μ A ⊕ B = μ A + μ B − μ A B
模糊集合的相关定理
幂等律:
A∩A=AA∪A=A
A
∩
A
=
A
A
∪
A
=
A
结合律:
A∩(B∩C)=(A∩B)∩CA∪(B∪C)=(A∪B)∪C
A
∩
(
B
∩
C
)
=
(
A
∩
B
)
∩
C
A
∪
(
B
∪
C
)
=
(
A
∪
B
)
∪
C
交换律:
A∩B=B∩AA∪B=B∪A
A
∩
B
=
B
∩
A
A
∪
B
=
B
∪
A
分配律:
A∩(B∪C)=(A∩B)∪(A∩C)A∪(B∩C)=(A∪B)∩(A∪C)
A
∩
(
B
∪
C
)
=
(
A
∩
B
)
∪
(
A
∩
C
)
A
∪
(
B
∩
C
)
=
(
A
∪
B
)
∩
(
A
∪
C
)
吸收律:
A∩(A∪B)=AA∪(A∩B)=A
A
∩
(
A
∪
B
)
=
A
A
∪
(
A
∩
B
)
=
A
德摩根律:
A∩B________=B___∪A___A∪B________=B___∩A___
A
∩
B
_
_
_
_
_
_
_
_
=
B
_
_
_
∪
A
_
_
_
A
∪
B
_
_
_
_
_
_
_
_
=
B
_
_
_
∩
A
_
_
_
模糊集合的几何表示
将论域X的所有模糊子集的集合——模糊幂集合
F(2X)
F
(
2
X
)
看成一个超立方体
In=[0,1]n
I
n
=
[
0
,
1
]
n
,将一个模糊集合看成是立方体内的一个点。非模糊集对应立方体的顶点。中点离各顶点等距,最大模糊。
例如:
A=(1/3,3/4),Ac=(2/3,1/4),A∩Ac=(1/3,1/4),A∪Ac=(2/3,3/4)
A
=
(
1
/
3
,
3
/
4
)
,
A
c
=
(
2
/
3
,
1
/
4
)
,
A
∩
A
c
=
(
1
/
3
,
1
/
4
)
,
A
∪
A
c
=
(
2
/
3
,
3
/
4
)
越靠近模糊立方体的中点, A就越模糊。当A到达中点时,所有四个点 汇聚到中点处(模糊黑洞)。越靠近最近的顶点, A就越确定。当A到达顶点时,全部四个点发散到四个顶点,得到二值幂集合
2X
2
X
。模糊立方体将Aristotelian集合“流放”到顶点处。
熵的定义
A的模糊熵E(A),在单位超立方体In中从0到1,其中顶点的熵为0,表明不模糊,中点的熵为1,是最大熵。从顶点到中点,熵逐渐增大。
从几何图形上来考虑可以得到熵的比例形式:
E(A)=ab=l1(A,Anear)l1(A,Afar)
E
(
A
)
=
a
b
=
l
1
(
A
,
A
n
e
a
r
)
l
1
(
A
,
A
f
a
r
)
A=(13,34),Anear=(0,1),Afar=(1,0),a=13+14=712,b=23+34=1712,E(A)=717 A = ( 1 3 , 3 4 ) , A n e a r = ( 0 , 1 ) , A f a r = ( 1 , 0 ) , a = 1 3 + 1 4 = 7 12 , b = 2 3 + 3 4 = 17 12 , E ( A ) = 7 17
隶属函数的基本原则:
- 表示隶属度函数的模糊集合必须是凸模糊集合;
- 变量所取隶属度函数通常是对称和平衡的;
- 隶属度函数要符合人们的语义顺序,避免不恰当的重叠;
- 论域中的每个点应该至少属于一个隶属度函数的区域,同时它一般应该属于至多不超过两个隶属度函数的区域;
- 对于同一输入,没有两个隶属度函数会同时有最大隶属度;
- 对两个隶属度函数重叠时,重叠部分对于两个隶属度函数的最大隶属度不应该有交叉。
隶属函数的基本图形
- 左大右小的偏小型下降函数(Z函数)
- 左小右大的偏大型上升函数(S函数)
- 对称型凸函数(II函数)
模糊关系
- U、V是论域,则称集合
U×V=(u,v)|u∈U,v∈V
U
×
V
=
(
u
,
v
)
|
u
∈
U
,
v
∈
V
为笛卡儿积,以
U×V
U
×
V
为域,设
R∈F(U×V)
R
∈
F
(
U
×
V
)
,它的隶属函数:
R:U×V→[0,1] R : U × V → [ 0 , 1 ]
(u,v)⟼R(u,v) ( u , v ) ⟼ R ( u , v ) - 模糊关系的极大极小复合:
R1⋅R2={[(x,z),maxmin[μR1(x,y),μRT2]]} R 1 ⋅ R 2 = { [ ( x , z ) , m a x m i n [ μ R 1 ( x , y ) , μ R T 2 ] ] } 例题1:
例题2:
语言变量
压缩与扩张算子
Ak=∫X[μA(x)]k/x
A
k
=
∫
X
[
μ
A
(
x
)
]
k
/
x
k>1
k
>
1
,压缩(很);
k<1
k
<
1
,扩张,有点
模糊推理
例子:对于单一条件和单一规则
前提
x
x
是
前提 if x是A,then y是B
结果 y是
B~
B
~
例子:
前两部分称为激励强度和饱和度,表示规则前件部分被满足的程度。
模糊推理过程可分为四步
1.计算匹配度
2.计算激励度(某个规则激励程度)
3.对规则的后件作用激励强度,生成有效的后件的MF表示在一个模糊隐含句中
4.综合所有的有效后件,求得总输出MF
模糊推理系统
- 模糊推理系统是建立在模糊集合理论,模糊if-then规则和模糊推理等概念基础之上的先进的计算框架。
- 模糊推理系统包括三部分:规则库;数据库,所有隶属度函数;推理机制。
模式识别的原则
- 最大隶属原则——识别U的某个元素属于哪个已知模糊集合(概念)设 Ai∈F(U)(i=1,2,……,n) A i ∈ F ( U ) ( i = 1 , 2 , … … , n ) 对于 u0∈U u 0 ∈ U ,若存在k使得 Ak(u)=maxA1(u0),A2(u0),……,An(u0) A k ( u ) = m a x A 1 ( u 0 ) , A 2 ( u 0 ) , … … , A n ( u 0 ) 则认为 u0 u 0 隶属于 Ak A k 。
- 择近原则——识别
F(U)
F
(
U
)
某个元素属于哪个已知模糊集合(概念设
Ai∈F(U)(i=1,2,……,n)
A
i
∈
F
(
U
)
(
i
=
1
,
2
,
…
…
,
n
)
对于
B∈F(U)
B
∈
F
(
U
)
,若存在
k
k
使得
则认为 B B 与为一类
约束优化
约束优化的空间
解空间,非可行域,可行域,全局最优解。
处理约束优化问题的方法
一种是把有约束问题转化为无约束问题,再用无约束问题的方法求解;另一种是改进无约束问题的求解方法,使之能用于有约束的情况.
- 抛弃策略
- 修理策略
- 修改遗传算子
- 惩罚策略
罚函数
- 主要分为内罚函数和外罚函数。所谓的外罚函数法,就是以不可行解为搜索起始点,逐渐向可行域移动.内罚函数法则要求当解远离可行域的边界时,罚项较小;而当解逼近可行域的边界时,罚项趋于无穷大.
- 构造一个有效罚函数应考虑两方面:将一个不可行解变为可行解的最大代价(maximum cost)和期望代价(expected cost),这里的代价为不可行解到可行域的距离。罚项应该接近期望代价,可行解就越容易被找到。
- 构建罚函数的方法:
eval(x)=f(x)+p(x) e v a l ( x ) = f ( x ) + p ( x )
eval(x)=f(x)∗p(x) e v a l ( x ) = f ( x ) ∗ p ( x ) - 欠惩罚会导致最终解为非可行解
- 过惩罚导致最终解为局部最优
死亡惩罚
为了避免复杂罚函数的构造,Verdegay等将进化算法中的竞争选择用于约束处理,在比较两个解的性能时,采用如下准则:
1. 当两个均为不可行解时,违反约束程度较小者优于程度较大者;
2. 当两个解均为可行解时,目标函数值较小者优于较大者;
3. 如果一个为可行解,另外一个为不可行解,则可行解优于非可行解。
蚁群算法
设有
n
n
个城集, 任意两个城市
i,j
i
,
j
之间的距离为
dij
d
i
j
,求一条经过每个城市仅一次的路径
π=(π(1),π(2),⋯π(n))
π
=
(
π
(
1
)
,
π
(
2
)
,
⋯
π
(
n
)
)
,使得
∑i=1ndπ(i)π(i+1)+dπ(n)π(1)
∑
i
=
1
n
d
π
(
i
)
π
(
i
+
1
)
+
d
π
(
n
)
π
(
1
)
最小。
bi(t)
b
i
(
t
)
表示
t
t
时刻位于城市的蚂蚁个数,
m=∑i=1nbi(t)
m
=
∑
i
=
1
n
b
i
(
t
)
为蚂蚁的总个数。
τij(t)
τ
i
j
(
t
)
表示
t
t
时刻边上的额信息素量,
τij(0)=τ0
τ
i
j
(
0
)
=
τ
0
。随着时间的推移,新来的信息素要增加进来,旧的信息素要挥发,
1−ρ
1
−
ρ
表示信息素挥发的快慢。
τij(t+n)=ρτij(t)+Δτij
τ
i
j
(
t
+
n
)
=
ρ
τ
i
j
(
t
)
+
Δ
τ
i
j
Δτij=∑k=1mΔτkij
Δ
τ
i
j
=
∑
k
=
1
m
Δ
τ
i
j
k
Δτij
Δ
τ
i
j
表示本次周游中路径
ij
i
j
上的信息素增加量,初始时刻,
Δτij=0
Δ
τ
i
j
=
0
。
Δτkij
Δ
τ
i
j
k
表示第
k
k
只蚂蚁在周游过程中释放在上的信息素:
f(x)=⎧⎩⎨QLK0
f
(
x
)
=
{
Q
L
K
0
Q
Q
为常数,表示本次周游第
k
k
只蚂蚁所形成的回路长度。蚂蚁所在的那个城市由转移概率决定。
pijk=⎧⎩⎨⎪⎪⎪⎪ταijηβij∑s∈allowedkταisηβis0j∈allowedkelse
p
i
j
k
=
{
τ
i
j
α
η
i
j
β
∑
s
∈
a
l
l
o
w
e
d
k
τ
i
s
α
η
i
s
β
j
∈
a
l
l
o
w
e
d
k
0
e
l
s
e
其中
allowedk={0,1,...,n−1}−tabuk
a
l
l
o
w
e
d
k
=
{
0
,
1
,
.
.
.
,
n
−
1
}
−
t
a
b
u
k
表示蚂蚁
k
k
当前可以选择的城市集合,表示为禁忌表。
蚁群算法基本的运行过程是这样的:
m
m
只蚂蚁同时从某个城市出发,根据(4)选择下一次旅行的城市,已去过的城市放入中,一次循环完成后,由公式(1),(2),(3)更新每条边上的信息素,反复重复上述过程,直到终止条件成立。
群聚类
把待聚类的数据随机散布在一个平面上,放置若干只虚拟蚂蚁使其在平面上随机运动。当一只蚂蚁遇到一个数据时即拾起并继续行走,在行走过程中,如果遇到附近的数据与背负的数据相似性高于设置的标准时则将数据放置在该位置,继续移动。重复以上过程即可实现数据聚类。
粒子群算法(PSO)
建具有合作行为的群集人工生命系统,提出了五条基本原则:
(1)邻近原则(Proximity Principle):群体应该能够执行简单的空间和时间运算。
(2)质量原则(Quality Principle):群体应该能感受到周围环境中质量因素的变化,并对其产生响应
(3)反应多样性原则(Principle of Diverse Response):群体不应将自己获取资源的途径限制在狭窄的范围之内。
(4)稳定性原则(Principle of Stability):群体不应随着环境的每一次变化而改变自己的行为模式
(5)适应性原则(Principle of Adaptability):当改变行为模式带来的回报是值得的时候,群体应该改变其行为模式。其中4、5两条原则是同一个问题的两面。微粒群系统满足以上五条原则。
粒子群算法的速度更新
vd(t+1)=αvd(t)+c1rand(0,ϕ1)(pi,d−xd(t))+c2rand(0,ϕ2)(pg,d−xd(t))
v
d
(
t
+
1
)
=
α
v
d
(
t
)
+
c
1
r
a
n
d
(
0
,
ϕ
1
)
(
p
i
,
d
−
x
d
(
t
)
)
+
c
2
r
a
n
d
(
0
,
ϕ
2
)
(
p
g
,
d
−
x
d
(
t
)
)
x(t+1)=x(t)+v(t+1)
x
(
t
+
1
)
=
x
(
t
)
+
v
(
t
+
1
)
第一部分表示为微粒先前的速度乘以一个权值进行加速,表示微粒对当前自身运动状态的信任,依据自身的速度尽心惯性运动;第二部分为“认知”部分,表示威力自身的思考,即一个得到加强的随机行为在将来的出现几率增大。这里的行为即“认知”,并假设获得正确的知识是得到加强的,从而实现一个增强学习过程。第三部分为“社会”部分,表示微粒之间的信息共享与相互合作,“社会”部分可以通过Bandura的代理概念来理解。根据该理论,当观察者观察到某一行为被加强时,将增加他实行该行为的几率,即该微粒本身的认知将被其他微粒所模仿。
组合优化问题
TSP问题中的交叉和变异方式
PMX
OX
PBX
OBX
CX
变异
Inversion
Insertion
Displacement
Swap