马尔可夫决策规划4(2)

2018-12-17 12:37

定理4.7

??最优马氏策略总是存在的。(报酬函数r有界)

L?1D?{V?R????VM使得V?V?(?)},则当r有界时,V为有界

[证明] 记数集。

V?(?)??n??(?Pf)rfn?0i?0i?n?1n

?11?1??M?????n??????????M??n?0?11?1??M?????(L?1)M?1???

设上确界为V,则对于任意的??(L?1)M???n?????n?0?(L?1)M????

于是V为有界数集,所以V必有上确界(最小的上界)。

?0存在V?V,使得V?V*??

*D*???V(?)?V。 ?存在M使得?显然V?(?*)是??最优的。 [证毕]

注:这个定理实际上是在r-有界折扣模型上成立的,扩大了F有限折扣模型。 定理4.8 在r有界的范围内,

??最优平稳策略总是存在的。

?*??{f0,f1,f2,?,fn,?},?[证明] 由定理4.7,存在??最优马氏策略,设

记?'},则有V?(?')?V?(??)?? ?{f1,f2,?,fn,?'?TV(?)?T[V(?)??] ? f0?f0???V(?)?T[V(?)]??Pf0?? 即 ?f0?? TfV?(??)?V?(??)??'

0??'V(f)?V(?)??? ?0 ??'V(f? ?0)是???最优策略。 [证毕]

作业题: 对于F有限折扣模型,总存在最优平稳策略。

注意:在上述证明中均没有提到初始状态,这意味着我们得到的决策是相对于所

2009.11

1

有初始状态而言的一致最优策略。

综合结论可得出如下事实:在全体策略类?上寻求最优策略,等价于在平稳策略类上寻求最优策略。因为在平稳策略类上所获得的?-最优策略,在全体策略类?上对同一?来说,它同样是最优的。考虑到在状态集S为有限以及所有A(i)(i?S)均为有限的假设下,平稳策略类仅包含有限个不同的元素、或仅有有限个平稳策略,这就使得寻求最优策略的问题大为简化。

§4.3 策略迭代法

利用定理4.1(2)及定理4.5的结论可得如下策略迭代法的算法步骤:

第一步,策略求值运算 任取一个决策规则

f?F,i?S?{1,2,3....,l},求解如下l个线性方程组:

j?Sr(i,f(i))???p(j|i,f(i))V(j)?V(i)

或V?r(f)??P(f)V

?V(i)?V(f,i)。 其解?第二步,策略改进运算

将第一步求得的V(i)(i?S)代入(4.2)式,以求得一个新的决策函数

g?(g(1),g(2),......,g(l)),使其各分量分别满足下述关系:

max{r(i,a)???p(j|i,a)V(j)}

a?A(i)j?S?r(i,g(i))???p(j|i,g(i))V(j)j?S?r(i,f(i))???p(j|i,f(i))V(j)(i?S) (4.2)

j?S注意:若同时有几个a使(4.2)式左端达最大,则可任取其一作为g(i)(i?S)。 第三步,终止规则

若对所有的i?S,(4.2)式均成立等式,则终止计算,并有结论:

f?为?-

2009.11 2

最优策略;若至少存在一个i?S,使(4.2)式成立严格不等式,则以g代替f,并

??V(g)?V(f)。 转入第1步,此时有结论??下面来说明上述算法步骤的原理。对于任一个决策规则定出的g,按矩阵、向量符号书写为:

f?F,由算法第二步所

r(g)??P(g)V?(f?)?r(f)??P(f)V?(f?)

设计:V?(f?)?r(f)??P(f)V?(f?)

TgV?(f?)?r(g)??P(g)V?(f?)

于是可得到:

TgV?(f?)?V?(f?) ……………………….(4.3)

由定理4.4有:V?(g即经第二步所得的

?)?V?(f?)

g?至少是与f?一样好的策略。现分两种情况讨论:

1) 若式(4.3)等号成立,则由(4.2)式对任给的h?F必有

r(h)??P(h)V?(f?)?r(g)??P(g)V?(f?)?V?(f?)

??TV(f)?V(f) 此即h??由定理4.5知

f?是?-最优策略。

2) 若式(4.3)严格不等号成立,即

TgV?(f?)?V?(f?)

则由定理

????fV(g)?V(f)g4.1(2)知有?,即是比更好的策略,这种?策略得到改进。根据算法步骤,将转入第一步,并重复上述计算,直到程序终止。其

中需说明的是,由于F为有限集,而每次迭代都实现严格改进,因此不会出现循环现象,即经过有限次迭代后,将无法再做改进。于是根据前述论证,此时的全体策略?上是?-折扣最优的。

例4.1 设有一工厂为市场生产某种产品。每年年初对产品的销售情况进行一次检查,其可能结果有两种:销路好(记为状态1)和销路差(记为状态2)。若销路好,一年

2009.11

3

f?必定在

可获利6千元;若销路差,一年要亏本3千元。在每个状态,工厂管理人员采用的行动有两个:不登记广告(记做b)或登记广告(记做c)。若不登广告,自然无广告费;若登广告,一年要花2千元广告费。对于今年的各种状态所采取的行动,由于随机因素的干扰,转为下年初的状态概率及相应的状态花费的费用见表4.1。工厂希望考虑长期折扣期望收益,取折扣因子β=0.9。用策略迭代法求此MDP的最优决策及其最优值函数(计算取两位小数)。

表4.1 状态转移概率及费用表 状态i 行动 转移概率 报酬(千元) a?f(i) 1 2 b c b c p(1|i,f(i)) p(2|i,f(i)) 0.5 0.8 0.4 0.7 0.5 0.2 0.6 0.3 r(a,i) 6 4 -3 -5 [解]:由题设知,状态集S={1,2},行动集过程的决策准则共有4个,它们分别是

A(1)?A(2)?{b,c}。该Markov决策

f?(f(1),f(2))?(b,b),g?(g(1),g(2))?(b,c)h?(h(1),h(2))?(c,b),??(?(1),?(2))?(c,c)

1)任取一决策函数

?f?(f(1),f(2))?(b,b),(实际上V0.9(f)是最差的

折扣目标值),做策略求值运算,即解线性方程组

?6?0.9[0.5V1(1)?0.5V1(2)]?V1(1)? ?3?0.9[0.4V(1)?0.6V(2)]?V(2)111???V?(V(1),V(2))?(V(f,1),V(f,2)) 解得:1110.90.9

?(15.49,5.60)

2)将上述计算得到的

V1代入式(4.2),以求解新的决策函数

g1?(g1(1),g1(2))。注意到A(1)?{b,c},故(4.2)式当i?1时,取??0.9有

22??max?r(1,b)???p(j|1,b)V1(j),r(1,c)???p(j|1,c)V1(j)?j?1j?1??

?max{15.49,16.16}?16.16故取g1(1)?c。

2009.11 4

由于A(2)?{b,c},故(4.2)式当i?2时,取??0.9有

22??max?r(2,b)???p(j|2,b)V1(j),r(2,c)???p(j|2,c)V1(j)?j?1j?1??

?max{5.60,7.52}?7.52故取g1(2)3)以g1?c。此时显然有V0.9(g1?)?V0.9(f?)。

?(g1(1),g1(2))?(c,c)代替f转入第一步作策略求值运算,即解下述

线性方程组:

?r(1,c)??p(1|1,c)p(2|1,c)??V2(1)??V2(1)??r(2,c)????p(1|2,c)p(2|2,c)??V(2)???V(2)? ?????2??2??4??0.80.2??V2(1)??V2(1)?????? ?或有????50.70.3V(2)V(2)?????2??2?求解得:V2?(V2(1),V2(2))?(22.20,12.31)

4)将上述V2代入(4.2)式求解g2?(g2(1),g2(2))。与上同理,由于

A(1)?{b,c},故(4.2)式当i=1时有

22??max?r(1,b)???p(j|1,b)V2(j),r(1,c)???p(j|1,c)V2(j)?j?1j?1??

?max{21.54,22.20}?22.20故取g2(1)?c。类似地,由于A(2)?{b,c},故(4.2)式当i=2时有

22??max?r(2,b)???p(j|2,b)V2(j),r(2,c)???p(j|2,c)V2(j)?

j?1j?1???max{11.64,12.31}?12.31

故取g2(2)?c。

?g1?(c,c),这说明g1?注意到g2已无法再做改进,满足算法终止条件。故

?g2?g1?为??0.9之最优平稳策略。

相应的最优值函数为

2009.11

5


马尔可夫决策规划4(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:甘肃省会宁一中2016届高三上学期第一次月考化学试题(含答案)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: