长春理工大学本科毕业设计
第3章 博弈论及频谱共享算法研究
3.1 博弈论的定义
博弈论是研究具有斗争或竞争性质现象的理论和方法,是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的。具有竞争或对抗性质的行为称为博弈行为,在博弈行为中,参加斗争或竞争的各方各自具有不同的目标或利益,为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。博弈论的基本模型,可以通过以下4个方面进行描述。
[4]
(1)参与者(Player),又称“局中人”。指单独进行决策的个人或组织。博弈参与者的地位都是平等的,一旦制定好博弈规则,各参与者都应当按照规则做出决策。
(2)策略集(Strategies Set),指各参与者在进行决策时可选择的策略或行为的集合。
(3)效用(Utility),参与者的收益。对于参与者的每次策略选择,都有一个相对应的效用值,效用值参是关于参与者策略的函数,该函数被称为“效用函数”。 (4)均衡(Equilibrium)所有参与者的最优策略的集合。如果我们用集合N={ 1,2,..,N}表示博弈的参与者集合;第i个参与者的策略集记为Si,i=1,2,...,N,则整个策略空间可表示为:S1,S2,...SN。参与者i的收益用ui表示。根据以上定义,一个博弈过程G可以表示成如下形式:
G={S1,...Sn;u1,...un} (3-1)
以上几个方面是定义一个博弈时必须首先设定的,确定了上述4个方面就确定了一个博弈。常用G表示一个博弈,如G有n个博弈方,每个博弈方的全部可选策略的集合我们称为“策略空间”,分别用S1,...Sn表示;sij?Si表示博弈方i的第j个策略,其中j可取有限个值(有限策略博弈),也可以取无限个值(无限策略博弈);博弈方i的得益则用ui表示,ui是各博弈方策略的多元函数。 3.2 纳什均衡
博弈的解——纳什均衡,它是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应,假设有n个参与者参与博弈,每个参与者在给定其他参与者决策的情况下,选择对自己来说是优的决策,所有参与者的决策构成一个决策组合,这个决策集就是纳什均衡,当博弈达到均衡时,没有任何参与者会改变自己的决策企图来让自己的收益变得更高,也就是说,没有参与者会打破这种均衡。寻求纳什均衡就是博弈的终目的,是运用博弈论分析问题的重点。纳什均衡作为优的策略组合,因此任何参与者独立采取行为来改变自身的策略,都会导
5
长春理工大学本科毕业设计
致收益的下降。所有参与者关于博弈过程的进行终都会形成一个一致性预测,这个预测的结果就是纳什均衡。当所有参与者都预测到纳什均衡的存在时,每一个 参与者都不会违背这种均衡的决策,因为这样自己的利益就无法保证达到最大。 定义纳什均衡:在博弈G={S1,...Sn;u1,...un}中,如果各个博弈方的各一个策略组成的某个策略(s1,...,sn)中,任意一个博弈方i的策略si*,都是对其余博弈方策略的组合(s1,...,si,...,sn)而言的最佳策略响应,也就是对任意sij?Si
*******s ui(s1,...s?i,1i,?si,1*******?ui(s,...ss,s...)1?i,1i,j?s,i1n[5]
*,s ... (3-2) n )**都成立,则称(s1,...,sn)为G的一个纳什均衡。
3.3 常见的博弈方法和模型
常见的博弈方法有超模博弈、潜在博弈和重复博弈等,目前大量关于博弈论的研究中,很多是基于古诺模型、伯川德模型展开的。关于超模博弈具体应用在后面进行研究。
[6]
超模博弈,超模博弈是博弈论中另一个非常重要的概念,主要用于分析互补策略问题。
定理:如果参与博弈的所有参与者的策略空间SI?Rmi,且ui对于si,是二阶连续可微的,而且对于si的任何两个分量sij和sik,有下式
?2ui(s)?0,?j?k?N?sij?sik
那么这个博弈就称之为超模博弈。
(3-3)
潜在博弈,潜在博弈中存在能够反映任一博弈方效用函数的单向变化的潜在函数,是一种特殊类型的博弈。潜在博弈分为确定潜在博弈、加权潜在博弈、顺序潜在博弈、广义顺序潜在博弈,以及最佳响应潜在博弈等。
重复博弈,重复博弈是动态博弈中的一种重要的类型。在该博弈中存在多个相同结构的“阶段博弈”,每阶段博弈中,博弈方根据其他博弈方的策略进行决策,以实现最大收益,博弈方的最终收益是各阶段博弈收益的之和。
6
长春理工大学本科毕业设计
第4章 多个认知用户间的频谱共享策略
本章主要讨论了多个认知用户共享一个授权用户的频谱出现的博弈问题,该问题可用古诺博弈模型来解决。在该博弈系统中,授权用户对所有认知用户的单位频谱价格是相同的,认知用户之间不存在竞价,而是根据授权用户提出的价格函数来确定自己的频谱需求,使得其收益最大化,最终达到纳什均衡。 4.1 多认知用户频谱共享系统模型 4.1.1 频谱共享网络模型
本章研究的频谱共享模型如下图所示,假设存在一个主用户(即授权用户,下同),其得到的授权频段为F,有N个认知用户需要共享其频谱。在该授权频段中,主用户可以把空闲频段“出让”给认知用户;但是认知用户共享频谱时,需要向主用户支付一定的费用,价格函数和其共享的频谱数有关。在该策略下,单位频谱价格对各认知用户而言是相同的,但由于各自信噪比的不同得到不同的频谱数。
图4-1 多个认知用户博弈的频谱共享模型
如图4-1所示,图右侧主用户的总频谱F中,最长的频段表示主用户己经占用的频谱,最短的频段表示各用户之间的保护频段(频段很短且固定),与认知用户相连的频段表示认知用户共享主用户的那部分频谱。
在上述模型中,研究认知用户如何确定频谱的需求量以获得自己效用函数的最大化,而该问题可以转化为垄断的市场竞争问题。针对该问题建立古诺重复博弈模型,N个认知用户作为博弈的参与者,通过不断调整需求的频谱数,相互竞争,使得自身的利益最大化。
4.1.2 频谱共享的无线传输模型
假定认知用户使用自适应调制技术,传输速率能够依据信道质量动态调整。对于未编码的正交幅度调制(QAM),采用矩形的星座图(如4QAM\\16QAM)时,单输入单输出高斯噪声信道的误比特概率(BER),可以近似的表示为:
7
长春理工大学本科毕业设计
??1.5??? (4-1)BER?0.2exp?k ??2?1????tar其中,?表示认知用户的接收机信噪比,k是所用调制方式的频带利用率,k非负,为保证传输质量,设置误比特率的门限值为BER,则频带利用率为
1.5其中:K? (ln0.2/BERtar)k?log1K?? 2??
(4-2)
4.2 基于古诺博弈的频谱分配
针对多用户的频谱共享下频谱分配问题,以最大化认知用户的收益为目标,建立了认知用户的效用函数定义如下:
U?rkb?b,c??1,i... , N (4-3) iiiiiibi表 其中,ri表示认知用户i单位传输速率的收益,ki表示认知用户i的频率效率,示认知用户共享得到的频谱,ci表示主用户向认知用户提出的价格函数。在式中价格函数ci是线性函数,没有考虑认知用户频谱分配的偏好,若采用该效用函数不能满足特殊用户,具有局限性,因此本文中定义价格函数为:
?N?ci????jb?,?i?1,...N, (4-4)j?j?1?其中,?j表示授权用户对认知用户j分配频谱的偏好因子,?j?1。当?j?1时,授权用户和认知用户j有共享频谱的偏好,当?j?0时,授权用户和认知用户j没有共享频谱的偏好。该价格函数由所有认知用户共享的频谱与其影响因子之积的和而确定,因而对所有的认知用户都是一样的,认知用户共享的频谱越多,价格越贵。易得认知用户的效用函数为:
?NUi?rikib?b??ii??j?1 ?,?i,... , N (4-5)?jbj?1?对于上述效用函数,目前可以采用两种古诺博弈模型求解,即静态古诺博弈
和动态古诺博弈求解。
[7]
4.2.1 静态古诺博弈频谱分配
在博弈论中,纳什均衡是全部参与者最优策略的集合。为了简化问题,假设认知用户了解对方的效用函数(即在完全信息博弈下)。基于分配给其他认知用户的频谱B?i?(b1,...,bN),认知用户i的最优策略可以用下式来计算:
BRUxB(?i(B?i)?argmai?ib?i?ib{?}?)i, 1 , N2 (4-6)
****如果设置集合B?{b1,...,bi,...,bN}来代表博弈那什均衡,则有:
**j?i?。 bi*?BRi(B?,2,...,N,其中B?i表示认知用户j的最理想策略?i),?i?18
长春理工大学本科毕业设计
为了得到该纳什均衡态,分析认知用户的效用函数(4-5 )可知,效用函数是一个连续函数,对(4-5 )求导,得到认知用户的边际效用函数:
?N??Ui?rk??b ii??j?j???bi?j?1? 为了获得效用的最大值,需要求解方程:
b N , (4-7) j,?j?i1,2,...?Ui ?0,?i?1,2,...,N (4-8)?bi*****对于认知用户i,如果给定了其他认知用户j的策略B?i?{b1,...,bi?1,bi?1,...,bN}和
所有认知用户的影响因子,根据公式(4-7)就可以得到用户i的最理想的响应,同理,可以求得每个认知用户的最理想的响应,由公式(4-5)可以得到的集合就是纳什均衡的解。
[8]
4.2.2 动态古诺博弈频谱分配
在实际环境中,认知用户处于完全竞争的状态,即由主用户获取相关价格信息,而对其他用户决策和收益一无所知。因而只能通过自身信息和获取的价格信息调整自身频谱需求,从而实现自身收益的最大化。
假设认知用户在第i个迭代周期中的频谱设为bi(t),认知用户根据上一时刻的频谱效用来决定当前时刻的频谱需求。如果上一时刻频谱的增加导致效用减小,则认知用户在当前时刻选择减少频谱的需求,如果上一时刻的频谱的增加导致效用增大,则认知用户在当前时刻会选择增加频谱需求。因此,认知用户在t时刻的频谱需求和t??t时刻的频谱需求的关系,可表示为:
?Ubi(t??t)?bit(?)aibit()i (4-9) ?bi(t) ?Uia i是认知用户的调节速度(即学习因子),反映了t时刻的频谱效用和?bi(t)频谱数量的关系。当学习因子变大时,则调节速度也变快,然而如果学习因子过大,算法则有可能不存在收敛状态。在t??t时刻,认知用户只能与主用户通信并能够得到t时刻其他认知用户的一部分信息。将公式(4-7 )代入公式(4-9),博弈模型可以表示为:
t) bi(t??t)?ib(??N()t(i?rk??iaibi??j?1??j??jb?j,(?i?.. . , (4-10)bt1,2,Nj))为了计算简单,我们设定存在两个认知用户1和2。根据公式4-8,我们有:
t)1a1b()t(k21??()t ?b1(t??t)?1b(?1?r1?1b?b(?t)?2b(t)2(?r2k?222?b?(t)?b2(t??t)?2(b1(t),b2(t))到(b1(t??t),b2(t??t))的一个线性变换:
9
212)t ) (4-11) b (
1b(t)) 我们考虑认知用户的动态古诺博弈是否收敛。(4-11 )式可以看成是从