欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    第八章博弈论ppt课件.ppt

    • 资源ID:5308054       资源大小:826.03KB        全文页数:129页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    第八章博弈论ppt课件.ppt

    第八章 博 弈 论 Game Theory,主 要 内 容,1.博弈论概述2.完全信息静态博弈3.完全信息动态博弈4.不完全信息静态博弈5.不完全信息动态博弈,一 博弈论概述,博弈论(Came theory)又称对策论、游戏理论或策略运筹学。它最早由德国数学家,哲学家莱布尼兹于1710年提出。1713年,杰姆斯瓦尔德格雷夫首次提出了博弈论中的极大中的极小定理(minimax)。然而,直到1944年,以冯诺依曼和奥斯卡摩根斯坦合著博弈论与经济行为一书的出版为标志,博弈论才得以广泛应用于经济学领域,并成为微观经济学的一个新的重要组成部分。,博弈思想最早产生于我国古代。早在两千多年的春秋时期,孙武在孙子兵法中论述的军事思想和治国策略,就蕴育了丰富和深刻的对策论思想。孙武的后代孙膑,为田忌谋划,巧胜齐王,这个著名的“田忌赛马”,就是典型的对策思想的成功运用。,1994年10月11日,瑞典皇家科学院公布了该年度诺贝尔经济学奖评先结果:美国普林斯顿大学的纳什(F.J.Nash)和加利福尼亚大学的豪尔绍尼(J.Harsanyi)与德国波恩大学经济学家泽尔腾(Reinhard.selten),因长期致力于博弈论及其在经济学中运用的研究,共同获此殊荣。,纳什John Nash,2005年10月10日,瑞典皇家科学院在瑞典首都斯德哥尔摩的皇家科学院议事厅宣布,将2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特奥曼和美国人托马斯谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。,博弈论与传统经济学有关理论的区别,传统经济学涉及的个人决策,是在给定价格参数和收入的条件下,追求效用最大化的决策(消费者均衡或生产者均衡);个人效用只依赖于自己的选择,而外在于他人的选择;个人最优选择只是价格和收入的函数而不包含其他人选择的函数。在博弈论看来,个人效用不仅依赖于自己的选择,而且依赖于他人的选择;个人的最优选择是其他人选择的函数。,非合作博弈的发展,博弈论包括合作博弈与非合作博弈两种类型。我们谈到的博弈论,一般是指非合作博弈,如下象棋等。非合作博弈创立于50年代。1950年,22岁的纳什连续发表两篇划时代的论文:N个人对策的均衡点与讨价还价问题,1951年又发表了非合作对策。(纳什均衡)塔克(A.Tucker)在1950年他的一篇名为两个之谜的论文中对“囚徒困境”作了明确的定义。他们两人的著作基本上奠定了现代非合作博弈论的基石。,泽尔腾则在60年代中期将纳什均衡的概念引入动态分析。他在1965年发表需求减少条件下寡头垄断模型的对策论描述一文,提出了“子博弈精炼纳什均衡”(Subgame perfect Nash equilibrium)的概念,又称“子对策完美纳什均衡”。这一研究对纳什均衡进行了第一次改进,选择了更具说服力的均衡点。,豪尔绍尼在60年代末把不完全信息引入博弈分析。他在1967年发表的开拓性论文由贝叶斯局中人参加的不完全信息博弈中重新给出了不完全信息的新定义,并由此提出“贝叶斯均衡”的概念。进入80年代后,克瑞普斯(kreps)和威尔逊(wilson)则对不完全信息动态博弈的研究作出了突出的贡献,并提出了更高级的均衡概念:“贝叶斯精炼纳什均衡”或称“完美贝叶斯均衡”。,1博弈论在经济学领域中应用最广泛,最成功;博弈论的许多成果也是借助于经济学的例子来发展引申的;2经济学家对博弈论的贡献也越来越大,特别是在动态分析和不完全信息引入博弈后,例如克瑞普斯,威尔逊都是经济学家;3最根本性的原因是经济学和博弈论的研究模式是一样的,都强调个人理性,即追求给定条件下效用最大化。,博弈专家之所以获经济学奖,原因大致有三点:,博弈论的基本概念,博弈是指一些个人、团队或组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自从中取得相应结果的过程。博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果,分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。,例:房地产开发,1、A B两个开发商,投资1亿;2、如果市场上有两栋房出售,需求大,每栋:1.4亿;需求小,每栋:7千万;如果市场上有一栋房出售,需求大,每栋:1.8亿;需求小,每栋:1.1亿;3、开发与不开发。,8种可能的结果,1、需求大,A开发,B不开发,则A的利润8千万,B的利润为0;2、需求大,A开发,B开发,则A的利润4千万,B的利润4千万;3、需求大,A不开发,B开发,则A的利润0,B的利润为8千万;4、需求大,A不开发,B不开发,利润各为0,5、需求小,A开发,B不开发,则A的利润1千万,B的利润为0;6、需求小,A开发,B开发,则A的利润-3千万,B的利润-3千万;7、需求小,A不开发,B开发,则A的利润0,B的利润为1千万;8、需求小,A不开发,B不开发,利润各为0,如果需求是不确定的,是否开发依赖于各自在多大程度上认为市场需求是大的及对方是否开发。例:如需求大的概率为0.3,A认为B开发的可能性为x,那么A开发的期望利润为:Eu=0.34000 x+8000(1-x)+0.7-3000 x+1000(1-x)A不开发的期望利润为0。解Eu0 x31/40,博弈三要素、信息及博弈均衡,(1)局中人(player):指参加博弈的各个决策个体,既可以是自然人,也可以是团体。局中人都是“理性”的,即他清楚地了解自己的目标或利益所在,在决策时考虑自己的知识(信息)以及对其他局中人策略的期望,总是采取最佳行动(或策略)以实现其支付的最大化。虚拟局中人:自然,是外部随机变量,对所有利益主体都无差异。,(2)行动与策略(actions or strategies)。行动是局中人在博弈的某个时点的决策变量;每一个局中人的所有可能选择的行动的集合称这该局中人的行动空间(action space);所有局中人的行动的一个有序集合称为该博弈的一个行动组合(action profile);策略是局中人在所有给定信息集(信息集是局中人在特定时刻进行决策时所面对的集合)下的行动规则,他规定局中人在什么时候选择什么行动。,策略和行动不是等同的,它是行动的规则而不是行动本身,策略必须具有完备性,即一个策略是关于行动的一个完整计划它明确了局中人在每一种可能情况下对可行动的选择;一个局中人所有可能策略的集合称为该局中人的策略空间(stratgy space),所有局中人策略的一个有序集合称为博弈的一个策略组合(strategy profile。Si=si S=(s1,s2,si sn)如果一个策略规定局中人在每一个给定信息的情况下,选择一种特定的行动,则这个策略称为纯策略(pure strategies)。相反,如果一个策略规定局中人在每一个给定信息的情况下,以某种概率分布随机地选择不同的行动,则这种策略称为混合策略(mixed strategies),(3)支付(pay off):指在一个特定的策略组合下,局中人得到的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略选择的函数,它不仅取决于自己的策略选择,而且还取决于(他所设想的)所有其他局中人的策略选择,任何一个局中人改变自己的策略都将影响其他局中人的支付水平,即,局中人之间的利益是相互牵制的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付组合(payoff profile。Ui=Ui(s1,s2,si sn)参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵。,(4)信息(information):是局中人有关博弈的知识,特别是有关其他局中人的特征(如策略空间、支付函数等等)和行动的知识。信息集(information sets)是局中人在特定时刻进行决策时,所面对的信息变量值的集合。共同知识(common knowledge)是指“所有局中人知道,所有局中人知道所有局人知道,”(或信息)。如果局中人的策略选择、支付函数等都是共同知识,则称之为完全信息(complete information),否则就是不完全信息(incomplete information),(5)博弈均衡(games equilibrium):是指所有局中人的最优策略组合。这里所讲的均衡与一般均衡是有区别的,前者是局中人的最优策略组合,即局中人之间的冲突与合作达到一种相对稳定的状态;而后者则是这种策略组合所产生的结果。从某种程度上讲是“均衡”和“均衡结果”的关系。前者是一种动态概念,后者是一种静态概念。与纯策略相对应的均衡是纯策略均衡,与混合策略相对应的均衡是混合策略均衡。,博弈的类型,根据博弈者选择的策略,博弈论可划分为合作博弈与非合作博弈。纳什(Nash)、泽尔腾(Selten)和豪尔绍尼(Harsanyi)(1994诺贝尔经济学奖获得者)的主要贡献在于非合作博弈方面,而且现在大多数经济学家论及博弈时,也主要是指非合作博弈。,合作博弈和非合作博弈的区别在于人们的行动为相互作用时,当事人能否达成一个具有约束力(binding agreement)的协议。若有,就是合作博弈;否则就是非合作博弈。合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。,从局中人行动的先后顺序可划分为静态博弈(Static game)和动态博弈(dynamic game)。静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。,从局中人是否具有有关其他参与人(对手)的特征、策略空间及支付函数方面的知识的角度,可划分为完全信息博弈(game of complete information)和不完全信息博弈(game of incomplete information)。此外,根据支付结构不同:常和与变和博弈,博弈的分类,博弈的表述方式:策略式与扩展式,策略式:支付矩阵,扩展式:博弈树,A,博弈论进入主流经济学,反映了经济学发展的以下几个趋势:,第一,经济学研究的对象越来越转向个体,放弃了一些没有微观基础的假定,如消费函数及其投资函数、销售最大化等,一切从个人效用函数及其约束条件开始,解约束条件下的个人效用函数及其约束条件开始,解约束条件下的个人效用最大化问题而导出行为及均衡结果。,第二,经济学越来越转向人与人关系的研究,特别是人与人之间行为的相互影响和作用,人们之间的利益冲突与一致,竞争与合作的研究。第三,经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影响。,“完全信息”指的是每个局中人对所有其他参与人的特征(策略空间、支付函数等)有完全的了解,“静态”指的是所有局中人同时选择行动且只选择一次。纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。先讨论纳什均衡的特殊情况,然后讨论纳什均衡的一般概念。,二 完全信息静态博弈,在策略式表述中,所有参与人同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。策略式表述给出:,通常情况下,每个局中人的支付是博弈中所有参与人策略的函数,故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊博弈中,一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择,即无论其他参与人选择什么策略,他的最优策略是唯一的,这种最优策略被称为“占优策略”(dominant strategy)。例:“囚徒困境”囚徒困境是博弈论中的经典案例。该故事讲的是,两个嫌疑犯作案后被警察抓住,分别被关在不同的房间里进行审讯。警察知道两人有罪,但缺乏有力的证据,除非两人之中有一个坦白。警察告诉每个人,他们的可选择的策略与支付如下表:,(一)占优策略均衡,在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都是“坦白”。如,B选择坦白,若A选择坦白时支付为-8,选择抵赖时支付为-10,因而坦白比抵赖好;若B选择抵赖,A坦白时的支付为0,抵赖时为-1,因而坦白比抵赖好。即是说,“坦白”是A的占优策略。同样,“坦白”也是B的占优策略。,一般地,称 对应地,所有的 被称为“劣策略”。注意:这里 在一个博弈里,可以预测到的唯一均衡,因为没有一个理性的参与人会选择劣若所有参与人都有占优策略存在,则占优策略均衡是策略。在囚徒困境的博弈里,(坦白,坦白)是占优策略均衡。,广告战,A,B,不广告,广告,不广告,10,5,15,0,6,8,10,2,(二)重复剔除的占优策略均衡,在绝大多数博弈中,并不存在占优策略均衡。但在有些博弈中,仍可应用占优的逻辑找出均衡。案例:“猪智博弈”猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽,另一头安装着一个按制猪食供应的按钮,按一下钮,有8个单位的猪食进槽,但需2个单位的成本。两头猪有两种策略:按钮和等待。具体的博弈支付和结果如下表:,按按钮对对吃食量的影响,智猪博弈,依赖于小猪的策略:若小猪选“等待”,大猪的最优策略是“按”;若小猪选“按”,大猪的最优策略为“等待”。因此,不能用上述占优策略找出均衡。可能的均衡是什么呢?若小猪是理性的,他只会选“等待”,因为“等待”严格优于“按”。假定大猪知道小猪是理性的,则会预测到小猪的选择;此时,大猪的最优选择只能是“按”。因此,(按,等待)是该博弈唯一的均衡。找出上述均衡的思路是:先找出某个参与人的劣策略(假定存在),把它剔除,重新构造一个不包含已剔除策略的新博弈;然后再剔除新博弈中某个参与人的劣策略;直至剩下一个唯一的策略组合。该策略组合就是博弈的均衡解,称为“重复剔除的占优策略,均衡”。上例中,先剔除小猪的劣策略“按”,在新博弈中,小猪只有“等待”一个策略,大猪仍有两个策略,但“等待”是它的劣策略,剔除它,就剩下唯一的策略组合(按,待待)。占优策略是指一个参与人所有可选择的策略中严格优于所有其他策略的那个策略。但应用重复剔除方法寻找均衡时,一个策略是占优策略或劣策略只是相对于另一特定的策略而言的。,重复剔除的占优策略均衡:策略组合 称为重复剔除的占优均衡,若它是重复剔除劣策略后剩下的唯一均衡。若该唯一的策略组合是存在的,则该博弈是重复剔除占优可解的。例:找出下列博弈的重复剔除的占优策略均衡,解:,例:股份公司中,大股东与小股东 股票市场上,大户与小户 新产品开发中,大企业与小企业“多劳不多得,少劳不少得”,(三)纳什均衡,纳什均衡(Nash equilibrium)是指这样一种均衡,博弈中的每个局中人都确信,在其他局中人策略给定的情况下,他选择了最优策略。博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。,容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选抵赖得-1,选坦白得0,因而抵赖不是自己的最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。同样(U,M)也是一个纳什均衡。在两人博弈中,有一简单的方法。首先,考虑A的策略,对于每一个B的给定策略,找出A的最优策略,在其对应的支付下划一横线,然后,用类似的方法找出B的最优策略,若某个支付格的两个数字下都有横线,则该格对应的,策略组合就是一个纳什均衡。表,斗鸡博弈,A,B,进,退,进,退,-3,-3,2,0,0,2,0,0,麦片商博弈,A,B,咸麦片,甜麦片,-5,-5,10,10,10,10,-5,-5,*纳什均衡与占优策略均衡及重复剔除的占优均衡之间的关系,(1)每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一个纳什均衡;猪智博弈中的(按,等待)是一个重复剔除的占优均衡,也是一个纳什均衡;但在表中的(D,R)是一个纳什均衡,但不是一个重复剔除的占优均衡或占优策略均衡。(2)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什均衡,除非它是唯一的。如(抵,赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,故它没有被剔除掉。在表中,没有任何一个策略严格劣于另一个策略,因而没有一个策略组合能被剔除掉,即没有被剔除掉的策略组合很多,但(D,R)是唯一的一个纳什均衡。,有些博弈不存在纳什均衡。例一:社会福利博弈(支付矩阵如下表)。,(四)混合策略纳什均衡,例二:猜谜游戏(猜硬币)(支付矩阵如下表)。,该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)不是纳什均衡,因为给定B选正面,A的最优选择是反面。类似地,(反面,正面)、(反面,反面)、(正面,反面)都不是纳什均衡。这两个例子虽然不存在上面所定义的纳什均衡,但具有下面将要描述的混合策略纳什均衡。,纯策略和混合策略纳什均衡。如果一个策略规定参与人在每一个给定的信息情况下下只选择一种特定的行动,则称该策略为纯策略。若一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则称该策略为混合策略。在博弈的策略式表述中,混合策略可定义为在纯策略空间上的概率分布。,社会福利博弈的支付矩阵,假定政府的混合策略为G=(,1-)(即政府以的概率选救济,1-的概率选不救济),流浪汉的混合策略为L=(r,1-r)(即流浪汉以r的概率选找工作,以1-r的概率选游荡)。则政府的效用函数为:求其微分可得到政府最优化的一阶条件:在混合策略均衡,流浪汉以0.2的概率选寻找工作,0.8的概率选游荡。,问题是,解政府的最优化问题得到的却是流浪汉的混合策略。对此的可作如下解释:首先假定最优混合策略是存在的。给定流浪汉选择混合策略(r,1-r),政府选纯策略救济(即=1)的期望效用为:,选择纯策略不救济(即=0)的期望效用为:,如果一个混合策略 是政府的最优选择,则一定意味着政府救济与不救济之间是无差异的,即:,上式意味着。即若 政府将选择不救济;若,,政府将选择救济;只有当 时,政府才会选择混合策略 或任何纯策略。要找出政府的均衡混合策略,需求流浪汉的最优化问题。流浪汉的效用函数为:,最优化一阶条件为:,因此,,该结论可解释为:若0.5,其最优选择是游荡;只有当=0.5时,他才选择混合策略或任何纯策略。,纳什均衡要求每个参与人的混合策略是给定对方的混合策略下的最优选择。故*=0.5,r*=0.2是唯一的纳什均衡。即在均衡时,政府以0.5的概率选救济,0.5的概率选不救济;流浪汉以0.2的概率选找工作,以0.8的概率选游荡。,也可从反面进行说明。假定政府认为流浪汉找工作的概率严格小于0.2,则政府的唯一最优选择是纯策略不救济;但若政府以1的概率选不救济,流浪汉的最优选择是找工作,这又将导致政府选择救济,流浪汉则选游荡,。因此,r0.2不构成纳什均衡。容易验证,0.5也都不构成纳什均衡。,社会福利博弈的反应曲线,0.5,0.2,NE,1,1,r,=(r),r=r(),纳什均衡的弱点:(1)多重性。同一博弈里有时会出现多个纳什均衡,即一般怀况下不能保证其唯一性。(2)有些纳什均衡并不合理。,如在“性别战”博弈中,有两个纯策略纳什均衡:(足球,足球),(芭蕾,芭蕾)。事实上,可以验证,还有一个混合策略纳什均衡,即男的以2/3的概率选择足球赛,以1/3的概率选择芭蕾舞;女的以1/3的概率选择足球赛,以2/3的概率选择芭蕾舞。,(五)最大最小(或最小最大原理)设2人博弈的局中人为甲和乙,甲的策略为,乙的策略为;二者的支付函数为:和,相应支付矩阵为:该博弈的支付矩阵如下表:第一行和第一列表示局中人的不同策略,其他的有序对表示局中人的支付,其中的第一项和第二项表示甲和乙在其对应策略下可获得的支付或收益,如f11和g11,局中人的目标是选择使自己的收益最大化的策略。,两人博弈的支付矩阵:,决策问题:假定支付为共同知识,如果甲知道乙采用策略yj,甲必然采取相应策略使自己的收益最大,即:在甲不知道乙会采取何种策略时,如果甲是一个风险规避者,他将从收益矩阵中找出自己的每一种策略下所能获得的最小支付,即先求解,然后再这些最小收益策略中选择收益最大的策略。即 该方法的合理性是无论对方采取何种策略,甲至少可获得这个最小值中的最大值,最小最大原理。局中人按该原则所确定的策略叫做稳妥策略。类似地,对乙也有:,用同样的方法可导出最大最小原理。即局中人先从支付矩阵中找出其每一种策略下的最大损失,然后从这些最大损失策略中选择损失最小的策略。例:寡头企业的博弈过程 两寡头企业甲和乙展开竞争,两者可采用三种经营策略(1,2,3),且甲在竞争中得到的收益恰好等于乙在竞争中失去的收益。甲的支付矩阵如下表:,1.乙先行动。若乙选1,则甲选3;乙选2,则甲选1;乙选3,则甲选1。乙在行动时会估计到甲的行动,它估计三种选择中的最高代价为策略1(损失900万),其次为策略2(损失600万),最低为策略3(损失为500万)。因此,乙必选代价最低的策略3。最大最小原理。结论:乙选择3,甲选1作为回应,乙损失500万,甲获益500万。乙的支付矩阵:,2.甲先行动。若甲选1,则乙选3;甲选2,则乙选2;甲选3,则乙选3。甲必在收益最小值中选最大值。最小最大原理。结论:甲选1,乙以3进行回应。甲得500万,乙损失500万。,三、完全信息动态博弈,(一)动态博弈的特点(1)静态博弈是一次定乾坤,而现实竞争中,行动往往有先有后,多有连续博弈:这一方先做出决策,另一方后做出对策,然后,这一方再做出对策,另一方再做出对策,只有经过多个回合的较量以后,才能有个水落石出。因此,构成动态博弈的是许多乃至无限个子博弈或阶段博弈。(2)静态博弈不一定考虑对手怎样应付自己的策略选择,而动态博弈必须预估对方各种可能反应,制定包括各种行动方案的策略。如果说,静态博弈的一个策略就是一个行动,动态博弈则一个策略包括一系列可能的行动。,(3)静态博弈面对既定策略(包括纯策略和混策略)进行自己的策略选择,动态博弈则必须首先识别对方策略选择的可信性问题,包括对自己不利的威胁和对自己有利的许诺。排除不可置信的威胁和许诺,是动态博弈有别于静态博弈的重要标志。(4)正因如此,静态博弈往往有不止一个、甚至无穷多个纳什均衡解,而动态博弈则可能减少乃至得到惟一纳什均衡解。,在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,且后行动者在行动之前能观测到先行动者的行动。通常用扩展式表述分析动态博弈。博弈的扩展式表述“扩展”的主要是参与人的策略空间。策略式表述简单地给出参与人有些什么策略可供选择,而扩展式博弈要给出每个策略的动态描述:谁在什么时候行动,每次行动有些什么具体行动可供选择,以及知道些什么。,(二)博弈的扩展式表述,博弈的扩展式表述包括以下要素:(1)参与人集合:i=1,2,n;此外,将用N表示虚拟参与人“自然”。(2)参与人的行动顺序:谁在什么时候行动。(3)参与人的行动空间:每次行动时,参与人有些什么选择。(4)参与人的信息集:每次行动时,参与人知道些什么。(5)参与人的支付函数:行动结束后,参与人得到些什么(支付是所有行动的函数)。(6)外生事件(即自然的选择)的概率分布。,如同两人有限策略博弈的策略式表述可用博弈矩阵表述一样,n人有限策略博弈的扩展式表述可用博弈树表示。以房地产开发为例。假定该博弈的行动顺序如下:(1)开发商A先行动,选开发或不开发;(2)在A决策后,自然选择市场需求的大小;(3)开发商B在观测到A的决策和市场需求后,决定开发或不开发。其博弈树如下表。博弈树给出了有限博弈的几乎所有信息,其基本构建包括:1.结(nodes):包括决策结(上面三个)和终点结(B的四个决策结)。前者是参与人采取行动的始点,后者是博弈行动路径的终点。此例中,决策结包括1个空心圆和6个实心圆,终点结包括对应8个支付向量的点。,A,2.枝(branches):枝是从一个决策结到它的直接后续结的连线,每一个枝代表参与人的一个行动选择。如A有两个选择,用“开发”和“不开发”两个枝表示。3.信息集(information sets)。博弈树上的所有决策结分割成不同的信息集。每个信息集是决策结集合的一个子集,该子集满足下列条件:(1)每个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。引入信息集的目的在于描述:当一个参与人要作出决策时,他可能并不知道之前发生的所有事件。,情形1:图2-1 中,假定B是在知道A和自然的选择后进行决策,此时,博弈树的7个决策结分割成7个信息集(每个信息集只包含一个决策结),意味着所有参与人在决策时准确地知道自己处于哪一个决策结。情形2:假定行动顺序如前,但B在决策时并不确切地知道自然的选择。此时,B的信息集由原来的4个变成2个,2个信息集分别对应着B的两个不同决策:若A开发,自己是否开发;若A不开发,B是否开发。用虚线将属于同一信息集的两个决策结连接起来(图2-2)。情形3:B知道自然的选择,但不知道A的选择(如B和A同时决策)。此时,B也有两个信息集,每个信息集包含两个决策结:两处信息集分别对应两种不同的决策:需求大是否开发和需求小是否开发(图2-3)。,A,A,情形4:B知道N的选择但不知道A的选择,A不知道N的选择(图2-4)。,(0,0),不开发,N,情形5:A既不知道N的选择也不知道B的选择,但B知道N的选择(图2-5)。,N,(4,4),(8,0),(-3,-3),(1,0),(0,8),(0,0),(0,1),开发,不开发,开发,不开发,开发,不开发,开发,A,A,A,A,开发,开发,不开发,大,小,B,B,(1/2),(1/2),不开发,图2-5,(0,0),一个信息集可能包括多个决策结,也可能只包括一个决策结,后者叫做单结信息集。若博弈树的所有信息都是单结的,该博弈称为完美信息博弈,它意味着博弈中没有任何两个参与人同时行动,且所有后行动者能确切地知道前行动者选择了什么行动,所有参与人观测到自然的行动。在博弈树上,完美信息意味着没有任何两个决策结是用虚线连起来的。另外,扩展式表述也可用来描述静态博弈。试写出囚徒困境博弈的扩展式表述。,(-8,-8),(0,-10),(-10,0),(-1,-1),坦白,抵赖,坦白,抵赖,A,A,B,坦白,抵赖,市场进入博弈,(0,300),该博弈中有两个纳什均衡(进入,合作),(不进入,斗争),但后一纳什均衡含有不可置信威胁。,从扩展式表述构造策略式表述。以房地产开发博弈为例。假定博弈开始之前自然就选择了“低需求”,且已成为共同信息;A先决策,B在观测到A的选择后再决策。则博弈的扩展式表述如下图(2-6)。注意:A只有一个信息集,两个可选择的行动,因而A的行动(策略)空间为SA=(开发,不开发)。但B有两个信息集,四个纯策略,即不论A是否开发,我开发;A开发,我开发,A不开发,我不开发;A开发,我不开发,A不开发,我开发;无论A是否开发,我不开发。若将B的信息集从左到右排列,上述策略可写成:开发,开发,开发,不开发,不开发,开发,不开发,不开发(如下表)。,(三)扩展式表述博弈的纳什均衡,从策略式表述中,该博弈有三个纯策略纳什均衡:(开发,不开发,开发),(开发,不开发,不开发)和(不开发,开发,开发)。在每一个均衡,给定对方的策略,自己的策略是最优的。前两个均衡的结果是(A开发,B不开发);第三个均衡的结果是(A不开发,B开发)。注意:为什么第三列第二行不是纳什均衡?在扩展式表述博弈中,所有n个参与人的一个纯策略组合 决定了博弈树上的一个路径。如,(开发,不开发,开发)决定博弈的路径为A开发B不开发(1,0)。,表-1 房地产开发博弈:策略式表述,每一个策略组合(从而博弈树的路径)决定了一支付向量。策略组合 是扩展式博弈的一个纳什均衡,如果对于所有的i,最大化(或 的期望值,如果自然行动的话),即:,(四)子博弈精练纳什均衡,1、一个例证:一个博弈可能有多个(甚至无穷多个)纳什均衡,究竟哪一个均衡更为合理,没有给出一个一般性的结论。最严重的是,纳什均衡假定每个参与人在选择自己的最优策略时假定所有其他参与人的策略选择是给定的。这样,纳什均衡就很难说是动态博弈的一个合理解,因为,在动态博弈中,参与人的选择有先有后,后行动者的选择空间依赖于先行动者的选择,而先行动者在选择自己的行动时不能不考虑自己的选择对后行动者的影响。而子博弈精炼纳什均衡(Selten,1965,1975)是对纳什均衡概念的第一个最重的改进,其主要目的是把“合理纳什均衡”与“不合理纳什均衡”分开。,仍以上面的房地产开发为例。复制图8-6。该博弈为一完美信息博弈,A先行动,B在知道A的选择后再行动。它有三个纳什均衡:(开发,不开发,开发),(开发,不开发,不开发)和(不开发,开发,开发)。,.对于(不开发,开发,开发)。该组合构成一纳什均衡,是因为B威胁不论A是否选择开发,自己都将选择开发;A相信了B的威胁,不开发是其最优选择。类似地,B假定A将选不开发;给定该假定,开发,开发是B的最优策略。但A为什么要相信B的威胁呢?如果A真选开发,B的信息集为x,显然,B的最优选择为不开发。若A知道B是理性的,A将选开发,逼迫B选不开发,自己得支什1,而不是选不开发,让B开发,自己得0支付。因而(不开发,开发,开发)是不可置信的。因为它依赖于B的一个不可置信的策略。.对于(开发,不开发,不开发)。尽管该结果(A开发,B不开发)似乎是合理的,但均衡策略本身是不合理的。若A选开发,B的信息集是x,最优选择是不开发。但若A选不开发,B的信息集是x,最,优选择是开发。故不开发,不开发不是B的合理策略,或它不是一个不可置信的策略。.对于(开发,不开发,开发)。这是一个合理的均衡。因为构成该均衡的每个参与人的均衡策略都是合理的。若A选开发,B的最优选择是不开发;若A选不开发,B的最优选择是开发。A预测到自己的选择对B选择的影响,开发是A的最优选择。均衡结果是A选开发,B选不开发,支付为(1,0)。事实上,(开发,不开发,开发)是该博弈唯一的子博弈精炼纳什均衡。,2、子博弈精炼纳什均衡 定义“子博弈”:条件(1):一个子博弈必须从一个单结信息集开始。即只有当决策者在原博弈中确切地知道博弈进入一个特定的决策结时,该决策结才能作为一个子博弈的初始结;若一个信息集包含两个以上的决策结,则无任何一个决策结可作为子博弈的初始结。显然,一个完美信息博弈的每一个决策结都开始一个子博弈。如图8-7,决策结x和它的后续结构成一个子博弈,同样x和它的后续结也构成一个子博弈。但图8-8中,这两个决策结都不能作为子博弈的初始结。,Z1,Z2,Z3,Z4,L,R,L,R,2,2,1,图8-8,U,D,条件(2):子博弈的信息集和支付向量都直接继承于原博弈,即只有当x和x”在原博弈中属于同一信息集时,它们在子博弈中才属于同一信息集;子博弈的支付函数只是原博弈支付函数留存在子博弈上的部分。尤其是,条件(1)和条件(2)意味着子博弈不能切割原博弈的信息集。图2-9。参与人2的两个信息集都是单结的,但因参与人3的一个信息集包含三个决策结(另一个信息集是单结的),参与人2的信息集不能开始一个子博弈,因为这样参与人3的信息集将被切割。,要求子博弈满足上述两个条件的目的是保证子博弈对应于原博弈中可能出现的情况。若条件不满足,参与人在原博弈中不知道的信息在子博弈中就变成知道的信息,从子博弈中得出的结论对原博弈就没有意义。如图2-9中,若从参与人2的左边开始一个子博弈,则参与人3的信息集就由原来的3个决策结变成2个决策结,他在子博弈中的选择就不同于原博弈中的选择。,1,定义子博弈精炼纳什均衡:扩展式博弈的策略组合 是一个子博弈精炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。显然,若整个博弈是唯一的子博弈,则纳什均衡与子博弈精炼纳什均衡是相同的(图8-8和8-9);若有其他子博弈存在,有些纳什均衡可能不构成子博弈精炼纳什均衡。如何理解“在每一个子博弈上给出纳什均衡”?若一个博弈有几个子博弈,一个特定的纳什均衡决定了原博弈树上唯一的一条路径,即“均衡路径”,博弈树上的其他路径称为“非均衡路径”。,在图8-6中,“A不开发xB开发(0,1)”是纳什均衡(不开发,开发,开发)的均衡路径,其他路径都是该纳什均衡的非均衡路径。纳什均衡只要求均衡策略在均衡路径的决策结上是最优的。而“在每一个子博弈上给出纳什均衡”意味着,构成子博弈纳什均衡的策略不仅在均衡路径的决策结上是最优的,而且在非均衡路径的决策结上也是最优的。这是两者的本质区别。这里的要点是,只有当一个策略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的策略。子博弈精炼纳什均衡就是要剔除那些只在特定情况下是合理的而在其他情况下并不合理的行动规则。,以房地产开发为例说明子博弈精炼纳什均衡概念。如图8-7。该博弈有三个子博弈(原博弈、子博弈(b)和(c),后两个实际是单人博弈)。有三个纳什均衡:(开发,不开发,开发),(开发,不开发,不开发)和(不开发,开发,开发)。在子博弈(b),B的最优策略是不开发;在子博弈(c),B的最优策略是开发,。纳什均衡(不开发,开发,开发)中B的均衡策略开发,开发在子博弈(c)上构成纳什均衡,但在子博弈(b)上不构成纳什均衡,因此,(不开发,开发,开发)不是一个子博弈精炼纳什均衡。类似地,纳什均衡(开发,不开发,不开发)也不是一个子博弈精炼纳什均衡。,而纳什均衡(开发,不开发,开发)中B的均衡策略不开发,开发无论是在子博弈(b)上还是在子博弈(c)上都构成纳什均衡(即若A开发,B不开发;若A不开发,B开发),因此,(开发,不开发,开发)是该博弈的唯一子博弈精炼纳什均衡。也就有理由相信,“A开发B不开发”是这个博弈唯一合理的均衡结果。例:扩展式博弈如下表,要求:(1)写出该博弈的策略式表述;(2)找出该博弈的子博弈、纳什均衡以及子博弈精炼纳什均衡。,(2,2),(3,1),(0,0),L,R,2,U,D,1,该博弈有两个子博弈(参与人2的决策结开始一个子博弈),纳什均衡(U,R)不是精炼均衡,因为从2的决策结开始的子博弈上,R不是一个均衡,而(D,L)是一个精炼均衡:当1选择D博弈进入2的决策结时,2选择L得到1,选择R得到0,因而2将选择L。,用逆推法求解子博弈精炼纳什均衡,给定博弈到达最后一个决策结,该决策结上行动的参与人有一个最优选择,这个最优选择就是该决策结开始的子博弈纳什均衡;然后,倒回到倒数第二个决策结,找到倒数第二个决策者的最优选择,这个最优选择与我们在第一步找出的最后一个决策者的最优选择构成从倒数第二个决策结开始的子博弈的一个纳什均衡;如此不断直到初始结,在这个过程的最后一步得到的整个博弈的纳什均衡也就是这个博弈的子博弈精炼纳什均衡。,(2,0),(1,1),L,R,2,U,D,1,(3,0),(0,2),U,D,三阶段完美信息博弈,子博弈精炼纳什均衡:(U,U,L),1,U和L分别是1和2在非均衡路径上的选择,参与人1在第一阶段选择U结束博弈,承诺行动与子博弈精炼纳什均衡,如果参与人能在博弈前采取某种措施改变自己的行动空间或支付函数,原来不可置信的威胁就可能变的可置信,博弈的均衡结果就会相应改变。这些为改变博弈结果而采取的措施即是“承诺行动”。如果一个承诺可以改变对手的最优选择,该承诺为完全承诺;如果一个承诺只是增加行动的成本而不是使该行动完全没有可能,该承诺为不完全承诺。,将承诺行动纳入模型的一个方法是明确将承诺行动作为初始阶段的“行动”包括在博弈中。例:在A决策前,B与某个客户签定一个合同,规定B交房的期限,如B不能履约,将赔偿客户3500万。这个合同就是一个承诺行动,这样B的开发,开发就是一个可置信的威胁,子博弈精炼纳什均衡是(不开发,开发,开发)

    注意事项

    本文(第八章博弈论ppt课件.ppt)为本站会员(sccc)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开