第八章博弈论ppt课件.ppt
《第八章博弈论ppt课件.ppt》由会员分享,可在线阅读,更多相关《第八章博弈论ppt课件.ppt(129页珍藏版)》请在三一办公上搜索。
1、第八章 博 弈 论 Game Theory,主 要 内 容,1.博弈论概述2.完全信息静态博弈3.完全信息动态博弈4.不完全信息静态博弈5.不完全信息动态博弈,一 博弈论概述,博弈论(Came theory)又称对策论、游戏理论或策略运筹学。它最早由德国数学家,哲学家莱布尼兹于1710年提出。1713年,杰姆斯瓦尔德格雷夫首次提出了博弈论中的极大中的极小定理(minimax)。然而,直到1944年,以冯诺依曼和奥斯卡摩根斯坦合著博弈论与经济行为一书的出版为标志,博弈论才得以广泛应用于经济学领域,并成为微观经济学的一个新的重要组成部分。,博弈思想最早产生于我国古代。早在两千多年的春秋时期,孙武在
2、孙子兵法中论述的军事思想和治国策略,就蕴育了丰富和深刻的对策论思想。孙武的后代孙膑,为田忌谋划,巧胜齐王,这个著名的“田忌赛马”,就是典型的对策思想的成功运用。,1994年10月11日,瑞典皇家科学院公布了该年度诺贝尔经济学奖评先结果:美国普林斯顿大学的纳什(F.J.Nash)和加利福尼亚大学的豪尔绍尼(J.Harsanyi)与德国波恩大学经济学家泽尔腾(Reinhard.selten),因长期致力于博弈论及其在经济学中运用的研究,共同获此殊荣。,纳什John Nash,2005年10月10日,瑞典皇家科学院在瑞典首都斯德哥尔摩的皇家科学院议事厅宣布,将2005年诺贝尔经济学奖授予有以色列和美
3、国双重国籍的罗伯特奥曼和美国人托马斯谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。,博弈论与传统经济学有关理论的区别,传统经济学涉及的个人决策,是在给定价格参数和收入的条件下,追求效用最大化的决策(消费者均衡或生产者均衡);个人效用只依赖于自己的选择,而外在于他人的选择;个人最优选择只是价格和收入的函数而不包含其他人选择的函数。在博弈论看来,个人效用不仅依赖于自己的选择,而且依赖于他人的选择;个人的最优选择是其他人选择的函数。,非合作博弈的发展,博弈论包括合作博弈与非合作博弈两种类型。我们谈到的博弈论,一般是指非合作博弈,如下象棋等。非合作博弈创立于50年代。1950年,22岁
4、的纳什连续发表两篇划时代的论文:N个人对策的均衡点与讨价还价问题,1951年又发表了非合作对策。(纳什均衡)塔克(A.Tucker)在1950年他的一篇名为两个之谜的论文中对“囚徒困境”作了明确的定义。他们两人的著作基本上奠定了现代非合作博弈论的基石。,泽尔腾则在60年代中期将纳什均衡的概念引入动态分析。他在1965年发表需求减少条件下寡头垄断模型的对策论描述一文,提出了“子博弈精炼纳什均衡”(Subgame perfect Nash equilibrium)的概念,又称“子对策完美纳什均衡”。这一研究对纳什均衡进行了第一次改进,选择了更具说服力的均衡点。,豪尔绍尼在60年代末把不完全信息引入
5、博弈分析。他在1967年发表的开拓性论文由贝叶斯局中人参加的不完全信息博弈中重新给出了不完全信息的新定义,并由此提出“贝叶斯均衡”的概念。进入80年代后,克瑞普斯(kreps)和威尔逊(wilson)则对不完全信息动态博弈的研究作出了突出的贡献,并提出了更高级的均衡概念:“贝叶斯精炼纳什均衡”或称“完美贝叶斯均衡”。,1博弈论在经济学领域中应用最广泛,最成功;博弈论的许多成果也是借助于经济学的例子来发展引申的;2经济学家对博弈论的贡献也越来越大,特别是在动态分析和不完全信息引入博弈后,例如克瑞普斯,威尔逊都是经济学家;3最根本性的原因是经济学和博弈论的研究模式是一样的,都强调个人理性,即追求给
6、定条件下效用最大化。,博弈专家之所以获经济学奖,原因大致有三点:,博弈论的基本概念,博弈是指一些个人、团队或组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自从中取得相应结果的过程。博弈论就是描述在这种形势下各方理性地选择自己的行动所实现的结果,分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。,例:房地产开发,1、A B两个开发商,投资1亿;2、如果市场上有两栋房出售,需求大,每栋:1.4亿;需求小,每栋:7千万;如果市场上有一栋房出售,需求大,每栋:1.8亿;需求小,每栋:1.1亿;3、开发与不开发。,8种可
7、能的结果,1、需求大,A开发,B不开发,则A的利润8千万,B的利润为0;2、需求大,A开发,B开发,则A的利润4千万,B的利润4千万;3、需求大,A不开发,B开发,则A的利润0,B的利润为8千万;4、需求大,A不开发,B不开发,利润各为0,5、需求小,A开发,B不开发,则A的利润1千万,B的利润为0;6、需求小,A开发,B开发,则A的利润-3千万,B的利润-3千万;7、需求小,A不开发,B开发,则A的利润0,B的利润为1千万;8、需求小,A不开发,B不开发,利润各为0,如果需求是不确定的,是否开发依赖于各自在多大程度上认为市场需求是大的及对方是否开发。例:如需求大的概率为0.3,A认为B开发的
8、可能性为x,那么A开发的期望利润为:Eu=0.34000 x+8000(1-x)+0.7-3000 x+1000(1-x)A不开发的期望利润为0。解Eu0 x31/40,博弈三要素、信息及博弈均衡,(1)局中人(player):指参加博弈的各个决策个体,既可以是自然人,也可以是团体。局中人都是“理性”的,即他清楚地了解自己的目标或利益所在,在决策时考虑自己的知识(信息)以及对其他局中人策略的期望,总是采取最佳行动(或策略)以实现其支付的最大化。虚拟局中人:自然,是外部随机变量,对所有利益主体都无差异。,(2)行动与策略(actions or strategies)。行动是局中人在博弈的某个时点
9、的决策变量;每一个局中人的所有可能选择的行动的集合称这该局中人的行动空间(action space);所有局中人的行动的一个有序集合称为该博弈的一个行动组合(action profile);策略是局中人在所有给定信息集(信息集是局中人在特定时刻进行决策时所面对的集合)下的行动规则,他规定局中人在什么时候选择什么行动。,策略和行动不是等同的,它是行动的规则而不是行动本身,策略必须具有完备性,即一个策略是关于行动的一个完整计划它明确了局中人在每一种可能情况下对可行动的选择;一个局中人所有可能策略的集合称为该局中人的策略空间(stratgy space),所有局中人策略的一个有序集合称为博弈的一个策
10、略组合(strategy profile。Si=si S=(s1,s2,si sn)如果一个策略规定局中人在每一个给定信息的情况下,选择一种特定的行动,则这个策略称为纯策略(pure strategies)。相反,如果一个策略规定局中人在每一个给定信息的情况下,以某种概率分布随机地选择不同的行动,则这种策略称为混合策略(mixed strategies),(3)支付(pay off):指在一个特定的策略组合下,局中人得到的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略选择的函数,它不仅取决于自己的策略选择,而且还取决于(他所设想的)所有其他局中人的策略选择,任何一个局中人改变自己的
11、策略都将影响其他局中人的支付水平,即,局中人之间的利益是相互牵制的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付组合(payoff profile。Ui=Ui(s1,s2,si sn)参与博弈的多个局中人的收益可用一个矩阵或框图表示,这种矩阵或框图叫做收益矩阵。,(4)信息(information):是局中人有关博弈的知识,特别是有关其他局中人的特征(如策略空间、支付函数等等)和行动的知识。信息集(information sets)是局中人在特定时刻进行决策时,所面对的信息变量值的集合。共同知识(common knowledge)是指“所有局中人知道,所有局中人知道所有局人知道,”
12、(或信息)。如果局中人的策略选择、支付函数等都是共同知识,则称之为完全信息(complete information),否则就是不完全信息(incomplete information),(5)博弈均衡(games equilibrium):是指所有局中人的最优策略组合。这里所讲的均衡与一般均衡是有区别的,前者是局中人的最优策略组合,即局中人之间的冲突与合作达到一种相对稳定的状态;而后者则是这种策略组合所产生的结果。从某种程度上讲是“均衡”和“均衡结果”的关系。前者是一种动态概念,后者是一种静态概念。与纯策略相对应的均衡是纯策略均衡,与混合策略相对应的均衡是混合策略均衡。,博弈的类型,根据博弈
13、者选择的策略,博弈论可划分为合作博弈与非合作博弈。纳什(Nash)、泽尔腾(Selten)和豪尔绍尼(Harsanyi)(1994诺贝尔经济学奖获得者)的主要贡献在于非合作博弈方面,而且现在大多数经济学家论及博弈时,也主要是指非合作博弈。,合作博弈和非合作博弈的区别在于人们的行动为相互作用时,当事人能否达成一个具有约束力(binding agreement)的协议。若有,就是合作博弈;否则就是非合作博弈。合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是无效率的。,从局中人行动的先后顺序可划分为静态博弈(Static game)
14、和动态博弈(dynamic game)。静态博弈是指在博弈中,局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。,从局中人是否具有有关其他参与人(对手)的特征、策略空间及支付函数方面的知识的角度,可划分为完全信息博弈(game of complete information)和不完全信息博弈(game of incomplete information)。此外,根据支付结构不同:常和与变和博弈,博弈的分类,博弈的表述方式:策略式与扩展式,策略式:支付矩阵,扩展式:博弈树,A,博弈论进入主流
15、经济学,反映了经济学发展的以下几个趋势:,第一,经济学研究的对象越来越转向个体,放弃了一些没有微观基础的假定,如消费函数及其投资函数、销售最大化等,一切从个人效用函数及其约束条件开始,解约束条件下的个人效用函数及其约束条件开始,解约束条件下的个人效用最大化问题而导出行为及均衡结果。,第二,经济学越来越转向人与人关系的研究,特别是人与人之间行为的相互影响和作用,人们之间的利益冲突与一致,竞争与合作的研究。第三,经济学越来越重视对信息的研究,特别是信息不对称对个人选择及制度安排的影响。,“完全信息”指的是每个局中人对所有其他参与人的特征(策略空间、支付函数等)有完全的了解,“静态”指的是所有局中人
16、同时选择行动且只选择一次。纳什均衡是完全信息静态博弈解的一般概念,也是所有其他类型博弈解的基本要求。先讨论纳什均衡的特殊情况,然后讨论纳什均衡的一般概念。,二 完全信息静态博弈,在策略式表述中,所有参与人同时选择各自的策略,所有参与人选择的策略一起决定每个参与人的支付。策略式表述给出:,通常情况下,每个局中人的支付是博弈中所有参与人策略的函数,故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊博弈中,一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择,即无论其他参与人选择什么策略,他的最优策略是唯一的,这种最优策略被称为“占优策略”(dominant strateg
17、y)。例:“囚徒困境”囚徒困境是博弈论中的经典案例。该故事讲的是,两个嫌疑犯作案后被警察抓住,分别被关在不同的房间里进行审讯。警察知道两人有罪,但缺乏有力的证据,除非两人之中有一个坦白。警察告诉每个人,他们的可选择的策略与支付如下表:,(一)占优策略均衡,在该博弈中,每个囚徒有两种可能选择的策略:坦白和抵赖。显然,无论同伙选择什么策略,每个囚徒的最优策略都是“坦白”。如,B选择坦白,若A选择坦白时支付为-8,选择抵赖时支付为-10,因而坦白比抵赖好;若B选择抵赖,A坦白时的支付为0,抵赖时为-1,因而坦白比抵赖好。即是说,“坦白”是A的占优策略。同样,“坦白”也是B的占优策略。,一般地,称 对
18、应地,所有的 被称为“劣策略”。注意:这里 在一个博弈里,可以预测到的唯一均衡,因为没有一个理性的参与人会选择劣若所有参与人都有占优策略存在,则占优策略均衡是策略。在囚徒困境的博弈里,(坦白,坦白)是占优策略均衡。,广告战,A,B,不广告,广告,不广告,10,5,15,0,6,8,10,2,(二)重复剔除的占优策略均衡,在绝大多数博弈中,并不存在占优策略均衡。但在有些博弈中,仍可应用占优的逻辑找出均衡。案例:“猪智博弈”猪圈里有两头猪(大猪和小猪),猪圈一头有一猪食槽,另一头安装着一个按制猪食供应的按钮,按一下钮,有8个单位的猪食进槽,但需2个单位的成本。两头猪有两种策略:按钮和等待。具体的博
19、弈支付和结果如下表:,按按钮对对吃食量的影响,智猪博弈,依赖于小猪的策略:若小猪选“等待”,大猪的最优策略是“按”;若小猪选“按”,大猪的最优策略为“等待”。因此,不能用上述占优策略找出均衡。可能的均衡是什么呢?若小猪是理性的,他只会选“等待”,因为“等待”严格优于“按”。假定大猪知道小猪是理性的,则会预测到小猪的选择;此时,大猪的最优选择只能是“按”。因此,(按,等待)是该博弈唯一的均衡。找出上述均衡的思路是:先找出某个参与人的劣策略(假定存在),把它剔除,重新构造一个不包含已剔除策略的新博弈;然后再剔除新博弈中某个参与人的劣策略;直至剩下一个唯一的策略组合。该策略组合就是博弈的均衡解,称为
20、“重复剔除的占优策略,均衡”。上例中,先剔除小猪的劣策略“按”,在新博弈中,小猪只有“等待”一个策略,大猪仍有两个策略,但“等待”是它的劣策略,剔除它,就剩下唯一的策略组合(按,待待)。占优策略是指一个参与人所有可选择的策略中严格优于所有其他策略的那个策略。但应用重复剔除方法寻找均衡时,一个策略是占优策略或劣策略只是相对于另一特定的策略而言的。,重复剔除的占优策略均衡:策略组合 称为重复剔除的占优均衡,若它是重复剔除劣策略后剩下的唯一均衡。若该唯一的策略组合是存在的,则该博弈是重复剔除占优可解的。例:找出下列博弈的重复剔除的占优策略均衡,解:,例:股份公司中,大股东与小股东 股票市场上,大户与
21、小户 新产品开发中,大企业与小企业“多劳不多得,少劳不少得”,(三)纳什均衡,纳什均衡(Nash equilibrium)是指这样一种均衡,博弈中的每个局中人都确信,在其他局中人策略给定的情况下,他选择了最优策略。博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。,容易检验,囚徒困境中的(坦白,坦白)是一个纳什均衡,而(抵赖,抵赖)不是一个纳什均衡,因为给定同伙选择抵赖,自己选抵赖得-1,选坦白得0,因而抵赖不是自己的最优策略,类似地,(坦白,抵赖)和(抵赖,坦白)也不是纳什均衡。同样(U,M)也是一个纳什均衡。在两人博
22、弈中,有一简单的方法。首先,考虑A的策略,对于每一个B的给定策略,找出A的最优策略,在其对应的支付下划一横线,然后,用类似的方法找出B的最优策略,若某个支付格的两个数字下都有横线,则该格对应的,策略组合就是一个纳什均衡。表,斗鸡博弈,A,B,进,退,进,退,-3,-3,2,0,0,2,0,0,麦片商博弈,A,B,咸麦片,甜麦片,-5,-5,10,10,10,10,-5,-5,*纳什均衡与占优策略均衡及重复剔除的占优均衡之间的关系,(1)每一个占优策略均衡、重复剔除的占优均衡一定是纳什均衡,但逆命题不一定成立。如在囚徒困境博弈里,(坦白,坦白)是一个占优策略均衡、重复剔除的占优均衡,也是一个纳什
23、均衡;猪智博弈中的(按,等待)是一个重复剔除的占优均衡,也是一个纳什均衡;但在表中的(D,R)是一个纳什均衡,但不是一个重复剔除的占优均衡或占优策略均衡。(2)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的策略组合不一定是纳什均衡,除非它是唯一的。如(抵,赖,抵赖)被剔除掉了,故它不是一个纳什均衡,而(坦白,坦白)是一个纳什均衡,故它没有被剔除掉。在表中,没有任何一个策略严格劣于另一个策略,因而没有一个策略组合能被剔除掉,即没有被剔除掉的策略组合很多,但(D,R)是唯一的一个纳什均衡。,有些博弈不存在纳什均衡。例一:社会福利博弈(支付矩阵如下表)。,(四)混合
24、策略纳什均衡,例二:猜谜游戏(猜硬币)(支付矩阵如下表)。,该博弈是一个零和博弈,没有纳什均衡。如(正面,正面)不是纳什均衡,因为给定B选正面,A的最优选择是反面。类似地,(反面,正面)、(反面,反面)、(正面,反面)都不是纳什均衡。这两个例子虽然不存在上面所定义的纳什均衡,但具有下面将要描述的混合策略纳什均衡。,纯策略和混合策略纳什均衡。如果一个策略规定参与人在每一个给定的信息情况下下只选择一种特定的行动,则称该策略为纯策略。若一个策略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则称该策略为混合策略。在博弈的策略式表述中,混合策略可定义为在纯策略空间上的概率分布。,社会福利
25、博弈的支付矩阵,假定政府的混合策略为G=(,1-)(即政府以的概率选救济,1-的概率选不救济),流浪汉的混合策略为L=(r,1-r)(即流浪汉以r的概率选找工作,以1-r的概率选游荡)。则政府的效用函数为:求其微分可得到政府最优化的一阶条件:在混合策略均衡,流浪汉以0.2的概率选寻找工作,0.8的概率选游荡。,问题是,解政府的最优化问题得到的却是流浪汉的混合策略。对此的可作如下解释:首先假定最优混合策略是存在的。给定流浪汉选择混合策略(r,1-r),政府选纯策略救济(即=1)的期望效用为:,选择纯策略不救济(即=0)的期望效用为:,如果一个混合策略 是政府的最优选择,则一定意味着政府救济与不救
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第八 博弈论 ppt 课件
![提示](https://www.31ppt.com/images/bang_tan.gif)
链接地址:https://www.31ppt.com/p-5308054.html