返回列表 回復 發帖

合作的创建和博弈

本帖最後由 南山28子 於 2021-3-9 09:49 編輯

  合作的创建和博弈
  

  第二章的竞赛方法探讨了当一个给定的个体与许多使用各种不同策略的
  其他个体相互作用时所发生的情况。结果说明了"一报还一报"的明显
  成功。而且,仿真未来竞赛的生态分析表明,"一报还一报"将继续繁
  荣,最终被大家所采用。
  

  假设每个人最终都采用同样的策略,然后将会发生什么呢?人们有没有
  什么理由采用不同的策略呢?或者说,大家会保持选择这个公共的策略
  吗?
  

  回答这个问题的一个很有用的方法是由进化生物学家约翰·梅纳德·史密
  斯(MaynardSmith1974and1978)提出的。这个方法假设存在一个全部
  采用某一个特定策略的群体和一个采用另外不同策略的变异个体。如果
  这个变异个体能得到的收益比群体中的个体得到的更多,那就称这个变
  异策略能侵入这个群体。换句话说,整个群体都采用一个策略,而一个
  采用新的策略的个体进到这个群体中来。这个新来者将只和原有群体中
  的个体相遇。而原有群体中的个体可以看作只和原有群体中的另一些个
  体相遇,因为新来者只是群体中可以忽略的部分。因此,如果新来的个
  体在与原有的个体相遇时比两个原有的个体相遇时得分高,那么就称新
  来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体,所以
  侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出
  了进化方法的一个关键的概念:如果一个策略不能被其他策略侵入,这
  个策略就是集体稳定的。

这个方法的生物学意义是基于用适应性
  (即生存和后代的数量)来解释博弈的收益。由于所有变异都是可能
  的,如果有任何一个个体能侵入一个给定的群体,就可以假定变异有机
  会做到这一点。因此,只有集体稳定的策略才能在长期的均衡中使自己
  持续地作为大家都采用的策略。生物学的应用将在笫五章中讨论。但现
  在要指出的是,集体稳定策略的重要性在于只有它能面对任何可能的变
  异而保持整个群体的稳定。把集体稳定性应用到对人类行为的分析是为
  了发现什么样的策略能持续被一个群体采用而不至于去采用其他可能的
  策略。如果有一个更成功的可选策略存在的话,它就可能被"变异"的
  个体通过有意识的分析,或者通过"试错方法"或者只不过是幸运来发
  现。如果所有人都采用一个特定的策略而有一些其他策略能在当前群体
  的环境中做得更好,那么迟早会有人发现这些策略的。所以只有不可侵
  入的策略才能使它自己持续地作为大家所采用的策略。
  





  

  需要提醒大家的是关于集体稳定策略的定义,它假设那些尝试新异策略
  的个体之间没有太多的接触。

就像以后要说明的一样,如果他们以
  小群体出现,情况将可能有新的非常重要的发展。
  

  把集体稳定性的概念应用到"重复囚徒困境",其问题在于很难真正地
  确定哪个策略具有集体稳定性,哪个没有。有人通过局限于分析简单策
  略的情况或者只考虑一些有限的策略集合来绕过这些困难。

由于可以做出在"重复囚徒困境"中的所有集体稳定策略的特点来,这个问题
  现在已经被解决了。这些特点将在附录B中给出。
  

  现在我们来着看一个特定的策略在什么条件下能够阻止其他策略的侵
  入。"一报还一报"是一个很好的例子。

"一报还一报"在第一步合
  作,然后重复对方上一步的选择。

因此一个采用"一报还一报"的群体
  将相互合作。每人每步将得到收益R。如果另一策略想侵入这个群体,  它就必须得到比这个更高的期望值。

什么样的策略与"一报还一报"的

  策略相遇能得到比这更高的收益呢?
  

  首先这个策略必须在某个时候背叛,否则的话它也就是和对方一样得到
  R。当它首先背叛时,它将得到较高的收益T。但是"一报还一报"接
  着也将背叛。显然,"一报还一报"只有在游戏能持续足够长的时间,
  使得它的报复能抵消对方背叛所得到的好处时才能避免被这个策略侵
  入。事实上,如果折扣系数W足够大,没有策略能侵入"一报还一报
  "。
  

  可以利用"一报还一报"只有一步记忆这一事实来说明这个问题。因为
  "一报还一报"只有一步记忆。那么有效的挑战者可通过重复最好的合
  作和背叛的组合序列来获取最大利益。由于这个记忆是短暂的,重复的
  序列只需要两步。显然,这两步组合可以是DC(背叛合作交替)或
  DD(总是背叛)。如果这两个策略不能侵入"一报还一报",就没有
  任何策略可以侵入它。那么"一报还一报"就是集体稳定的。
  

  这两个潜在的挑战者在第一步得到的比R多,但在第二步得到的比R
  少。因此,如果未来相对现在来说不是那么重要的话,他们就能得到好
  处。然而,如果w足够大,"总是背叛"和"背叛合作交替"的策略就
  不能侵入"一报还一报",而且如果这两个策略不能侵入"一报还一报
  ",那么其他策略也不能。这就是命题2。对它的证明在附录B中。
  

  命题2:当且仅当w足够大时"一报还一报"是集体稳定的。且W的临
  






  界值是四个收益参数TKPS的函数。

  这个命题的意义是:在全部采用"一报还一报"的群体中,每一个人都
  与其他人合作。只要未来对现在有足够大的影响,那么没有人能够通过
  采用其他策略而干得更好。换句话说,只要折扣参数大于四个收益参数
  所确定的要求,"一报还一报"就是不可侵入的。例如:假设在图1.1
  所示的收益矩阵中,T=5R=3,P=1S=0,那么,下一步相对于当前步
  的重要性至少是2/3时(即w≥2/3),"一报还一报"就是集体稳定的。
  在这些条件下,如果其他人采用"一报还一报"策略,你能做到的最好
  的结果就是和他们一样与他们合作。反之,如果w小于这个临界值2/3,
  其他人都采用"一报还一报"策略的话,"背叛合作交替"策略便会占
  便宜。如果W小于1/2,甚至"总是背叛"策略都会占便宜。
  

  这意味着如果对方明显虚弱,不能活太久,那么w的观察值就会下降,
  "一报还一报"的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培
  的同盟者停止与其合作解释道:"他们认为庞培的前途是没有希望的。
  他们按照逆境中一个人的朋友也会变成敌人"的一般规则行事(由雷克
  ·沃纳翻译,Warner1960,p.328)。
  

  另一个例子是一个濒于破产的公司要把应收账款卖给清算代理商。这个
  买卖将打很大的折扣。因为:
  

  一旦一个制造商开始走下坡路,即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力
  的道德执法者是持续的关系,即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者,任何手段都将无法代替
  Mayer1974,p.280)。

  

  相似地,一个被认为在下次选举中将落选的国会议员就很难在原有的信
  任和声誉的基础上和同僚们做立法交易。
  

  还有许多例子说明长期的相互关系对合作的稳定性的重要性。在一个稳
  定的小镇或同一种族的邻里之间就容易创建互惠的规范。相反,一个访
  问教授就很可能受到其他教工的冷落,而他们对待固定同事并不这样。
  

  人们会因为彼此之间存在持续的相互关系而合作。一个很有趣的实例发
  生在第一次世界大战的堑壕战中。在这个残酷的战争中,相互对立的人
  们之间发展出一个称为"自己活也让别人活"的系统。如果接到命令的
  话,部队就相互攻击。但是在大战役的空隙间,每一方都尽量避免太多
  地伤害对方,如果对方也是这样回报的话。这个策略并不一定是"一报
  还一报",有时是"一报还两报"。正如一个英国官员描述从法国手中
  接管一个新防区的回忆录中写的:
  


法国人实行的是在安静防区中不主动骚扰和只有受到挑战才给予强有力反击的策略。当我们从他们手中接管一个防区时,他们向我解释,他们所实行的被敌
  人所理解的准则是对方开一枪我们反击两枪,但从不首先开枪。(Kelly1930p.18

  

  这种心照不宣的合作是很不合法的,但也是很有特色的。尽管将军们有
  战争热情并努力推行长期消耗战术,但这个系统仍自我发展和完善了好
  几年。这个故事的丰富细节将在下一章描述。
  

  即使没有深入探讨堑壕战的细节,"一报还两报"策略的出现提醒我
  们,不要只局限于从纯"一报还一报"策略匆忙得出的结论。只有在未
  来的相互接触是足够重要的情况下,"一报还一报"才是集体稳定的。
  这一命题适用范围有多大呢?下一个命题说明这个结果确实是普遍的,
  实际上可以适用于任何可能首先合作的策略。
  

  命题3:只有当W足够大时,任何可能首先合作的策略才可能是集体稳
  定的。
  

  理由是,一个策略想要集体稳定,它就必须保护自己不受任何策略包括
  "总是背叛"策略的侵入。只要这个所考虑的策略一旦合作,"总是背
  叛"将在这一步得到T。另外,合作策略之间平均每步得分不会超过
  R。因此为了使这个群体平均不少于挑战者"总是背叛"的得分,这个
  策略群体的相互接触就必须持续足够长的时间,使背叛得到的好处在未
  来的接触中被抵消。这是问题的核心。正式的证明参见附录B
  

  "一报还一报"和一报还两报"策略都是"善良"的决策规则,它们决
  不会首先背叛。善良规则在阻止侵入时的优势是它们能得到在只包含一
  种策略的群体中所能得到的最高分数,这是采用相同策略的个体通过双
  方合作而实现的。
  

  "一报还一报"和"一报还两报"之间有共同的地方。他们都在对方背
  叛之后报复。这个观察引出一个一般性的原则,因为任何愿意合作的集
  体稳定策略必须以某种方式使它自己不会被挑战者占便宜。这个一般性
  原则是,善良的规则必须能被对方的第一个背叛所激怒,即意味着在而
  后的某一步这个策略必须有用自己的背叛反击的机会。
  

  命题4:对于善良的策略,如果是集体稳定的,它就必须能被对方的第
  一个背叛所激怒。
  

  道理是很简单的,如果一个善良的策略不被在第n步的背叛所激怒,那
  么它就不是集体稳定的,因为它能被只在第n步背叛的策略侵入。
  

  以上两个命题表明,如果未来对现在有足够大的影响且策略本身是可激
  怒的,那么一个善良的策略就可能是集体稳定的。但是不管折扣系数w
  的值和收益参数TRPS是多少,有一个策略总是集体稳定的,这
  就是"总是背叛"策略。
  

  命题5:"总是背叛"策略总是集体稳定的。
  

  如果对方一定背叛,你合作便毫无意义。在一个大家都采用"总是背叛
  "策略的群体中,每人每步得到P。如果没有其他人愿意合作的话,任
  何人没有办法做得比这更好。况且,任何合作的选择将得到"给笨蛋的
  报酬"S,而且将来没有任何机会补偿。
  

  这个命题对合作的进化有很重要的意义。如果我们设想一个系统,从一
  开始所有的个体就不愿合作。"总是背叛"的集体稳定性就意味着没有
  任何单一的个体可以指望比继续背叛和不合作做得更好。一个"小人"
  的世界可以阻止任何使用其他策略的个体的侵入,只要这个新来者每次
  都是单个的话。当然,问题就在于在这个"小人"的世界里没有人会回
  报任何合作。然而,如果新来者是一个小群体,它们就有机会速立合
  作。
  

  为弄清这是如何发生的,让我们看看第一章图1.1中收益矩阵的一个简
  单的数值例子。这个例子中"对背叛的诱惑"T=5,"对双方合作的奖
  励"R=3,"对双方背叛的惩罚"P=l。而"给笨蛋的报酬"S=0。还有
  假设双方再次相遇的概率是w=0.9。那么,在采用"总是背叛"的"小
  人"的群体中,每位将得到收益P,累计得分是10分。
  

  现在假设有几个采用"一报还一报"策略的个体。"一报还一报"与"
  总是背叛"相遇,"一报还一报"在第一步被占便宜,然后它就不再与
  这个"小人"合作,因此,它在第一步得0分,在而后每步得1分,累计
  9,这个分数比"小人"们相互之间得10分少一点。可是,如
  果"一报还一报"与另一个"一报还一报"相遇,它们从一开始就达成
  合作,并每步都得到3分,累计分为30分。这个得分比"小人"们自己
  相遇的得分10分大得多。
  

  如果这些采用"一报还一报"的新来者是整个群体可以忽略的部分,那
  么,"小人"们将总是与其他"小人"相遇,只能得到10分。因此,如
  果"一报还一报"能与其他"一报还一报"有足够多次的相遇,他们就
  能得到比10分更多的得分。如果它们有足够多的机会与那些回报它们合
  

  作的个体相遇(得30分)而不是与那些不合作的个体相遇(得9分),
  它们就能做到这一点。这个机会要多大才行呢?如果一个"一报还一报
  "与其他"一报还一报"相遇的比例是p,那么它与"小人"相遇的比
  例就是1-P。它的平均得分是30p+91-p)。只要这个得分大于10分,
  采用"一报还一报"就比采用大部分都采用的"小人"策略好,其实只
  要"一报还一报"有5%的比例与其他"一报还一报"相遇就行。
  因此,即使是一小群的"一报还一报"也能得到比它们所进人的群体的
  大部分"小人"更高的平均分。由于"一报还一报"之间相处得很好,
  所以它们并不需要太经常相遇,就能使它们的策略是首选策略。
  

  由此可见,一个"小人"的世界很容易被一小群"一报还一报"侵入。
  举例子来说,假设在一个商学院里教师告诉一个班的学生要他们在自己
  的公司里首先采取合作行为,并回报其他公司的合作。如果学生们果真
  按此去做,并且如果他们没有分散太广(使得他们有足够的机会与他们
  的同班同学相遇),那么,学生们将发现他们所学到的东西得到了报
  偿。按刚刚讨论的数值例子,一个开始采用"一报还一报"的公司,只
  要有5%的比例与其他采用相同策略的公司相遇,它们就会乐于合作。
  

  当期望的相互作用持续时间越长,或者说相互作用不会因时间的推移而
  明显减弱,所需的小群体就可以越小些。用w表示再次相遇的机会,假
  设游戏进行200步(相当于0.99654,在这个情况下只要有1‰的机会与
  相同的策略相遇,"一报还一报"就可以侵入"总是背叛"的世界中。
  即使在只有两步的游戏中(w=0.5),只要"一报还一报"有超过1/5
  机会与相同的策略相遇,它就能够成功地侵入,即合作就能出现。
  

  这种以一个小群体侵入的概念可以被精确定义并应用于任何策略。假设
  原有一个策略被一个群体的每个人都采用。有一个采用新策略的小群体
  来到,他们既与其他采用新策略的新来者相遇又与原来的个体相遇。采
  用新策略的新来者彼此相遇的比例是p。假定这一小群体的新来者相对
  于原有群体是很小的,使得实际上原有策略的个体都是与其他原有策略
  的个体相遇。那么,新来者的得分是彼此之间相遇的得分和与原来策略
  相遇的得分的加权平均。权重为这两个情况的出现频率p1-P。另一方
  面,由于新来者是很少的,所以原有策略的平均得分实际上等于原有策
  略与其他原有策略相遇的得分。因此,只要新来者相互之间相处得很好
  而且相遇的比例足够大,那么,就有理由认为,新来者能侵入原有策
  略。
  

  值得注意的是,上文的假设是,相遇的配对不是随机的。在随机配对的
  

  情况下,一个新来者可能难得与另一个新来者相遇,而且小群体的概念
  讨论的情况是:新来者对于原有群体的环境是微不足道的,但对新来者
  自己的环境来说却是重要的。
  

  下一个结果将说明以最小的群体侵入"总是背叛"的最有效的策略是什
  么。它们是那些能把自己和"总是背叛"相区别的策略。一个策略是具
  有最大识别力的,如果它即使在对方一直不合作的情况下也会尝试合
  作,并且一旦它合作一步,它将决不会与"总是背叛"合作,而会同其
  他与自己相同的策略合作。
  

  命题6:能以最小p值的一个小群体侵入"总是背叛"的策略是那些具有
  最大识别力的策略,如"一报还一报"。
  

  很容易说明"一报还一报"是一个具有最大识别力的策略。它在第一步
  合作,但是一旦与"总是背叛"合作,它就将再也不与它合作。另一方
  面,它不间断地与其他"一报还一报"合作。因此"一报还一报"善于
  区别它的同类和"总是背叛",这个特性使它能以一个很小的群体侵入
  "小人"的世界。
  

  小群体概念在引出了在"小人"世界中创建合作机制的同时也提出了另
  一个问题:即一旦像"一报还一报"这样的策略创建起来后,相反的情
  况是否会发生。实际上,这是十分令人吃惊而又很有趣的不对称。为了
  说明情况,让我们回忆一下善良策略(如"一报还一报")的定义,善
  良策略从不首先背叛。显然当两个善良策略相遇,它们每步都得R,这
  是一个个体与另一个采用相同策略的个体相遇所能得到的最高平均分
  数。这引出了如下的命题:
  

  命题7:如果一个善良的策略不能被单个个体侵入,那么它也不能被这
  类个体的小群体侵入。
  

  一个以小群体形式出现的策略其得分是以下两部分的加权平均:一是它
  与其他相同策略相遇的得分,一是它与占统治地位的策略相遇的得分。
  这两部分的得分都小于或等于占统治地位的善良策略的得分。所以如果
  原有的善良策略不能被单一个体侵入,那么就不能被这类个体的个小
  群体侵入。
  

  这个结论意味着善良策略没有"总是背叛"的那种结构性弱点。"总是
  背叛"能够阻止任何策略的侵入,只要这些采用其他策略的个体每次都
  

  是单独前来的。但是如果它们是以小群体(即使是一个很小的群体)的
  形式来到,"总是背叛"就能被侵入。对于善良的策略,情况就不同
  了。如果一个善良的策略能够阻止其他策略的单一个体的侵入,那么它
  就能阻止小群体的入侵,不论它有多大。因此,善良的策略能以"小人
  "策略所不能的方式来保护自己。
  

  这些结果合起来描绘了一幅合作进化的图画。在参议院的例子中,命题
  5表明,如果没有小群体形式(或其他相似的机制),双方背信弃义的
  原有模式就不能被克服。小群体的形成很关键,它也许源于杰斐逊时代
  在新首都旅馆中住在一起的一群群代表们(Young1966,或许州的代表
  或一个州的政党的代表们是更重要的小群体
  BogueandMarlaire1975)。命题7表明基于回报的合作一旦创建,即使
  有一小群不遵守这个参议员习俗的新来者,它也能保持稳定。并且这种
  回报模式创建后,命题2和命题3表明,只要两年一次的改选率不至于太
  大,它就是集体稳定的。
  

  因此,合作可以在甚至是绝对背叛的世界中出现。如果只由一些散乱的
  个体去努力,合作是不能创建的。因为他们没有机会彼此相遇。但是,
  只要具有识别能力的个体之间有即使是很小的比例彼此相遇,合作就可
  以从这个小群体中出现。此外,如果善良策略(它们从不首先背叛)最
  终被所有的人采用,那么这些个体就能彼此善待。由于彼此之间相处很
  好,一个善良策略的群体,就像能保护自己不受其他单个个体的侵入一
  样,能保护自己不受采用其他策略的小群体的侵入。但是一个善良的策
  略要是集体稳定的,就必须是可激怒的。因此双方合作可以通过一小群
  依赖于回报的个体在没有集权的自私的世界中出现。
  

  为了说明上述结果的广泛应用,下曲两章将探讨合作进化的实例。第一
  个实例说明,尽管战争时期双方之间残酷对抗,但是合作也能出现。第
  二个实例讨论的是生物系统,这个系统中的低级动物不能评价它们选择
  的后果。这些实例说明,在条件具备时,没有友谊和预见,合作也可以
  产生。
  

然后第二步开始以后就是重复上一步,你怎么对我的,我就怎么对。啊,就这么简单。

他都有4种可能啊,这种可能得分,然后进行反复的重复的部位啊,要经常相互在一起生活,一起共生。

那么这个时候呢。

他这种博弈的格局就不一样了啊,人们愿意这一次吃点小亏,以换取下一次对方能够回报我啊,那这时候呢他的双边关系就容易稳定。所以我们看到熟人社会,他互相之间是友善的一个心理。相信大家都是讲规矩的,呃,不会胡来的,互相体谅的,互相谦让。

在于许多人开展的啊不定时重复博弈中间是否存在一种为人处世的最优的博弈策略呢?

艾克斯教授呢首先它就像全世界不同学科的学者发出。邀请请他们提交各自认为最优的竞争策略。然后呢通过计算机进行模拟之后呢,让这些策略啊相互之间第两两之间进行。

重复囚徒博弈的竞赛,每一轮博弈他都有4种可能啊,这种可能得很,然后进行反复的重复的博弈之后,那各自就是得到一个分支吗?然后呢,不同的策略两两之间做对峙之后之差 多人的竞争带来最终每一个策略,都会有个总得分。
第一轮,全世界的学者,包括数学家啊,这个物理学家是吧,呃,军事专家啊,包括还有这个搞计算机的是吧?还有搞政治的。那么这些学者提供了14个程序啊,这14个诚信互相博弈,结果呢就出现了一个赢家。

这个赢家的策略的核心概念叫做tat for tat。就一报还一报。

这个策略获得了第一。艾克斯罗德教授,就把这个情况啊告诉了这些参赛者。然后他把这个策略的原理,也公布出来,然后。邀请更多的学者基于前边的信息再进行第二轮的精神。那么第二轮呢,就又有63位提交了许多改进的程序。令人惊讶的是什么呢?第二轮比赛的优胜者。居然仍然是一报还一报策略。

也就是说,即便告诉你这个策略赢了第一轮。那么多学者试图以此为基础进行改良,那他们的智慧和努力都是白费的。那这神奇的一报还一报出来是如何让几十位科学家的智慧相信建筑的呢?其实它的内容非常简单。第一步我先假设你是好人,我先跟你合作,然后第二步开始以后就是重复上一步。一枕对我的我就准备。

啊,就这么简单。那么如此简单的程序,之所以能够在两轮竞赛中都获胜,是因为以下品质或者以下特点,使他能够最有效的鼓励。其他程序和他进行长期合作。

这些品质是什么?
第一是善良的,就怕是先假设这个世界对我是好的。
第二,可激怒的。就他不是老好人啊,假如说他发现对方是坏蛋的话,他是要报复的。
那么第三呢,就是宽容的,也就是对方跟你进行了这个这个恶性的互动之后,如果对方是吧弃恶从善。重新又对我好了,那我是宽容的,我又可以原谅你,我再次跟你进行合作,因为我就是在重复你上一次的货,上一次的行为嘛。

而且呢还有个特点就是什么简单,
因为它的策略逻辑非常清楚,他就是愿意告诉别人我这个策略的逻辑就是怎么样。还有一个特点就是。不妒忌别人的成功,为什么呢?你想他第一步总是合作的,也就是第一步,他不可能在人家任何便宜,是不是?

然后呢,此后都是重复,人家也知道他也不可能给人家获得更多的事儿。那么其他各种策略呢,输就输在上述这些品质啊。哎,某些方面做的不够好,

在比赛结果中,所有的恶意程序啊,什么叫会议程序是第一步,就背叛。
这种恶意程序都没有。进入前10名,觉得这个世界其实天道是鼓励善良。

而例如某些程序呢又太过好脾气,就他太善良了,所以呢被人背叛之后呢,怕他不立即做出反应,就会鼓励某些。狡猾的程序反复在哪?背叛,反复在自欺欺人,瞒天过海,就老好人。
那么某些程序呢又过于又对过往的关系的好坏太过执着啊,一旦被别人欺骗一次呢,他就绝不原谅,绝不宽容。

然后从此就反复的给人家这个跟人家恶性博弈是吧,跟。那这个对抗,那么所以本来很多能够恢复的关系,那就永久性断绝了,还是程序把自己搞得太复杂了,总是试图通过某种随机的或者某种投机取巧的来占人便宜。尽管在于某些司法程序中心技术中的得到了这个单纯的高峰啊,但是一旦碰到个性刚烈的神学,就会陷入互相死磕的。

这种困境,所以所以最后总得分来讲呢,他们的小聪明都是得不偿失。
关于这个罗伯特艾克斯罗德的这个有趣的研究啊,由于时间所限呢。

我建议大家读者们能亲自阅读合作的进化这本书。这本书牛在两个方面,
第一,只要你具备了高中的数学水平啊,当然我指的是中国的高中数学水平。你就能读懂这本博弈论的经典著作。
第二是因为博弈论呃重要贡献而获得诺贝尔经济学奖的托马斯谢林吧,他就曾经公开表示过斯诺德教授的这项研究啊,
这份工作比他自己的那个研究更值得诺贝尔经济学奖。那么自从1999年那这个上个世纪末啊,我拜读了此书之后呢,我由衷的感叹X络的教授,他的研究啊设计的巧妙和。

研究结论的高明。那么对上述几个理论结论,我呢一直是身体力行啊,就是从我个人的为人处世。
首先是友善的,就是假设这个世界上是好人多,而不是坏人多,是吧?其实呢是有原则的,是可激怒的,不是老好人。第三是这一个宽容的。就是呃得罪过的人是吧,只要他这个改过自新啊,我还是可以继续跟他做朋友啊。
第四个呢是简单啊,就不要搞那么复杂,不要读那么多的技巧。
第五个不妒忌朋友的成功。其实这些信条啊本来就是我们生活中啊常见的为人处世之道。

但是呢用博弈论模型这种科学化的结论啊来指导我的根本态度,并且把这些信条啊连接起来,作为一种整体性的策略组合来巡视啊,这是让我自己觉得与众不同的地方,人跟人之间是如此。
国与国之间也也差不多,只不过人际之间呢有比较多的伦理和道德因素。

但国家间关系自古以来它就是一种丛林色彩啊,更多一些权利和利益关系就更加赤裸裸一些。
那么近年来美国的政策界。他们在对外政策,尤其对华政策文件中间经常用这个词儿叫reciprocity ity reciprocity ity you翻译成这个互惠呀,其实是不够准确的,不会只是他。

良性里面他还有什么是这个报复啊,就是如果你对我差,我要对你进行报复。他的思想原型就是一报还一报策略。他的设想原型就是local tax。诺德的。这样一个博弈论的啊理论发现,用我们中国话叫做以彼之道,还施彼身。那么有意识的话呢是这套策略,它是不怕曝光的。

他是阳谋而不是阴谋,而且恰恰需要别人知道你的这几个基本原则,呃,这样才能更好的鼓励对方。哎,你不要耍小小聪明是吧?你跟我好好合作共赢啊。呃,然而呢现实中啊这个策略运用起来的比这个计算机的程 序博弈竞赛啊,当然要复杂得多啊。比如说现实中的朋友关系并不总是合作双赢的重复囚徒困境。呃,某些关系是典型的高成本低回报啊,
原因呢往往在于对方和自己在能力上是不对称的。
其次呢,面对资源的硬约束,现实中的你总是无法有足够的资源,有足够的时间精力来维持对别人的各种回报。
再其次,如何做到相称,他也是一个问题。那朋友比如说偶然得罪了你啊,那么你通过行动或者不行动来显示,你对此其实是介意的。你自己觉得你这样一种回复是一种相称的警告,是不是?
但是你的朋友可能可能会认为你反应过度啊啊小家子气啊,小题大做啊。那么最后呢回报策略内生还有一个问题就是什么呢?假如双方都采取这个策略。

而一旦由于误解进入了相互惩罚的恶性循环,那就几乎永无解脱,直到关系彻底感觉那人跟人成为宿仇,国与国之间兵戎相见。他是其实也是有可能的。那么针对上述问题呢,我就进行了相应的策略调整。这个其中一个重要的调整就是重视利用圈子来解决问题。
这个双边关系中的回报一旦放进了多边关系中进行操作的时候,不少问题就可以迎刃而解。啊,比如说。呃,为了1000块钱的利益啊,呃有人呢得罪了你。啊,但是假如得罪你一个人,意味着一群人,那我惩罚你的成本就很低了。我只要告诉大家,这家伙借了钱不还以后,你在这个圈子里边身败名裂。
,没人再把它再开,把钱借给你是吧,那他对你的这个惩罚这个力度啊其实挺大的,而对我的这个回报的或者要惩罚你的这个代价,时间精力的代价其实。一个认识到这一点了,我就非常乐意把我的心朋友介绍给我的老朋友们。因为相当于用一张关系网或者朋友圈来分担了啊人性中的自私说。

带来的背叛的诱惑啊,对你们之间这种脆弱的友情,塑料友情的这种冲击力。那么同样的原理,在国与国之间的关系中搞多边主义外交就是一个不错的选择。啊,一个小国可能无法相称的有效的、可信的报复大户对他的背叛。呃,但是如果大家都是混在一个圈子里边啊,一个多边的体系里边,一旦一个大国对其他的相对小的国家进行了个违约。是吧?进行了背叛。

那么他就会信用受损。那信用大跌的话呢,你在整个圈子里边的潜在损失其实是非常大的。
而且。一个已经背负了一定的信用压力大国啊,也就是说他跟许多股其他国家进行了互动。而且一个大国越是积极的利用自己的信用和威望的话呢,别人就越敢相信的。假如说有一个国家啊不太爱给别人明确的承诺的话呢。

别人反过来也不怎么敢相信他,就如同你从来没有用过信用卡里的钱的话呢,那么信用卡的透支额度就非常小。那么这个一报还一报。tit for tat策略。对于许多国家对外战略和发展战略来,他也是有启发的。不争局部的得失是吧?不妒嫉别国的成功啊,但最终却能获得最大的成功。中国的开放其实就是这样一个原理,在任何一个双边关系中,中国人都是这样一种平衡。

一方面要礼让,谦虚大度,另外一方面又是捍卫原则,捍卫根本利益。正是这样,尽管中国跟世界上大多数国家存在政治制度和意识形态的差异。但是仍然能够做到朋友遍天下啊,合作的很不错。这是为什么今天中国是将近全球七成国家的最大贸易伙伴的一个原因。

十一,他反过来有一部分发展的国家啊,比如说啊这个最典型的就是印度,他们的气量进比较小,老想着怎么在任何一个双边关系中占便宜。不占点便宜他就不愿意。那么结果在总体的对外合作上呢,他就浪费了很多的战略地位和发展机遇。

特朗普啊这在美国这4年,他的执政方式也翻了。其实类似的错误,他就是试图在任何一个双边关系中间啊要占上风,占便宜.不多占点便宜,他不爽啊,他就要跟你反复的惩罚和互相的升级敌对,是吧?那他这种操盘模式就会导致处处树敌。这是他为什么人生中屡次破产的原因之一啊,他破产了好几次。未来也即将要再破产一起,这也是为什么他执政美国短短4年,美国这个国家的国际信用,它的国际地位威望那么明显下滑的原因之所在。

这个两个大国之间的战略性合作啊,比如说中美之间是吧,双方缺乏互信的前提下,如何能够培育出合作和互信来呢?
一个有意的思路就是把一次性的囚徒困境博弈 。转化成重复博弈和多边博弈。

双边囚徒困境啊,走到最后基本上都是相互不合作啊,这是由人性啊,这是由国际关系的从状态这种底层的逻辑所决定的。但是如果能够转变成重复博弈是吧?转变成多边博弈,那么就可以通过回报策略诱导出相互的妥协和合作,最终培育出信任。

与和平。感谢各位这一年的相伴啊。那么正经启迪节目呢,从2020年的疫情期间呢开播到现在已经播出了,真的事实去了。通过这一年的。鼓励观视频和我的这个合作啊,我们获得了一共170万的粉丝。我原本以为呢年轻人对于我这样讨论的比较严肃的学术性话题,科普性话题呢。

会没那么感兴趣。接触这一年啊,通过这个真菌起的节目啊,也让我能够观察到中国年轻人的一些生态啊。令我比较惊讶的是,这一代的年轻人啊政治上向左摆动的速度是非常快的。感谢各位的支持厚爱,赞美。和批评啊,那么也感谢关视频的工作团队的巨大的投入啊,辛勤的努力。那么说实在话,我的震惊体的节目的一个重要特点呢就是他不怎么追热点。

也不是谈啊搬性的知识,而主要是我个人的研究的一些成果。比如呢人民币问题啊啊比如说中国地方发展问题啊。比如说中美关系,中欧关系,还比如说欧洲、日本等国的高质量发展的经验教训的问题。通过视频谈话的节目形式呢跟大家来分享,来汇报。所以呢。

是从我的节目中啊,大家可能能够感觉到啊许多观点都是独特的,非常个人化。当然任何人手里都没有绝对的真理啊,如果对大家有形成误导的,那么也希望大家包涵。其实我们传播的时候啊,他的目的不是告诉大家整理,而是说告诉大家这个世界上啊我们有不同的研究观点,是吧?

能够启发大家去进一步的思考,进一步的去批判。呃,当然四十期下来,我个人在过去的十几年里所形成的一些认知,一些观点呢基本上也会报完了。再说下去可能就会江郎才尽了。为了避免我的节目太水换了,所以这个我打算的到这一期啊,咱们就是最后一期了。庄子说相濡以沫。

相忘于江湖。所以呢在此跟各位告别。当然有许多网友说,哎呀,那难道就此以后我们就再也不见面了嘛?也不是。首先呢欢迎大家到人民大学来旁听我的课。另外呢。我们跟观视频呢还会推出另外一个那
视频课程。
谋定而后动, 己所不欲勿施于人
返回列表