導語
合作為何無處不在?從狼群圍獵到國際減排,從地鐵排隊到開源社區,自私的本能似乎難以阻擋集體付出的腳步。在追逐個人利益的世界里,個體為何甘愿為群體出力?演化博弈理論正如一把鑰匙,幫助研究人員破解這一古老悖論。美國數理生物學家 Martin Nowak 創始性地利用其揭示了群體合作的奧秘,其成果刊登在《Science》上,并在學術界引起了強烈反響。如今,這一研究領域仍在不斷拓展,其意義遠超單純解釋生物行為。重要的是,演化博弈理論不僅照亮了群體行為和社會結構的深層邏輯,還為人工智能、平臺治理乃至大國博弈等前沿領域提供了科學指引。
關鍵詞:演化博弈,復雜系統,群體行為,強化學習
謝凱丨作者
張江丨審校
1. “我幫你,不是因為我傻”——合作的悖論
你有沒有遇到過這種情況:明明是團隊任務,大家卻一開始都按兵不動,等著最后幾個人熬夜“背鍋”;或者你一個人精心維護共享文檔,別人卻從來不補充更新。
你或許也曾聽過這樣的感慨:“我這么講義氣,結果還不是被人當冤大頭?”
但奇妙的是,在很多時候,我們確實還是會選擇合作。比如地鐵上自覺排隊、野外露營時大家輪流做飯,甚至大到國際組織中的減排協議。并且,這種現象即使在生物界也屢見不鮮:狼群合作圍獵、螞蟻協作搬家、海豚集體趕魚等。可問題是,合作意味著要付出成本,而收益往往被別人共享,這到底值不值?
這個問題其實背后藏著一個古老又現代的哲學與科學謎題:為什么在自利的驅動下,有些人(或動物)卻依然愿意付出?演化博弈理論(Evolutionary Game Theory, EGT)就是為了回答這個問題而誕生的——我們今天要聊的,就是它。
2. 從博弈論到達爾文:演化博弈到底是啥?
首先來破個梗:“博弈”不只是電視劇里的權謀爭斗,它是一種研究沖突和合作的數學方法。
傳統博弈論(Game Theory)由馮·諾依曼(Von Neumann) [1]和約翰·福布斯·納什(John Forbes Nash Jr) [2]等人奠基,假設玩家都是理性的,并且追求收益最大化。然而,現實中我們看到的往往是:
有人糊里糊涂參與決策;
有人隨波逐流看別人怎么選;
有人就算吃虧也愿意“做好人”。
Von Neumann(左),來源:https://en.wikipedia.org/wiki/John_von_Neumann;John Forbes Nash Jr(右),來源:https://en.wikipedia.org/wiki/John_Forbes_Nash_Jr.
這時候,生物學站了出來。查爾斯·羅伯特·達爾文(Charles Robert Darwin)的“自然選擇”曾說:行為是否合理,不取決于是否理性,而在于是否能留下更多后代。基于此,1973年,約翰·梅納德·史密斯(John Maynard Smith)和喬治·普萊斯(George Price)開創性地提出 [3]:如果我們把“策略”看成一種可遺傳的行為特征,不同策略在群體中相互作用并隨時間演化,就可以用博弈模型來研究人類和動物的行為,甚至推演文明進化。
Charles Robert Darwin,來源:https://en.wikipedia.org/wiki/Charles_Darwin
這就是演化博弈論。它假設玩家不一定是理性的,而是帶有某種策略傾向的“個體”;策略的成功不靠深思熟慮,而是通過“適者生存”原則在群體中獲得傳播并穩定存在。換句話說,一個策略能否勝出,不看它理論上多“完美”,而看它在與其他策略的較量中能否“活下來”。
如何描述這種“適者生存”的過程呢?
演化博弈論引入了一個核心的數學模型——復制者動態方程(Replicator Dynamics Equation)。它描述了策略如何隨時間變化,其基本思想非常直觀:如果一個策略的平均收益(適應度)高于整個群體的平均收益,那么采用該策略的個體比例就會增加;反之,如果低于平均收益,則其比例會減少。例如,在一個簡單的雙策略(如合作與背叛)博弈模型中,合作者比例的變化率可以表示為:
其中,x是合作者在群體中的比例,∏C是合作策略的平均收益,是整個群體的平均收益。
它和傳統博弈論最大的不同在于:玩家不一定理性,但“表現好的策略”會自然留下來,“不適應的策略”被淘汰。
那么,為什么有人會合作?
演化博弈論的核心在于“策略的演化”。在自私的本能驅動下,合作策略之所以能出現,是因為它在某些條件下能帶來更高的生存和繁衍優勢。比如,幫助他人可能換來回報,從而在群體競爭中讓“合作者”更有生存力。這種“自然選擇下的合作”不僅解釋了生物界的互助行為,也為人類社會的合作現象提供了線索。
3. “合則兩利”沒那么簡單:
合作涌現的基礎機制
我們現在知道了:演化博弈能解釋“為什么有人會合作”。但真正難的,是回答另一個問題:在不合作更容易獲利的情況下,合作為什么還能出現并穩定存在?
這就是演化博弈中的“合作難題”。
經典例子:公共物品博弈
想象一個場景:每個人都能為公共項目出資(比如村里修水井),但也可以選擇不出錢卻享受成果。
大家都出資,水井修成,皆大歡喜;
你偷懶、別人出力,你白占便宜;
大家都偷懶,水井沒戲。
這就是“搭便車”問題,也是最難解決的合作障礙之一。
來源:作者創作
合作機制的探索
研究者發現,要解決合作困境,離不開一些關鍵機制。美國數理生物學家馬丁·諾瓦克(Martin Nowak)提出的五種機制為促進合作的涌現奠定了基礎 [4]:
Martin Nowak,來源:https://en.wikipedia.org/wiki/Martin_Nowak
1)直接互惠(Direct reciprocity):我幫你一次,下次你也要幫我。
這種機制也被稱為“以牙還牙”。它適用于重復互動的場景:我今天幫你,期待你明天回報;你若坑我,我下次就不幫你。這種機制簡單高效,建立了一種“可預期的回饋體系”,特別在長期關系(如合伙創業、科研團隊)中能夠促進信任與合作。
現實案例:朋友之間互請吃飯、鄰里之間輪流照看小孩,這些都是典型的直接互惠。
2)間接互惠(Indirect reciprocity):好人出名,合作更易。
如果說直接互惠是“你幫我,我幫你”,那間接互惠就是“你幫了他,我愿意幫你”。 這就引入了“聲譽”這個重要中介。你幫別人的行為被第三方看到并記住,他們會認為你是個值得合作的人,從而在未來與你建立合作關系。
現實案例:淘寶賣家靠“五星好評”吸引顧客,求職者靠推薦信增強可信度,本質上都依賴于間接互惠的傳播力。
3)空間選擇(Spatial Selection):熟人圈里合作更穩。
人類社會不是完全開放的,而是由小圈子構成的“關系網”。在這樣的小圈子中,合作更容易維持。一方面,信息傳播更快,聲譽的反饋更直接;另一方面,背叛者更難“換馬甲”。網絡結構不僅影響合作,還決定合作是“星火燎原”還是“悄然凋零”。研究顯示,在小世界網絡、分層社區等網絡結構中,合作更易擴散。
現實案例:公司之間貿易往來,往往優先選擇與自己“關系網”中的企業進行合作。
4)群體選擇(Group Selection):群體競爭促合作。
前三種機制關注個體間合作,而群體選擇著眼于群體間競爭。即使個體層面合作吃虧,但合作群體若在競爭中更強大,這種策略就能存活。這是一種“宏觀演化邏輯”:自私個體可能短期占優,但合作群體長期勝出。
現實案例:抗戰時期,團結協作的游擊隊常能擊敗人數眾多卻無信任的軍閥部隊。
5)親緣選擇(Kin Selection):血濃于水助合作。
在親緣關系中,個體更愿幫助血親,即使犧牲自己利益。這是因為幫助親屬能增加共同基因的傳播機會。親緣選擇解釋了家庭、家族或部落中合作的高頻出現。
現實案例:父母無私養育子女、兄弟姐妹互助,都是親緣選擇的體現;在動物界,蜜蜂工蜂為保護蜂后和幼蜂而犧牲生命也是如此。
來源:https://www.science.org/doi/abs/10.1126/science.1133755#core-collateral-purchase-access
4. 演化博弈遇上AI:智能體如何學會合作?
隨著多智能體系統的發展(比如機器人集群、虛擬人協作、智能體博弈策略優化等),我們越來越需要結合人工智能理解并模擬人類社會中的合作和競爭行為。要做到這一點,僅靠傳統的模型和策略規則遠遠不夠,強化學習(Reinforcement Learning, RL)正逐漸成為研究“群體智能演化”的關鍵工具。
強化學習:智能體的“試錯”成長之路
強化學習讓智能體通過與環境互動“試錯”,學習最佳策略。簡單來說,它就像教智能體玩游戲:
1. 每一步行動后會獲得“獎勵”或“懲罰”;
2. 智能體嘗試不同策略,逐漸學會最大化長期獎勵;
3. 策略更新的核心在于對未來收益的估計與不斷修正。
在演化博弈中,RL被用來模擬個體如何在群體中選擇策略,比如在公共物品博弈中決定是否貢獻資源。簡單來說,智能體不再依賴固定規則,而是利用RL在與環境的互動中不斷“試錯”,根據獲得的獎勵動態調整策略。
這種方法更貼近人類在社會中的行為:我們通過經驗學習,逐漸找到對自己和群體最有利的選擇。這使得模擬能更真實地反映個體間的學習與適應過程。
通過這種方式,我們不僅能觀察群體合作行為如何涌現,還能揭示信任、背叛等復雜行為的演化規律。
Q-learning:RL-EGT的入門算法
目前最常用于EGT研究的強化學習算法之一是Q-learning [5,6],它通過學習“狀態-動作值函數”來判斷當前最優策略。比如,在群體合作博弈中,Q表記錄著“合作”或“背叛”可能帶來的回報,智能體根據Q表選擇回報最高的動作,并通過不斷更新Q表來優化決策。然而,傳統Q-learning(TQL) 存在一個常見的問題:它容易“過度樂觀”,即高估策略的預期收益。這源自其更新公式:
Q(s,a) ← Q(s,a) + α[r + γ * max Q(s',a') ? Q(s,a)],
其中,
Q(s,a) 表示在狀態 s 下采取動作 a 所獲得的預期回報;
α 是學習率,表示預期回報的更新幅度;
r 是執行動作后獲得的即時獎勵;
γ 是折扣因子,用于權衡當前獎勵與未來回報;
max Q(s',a') 是在下一個狀態 s' 中能獲得的最大未來收益估計。
這里的“最大值估計”(max)讓智能體既用 Q 函數來選擇動作,又用它評估動作價值。這種“自說自話”的機制往往導致智能體過于相信某些策略的回報,學到的行為看似優秀,實則可能偏離最優解。
Double Q-learning:更精準的選擇
最新研究中,中國學者Kai Xie與演化博弈著名學者Attila Szolnoki 教授,首次將Double Q-learning(DQL)算法引入演化模型[7]。其巧妙之處在于使用兩個獨立的 Q 表:
一個Q表負責選擇動作;
另一個Q表負責評估該動作的價值。
這種“雙人舞”設計避免了TQL中的“自欺欺人”現象——在TQL中,同一個Q表既選動作又估價值,容易產生偏差。DQL的更新規則如下:
簡單來說,兩個Q表輪流更新,一個選動作時參考另一個的價值評估,從而減少偏差,讓智能體的決策更精準。
Attila Szolnoki,來源:https://ieeexplore.ieee.org/author/37090052031
研究表明,相比TQL,DQL 降低了策略偏差,讓智能體更傾向于選擇合作策略,形成穩定的合作集群。這種改進就像給智能體裝上了“更清晰的眼鏡”,讓它們更準確地感知群體動態。
TQL和DQL算法對比。(b)和(d) ,在關鍵參數不為0的情況下,在促進合作水平方面,DQL整體優于TQL算法。來源:https://www.sciencedirect.com/science/article/pii/S0960077925004114
深度強化學習:復雜場景的突破
除了 Q-learning 及其變體,與深度強化學習(DRL)相關的算法也開始在演化博弈中大放異彩。最具代表性的是深度Q網絡(Deep Q-Network, DQN),它利用深度神經網絡逼近 Q 值函數,能處理高維度、復雜狀態空間的博弈場景。最新的研究被發表在計算機頂級會議IJCAI [8,9]。
DQN網絡演化博弈訓練框架,來源:https://arxiv.org/abs/2405.02654
DQN網絡演化博弈訓練框架,來源:https://arxiv.org/abs/2310.04623
從經典的TQL算法,到有效緩解過估計問題的DQL,再到利用神經網絡處理復雜環境信息的 DQN,可以預見,深度強化學習與演化博弈的交叉將在未來進一步深化。這種結合不僅僅是技術層面的融合,更是理念上的升華。我們正在見證智能體從最初專注于“如何最大化自身獎勵”的階段,逐步邁向能夠理解和實踐“合作共贏”的新紀元。這意味著智能體正在從“學會贏”走向“學會共贏”。
5. 從理論走向實踐:
演化博弈的學科交叉前景
演化博弈理論從生物學的土壤中萌芽,如今已成長為一棵覆蓋心理學、人工智能、社會學、經濟學乃至生態治理等多個領域的跨學科大樹。它不僅揭示了合作的深層邏輯,也為解決現實世界中的復雜問題提供了實用工具。
在心理學[10]領域,演化博弈被用來解釋信任、利他、懲罰、共情等社會行為的起源;研究者通過構建博弈模型,探索人類為何會“做對他人有利卻對自己不利的選擇”,甚至將其作為分析群體道德直覺的工具。
在人工智能[11]領域,演化博弈正逐漸成為多智能體學習中的關鍵理論框架。特別是在無人駕駛、機器人編隊協同、元宇宙社交與虛擬經濟治理等前沿應用中,理解如何激勵“異質智能體”產生持續穩定的合作,比單純提高算法性能更具戰略意義。
在政策治理[12]方面,演化博弈大有可為。在中美貿易摩擦中,演化博弈能分析關稅策略的長期效應,幫中國設計靈活應對方案;在“一帶一路”中,它能預測沿線國家的合作意愿,助力政策精準落地。面對大國博弈的“囚徒困境”,演化博弈是破解僵局的科學利器。
在生態與環境政策[13]中,它也為氣候協議、漁業保護、污染防治等全球治理難題提供了理論支持。例如,通過模擬國家之間“合作減排”與“逃避責任”的演化博弈,政策制定者能更清晰地看到激勵機制的重要性。
未來,隨著大數據、深度強化學習、群體智能與大模型的發展,演化博弈不僅將在理論維度不斷深化,也將在更廣泛的實踐場景中開枝散葉。
正如我們所見,合作從不是理所當然,它是自然選擇下的“非理性智慧”,也是人類社會賴以運轉的“理性幻想”。從自私基因到群體智慧,在這個智能重塑世界的時代,演化博弈用數字與人性的交融告訴我們:理解合作的本質,才能真正設計出值得信任的世界。
參考文獻
[1]v. Neumann, J. (1928). Zur theorie der gesellschaftsspiele. Mathematische Annalen, 100(1), 295-320.
[2]Nash Jr, J. F. (1950). Equilibrium points in n-person games. Proceedings of the National Academy of Sciences, 36(1), 48-49.
[3]Maynard Smith, J. (1976). Evolution and the Theory of Games. American Scientist, 64(1), 41-45.
[4]Nowak, Martin A. "Five rules for the evolution of cooperation." Science 314.5805 (2006): 1560-1563.
[5]Zheng, G., Zhang, J., Deng, S., Cai, W., & Chen, L. (2024). Evolution of cooperation in the public goods game with Q-learning. Chaos, Solitons & Fractals, 188, 115568.
[6]Tamura, K., & Morita, S. (2024). Analysing public goods games using reinforcement learning: effect of increasing group size on cooperation. Royal Society Open Science, 11(12), 241195.
[7]Xie, K., & Szolnoki, A. (2025). Reputation in public goods cooperation under double Q-learning protocol. Chaos, Solitons & Fractals, 196, 116398.
[8]Ren, T., & Zeng, X. J. (2024). Enhancing cooperation through selective interaction and long-term experiences in multi-agent reinforcement learning. arXiv preprint arXiv:2405.02654.
[9]Ueshima, A., Omidshafiei, S., & Shirado, H. (2023). Deconstructing cooperation and ostracism via multi-agent reinforcement learning. arXiv preprint arXiv:2310.04623.
[10]Conroy-Beam, D., Goetz, C. D., & Buss, D. M. (2015). Why do humans form long-term mateships? An evolutionary game-theoretic model. In Advances in experimental social psychology (Vol. 51, pp. 1-39). Academic Press.
[11]Wu, Y., & Pan, L. (2024). LSTEG: An evolutionary game model leveraging deep reinforcement learning for privacy behavior analysis on social networks. Information Sciences, 676, 120842.
[12]Feng, N., & Ge, J. (2024). How does fiscal policy affect the green low-carbon transition from the perspective of the evolutionary game?. Energy Economics, 134, 107578.
[13]Tilman, A. R., Plotkin, J. B., & Ak?ay, E. (2020). Evolutionary games with environmental feedbacks. Nature Communications, 11(1), 915.
筆者(謝凱)圍繞演化博弈理論發表的論著
[1]Xie, K., & Szolnoki, A. (2025). Reputation in public goods cooperation under double Q-learning protocol. Chaos, Solitons & Fractals, 196, 116398.
[2]Xie, K., & Liu, T. (2024). The regulation of good and evi promotes cooperation in public goods game. Applied Mathematics and Computation, 478, 128844.
[3]Xie, K., Liu, Y., & Liu, T. (2024). Unveiling the masks: Deception and reputation in spatial prisoner’s dilemma game. Chaos, Solitons & Fractals, 186, 115234.
[4]Xie, K., Liu, X., Wang, H., & Jiang, Y. (2023). Multi-heterogeneity public goods evolutionary game on lattice. Chaos, Solitons & Fractals, 172, 113562.
[5]Xie, K., Liu, X., Chen, H., & Yang, J. (2022). Preferential selection and expected payoff drive cooperation in spatial voluntary public goods game. Physica A: Statistical Mechanics and its Applications, 605, 127984.
作者:
本文為科普中國-創作培育計劃扶持作品 作者 | 謝凱 審核 | 張江(北京師范大學系統科學學院教授) 出品 | 中國科協科普部 監制 | 中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
復雜網絡動力學讀書會
集智俱樂部聯合合肥工業大學物理系教授李明、同濟大學副教授張毅超、北京師范大學特聘副研究員史貴元與在讀博士生邱仲普、張章共同發起 。本次讀書會將探討:同步相變的臨界性、如何普適地刻畫多穩態與臨界點、如何識別并預測臨界轉變、如何通過局部干預來調控系統保持或回到期望穩態、爆炸逾滲臨界行為的關鍵特征、不同類型的級聯過程對逾滲相變的影響有何異同、高階相互作用的影響能否等效為若干簡單機制的疊加、如何有效地促進人類個體間的合作等問題。
讀書會計劃從3月7日開始,每周五晚19:30-21:30進行,持續8-10周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.