在眾多博弈模型中,佔有重要地位的是二人有限零個對策,又稱為矩陣博弈,這對策是目前為止在理論研究和求解方法方面都比較完善的一個博弈。
矩陣博弈矩陣博弈就是二人有限零和博弈,或有限二人零和博弈; 在眾多博弈模型中佔有重要地位,是到目前為止,在理論研究和求解方法方面都比較完整的一類博弈。
數學定義: 假設玩家一有m個策略,玩家二有n個策略,那麼構建一個m*n的矩陣,對應值為玩家一的收益。
又因為是零和博弈,所以玩家二的收益矩陣就是負的玩家一的收益矩陣。
矩陣博弈通常記為: G = S 1 , S 2 , A G={S_1,S_2,A} G=S1,S2,A
純策略矩陣博弈的納什均衡解saddle points鞍點: 同時滿足某一行的最小值,某一列的最大值 就是純策略的納什均衡
為什麼要這樣: 零和博弈,參與者2的pay與參與者1的相反,所以固定一行,參與者1可以推導參與者2會選擇哪個; 也就是已經知道對方貪心會選擇最利於自己的那個,那麼自己的一個有效的做法是使得損失最小
兩個人都這樣,然後交點就是一個納什均衡
示例最大最小、最小最大原則 如圖,玩家一的收益矩陣。
最小最大原則
: 當玩家一選 α 1 lpha_1 α1時,理性玩家二會選擇 β 3 eta_3 β3,則玩家一的收益為-9,往下同理,略,所以玩家一會在這裏邊挑一個最大的也就是3.最大最小原則
: 當玩家二選擇 β 1 eta_1 β1時,玩家一 會選擇 α 3 lpha_3 α3,收益為7,往後同理,那麼對於玩家二來説,會選擇讓玩家一收益最小的策略,也就是使玩家一收益為3。 綜上,形成納什均衡 ( α 2 , β 2 ) (lpha_2,eta_2) (α2,β2)用公式簡潔表示: m a x i m i n j a i j = m i n j m a x i a i j = a 22 = 3 max_imin_ja_{ij}=min_jmax_ia_{ij}=a_{22}=3 maximinjaij=minjmaxiaij=a22=3 可以看出, a 22 a_{22} a22是矩陣A所在行的最小元素也是所在列的最大元素。
所以,一個定理:矩陣博弈在純策略定義下有納什均衡的
充要條件
是:存在一個策略組合,對應的那個玩家一的收益是所在行的最小元素也是所在列的最大元素。即是鞍點。 性質1.無差別性 2.可交換性 如圖示例子,總共有四個五,四個納什均衡(即納什均衡解不唯一)。
混合策略矩陣博弈納什均衡混合策略之前的文章講過了,這裏省略。 假如玩家一以概率p選擇第一行,1-p選擇第二行, 如果想要使得第二個人看不出第一個人會用什麼策略,也就是使得: a p d ( 1 − p ) = b p c ( 1 − p ) ap d(1-p)=bp c(1-p) ap d(1−p)=bp c(1−p) 解得: p = c − d ( a − b ) ( c − d ) p=rac{c-d}{(a-b) (c-d)} p=(a−b) (c−d)c−d 當p取該值時,玩家一的期望收益: v = a p d ( 1 − p ) = a c − b d a − b c − d v=ap d(1-p)=rac{ac-bd}{a-b c-d} v=ap d(1−p)=a−b c−dac−bd
隨機博弈隨機博弈
本文部分圖片來源