Vězňovo dilema

Vězňovo dilema ( nebo méně běžně známé jako Banditovo  dilema ) je základním problémem teorie her , podle kterého spolu racionální hráči nebudou vždy spolupracovat, i když je to v jejich nejlepším zájmu. Předpokládá se, že hráč ("vězeň") maximalizuje svůj vlastní zisk a nestará se o prospěch ostatních.

Podstatu problému formulovali Meryl Flood a Melvin Drescher v roce 1950. Název dilematu dal matematik Albert Tucker .

Ve Vězňově dilematu zrada striktně dominuje spolupráci, takže jedinou možnou rovnováhou je zrada obou účastníků. Jednoduše řečeno, ať je chování druhého hráče jakékoli, každý bude mít větší prospěch, pokud zradí. Protože je lepší zradit než spolupracovat v jakékoli situaci, všichni racionální hráči se rozhodnou zradit.

Individuálně racionálně se účastníci společně dostanou k iracionálnímu řešení: pokud oba zradí, získají menší celkový zisk, než kdyby spolupracovali (jediná rovnováha v této hře nevede k Paretovu optimálnímu řešení). V tom spočívá dilema.

V opakujícím se vězňově dilematu se hra hraje periodicky a každý hráč může toho druhého „potrestat“ za to, že nespolupracoval dříve. V takové hře se spolupráce může stát rovnováhou a pobídka ke zradě může být převážena hrozbou trestu (jak se zvyšuje počet opakování, Nashova rovnováha směřuje k Paretovu optimu ).

Klasické vězeňské dilema

Ve všech soudních systémech je trest za banditismus (páchání zločinů jako součást organizované skupiny) mnohem přísnější než za stejné zločiny spáchané samostatně (odtud název „banditské dilema“).

Klasická formulace vězňova dilematu je:

Dva zločinci - A a B - byli přistiženi při podobných trestných činech přibližně ve stejnou dobu. Existuje důvod se domnívat, že jednali v tajné dohodě, a policie, která je od sebe izolovala, jim nabízí totéž: pokud jeden svědčí proti druhému a on mlčí, pak je první propuštěn, aby pomáhal při vyšetřování, a druhý dostane maximální trest odnětí svobody (10 let). Pokud oba mlčí, jejich čin přechází pod lehčí článek a každý z nich je odsouzen k šesti měsícům vězení. Pokud budou oba svědčit proti sobě, obdrží minimální trest (každý 2 roky). Každý vězeň si vybere, zda bude mlčet, nebo bude svědčit proti druhému. Ani jeden z nich však přesně neví, co ten druhý udělá. Co se bude dít?

Hra může být reprezentována jako následující tabulka:

Vězeň B mlčí Vězeň B svědčí
Vězeň A mlčí Oba dostávají šest měsíců. A dostane 10 let,
B je propuštěn
Vězeň A svědčí A je propuštěn,
B dostane 10 let vězení
Oběma hrozí 2 roky vězení
Vězeňovo dilema v normální podobě .

Dilema nastává, pokud předpokládáme, že se oba starají pouze o minimalizaci jejich vlastních trestů odnětí svobody.

Představte si úvahy jednoho z vězňů. Pokud partner mlčí, je lepší ho zradit a jít na svobodu (jinak - šest měsíců ve vězení). Pokud vypovídá partner, pak je lepší svědčit i proti němu, aby dostal 2 roky (jinak - 10 let) vězení. Strategie „svědka“ striktně dominuje strategii „mlčet“. Podobně dospívá ke stejnému závěru další vězeň.

Z pohledu skupiny (těchto dvou vězňů) je nejlepší vzájemně spolupracovat, mlčet a dostat šest měsíců, protože se tím zkrátí celková doba odnětí svobody. Jakékoli jiné řešení bude méně ziskové. To velmi jasně ukazuje, že ve hře s nenulovým součtem může být Paretovo optimum opakem Nashovy rovnováhy .

Generalizovaná forma

Spolupracovat zradit
Spolupracovat C, C c, D
zradit DC d, d
Canonical Payoff Matrix
of Prisoner's Dilemma

Schéma hry můžete dále rozšířit a abstrahovat od podtextu vězňů. Zobecněná forma hry je často používána v experimentální ekonomii . Následující pravidla poskytují typickou implementaci hry:

  1. Hra se skládá ze dvou hráčů a bankéře . Každý hráč drží 2 karty: jedna říká „spolupracovat“, druhá říká „zradit“ (toto je standardní terminologie hry). Každý hráč položí jednu kartu lícem dolů před bankéře (to znamená, že nikdo nezná řešení toho druhého, ačkoli znalost druhého řešení neovlivňuje analýzu dominance [1] ). Bankéř otevře karty a vyplatí výhru.
  2. Pokud oba zvolí "spolupracovat", oba dostanou C. Pokud jeden zvolí "zradit", druhý "spolupracovat", první dostane D, druhý c. Pokud oba zvolí "zradu" - oba dostanou d.
  3. Hodnoty proměnných C, D, c, d mohou být libovolného znaménka (ve výše uvedeném příkladu je vše menší nebo rovno 0). Nerovnost D > C > d > c musí být nutně dodržena, aby hra byla „vězeňským dilematem“.
  4. Pokud se hra opakuje, tedy hraje se více než 1x za sebou, celkový zisk z kooperace by měl být větší než celkový zisk v situaci, kdy jeden zradí a druhý ne, tedy 2C > D + c . Tato nerovnost naznačuje, že v případě vzájemné spolupráce je dosaženo přísného Paretova optima – situace, kdy jakákoliv alternativa vede ke snížení výplaty alespoň u jednoho hráče.

Tato pravidla stanovil Douglas Hofstadter a tvoří kanonický popis typického vězeňského dilematu.

Alternativní znění

Hofstadter [2] navrhl, že lidé chápou problémy jako Vězňovo dilema snadněji, když jsou prezentovány jako samostatná hra nebo obchodní proces. Jedním z příkladů je „výměna uzavřených tašek“:

Dva lidé se setkají a vymění si uzavřené tašky, přičemž si uvědomí, že jeden z nich obsahuje peníze, druhý - zboží. Každý hráč může dohodu respektovat a dát do sáčku to, na čem se dohodli, nebo oklamat partnera tím, že dá prázdný sáček.

V této hře bude podvádění vždy řešením s nejvyšším krátkodobým materiálním ziskem.

Příklady ze života

Některé herní show používají podobný princip k určení vítězů buď kola nebo finále. Příklad dilematu se ukázal v roce 2012 v britské herní show The Bank Job ve finále každé sezóny: dva hráči, kteří se dostali do finále, se museli rozhodnout, jak s výhrou naloží. Polovina z celkového odehraného jackpotu byla v kufrech s označením CASH, další dva byly výstřižky z novin s označením TRASH (hráč má od každého druhu jeden kufr). Každý hráč musel vzít jeden ze svých kufrů a dát ho druhému. Pokud oba hráči dostali kufry CASH, pak si výhru rozdělili napůl. Pokud někdo dal kufr do TRASH, pak si vzal celou banku hry. Pokud oba dali TRASH, oba zůstali bez peněz a výhry připadly hráčům, kteří vypadli v předchozích fázích finále.

Příklady vězňů, karetní hry a výměny uzavřených pytlů se mohou zdát přitažené za vlasy, ale ve skutečnosti existuje mnoho příkladů interakcí mezi lidmi a zvířaty, které mají stejnou výplatní matici. Proto je vězňovo dilema zajímavé pro společenské vědy, jako je ekonomie , politologie a sociologie , stejně jako sekce biologie  - etologie a evoluční biologie . Mnoho přírodních procesů bylo zobecněno do modelů, v nichž se živé bytosti účastní nekonečných her typu vězeňských dilemat. Tato široká použitelnost dilematu činí tuto hru velmi důležitou.

V politickém realismu se například scénář dilematu často používá k ilustraci problému dvou států zapojených do závodu ve zbrojení . Oba státy prohlásí, že mají dvě možnosti: buď zvýšit vojenské výdaje, nebo omezit zbrojení. V tomto případě jsou postuláty vězňova dilematu (D > C > d > c) [3] zjevně splněny :

Z pohledu strany A, pokud strana B nezajišťuje, tak pro A je na výběr mezi D a C - je lepší zajistit. Pokud B střeží, pak pro A je na výběr mezi d a c - opět je výhodnější jistit. Pro jakoukoli volbu B je tedy pro stranu A výhodnější zbrojit. Situace pro stranu B je úplně stejná a obě strany budou nakonec usilovat o vojenskou expanzi .

William Poundstone ve své knize o vězňově dilematu popisuje situaci na Novém Zélandu , kdy jsou krabice s novinami ponechány otevřené. Je možné si vzít noviny, aniž byste za ně zaplatili, ale málokdo to dělá, protože většina lidí si je vědoma škod, které by byly, kdyby noviny každý kradl. Vzhledem k tomu, že vězňovo dilema je ve své nejčistší podobě pro všechny hráče současné (nikdo nemůže ovlivňovat rozhodnutí ostatních), nazývá se tato společná linie uvažování " magické myšlení ". Jako vysvětlení pro nedostatek drobných krádeží vysvětluje magické myšlení dobrovolné hlasování ve volbách (kde je nevolič považován za zajíce ). Alternativně lze toto chování vysvětlit očekáváním budoucích akcí (a nevyžaduje spojení s „magickým myšlením“). Modelování budoucích akcí vyžaduje přidání časové dimenze, což se děje v opakujícím se dilematu.

Teoretický závěr dilematu je jedním z důvodů, proč je vyjednávání o vině a trestu v mnoha zemích zakázáno . Scénář dilematu se často velmi přesně opakuje: je v zájmu obou podezřelých, aby se přiznali a svědčili proti druhému podezřelému, i když jsou oba nevinní. Snad nejhorším případem je, když je vinen pouze jeden, v takovém případě se nevinný pravděpodobně k ničemu nepřizná a viník bude svědčit proti nevinnému.

Mnoho skutečných dilemat zahrnuje více hráčů. I když je Hardinova „ tragédie obecní “ metaforická, lze ji vnímat jako zobecnění dilematu pro více hráčů. Každý obyvatel komunity si vybere, zda bude pást dobytek na společné pastvině a těžit z toho, že vyčerpá své zdroje , nebo omezí svůj příjem. Společným výsledkem všeobecného (nebo častého) maximálního využívání pastviny je nízký příjem (vedoucí ke zničení komunity). Taková hra však není formální, protože ji lze rozdělit na sekvenci klasických her pro 2 hráče.

Opakující se vězeňské dilema

V knize The Evolution of Cooperation z roku 1984 Robert Axelrod prozkoumal rozšíření scénáře dilematu, který nazval Repetitive Prisoner's Dilemma (RPD). V něm účastníci opakovaně volí a pamatují si předchozí výsledky. Axelrod pozval akademické kolegy z celého světa, aby vyvinuli počítačové strategie, aby mohli soutěžit v šampionátu PDD. Programy v něm obsažené se lišily algoritmickou složitostí, počátečním nepřátelstvím, schopností odpouštět a tak dále.

Axelrod zjistil, že pokud se hra opakovala po dlouhou dobu mezi mnoha hráči, každý s jinými strategiemi, „chamtivé“ strategie fungovaly z dlouhodobého hlediska špatně, zatímco „ altruističtější “ strategie fungovaly lépe, z hlediska vlastního zájmu. Využil toho, aby ukázal možný mechanismus pro evoluci altruistického chování z mechanismů, které jsou zpočátku čistě sobecké , prostřednictvím přirozeného výběru .

Nejlepší deterministickou strategií byla Tit for Tat , kterou vyvinul a připravil pro šampionát Anatoly Rapoport .  Byl to nejjednodušší ze všech zúčastněných programů, skládal se pouze ze 4 řádků kódu BASIC . Strategie je jednoduchá: spolupracovat na první iteraci hry, po které hráč udělá to samé, co soupeř v předchozím kroku. Strategie „Tit for a Tat with Forgiveness“ funguje o něco lépe. Když soupeř zradí, v dalším kroku hráč někdy bez ohledu na předchozí krok spolupracuje s malou pravděpodobností (1-5%). To vám umožní náhodně opustit cyklus vzájemné zrady. Nejlépe to funguje, když je  do hry zavedena chybná komunikace – když je rozhodnutí jednoho hráče sděleno druhému omylem.

Při analýze strategií, které dosáhly nejlepších výsledků, Axelrod pojmenoval několik podmínek nezbytných k tomu, aby strategie dosáhla vysokého výsledku:

Axelrod tak dospěl k utopickému – znějícímu závěru, že sobečtí jedinci se pro své vlastní sobecké dobro budou snažit být laskaví, odpouštějící a nezávidět.

Zvažte znovu model závodu ve zbrojení. Dospělo se k závěru, že jedinou racionální strategií je zbrojit, i když by obě země chtěly utrácet své HDP spíše za ropu než za zbraně [4] . Je zajímavé, že pokusy demonstrovat, že vyvozování dilemat v praxi funguje (analýzou „vysokých“ a „nízkých“ vojenských výdajů mezi jednotlivými obdobími na základě předpokladů TPP) často ukazují, že k tomuto chování nedochází ( např . Turecké vojenské výdaje se nemění v souladu se strategií „oko za oko“, ale s největší pravděpodobností podle vnitřní politiky). To může být příklad racionálního chování odlišného od jednorázových a vícetahových her.

Pokud ve hře na jeden tah v každém případě dominuje strategie zrady, pak ve hře na více tahů závisí optimální strategie na chování ostatních účastníků. Pokud se například všichni v populaci navzájem podvádějí a jeden se chová podle zásady „oko za oko“, je v malé ztrátě kvůli ztrátě na první tah. V takové populaci je vždy optimální strategií zrada. Pokud je větší počet těch, kteří vyznávají zásadu „oko za oko“, pak výsledek závisí již na jejich podílu ve společnosti.

Existují dva způsoby, jak určit optimální strategii:

Přestože byla strategie tit-for-tat považována za nejúspěšnější jednoduchou strategii, tým z University of Southampton pod vedením profesora Nicholase Jenningse [6] představil novou strategii k 20. výročí PKD Championship. Tato strategie byla úspěšnější než sýkorka za oko. Spoléhal na interakci mezi programy, aby získal maximální skóre pro jeden z nich. Univerzita pro šampionát připravila 60 programů, které se navzájem poznaly řadou akcí v prvních 5-10 tazích. Po rozpoznání druhého vždy jeden program spolupracoval, zatímco druhý zradil, což dalo zrádci maximum bodů. Pokud by program pochopil, že soupeř není ze Southamptonu, stále by ho zrazoval, aby minimalizoval soupeřův výsledek. Výsledkem [7] , tato strategie obsadila první tři místa v soutěži a také několik míst v řadě níže.

I když se tato evolučně stabilní strategie ukázala být účinnější v soutěži, bylo toho dosaženo za cenu umožnění účasti více agentů v této konkrétní soutěži. Pokud hráč může ovládat pouze jednoho agenta, je nejlepší sýkorka za tetu. Dodržuje také pravidlo zákazu komunikace mezi hráči. Skutečnost, že programy v Southamptonu prováděly prvních 10 tahů „rituální tanec“, aby se navzájem poznali, jen potvrzuje, jak důležitá je komunikace při posunu rovnováhy hry.

Pokud se PDZ hraje přesně Nkrát (nějaká známá konstanta N), je tu další zajímavý fakt. Nashova rovnováha je vždy zradit. Dokazujeme indukcí: pokud oba spolupracují, je výhodné zradit v posledním tahu, pak soupeř nebude mít příležitost se pomstít. Oba se proto při posledním tahu prozradí. Protože soupeř v každém případě zradí v posledním tahu, bude chtít kterýkoli hráč zradit v předposledním tahu a tak dále. Aby spolupráce zůstala zisková, budoucnost musí být pro oba hráče nejistá. Jedním z řešení je udělat číslo N náhodné a vypočítat výsledky průměrnou výplatou za tah.

Vězeňovo dilema je základem některých teorií o lidské interakci a důvěře. Z předpokladu modelu dilematu, že transakce mezi dvěma lidmi vyžaduje důvěru, lze chování důvěry v populacích modelovat pomocí multiplayerové iterativní verze hry. To inspirovalo mnoho vědců po celá léta. V roce 1975 Grofman a Poole odhadli počet prací věnovaných tomuto tématu na asi 2000.

Psychologie učení a teorie her

Pokud hráči dokážou posoudit možnost zrady ostatními hráči, jejich chování je ovlivněno zkušenostmi. Jednoduché statistiky ukazují, že nezkušení hráči se obvykle chovají nadměrně dobře nebo špatně. Pokud se budou takto chovat neustále, prohrají, protože jsou příliš agresivní nebo příliš laskaví. Jak získávají více zkušeností, realističtěji posuzují pravděpodobnost zrady a dosahují lepších výsledků. Rané hry mají silnější vliv na nezkušené hráče než pozdější hry na zkušené. To je příklad toho, proč mají rané zkušenosti takový dopad na mladé a proč jsou obzvláště zranitelní vůči nemotivované agresi, někdy se sami stávají stejnými.

Je možné snížit pravděpodobnost zrady v populaci prostřednictvím spolupráce v raných hrách, což umožňuje vybudovat důvěru [8] . Proto sebeobětování může v některých situacích posílit skupinovou morálku. Pokud je skupina malá, pozitivní chování bude pravděpodobněji opětováno, což povzbudí jednotlivce k další spolupráci. To souvisí s dalším dilematem, že s dobrým zacházením bez důvodu je shovívavost, která může degradovat morální charakter člověka.

Tyto procesy jsou hlavní oblastí zájmu recipročního altruismu , skupinového výběru , rodinného výběru a etiky .

Vliv náboženství

Náboženská představení výrazně zvyšují míru spolupráce mezi hráči. Ve studiích dokonce implicitní zmínka o náboženských slovech v předběžném úkolu před hrou vedla k výraznému nárůstu prosociálního chování [9] .

Viz také

Poznámky

  1. Náznak, že například červený hráč bude hrát „spolupracovat“, nic nemění na faktu, že „zrada“ je přísně dominantní strategií. Pokud vezmeme v úvahu pouze hru, nehraje možnost komunikace žádnou roli. Pokud se však hra hraje v reálném životě, mohou ke spolupráci vést i úvahy mimo samotnou hru. To je velmi důležitý bod v závěru hry, že pokud nepotřebujeme brát v úvahu cizí faktory, jednorázové „vězeňské dilema“ se z komunikace nemění.
  2. Hofstadter, Douglas . Kapitola 29 // Metamagická témata: hledání podstaty mysli a vzoru. - Bantam Dell Pub Group, 1985. - ISBN 0-465-04566-9 .
  3. Genie Baker. Harmony of Interests Revisited Archived 12. června 2010 na Wayback Machine . // Realismus trhu: Diferenciálně rizikové měny a zisky z obchodu podle Liberálního ekonomického řádu. (Angličtina)
  4. V ekonomických učebnicích je křivka produkčních možností znázorněna volbou pouze mezi dvěma komoditami: ropou a zbraněmi.
  5. „Bayes-Nashova rovnováha; statistický test hypotézy“ Archivováno 2. října 2005.
  6. Profesor Nick Jennings archivován 10. dubna 2006 na Wayback Machine 
  7. Výsledky Prisoner's Dilemma Tournament 2004 Archivovány 29. srpna 2006 na Wayback Machine  ukazují, že tým University of Southampton skončil na prvních třech místech, i když měl méně výher než strategie GRIM (turnaj nemusel vyhrávat jednotlivé zápasy; to ' s dosažitelná a jednoduchá častá zrada). A bez naznačené tajné dohody mezi strategiemi, které tým Southamptonu zneužil, není sýkorka za tetou vždy přímým vítězem jakékoli soutěže. Jinými slovy, z dlouhodobého hlediska si v řadě různých šampionátů povede lépe než soupeři a v jediném šampionátu lze strategii přizpůsobit konkurenci o něco lépe než „sýkorka za tatínka“. Totéž s prominutím platí pro OZO: v jediné soutěži může prohrát se speciálně vybroušenými strategiemi. Alternativou je použití evoluční simulace . V něm začne dominovat OZO a z populace se čas od času objeví a zmizí zlé strategie. Richard Dawkins ukázal, že neexistuje žádná statická kombinace strategií, která by byla stabilní rovnováhou, a systém bude kolísat mezi hranicemi.
  8. Argument o rozvoji spolupráce prostřednictvím důvěry je uveden v knize Wisdom of the Crowds od Jamese Surowieckiho , která tvrdí, že z dlouhodobého hlediska se kapitalismus dokázal zorganizovat kolem jádra kvakerů , kteří vždy poctivě spolupracovali se svými partnery ( místo klamání a porušování slibů – fenomén, který zastavil dřívější dlouhodobé dobrovolné mezinárodní kontakty).[ upřesnit ] Tvrdí se, že jednání s důvěryhodnými obchodníky umožnilo, aby se kultura poctivosti (spolupráce) rozšířila na další obchodníky, kteří ji šířili dále, dokud nebylo výhodné být vůbec upřímný.
  9. Ali M. Ahmed, Osvaldo Salas. Implicitní vlivy křesťanských náboženských reprezentací na herní rozhodnutí diktátora a vězně  // The Journal of Socio-Economics. — 2011-05-01. - T. 40 , č.p. 3 . — S. 242–246 . - doi : 10.1016/j.socec.2010.12.013 . Archivováno z originálu 25. srpna 2011.

Literatura

Odkazy