Vězňovo dilema ( nebo méně běžně známé jako Banditovo dilema ) je základním problémem teorie her , podle kterého spolu racionální hráči nebudou vždy spolupracovat, i když je to v jejich nejlepším zájmu. Předpokládá se, že hráč ("vězeň") maximalizuje svůj vlastní zisk a nestará se o prospěch ostatních.
Podstatu problému formulovali Meryl Flood a Melvin Drescher v roce 1950. Název dilematu dal matematik Albert Tucker .
Ve Vězňově dilematu zrada striktně dominuje spolupráci, takže jedinou možnou rovnováhou je zrada obou účastníků. Jednoduše řečeno, ať je chování druhého hráče jakékoli, každý bude mít větší prospěch, pokud zradí. Protože je lepší zradit než spolupracovat v jakékoli situaci, všichni racionální hráči se rozhodnou zradit.
Individuálně racionálně se účastníci společně dostanou k iracionálnímu řešení: pokud oba zradí, získají menší celkový zisk, než kdyby spolupracovali (jediná rovnováha v této hře nevede k Paretovu optimálnímu řešení). V tom spočívá dilema.
V opakujícím se vězňově dilematu se hra hraje periodicky a každý hráč může toho druhého „potrestat“ za to, že nespolupracoval dříve. V takové hře se spolupráce může stát rovnováhou a pobídka ke zradě může být převážena hrozbou trestu (jak se zvyšuje počet opakování, Nashova rovnováha směřuje k Paretovu optimu ).
Ve všech soudních systémech je trest za banditismus (páchání zločinů jako součást organizované skupiny) mnohem přísnější než za stejné zločiny spáchané samostatně (odtud název „banditské dilema“).
Klasická formulace vězňova dilematu je:
Dva zločinci - A a B - byli přistiženi při podobných trestných činech přibližně ve stejnou dobu. Existuje důvod se domnívat, že jednali v tajné dohodě, a policie, která je od sebe izolovala, jim nabízí totéž: pokud jeden svědčí proti druhému a on mlčí, pak je první propuštěn, aby pomáhal při vyšetřování, a druhý dostane maximální trest odnětí svobody (10 let). Pokud oba mlčí, jejich čin přechází pod lehčí článek a každý z nich je odsouzen k šesti měsícům vězení. Pokud budou oba svědčit proti sobě, obdrží minimální trest (každý 2 roky). Každý vězeň si vybere, zda bude mlčet, nebo bude svědčit proti druhému. Ani jeden z nich však přesně neví, co ten druhý udělá. Co se bude dít?
Hra může být reprezentována jako následující tabulka:
Vězeň B mlčí | Vězeň B svědčí | |
Vězeň A mlčí | Oba dostávají šest měsíců. | A dostane 10 let, B je propuštěn |
Vězeň A svědčí | A je propuštěn, B dostane 10 let vězení |
Oběma hrozí 2 roky vězení |
Vězeňovo dilema v normální podobě . |
Dilema nastává, pokud předpokládáme, že se oba starají pouze o minimalizaci jejich vlastních trestů odnětí svobody.
Představte si úvahy jednoho z vězňů. Pokud partner mlčí, je lepší ho zradit a jít na svobodu (jinak - šest měsíců ve vězení). Pokud vypovídá partner, pak je lepší svědčit i proti němu, aby dostal 2 roky (jinak - 10 let) vězení. Strategie „svědka“ striktně dominuje strategii „mlčet“. Podobně dospívá ke stejnému závěru další vězeň.
Z pohledu skupiny (těchto dvou vězňů) je nejlepší vzájemně spolupracovat, mlčet a dostat šest měsíců, protože se tím zkrátí celková doba odnětí svobody. Jakékoli jiné řešení bude méně ziskové. To velmi jasně ukazuje, že ve hře s nenulovým součtem může být Paretovo optimum opakem Nashovy rovnováhy .
Spolupracovat | zradit | |
Spolupracovat | C, C | c, D |
zradit | DC | d, d |
Canonical Payoff Matrix of Prisoner's Dilemma |
Schéma hry můžete dále rozšířit a abstrahovat od podtextu vězňů. Zobecněná forma hry je často používána v experimentální ekonomii . Následující pravidla poskytují typickou implementaci hry:
Tato pravidla stanovil Douglas Hofstadter a tvoří kanonický popis typického vězeňského dilematu.
Hofstadter [2] navrhl, že lidé chápou problémy jako Vězňovo dilema snadněji, když jsou prezentovány jako samostatná hra nebo obchodní proces. Jedním z příkladů je „výměna uzavřených tašek“:
Dva lidé se setkají a vymění si uzavřené tašky, přičemž si uvědomí, že jeden z nich obsahuje peníze, druhý - zboží. Každý hráč může dohodu respektovat a dát do sáčku to, na čem se dohodli, nebo oklamat partnera tím, že dá prázdný sáček.
V této hře bude podvádění vždy řešením s nejvyšším krátkodobým materiálním ziskem.
Některé herní show používají podobný princip k určení vítězů buď kola nebo finále. Příklad dilematu se ukázal v roce 2012 v britské herní show The Bank Job ve finále každé sezóny: dva hráči, kteří se dostali do finále, se museli rozhodnout, jak s výhrou naloží. Polovina z celkového odehraného jackpotu byla v kufrech s označením CASH, další dva byly výstřižky z novin s označením TRASH (hráč má od každého druhu jeden kufr). Každý hráč musel vzít jeden ze svých kufrů a dát ho druhému. Pokud oba hráči dostali kufry CASH, pak si výhru rozdělili napůl. Pokud někdo dal kufr do TRASH, pak si vzal celou banku hry. Pokud oba dali TRASH, oba zůstali bez peněz a výhry připadly hráčům, kteří vypadli v předchozích fázích finále.
Příklady vězňů, karetní hry a výměny uzavřených pytlů se mohou zdát přitažené za vlasy, ale ve skutečnosti existuje mnoho příkladů interakcí mezi lidmi a zvířaty, které mají stejnou výplatní matici. Proto je vězňovo dilema zajímavé pro společenské vědy, jako je ekonomie , politologie a sociologie , stejně jako sekce biologie - etologie a evoluční biologie . Mnoho přírodních procesů bylo zobecněno do modelů, v nichž se živé bytosti účastní nekonečných her typu vězeňských dilemat. Tato široká použitelnost dilematu činí tuto hru velmi důležitou.
V politickém realismu se například scénář dilematu často používá k ilustraci problému dvou států zapojených do závodu ve zbrojení . Oba státy prohlásí, že mají dvě možnosti: buď zvýšit vojenské výdaje, nebo omezit zbrojení. V tomto případě jsou postuláty vězňova dilematu (D > C > d > c) [3] zjevně splněny :
Z pohledu strany A, pokud strana B nezajišťuje, tak pro A je na výběr mezi D a C - je lepší zajistit. Pokud B střeží, pak pro A je na výběr mezi d a c - opět je výhodnější jistit. Pro jakoukoli volbu B je tedy pro stranu A výhodnější zbrojit. Situace pro stranu B je úplně stejná a obě strany budou nakonec usilovat o vojenskou expanzi .
William Poundstone ve své knize o vězňově dilematu popisuje situaci na Novém Zélandu , kdy jsou krabice s novinami ponechány otevřené. Je možné si vzít noviny, aniž byste za ně zaplatili, ale málokdo to dělá, protože většina lidí si je vědoma škod, které by byly, kdyby noviny každý kradl. Vzhledem k tomu, že vězňovo dilema je ve své nejčistší podobě pro všechny hráče současné (nikdo nemůže ovlivňovat rozhodnutí ostatních), nazývá se tato společná linie uvažování " magické myšlení ". Jako vysvětlení pro nedostatek drobných krádeží vysvětluje magické myšlení dobrovolné hlasování ve volbách (kde je nevolič považován za zajíce ). Alternativně lze toto chování vysvětlit očekáváním budoucích akcí (a nevyžaduje spojení s „magickým myšlením“). Modelování budoucích akcí vyžaduje přidání časové dimenze, což se děje v opakujícím se dilematu.
Teoretický závěr dilematu je jedním z důvodů, proč je vyjednávání o vině a trestu v mnoha zemích zakázáno . Scénář dilematu se často velmi přesně opakuje: je v zájmu obou podezřelých, aby se přiznali a svědčili proti druhému podezřelému, i když jsou oba nevinní. Snad nejhorším případem je, když je vinen pouze jeden, v takovém případě se nevinný pravděpodobně k ničemu nepřizná a viník bude svědčit proti nevinnému.
Mnoho skutečných dilemat zahrnuje více hráčů. I když je Hardinova „ tragédie obecní “ metaforická, lze ji vnímat jako zobecnění dilematu pro více hráčů. Každý obyvatel komunity si vybere, zda bude pást dobytek na společné pastvině a těžit z toho, že vyčerpá své zdroje , nebo omezí svůj příjem. Společným výsledkem všeobecného (nebo častého) maximálního využívání pastviny je nízký příjem (vedoucí ke zničení komunity). Taková hra však není formální, protože ji lze rozdělit na sekvenci klasických her pro 2 hráče.
V knize The Evolution of Cooperation z roku 1984 Robert Axelrod prozkoumal rozšíření scénáře dilematu, který nazval Repetitive Prisoner's Dilemma (RPD). V něm účastníci opakovaně volí a pamatují si předchozí výsledky. Axelrod pozval akademické kolegy z celého světa, aby vyvinuli počítačové strategie, aby mohli soutěžit v šampionátu PDD. Programy v něm obsažené se lišily algoritmickou složitostí, počátečním nepřátelstvím, schopností odpouštět a tak dále.
Axelrod zjistil, že pokud se hra opakovala po dlouhou dobu mezi mnoha hráči, každý s jinými strategiemi, „chamtivé“ strategie fungovaly z dlouhodobého hlediska špatně, zatímco „ altruističtější “ strategie fungovaly lépe, z hlediska vlastního zájmu. Využil toho, aby ukázal možný mechanismus pro evoluci altruistického chování z mechanismů, které jsou zpočátku čistě sobecké , prostřednictvím přirozeného výběru .
Nejlepší deterministickou strategií byla Tit for Tat , kterou vyvinul a připravil pro šampionát Anatoly Rapoport . Byl to nejjednodušší ze všech zúčastněných programů, skládal se pouze ze 4 řádků kódu BASIC . Strategie je jednoduchá: spolupracovat na první iteraci hry, po které hráč udělá to samé, co soupeř v předchozím kroku. Strategie „Tit for a Tat with Forgiveness“ funguje o něco lépe. Když soupeř zradí, v dalším kroku hráč někdy bez ohledu na předchozí krok spolupracuje s malou pravděpodobností (1-5%). To vám umožní náhodně opustit cyklus vzájemné zrady. Nejlépe to funguje, když je do hry zavedena chybná komunikace – když je rozhodnutí jednoho hráče sděleno druhému omylem.
Při analýze strategií, které dosáhly nejlepších výsledků, Axelrod pojmenoval několik podmínek nezbytných k tomu, aby strategie dosáhla vysokého výsledku:
Axelrod tak dospěl k utopickému – znějícímu závěru, že sobečtí jedinci se pro své vlastní sobecké dobro budou snažit být laskaví, odpouštějící a nezávidět.
Zvažte znovu model závodu ve zbrojení. Dospělo se k závěru, že jedinou racionální strategií je zbrojit, i když by obě země chtěly utrácet své HDP spíše za ropu než za zbraně [4] . Je zajímavé, že pokusy demonstrovat, že vyvozování dilemat v praxi funguje (analýzou „vysokých“ a „nízkých“ vojenských výdajů mezi jednotlivými obdobími na základě předpokladů TPP) často ukazují, že k tomuto chování nedochází ( např . Turecké vojenské výdaje se nemění v souladu se strategií „oko za oko“, ale s největší pravděpodobností podle vnitřní politiky). To může být příklad racionálního chování odlišného od jednorázových a vícetahových her.
Pokud ve hře na jeden tah v každém případě dominuje strategie zrady, pak ve hře na více tahů závisí optimální strategie na chování ostatních účastníků. Pokud se například všichni v populaci navzájem podvádějí a jeden se chová podle zásady „oko za oko“, je v malé ztrátě kvůli ztrátě na první tah. V takové populaci je vždy optimální strategií zrada. Pokud je větší počet těch, kteří vyznávají zásadu „oko za oko“, pak výsledek závisí již na jejich podílu ve společnosti.
Existují dva způsoby, jak určit optimální strategii:
Přestože byla strategie tit-for-tat považována za nejúspěšnější jednoduchou strategii, tým z University of Southampton pod vedením profesora Nicholase Jenningse [6] představil novou strategii k 20. výročí PKD Championship. Tato strategie byla úspěšnější než sýkorka za oko. Spoléhal na interakci mezi programy, aby získal maximální skóre pro jeden z nich. Univerzita pro šampionát připravila 60 programů, které se navzájem poznaly řadou akcí v prvních 5-10 tazích. Po rozpoznání druhého vždy jeden program spolupracoval, zatímco druhý zradil, což dalo zrádci maximum bodů. Pokud by program pochopil, že soupeř není ze Southamptonu, stále by ho zrazoval, aby minimalizoval soupeřův výsledek. Výsledkem [7] , tato strategie obsadila první tři místa v soutěži a také několik míst v řadě níže.
I když se tato evolučně stabilní strategie ukázala být účinnější v soutěži, bylo toho dosaženo za cenu umožnění účasti více agentů v této konkrétní soutěži. Pokud hráč může ovládat pouze jednoho agenta, je nejlepší sýkorka za tetu. Dodržuje také pravidlo zákazu komunikace mezi hráči. Skutečnost, že programy v Southamptonu prováděly prvních 10 tahů „rituální tanec“, aby se navzájem poznali, jen potvrzuje, jak důležitá je komunikace při posunu rovnováhy hry.
Pokud se PDZ hraje přesně Nkrát (nějaká známá konstanta N), je tu další zajímavý fakt. Nashova rovnováha je vždy zradit. Dokazujeme indukcí: pokud oba spolupracují, je výhodné zradit v posledním tahu, pak soupeř nebude mít příležitost se pomstít. Oba se proto při posledním tahu prozradí. Protože soupeř v každém případě zradí v posledním tahu, bude chtít kterýkoli hráč zradit v předposledním tahu a tak dále. Aby spolupráce zůstala zisková, budoucnost musí být pro oba hráče nejistá. Jedním z řešení je udělat číslo N náhodné a vypočítat výsledky průměrnou výplatou za tah.
Vězeňovo dilema je základem některých teorií o lidské interakci a důvěře. Z předpokladu modelu dilematu, že transakce mezi dvěma lidmi vyžaduje důvěru, lze chování důvěry v populacích modelovat pomocí multiplayerové iterativní verze hry. To inspirovalo mnoho vědců po celá léta. V roce 1975 Grofman a Poole odhadli počet prací věnovaných tomuto tématu na asi 2000.
Pokud hráči dokážou posoudit možnost zrady ostatními hráči, jejich chování je ovlivněno zkušenostmi. Jednoduché statistiky ukazují, že nezkušení hráči se obvykle chovají nadměrně dobře nebo špatně. Pokud se budou takto chovat neustále, prohrají, protože jsou příliš agresivní nebo příliš laskaví. Jak získávají více zkušeností, realističtěji posuzují pravděpodobnost zrady a dosahují lepších výsledků. Rané hry mají silnější vliv na nezkušené hráče než pozdější hry na zkušené. To je příklad toho, proč mají rané zkušenosti takový dopad na mladé a proč jsou obzvláště zranitelní vůči nemotivované agresi, někdy se sami stávají stejnými.
Je možné snížit pravděpodobnost zrady v populaci prostřednictvím spolupráce v raných hrách, což umožňuje vybudovat důvěru [8] . Proto sebeobětování může v některých situacích posílit skupinovou morálku. Pokud je skupina malá, pozitivní chování bude pravděpodobněji opětováno, což povzbudí jednotlivce k další spolupráci. To souvisí s dalším dilematem, že s dobrým zacházením bez důvodu je shovívavost, která může degradovat morální charakter člověka.
Tyto procesy jsou hlavní oblastí zájmu recipročního altruismu , skupinového výběru , rodinného výběru a etiky .
Náboženská představení výrazně zvyšují míru spolupráce mezi hráči. Ve studiích dokonce implicitní zmínka o náboženských slovech v předběžném úkolu před hrou vedla k výraznému nárůstu prosociálního chování [9] .
Slovníky a encyklopedie | ||||
---|---|---|---|---|
|
Herní teorie | |
---|---|
Základní pojmy | |
Typy her |
|
Koncepce řešení | |
Příklady her | |
teorie rozhodování | Paradoxy|
---|---|
|