Dilema do prisioneiro

Irão cooperar ambos os prisioneiros para minimizar a perda da liberdade, ou um dos presos, desconfiando na cooperação do outro, o trairá para ganhar a liberdade?

O dilema do prisioneiro faz referência a um problema da teoria dos jogos, sendo um exemplo claro, mas atípico, de um problema de soma não nula. Neste problema, como em muitos outros, supõe-se que cada jogador, de forma independente, quer aumentar ao máximo a sua própria vantagem sem lhe importunar o resultado do outro jogador.

As técnicas de análise da teoria de jogos padrão, como por exemplo determinar o equilíbrio de Nash, podem levar a que cada jogador escolha trair o outro, embora ambos os jogadores obtenham um resultado mais favorável se colaborarem. Infelizmente para os prisioneiros, cada jogador é incentivado individualmente a defraudar o próximo, mesmo após a promessa recíproca de colaboração. Este é o ponto-chave do dilema, ou seja, deverá ou não deverá o prisioneiro egoísta colaborar com o próximo sem o trair, para que a vantagem do grupo, equitativamente distribuída, possa ser maximizada?

No dilema do prisioneiro iterado, a cooperação pode obter-se como um resultado de equilíbrio. Aqui joga-se repetidamente, e quando se repete o jogo, oferece-se a cada jogador a oportunidade de castigar o outro jogador pela não cooperação em jogos anteriores. Assim, num processo iterativo, o incentivo para defraudar pode ser superado pela ameaça do castigo, o que conduz a um resultado melhor, ou seja, mais cooperativo.

O dilema do prisioneiro clássico

O dilema do prisioneiro foi originalmente formulado em 1950 por Merrill Flood e Melvin Dresher enquanto trabalhavam na RAND. Mais tarde, Albert W. Tucker fez a sua formalização com o tema da pena de prisão e deu ao problema geral o nome pelo qual é conhecido. O dilema do prisioneiro (DP), dito clássico, funciona da seguinte forma:

Dois suspeitos, A e B, são presos pela polícia. A polícia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer em silêncio, o que confessou sai livre enquanto o cúmplice silencioso cumpre 10 anos de sentença. Se ambos ficarem em silêncio, a polícia só pode condená-los a 6 meses de cadeia cada um. Se ambos traírem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua decisão sem saber que decisão o outro vai tomar, e nenhum tem certeza da decisão do outro. A questão que o dilema propõe é: o que vai acontecer? Como o prisioneiro vai reagir?

O fato é que pode haver dois vencedores no jogo, sendo esta última solução a melhor para ambos, quando analisada em conjunto. Entretanto, os jogadores confrontam-se com alguns problemas: confiam no cúmplice e permanecem negando o crime, mesmo correndo o risco de serem colocados numa situação ainda pior, ou confessam e esperam ser libertados, apesar de que, se o outro fizer o mesmo, ambos ficarão numa situação pior em comparação com aquela em que ambos permanecessem calados?

Um experimento baseado no simples dilema encontrou que cerca de 40% de participantes cooperaram (ou seja, ficaram em silêncio).[1] Em abstracto, não importa os valores das penas, mas o cálculo das vantagens de uma decisão cujas consequências estão atreladas às decisões de outros agentes, onde a confiança e traição fazem parte da estratégia em jogo.

Casos como este são recorrentes na economia, na biologia e na estratégia. O estudo das táticas mais vantajosas num cenário onde esse dilema se repita é um dos temas da teoria dos jogos. O enunciado clássico do dilema do prisioneiro, acima exposto, pode resumir-se, do ponto de vista individual de um dos prisioneiros, na seguinte tabela (tabela de ganhos):

  Prisioneiro "B" nega Prisioneiro "B" delata
Prisioneiro "A" nega Ambos são condenados a 6 meses "A" é condenado a 10 anos; "B" sai livre
Prisioneiro "A" delata "A" sai livre; "B" é condenado a 10 anos Ambos são condenados a 5 anos
O prisioneiro está perante o dilema de confessar ou negar a participação no crime, tendo de lidar com a possibilidade de uma dura pena.

Vamos supor que ambos os prisioneiros são completamente egoístas e a sua única meta é reduzir a sua própria estadia na prisão. Como prisioneiros têm duas opções: ou cooperar com o seu cúmplice e permanecer calado, ou trair o seu cúmplice e confessar. O resultado de cada escolha depende da escolha do cúmplice. Infelizmente, um não sabe o que o outro escolheu fazer. Incluso se pudessem falar entre si, não poderiam estar seguros de confiar mutuamente.

Se se esperar que o cúmplice escolha cooperar com ele e permanecer em silêncio, a opção óptima para o primeiro seria confessar, o que significaria que seria libertado imediatamente, enquanto o cúmplice terá que cumprir uma pena de 10 anos. Se espera que seu cúmplice decida confessar, a melhor opção é confessar também, já que ao menos não receberá a pena completa de 10 anos, e apenas terá que esperar 5, tal como o cúmplice. Se ambos decidirem cooperar e permanecerem em silêncio, ambos serão libertados em apenas 6 meses.

Confessar é uma estratégia dominante para ambos os jogadores. Seja qual for a eleição do outro jogador, podem reduzir sempre sua sentença confessando. Por desgraça para os prisioneiros, isto conduz a um resultado regular, no qual ambos confessam e ambos recebem longas condenações. Aqui se encontra o ponto chave do dilema. O resultado das interacções individuais produz um resultado que não é óptimo no sentido de Pareto; existe uma situação tal que a utilidade de um dos detidos poderia melhorar (ou mesmo a de ambos) sem que isto implique uma piora para o resto. Por outras palavras, o resultado no qual ambos os detidos não confessam domina o resultado no qual os dois escolhem confessar.

Se se pensar pela perspectiva do interesse óptimo do grupo (dos dois prisioneiros), o resultado correcto seria que ambos cooperassem, já que isto reduziria o tempo total de pena do grupo a um total de um ano. Qualquer outra decisão seria pior para ambos se se considerar conjuntamente. Apesar disso, se continuarem no seu próprio interesse egoísta, cada um dos dos prisioneiros receberá uma dura pena.

Se um jogador tiver uma oportunidade para castigar o outro jogador ao confessar, então um resultado cooperativo pode manter-se. A forma iterada de este jogo (mencionada mais abaixo) oferece uma oportunidade para este tipo de castigo. Nesse jogo, se o cúmplice trai e confessa uma vez, pode-se castigá-lo traindo-o na próxima. Assim, o jogo iterado oferece uma opção de castigo que está ausente no modo clássico do jogo.

Este jogo possui como solução do ponto de vista Ótimo de Pareto a estratégia:

  • A e B negam

Este jogo possui como Equilíbrios de Nash a estratégia:

  • A e B delatam: neste caso, é o Equilíbrio dominante.