Dilema Del Prisionero
Dilema Del Prisionero
Dilema Del Prisionero
Cooperarn los dos prisioneros para minimizar la prdida total de libertad o uno de ellos,
confiando en la cooperacin del otro, lo traicionar para quedar en libertad?
El dilema del prisionero es un problema fundamental de la teora de juegos que muestra que dos
personas pueden no cooperar incluso si en ello va el inters de ambas.
Fue desarrollado originariamente por Merrill M. Flood y Melvin Dresher mientras trabajaban en
RAND en 1950. Albert W. Tucker formaliz el juego con la frase sobre las recompensas
penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995).
Es un ejemplo de problema de suma no nula. Las tcnicas de anlisis de la teora de juegos
estndar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger
traicionar al otro, pero ambos jugadores obtendran un resultado mejor si colaborasen.
En el dilema del prisionero iterado, la cooperacin puede obtenerse como un resultado de
equilibrio. Aqu se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada
jugador la oportunidad de castigar al otro jugador por la no cooperacin en juegos anteriores. As,
el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un
resultado cooperativo.
La polica arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras
haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su
cmplice no, el cmplice ser condenado a la pena total, diez aos, y el primero ser
liberado. Si uno calla y el cmplice confiesa, el primero recibir esa pena y ser el cmplice
quien salga libre. Si ambos confiesan, ambos sern condenados a seis aos. Si ambos lo
niegan, todo lo que podrn hacer ser encerrarlos durante seis meses por un cargo menor.
Lo que puede resumirse como:
T confiesas
T lo niegas
T eres condenado a 10 aos y l sale libre.
l confiesa Ambos son condenados a 6 aos.
l lo niega l es condenado a 10 aos y t sales libre. Ambos son condenados a 6 meses.
Vamos a suponer que ambos prisioneros son completamente egostas y su nica meta es reducir
su propia estancia en la crcel. Como prisioneros tienen dos opciones: cooperar con su cmplice
y permanecer callado, o traicionar a su cmplice y confesar. El resultado de cada eleccin depende
de la eleccin del cmplice. Por desgracia, uno no conoce qu ha elegido hacer el otro. Incluso si
pudiesen hablar entre s, no podran estar seguros de confiar mutuamente.
Si uno espera que el cmplice escoja cooperar con l y permanecer en silencio, la opcin ptima
para el primero sera confesar, lo que significara que sera liberado inmediatamente, mientras el
cmplice tendr que cumplir una condena de 10 aos. Si espera que su cmplice decida confesar,
la mejor opcin es confesar tambin, ya que al menos no recibir la condena completa de 10 aos,
y slo tendr que esperar 6, al igual que el cmplice. Y, sin embargo, si ambos decidiesen cooperar
y permanecer en silencio, ambos seran liberados en slo 6 meses.
Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la eleccin del otro
jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto
conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aqu
se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un
resultado que no es ptimo -en el sentido de eficiencia de Pareto-; existe una situacin tal que la
utilidad de uno de los detenidos podra mejorar (incluso la de ambos) sin que esto implique un
empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no
confiesan domina al resultado en el cual los dos eligen confesar.
Si se razona desde la perspectiva del inters ptimo del grupo (de los dos prisioneros), el resultado
correcto sera que ambos cooperasen, ya que esto reducira el tiempo total de condena del grupo a
un total de un ao. Cualquier otra decisin sera peor para ambos si se consideran conjuntamente.
A pesar de ello, si siguen sus propios intereses egostas, cada uno de los dos prisioneros recibir
una sentencia dura.
Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado
cooperativo puede mantenerse. La forma iterada de este juego (mencionada ms abajo) ofrece una
oportunidad para este tipo de castigo. En ese juego, si el cmplice traiciona y confiesa una vez, se
le puede castigar traicionndolo a la prxima. As, el juego iterado ofrece una opcin de castigo
que est ausente en el modo clsico del juego.
Una opcin es considerar este dilema como una simple "mquina de la verdad". El jugador puede
tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta
lgica en este caso es "no jugar", pues el prisionero carece de informacin suficiente para jugar
correctamente: no sabe cul ser la opcin de su compaero. No hay tal dilema, pues no es posible
el juego. Si juega, se trata de una "apuesta", ms que de una solucin lgica.
Pensemos tambin que el prisionero en realidad est "jugando" con su carcelero, no con el otro
prisionero. El carcelero le ofrece una opcin. Para l, la mayor ganancia sera condenar al
prisionero a la pena mayor, pues se es su trabajo. Si logra condenar a los dos a la mxima pena,
doble ganancia. El prisionero sabe eso, en el fondo. Slo "jugara" si supiera con toda certeza que
el polica cumplira su palabra a pesar de su confesin. Pero tampoco lo sabe. En realidad,
prisionero-carcelero y prisionero-prisionero estn jugando al mismo juego: encubrir o traicionar
(en el caso del ejemplo de los prisioneros, no concuerda el verdad o mentira puesto que decir la
verdad sera traicionar).
T encubres
l encubre
T traicionas
En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador slo optar por la
casilla "verdad" si sabe que el otro jugador tambin opta por la misma solucin. En la vida real,
eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relacin de confianza"
existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos,
con una relacin de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero.
Entonces s sabran (casi con toda seguridad, pero nunca completa) cul sera la opcin de su
compaero, y entonces siempre jugaran correctamente: cooperaran.
La nica solucin lgica es, por tanto, cooperar entre si. Y adems ser la que dar el mximo
beneficio comn. Este planteamiento nos lleva a la correcta solucin del dilema, que es decir la
verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no
es pensar en nuestro beneficio (ser egosta) sino en el del "otro" (ser generoso). En este caso,
jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que
siempre gane el rival, hay pues una nica solucin lgica, y que no depende de la jugada del rival.
Dilema resuelto.
Una solucin "incorrecta" sera en el caso que el hermano traicione al hermano. Aun as, el juego
es correcto (pues todo juego tiene una y slo una solucin lgica). Lo que ha sucedido es que ha
cambiado el nombre del juego: ahora lo podramos llamar "Descubre al mentiroso". Hemos
ganado, pues descubrimos a un mentiroso.
T ganas
l gana
T pierdes
l pierde T mentiste
Lo dos mintieron
donde T es la tentacin para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador
coopera); R es la recompensa por la cooperacin mutua; C es el castigo por la desercin mutua; y
P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).
En el caso del dilema del prisionero, la frmula se cumple: 0 > -5 > -6 > -10 (en negativo pues los
nmeros corresponden a aos de crcel).
Suele tambin cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.
Las frmulas anteriores aseguran que, independientemente de los nmeros exactos en cada parte
de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas
anterior (o a un juego de dos jugadores tipo Axelrod ver ms abajo), obtendremos la siguiente
matriz de pagos cannica para el dilema del prisionero, esto es, la que se suele mostrar en la
literatura sobre este tema:
Cooperar Desertar
Cooperar 3, 3
Desertar
5, -5
-5, 5
-1, -1
Desertar
Prisionero B
Ambos
No Confesar
No Confesar
1 ao de crcel
1 ao de crcel
2 aos de crcel
No Confesar
Confesar
Confesar
No Confesar
Confesar
Confesar
A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o del bien
comn que produce resultados diferentes a los obtenidos por el criterio de los resultados
individuales o egostas: La decisin que beneficia en forma conjunta a ambos participantes es No
Confesar que resulta en un total de dos aos de crcel contra cinco o seis aos de crcel con las
otras decisiones.
Dos importantes corolarios de este criterio son los siguientes:
Recordemos que el concepto de Costo de Oportunidad se refiere al beneficio que se deja de percibir
que es diferente al desembolso de algo que se posea.
En este caso, el costo individual de la decisin altruista o de bien comn es de un ao de crcel en
lugar de salir libre de manera inmediata.
Ntese que no se habla de la culpabilidad o inocencia reales de los presuntos criminales sino de la
decisin de confesar o no hacerlo.
El efecto del cambio de criterio, del resultado individual o egosta al resultado conjunto o del bien
comn, produce un cambio de 180 en el anlisis del Dilema del Prisionero.
El ms importante corolario de este dilema es que la nica forma de ganar es con un cambio de
valores: del egosmo individual al altrusmo del bien comn. Este puede ser el juego de
supervivencia del planeta: o la humanidad termina en la extincin o sobrevive gracias al respeto
al otro.
El instinto filial (amor padres-hijos) adquirido en el proceso evolutivo ha permitido la
supervivencia de la especie humana, que de otra forma ya se hubiera extinguido debido a la
incapacidad de los infantes humanos para sobrevivir sin la proteccin de sus padres o substitutos;
tal incapacidad es mayor en los humanos que en ninguna otra especie animal. El problema es que
no existe el tiempo para adquirir por evolucin biolgica un instinto social o de amor al otro.
Parece que la nica salida es adelantarse al proceso evolutivo con la toma de conciencia y el
cambio propositivo de valores de los seres humanos.
La paradoja de todo lo anterior es que para lograr el beneficio individual es menester respetar el
bien comn. El egosmo finalmente desemboca en la auto-destruccin de la humanidad. Los
mensajes ticos producto de la sabidura humana, desde los albores del hombre, son vigentes.
o cuasi religioso que son por s mismas independientes de los resultados positivos del sacrificio
altruista, cuyo carcter inintencional hace paradjicamente posible un beneficio conjunto en tanto
permanezca como motivacin secundaria.
mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La
mezcla de algoritmos en la poblacin final depende de la mezcla en la poblacin inicial.
Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato
interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fcilmente por induccin: El
jugador A puede desertar la ltima ronda, ya que B no tendr oportunidad de castigarle. Por ello,
ambos desertaran la ltima ronda. Entonces, A puede desertar la ronda anterior, ya que B desertar
en la ltima sin importar lo que suceda. Y se contina de este modo. Para que la cooperacin siga
siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una solucin consiste en
hacer aleatorio el nmero total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un nmero
infinito de rondas, y la puntuacin es la media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender ciertas teoras de cooperacin y
confianza humana. En la suposicin de que las transacciones entre dos personas que requieran
confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en
poblaciones puede ser modelado por una versin para varios jugadores e iterada del juego. Por ello
ha fascinado a muchos estudiosos a lo largo de los aos. Una estimacin no demasiado actualizada
(Grofman and Pool, 1975) sita el nmero de artculos dedicados al mismo sobre 2.000.