Dilema Del Prisionero

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Dilema del prisionero

Cooperarn los dos prisioneros para minimizar la prdida total de libertad o uno de ellos,
confiando en la cooperacin del otro, lo traicionar para quedar en libertad?
El dilema del prisionero es un problema fundamental de la teora de juegos que muestra que dos
personas pueden no cooperar incluso si en ello va el inters de ambas.
Fue desarrollado originariamente por Merrill M. Flood y Melvin Dresher mientras trabajaban en
RAND en 1950. Albert W. Tucker formaliz el juego con la frase sobre las recompensas
penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995).
Es un ejemplo de problema de suma no nula. Las tcnicas de anlisis de la teora de juegos
estndar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger
traicionar al otro, pero ambos jugadores obtendran un resultado mejor si colaborasen.
En el dilema del prisionero iterado, la cooperacin puede obtenerse como un resultado de
equilibrio. Aqu se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada
jugador la oportunidad de castigar al otro jugador por la no cooperacin en juegos anteriores. As,
el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un
resultado cooperativo.

El dilema del prisionero clsico


La enunciacin clsica del dilema del prisionero es:

La polica arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras
haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su
cmplice no, el cmplice ser condenado a la pena total, diez aos, y el primero ser
liberado. Si uno calla y el cmplice confiesa, el primero recibir esa pena y ser el cmplice
quien salga libre. Si ambos confiesan, ambos sern condenados a seis aos. Si ambos lo
niegan, todo lo que podrn hacer ser encerrarlos durante seis meses por un cargo menor.
Lo que puede resumirse como:
T confiesas
T lo niegas
T eres condenado a 10 aos y l sale libre.
l confiesa Ambos son condenados a 6 aos.
l lo niega l es condenado a 10 aos y t sales libre. Ambos son condenados a 6 meses.
Vamos a suponer que ambos prisioneros son completamente egostas y su nica meta es reducir
su propia estancia en la crcel. Como prisioneros tienen dos opciones: cooperar con su cmplice
y permanecer callado, o traicionar a su cmplice y confesar. El resultado de cada eleccin depende
de la eleccin del cmplice. Por desgracia, uno no conoce qu ha elegido hacer el otro. Incluso si
pudiesen hablar entre s, no podran estar seguros de confiar mutuamente.
Si uno espera que el cmplice escoja cooperar con l y permanecer en silencio, la opcin ptima
para el primero sera confesar, lo que significara que sera liberado inmediatamente, mientras el
cmplice tendr que cumplir una condena de 10 aos. Si espera que su cmplice decida confesar,
la mejor opcin es confesar tambin, ya que al menos no recibir la condena completa de 10 aos,
y slo tendr que esperar 6, al igual que el cmplice. Y, sin embargo, si ambos decidiesen cooperar
y permanecer en silencio, ambos seran liberados en slo 6 meses.
Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la eleccin del otro
jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto
conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aqu
se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un
resultado que no es ptimo -en el sentido de eficiencia de Pareto-; existe una situacin tal que la
utilidad de uno de los detenidos podra mejorar (incluso la de ambos) sin que esto implique un
empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no
confiesan domina al resultado en el cual los dos eligen confesar.
Si se razona desde la perspectiva del inters ptimo del grupo (de los dos prisioneros), el resultado
correcto sera que ambos cooperasen, ya que esto reducira el tiempo total de condena del grupo a
un total de un ao. Cualquier otra decisin sera peor para ambos si se consideran conjuntamente.
A pesar de ello, si siguen sus propios intereses egostas, cada uno de los dos prisioneros recibir
una sentencia dura.
Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado
cooperativo puede mantenerse. La forma iterada de este juego (mencionada ms abajo) ofrece una
oportunidad para este tipo de castigo. En ese juego, si el cmplice traiciona y confiesa una vez, se
le puede castigar traicionndolo a la prxima. As, el juego iterado ofrece una opcin de castigo
que est ausente en el modo clsico del juego.

Una opcin es considerar este dilema como una simple "mquina de la verdad". El jugador puede
tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar. La respuesta
lgica en este caso es "no jugar", pues el prisionero carece de informacin suficiente para jugar
correctamente: no sabe cul ser la opcin de su compaero. No hay tal dilema, pues no es posible
el juego. Si juega, se trata de una "apuesta", ms que de una solucin lgica.
Pensemos tambin que el prisionero en realidad est "jugando" con su carcelero, no con el otro
prisionero. El carcelero le ofrece una opcin. Para l, la mayor ganancia sera condenar al
prisionero a la pena mayor, pues se es su trabajo. Si logra condenar a los dos a la mxima pena,
doble ganancia. El prisionero sabe eso, en el fondo. Slo "jugara" si supiera con toda certeza que
el polica cumplira su palabra a pesar de su confesin. Pero tampoco lo sabe. En realidad,
prisionero-carcelero y prisionero-prisionero estn jugando al mismo juego: encubrir o traicionar
(en el caso del ejemplo de los prisioneros, no concuerda el verdad o mentira puesto que decir la
verdad sera traicionar).
T encubres
l encubre

T traicionas

Mximo beneficio comn T ganas, l pierde

l traiciona l gana, t pierdes

Mximo perjuicio comn

En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador slo optar por la
casilla "verdad" si sabe que el otro jugador tambin opta por la misma solucin. En la vida real,
eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la "relacin de confianza"
existente entre los dos jugadores. Pongamos, por ejemplo, que los dos prisioneros son hermanos,
con una relacin de confianza muy estrecha. O que lo son uno de los prisioneros y el carcelero.
Entonces s sabran (casi con toda seguridad, pero nunca completa) cul sera la opcin de su
compaero, y entonces siempre jugaran correctamente: cooperaran.
La nica solucin lgica es, por tanto, cooperar entre si. Y adems ser la que dar el mximo
beneficio comn. Este planteamiento nos lleva a la correcta solucin del dilema, que es decir la
verdad, cooperar. Pero en este caso el error estaba en el planteamiento correcto del dilema, que no
es pensar en nuestro beneficio (ser egosta) sino en el del "otro" (ser generoso). En este caso,
jugando a "verdad" siempre conseguiremos que el "otro" gane. Si el objetivo del juego es que
siempre gane el rival, hay pues una nica solucin lgica, y que no depende de la jugada del rival.
Dilema resuelto.
Una solucin "incorrecta" sera en el caso que el hermano traicione al hermano. Aun as, el juego
es correcto (pues todo juego tiene una y slo una solucin lgica). Lo que ha sucedido es que ha
cambiado el nombre del juego: ahora lo podramos llamar "Descubre al mentiroso". Hemos
ganado, pues descubrimos a un mentiroso.
T ganas
l gana

T pierdes

Los dos dijeron la verdad l minti

l pierde T mentiste

Lo dos mintieron

Es entonces una autntica "mquina de la verdad".


El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solucin lgica. Si
los dos juegan lgicamente, es decir, con honestidad, el juego es beneficioso para ambos. Si uno
engaa y el otro no, el juego se llama "Descubre al Mentiroso", y ambos vuelven a ganar.
Pero si pensamos en el Dilema como bsqueda egosta, y no generosa, la jugada "incorrecta" del
dilema impide la iteracin, luego finaliza el juego. Por esa razn, el jugador "ilgico" siempre
tendr dos objetivos: uno, engaar al honesto; y dos, convencerle a posteriori de que no fue
engaado, mediante otro ardid, para poder seguir engandole. Un mentiroso siempre necesitar
otra mentira para cubrir la primera.
Este tipo de estrategias es muy comn en la vida cotidiana y se conoce como "manipulacin". Para
algunos, quizs exagerando, la poltica (la mala poltica) es el arte de la manipulacin continua. Y
que la estrategia funcione tiene tanto que ver con la "mentira" del tramposo como la "doble
ingenuidad" del honesto. Fiarse de un mentiroso no es honestidad, sino estupidez. (De ah que la
estrategia conocida como "vengativa no rencorosa", o Toma y daca (tit for tat) ver ms
adelante sea la ms eficaz). Pero sabemos que el nico resultado correcto es bueno para todos
los jugadores, y ste slo sucede cuando todos dicen la verdad. Si alguien miente, engaa o
manipula, la solucin siempre ser incorrecta. O, dicho de otro modo, si la solucin es incorrecta,
es que alguien nos enga o nos minti.

Un juego similar pero distinto


El cientfico cognitivo Douglas Hofstadter (ver las referencias ms abajo) sugiri una vez que la
gente encuentra muchas veces problemas como el dilema del prisionero ms fciles de entender
cuando estn presentados como un simple juego o intercambio. Uno de los ejemplos que us fue
el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que
una de ellas contiene dinero y la otra contiene un objeto que est siendo comprado. Cada jugador
puede escoger seguir el acuerdo poniendo en su bolsa lo que acord, o puede engaar ofreciendo
una bolsa vaca. En este juego de intercambio el engao no es la mejor opcin, pues si los dos
anteponen su egosmo al bien comn nunca sern capaces de realizar un intercambio, ya que las
dos personas siempre darn la bolsa vaca.

Matriz de pagos del dilema del prisionero


En el mismo artculo, Hofstadter tambin observ que la matriz de pagos del dilema del prisionero
puede, de hecho, escribirse de mltiples formas, siempre que se adhiera al siguiente principio:
T>R>C>P

donde T es la tentacin para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador
coopera); R es la recompensa por la cooperacin mutua; C es el castigo por la desercin mutua; y
P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).
En el caso del dilema del prisionero, la frmula se cumple: 0 > -5 > -6 > -10 (en negativo pues los
nmeros corresponden a aos de crcel).
Suele tambin cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.
Las frmulas anteriores aseguran que, independientemente de los nmeros exactos en cada parte
de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas
anterior (o a un juego de dos jugadores tipo Axelrod ver ms abajo), obtendremos la siguiente
matriz de pagos cannica para el dilema del prisionero, esto es, la que se suele mostrar en la
literatura sobre este tema:
Cooperar Desertar
Cooperar 3, 3
Desertar

5, -5

-5, 5
-1, -1

En terminologa "ganancia-ganancia" la tabla sera similar a esta:


Cooperar

Desertar

Cooperar ganancia - ganancia


Desertar

prdida sustancial - ganancia sustancial

ganancia sustancial - prdida sustancial prdida - prdida

Criterio egosta versus criterio del bien comn en la matriz de


resultados del dilema del prisionero
En el tratamiento del Dilema del Prisionero por lo general slo se considera una matriz con los
resultados individuales o egostas pero no con los resultados conjuntos o de bien comn, esto es,
la suma de los resultados individuales.
Podemos crear una matriz de resultados extendida:
Prisionero A Prisionero B Prisionero A

Prisionero B

Ambos

No Confesar

No Confesar

1 ao de crcel

1 ao de crcel

2 aos de crcel

No Confesar

Confesar

5 aos de crcel 0 aos de crcel 5 aos de crcel

Confesar

No Confesar

0 aos de crcel 5 aos de crcel 5 aos de crcel

Confesar

Confesar

3 aos de crcel 3 aos de crcel 6 aos de crcel

A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o del bien
comn que produce resultados diferentes a los obtenidos por el criterio de los resultados
individuales o egostas: La decisin que beneficia en forma conjunta a ambos participantes es No
Confesar que resulta en un total de dos aos de crcel contra cinco o seis aos de crcel con las
otras decisiones.
Dos importantes corolarios de este criterio son los siguientes:

La mejor decisin basada en el criterio individual o egosta es opuesta a la decisin basada


en el criterio conjunto o del bien comn.

La decisin conjunta o de bien comn implica un costo individual real o de oportunidad.

Recordemos que el concepto de Costo de Oportunidad se refiere al beneficio que se deja de percibir
que es diferente al desembolso de algo que se posea.
En este caso, el costo individual de la decisin altruista o de bien comn es de un ao de crcel en
lugar de salir libre de manera inmediata.
Ntese que no se habla de la culpabilidad o inocencia reales de los presuntos criminales sino de la
decisin de confesar o no hacerlo.
El efecto del cambio de criterio, del resultado individual o egosta al resultado conjunto o del bien
comn, produce un cambio de 180 en el anlisis del Dilema del Prisionero.
El ms importante corolario de este dilema es que la nica forma de ganar es con un cambio de
valores: del egosmo individual al altrusmo del bien comn. Este puede ser el juego de
supervivencia del planeta: o la humanidad termina en la extincin o sobrevive gracias al respeto
al otro.
El instinto filial (amor padres-hijos) adquirido en el proceso evolutivo ha permitido la
supervivencia de la especie humana, que de otra forma ya se hubiera extinguido debido a la
incapacidad de los infantes humanos para sobrevivir sin la proteccin de sus padres o substitutos;
tal incapacidad es mayor en los humanos que en ninguna otra especie animal. El problema es que
no existe el tiempo para adquirir por evolucin biolgica un instinto social o de amor al otro.
Parece que la nica salida es adelantarse al proceso evolutivo con la toma de conciencia y el
cambio propositivo de valores de los seres humanos.
La paradoja de todo lo anterior es que para lograr el beneficio individual es menester respetar el
bien comn. El egosmo finalmente desemboca en la auto-destruccin de la humanidad. Los
mensajes ticos producto de la sabidura humana, desde los albores del hombre, son vigentes.

Crtica al imperativo del bien comn como criterio de


racionalidad cooperativa
Los tericos de la teora de juegos replican que esta objecin usual a su criterio de eleccin racional
no es cientfica sino tica y deriva de un idealismo especfico, ya que afirman nadie pretende
desconocer que los resultados conjuntos son negativos en los casos como el del dilema del
prisionero en tanto es evidente que la eficiencia social es mayor en caso de que las elecciones de
los agentes fueran altruistas en vez de egostas.1 Sin embargo, el argumento de la valoracin del
bien comn en funcin del inters individual no disminuye el problema sino que lo acrecienta,
puesto que en los casos como el del Dilema del Prisionero y anlogos, los jugadores individuales
enfrentan al aprovechamiento del beneficio conjunto de la cooperacin con intereses encontrados:
el inters de cada individuo es, por un lado, que todos los dems acten en forma altruista, y por
el otro, actuar en forma egosta con respecto a todos los dems. De hecho, en todo juego basado
en el conflicto de intereses, incluso un mayor altruismo general aumentar los beneficios de quien
acte en forme egosta. Uno de los principales fundadores de la teora de juegos, el matemtico y
economista Kenneth Binmore, resume lacnicamente su crtica afirmando que esta frecuente
objecin no sera ms que una repeticin del imperativo moral kantiano:
En trminos coloquiales, el imperativo categrico de Immanuel Kant establece que es racional
hacer lo que te gustara que todo el mundo hiciera. Si fuera cierto, sera racional cooperar en el
Dilema del Prisionero. Pero hacerse ilusiones nunca es racional. Para m, constituye una fuente
constante de sorpresas que a Kant nunca se le hayan pedido cuentas por proponer un principio de
racionalidad sin ofrecer ninguna razn para tomarlo en serio.2
A pesar de esto se suele recordar que el dilema del prisionero es un caso especfico en el que el
equilibrio de Nash se opone directamente al equilibrio de Pareto, lo cual no sucede en la mayora
de las interacciones humanas que son cooperativas por inters propio, como es el caso del
intercambio mediatizado por la propiedad y el mercado como fuera ejemplificado por Adam
Smith, y otras formas de interaccin con motivaciones individuales de los agentes sin las cuales
habra sido imposible el surgimiento de relaciones sociales e incluso de marcos biolgicos
imprescindibles para ciertas especies:3
Una generacin entera de acadmicos se trag el anzuelo de que el Dilema del Prisionero
representa la esencia del problema de la cooperacin entre humanos. Por consiguiente, se
asignaron la tarea irrealizable de explicar las razones por las cuales la resolucin en la teora de
juegos de la supuesta paradoja de la racionalidad es errnea [...]. Pero los expertos en teora de
juegos consideran que es totalmente falso que el Dilema del Prisionero capte lo fundamental de la
cooperacin humana. Por el contrario, representa una situacin en la que los dados estn cargados
contra el surgimiento de cooperacin tanto como fuera posible.4
Por otra parte el altruismo necesario en aquellas situaciones en las que los intereses individuales
se encuentran en conflicto, suele ser superado eficientemente incluso sin una coercin que cambie
exgenamente el origen de los beneficios de cooperar cuando los jugadores poseen de antemano
una moral no contractual que trasciende al inters general de los individuos y se dirige a hipstasis
colectivas o entidades sobrehumanas, esto es, que actan de acuerdo a ticas de carcter religioso

o cuasi religioso que son por s mismas independientes de los resultados positivos del sacrificio
altruista, cuyo carcter inintencional hace paradjicamente posible un beneficio conjunto en tanto
permanezca como motivacin secundaria.

Ejemplos en la vida real


Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas
parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones
humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema
del prisionero es por ello de inters para ciencias sociales como economa, ciencia poltica y
sociologa, adems de ciencias biolgicas como etologa y biologa evolutiva.
En ciencia poltica, dentro del campo de las relaciones internacionales, el escenario del dilema del
prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera
armamentstica. Ambos razonarn que tienen dos opciones: o incrementar el gasto militar, o llegar
a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el
otro acatar el acuerdo; de este modo, ambos se inclinarn hacia la expansin militar. La irona
est en que ambos estados parecen actuar racionalmente, pero el resultado es completamente
irracional.
Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por
ejemplo el Tour de Francia. Considrense dos ciclistas a mitad de carrera, con el pelotn a gran
distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperacin mutua) compartiendo
la pesada carga de la posicin delantera, donde no se pueden refugiar del viento. Si ninguno de los
ciclistas hace un esfuerzo para permanecer delante, el pelotn les alcanzar rpidamente (desercin
mutua). Un ejemplo visto a menudo es que un slo ciclista haga todo el trabajo (coopere),
manteniendo a ambos lejos del pelotn. Al final, esto llevar probablemente a una victoria del
segundo ciclista (desertor) que ha tenido una carrera fcil en la estela del primer corredor.
Un ejemplo adicional se puede observar en las intersecciones de dos vas por donde circulan autos
y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen
turnos para pasar, la pequea espera se justifica por el beneficio de no generar una congestin en
el medio. Si alguien no colabora y el resto s, se beneficia el "no colaborador" generando un
desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por ltimo, cuando
nadie quiere colaborar y tratan de pasar primero, se genera una gran congestin donde todos
pierden mucho tiempo.
Por ltimo, la conclusin terica del dilema del prisionero es una razn por la cual, en muchos
pases, se prohben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del
dilema del prisionero: est en el inters de ambos sospechosos el confesar y testificar contra el otro
prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el
peor caso se da cuando slo uno de ellos es culpable: no es probable que el inocente confiese,
mientras que el culpable tender a confesar y testificar contra el inocente.

El dilema del prisionero iterado

Robert Axelrod, en su libro La evolucin de la cooperacin: el dilema del prisionero y la teora de


juegos (1984), estudi una extensin al escenario clsico del dilema del prisionero que denomin
dilema del prisionero iterado (DPI). Aqu, los participantes deben escoger una y otra vez su
estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invit a colegas acadmicos
de todo el mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los
programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad
inicial, capacidad de perdn y similares.
Axelrod descubri que cuando se repiten estos encuentros durante un largo periodo de tiempo con
muchos jugadores, cada uno con distintas estrategias, las estrategias "egostas" tendan a ser peores
a largo plazo, mientras que las estrategias "altruistas" eran mejores, juzgndolas nicamente con
respecto al inters propio. Us esto para mostrar un posible mecanismo que explicase lo que antes
haba sido un difcil punto en la teora de la evolucin: cmo puede evolucionar un
comportamiento altruista desde mecanismos puramente egostas en la seleccin natural?
Se descubri que la mejor estrategia determinista era el Toma y daca (tit for tat, "Donde las dan,
las toman"), que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el ms simple
de todos los programas presentados, conteniendo nicamente cuatro lneas de BASIC, y fue el que
gan el concurso. La estrategia consiste simplemente en cooperar en la primera iteracin del juego,
y despus de eso elegir lo que el oponente eligi la ronda anterior. Una estrategia ligeramente
mejor es "tit for tat con capacidad de perdn". Cuando el jugador B deserta, en la siguiente ronda
el jugador A coopera a veces de todos modos con una pequea probabilidad (del 1% al 5%). Esto
permite la recuperacin ocasional de quedarse encerrado en un crculo de deserciones. La
probabilidad exacta depende de la alineacin de los oponentes. "Toma y daca con capacidad de
perdn" es la mejor estrategia cuando se introducen problemas de comunicacin en el juego. Esto
significa que a veces la jugada de un jugador se transmite incorrectamente a su oponente: A
coopera pero B cree que ha desertado.
Toma y daca funcionaba, mantena Axelrod, por dos motivos. El primero es que es "amable", esto
es, comienza cooperando y slo deserta como respuesta a la desercin de otro jugador, as que
nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede
provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro
jugador si ste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este
comportamiento claro y directo significa que el otro jugador entiende fcilmente la lgica detrs
de las acciones de Toma y daca, y puede por ello encontrar una forma de trabajar con l
productivamente. No es una coincidencia que la mayora de las estrategias que funcionaron peor
en el torneo de Axelrod fueron las que no estaban diseadas para responder a las elecciones de
otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca
puedes asegurarte de establecer una cooperacin mutua fiable.
Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo,
considrese una poblacin donde todo el mundo deserta siempre, excepto por un nico individuo
que sigue la estrategia Toma y daca. Este individuo tiene una pequea desventaja porque pierde la
primera ronda. En una poblacin con un cierto porcentaje de individuos que siempre desertan y
otros que siguen la estrategia Toma y daca, la estrategia ptima para un individuo depende del
porcentaje, y de la duracin del juego. Se han realizado simulaciones de poblaciones, donde

mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La
mezcla de algoritmos en la poblacin final depende de la mezcla en la poblacin inicial.
Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato
interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fcilmente por induccin: El
jugador A puede desertar la ltima ronda, ya que B no tendr oportunidad de castigarle. Por ello,
ambos desertaran la ltima ronda. Entonces, A puede desertar la ronda anterior, ya que B desertar
en la ltima sin importar lo que suceda. Y se contina de este modo. Para que la cooperacin siga
siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una solucin consiste en
hacer aleatorio el nmero total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un nmero
infinito de rondas, y la puntuacin es la media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender ciertas teoras de cooperacin y
confianza humana. En la suposicin de que las transacciones entre dos personas que requieran
confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en
poblaciones puede ser modelado por una versin para varios jugadores e iterada del juego. Por ello
ha fascinado a muchos estudiosos a lo largo de los aos. Una estimacin no demasiado actualizada
(Grofman and Pool, 1975) sita el nmero de artculos dedicados al mismo sobre 2.000.

Sociedades secretas en el dilema del prisionero iterado


En el vigsimo aniversario de la competicin del dilema del prisionero iterado (2005), el equipo
de la Universidad de Southampton gan las primeras posiciones, venciendo entre los dems
competidores a algoritmos modelo Toma y daca y sus derivados. La competicin era de la variante
del dilema del prisionero iterado con problemas de comunicacin (esto es, algunas veces no se
comunicaban bien los movimientos al otro jugador).
En esa edicin, se presentaron 223 competidores, de los cuales 60 fueron inscritos por
Southampton. Todos eran variantes de un mismo algoritmo, y en las primeras 5 a 10 iteraciones
del dilema del prisionero utilizaban sus respuestas como "saludo secreto" para identificarse entre
s. Entonces, si identificaban al otro jugador como perteneciente a la "sociedad", algunos
algoritmos estaban diseados para sacrificarse colaborando siempre, de modo que los otros,
traicionndolos siempre, pudiesen conseguir una puntuacin mxima. Si no identificaban al otro
algoritmo como perteneciente a la sociedad tras ver sus jugadas iniciales, todas las variantes le
traicionaban siempre para bajar en lo posible su puntuacin.
Esta estrategia, aunque de discutible correspondencia con el espritu del juego, ya que requiere una
comunicacin inicial entre los participantes de la "sociedad" para decidir el formato del "saludo",
se ajusta a las reglas de la competicin. Siguindola, Southampton consigui que tres de sus
participantes ocupasen las tres primeras posiciones, a costa de que muchos de sus otros algoritmos
estuviesen entre los de peor puntuacin.

También podría gustarte