Dilema Del Prisionero Equilibrio de Nash Pareto
Dilema Del Prisionero Equilibrio de Nash Pareto
Dilema Del Prisionero Equilibrio de Nash Pareto
¿Cooperarán los dos prisioneros para minimizar la pérdida total de libertad o uno de ellos,
confiando en la cooperación del otro, lo traicionará para quedar en libertad?
Fue desarrollado originariamente por Merrill Flood y Melvin Dresher mientras trabajaban
en RAND en 1950. Albert W. Tucker formalizó el juego con la frase sobre las recompensas
penitenciarias y le dio el nombre del "dilema del prisionero" (Poundstone, 1995).
Contenido
1 El dilema del prisionero clásico
2 Un juego similar pero distinto
3 Matriz de pagos del dilema del prisionero
4 Criterio egoísta versus criterio del bien común en la matriz de resultados del dilema del
2
prisionero
5 Ejemplos en la vida real
6 El dilema del prisionero iterado
o 6.1 Sociedades secretas en el dilema del prisionero iterado
7 Variantes
o 7.1 Gallina
o 7.2 Juego de confianza
o 7.3 Amigo o enemigo
o 7.4 La "tragedia de los comunes"
8 Referencias
9 Enlaces externos
La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras
haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su
cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será
liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice
quien salga libre. Si ambos confiesan, ambos serán condenados a seis años. Si ambos lo
niegan, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor.
Tú confiesas Tú lo niegas
Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es
reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con
su cómplice y permanecer callado, o traicionar a su cómplice y confesar. El resultado de
cada elección depende de la elección del cómplice. Por desgracia, uno no conoce qué ha
elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar
mutuamente.
Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción
óptima para el primero sería confesar, lo que significaría que sería liberado
3
Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del
otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los
prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos
reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las
interacciones individuales produce un resultado que no es óptimo -en el sentido de
eficiencia de Pareto-; existe una situación tal que la utilidad de uno de los detenidos podría
mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En
otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en
el cual los dos eligen confesar.
Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el
resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de
condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se
consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada
uno de los dos prisioneros recibirá una sentencia dura.
Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un
resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada más
abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si el cómplice
traiciona y confiesa una vez, se le puede castigar traicionándolo a la próxima. Así, el juego
iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.
Una opción es considerar este dilema como una simple "máquina de la verdad". El jugador
puede tomar no dos, sino tres opciones: cooperar, no cooperar o, sencillamente, no jugar.
La respuesta lógica en este caso es "no jugar", pues el prisionero carece de información
suficiente para jugar correctamente: no sabe cuál será la opción de su compañero. No hay
tal dilema, pues no es posible el juego. Si juega, se trata de una "apuesta", más que de una
solución lógica.
Pensemos también que el prisionero en realidad está "jugando" con su carcelero, no con el
otro prisionero. El carcelero le ofrece una opción. Para él, la mayor ganancia sería condenar
al prisionero a la pena mayor, pues ése es su trabajo. Si logra condenar a los dos a la
máxima pena, doble ganancia. El prisionero sabe eso, en el fondo. Sólo "jugaría" si supiera
con toda certeza que el policía cumpliría su palabra a pesar de su confesión. Pero tampoco
lo sabe. En realidad, prisionero-carcelero y prisionero-prisionero están jugando al mismo
juego: encubrir o traicionar (en el caso del ejemplo de los prisioneros, no concuerda el
verdad o mentira puesto que decir la verdad sería traicionar).
Tú encubres Tú traicionas
4
En este caso, decir la verdad equivale a cooperar, a callarse. Pero un jugador sólo optará
por la casilla "verdad" si sabe que el otro jugador también opta por la misma solución. En la
vida real, eso no lo sabemos: hay que "jugar", es decir, arriesgarse. Todo se basa en la
"relación de confianza" existente entre los dos jugadores. Pongamos, por ejemplo, que los
dos prisioneros son hermanos, con una relación de confianza muy estrecha. O que lo son
uno de los prisioneros y el carcelero. Entonces sí sabrían (casi con toda seguridad, pero
nunca completa) cuál sería la opción de su compañero, y entonces siempre jugarían
correctamente: cooperarían.
La única solución lógica es, por tanto, decir la verdad. Y además será la que dará el
máximo beneficio común. Este planteamiento nos lleva a la correcta solución del dilema,
que es decir la verdad, cooperar. Pero en este caso el error estaba en el planteamiento
correcto del dilema, que no es pensar en nuestro beneficio (ser egoísta) sino en el del "otro"
(ser generoso). En este caso, jugando a "verdad" siempre conseguiremos que el "otro" gane.
Si el objetivo del juego es que siempre gane el rival, hay pues una única solución lógica, y
que no depende de la jugada del rival. Dilema resuelto.
Una solución "incorrecta" sería en el caso que el hermano traicione al hermano. Aun así, el
juego es correcto (pues todo juego tiene una y sólo una solución lógica). Lo que ha
sucedido es que ha cambiado el nombre del juego: ahora lo podríamos llamar "Descubre al
mentiroso". Hemos ganado, pues descubrimos a un mentiroso.
Tú ganas Tú pierdes
El dilema del prisionero es pues siempre un juego dual; pero siempre tiene una solución
lógica. Si los dos juegan lógicamente, es decir, con honestidad, el juego es beneficioso para
ambos. Si uno engaña y el otro no, el juego se llama "Descubre al Mentiroso", y ambos
vuelven a ganar.
jugador "ilógico" siempre tendrá dos objetivos: uno, engañar al honesto; y dos, convencerle
a posteriori de que no fue engañado, mediante otro ardid, para poder seguir engañándole.
Un mentiroso siempre necesitará otra mentira para cubrir la primera.
T>R>C>P
donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro
jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la
deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el
otro jugador deserta).
En el caso del dilema del prisionero, la fórmula se cumple: 0 > -0,5 > -6 > -10 (en negativo
pues los números corresponden a años de cárcel).
6
Suele también cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.
Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada
parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que
haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio
de bolsas anterior (o a un juego de dos jugadores tipo Axelrod — ver más abajo),
obtendremos la siguiente matriz de pagos canónica para el dilema del prisionero, esto es, la
que se suele mostrar en la literatura sobre este tema:
Cooperar Desertar
Cooperar 3, 3 -5, 5
Desertar 5, -5 -1, -1
Cooperar Desertar
A partir de esta matriz de resultados podemos utilizar un criterio del resultado conjunto o
del bien común que produce resultados diferentes a los obtenidos por el criterio de los
resultados individuales o egoístas: La decisión que beneficia en forma conjunta a ambos
participantes es No Confesar que resulta en un total de dos años de cárcel contra cinco o
seis años de cárcel con las otras decisiones.
El efecto del cambio de criterio, del resultado individual o egoísta al resultado conjunto o
del bien común, produce un cambio de 180º en el análisis del Dilema del Prisionero.
El más importante corolario de este dilema es que la única forma de ganar es con un
cambio de valores: del egoísmo individual al altruísmo del bien común. Este puede ser el
juego de supervivencia del planeta: o la humanidad termina en la extinción o sobrevive
gracias al respeto al otro.
social o de amor al otro. Parece que la única salida es adelantarse al proceso evolutivo con
la toma de conciencia y el cambio propositivo de valores de los seres humanos.
En ciencia política, dentro del campo de las relaciones internacionales, el escenario del
dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados
en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el
gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados
puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán
hacia la expansión militar. La ironía está en que ambos estados parecen actuar
racionalmente, pero el resultado es completamente irracional.
Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en
ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con
el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente
(cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se
pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer
delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a
menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos
del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista
(desertor) que ha tenido una carrera fácil en la estela del primer corredor.
Un ejemplo adicional se puede observar en las intersecciones de dos vías por donde
circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores
colaboran y hacen turnos para pasar, la pequeña espera se justifica por el beneficio de no
generar una congestión en el medio. Si alguien no colabora y el resto sí, se beneficia el "no
colaborador" generando un desorden en la secuencia de turnos que perjudica a los que
estaban colaborando. Por último, cuando nadie quiere colaborar y tratan de pasar primero,
se genera una gran congestión donde todos pierden mucho tiempo.
Por último, la conclusión teórica del dilema del prisionero es una razón por la cual, en
muchos países, se prohíben los acuerdos judiciales. A menudo, se aplica precisamente el
escenario del dilema del prisionero: está en el interés de ambos sospechosos el confesar y
9
testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto
crimen. Se puede decir que, el peor caso se da cuando sólo uno de ellos es culpable: no es
probable que el inocente confiese, mientras que el culpable tenderá a confesar y testificar
contra el inocente.
Axelrod descubrió que cuando se repiten estos encuentros durante un largo periodo de
tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias "egoístas"
tendían a ser peores a largo plazo, mientras que las estrategias "altruistas" eran mejores,
juzgándolas únicamente con respecto al interés propio. Usó esto para mostrar un posible
mecanismo que explicase lo que antes había sido un difícil punto en la teoría de la
evolución: ¿cómo puede evolucionar un comportamiento altruista desde mecanismos
puramente egoístas en la selección natural?
Se descubrió que la mejor estrategia determinista era el Toma y daca (tit for tat, "Donde las
dan, las toman"), que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el
más simple de todos los programas presentados, conteniendo únicamente cuatro líneas de
BASIC, y fue el que ganó el concurso. La estrategia consiste simplemente en cooperar en la
primera iteración del juego, y después de eso elegir lo que el oponente eligió la ronda
anterior. Una estrategia ligeramente mejor es "tit for tat con capacidad de perdón". Cuando
el jugador B deserta, en la siguiente ronda el jugador A coopera a veces de todos modos
con una pequeña probabilidad (del 1% al 5%). Esto permite la recuperación ocasional de
quedarse encerrado en un círculo de deserciones. La probabilidad exacta depende de la
alineación de los oponentes. "Toma y daca con capacidad de perdón" es la mejor estrategia
cuando se introducen problemas de comunicación en el juego. Esto significa que a veces la
jugada de un jugador se transmite incorrectamente a su oponente: A coopera pero B cree
que ha desertado.
Toma y daca funcionaba, mantenía Axelrod, por dos motivos. El primero es que es
"amable", esto es, comienza cooperando y sólo deserta como respuesta a la deserción de
otro jugador, así que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El
segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador.
Castiga inmediatamente a otro jugador si éste deserta, pero igualmente responde
adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el
otro jugador entiende fácilmente la lógica detrás de las acciones de Toma y daca, y puede
por ello encontrar una forma de trabajar con él productivamente. No es una coincidencia
que la mayoría de las estrategias que funcionaron peor en el torneo de Axelrod fueron las
10
que no estaban diseñadas para responder a las elecciones de otros jugadores. Contra ese
tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de
establecer una cooperación mutua fiable.
Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo,
considérese una población donde todo el mundo deserta siempre, excepto por un único
individuo que sigue la estrategia Toma y daca. Este individuo tiene una pequeña desventaja
porque pierde la primera ronda. En una población con un cierto porcentaje de individuos
que siempre desertan y otros que siguen la estrategia Toma y daca, la estrategia óptima para
un individuo depende del porcentaje, y de la duración del juego. Se han realizado
simulaciones de poblaciones, donde mueren los individuos con puntuaciones bajas y se
reproducen aquellos con puntuaciones altas. La mezcla de algoritmos en la población final
depende de la mezcla en la población inicial.
Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro
dato interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fácilmente por
inducción: El jugador A puede desertar la última ronda, ya que B no tendrá oportunidad de
castigarle. Por ello, ambos desertaran la última ronda. Entonces, A puede desertar la ronda
anterior, ya que B desertará en la última sin importar lo que suceda. Y se continúa de este
modo. Para que la cooperación siga siendo atractiva, el futuro debe ser indeterminado para
ambos jugadores. Una solución consiste en hacer aleatorio el número total de rondas N.
Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un
número infinito de rondas, y la puntuación es la media (calculada apropiadamente).
El juego del dilema del prisionero es fundamental para entender ciertas teorías de
cooperación y confianza humana. En la suposición de que las transacciones entre dos
personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el
comportamiento cooperativo en poblaciones puede ser modelado por una versión para
varios jugadores e iterada del juego. Por ello ha fascinado a muchos estudiosos a lo largo de
los años. Una estimación no demasiado actualizada (Grofman and Pool, 1975) sitúa el
número de artículos dedicados al mismo sobre 2.000.
En esa edición, se presentaron 223 competidores, de los cuales 60 fueron inscritos por
Southampton. Todos eran variantes de un mismo algoritmo, y en los primeras 5 a 10
iteraciones del dilema del prisionero utilizaban sus respuestas como "saludo secreto" para
identificarse entre sí. Entonces, si identificaban al otro jugador como perteneciente a la
"sociedad", algunos algoritmos estaban diseñados para sacrificarse colaborando siempre, de
11
modo que los otros, traicionándolos siempre, pudiesen conseguir una puntuación máxima.
Si no identificaban al otro algoritmo como perteneciente a la sociedad tras ver sus jugadas
iniciales, todas las variantes le traicionaban siempre para bajar en lo posible su puntuación.
Esta estrategia, aunque de discutible correspondencia con el espíritu del juego, ya que
requiere una comunicación inicial entre los participantes de la "sociedad" para decidir el
formato del "saludo", se ajusta a las reglas de la competición. Siguiéndola, Southampton
consiguió que tres de sus participantes ocupasen las tres primeras posiciones, a costa de que
muchos de sus otros algoritmos estuviesen entre los de peor puntuación.
Variantes
Existen algunas variantes del juego, con diferencias sutiles pero importantes en las matrices
de pago, que se muestran a continuación:
Gallina
Otro importante juego de suma no nula se llama "gallina". En este caso, si tu oponente
deserta, te beneficias más si cooperas, y éste es tu mejor resultado. La deserción mutua es el
peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del
prisionero el peor resultado posible es la cooperación mientras el otro jugador deserta (así
la deserción mutua es un equilibrio estable). En ambos juegos, la "cooperación mutua" es
un equilibrio inestable.
Se llama "gallina" por el juego de carreras de coches. Dos jugadores corren el uno hacia el
otro hacia una aparente colisión frontal: el primero en desviarse de la trayectoria es el
gallina. Ambos jugadores evitan el choque (cooperan) o continúan con la trayectoria
(desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de
irrigación en sus campos. El sistema puede ser mantenido adecuadamente por una persona,
pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su
mantenimiento, sigue estando dentro del interés del otro granjero hacerlo, porque se
beneficiará haga lo que haga el otro. Así, si un granjero puede establecerse como el desertor
dominante —esto es, si su hábito se vuelve tan enraizado que el otro hace todo el trabajo de
mantenimiento— seguramente continuará con ese comportamiento.
Juego de confianza
Un juego de confianza comparte algunas similitudes con el dilema del prisionero. Sin
embargo el juego de confianza implica un juego secuencial en que un jugador decide
primero su nivel de confianza en el segundo jugador. A mayor confianza mayor es el pago
12
que se genera para el segundo jugador, quien debe después decidir si si corresponde la
confianza con una decisión que es mutuamente benéfica para los dos. Un ejemplo clásico es
en el que 2 jugadores inician el juego con una dotación de $10 cada uno. El primer jugador
debe decidir cuánto de sus $10 enviar al jugador 2. La cantidad enviada se triplica en el
camino hacia el jugador 2. Una vez el jugador 2 recibe esa cantidad triplicada, debe decidir
cuánto retornar al jugador 1. La cantidad retornada no se triplica. Claramente este juego en
una sola ronda tiene un equilibrio de Nash de ($10,$10) en el que el jugador 2 debería
quedarse con toda la cantidad recibida, y por tanto el jugador 1 no tiene incentivos a enviar
dinero al jugador 2. El óptimo social de este juego se logra cuando el jugador envía toda su
dotación al jugador 2 generando una suma total de pagos de 3x$10 + $10 = $40. En
términos de los pagos el juego de confianza tiene una estructura similar al dilema del
prisionero, ya que la recompensa por la cooperación mutua es mayor que la otorgada por la
deserción mutua. El juego de confianza repetido es potencialmente muy estable, ya que da
la máxima recompensa a jugadores que establecen un hábito de confianza y cooperación
mutua. A pesar de ello, existe el problema de que los jugadores no sean conscientes de que
está en su interés cooperar, o que no anticipen la reciprocidad negativa del otro jugador
erosionando la reputación, cooperación y confianza en el proceso.
Amigo o enemigo
"Amigo o enemigo" es útil para alguien que quiera hacer un análisis del dilema del
prisionero aplicado a la vida real. Fíjese en que sólo se puede jugar una vez, así que todos
los conceptos que implican juegos repetidos no se presentan, y no se puede desarrollar la
estrategia de la revancha.
En "amigo o enemigo", cada jugador puede hacer un comentario para convencer al otro de
su amistad antes de hacer la decisión en secreto de cooperar o desertar. Un posible modo de
13
"ganar al sistema" sería decir al rival: "Voy a escoger 'enemigo'. Si confías en que te dé la
mitad de los beneficios después, escoge 'amigo'. De otro modo, nos iremos ambos sin
nada." Una versión más egoísta de esto sería: "Voy a escoger 'enemigo'. Voy a darte X% y
me quedaré con (100-X)% del premio total. Así que tómalo o déjalo, ambos nos llevamos
algo o ninguno nos llevamos nada." Ahora el truco se encuentra en minimizar X de modo
que el otro concursante siga escogiendo 'amigo'. Básicamente, debes conocer el umbral en
el que los beneficios que obtiene viéndote no llevarte nada superan a los que obtiene
simplemente llevándose el dinero que has ofrecido.
La llamada "tragedia de los comunes" (de los pastos comunales) es un caso de dilema de
prisionero que involucra a muchos agentes y que parece referirse a situaciones reales.
Para el filósofo inglés Derek Parfit los juegos que tienen más interés para estudiar la lógica
del dilema del prisionero son los que dependen de la concurrencia de muchos agentes -
como "la tragedia de los comunes"-, y no los juegos bipersonales o los juegos iterados: por
un lado, la situación que los provoca no depende de pagos diseñados externamente -por un
14
Paula Casal afirma que la capacidad secular de las comunidades indígenas para mantener
en buen estado los pastos comunes desmiente la inevitabilidad de C; "la educación, las
costumbres, los consejos de ancianos u otras instituciones sociales" de esas comunidades
serían las barreras que impiden que la tragedia se dé en ellas. Parece entonces que el dilema
se supera gracias a la paradójica receta que admite Parfit: el propio interés prescribe que,
para llegar a soluciones óptimas de Pareto estables, los individuos deben ser educados en
teorías morales contrarias a la satisfacción del propio interés.
Referencias
Axelrod, Robert; Hamilton, William D. (1981). «The evolution of cooperation». Science
(211). p. 1390-1396.
Axelrod, Robert (octubre de 1986). La evolución de la cooperación : el dilema del
prisionero y la teoría de juegos. CDU 316. Alianza Editorial, S.A.. ISBN 8420624748.
Grofman; Pool (1975). «Bayesian models for iterated prisoner's dilemma games». General
Systems (20). p. 185-194.
Hofstadter, Douglas R. (1985). «Ch. 29 - The Prisoner's Dilemma computer tournaments
and evolution of cooperation». Metamagical Themas: Questing for the essence of mind
and pattern. Basic Books. ISBN 0465045669.
Poundstone, William (septiembre de 1995). El dilema del prisionero: John Von Neumann,
la teoría de juegos y la bomba. CDU 519.8. Alianza Editorial, S.A.. ISBN 8420607479.
Grossman, Wendy M. (13/10/2004). «New Tack Wins Prisoner's Dilemma» (en inglés).
Wired News. Consultado el 07/10/2008.
Parfit, Derek (marzo de 2005). Razones y personas. CDU 16. A. Machado Libros, S.A.. ISBN
8477747709.
Enlaces externos
Una introducción (en inglés) a la teoría de juegos con un claro y preciso tratamiento del
dilema del prisionero, completado con un glosario de los términos definidos.
Enciclopedia de filosofía Stanford (en inglés), Prisoner's Dilemma
Jugar en línea al dilema del prisionero iterado
La competición anual sobre el dilema de prisionero iterado
El artículo original sobre la "tragedia de los comunes", en castellano.
Paula Casal, Tragedia de los comunes, en Román Reyes (ed.), Diccionario crítico de ciencias
sociales.
15
La tragedia de los comunes, blog con comentarios sobre noticias que reflejan casos de esta
estructura.
Serie sobre el dilema del prisionero, serie de varios artículos sobre el dilema del prisionero
y sus consecuencias filosóficas.
Dilema del prisionero y atascos, estudio sobre el paralelismo de cierto tipo de atascos con
la "tragedia de los comunes".
Obtenido de
«http://es.wikipedia.org/w/index.php?title=Dilema_del_prisionero&oldid=50051441»
Equilibrio de Nash
De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda
En otras palabras, un equilibrio de Nash es una situación en la cual todos los jugadores han
puesto en práctica -y saben que lo han hecho- una estrategia que maximiza sus ganancias
dadas las estrategias de los otros. Consecuentemente, ningún jugador tiene algún incentivo
para modificar individualmente su estrategia.
Es importante tener presente que un equilibrio de Nash no implica que se logre el mejor
resultado conjunto para los participantes, sino sólo el mejor resultado para cada uno de
ellos considerados individualmente. Es perfectamente posible que el resultado fuera mejor
para todos si, de alguna manera, los jugadores coordinaran su acción.
Contenido
1 Ejemplo
2 Historia
3 Definiciones formales
o 3.1 Equilibrios en estrategias puras
o 3.2 Equilibrios en estrategias mixtas
o 3.3 Equilibrios de Nash para juegos extensivos
4 Ocurrencia
5 Pruebas de existencia
6 Ejemplos
o 6.1 Juego competitivo
o 6.2 Juego de coordinación
o 6.3 Dilema del prisionero
o 6.4 La tragedia de los comunes
o 6.5 Piedra, papel o tijera
7 Véase también
8 Referencias
9 Enlaces externos
Ejemplo
Quizás el mejor ejemplo de un equilibrio de Nash es una variación del conocido “dilema
del prisionero” (ver más abajo) modificado a fin de resaltar los efectos descritos. En esta
versión hay varios jugadores (más de tres). El resultado sería mejor para todos si todos
cooperaran entre ellos y no declararan, pero, dado que cada cual persigue su propio interés,
y ninguno puede confiar en que nadie declarará, todos deben adoptar la estrategia de
declarar, lo que termina en una situación (equilibrio) en la cual cada uno minimiza su
posible pérdida.
Modificaciones adicionales permiten repetir el juego de forma indefinida (por ejemplo, con
los jugadores repartiendo un “botín”, etc.). En todas esas situaciones resulta que la
estrategia de no cooperar es la que minimiza el riesgo de pérdidas y otorga una ganancia
media pero segura para cada jugador individual, pero la cooperación maximizaría la
ganancia tanto a nivel individual como de grupo.
Historia
El concepto de equilibrio de Nash comienza su desarrollo con Antoine Augustin Cournot y
su trabajo sobre oligopolios (1838). En éste se plantea el modelo de varias empresas que
compiten por el mercado de un mismo bien y que pueden elegir cuánto producir para
intentar maximizar su ganancia en función de la producción de las otras. Se establece un
equilibrio de Cournot cuando la producción de cada empresa maximiza sus beneficios, dada
17
Los equilibrios de Nash en estrategias puras son limitados en muchos aspectos y fue con el
desarrollo de la teoría moderna de juegos que surgen los equilibrios en estrategias mixtas
(aquellas en las que los jugadores pueden elegir aleatoriamente entre varias estrategias). El
concepto de equilibrio para este tipo de estrategias fue introducido por John von Neumann
y Oskar Morgenstern en su libro Theory of Games and Economic Behavior (1944), aunque
sólo trataron los equilibrios para el caso especial de juegos de suma cero.
Fue John Forbes Nash quien en su tesis de doctorado (1951) define los equilibrios que hoy
llevan su nombre, tratando de manera general las estrategias mixtas y demostrando que
cualquier juego con un número finito de estrategias tiene al menos un equilibrio de Nash en
estrategias mixtas. Nash ganaría posteriormente un premio Nobel por la amplia gama de
aplicaciones que tuvo este concepto en diversas ramas de las ciencias.
Posteriormente se encontraron algunos casos en los que los equilibrios de Nash no llevaban
a predicciones totalmente adecuadas para los comportamientos de los jugadores, o
comportamientos estables que no se podían encontrar como equilibrios de Nash, lo que dio
paso a la búsqueda y desarrollo de nuevos equilibrios (muchas veces como refinamientos
de los equilibrios de Nash) y conceptos de solución de un juego.
Eficiencia de Pareto
De Wikipedia, la enciclopedia libre
Según Pareto, una situación X es superior o preferible a una situación Y cuando el paso de
Y a X supone una mejora para todos los miembros de la sociedad, o bien una mejora para
algunos, sin que los demás resulten perjudicados.
Contenido
[ocultar]
Adicionalmente Amartya Sen señala que sigue que puede haber muchas situaciones que son
eficientes en termino de Pareto sin que todas sean igualmente deseables o aceptables desde
el punto de vista de la sociedad (o sus miembros).[9]
Aún más, pueden haber situaciones que no son óptimas de acuerdo a Pareto pero que sin
embargo son preferibles desde el punto de vista general. Por ejemplo, esa situación
hipotética en la cual el 1 % de la población poseyera el 99% de la riqueza general y el 99%
restante de la población poseyera el 1 % de la riqueza, medidas redistribuidas podrían ser
vistas en general no sólo como equitables, pero podrían tener un efecto positivo en la
economía general, en la medida que un aumento en la demanda puede incrementar la
producción. Un argumento en ese sentido es avanzado por Davis[10] (ver también
keynesianismo).
Bajo ciertas condiciones idealizadas se puede mostrar que un sistema de mercado libre
lleva a resultados que son eficientes de acuerdo a Pareto. (ver el primero de los teoremas
fundamentales de la economía del bienestar). Sin embargo ese resultado no refleja
realmente una situación económica real, dado que las condiciones que asume son
demasiado restrictivas. El teorema asume que hay mercados -perfectamente competitivos y
en equilibrio- para todos los bienes posibles, que los costos de transacciones son
negligibles, que no hay externalidades y los participantes poseen información perfecta. Se
ha demostrado (Teorema de Greenwald-Stiglitz[17] ) que en la ausencia de tales
condiciones, los resultados son ineficientes de acuerdo a Pareto.
Desde este punto de vista, el concepto se utiliza a fin de analizar las posibles opciones
optimas de un individuo dada una variedad de objetivos o deseos y uno o varios criterios de
evaluación. Dado un “universo” de alternativas se busca determinar el conjunto que son
eficientes de acuerdo a Pareto (es decir, aquellas alternativas que satisfacen la condición de
21
no poder satisfacer mejor uno de esos deseos u objetivos sin empeorar algún otro). Ese
conjunto de alternativas optimas establece un “conjunto de Pareto” o la “Frontera de
Pareto”. El estudio de las soluciones en la frontera permite a los diseñadores analizar las
posibles alternativas dentro de los parámetros establecidos, sin tener que analizar la
totalidad de posibles soluciones.
[editar] Ejemplos
1) Que la persona tenga dinero de sobra, es decir, que desee adquirir el vehículo de mayor
calidad -definido de acuerdo a cualquier criterio- sin tener en cuenta el precio. En este caso
estaríamos ante un problema mono-objetivo, es decir, el objetivo único es encontrar el
vehículo de más prestaciones, por ejemplo un automóvil deportivo o uno de lujo.
2) Que la persona tenga un presupuesto ajustado. En este caso, aparte de las prestaciones
también considerará el precio. Estamos ante un problema multi-objetivo (en este caso con 2
objetivos). Ante esta situación cabe una pregunta. ¿Cuál es el mejor vehículo para
comprar?. La respuesta es que no hay un solo vehículo que se considere el mejor. Un
deportivo será el que dará mejores prestaciones, pero será también el más caro (el mejor en
el objetivo prestaciones y el peor en el objetivo precio). Un vehiculo poco potente puede ser
el que menos prestaciones ofrezca, pero el que mejor precio tenga (el peor en el objetivo
prestaciones y el mejor en el objetivo precio). Así pues no podemos decir que uno sea
mejor que el otro. (la frontera llega a ser una Curva de indiferencia).
Así pues se dice que un coche, Coche1 es una solución pareto-óptima cuando no existe otro
coche, Coche2, tal que tenga un mejor precio que Coche1 y además ofrezca mayores
prestaciones.
Es por eso por lo que interesa disponer, no de una solución, sino de varias, para que a la
hora de tomar decisiones éstas contemplen todas las soluciones pareto-óptimas posibles.
[editar] formalización
En la figura 1 se representa, con trazo grueso, el frente de Pareto de una función con 2
objetivos. El área coloreada T representa la imagen de dicha función objetivo. Se puede
observar que no existe ningún punto perteneciente a T que mejore en el sentido de Pareto, a
algún punto del Frente: eligiendo un punto de T de forma arbitraria, por ejemplo p3, se
puede trazar la vertical hasta obtener el punto de corte con el Frente de Pareto, en este caso
p1; dicho punto de corte siempre tendrá el mismo valor de f1 y un valor mejor de f2 .
También se puede observar que para 2 puntos cualesquiera del Frente de Pareto, nunca
habrá uno que mejore de forma simultánea los dos objetivos respecto al otro punto.
Cogiendo por ejemplo los puntos p1 y p2, se observa que para p1 mejora f2, pero a costa de
empeorar f1 (se está considerando un caso de minimización).
Obtenido de «http://es.wikipedia.org/w/index.php?title=Eficiencia_de_Pareto&oldid=50860875»