Dilema del prisionero

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 18:04 14 dic 2005 por Santiago Pérez (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.

El dilema del prisionero es un ejemplo claro pero atípico de un problema de suma no nula. En este problema de teoría de juegos, como en otros muchos, se supone que cada jugador, de modo independiente, trata de maximizar su propia ventaja sin importarle el resultado del otro jugador. Las técnicas de análisis de la teoría de juegos estándar, por ejemplo determinar el equilibrio de Nash, pueden llevar a cada jugador a escoger traicionar al otro, pero curiosamente ambos jugadores obtendrían un resultado mejor si colaborasen. Desafortunadamente (para los prisioneros), cada jugador está incentivado individualmente para defraudar al otro, incluso tras prometerle colaborar. Éste es el punto clave del dilema.

En el dilema del prisionero iterado, la cooperación puede obtenerse como un resultado de equilibrio. Aquí se juega repetidamente, por lo que, cuando se repite el juego, se ofrece a cada jugador la oportunidad de castigar al otro jugador por la no cooperación en juegos anteriores. Así, el incentivo para defraudar puede ser superado por la amenaza del castigo, lo que conduce a un resultado mejor, cooperativo.

El dilema del prisionero clásico

La enunciación clásica del dilema del prisionero es:

La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarles, y tras haberles separado, les visita a cada uno y les ofrece el mismo trato: "Si confiesas y tu cómplice continúa sin hablar, él será condenado a la pena total, 10 años, y tú serás liberado. Si él confiesa y tú callas, tú recibirás esa pena y será él el que salga libre. Si ambos permanecéis callados, todo lo que podremos hacer será encerraros 6 meses por un cargo menor. Si ambos confesáis, ambos seréis condenados a 6 años."

Lo que puede resumirse como:

  Tú lo niegas Tú confiesas
Él lo niega Ambos sois condenados a 6 meses Él es condenado a 10 años; tú sales libre
Él confiesa Él sale libre; tú eres condenado a 10 años Ambos sois condenados a 6 años

Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es minimizar su propia estancia en la cárcel. Como prisionero tienes dos opciones: cooperar con tu cómplice y permanecer callado, o traicionar a tu cómplice y confesar. El resultado de cada elección depende de la elección de tu cómplice. Desafortunadamente, no conoces qué ha elegido hacer. Incluso si fueses capaz de hablar con tu compañero, no puedes estar seguro de que puedas confiar en él.

Si esperas que tu cómplice escoja cooperar contigo y permanecer en silencio, la opción óptima para ti sería confesar, lo que significaría que serías liberado inmediatamente, mientras tu cómplice tendrá que cumplir una condena de 10 años. Si esperas que tu cómplice decida confesar, tu mejor opción es confesar también, ya que al menos no recibirás la condena completa de 10 años, y sólo tendrás que esperar 6 años, al igual que tu cómplice. Si, sin embargo, ambos decidieseis cooperar y permanecer en silencio, ambos seríais liberados en sólo 6 meses.

Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, puedes reducir siempre tu sentencia confesando. Desafortunadamente para los prisioneros, esto conduce a un resultado subóptimo, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo en el sentido de Pareto; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de los dos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina paretianamente al resultado en el cual los dos eligen confesar.

Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos prisioneros cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos prisioneros si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.

Si has tenido una oportunidad para castigar al otro jugador por confesar, entonces un resultado cooperativo puede mantenerse. La forma iterada de este juego (mencionada más abajo) ofrece una oportunidad para este tipo de castigo. En ese juego, si tu cómplice te traiciona y confiesa una vez, puedes castigarle traicionándole tú la próxima. Así, el juego iterado ofrece una opción de castigo que está ausente en el modo clásico del juego.

Un juego similar pero distinto

El científico cognitivo Douglas Hofstadter (ver las referencias más abajo) sugirió una vez que la gente encuentra muchas veces problemas como el dilema del prisionero más fáciles de entender cuando están presentados como un simple juego o intercambio. Uno de los ejemplos que usó fue el de dos personas que se encuentran e intercambian bolsas cerradas, con el entendimiento de que una de ellas contiene dinero y la otra contiene un objeto que está siendo comprado. Cada jugador puede escoger seguir el acuerdo poniendo en su bolsa lo que acordó, o puede engañar ofreciendo una bolsa vacía. En este juego de intercambio, al contrario que en el dilema del prisionero, el engaño es siempre la mejor opción.

Matriz de pagos del dilema del prisionero

En el mismo artículo, Hofstadter también observó que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de múltiples formas, siempre que se adhiera al siguiente principio:

T > R > C > P

donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).

(Suele también cumplirse que (T + C)/2 < R, y esto se requiere en el caso iterado.)

Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada parte de la matriz de pagos, es siempre "mejor" para cada jugador desertar, haga lo que haga el otro.

Siguiendo este principio, y simplificando el dilema del prisionero al escenario del cambio de bolsas anterior (o a un juego de dos jugadores tipo Axelrod — ver más abajo), obtendremos la siguiente matriz de pagos canónica para el dilema del prisionero, esto es, la que se suele mostrar en la literatura sobre este tema:

  Cooperar Desertar
Cooperar 3, 3 0, 5
Desertar 5, 0 1, 1

En terminología "ganancia-ganancia" la tabla sería similar a esta:

  Cooperar Desertar
Cooperar ganancia - ganancia pérdida sustancial - ganancia sustancial
Desertar ganancia sustancial - pérdida sustancial pérdida - pérdida

Ejemplos en la vida real

Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de interés para ciencias sociales como economía, política y sociología, además de ciencias biológicas como etología y biología evolutiva.

En ciencia política, por ejemplo, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.

Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.

Por último, la conclusión teórica del dilema del prisionero es una razón por la cual, en muchos países, se prohíben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: está en el interés de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando sólo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tenderá a confesar y testificar contra el inocente.

El dilema del prisionero iterado

En su libro La evolución de la cooperación: el dilema del prisionero y la teoría de juegos (1984), Robert Axelrod estudió una extensión al escenario clásico del dilema del prisionero que denominó dilema del prisionero iterado (DPI). Aquí, los participantes deben escoger una y otra vez su estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invitó a compañeros académicos a lo largo del mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad inicial, capacidad de perdón y similares.

Axelrod descubrió que cuando se repiten estos encuentros durante un largo periodo de tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias "egoístas" tendían a ser peores a largo plazo, mientras que las estrategias "altruistas" eran mejores, juzgándolas únicamente con respecto al interés propio. Usó esto para mostrar un posible mecanismo que explicase lo que antes había sido un difícil punto en la teoría de la evolución: ¿cómo puede evolucionar un comportamiento altruista desde mecanismos puramente egoístas en la selección natural?

Se descubrió que la mejor estrategia determinista era "Tit for Tat", que fue desarrollada y presentada en el torneo por Anatol Rapoport. Era el más simple de todos los programas presentados, conteniendo únicamente cuatro líneas de BASIC, y fue la que ganó el concurso. La estrategia consiste simplemente en cooperar en la primera iteración del juego, y después de eso elegir lo que tu oponente eligió la ronda anterior. Una estrategia ligeramente mejor es "Tit for Tat con capacidad de perdón". Cuando tu oponente deserta, en la siguiente ronda cooperas a veces de todos modos con él con una pequeña probabilidad (del 1% al 5%). Esto permite la recuperación ocasional de quedarse encerrado en un círculo de deserciones. La probabilidad exacta depende de la alineación de los oponentes. "Tit for Tat con capacidad de perdón" es la mejor estrategia cuando se introducen problemas de comunicación en el juego. Esto significa que a veces tu jugada se transmite incorrectamente a tu oponente: tú cooperas pero tu oponente cree que has desertado.

Tit for Tat funcionaba, mantenía Axelrod, por dos motivos. El primero es que es "amable", esto es, comienza cooperando y sólo deserta como respuesta a la deserción de otro jugador, así que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro jugador si éste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el otro jugador entiende fácilmente la lógica detrás de las acciones de Tit for Tat, y puede por ello encontrar una forma de trabajar con él productivamente. No es una coincidencia que la mayoría de las estrategias que funcionaron peor en el torneo de Axelrod fueron las que no estaban diseñadas para responder a las elecciones de otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de establecer una cooperación mutua fiable.

Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo, considérese una población donde todo el mundo deserta siempre, excepto por un único individuo que sigue la estrategia Tit for Tat. Este individuo tiene una pequeña desventaja porque pierde la primera ronda. En una población con un cierto porcentaje de individuos que siempre desertan y otros que siguen la estrategia Tit for Tat, la estrategia óptima para un individuo depende del porcentaje, y de la duración del juego. Se han realizado simulaciones de poblaciones, donde mueren los individuos con puntuaciones bajas y se reproducen aquellos con puntuaciones altas. La mezcla de algoritmos en la población final depende de la mezcla en la población inicial.

Si un DPI va a ser iterado exactamente N veces, para alguna constante conocida N, hay otro dato interesante. El equilibrio de Nash es desertar siempre. Esto se prueba fácilmente por inducción: Puedes desertar la última ronda, ya que tu oponente no tendrá oportunidad de castigarte. Por ello, ambos desertaréis la última ronda. Entonces, puedes desertar la ronda anterior, ya que tu oponente desertará en la última hagas lo que hagas. Y se continúa de este modo. Para que la cooperación siga siendo atractiva, el futuro debe ser indeterminado para ambos jugadores. Una solución consiste en hacer aleatorio el número total de rondas N.

Otro caso especial es "jugar eternamente" el dilema del prisionero. El juego se repite un número infinito de rondas, y tu puntuación es la media (calculada apropiadamente).

El juego del dilema del prisionero es fundamental para entender ciertas teorías de cooperación y confianza humana. En la suposición de que las transacciones entre dos personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en poblaciones puede ser modelado por una versión para varios jugadores e iterada del juego. Por ello ha fascinado a muchos estudiosos a lo largo de los años. Una estimación no demasiado actualizada (Grofman and Pool, 1975) sitúa el número de artículos dedicados al mismo sobre 2.000.

Sociedades secretas en el dilema del prisionero iterado

En el 20 aniversario de la competición del dilema del prisionero iterado (2004), el equipo de la universidad de Southampton ganó las primeras posiciones, venciendo entre los demás competidores a algoritmos modelo tit-for-tat y sus derivados. La competición era de la variante del dilema del prisionero iterado con problemas de comunicación (esto es, algunas veces no se comunicaban bien los movimientos al otro jugador).

En esa edición, se presentaron 223 competidores, de los cuales 60 fueron inscritos por Southampton. Todos eran variantes de un mismo algoritmo, y en los primeras 5 a 10 iteraciones del dilema del prisionero utilizaban sus respuestas como "saludo secreto" para identificarse entre sí. Entonces, si identificaban al otro jugador como perteneciente a la "sociedad", algunos algoritmos estaban diseñados para sacrificarse colaborando siempre, de modo que los otros, traicionándolos siempre, pudiesen conseguir una puntuación máxima. Si no identificaban al otro algoritmo como perteneciente a la sociedad tras ver sus jugadas iniciales, todas las variantes le traicionaban siempre para bajar en lo posible su puntuación.

Esta estrategia, aunque de discutible correspondencia con el espíritu del juego, ya que requiere una comunicación inicial entre los participantes de la "sociedad" para decidir el formato del "saludo", se ajusta a las reglas de la competición. Siguiéndola, Southampton consiguió que tres de sus participantes ocupasen las tres primeras posiciones, a costa de que muchos de sus otros algoritmos estuviesen entre los de peor puntuación.

Variantes

Existen algunas variantes del juego, con diferencias sutiles pero importantes en las matrices de pago, que se muestran a continuación:

Gallina

Otro importante juego de suma no nula se llama "gallina". En este caso, si tu oponente deserta, te beneficias más si cooperas, y éste es tu mejor resultado. La deserción mutua es el peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del prisionero el peor resultado posible es la cooperación mientras el otro jugador deserta (así la deserción mutua es un equilibrio estable). En ambos juegos, la "cooperación mutua" es un equilibrio inestable.

Una matriz de pagos típica sería:

  • Si ambos jugadores cooperan, cada uno obtiene +5.
  • Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10.
  • Si ambos desertan, cada uno obtiene -20.

Se llama "gallina" por el juego de carreras de coches. Dos jugadores corren el uno hacia el otro hacia una aparente colisión frontal: el primero en desviarse de la trayectoria es el gallina. Ambos jugadores evitan el choque (cooperan) o continúan con la trayectoria (desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de irrigación en sus campos. El sistema puede ser mantenido adecuadamente por una persona, pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su mantenimiento, sigue estando dentro del interés del otro granjero hacerlo, porque se beneficiará haga lo que haga el otro. Así, si un granjero puede establecerse como el desertor dominante —esto es, si su hábito se vuelve tan enraizado que el otro hace todo el trabajo de mantenimiento— seguramente continuará con ese comportamiento

Juego de confianza

Un juego de confianza tiene una estructura similar al dilema del prisionero, excepto que la recompensa por la cooperación mutua es mayor que la otorgada por la deserción mutua. Una matriz de pagos típica sería:

  • Si ambos jugadores cooperan, cada uno obtiene +10.
  • Si tú cooperas y el otro jugador deserta, tú obtienes +1 y él +5.
  • Si ambos desertáis, cada uno obtiene +3.

El juego de confianza es potencialmente muy estable, ya que da la máxima recompensa a jugadores que establecen un hábito de cooperación mutua. A pesar de ello, existe el problema de que los jugadores no sean conscientes de que está en su interés cooperar. Pueden, por ejemplo, creer incorrectamente que están jugando un juego de dilema del prisionero o gallina, y elegir su estrategia de acuerdo a ello.

Amigo o enemigo

"Amigo o enemigo" (Friend or Foe) es un juego que se está emitiendo actualmente en el canal de cable y satélite estadounidense Game Show Network. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un entorno artificial. En el concurso, compiten tres pares de personas. Cuando cada pareja es eliminada, juegan a un juego del dilema del prisionero para determinar cómo se reparten sus ganancias. Si ambos cooperan ("amigo"), comparten sus beneficios al 50%. Si uno coopera y el otro deserta ("enemigo"), el desertor se lleva todas las ganancias y el cooperador ninguna. Si ambos desertan, ninguno se lleva nada. Advierta que la matriz de pagos es ligeramente diferente de la estándar dada anteriormente, ya que los pagos de "ambos desertan" y el de "yo coopero y el otro deserta" son idénticos. Esto hace que "ambos desertan" sea un equilibrio neutral, comparado con el dilema del prisionero estándar. Si sabes que tu oponente va a votar "enemigo", entonces tu elección no afecta a tus ganancias. En cierto modo, "amigo o enemigo" se encuentra entre el dilema del prisionero y gallina.

La matriz de pagos es:

  • Si ambos jugadores cooperan, cada uno obtiene +1.
  • Si ambos desertan, cada uno obtiene 0.
  • Si tú cooperas y el otro deserta, tú te llevas +0 y él +2.

"Amigo o enemigo" es útil para alguien que quiera hacer un análisis del dilema del prisionero aplicado a la vida real. Fíjese en que sólo se puede jugar una vez, así que todos los conceptos que implican juegos repetidos no se presentan, y no se puede desarrollar la estrategia Tit for tat.

En "amigo o enemigo", cada jugador puede hacer un comentario para convencer al otro de su amistad antes de hacer la decisión en secreto de cooperar o desertar. Un posible modo de "ganar al sistema" sería decir al rival: "Voy a escoger 'enemigo'. Si confías en que te dé la mitad de los beneficios después, escoge 'amigo'. De otro modo, nos iremos ambos sin nada." Una versión más egoísta de esto sería: "Voy a escoger 'enemigo'. Voy a darte X% y me quedaré con (100-X)% del premio total. Así que tómalo o déjalo, ambos nos llevamos algo o ninguno nos llevamos nada." Ahora el truco se encuentra en minimizar X de modo que el otro concursante siga escogiendo 'amigo'. Básicamente, debes conocer el umbral en el que los beneficios que obtiene viéndote no llevarte nada superan a los que obtiene simplemente llevándose el dinero que has ofrecido.

Este acercamiento no ha sido intentado en el juego: es posible que los jueces no lo permitiesen.

Referencias

  • Axelrod, Robert and Hamilton, William D. (1981). The Evolution of Cooperation. Science, 211:1390-1396.
  • Axelrod, Robert (1986). La evolución de la cooperación: el dilema del prisionero y la teoría de juegos. ISBN 8420607479
  • Grofman and Pool (1975). Bayesian Models for Iterated Prisoner's Dilemma Games. General Systems 20:185-94.
  • Hofstadter, Douglas R. (1985) The Prisoner's Dilemma Computer Tournaments and the Evolution of Cooperation Ch.29 en Metamagical Themas: questing for the essence of mind and pattern (ISBN 0465045669).
  • Poundstone, William (1995). El dilema del prisionero: John Von Neumann, la teoría de juegos y la bomba. Doubleday. ISBN 8420607479. Una amplia introducción popular, como el título indica.
  • Artículo de Wired News sobre la competición 20 aniversario del DPI (inglés)

Enlaces externos