Usted y su cómplice son dos personas racionales y sin ninguna relación emocional: su único objetivo es conseguir la menor condena posible. Que va a hacer? Una manera racional de razonar es la siguiente: "mi cómplice puede hacer sólo dos cosas: confesar o no confesar. Si él confiesa, lo mejor para mi es no confesar, dado que así saldré libre. Si el no confiesa, lo mejor para mi es, también en este caso, no confesar, dado que si confieso me caen diez años." Basándose en este razonamiento, decide no confesar.
He dicho que los dos son personas racionales y, dado que su razonamiento es racional, el cómplice razonará de la misma manera y decidirá no confesar. Así a los dos les caerán cinco años. Si los dos hubieran decidido comportarse de manera irracional y confesar, a los dos les habrían caído sólo dos años. La lógica les ha costado tres años adicional de cárcel.
Esta paradoja fue descrita y bautizada prisoner's dilemma (el dilema del prisionero) en 1950 por Melvin Dresher y Merril Floyd de la RAND corporation. El dilema se hizo famoso cuando Martin Gardner publicó un conocido artículo sobre él en el número de Mayo 1983 de Scientific American (más tarde Gardner publicó una versión extendida en su imprescindible libro Metamagical Themas, una verdadera Biblia de las matemáticas recreativas). Gardner cambia el escenario describiendo un problema matemáticamente equivalente que puede ser más fácil de seguir.
Usted dispone una gran cantidad de cierto bien (dinero, por ejemplo) y quiere cambiarlo por otro bien (diamantes, por ejemplo). Ha contactado un vendedor y los dos han llegado a un acuerdo de intercambio de dinero por diamantes que es muy ventajoso para los dos. Por una razón que no precisamos, el intercambio tiene que mantenerse secreto (quizás es ilegal, y es por esto que los dos han acabado en la cárcel en el ejemplo anterior). Los dos no se conocen, y no se han encontrado nunca. Se ponen de acuerdo que usted deja el dinero en una bolsa un lugar establecido y al mismo tiempo el vendedor deja los diamantes en una bolsa en otro lugar. Los dos no se encontrarán nunca, y no habrá otro intercambio ni otra comunicación.
Hay algo que cada uno de los dos teme: llegar al punto de recogida y encontrar una bolsa vacía. Si los dos dejan la bolsa llena, el intercambio será ventajoso para los dos, pero conseguir algo a cambio de nada es una tentación muy fuerte: ¿y si dejara la bolsa vacía?. De hecho, puede razonar así: "Si el vendedor ha dejado la bolsa vacía, lo mejor para mi es dejarla también vacía, para no perder el dinero. Por otro lado, si el vendedor deja los diamantes, lo mejor para mi es dejar la bolsa vacía y conseguir los diamantes a cambio de nada".
Mientras tanto, el vendedor habrá hecho el mismo razonamiento que usted y decidirá dejar la bolsa sin diamantes. Por tanto los dos, usando su lógica impecable quedarán con las manos vacías. Una pena: si los dos hubieran dejado de un lado la lógica y colaborado, ahora habrían llevado a cabo un intercambio ventajoso. Esta es la paradoja que nos presenta el dilema del prisionero: ¿la lógica impide la colaboración?
En este caso el problema es la falta de confianza en la lógica de los demás. Si de verdad asumimos que nuestro cómplice o el vendedor es una persona tan lógica como nosotros, entonces debemos asumir que, cualquier decisión tomemos nosotros basada en la lógica, él llegará a la misma conclusión. Por tanto los dos decidiremos siempre comportarnos de la misma manera: colaboraremos los dos, o engañaremos los dos, confesaremos los dos, o callaremos los dos. Dado que la mejor opción es colaborar los dos, deberíamos decidir colaborar. Pero el problema, en estos casos, está puesto de manera tal que si uno elige la lógica y el otro la codicia, el que elige la codicia saldrá ganando. Y no tenemos suficiente confianza en los demás como para asumir que el otro seguirá la misma lógica que nosotros.
Una variación muy interesante sobre el tema es el dilema del prisionero continuado. Pongámonos otra vez en el intercambio de dinero con diamantes, pero esta vez usted y el vendedor han concordado que harán un intercambio cada mes durante un tiempo indeterminado, digamos durante todo el tiempo en que los dos estarán con vida. Ahora cada mes usted tendrá que decidir si cooperar (dejar el dinero) o engañar (dejar una bolsa vacía). El primer mes usted deja una bolsa llena de dinero y el vendedor deja una bolsa llena de diamante. Maravilla. Al mes siguiente hay que volver a tomar la decisión, y así cada mes.
Supongamos que en una ocasión, de repente, el vendedor deja una bolsa vacía. ¿Qué va a hacer? ¿Ya no se fía de él y no vuelve nunca más a dejar el dinero? Así perderá para siempre la oportunidad de un intercambio que es, al fin y al cabo, muy ventajoso. ¿Hacer como si nada hubiera pasado y dejar el dinero el mes siguiente? ¿No dejarlo el mes siguiente pero volver a dejarlo si el vendedor vuelve a dejar los diamantes? Aclaremos, una vez más, que estamos hablando de comportamiento fríamente lógico y egoísta: usted está cuidando sólo su interés. Supongamos, por ejemplo, que en algún momento recibe una información fiable que el vendedor está gravemente enfermo y le quedan pocos meses de vida. El vendedor no sospecha que usted tiene la información. En este caso, lo lógico, lo racional, es engañar: el vendedor no tendrá tiempo suficiente para castigar su comportamiento. Esto es lo que entendemos por egoísmo lógico.
El problema es muy complicado, pero lo podemos formalizar un poco y analizarlo matemáticamente mediante la teoría de juegos o mediante simulaciones con el ordenador. El primer paso es cuantificar el problema, algo que se puede hacer a través de una matriz de pago Una posible matriz de pago para el problema del intercambio de dinero y diamante es la siguiente (C quiere decir "coopera" y E quiere decir "engaña"):
Vendedor | |||
---|---|---|---|
C | E | ||
Yo | C | (2,2) | (-1,4) |
E | (4, -1) | (0, 0) |
En esta matriz, si los dos cooperan tendrán una ganancia de 2 puntos (valor arbitrario: la ganancia del intercambio). Si los dos engañan, la ganancia es cero (nadie recibe nada, todo queda como estaba). Si usted coopera y el vendedor engaña usted pierde y consigue -1 puntos, mientras el vendedor recibe 4 (sí: son muchos... es que es muy placentero recibir algo sin dar nada a cambio). Claramente, si el vendedor coopera y usted engaña los papeles son invertido: usted gana 4 puntos y el vendedor pierde uno. La matriz del juego en la versión del prisonero es la siguiente (C quiere decir "confiesa" y N quiere decir "No confiesa"):
Cómplice | |||
---|---|---|---|
C | N | ||
Yo | C | (-2,-2) | (0,-8) |
N | (-8,0) | (-5,-5) |
El juego no cambia sustancialmente si añadimos el mismo valor a todas las entradas (lo que determina el juego es la diferencia entre la puntuación de varias opciones). Por tanto podemos a&ntile;adir un valor a todas las entradas de manera tal que todos los númers sean positivos o cero. Llaremos normalizadas estas matrices. La matriz normalizada para el problema del vendedor es
Vendedor | |||
---|---|---|---|
C | E | ||
Yo | C | (3,3) | (0,5) |
E | (5, 0) | (1, 1) |
mientras la matrix normalizada para el juego en la versión del prisonero es
Cómplice | |||
---|---|---|---|
C | N | ||
Yo | C | (6,6) | (8,0) |
N | (0,8) | (3,3) |
Podemos generar muchas versiones de estos juegos cambiando oportunamente la matriz de pago. En general, la matriz (normalizada) tiene la estructura siguiente:
Cómplice | |||
---|---|---|---|
C | N | ||
Yo | C | (R,R) | (E,T) |
N | (T,E) | (C,C) |
Aquí $R$ es la recompensa por la cooperación mútua, $C$ es el castigo por no cooperar, $T$ es la tentación y $E$ es la paga del estafado. Para que el juego tenga sentido, los valores tienen que cumplir las condiciones siguientes:
\begin{equation} \begin{aligned} T &> R > C > E \\ \frac{T+G}{2} &< R \end{aligned} \end{equation}
La primera condición es la que da peso a la consideració "lo mejor para mi es engañ:ar, independientemente de lo que hace el otro", la segunda sostiene que quedarse atrapado en una serie de alternanzas (este mes yo coopero y tu engañas, el mes siguiente al revé, y así siguiendo) es peor que cooperar todo el tiempo.
Es fácil ver que una estrategia óptima en todas las situaciones no existe. Supongamos que la otra parte tenga como estrategia "Siempre E" (engaña en cada jugada). En este caso la mejor estrategia es engañar siempre. Por otro lado, supongamos que el otro tenga como estrategia "voy a cooperar hasta que tu engañes, luego engañaré siempre". En este caso nuestra mejor estrategia es cooperar y no engañar nunca.
Para darnos una mejor idea de lo que es una buena estrategia, imaginemos un territorio con muchos seres que se mueven por él y, cada vez que se encuentran, juegan un juego del dilema del prisonero continuado, collecionando y acumulando puntos. En este sentido una estrategia de cooperación, que hace ganar puntos a nosotros y al otro jugador, puede er mejor que una estrategia competitiva, que intenta ganar juegos a costa del otro.
Estas características tocan un tema que, desde Darwin, ha suscitado mucho interés entre los antropólogos: ¿cómo puede emerger la cooperación en un ambiente en que la evolución es determinada por la competición, en que parece que el egoismo debería ser la mejor estrategia? La paradoja, aparente, puede estar relacionada con el hecho que---en términos de la teoría de los juegos---el dilema del prisonero no es un juego a suma cero. Un ejemplo de juego a suma cero es el poker (el ejemplo es más claro s consideramos sólo dos jugadores): para que yo gane dinero es necesario que mi adversario lo pierda, y todo el dinero que gano yo lo pierde mi adversario. La suma total de dinero no cambia entre el comienzo y el final del juego; todo lo que puede cambiar es su distibución. El dilema del prisonero no funciona así: cooperando los dos, yo y mi adversario ganamos los dos; el total de puntos que tenemos aumenta a medida de que jugamos el juego.
Estos problemas fueron analizados por Robert Axelrod en un famoso experimento en 1979, y luego analizados en su libro The evolution of cooperation (Basic books, 1984). Axelrod envió invitaciones a varios expertos en teoría de juegos, incluso varios que ya habían trabajado con el dilema del prisonero. En la invitación decía que todos iban a participar en un torneo round robin en que cada uno se enfrentaría con todos los demás (y con un clon de si mismo) unas 200 veces. EL objetico era acumular cuantos más puntos posible. Los invitados tenían que enviar un programa (escrito en BASIC... estamos en 1979) que respondiera con C or D al C or D del otro jugador (Cooperate y Defect, el lenguaje oficial del torneo era el inglés). Los programas no tenían que ser deterministicos, podían usar un generador de números aleatorios.
El programa ganador fue el de Anatol Rapaport, psicólogo y filósofo de la University of Toronto, un experto en el dilema del prosonero. Era el programa más corto entre los enviados, y se llamaba TiT FOR TAT. Usaba una estrategia muy sencilla:
En la primera jugada, coopera; luego, haz lo que el otro ha hecho en la jugada anterior
Una de las características importantes de TIT FOR TAT es que nunca es el primero en engañr. Axelrod llama corteses (nice) las estrategias que tienen esta característica. Ser cortés no quiere decir no engañar nunca: si el otro engaña, TIT FOR TAT engañará en la jugada siguiente. Pero una estrategia cortés nunca será la primera en engañr; por tanto, si dos estructuras corteses se encuentran, las dos cooperarán siempre, ganando muchos puntos.
Otro aspecto relevante de TIT FOR TAT es la retaliación limitada frente a un engaño: si el adversario engañ, TIT FOR TAT rsponde engañando, pero no extiende el "castigo" más allá que esto; si el adversario vuelve a cooperat, TIT FOR TAT cooperará olvidando el engaño.
En un análisis posterior al torneo, Axelrod descubrió que una estrategia llamada TIT FOR TWO TATS, que engaña sólo si el otro engaña dos veces, habría ganado.
Las lecciones que se pueden derivar del torneo son dos: es importante ser corteses (no ser el primero en engañar) y perdonar (no seguir castigando).
Axelrod organizó más torneos, u derivó otra lección: el éxito de una estrategia depende del ambiente, es decir, de las otras estrategias con que se encuentra a jugar. Por ejemplo, TIT FOR TWO TATS, que habría ganado el primer torneo, acabó bastante mal en los otros torneos (más o menos a la mitad del ranking).
Axelrod llama robustas las estrategias que tienen éxito en muchos ambientes diferentes. TIT FOR TAT es una estrategia robusta: de los seis torneos organizdos en la segunda ronda, TIT FOR TAT ganó cinco, y se clasificó segunda en el sexto.
Una última observació es que si nos enfrentamos a una estrategia no responsiva (su secuencia de jugadas es establecida a priori o es aleatoria, y no depende de lo que hace el otro jugador), entonces "Siempre D" es la mejor estrategia. El programa que ganó a TIT FOR TAT en el último torneo era una modificación que intentaba descubrir si la otra estrategia era no responsiva y, en este caso, pasaba a "Siempre D".
Termino con un recuerdo personal. Hace años, en un curso de inteligencia artificial que estaba dando en la University of Cape Coast, decidí repetir el experimento de Axelrod. Pedí a mis estudiantes que desarrollaran una estrategia para el juego y que me entregaran un programa (en Python, esta vez... los tiempos han cambiado). Mi idea era ver como trabajaban duro para crear estrategias complicadas; luego habrí llegado yo jugando con TIT FOR TAT y, con el programa más sencillo de todos, les habría ganado. Quería transformar el torneo en un llamamiento a la sencillez de los programas (que todavía considero una de sus calidades más importantes).
Las cosas no funcionaron muy bien: en mi torneo TIT FOR TAT no se comportó muy bien, acabó sexto de 13 programas. Evidentemente, a pesar de ser robusto, se encontró en un ambiente donde no funcionaba bien. (Afortunadamente el programa que ganó era casi tan sencillo como TIT FOR TAT, por tanto mi argumento didáctico se pudo hacer.)
El dilema del prisonero y el dilema del prisonero continuado nos ponen el problema del egoismo racional. Una pulsión natural, que todos tenemos, es buscar la mayor ganancia personal. Pero en algunas situaciones la ventaja colectiva (en este caso la colectividad son las dos personas) es mayor si los dos deciden de cooperar. El problema es que si cada uno piensa lógicamente en su ventaja sin considerar la ventaja del otro, los dos acaban con una solución en que los dos pierden. El problema no es baladí. recordemos la famosa frase de Adam Smith:
It is not from the benevolence of the butcher, the brewer, or the baker that we expect our dinner, but from their regard for their own interest.
Esta es una de las bases del capitalismo: si cada persona es racionalmente egoista, y piensa en su propio interés de manera racional, el resultado será óptimo para la colectividad. El dilema del prisonero pone en entredicho este dogma. Hay situaciones en que el egoismo puede no ser la mejor estrategia, y en que buscar una ventaja para los demás se traduce en la mejor estrategia para nosotros.