¿Nos visitas desde USA? Entra a tu página Rankia.us.
Diarios de Trading NEGA

La edad de oro (XIII) Las Vegas VII Libratus IA

WORLD 10/2/2018

 

Nos puede enseñar la IA, la inteligencia artificial a operar? Ya me imagino la nueva publicidad y cursos. Habrá cosas que no pueda enseñarnos, porque para eso somos humanos, cosas como no estar fatigado tomando decisiones, no tener necesidad de dormir, no tener miedo al riesgo asumido, no sentir el valor del dinero, no tener emociones, no estar condicionado por cómo va la tendencia de nuestros resultados. Otras como la de identificar las debilidades del mercado puede que sí, y aquí en este diario somos de los que creemos en la ineficacia del mercado y en la necesidad de búsqueda de ineficiencias y anomalías a explotar. Y cuanto más mejor, y que vengan de donde vengan.

También nos pueden ayudar los robots que soporten la IA, porque con el tiempo los circuitos electrónicos van a funcionar 1 millón de veces más rápido que los bioquímicos. La IA a su vez va a tener la potencia de abarcar 20.000 años de trabajo humano cada semana.

No hay que olvidar tampoco, quienes están detrás de la IA y como lo están haciendo. Ciertas universidades norteamericanas técnicas en sus aéreas de investigación y los grandes de las puntocom. Esos que debían estar explotados por los aires, según los apocalípticos , me refiero a Google, Facebook, Microsoft y Amazon. Dinero, experiencia empresarial de éxito, innovación, esfuerzo y seguramente talento detrás. Todo en grandes cantidades. Además por ahora la colaboración es ejemplar. Es lo que está caracterizando la nueva IA, todos colaboran con todos y la información se expande.

No tiene mala pinta

Vamos a elegir una estrella del momento de cada. Una de los centros estatales ligados a la Universidad y otra de los gigantes de internet. Van a ser Libratus de la Universidad den Pittsburg y Alpha Zero de Google. Hoy toca Libratus, al que le podríamos llamar algo así como "Balanceado" en la lengua no clásica. Creo que le viene el nombre porque maneja el equilibrio de Nash. Nash, ese de la película " Una mente maravillosa" que estaba paranoide con los servicios secretos, pero que gano un premio Nobel. La aplicación que más me gusta es la que sale en la película, bastante más que el lúgubre dilema del prisionero, que por cierto en España no funciona con los corruptos.

 

    


Libratus se caracteriza frente a sus precederos y competidores por la ventaja cualitativa de aproximarse a cada partida equilibrado. Luego veremos de qué se trata. Se opera desde el centro de super computadores de Pittsburg, creado en el año 1986 por las universidades de Pittsburg y de Carnegie Mellon con unos 10 millones de dinero público. Permite el acceso tanto a Universidades, instituciones, o investigadores de la industria a los computadores más poderosos de hoy en día. PSC s BRIDGES, es el nombre de la maquina que hace correr la IA Libratus, y es 30.000 veces más rápido que nuestros ordenadores de sobremesa, gracias a sus 274 terabytes de memoria RAM. Toda una bestia al alcance de los cerebritos de las universidades. 

Debemos entender que es un algoritmo. A lo mejor así les quitamos la mala fama y uso que las opiniones de los medios hacen con ellos. Vuelven a estar de moda y ya escucho los insultos y maldiciones que van a recibir, porque ya se habla de crash, principios de semanas negros y sé que el 75% de las operaciones las han hecho ellos. De momento lo de siempre, antes de saber que ha pasado, los resabios ya saben las causas y algunos hasta los culpables.

Se ha actividado el "yo ya lo dije" y los profetas ya pueden ser inquisidores. Pero con un poco de tiempo todo sale a la luz. Y han sido ellos. Mencionar que echarle la culpa de un algoritmo de algo es equivalente a echarle la culpa a los enchufes de alguno de los males del mundo. Solo algún imbécil podría dedicarse a perseguir enchufes.

Un algoritmo no es más que una instrucción previa que se ejecuta ante una situación dada. La característica de ellos es que se usan en combinación con otros y son sucesivos en el tiempo. Es como los pasos que los cocineros nos dan para que cocinemos con recetas y no según lo que nos venga a la cabeza en ese momento. No es más. Lo más importante es el paso a paso. Como vamos nosotros con esta simplez que estoy escribiendo pero que enseguida se complica.

Se complica porque lo que usa Libratus son los algoritmos más sofisticados que se conocen. Se llaman CFR. Estos CFR usan una técnica que la voy a llamar " el  remordimiento  reductor contra fáctico". Lo siento, no he  encontrado mejor termino para lo que se hace con esa técnica. La palabra contra fáctica, se refiere como factico a aquel acontecimiento, que aunque no haya sucedido, perdón , aunque no haya sido observado de la realidad puede sin embargo ser posible su existencia.

Y esta técnica es lo que aplica Libratus gracias al superordenador mencionado en la mesa de poker ante cada jugada de poker. Juego que se caracteriza por tener que tomar decisiones sucesivas, Ahora el paso a paso, se transforma en punto de decisión a punto de decisión. A esas velocidades es mejor llamar a los momentos puntos. Lo que hace Libratus en esos puntos de decisión también es sucesivo.

Primero hace acudir unos valores contra facticos que son diferentes resultados de decisiones ante esa situación del juego. Después selecciona por reducción esta colección de posibles resultados, arrepintiéndose de unos frente a otros, siempre  en función, de qué estrategia va a dar mejores resultados.

Por último y antes de decidir, hace una media en relación de las estrategias mas recientes respecto a las más antiguas. El peso de las más actuales es mayor que el de las más antiguas. Una media ponderada que se llama en análisis técnico, Willer en los setenta, cuya figura más popular es la media exponencial. Lo dejamos ahí de simplificado.

Varias cosas novedosas frente a lo usado hasta hora y sobretodo sobre lo que la mayoría de nosotros hacemos en nuestras decisiones de trading. Primera, de partida las opciones de juego pueden pasar por no pertenecen solo a lo ya existente. Se abre la puerta a lo nuevo que puede emerger en cualquier momento. Y también en las estrategias ganadoras históricas, se valora más lo inmediatamente acontecido que lo anterior, es decir la experiencia del pasado. Las experiencias del oficio estan infravaloradas. Todo esto es bastante novedoso, y así a bote pronto solo lo relacionó con Simons y Renassaince en el mundo financiero.



Al igual que tres son los procedimientos del algoritmo CFR , Libratus tiene tres módulos de operar independizados con labores diferenciadas mientras corre. Como la triada de la organización mafiosa china. Vamos de tres a tres. El primer módulo de actividad se dedica a aprender las reglas de juego para adoptar la mejor estrategia para cada punto de decisión, el segundo modulo es el ejecutor, el que se encarga de tomar las decisiones para cada mano y por último el tercer modulo se dedica a recopilar la información de cada jugada que está sucediendo y preparar la acumulación de ella en el modulo 1. De esta manera Libratus además de apostar con sus contrincantes esta currando  en otras áreas de actividad.

De esta actividad rutinaria frente a la pantalla, también se debe tomar nota

Porque Libratus se aproxima asi? Así de cauto y dubitativo ante esos puntos de decisión. Porque ni los superordenadores tienen lo que se llama la fuerza bruta, la potencia para abarcar según que magnitudes de posibilidades en el juego. Ahora pueden abarcar el ajedrez por ejemplo y ya es mucho, pero no juegos como el poker sin apuestas límites o el GO chino del que hablaremos. Y esta incapacidad, esta barrera, esta falta de potencia es lo que ha hecho que Libratus de un paso cualitativo enorme frente a sus predecesores. Hay otro problema añadido. Mientras en el ajedrez se puede digamos aislar, descomponer el juego en subjuegos que se van resolviendo independientes, en juegos con información defectuosa no.

En ajedrez por ejemplo, una apertura peón dama, se puede resolver óptimamente sin tener ni idea como se resuelve una defensa holandesa. Esta descomposición no se puede hacer en el poker sin límites o en el GO chino. Aquí  todo debe resolverse como un todo.

Y lo que hace Libratus para empezar a jugar, siendo consciente de estas limitaciones, es empezar con una aproximación cauta y dubitativa . Porque cuando empieza el juego sabe que no lo puede abarcar a base de fuerza bruta de computador. No le queda otra que ser creativo e inteligente.  Y esto último es con lo que le ha ganado el ultimo torneo de maquinas IA contra los mejores jugadores de poker del año pasado. Algo que su predecesor  Claudicos no pudo hacer en el 2015.

 La estrategia de Libratus es crear una "maqueta abstracta" de la partida de poker que va a jugar. Maqueta que de alguna manera debe estar siempre "balanceada" en equilibrio de Nash con la realidad que se juega. Y al comienzo sin datos, esta maqueta abstracta reducida del posible juego, no tiene información real de la partida. Así que lo único que puede hacer Libratus es batir a la maqueta abstracta que representa la partida. Ese es su enfoque, batir a la maqueta y no al juego real. Esta limitación tiene también sus ventajas.

La primera resolver la partida de una manera más computacionalmente factible que usar la potencia en estudiar el juego real y total. La segunda incorporar en el juego acciones que el oponente ve que no están digamos en el manual de juego total y real. Es la primera IA  que opera una técnica de "explotación" de maquetas abstractas, balanceadas con la realidad. La primera vez que maquetas abstractas han sido dimensionadas para juegos con información imperfecta.

Así que el zorro de Libratus lo que hace es resolver versiones de maquetas simplificadas de la partida de poker y usa los resultados de las partidas para jugar imperfectamente la versión del poker real no simplificada. Ya sé que parece un trabalenguas.

Estos simplificados arboles de computación de la maqueta tienen que "cartografiar" nuevas ramificaciones que aparecen durante el juego, que son muchas y diferentes. Y esto se hace en cada punto de decisión. Así que la maqueta, no solo durante la partida, sino durante todo el día y toda la noche es revisada y puesta en duda. De aquí sale una nueva forma de la maqueta que tiene las mejores técnicas ganadoras de los mejores métodos empleados durante la partida. En esto se gasta la potencia del ordenador. No en almacenar infinitas estrategias. Las técnicas menos efectivas se podan del árbol de posibilidades. Las más viejas ponen las barbas a remojar.

Libratus  da más peso para ir transformando la maqueta abstracta sobre la que está jugando a lo reciente sobre lo anterior. Porque Libratus es un continuo podador del árbol de posibilidades que se van creando. Como un jardinero versallesco lo mantiene en un tamaño acotado. Esto también va, contra la tendencia actual del mercado financiero global, sus operadores y el marketing comercial. Se trata más de reducir, de podar que de acumular. Ser un experto en acumular cosas, no es lo adecuado, más bien es de torpes.

Abajo en verde lo que operaba Thorp en los casinos en verde, frente a lo que los casinos creían que operaban todos sus clientes en amarillo. El eje vertical que pasa por cero es la frontera para ganar o perder según sitúes tu eje de la campana. Al lado un árbol de posibilidades, del tipo que Libratus se encarga de podar, y que va creciendo con el desarrollo de la partida.

 

 

Según transcurre la partida que suelen ser de 8 horas diarias, y también en el tiempo de descanso, la incansable IA de Libratus, va haciendo que la maqueta se "aloje" dentro del juego real a medida que el árbol de probabilidades va a su vez creciendo hacia abajo. Así la maqueta que comenzó equilibrada, balanceada con el juego real pero externa a ese juego, va  consiguiendo estar cada vez más dentro de ese juego real. Y mientas, se sigue podando. Necesitamos potencia de computación. Con el tiempo transcurrido, la destreza, ahora como oficio usurpado, que adquiere Libratus es cada vez mayor. Lo que está haciendo Libratus es "pilotar" con efectividad una  " cualificación" que le va a hacer ganar la partida frente a sus rivales.

A diferencia de Hal, el del 2001, cuyo enfrentamiento de la IA es con el piloto de la nave, Libratus se crea su propio robot maqueta, para "explotarlo", para usarlo y ganar la partida contra los humanos.  Me parece que es la primera vez, que veo a robots cuyas habilidades consisten en la explotación de otros. Pero bueno esto es una sensación personal de un diario. Que nadie se sienta ofendido ni indignado. A los apocalípticos: "tranquilos profetas, todavía no ha pasado nada". 

Mientras hace esto, de adentrase en el juego real, con la esclava maqueta espía, Libratus está configurado para parar de jugar.  Al contrario de los computadores sabiondos y repelentes , al contrario de los todólogos contertulios de José Mota, que saben cuál es la optima solución para todo y que entran a todo . Libratus identifica rápidamente algunos patrones de juego que no prometen resultados buenos ni seguros. Después de detectarlos, los algoritmos entran en acción y deciden descartar esas manos de juegos.

Algo nada diferente a lo que hacia Thorp y los jugadores de blackjard del MIT contando cartas y entrando solo a las partidas con las probabilidades a tu favor. Trasladando horizontalmente con argucia la campana de Gauss a tu favor, mediante un sistema ideado de conteo de cartas.

Gran lección de trading ambas estando Thorp 50 años más adelantado a Libratus en el tiempo. Yo juego con mi maqueta abstracta, y cuando esta no encuentre equilibrio con el juego real, o la información que tengo sobre el patrón de juego no me da buenos resultados me levanto de la mesa. Estoy jugando otra partida, con otro tipo de juego y nadie me obliga a estar siempre apostado y jugando. Toda una estrategia activa de gestión de riesgo que viene de los sesenta

Vamos a poner un poco música, ya que nos tenemos que tomar un descanso. Se empieza con simpleces y ya estamos en un berenjenal. Ponemos la canción The Glamber del gran Kenny Rogers, cantando algo así como que hay que saber cuándo estar apostado, cuando no y cuando salir por piernas. Y de paso como ya hemos vuelto otra vez a los sesenta, y en homenaje a la muerte reciente de su autor, lo más valioso para este diario creado por esos años.


Volvamos a la mesa de juego. 
Aquí vuela una mosca y nos piramos. 
Volvemos a la partida.

Libratus está apostando caóticamente a veces, jugando con la imprevisibilidad.  Si nunca te tiras faroles, no tienes nada que hacer en este juego, si siempre te tiras faroles tampoco. Sabe lo que hace. Las estrategias de la teoría de juegos le van a dar la aleatoriedad optimizada al partido que quiere jugar. Y da para ver que Libratus se ha preparado para ello. Libratus juega con su ventaja cualitativa creciente, gracias a esa habilidad de presentarse toda la partida balanceado. Esto le está permitiendo tirarse faroles.  Esta calculando con precisión la relación riesgo/ beneficio de cada mano. Lo puede hacer. Sorprende su osadía. Los tamaños de posición de las apuestas son ínfimos o enormes, pero están controlados por la relación riesgo/ beneficio. Ningún humano sabe hacer eso. Esto le permite hacer jugadas inútiles, sin riesgo y que confunden, no se sabe a qué vienen a cuento. Y de paso está volviendo locos a los humanos. Los despista, los vacila. Un jugador dotado pese a su corta edad.

El juego continua y esta estrategia de maqueta/espía insertada funciona. Libratus ahora empieza a incorporar a sus estrategias las partidas donde se ha beneficiado de errores humanos. Como siga esto así, va a llegar un momento en que Libratus  se va a parar y calculará que es lo que tiene que hacer para poner fin al juego. Y por supuesto ganar la partida.

Ya esta, lo dijimos. Partida resuelta por goleada por Libratus.

Aquí en la foto de la izquierda, el escenario del partido. El casino de Pittsburg donde el año pasado se jugó la partida. De pie se ve al joven cerebrito hindú que programa Libratus. Enfrente de él, el profesor/ investigador de la Universidad que lleva años con esto. Abajo sentados dos de los cuatro jugadores de poker entre los 30 mejores del mundo. En la foto de la derecha otro jugador de poker de los cuatro, también un crack ya curtido en confrontaciones internacionales. El gran " Samurai"Kim. Un portento que ejerce de capitán humano. El cuarto que no aparece también es chino. Ciento veinte mil manos jugadas, 30.000 por jugador . Hay que estar en forma para semejante paliza.

 

 

Los cracks del poker han perdido en dinero virtual (les pagaron del orden de 20.000 por cabeza y en dinero real por participar) un millón setecientos mil dólares cada uno. Es una paliza de dimensiones históricas. 

Va, vamos con las declaraciones postpartidas. Da la cara "Samurai"Kim y responde a los impacientes micrófonos. 

Me parece que la maquina se altero día a día. No digo que estén haciendo trampas, pero es lo que parece.
 Es un jugador muy dotado, no veo que sea nada fácil que caiga en perdidas.
 No me quito esa sensación de final de partida de estar jugando con alguien que hace trampas.

Alguien le pregunta, mencionando que Kim participo hace dos años en la misma confrontación, si con esta victoria no cree que por fin Libratus ha vengado el honor de su padre Claudicos y de Hal.  El chino responde con cara de impasible.

Yo me dedico a jugar al poker y a no meterme en otros asuntos.

Luego baja la gorrilla y se escabulle. Tengo que ver a mi amigo, tengo que decirle que he vuelto a ver a los chinos en las salas de apuestas. Le va a encantar.
 

 

Autor del blog


Este sitio web usa cookies para analizar la navegación del usuario. Política de cookies.

Cerrar