Redes neuronales creadas por neurocientíficos acercan el gran salto a la “vida” de la Inteligencia Artificial

Expertos han desarrollado un nuevo método para que una Inteligencia Artificial aprenda a jugar un videojuego sólo a partir de información visual, entendiendo por si misma las reglas y la forma de jugar, llegando a superar el desempeño de un humano profesional. Los avances que antes era parte de la ciencia ficción, hoy están a punto de ser parte de la vida diaria.

Publicado en El Mostrador el 30 septiembre, 2015
Escrito por César Ravello

Una de las preguntas más trascendentales de la humanidad, y que ha eludido respuesta durante siglos, es entender cómo funciona la inteligencia. Una forma de solucionar este problema ha sido construir la llamada inteligencia artificial: si tenemos algo construido por nosotros mismos, sabremos exactamente cómo funciona; así, si logramos construir una inteligencia comparable a la de un ser humano, estaremos más cerca de entender cómo funciona nuestra inteligencia.

Pero ¿por qué conformarse con alcanzar el nivel humano? Muchos sueñan con que podremos llegar a construir inteligencias que sean capaces de superar a los humanos. El primer paso para que este sueño se hiciera realidad, o más bien uno de sus primeros éxitos, fue la famosa Deep Blue desarrollada en los años 90, un enorme computador que logró derrotar en ajedrez a Garry Kasparov, lo que sería la primera vez que un computador le ganaba a un campeón mundial. Sin embargo, esta máquina tenía un par de importantes limitaciones: sólo sabía jugar ajedrez, y además había sido programada para ello, no aprendió a jugar por si misma.

Es precisamente el aprendizaje una de las claves para definir la inteligencia. Existen muchas formas de definirla, pero en este caso nos quedaremos con la siguiente: Una inteligencia es un sistema que puede obtener información del ambiente y en base a eso aprender a responder con un comportamiento acorde a cada situación. En este sentido, los videojuegos son un interesante método para poner a competir a un humano contra una máquina, principalmente porque implican realizar acciones complejas frente a distintos escenarios.

Esto no tiene nada que ver con las veces que usted perdió contra “la computadora”, ya sea que los fantasmas lo hayan atrapado en el Pacman o los goles que el Messi virtual le haya hecho en el FIFA. En esos casos, el sistema está programado para actuar de cierta forma, siempre se comportará igual, nunca realizará una acción que no esté en su programa ni mejorará su desempeño con el tiempo.

Por años se ha puesto mucho énfasis en el aspecto aprendizaje para el desarrollo de nuevas formas de inteligencia artificial. Esta línea de investigación ha alcanzado un nuevo gran logro gracias al trabajo desarrollado por DeepMind, un equipo de investigación fundado y liderado por Demis Hassabis y que recientemente fue adquirido por el gigante tecnológico Google Inc.

El equipo DeepMind creó una red neuronal artificial, a la que denominaron deep Q-network (de aquí en adelante DQN), que recibe las imágenes del juego y el puntaje, nada más que eso; en principio ni siquiera sabe qué hace cada opción del control, ni a quién controla ni cuál es el objetivo del juego, sólo sabe que debe tratar de obtener un alto puntaje. Después de varias sesiones de entrenamiento, el sistema ya sabe cómo jugar y puede superar el desempeño de un jugador profesional y de otros programas que han sido creados con propósitos similares. Es interesante notar que, una vez más, los programas con los que DQN compitió estaban diseñados y programados para jugar cada juego, mientras que DQN es capaz de aprender a jugar muchos juegos distintos.

Los componentes usados para construir esta inteligencia artificial no son nada nuevo. Las redes neuronales artificiales fueron desarrolladas hace varias décadas, inspiradas en la naturaleza: una red neuronal es un conjunto de neuronas conectadas entre ellas; cada neurona recibe señales de varias neuronas y a la vez emite señales hacia otras neuronas, de forma que si las neuronas que le envían señales están más activas, esta neurona se activará y transmitirá esta mayor actividad hacia otras neuronas. En general, tanto las redes neuronales naturales como artificiales funcionan bajo este mismo principio.

El segundo componente del sistema es el método de aprendizaje ¿Cómo procesan información estas redes?¿Cómo aprenden? Las capacidades de una red neuronal dependen de la forma en que sus neuronas están conectadas. Durante el proceso de aprendizaje, las conexiones van cambiando, algunas se hacen más fuertes y otras más débiles, con lo que a la larga cambia la arquitectura de la red, y por lo tanto su comportamiento. En general, los métodos de entrenamiento o aprendizaje de redes neuronales consisten en encontrar la arquitectura que mejor se desempeñe en la tarea que se quiere realizar, en este caso, maximizar el puntaje obtenido en el juego. En este trabajo, el equipo usó la metodología de aprendizaje reforzado, que consiste resumidamente en que un buen desempeño en la tarea lleva una recompensa. Así, las recompensas van moldeando la conectividad de la red, lo que la va haciendo cada vez más eficiente.

El tercer componente es el régimen de entrenamiento, y aquí es donde está la novedad de este nuevo sistema. En lugar de simplemente poner a jugar al sistema y usar toda la información para remodelar la red, tomaron al azar sólo algunos de los lapsos de juego para que el sistema los repasara después de haber jugado. Es en este repaso o recapitulación de la experiencia cuando la red puede ser moldeada. Esto es similar a lo que ocurre en nuestros cerebros: en fases de descanso, el cerebro recapitula algunas de las experiencias previas, y es así como las memorias se consolidan.

Con este nuevo método, y después de varias sesiones de entrenamiento, el sistema aprende a usar la información visual, creando en su “mente” representaciones de los objetos y las escenas importantes, y desarrollando respuestas adecuadas a cada escenario. Sin embargo, no todo es éxito para este sistema, aun dentro del ámbito de los videojuegos, puesto que no en todos los juegos tuvo éxito. Juegos como Pacman y otros en que se requiere desarrollar una estrategia a largo plazo representaron una gran dificultad para DQN. Sin embargo, este resultado es muy interesante, ya que permitió identificar las debilidades de un sistema como éste. Los desarrolladores concluyeron que para poder mejorar el desempeño en estos escenarios, el sistema necesita tener memoria, necesita recordar la secuencia de acciones que ha realizado y poder planificar varias futuras acciones, por lo que ya están trabajando en implementar esto en nuevas versiones.

Si bien esta demostración tecnológica está limitada por el momento al ámbito de videojuegos simples del ATARI 2600 (clásicos como Space Invaders, Breakout, Pong, etc.), las implicancias a futuro son grandes; no se trata de sacar puntajes altos en un videojuego, lo que se ha logrado es un sistema que puede aprender por si solo a realizar tareas complejas que requieren distintas acciones frente a distintos escenarios. Además de los avances teóricos que este y otros trabajos nos entregan, los avances en el área de la inteligencia artificial tienen varias aplicaciones prácticas, desde programas para análisis de grandes cantidades de datos, automóviles que no necesitan conductor, maquinarias más avanzadas para la industria y computadores que aprenden y se adaptan a su usuario, cosas que solían ser parte de la ficción pero que ya se encuentran próximas a ser parte de nuestra vida diaria.