Aprendizaje de refuerzo profundo: enseñanza de robots como niños

 

Aprendizaje de refuerzo profundo: enseñanza de robots como niños
Robot en un marco en el laboratorio del profesor Sergey Levine de EECS. Crédito: Adam Lau

Cuando los niños juegan con juguetes, aprenden sobre el mundo que los rodea, y los robots de hoy no son tan diferentes. En el Robot Learning Lab de UC Berkeley, grupos de robots están trabajando para dominar el mismo tipo de tareas que hacen los niños: colocar bloques de madera en la ranura correcta de un cubo de clasificación de formas, conectar un ladrillo de Lego de plástico a otro, unir piezas sueltas a un Avión de juguete.

Sin embargo, la verdadera innovación aquí no es lo que estos robots están logrando, sino cómo lo están haciendo, dice Pieter Abbeel, profesor de ingeniería eléctrica y ciencias de la computación y director del Robot Learning Lab.

Inspirándose en la forma en que los niños aprenden instintivamente y se adaptan a una amplia gama de entornos impredecibles, Abbeel y el profesor asistente Sergey Levine están desarrollando algoritmos que permiten a los robots aprender de experiencias pasadas, e incluso de otros robots. Basado en un principio llamado aprendizaje de refuerzo profundo, su trabajo está llevando a los robots a superar un umbral crucial para demostrar una inteligencia similar a la humana, con la capacidad de resolver problemas de manera independiente y dominar nuevas tareas de una manera más rápida y eficiente.

«Si ve que un robot hace algo a través del aprendizaje por refuerzo, significa que realmente sabe cómo adquirir una nueva habilidad a partir de su propio ensayo y error», dice Abbeel. «Ese es un logro mucho más importante que la tarea específica que completó».

Y aunque los robots más avanzados de la actualidad todavía no pueden igualar la potencia cerebral de un niño pequeño, estos investigadores están preparados para equipar a los robots con capacidades de inteligencia artificial (IA) de vanguardia, lo que les permite generalizar entre tareas, improvisar con objetos y manejar desafíos inesperados en el mundo que los rodea.

Tomar «buenas» decisiones

En los últimos 80 años, las innovaciones aparentemente no relacionadas en matemáticas, teoría económica e inteligencia artificial han convergido para empujar a los robots tentadoramente cerca de algo que se acerca a la inteligencia humana.

En 1947, el matemático John von Neumann y el economista Oskar Morgenstern desarrollaron un teorema que formó la base de algo llamado teoría de la utilidad esperada. En pocas palabras, la teoría sostiene que cuando se le da un conjunto de opciones al azar, una persona elegirá la opción que produce un resultado con el máximo nivel de satisfacción individual. Además, podemos representar ese resultado deseado, la «recompensa», con un valor numérico.


«Ese número representa lo que quieren», dice Abbeel. «Entonces, el teorema muestra que tener una recompensa es completamente universal. Lo único que necesitas es un número».

Luego, los investigadores aplicaron esta teoría a las computadoras dándoles incentivos numéricos para aprender a jugar juegos de mesa.

Toma ajedrez. Si el objetivo de la computadora es jaquear a su oponente lo más rápido posible, a ese resultado se le asigna el número más alto en el juego. La computadora explora qué movimientos hacer para lograr el jaque mate: un movimiento «bueno» le gana a la computadora un número alto, mientras que un movimiento «malo» produce un número bajo.

Aprendizaje de refuerzo profundo: enseñanza de robots como niños
Abbeel trabajando con BRETT, un robot de aprendizaje profundo. Crédito: Adam Lau

Dado que las elecciones que representan números más altos significan que la computadora alcanzará su objetivo más rápidamente, la computadora se vuelve competente en el ajedrez al aprender sistemáticamente, a través de prueba y error, a tomar decisiones «buenas» mientras evita las «malas».

Utilizando esta técnica de aprendizaje por refuerzo, los investigadores crearon computadoras que podrían derrotar a los campeones humanos en damas, ajedrez e incluso videojuegos de Atari. En 2017, AlphaGo, un programa de IA inventado por Google, venció al mejor jugador del mundo en Go, un juego de estrategia abstracta mucho más complicado que el ajedrez y las damas, rompiendo un nuevo umbral en la IA.

Redes neuronales

Enseñar a una computadora a ganar un videojuego es una cosa. Enseñar a un robot a realizar una acción física es mucho más difícil.

Por un lado, el código de software existe en el mundo virtual, lo que significa que los programas de IA disfrutan de un espacio ilimitado para explorar y aprender. Los robots, sin embargo, son objetos físicos que operan en el espacio físico. Entrenar a un robot para que agarre y manipule objetos o navegue por los espacios sin chocar con un archivador requiere un trabajo de programación minucioso y tedioso.

Los investigadores deben alimentar al robot con una vasta base de datos de imágenes y entrenarlo para que reconozca patrones para que pueda distinguir imágenes de sillas de imágenes de gatos. De esa manera, cuando un robot entra en una habitación, sus sensores u «ojos» pueden detectar un objeto que bloquea su camino. El robot compara los datos visuales con imágenes similares en su base de datos antes de poder concluir con éxito que el objeto es una silla.

«Tal prueba y error lleva mucho tiempo», dice Levine.

Pero el uso de redes neuronales artificiales ha permitido a los robots procesar y analizar información a velocidades mucho más rápidas. Estas redes consisten en unidades conectadas o nodos que se asemejan a las neuronas en los cerebros humanos. Cada nodo puede indicar a otros nodos que se conecten a él, lo que permite a los robots establecer relaciones entre diferentes tipos de datos.

Utilizando este enfoque, los investigadores de Berkeley han podido hacer cosas como enseñar a los robots cómo correr, tanto en simulaciones por computadora como en la vida real. El robot aprende las conexiones neuronales óptimas que debe hacer para aplicar la cantidad correcta de fuerza a los motores en sus brazos, caderas y piernas.

«A través de diferentes ejecuciones, el robot prueba diferentes fuerzas de conexión entre las neuronas», dice Abbeel. «Y si un patrón de conexión es mejor que los otros, el robot podría retenerlo y hacer una variación en esa conexión, y luego repetir, repetir, repetir».

Los robots entienden que ciertas conexiones neuronales les otorgan recompensas, por lo que continúan por ese camino hasta lograr el objetivo, que es correr a través de una habitación sin caerse o desviarse en la dirección incorrecta. Los algoritmos que los investigadores de Berkeley produjeron finalmente permitieron a los robots no solo recordar lo que aprendieron de la prueba y el error, sino también construir sobre sus experiencias.

Aprendizaje de refuerzo profundo: enseñanza de robots como niños
Blue, un robot de bajo costo y amigable para los humanos diseñado por el profesor de EECS Pieter Abbeel. Crédito: Adam Lau

«La fuerza de las conexiones entre las neuronas, y qué neuronas están conectadas, es esencialmente cómo internalizamos la experiencia», dice Abbeel. «Se necesitan algoritmos que analicen esas experiencias y reconecten esas conexiones en la red para que el robot funcione mejor».

Eventualmente, dice Levine, los investigadores podrían crear lo que él llama «sistemas robóticos de por vida», en los que los robots se mejoran a sí mismos al analizar continuamente sus triunfos y errores individuales anteriores y los de otros robots.

«Cuando se enfrentan a tareas complejas, los robots convertirán sus observaciones en acciones», dice. «Les proporcionamos el ingrediente necesario para que puedan hacer esas conexiones».

Robots multitarea

La mayoría de los robots de hoy todavía requieren que los humanos establezcan una recompensa. Pero, ¿qué pasaría si los robots pudieran establecer sus propios objetivos, sin supervisión, de forma similar a la forma en que los niños exploran su entorno?

Los avances en el aprendizaje de refuerzo profundo no supervisado podrían conducir a ganancias aún no realizadas en entornos supervisados. A diferencia de otras áreas de aprendizaje profundo, los investigadores de robótica carecen de los grandes conjuntos de datos necesarios para entrenar a los robots en un amplio conjunto de habilidades. Pero la exploración autónoma podría ayudar a los robots a aprender una variedad de tareas mucho más rápidamente.

El trabajo que salió de Berkeley ha demostrado cómo se vería esto en los sistemas robóticos desarrollados por Abbeel, Levine y Chelsea Finn (Ph.D. EECS), ahora profesor asistente en la Universidad de Stanford, así como por estudiantes investigadores. Los robots, basándose en sus propios datos y demostraciones humanas, pueden experimentar de forma independiente con objetos. Algunas de las habilidades dominadas incluyen verter artículos de una taza a otra, enroscar una tapa en una botella y usar una espátula para levantar un objeto en un tazón.

Los robots incluso se enseñaron a sí mismos a usar un objeto cotidiano, como una botella de agua, como una herramienta para mover otros elementos a través de una superficie, demostrando que pueden improvisar. Investigaciones posteriores de Finn y Levine, en colaboración con investigadores de la Universidad de Pensilvania, mostraron que los robots podían aprender a usar herramientas viendo videos de humanos usando herramientas con las manos.

«Lo importante no son las habilidades básicas que estos robots pueden hacer», dice Finn, «sino la generalidad de estas habilidades y cómo se pueden aplicar a muchas tareas diferentes».

Uno de los principales desafíos que enfrentan los investigadores es cómo automatizar completamente el aprendizaje de refuerzo profundo auto supervisado. Los robots pueden estar aprendiendo como un niño pequeño, pero no tienen habilidades motoras comparables.

«En la práctica, es muy difícil establecer un sistema de aprendizaje robótico que pueda aprender continuamente, en entornos del mundo real, sin un gran esfuerzo manual», dice Levine. «Esto no es solo porque los algoritmos subyacentes deben mejorarse, sino porque gran parte del andamiaje y la maquinaria en torno al aprendizaje robótico es manual».

Aprendizaje de refuerzo profundo: enseñanza de robots como niños
BRETT, el robot Berkeley para la eliminación de tareas tediosas. Crédito: Adam Lau

Por ejemplo, dice, si un robot está aprendiendo a ajustar un objeto en su mano y lo deja caer, o si un robot está aprendiendo a caminar y luego se cae, un humano necesita intervenir y arreglarlo. Pero en el mundo real, los humanos están aprendiendo constantemente por sí mismos, y cada error se convierte en una oportunidad de aprendizaje.

«Potencialmente, una vista de aprendizaje de tareas múltiples podría abordar este problema, donde podríamos imaginar que el robot utiliza cada error como una oportunidad para crear instancias y aprender una nueva habilidad. Si el robot de entrega de café deja caer el café, debería aprovechar esa oportunidad practicar la limpieza del café derramado «, dice Levine.

«Si esto tiene éxito, lo que veremos en los próximos años es un aprendizaje cada vez más autónomo, de modo que los robots que realmente se encuentran en entornos del mundo real aprendan continuamente en el trabajo».

Entrando en el mundo real

Algunos de estos avances en el aprendizaje de refuerzo profundo para la robótica ya están saliendo del laboratorio hacia el lugar de trabajo.

Obeta, un fabricante alemán de componentes electrónicos, está utilizando la tecnología desarrollada por Covariant.AI, una compañía cofundada por Abbeel, para que los robots clasifiquen contenedores de miles de dispositivos y componentes aleatorios que pasan a través de la cinta transportadora en su almacén. Según Covariant, el robot puede seleccionar y clasificar más de 10,000 elementos diferentes que nunca antes había visto con más del 99% de precisión. No es necesario clasificar previamente los elementos, lo que hace que esta tecnología cambie las reglas del juego para la fabricación.

«Creo que es probable que veamos robots que impregnan gradualmente más y más entornos del mundo real, pero que comienzan en el ‘back end’ del sector comercial y se irradian gradualmente desde allí hacia entornos cada vez menos estructurados», dice Levine.

Podríamos ver robots en transición de entornos industriales como fábricas y almacenes a entornos al aire libre o tiendas minoristas. Imagine robots desyerbando, adelgazando y rociando cultivos en granjas; almacenamiento en estanterías de supermercados; y haciendo entregas en hoteles y hospitales. Eventualmente, los robots podrían desplegarse en roles más externos, como el trabajo de limpieza en grandes empresas comerciales.

Levine dice que el robot doméstico totalmente orientado al consumidor está a cierta distancia, ya que los robots primero deben dominar dominios más complejos con variabilidad. Esto también requerirá un cuadro de expertos humanos, en el campo, antes de que pueda realizarse completamente.

Cualquiera que sea el dominio, estos investigadores pretenden utilizar robots para trabajar en colaboración con las personas y mejorar la productividad, en lugar de desplazar a las personas de los trabajos. Los factores científicos, políticos y económicos que lo acompañan merecen una seria consideración y son parte integral del trabajo que realizan.

«Cada tecnología tiene potencial tanto para resultados positivos como negativos, y como investigadores es fundamental para nosotros ser conscientes de esto», dice Levine. «En última instancia, creo que los robots cada vez más capaces tienen un tremendo potencial para mejorar la vida de las personas, y esa posibilidad hace que el trabajo valga la pena».

 


Proporcionado por
Universidad de California, Berkeley

Aprendizaje de refuerzo profundo: enseñanza de robots como niños (2020, 23 de abril)

Leave a Comment!