Robots para usar una nueva herramienta de IA para evaluar todas las posibilidades antes de tomar decisiones

 

Robots para usar una nueva herramienta de IA para evaluar todas las posibilidades antes de tomar decisiones
Brendan Englot, del Stevens Institute of Technology, aprovechará una nueva variante de las herramientas clásicas de inteligencia artificial para crear robots que puedan predecir y gestionar los riesgos involucrados en completar la tarea deseada. Crédito: Instituto de Tecnología Stevens.

Al igual que los humanos, cuando los robots tienen que tomar una decisión, a menudo hay muchas opciones y cientos de resultados potenciales. Los robots han podido simular un puñado de estos resultados para determinar qué curso de acción será más probable que conduzca al éxito. Pero, ¿qué pasaría si una de las otras opciones tuviera la misma probabilidad de éxito y más segura?

La Oficina de Investigación Naval ha otorgado a Brendan Englot, un ingeniero mecánico capacitado en MIT en el Instituto de Tecnología Stevens, un Premio al Joven Investigador 2020 de $ 508,693 para aprovechar una nueva variante de una herramienta clásica de inteligencia artificial para permitir a los robots predecir los muchos resultados posibles de sus acciones y la probabilidad de que ocurran. El marco permitirá a los robots determinar qué opción es la mejor manera de lograr un objetivo, al comprender qué opciones son las más seguras, las más eficientes y las menos propensas a fallar.

«Si la forma más rápida para que un robot complete una tarea es caminar al borde de un acantilado, eso es sacrificar la seguridad por la velocidad», dijo Englot, quien estará entre los primeros en usar la herramienta, el aprendizaje de refuerzo distributivo, para entrenar robots . «No queremos que el robot se caiga del borde de ese acantilado, por lo que les estamos dando las herramientas para predecir y gestionar los riesgos involucrados en completar la tarea deseada».

Durante años, el aprendizaje por refuerzo se ha utilizado para entrenar robots para navegar de forma autónoma en el agua, la tierra y el aire. Pero esa herramienta de IA tiene limitaciones, porque toma decisiones basadas en un único resultado esperado para cada acción disponible, cuando en realidad a menudo hay muchos otros resultados posibles que pueden ocurrir. Englot está utilizando el aprendizaje de refuerzo distributivo, un algoritmo de IA que un robot puede usar para evaluar todos los resultados posibles, predecir la probabilidad de que cada acción tenga éxito y elegir la opción más conveniente que tenga éxito mientras se mantiene seguro a un robot.

Antes de utilizar su algoritmo en un robot real, la primera misión de Englot es perfeccionar el algoritmo. Englot y su equipo crean una serie de situaciones de toma de decisiones para probar su algoritmo. Y a menudo recurren a uno de los campos de juego favoritos del campo: los juegos de Atari.

Por ejemplo, cuando juegas Pacman, eres el algoritmo que decide cómo se comporta Pacman. Su objetivo es obtener todos los puntos en el laberinto y, si puede, obtener algo de fruta. Pero hay fantasmas flotando que pueden matarte. Cada segundo, te ves obligado a tomar una decisión. ¿Vas derecho, izquierdo o derecho? ¿Qué camino te da más puntos, y puntos, mientras te mantiene alejado de los fantasmas?

El algoritmo de IA de Englot, que utiliza el aprendizaje de refuerzo distributivo, tomará el lugar de un jugador humano, simulando cada movimiento posible para navegar de manera segura por su paisaje.

Entonces, ¿cómo recompensas a un robot? Englot y su equipo asignarán puntos a diferentes resultados, es decir, si se cae de un acantilado, el robot obtiene -100 puntos. Si toma una opción más lenta pero más segura, puede recibir -1 punto por cada paso a lo largo del desvío. Pero si alcanza con éxito la meta, puede obtener +50.

«Uno de nuestros objetivos secundarios es ver cómo las señales de recompensa pueden diseñarse para impactar positivamente en la forma en que un robot toma decisiones y puede ser entrenado», dijo Englot. «Esperamos que las técnicas desarrolladas en este proyecto puedan ser utilizadas en última instancia para una IA aún más compleja, como el entrenamiento de robots submarinos para navegar de manera segura en medio de mareas, corrientes y otros factores ambientales complejos».

 


Proporcionado por
Stevens Institute of Technology

Citación:

 Los robots utilizarán una nueva herramienta de IA para evaluar todas las posibilidades antes de tomar decisiones (2020, 14 de abril)

Leave a Comment!