Robot mueve sus labios en sincronía con el audio de docenas de idiomas.

El movimiento labial es de enorme importancia en la comunicación humana, captando casi la mitad de nuestra atención visual durante una conversación. Sin embargo, los robots antropomórficos a menudo no logran sincronizar los labios con el audio, lo que resulta en comportamientos labiales torpes y sin vida. Dos barreras fundamentales subyacen a este desafío. En primer lugar, los labios robóticos suelen carecer de la complejidad mecánica necesaria para reproducir los sutiles movimientos de la boca humana; en segundo lugar, los métodos de sincronización existentes dependen de movimientos y reglas predefinidos manualmente, lo que limita la adaptabilidad y el realismo. Aquí presentamos un rostro robótico humanoide diseñado para superar estas limitaciones, con labios de silicona suave accionados por un mecanismo de 10 grados de libertad. Para lograr la sincronización labial sin movimientos predefinidos, utilizamos un proceso de aprendizaje autosupervisado basado en un autocodificador variacional (VAE) combinado con un transformador de acción facial, lo que permite al robot inferir de forma autónoma trayectorias labiales más realistas directamente del audio del habla. Nuestros resultados experimentales sugieren que este método supera a las heurísticas simples, como las líneas de base basadas en amplitud, para lograr una sincronización labial con audio visualmente más coherente. Además, la sincronización aprendida se generaliza con éxito en múltiples contextos lingüísticos, lo que permite la articulación del habla del robot en 10 idiomas que no se habían visto durante el entrenamiento.

ansa agencia noticias
agencia noticias italiana

Es capaz de mover sus labios de una forma mucho más parecida a la de los humanos y de sincronizarlos con el audio de decenas de idiomas diferentes , desde el inglés al chino: es el robot humanoide capaz de una comunicación más realista, que podría encontrar aplicaciones en los campos de la educación y el cuidado de las personas mayores .

Descrito en la revista Science Robotics, que dedica la portada al resultado, el robot fue desarrollado en la Universidad de Columbia por un grupo dirigido por Yuhang Hu.

Los robots humanoides suelen parecer muy poco naturales durante las conversaciones porque carecen de la flexibilidad para realizar movimientos complejos y de la tecnología para sincronizar los movimientos labiales en tiempo real con el habla. «Este trabajo», señalan los autores del estudio, «marca un intento de crear robots que no solo funcionen, sino que también sean capaces de conectar con nosotros a nivel humano».

Para lograr este objetivo, los investigadores diseñaron un rostro robótico de apariencia humana , hecho de de silicona , piel suave que permite que la boca articule 24 consonantes y 16 vocales . También diseñaron un sistema de aprendizaje que recopila datos visuales del robot al mover los labios y, con base en estos datos, entrena un modelo y genera comandos motores para sincronizar los movimientos de la boca con las palabras.

Los autores del estudio demostraron que su método superó a otros cinco enfoques en términos de realismo , logrando la mínima discrepancia entre los movimientos labiales del robot y los ideales mostrados en los videos. Además, el robot logró dominar idiomas que no había aprendido durante el entrenamiento, como el francés y el árabe.