General

Este software de inteligencia artificial puede generar videos falsos aterradoramente realistas a partir de clips de audio


Investigadores de la Universidad de Washington han desarrollado una nueva tecnología de aprendizaje profundo que les permitió crear videos altamente realistas superponiendo clips de audio con referencias de video auténticas. Pudieron sincronizar clips de audio del expresidente estadounidense Barrack Obama con cuatro escenarios de video diferentes en los que apareció.

Sincronización de labios con contenido de video 'salvaje' para crear videos sintéticos pero realistas

Los intentos anteriores de sincronizar muestras de audio con clips de video se consideran fácilmente falsos y, la mayoría de las veces, espeluznantes o desagradables de ver. Sin embargo, el nuevo algoritmo desarrollado por la Universidad de Washington pudo sincronizar sin problemas clips de audio y video, lo que superó un problema común en la creación de videos realistas conocido como el valle inquietante. Supasorn Suwajanakorn, el autor principal del artículo publicado, señaló la complejidad del proceso de sincronización de labios en una secuencia de video.

"Las personas son particularmente sensibles a las áreas de la boca que no parecen realistas. Si no rinde bien los dientes o la barbilla se mueve en el momento equivocado, las personas pueden detectarlo de inmediato y se verá falso. tengo que hacer la región de la boca perfectamente para ir más allá del valle inquietante ".

[Fuente de imagen: Universidad de Washington]

Suwajanakorn y su equipo de investigadores utilizaron una técnica de dos pasos para crear sus videos altamente realistas. Primero, tuvieron que entrenar una red neuronal para procesar videos de una persona específica y corresponder varios sonidos de audio en formas básicas de boca. Luego utilizaron una tecnología de una investigación anterior del Laboratorio de Gráficos e Imágenes de la UW para superponer y combinar las formas de boca determinadas sobre los videos de referencia existentes. Uno de los otros trucos que aprendieron fue permitir un pequeño cambio de tiempo para permitir que la red neuronal prediga lo que el sujeto está a punto de decir. Esencialmente, Suwajanakorn logró desarrollar algoritmos que tienen la capacidad de aprender de los videos que se encuentran en Internet o, como dicen los investigadores, que se encuentran "en la naturaleza".

"Hay millones de horas de video que ya existen de entrevistas, videochats, películas, programas de televisión y otras fuentes. Y estos algoritmos de aprendizaje profundo están muy hambrientos de datos, por lo que es una buena combinación hacerlo de esta manera", dijo el líder autor.

Uso potencial de la tecnología de aprendizaje profundo

Uno de los investigadores del equipo ha pensado en una aplicación de ciencia ficción para la tecnología. Ira Kemelmacher-Shlizerman, profesor asistente de la Facultad de Ingeniería y Ciencias de la Computación de la Universidad, dijo que el nuevo algoritmo se puede usar para eventos cotidianos, así como en entornos futuristas.

"La conversión realista de audio a video tiene aplicaciones prácticas, como mejorar las videoconferencias para reuniones, así como otras futuristas, como poder mantener una conversación con una figura histórica en la realidad virtual mediante la creación de imágenes solo a partir de audio. Este es el tipo de avance que ayudará a habilitar esos próximos pasos ".

La tecnología de aprendizaje profundo también podría usarse para abordar un problema común de comunicación virtual en el que la transmisión de videos en vivo a menudo se retrasa y es frustrante de soportar. Mientras que la conexión de audio normalmente se transmite en tiempo real sin retrasos.

"Cuando miras Skype o Google Hangouts, a menudo la conexión es entrecortada, de baja resolución y realmente desagradable, pero a menudo el audio es bastante bueno", dijo Steve Seitz, coautor del artículo. "Entonces, si pudieras usar el audio para producir videos de mayor calidad, sería fantástico", agregó.

La tecnología del equipo también podría desarrollarse y mejorarse para equiparlo con algoritmos que sean capaces de detectar si un video es auténtico o fabricado. También buscan avanzar en su tecnología para que pueda estudiar y procesar la voz y el habla de una persona utilizando menos datos. Al hacerlo, reducirá el tiempo de proceso a solo una hora en lugar de alrededor de 14 horas.

Se presentará un artículo sobre la investigación del equipo en la conferencia SIGGRAPH 2017 en Los Ángeles el 2 de agosto de 2017.

Fuente de imagen destacada: Supasorn Suwajanakorn / YouTube

VíaUniversidad de Washington

VEA TAMBIÉN: Esta nueva tecnología permite editar audio como texto


Ver el vídeo: Las máquinas pueden pensar? Inteligencia Artificial - CuriosaMente 125 (Noviembre 2021).