General

La nueva inteligencia artificial de voz de Google es hiperrealista


La inteligencia artificial ya no forma parte de las mentes imaginativas de la ciencia ficción. Si estaba preocupado por algunos de los últimos desarrollos de IA en 2017, 2018 no se ve mejor. Uno de los desarrollos más espeluznantes tiene que ser el último progreso con la inteligencia artificial generadora de voz de Google.

Ahora bien, si ha utilizado alguno de los productos de Google o incluso simplemente ha utilizado el servicio de traducción de Google, está familiarizado con la voz de inteligencia artificial de Google. Disponible en voz masculina o femenina, la voz robótica es un elemento básico en nuestra cultura al igual que Siri de Apple o Cortana de Microsoft.

Con el paso de los años, la voz de Google ha comenzado a sonar menos robótica y más humana. En este punto, la nueva IA de voz de Google Tacotron 2 es casi indistinguible de los humanos.

IA generada por voz de Google

En un artículo de investigación publicado recientemente por la gente de Google, el equipo presenta detalles del impresionante sistema de voz llamado Tacotron 2. En el artículo, Google destaca la capacidad del sistema para hablar casi de manera idéntica a sus creadores humanos. El equipo describe el sistema de voz de segunda generación en el informe y dice: " losTacotron 2, una arquitectura de red neuronal para la síntesis de voz directamente desde el texto. El sistema está compuesto por una red recurrente de predicción de características secuencia a secuencia que mapea las incrustaciones de caracteres a mel-espectrogramas de escala, seguidos de un modelo WaveNet modificado que actúa como un codificador de voz para sintetizar formas de onda de dominio de tiempo a partir de esos espectrogramas."

Como se indica en el informe, la tecnología se compone de dos redes neuronales profundas. La primera red traduce el texto en un espectrograma, luego los envía al Mente profunda-sistema creado, WaveNet. ¿Qué obtiene cuando implementa estos sistemas? Una voz que suena como sus homólogos humanos. Escuche la grabación de voz que se presenta a continuación. Una de las grabaciones es Tacotron 2, mientras que la otra es una actriz pagada. ¿Puede usted decir la diferencia?

En estas grabaciones, la voz dice "Esa chica hizo un video sobre el lápiz labial de Star Wars".

O que tal este"Obtuvo un doctorado en sociología en la Universidad de Columbia".

Si escuchas el poder del Tacotron 2, escúchalo y prueba estos trabalenguas.

“Peter Piper cogió un poco de pimientos en escabeche. ¿Cuántos pimientos en escabeche recogió Peter Piper?

Vende conchas marinas en la orilla del mar. Las conchas que vende son conchas de mar, estoy seguro ".

La IA también hace un trabajo fantástico al analizar el contexto y comprender dónde se supone que reside el estrés. Escuche la inflexión perfecta que usa en la declaración."Pensó que era hora de presentar el presente".

También puede diferenciar entre homónimos, como poder diferenciar entre el tiempo pasado leer y el infinitivo leer.¡Incluso algunos hablantes nativos de inglés (humanos) pueden tener problemas con ellos mientras leen en voz alta!

Aunque el sistema ocasionalmente tiene problemas con la pronunciación de las palabras de varias sílabas, Tacotron 2 ofrece una acústica vocal impresionante. Una vez que el sistema esté listo para la producción, el Tacotron 2 seguramente será una voz poderosa en todo el ecosistema de Google.


Ver el vídeo: Google presentó un asistene que hace llamadas como un humano (Noviembre 2021).