El nuevo programa de Inteligencia Artificial (IA) de Microsoft VALL-E es capaz de imitar la voz de cualquier persona con tan solo escuchar tres segundos de audio y, además, puede usarse con otros modelos de IA generativa (entre ellos, ChatGPT, para que imite la voz de un individuo específico).
Según sus desarrolladores, el objetivo es poder crear discursos de voz a través de una introducción de texto.
La idea, de entrada, resulta fascinante, sin embargo, podría traer inconvenientes importantes: podría ser utilizada para suplantar la identidad sónica de las personas.
Por las dudas, Microsoft detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.
La explicación técnica de este nuevo programa detalla que es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec -el códec de audio de Meta-, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto.
De hecho, la propia Microsoft cuenta con un servicio similar: Text to Speech, que permite convertir texto en voz sintetizada.
La diferencia, sin embargo, es que VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases. Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía. Y puede lograr grandes resultados con solo tres segundos de voz.
“Consideramos TTS como una tarea de modelado de lenguaje condicional, en lugar de una regresión continua de señal como en trabajos anteriores”, detallan sus creadores.
El anuncio de VALL-E es solo un ejemplo más de lo que planea hacer Microsoft con la inteligencia artificial.
Caption IG
Programa de IA imita la voz humana tras solo escucharla tres segundos
El nuevo programa de Inteligencia Artificial (IA) de Microsoft VALL-E es capaz de imitar la voz de cualquier persona con tan solo escuchar tres segundos de audio y, además, puede usarse con otros modelos de IA generativa (entre ellos, ChatGPT para que imite la voz de un individuo específico).
La idea, de entrada, resulta fascinante, sin embargo, podría traer inconvenientes importantes: podría ser utilizada para suplantar la identidad sónica de las personas.