El nuevo sistema de inteligencia artificial de Microsoft es capaz de clonar la voz de cualquier persona con sólo escuchar un ejemplo de audio de 3 segundos.
De acuerdo al portal Tweak Town Un nuevo sistema de inteligencia artificial desarrollado por Microsoft será capaz de clonar la voz de cualquier persona con sólo escuchar un ejemplo de audio de tres segundos.
La nueva IA se llama VALL-E y, según un artículo publicado recientemente, se trata de un modelo lingüístico de códec neural que es un sintetizador de texto a voz. Según el informe, VALL-E es capaz de aprender una voz específica y luego sintetizarla para poder decir lo que se desee. Además, el informe afirma que VALL-E será capaz de producir una voz idéntica al ejemplo que se le dé, conservando al mismo tiempo el mismo o similar nivel de tono emocional que se escucha en el habla, algo que otros sintetizadores de IA tienen dificultades para lograr con éxito.
Puede leer también | La inteligencia artificial desarrollado por Microsoft puede clonar la voz de cualquier persona
Los creadores del sistema de IA creen que se utilizará para potenciar aplicaciones de texto a voz, edición de voz y creación de contenidos de audio cuando se combine con otros modelos de lenguaje generativo, como el popularísimo ChatGPT de Open AI. En concreto, los creadores creen que VALL-E se utilizaría para la edición de voz, que incluiría tomar un ejemplo de audio de tres segundos de la voz de un individuo y hacerle decir algo que no dijo. Escucha ejemplos de VALL-E aquí.
"Presentamos un método de modelado del lenguaje para la síntesis de texto a voz (TTS). Específicamente, entrenamos un modelo de lenguaje de códec neural (llamado VALL-E) usando códigos discretos derivados de un modelo de códec de audio neural off-the-shelf, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de regresión de señal continua como en trabajos anteriores.
Puede leer también | GPT el modelo de generación de contenidos basado en la Inteligencia Artificial
Durante la fase de preentrenamiento, ampliamos los datos de entrenamiento de TTS a 60.000 horas de habla inglesa, cientos de veces más que los sistemas existentes. VALL-E adquiere capacidades de aprendizaje en contexto y puede utilizarse para sintetizar habla personalizada de alta calidad con sólo una grabación de 3 segundos de un hablante desconocido como estímulo acústico.
Resultados de la Prueba
Los resultados de los experimentos demuestran que VALL-E supera con creces al sistema TTS de disparo cero más avanzado en cuanto a naturalidad del habla y similitud con el hablante. Además, descubrimos que VALL-E podía conservar la emoción del hablante y el entorno acústico de la indicación acústica en la síntesis", afirma el informe.
Créditos: Tweak Town