Las funciones de reconocimiento de imagen y voz pretenden hacer más intuitiva la interfaz del robot de inteligencia artificial.
El lunes, OpenAI anunció una importante actualización de ChatGPT que permite a sus modelos de IA GPT-3.5 y GPT-4 analizar imágenes y reaccionar ante ellas como parte de una conversación de texto. Además, la aplicación móvil ChatGPT añadirá opciones de síntesis de voz que, cuando se combinen con sus funciones de reconocimiento de voz existentes, permitirán conversaciones totalmente verbales con el asistente de IA, afirma OpenAI.
Puede leer también | Sam Altman: Visionario Tecnológico y Creador de ChatGPT
OpenAI tiene previsto desplegar estas funciones en ChatGPT a los abonados Plus y Enterprise "en las próximas dos semanas". También señala que la síntesis de voz llegará solo a iOS y Android, y el reconocimiento de imágenes estará disponible tanto en la interfaz web como en las aplicaciones móviles.
OpenAI afirma que la nueva función de reconocimiento de imágenes de ChatGPT permite a los usuarios cargar una o varias imágenes para conversar, utilizando los modelos GPT-3.5 o GPT-4. En la entrada promocional de su blog, la empresa afirma que la función puede utilizarse para una gran variedad de aplicaciones cotidianas: desde averiguar qué hay para cenar haciendo fotos de la nevera y la despensa, hasta solucionar el problema de por qué no arranca la parrilla. También afirma que los usuarios pueden utilizar la pantalla táctil del dispositivo para rodear las partes de la imagen en las que desean que se concentre ChatGPT.
Puede leer también | Bard y ChatGPT morirán si no les ayudas
En su sitio web, OpenAI ofrece un vídeo promocional que ilustra un hipotético intercambio con ChatGPT en el que un usuario pregunta cómo levantar el sillín de una bicicleta, facilitando fotos, así como un manual de instrucciones y una imagen de la caja de herramientas del usuario. ChatGPT reacciona y aconseja al usuario cómo completar el proceso. No hemos probado esta función nosotros mismos, así que se desconoce su eficacia en el mundo real.
¿Cómo funciona? OpenAI no ha dado a conocer detalles técnicos sobre el funcionamiento de GPT-4 o su funcionalidad multimodal, pero según las investigaciones sobre IA realizadas por otros (como Microsoft, socio de OpenAI), los modelos de IA multimodal suelen transformar texto e imágenes en un espacio de codificación compartido, lo que les permite procesar varios tipos de datos a través de la misma red neuronal. OpenAI puede utilizar CLIP para tender un puente entre los datos visuales y los textuales de forma que alinee las representaciones de imagen y texto en el mismo espacio latente, una especie de red vectorizada de relaciones de datos. Esta técnica podría permitir a ChatGPT hacer deducciones contextuales entre texto e imágenes, aunque se trata de una especulación por nuestra parte.
Puede leer también | El propietario de ChatGPT, investigado por los riesgos de las respuestas falsas
Mientras tanto, en el terreno del audio, la nueva función de síntesis de voz de ChatGPT permite mantener conversaciones habladas de ida y vuelta con ChatGPT, gracias a lo que OpenAI denomina un "nuevo modelo de texto a voz", aunque la función de texto a voz lleva mucho tiempo resuelta. Una vez que se despliegue la función, los usuarios podrán activarla optando por las conversaciones de voz en los ajustes de la aplicación y, a continuación, seleccionando entre cinco voces sintéticas diferentes con nombres como "Juniper", "Sky", "Cove", "Ember" y "Breeze". OpenAI afirma que estas voces han sido creadas en colaboración con actores de doblaje profesionales.
Puede leer también | Del test de Turing al ChatGPT: breve historia de la IA
Whisper de OpenAI, un sistema de reconocimiento de voz de código abierto del que hablamos en septiembre del año pasado, seguirá encargándose de la transcripción de la voz de los usuarios. Whisper está integrado en la aplicación ChatGPT para iOS desde su lanzamiento en mayo. OpenAI lanzó la aplicación ChatGPT para Android en julio.