Un avance abre nuevas vías para restablecer el habla en personas con dificultades para comunicarse a causa de un ictus o una enfermedad neuronal motora.
Se ha desarrollado un descodificador basado en inteligencia artificial capaz de traducir la actividad cerebral en un flujo continuo de texto, en un avance que permite por primera vez leer de forma no invasiva los pensamientos de una persona.
El descodificador pudo reconstruir el habla con una precisión asombrosa mientras las personas escuchaban una historia -o incluso la imaginaban en silencio- utilizando únicamente datos de resonancia magnética funcional. Los anteriores sistemas de descodificación del lenguaje requerían implantes quirúrgicos, y este último avance abre la perspectiva de nuevas formas de restablecer el habla en pacientes con dificultades para comunicarse a causa de un ictus o una enfermedad neuronal motora.
Puede leer también | Google añadirá una función de chat con inteligencia artificial al motor de búsqueda, según su consejero delegado
El Dr. Alexander Huth, neurocientífico que dirigió el trabajo en la Universidad de Texas en Austin, declaró: "Nos sorprendió que funcionara tan bien. Llevo 15 años trabajando en esto... así que fue chocante y emocionante cuando por fin funcionó".
El logro supera una limitación fundamental de la IRMf, y es que, aunque la técnica puede cartografiar la actividad cerebral en un lugar concreto con una resolución increíblemente alta, existe un desfase temporal inherente que hace imposible el seguimiento de la actividad en tiempo real.
Este desfase se debe a que los escáneres de IRMf miden la respuesta del flujo sanguíneo a la actividad cerebral, que alcanza su punto máximo y vuelve a la línea de base en unos 10 segundos, lo que significa que ni siquiera el escáner más potente puede mejorarlo. "Es una representación ruidosa y lenta de la actividad neuronal", explica Huth.
Puede leer también | Inteligencia Artificial: La UNESCO pide a todos los gobiernos que apliquen sin demora el Marco Ético Mundial
Este duro límite ha obstaculizado la capacidad de interpretar la actividad cerebral en respuesta al habla natural, ya que ofrece un "batiburrillo de información" repartida en unos pocos segundos.
Sin embargo, la llegada de los grandes modelos lingüísticos -el tipo de IA que sustenta el ChatGPT de OpenAI- proporcionó una nueva vía de acceso. Estos modelos son capaces de representar, en números, el significado semántico del habla, lo que permitió a los científicos observar qué patrones de actividad neuronal correspondían a cadenas de palabras con un significado concreto, en lugar de intentar leer la actividad palabra por palabra.
El proceso de aprendizaje fue intensivo: tres voluntarios tuvieron que permanecer tumbados en un escáner durante 16 horas cada uno, escuchando podcasts. El descodificador se entrenó para relacionar la actividad cerebral con el significado utilizando un gran modelo lingüístico, el GPT-1, precursor del ChatGPT.
Puede leer también | Un chatbot de inteligencia artificial de Microsoft amenaza con revelar información personal y arruinar la reputación de un usuario
Posteriormente, se escaneó a los mismos participantes escuchando una nueva historia o imaginando que contaban una historia y se utilizó el descodificador para generar texto a partir únicamente de la actividad cerebral. Aproximadamente la mitad de las veces, el texto coincidía exactamente, y a veces con precisión, con el significado de las palabras originales.
"Nuestro sistema funciona a nivel de ideas, de semántica, de significado", explica Huth. "Por eso lo que obtenemos no son las palabras exactas, sino lo esencial".
Puede leer también | ¿Qué tipo de inteligencia es la inteligencia artificial?
Por ejemplo, cuando a un participante se le reprodujeron las palabras "Todavía no tengo el carné de conducir", el descodificador las tradujo como "Todavía no ha empezado a aprender a conducir". En otro caso, las palabras "No sabía si gritar, llorar o salir corriendo. En lugar de eso, dije: '¡Déjame en paz!'" se descodificaron como "Empecé a gritar y a llorar, y entonces ella sólo dijo: 'Te dije que me dejaras en paz'".
También se pidió a los participantes que vieran cuatro vídeos cortos y silenciosos mientras estaban en el escáner, y el descodificador pudo utilizar su actividad cerebral para describir con precisión parte del contenido, según el artículo publicado en Nature Neuroscience.
"Para un método no invasivo, se trata de un verdadero salto adelante en comparación con lo que se ha hecho hasta ahora, que suele consistir en palabras sueltas o frases cortas", afirma Huth.
Puede leer también | La inteligencia artificial desarrollado por Microsoft puede clonar la voz de cualquier persona
A veces, el descodificador se equivocaba y tenía problemas con ciertos aspectos del lenguaje, como los pronombres. "No sabe si es en primera o tercera persona, masculino o femenino", explica Huth. "No sabemos por qué lo hace tan mal".
El descodificador era personalizado y, cuando se probó el modelo en otra persona, la lectura resultó ininteligible. También era posible que los participantes en los que se había entrenado el descodificador frustraran el sistema, por ejemplo, pensando en animales o imaginando tranquilamente otra historia.
Jerry Tang, estudiante de doctorado de la Universidad de Texas en Austin y coautor del estudio, afirma: "Nos tomamos muy en serio la preocupación de que pueda utilizarse con malos fines y hemos trabajado para evitarlo. Queremos asegurarnos de que la gente sólo utiliza este tipo de tecnologías cuando quiere y le ayuda".
El profesor Tim Behrens, neurocientífico computacional de la Universidad de Oxford que no participó en el trabajo, lo calificó de "técnicamente impresionante" y dijo que abría un sinfín de posibilidades experimentales, como leer los pensamientos de alguien que sueña o investigar cómo surgen nuevas ideas a partir de la actividad cerebral de fondo. "Estos modelos generativos permiten ver lo que hay en el cerebro a un nuevo nivel", afirma. "Significa que realmente se puede leer algo profundo a partir de la fMRI".
Puede leer también | Predicciones sobre Inteligencia Artificial y las tecnologías para 2023
El profesor Shinji Nishimoto, de la Universidad de Osaka, pionero en la reconstrucción de imágenes visuales a partir de la actividad cerebral, describió el trabajo como un "avance significativo". "El trabajo demuestra que el cerebro representa la información lingüística continua durante la percepción y la imaginación de forma compatible", afirma. "Se trata de un hallazgo no trivial y puede servir de base para el desarrollo de interfaces cerebro-ordenador".
El equipo espera ahora evaluar si la técnica podría aplicarse a otros sistemas de imagen cerebral más portátiles, como la espectroscopia funcional del infrarrojo cercano (fNIRS).