Comenzando en serio con el GPT-3 de OpenAI, el enfoque en el campo del procesamiento del lenguaje natural se ha centrado en los grandes modelos de lenguaje (LLM).
Los LLM, denotados por la cantidad de datos, computación y almacenamiento que se requieren para desarrollarlos, son capaces de realizar hazañas impresionantes de comprensión del lenguaje, como generar código y escribir poesía en rima. Pero como señala un número cada vez mayor de estudios, los LLM son impracticablemente grandes para que la mayoría de los investigadores y organizaciones los aprovechen. No solo eso, sino que consumen una cantidad de energía que pone en duda si su uso es sostenible a largo plazo.
Sin embargo, una nueva investigación sugiere que este no tiene por qué ser así para siempre. En un artículo reciente, Google presentó el Modelo de lenguaje generalista (GLaM), que la compañía afirma es uno de los LLM más eficientes de su tamaño y tipo. A pesar de contener 1.2 billones de parámetros, casi seis veces la cantidad en GPT-3 (175 mil millones), Google dice que GLaM mejora en los puntos de referencia de idiomas populares mientras usa "significativamente" menos cálculos durante la inferencia.
"Nuestro ... modelo de lenguaje a gran escala, GLaM, logra resultados competitivos en el aprendizaje de cero y de una sola vez y es un modelo más eficiente que sus homólogos densos monolíticos anteriores", escribieron los investigadores de Google detrás de GLaM en una publicación de blog. "Esperamos que nuestro trabajo dé lugar a más investigaciones sobre modelos de lenguaje eficientes desde el punto de vista informático".
Esparcimiento frente a densidad
En el aprendizaje automático, los parámetros son la parte del modelo que se aprende a partir de los datos de entrenamiento históricos. En términos generales, en el dominio del lenguaje, la correlación entre el número de parámetros y la sofisticación se ha mantenido notablemente bien. El modelo Gopher recientemente detallado de DeepMind tiene 280 mil millones de parámetros, mientras que el Megatron 530B de Microsoft y Nvidia cuenta con 530 mil millones. Ambos se encuentran entre los mejores, si no los mejores, en tareas clave de evaluación comparativa del lenguaje natural, incluida la generación de texto.
Pero entrenar un modelo como Megatron 530B requiere cientos de servidores equipados con GPU o aceleradores y millones de dólares. También es malo para el medio ambiente. Solo GPT-3 usó 1.287 megavatios durante el entrenamiento y produjo 552 toneladas métricas de emisiones de dióxido de carbono, encontró un estudio de Google . Eso es aproximadamente equivalente a las emisiones anuales de 58 hogares en los EE. UU.
Lo que diferencia a GLaM de la mayoría de los LLM hasta la fecha es su arquitectura de “mezcla de expertos” (MoE). Se puede pensar que un MoE tiene diferentes capas de "submodelos" o expertos, especializados para diferentes textos. Los expertos de cada capa están controlados por un componente de "puerta" que utiliza a los expertos en función del texto. Para una palabra dada o parte de una palabra, el componente de activación selecciona a los dos expertos más apropiados para procesar la palabra o parte de la palabra y hacer una predicción (por ejemplo, generar texto).
La versión completa de GLaM tiene 64 expertos por capa MoE con 32 capas MoE en total, pero solo usa una subred de 97 mil millones (8% de 1.2 billones) de parámetros por palabra o parte de palabra durante el procesamiento. Los modelos "densos" como Escuche a los CIO, CTO y otros ejecutivos senior y de nivel C sobre datos y estrategias de inteligencia artificial en la Cumbre sobre el futuro del trabajo este 12 de enero de 2022
GPT-3 utilizan todos sus parámetros para el procesamiento, lo que aumenta significativamente los requisitos computacionales y financieros. Por ejemplo, Nvidia dice que el procesamiento con Megatron 530B puede llevar más de un minuto en un servidor local basado en CPU. Toma medio segundo en dos sistemas DGX diseñados por Nvidia, pero solo uno de esos sistemas puede costar entre $ 7 millones y $ 60 millones.
GLaM no es perfecto: supera o está a la par del rendimiento de un LLM denso entre el 80% y el 90% (pero no todas) de las tareas. Y GLaM usa más cálculos durante el entrenamiento, porque entrena en un conjunto de datos con más palabras y partes de palabras que la mayoría de LLM. (Frente a los miles de millones de palabras de las que GPT-3 aprendió el lenguaje, GLaM ingirió un conjunto de datos que inicialmente tenía un tamaño de más de 1,6 billones de palabras). Pero Google afirma que GLaM usa menos de la mitad de la energía necesaria para entrenar GPT-3 a 456 megavatios. horas (Mwh) versus 1.286 Mwh. Para contextualizar, un solo megavatio es suficiente para alimentar alrededor de 796 hogares durante un año.
“GLaM es un paso más en la industrialización de grandes modelos de lenguaje. El equipo aplica y perfecciona muchos ajustes y avances modernos para mejorar el rendimiento y el costo de inferencia de este último modelo, y obtiene una impresionante hazaña de ingeniería ”, dijo a VentureBeat Connor Leahy, científico de datos de EleutherAI, un colectivo de investigación de inteligencia artificial abierta. . "Incluso si no hay nada científicamente innovador en esta última iteración del modelo, muestra cuánto esfuerzo de ingeniería están dedicando empresas como Google a los LLM".
Trabajo futuro
GLaM, que se basa en el propio Switch Transformer de Google, un MoE de billones de parámetros detallado en enero, sigue los pasos de otras técnicas para mejorar la eficiencia de los LLM. Un equipo separado de investigadores de Google ha propuesto la red de lenguaje afinada (FLAN) , un modelo que supera a GPT-3 "por un amplio margen" en una serie de pruebas comparativas desafiantes a pesar de ser más pequeño (y más eficiente energéticamente). DeepMind afirma que otro de sus modelos de lenguaje, Retro, puede superar los LLM 25 veces su tamaño, gracias a una memoria externa que le permite buscar pasajes de texto sobre la marcha.
Por supuesto, la eficiencia es solo un obstáculo a superar en lo que respecta a los LLM. Tras investigaciones similares de los especialistas en ética de la inteligencia artificial Timnit Gebru y Margaret Mitchell, entre otros, DeepMind destacó la semana pasada algunas de las tendencias problemáticas de los LLM, que incluyen perpetuar estereotipos, usar lenguaje tóxico, filtrar información sensible, proporcionar información falsa o engañosa y tener un desempeño deficiente. para grupos minoritarios.
Las soluciones a estos problemas no se obtienen de inmediato. Pero la esperanza es que arquitecturas como MoE (y quizás modelos similares a GLaM) hagan que los LLM sean más accesibles para los investigadores, permitiéndoles investigar formas potenciales de solucionar, o al menos, mitigar, el peor de los problemas.
[Fuente]: venturebeat.com
raindrop74.( 17 de Diciembre de 2021).lenguaje de procesamiento natural. [Fotografía]. Modificado por Carlos Zambrado Recuperado de Shutterstock