Microsoft y Nvidia anunciaron hoy que entrenaron lo que afirman es el modelo de lenguaje impulsado por IA más grande y más capaz hasta la fecha: Megatron-Turing Natural Language Generation (MT-NLP).
El sucesor de los modelos Turing NLG 17B y Megatron-LM de las empresas, MT-NLP contiene 530 mil millones de parámetros y logra una precisión "incomparable" en un amplio conjunto de tareas de lenguaje natural, dicen Microsoft y Nvidia , que incluyen comprensión de lectura, razonamiento de sentido común y inferencias del lenguaje natural.
“La calidad y los resultados que hemos obtenido hoy son un gran paso adelante en el camino hacia el descubrimiento de la promesa completa de la IA en lenguaje natural. Las innovaciones de DeepSpeed y Megatron-LM beneficiarán el desarrollo de modelos de IA actuales y futuros y harán que los grandes modelos de IA sean más baratos y más rápidos de entrenar ”, dijo el director senior de gestión de productos y marketing de Nvidia para computación acelerada, Paresh Kharya, y director de programas grupales de Microsoft. El equipo de Turing, escribió Ali Alvi en una publicación de blog . “Esperamos ver cómo MT-NLG dará forma a los productos del mañana y motivará a la comunidad a ampliar aún más los límites del procesamiento del lenguaje natural (NLP). El viaje es largo y está lejos de estar completo, pero estamos entusiasmados con lo que es posible y lo que nos espera ”.
Entrenamiento de modelos lingüísticos masivos
En el aprendizaje automático, los parámetros son la parte del modelo que se aprende a partir de los datos de entrenamiento históricos. En términos generales, en el dominio del lenguaje, la correlación entre el número de parámetros y la sofisticación se ha mantenido notablemente bien. Se ha demostrado que los modelos de lenguaje con una gran cantidad de parámetros, más datos y más tiempo de entrenamiento adquieren una comprensión más rica y matizada del lenguaje, por ejemplo, obteniendo la capacidad de resumir libros e incluso completar el código de programación.
Para entrenar MT-NLG, Microsoft y Nvidia dicen que crearon un conjunto de datos de entrenamiento con 270 mil millones de tokens de sitios web en inglés. Los tokens, una forma de separar fragmentos de texto en unidades más pequeñas en lenguaje natural, pueden ser palabras, caracteres o partes de palabras. Como todos los modelos de IA, MT-NLP tuvo que "entrenar" ingiriendo un conjunto de ejemplos para aprender patrones entre puntos de datos, como reglas gramaticales y sintácticas.
El conjunto de datos provino en gran parte de The Pile, una colección de 835 GB de 22 conjuntos de datos más pequeños creados por el esfuerzo de investigación de inteligencia artificial de código abierto EleutherAI . The Pile abarca fuentes académicas (por ejemplo, Arxiv, PubMed), comunidades (StackExchange, Wikipedia), repositorios de código (Github) y más, que Microsoft y Nvidia dicen haber seleccionado y combinado con instantáneas filtradas de Common Crawl, una gran colección de páginas web que incluyen noticias y publicaciones en redes sociales.
La capacitación se llevó a cabo en 560 servidores Nvidia DGX A100, cada uno con 8 GPU Nvidia A100 de 80 GB.
Cuando se compara, Microsoft dice que MT-NLP puede inferir operaciones matemáticas básicas incluso cuando los símbolos están "muy ofuscados". Si bien no es extremadamente preciso, el modelo parece ir más allá de la memorización para la aritmética y logra completar tareas que contienen preguntas que lo solicitan una respuesta, un desafío importante en la PNL.
Está bien establecido que modelos como MT-NLP pueden amplificar los sesgos en los datos sobre los que fueron entrenados y, de hecho, Microsoft y Nvidia reconocen que el modelo "recoge estereotipos y sesgos de los datos [de entrenamiento]". Eso probablemente se deba a que una parte del conjunto de datos se obtuvo de comunidades con prejuicios generalizados de género, raza, físicos y religiosos, que la curación no puede abordar por completo.
En un artículo , el Centro sobre Terrorismo, Extremismo y Contraterrorismo del Instituto Middlebury de Estudios Internacionales afirma que GPT-3 y modelos similares pueden generar texto "informativo" e "influyente" que podría radicalizar a las personas en ideologías y comportamientos de extrema derecha. Un grupo de la Universidad de Georgetown ha utilizado GPT-3 para generar información errónea, incluidas historias en torno a una narrativa falsa, artículos alterados para impulsar una perspectiva falsa y tweets sobre puntos particulares de desinformación. Otros estudios, como uno publicado por Intel, MIT y los investigadores de la iniciativa canadiense de inteligencia artificial CIFAR en abril, han encontrado altos niveles de sesgo estereotipado de algunos de los modelos de código abierto más populares, incluidos BERT, XLNet y RoBERTa de Facebook .
Microsoft y Nvidia afirman que están "comprometidos a trabajar para abordar [el] problema" y fomentan la "investigación continua para ayudar a cuantificar el sesgo del modelo". También dicen que cualquier uso de Megatron-Turing en la producción "debe garantizar que se implementen las medidas adecuadas para mitigar y minimizar el daño potencial a los usuarios" y seguir principios como los descritos en los Principios de IA responsable de Microsoft .
“Vivimos en una época [en la que] los avances de la IA están superando con creces la ley de Moore. Seguimos viendo que se pone a disposición más potencia de cálculo con las nuevas generaciones de GPU, interconectadas a la velocidad del rayo. Al mismo tiempo, seguimos viendo un hiper-escalamiento de los modelos de IA que conducen a un mejor rendimiento, aparentemente sin un final a la vista ”, continuaron Kharya y Alvi. "La combinación de estas dos tendencias son innovaciones de software que traspasan los límites de la optimización y la eficiencia".
El costo de los modelos grandes
Proyectos como MT-PNL, AI21 Labs Jurásico-1 , de Huawei Pangu-alfa , de Naver HyperCLOVA , y la Academia de la Inteligencia Artificial Beijing Wu Dao 2.0 son impresionantes desde un punto de vista académico, pero su construcción no es barato. Por ejemplo, el conjunto de datos de entrenamiento para GPT-3 de OpenAI, uno de los modelos de idiomas más grandes del mundo, tenía un tamaño de 45 terabytes, suficiente para llenar 90 discos duros de 500 GB.
Los costos de capacitación en inteligencia artificial se redujeron 100 veces entre 2017 y 2019, según una fuente , pero los totales aún superan los presupuestos informáticos de la mayoría de las nuevas empresas. La inequidad favorece a las corporaciones con un acceso extraordinario a los recursos a expensas de los pequeños empresarios, lo que consolida las ventajas existentes.
Por ejemplo, el GPT-3 de OpenAI requirió un cálculo estimado de 3.1423 ^ 23 operaciones de punto flotante por segundo (FLOPS) durante el entrenamiento. En informática, FLOPS es una medida del rendimiento del procesamiento sin procesar, que se utiliza normalmente para comparar diferentes tipos de hardware. Suponiendo que OpenAI reservara 28 teraflops (28 billones de operaciones de punto flotante por segundo) de cómputo en un banco de GPU Nvidia V100, una GPU común disponible a través de servicios en la nube, se necesitarían $ 4.6 millones para una sola ejecución de entrenamiento. Una GPU Nvidia RTX 8000 con 15 teraflops de cómputo sería sustancialmente más barata, pero llevaría 665 años terminar la capacitación.
Microsoft y Nvidia dicen que observaron entre 113 y 126 teraflops por segundo por GPU mientras entrenaban MT-NLP. Es probable que el costo haya sido de millones de dólares.
Un informe de Synced estimó que entrenar un modelo de detección de noticias falsas desarrollado por investigadores de la Universidad de Washington costó $ 25,000, y Google gastó alrededor de $ 6,912 para entrenar un modelo de lenguaje llamado BERT que utilizó para mejorar la calidad de los resultados de búsqueda de Google. Los costos de almacenamiento también aumentan rápidamente cuando se trata de conjuntos de datos a una escala de terabytes o petabytes. Para tomar un ejemplo extremo, uno de los conjuntos de datos acumulados por el equipo de conducción autónoma de Tesla (1,5 petabytes de imágenes de video) costaría más de $ 67,500 para almacenar en Azure durante tres meses, según CrowdStorage.
Los efectos de la IA y el entrenamiento de modelos de aprendizaje automático en el medio ambiente también se han puesto de relieve. En junio de 2020, investigadores de la Universidad de Massachusetts en Amherst publicaron un informe que estimaba que la cantidad de energía requerida para entrenar y buscar un determinado modelo implica las emisiones de aproximadamente 626,000 libras de dióxido de carbono , equivalente a casi cinco veces las emisiones de por vida del automóvil estadounidense promedio. La propia OpenAI ha reconocido que modelos como el Codex requieren cantidades significativas de computación, del orden de cientos de petaflops por día, lo que contribuye a las emisiones de carbono.
En algunas buenas noticias, el costo de FLOPS y las operaciones básicas de aprendizaje automático ha disminuido en los últimos años. Una encuesta de OpenAI de 2020 encontró que desde 2012, la cantidad de cómputo necesario para entrenar un modelo con el mismo rendimiento en la clasificación de imágenes en un punto de referencia popular, ImageNet, se ha reducido en un factor de dos cada 16 meses. Otra investigación reciente sugiere que los modelos de lenguaje grandes no siempre son más complejos que los modelos más pequeños, dependiendo de las técnicas utilizadas para entrenarlos.
Maria Antoniak, investigadora de procesamiento del lenguaje natural y científica de datos en la Universidad de Cornell, dice que cuando se trata de lenguaje natural, es una pregunta abierta si los modelos más grandes son el enfoque correcto. Si bien algunas de las mejores puntuaciones de rendimiento de referencia hoy en día provienen de grandes conjuntos de datos y modelos, la recompensa de verter enormes cantidades de datos en modelos es incierta.
“La estructura actual del campo se centra en tareas, donde la comunidad se reúne para tratar de resolver problemas específicos en conjuntos de datos específicos”, dijo Antoniak a VentureBeat en una entrevista anterior . “Estas tareas suelen estar muy estructuradas y pueden tener sus propias debilidades, por lo que, si bien ayudan a que nuestro campo avance de alguna manera, también pueden limitarnos. Los modelos grandes se desempeñan bien en estas tareas, pero si estas tareas pueden llevarnos en última instancia a una verdadera comprensión del idioma es un tema de debate ".
[Fuente]: venturebeat.com
raindrop74.( 11 de Octubre de 2021).NLP.[Fotografía]. Recuperado de Shutterstock.com