Para mantener un LLM y hacerlo mejor que la versión anterior, necesita contenido humano
Google y OpenAI no se cortan a la hora de aceptar que necesitan tus datos por todos los medios para mejorar Bard y ChatGPT, respectivamente. Recientemente, The Guardian publicó un informe en el que Google afirma que la ley de derechos de autor debería modificarse para permitir que los sistemas de IA generativa rastreen Internet.
Puede leer también | Google vs OpenAI: 10 cosas que Bard puede hacer y ChatGPT no
La empresa insta a los responsables políticos australianos a respaldar "sistemas de derechos de autor que permitan un uso adecuado y justo de los contenidos protegidos por derechos de autor para permitir el entrenamiento de modelos de IA en Australia sobre una amplia y diversa gama de datos", al tiempo que ofrece una opción de exclusión a las entidades que prefieran que sus datos no se utilicen para el entrenamiento de IA.
Puede leer también | Google Bard vs ChatGPT: Diferencias clave entre las plataformas de IA
Por otra parte, en medio de los debates en torno al web scraping sin consentimiento, OpenAI presentó GPTBot, un rastreador automatizado de sitios web. El bot está diseñado para recopilar datos de acceso público para entrenar modelos de IA, un proceso que OpenAI asegura que se ejecutará de forma transparente y responsable.
A medida que la IA generativa gana popularidad, crece la necesidad de más datos. Los chatbots basados en LLM ChatGPT y Google Bard dependen de mucho texto, imágenes y vídeos.
Puede leer también | Google lanza el chatbot de Bard
OpenAI afirma que GPT-4 aprende de una amplia variedad de fuentes de datos aprobadas, organizadas y a disposición del público, lo que también podría incluir información que está a la vista de cualquiera. OpenAI ha adquirido recientemente una marca comercial para GPT-5, cuyo éxito depende de la calidad de los datos con los que se entrene, además de la potencia de cálculo de las GPU.
Puede leer también | ChatGPT vs. Bing vs. Google Bard: ¿Qué IA es la más útil?
Sin embargo, la accesibilidad de los datos tanto para OpenAI como para Google sigue siendo incierta debido al conocimiento generalizado de sus prácticas de raspado de Internet, un asunto que está atrayendo una considerable oposición pública.
El contenido humano es vital
Para mantener un LLM y hacerlo mejor que la versión anterior, necesita contenido humano. El problema surge a la hora de decidir si las empresas deben pagar por ello o simplemente tomarlo de Internet. Teniendo en cuenta la situación actual, no sería de extrañar que en el futuro los contenidos generados por humanos se vendan a un precio superior.
No es que OpenAI entrene a GPT-4 sólo con contenidos humanos; recientemente ha empezado a entrenar a GPT-4 con conjuntos de datos creados por ChatGPT. Sin embargo, no puede hacerlo durante mucho tiempo, ya que acabará colapsando el modelo. Este proceso degenerativo tiene lugar cuando los modelos aprenden de datos producidos por otros modelos. Como resultado, se produce una pérdida gradual en la representación exacta de la distribución real de los datos.
Puede leer también | Rusia : acaba de bombardear la ciudades de Ucrania, a pesar de la promesa de retirarse de Kiev
Cualquiera que pruebe ChatGPT para escribir poemas puede darse cuenta fácilmente de que fue entrenado con libros de poesía y ensayos del más alto nivel. Sin embargo, por desgracia, OpenAI no pidió permiso a los autores.
El mes pasado, 8.000 autores, entre ellos Margaret Atwood, Viet Thanh Nguyen y Philip Pullman, firmaron una petición en la que pedían a las empresas de inteligencia artificial que dejaran de utilizar el trabajo de los escritores sin consentimiento ni reconocimiento. Argumentaban que el duro trabajo que hay detrás de cualquier forma de arte necesita ser validado y el crédito debe darse al respectivo creador.
Puede leer también | ¿Qué significa ChatGPT en realidad?
Sin embargo, cuando se trata de los derechos de autor de las obras generadas por IA, surge la cuestión de la propiedad. Normalmente, la Ley de Propiedad Intelectual asigna la propiedad inicial a los creadores de la obra. Pero, como no ha habido ninguna resolución legal o de la oficina de derechos de autor sobre las creaciones hechas por IA, sigue habiendo incertidumbre sobre quiénes podrían ser los verdaderos creadores.
Un giro en la historia
De momento, OpenAI y Google van sobre seguro. Han transferido la responsabilidad de compartir los datos a los editores. Google afirma que los editores deben poder optar por que su trabajo no sea extraído por la IA generativa. El portavoz de Google señaló que quieren debatir la creación de un estándar desarrollado por la comunidad, similar al sistema robots.txt, que permita a los editores optar por que no se rastreen partes de los sitios web.
En una línea similar, OpenAI mencionó en una entrada de blog que si no quieres que GPTBot visite tu sitio web, puedes evitarlo añadiendo GPTBot al archivo robot.txt de tu sitio. Esto implica que los propietarios de sitios web tienen que tomar medidas activas para impedir que OpenAI acceda a su sitio web, en lugar de optar por dejar que utilicen su contenido para entrenarse. Este es el primer paso de OpenAI para permitir que los internautas elijan que su información no se utilice para entrenar sus grandes modelos lingüísticos.
Puede leer también | Curso ChatGTP marketing para ventas exitosas
La pregunta que se plantea aquí es: ¿es el enfoque correcto? En particular, se pide a los usuarios que opten por no participar y por qué no hacerlo. Esto podría deberse al hecho de que los creadores de LLM podrían tener dificultades para persuadir a las personas de que comprometan su privacidad.
GPTBot de @OpenAI rastrea la web en busca de nuevos datos para entrenar modelos de IA. Para excluirse, los propietarios de sitios web deben modificar el archivo robots.txt. Si no conoce la existencia de GPTBot, sus datos se obtendrán sin su consentimiento. ¿Por qué tiene que ser OPT OUT en lugar de OPT IN? https://t.co/uJdxQOxzQI
- Anka Reuel (@AnkaReuel) 8 de agosto de 2023
Además, OpenAI ha tomado varias medidas para evitar problemas legales, como la reciente asociación con Associated Press para obtener datos en tiempo real que pueden utilizarse libremente para entrenar a sus futuros modelos.
Luchar por una compensación con estas empresas podría no dar ningún resultado, ya que no existen leyes adecuadas que lo respalden y, además, consume tiempo y dinero. Así que, si dependes de ChatGPT o Bard para tareas como redactar correos electrónicos o codificar, el precio a pagar es sacrificar tus datos.