Los investigadores revelan que el modelo de IA Meta Llama 3.1 infringe derechos de autor - puede recordar el 42 por ciento del primer libro de Harry Potter

Por: Anry Sergeev | hoy dia, 11:17
Evolución de la IA: cómo los collages están cambiando el panorama de la inteligencia artificial Collage. Fuente: DALL-E

Recientemente, un estudio realizado por Stanford, Cornell y la Universidad de Virginia Occidental mostró que Meta Llama 3.1 (70B), lanzado en julio de 2024, memorizó conscientemente el 42% del primer libro de Harry Potter para que pueda reproducir pasajes de 50 tokens con una probabilidad de más del 50%. En otras palabras, el modelo no solo recuerda la trama - puede reproducir trozos enteros de texto si se le da la primera oración. Para comparación, el modelo antiguo solo recordaba el 4.4%.

Qué pasó

Un grupo de investigadores verificó cuánto "se adhirió" el nuevo Llama a los libros. Resultó que si el texto es muy popular (como Harry Potter o El Hobbit), la IA puede repetir grandes fragmentos. Sin embargo, los libros menos conocidos (por ejemplo, Sandman Slim) no despertaron mucho entusiasmo: el modelo recordó menos del 1% de ellos.

Los científicos utilizaron un método especial que muestra cuán seguro está el modelo de cada palabra subsiguiente - y esta confianza era tan alta que quedó claro que definitivamente lo había visto antes.

Cómo se midió

Usaron el método de analizar las probabilidades de los tokens subsiguientes: si, después de sustituir los primeros 50 tokens del pasaje, el modelo reproduce los siguientes, se consideró un signo de memorización.

Por qué es importante

  • Porque los libros tienen derechos de autor, y la IA no debería simplemente reproducirlos como una impresora.
  • Si puede repetir Harry Potter de memoria, será fácil generar libros enteros que parezcan una copia pero con un nuevo nombre en el futuro.
  • Esto ya no es aprendizaje, es Ctrl+C y Ctrl+V, y los abogados inmediatamente entraron en modo "¡aha, te han atrapado!".

¿Por qué ocurrió esto?

Porque Meta entrenó este modelo con 15 billones de palabras, lo cual es mucho. Quizás el entrenamiento incluyó no solo libros, sino foros, sitios de fans y críticas con citas - cuanto más a menudo aparecía un texto en el conjunto de datos, más influenciaba al modelo.

¿Y ahora qué?

Si los abogados demuestran que la IA reproduce textos casi al pie de la letra, podría significar grandes problemas para Meta. Especialmente porque su modelo es abierto y todos pueden verificarlo. Los modelos de lenguaje cerrados (OpenAI, Anthropic y Google) también pueden tener problemas similares, pero es mucho más difícil de probar. Esto dificulta que Meta se defienda sobre la base de un uso justo - un tribunal puede considerar la memoria como evidencia de que el modelo crea un derivado de una gran parte de los textos. También será difícil decir que estos son "nada más que patrones".

Irónicamente, la transparencia de la que se enorgullecen los creadores de Llama ahora puede jugar en su contra.

Es decir, este modelo de lenguaje ahora puede llevar a Meta a casos judiciales reales, porque ha "recopilado" textos que no debería haber recordado con tanta precisión. Por un lado, el tribunal puede endurecer los requisitos para los modelos de peso abierto: "proporciona las escalas y obtendrás la evidencia en tu contra". Por otro lado, las instituciones y tribunales que valoran la transparencia pueden notar esto. Meta y otros pueden usar esto como un argumento de que la apertura es un "servicio" y una "responsabilidad".

Fuente: understandingai.org