Project Panama: cómo Anthropic compró y destruyó millones de libros para entrenar a su inteligencia artificial
La compañía gastó decenas de millones de dólares en adquirir libros usados, cortarles el lomo y escanearlos, para finalmente destruirlos. ¿Es legal algo así?
Documentos judiciales revelados la semana pasada expusieron una operación secreta de Anthropic, la empresa detrás del chatbot Claude, para comprar y escanear millones de libros físicos con el objetivo de mejorar su inteligencia artificial. Project Panama, como se denominó internamente a la iniciativa, consistió en adquirir ejemplares usados, cortarles el lomo con máquinas hidráulicas, digitalizar sus páginas y finalmente enviarlos a reciclar.
"Project Panama es nuestro esfuerzo para escanear destructivamente todos los libros del mundo", señalaba un documento de planificación interna que se mantuvo bajo reserva hasta que un juez ordenó desclasificar más de 4.000 páginas de archivos en una demanda por derechos de autor contra la compañía. "No queremos que se sepa que estamos trabajando en esto", agregaba el texto, en un tono que dejaba en claro la voluntad de mantener el proyecto en las sombras.
La información surgió en el marco de una demanda colectiva presentada por autores de libros contra Anthropic, valorada por inversores en 183.000 millones de dólares. La empresa acordó pagar 1.500 millones de dólares para resolver el caso en agosto pasado, pero la decisión del juez de distrito de liberar los documentos permitió conocer con mayor detalle la agresiva búsqueda de material de entrenamiento que llevó adelante la firma. Los registros muestran que entre 2023 y 2024, Anthropic invirtió decenas de millones de dólares en la compra de libros, generalmente en lotes de decenas de miles de ejemplares. Aunque las cifras exactas permanecen censuradas, una propuesta de un proveedor que trabajó con la compañía indicaba que Anthropic buscaba convertir entre 500.000 y dos millones de libros en un período de seis meses.
Para ejecutar Project Panama, Anthropic contrató a Tom Turvey, un veterano de Silicon Valley que había trabajado en Google y ayudado a crear Google Books, el proyecto de digitalización masiva de libros del gigante de las búsquedas que también enfrentó controversias legales hace dos décadas. La elección no fue casual: Turvey conocía tanto las posibilidades como los riesgos legales de semejante empresa.
Inicialmente, la compañía consideró comprar libros de bibliotecas o librerías de segunda mano como The Strand, el emblemático local de Nueva York conocido por sus "18 millas" de libros nuevos y usados. Documentos de una reunión de adquisición de contenido de marzo de 2024 indicaban que la librería estaba "interesada en proporcionar libros usados". También se discutió la posibilidad de acercarse a la Biblioteca Pública de Nueva York o a "una nueva biblioteca que está crónicamente desfinanciada", según los registros. La idea de aprovechar la escasez de fondos de instituciones públicas para conseguir material generó cuestionamientos éticos adicionales.
Finalmente, Anthropic compró millones de libros a comerciantes especializados en ejemplares usados, incluyendo a Better World Books y la británica World of Books. Un portavoz de The Strand aclaró que la librería no terminó vendiendo libros a la compañía, mientras que la Biblioteca Pública de Nueva York no respondió a consultas al respecto.
El proceso de digitalización quedó detallado en los documentos del proveedor: una "máquina de corte hidráulica" cortaba "prolijamente" los libros, cuyas páginas luego se escaneaban en "escáneres de alta velocidad, alta calidad y nivel de producción". Finalmente, el documento señalaba que la empresa de escaneo programaría "con la compañía de reciclaje para recoger los libros completados". Una suerte de cadena de desmontaje industrial aplicada a objetos culturales.
La búsqueda desesperada de datos
Los documentos judiciales también revelaron que antes de lanzar Project Panama, ejecutivos de Anthropic descargaron grandes cantidades de libros de "bibliotecas sombra", sitios web que comparten obras digitalizadas sin autorización. Ben Mann, cofundador de la empresa, descargó personalmente ficción y no ficción de LibGen, una plataforma de contenido pirata, durante 11 días en junio de 2021. Capturas de pantalla de su navegador incluidas en los archivos lo mostraban descargando archivos con software de intercambio de datos.
Un año después, Mann celebró el lanzamiento del sitio Pirate Library Mirror, que afirmaba tener una base de datos masiva de libros y declaraba abiertamente que "deliberadamente violamos la ley de derechos de autor en la mayoría de los países". Mann envió un enlace del sitio a otros empleados de Anthropic con el mensaje: "¡¡¡justo a tiempo!!!". El entusiasmo quedó registrado en los archivos judiciales.
Anthropic sostuvo en presentaciones legales que nunca entrenó un modelo comercial que generara ingresos usando datos de LibGen y que nunca utilizó Pirate Library Mirror para entrenar ningún modelo completo. La distinción entre uso experimental y uso comercial fue clave en su defensa.
127870972
Un documento interno de enero de 2023 reveló que un cofundador de Anthropic teorizaba que entrenar modelos de IA con libros podría enseñarles "cómo escribir bien" en lugar de imitar "el habla de internet de baja calidad". La justificación reflejaba una preocupación compartida en la industria: la necesidad de datos de alta calidad para que los chatbots no reprodujeran los vicios del lenguaje online.
Meta, OpenAI y la carrera por los libros
Anthropic no fue la única compañía en buscar agresivamente material protegido por derechos de autor. Documentos del caso judicial contra Meta mostraron que empleados de la red social también expresaron preocupación por descargar libros pirateados. Un ingeniero escribió en 2023: "Hacer torrents desde una laptop corporativa no se siente bien". La incomodidad quedó plasmada en mensajes internos que ahora son parte de expedientes judiciales.
Un correo electrónico interno de diciembre de 2023 reveló que el uso de LibGen había sido aprobado tras "una escalada a MZ", una aparente referencia al CEO Mark Zuckerberg. "Después de una escalada previa a MZ, GenAI ha sido aprobado para usar LibGen para Llama 3... con una serie de mitigaciones acordadas", decía el mensaje. Otro correo advertía sobre los riesgos: "Si hay cobertura mediática que sugiera que hemos usado un conjunto de datos que sabemos que es pirata, como LibGen, esto puede socavar nuestra posición de negociación con los reguladores".
Registros de conversaciones mostraron que empleados de Meta utilizaron servidores alquilados de Amazon para descargar torrents en lugar de servidores propios de Facebook. Cuando un empleado preguntó por qué, la respuesta fue directa: "Evitar el riesgo de rastrear" la actividad hasta la compañía. Una maniobra de encubrimiento que ahora quedó documentada.
OpenAI, la creadora de ChatGPT, también reconoció haber descargado LibGen, aunque afirmó ante el tribunal que eliminó los archivos antes del lanzamiento de su chatbot. Justin A. Nelson, abogado del estudio Susman Godfrey LLP que representa a autores en casos contra OpenAI y Anthropic, no ahorró críticas: "OpenAI disparó el pistoletazo de salida que condujo a la piratería desenfrenada por parte de las empresas de IA y a la explotación minera de toda la expresión de la humanidad".
El veredicto legal
Aunque Anthropic pagó 1.500 millones de dólares para resolver la demanda, el juez de distrito William Alsup determinó en junio pasado que el uso de libros para entrenar modelos de IA puede ser legal bajo la doctrina de "uso justo" del derecho de autor estadounidense, al considerar que el proceso es "transformativo". Alsup comparó el entrenamiento de IA con maestros "entrenando a escolares para escribir bien". La analogía pedagógica sirvió para legitimar la práctica.
Sin embargo, el juez otorgó estatus de acción colectiva a autores cuyos libros fueron incluidos en bibliotecas sombra que Anthropic había descargado antes de lanzar Project Panama. Ahí estuvo el problema: no en el uso de los libros para entrenamiento, sino en cómo se obtuvieron. En lugar de enfrentar un juicio, la compañía acordó el pago. Los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en alrededor de 3.000 dólares por título.
Aparna Sridhar, asesora legal adjunta de Anthropic, declaró: "Este caso se ha resuelto, pero el fallo histórico de junio de 2025 del tribunal permanece intacto. El juez Alsup sostuvo que el entrenamiento de IA era 'quintaesencialmente transformativo'. El problema que resolvimos fue sobre cómo se adquirieron algunos materiales, no sobre si podíamos usarlos para desarrollar" modelos de IA. La compañía logró así un cierre que, aunque costoso, no cuestionó el núcleo de su estrategia.
Ed Newton-Rex, ex ejecutivo de IA y compositor musical que ahora dirige una organización sin fines de lucro que defiende los derechos de los creadores, fue contundente: "Necesitamos urgentemente un reinicio en toda la industria de la IA, de modo que los creativos comiencen a recibir una compensación justa por las contribuciones vitales que hacen". El debate sobre quién debe beneficiarse del trabajo creativo en la era de la inteligencia artificial recién empieza.