Entrenamiento con código de fuente abierta: lo que GPL, MIT y otras licencias dicen en realidad sobre la IA

Publicado: 5 de diciembre de 2025 • IA

🧠 Si mi modelo se entrena con GitHub, ¿estoy ahora “infectado” por la GPL?
Esa es la pregunta con la que todos, desde desarrolladores independientes hasta los abogados internos de las grandes tecnológicas, han venido lidiando desde que llegaron Copilot y los copilotos de código.

Esta guía recorre cómo las principales licencias de fuente abierta (MIT/BSD, Apache 2.0, GPL/LGPL, MPL, AGPL) se cruzan con el entrenamiento de IA: lo que las licencias dicen en realidad, lo que los tribunales y los organismos comunitarios (OSI, FSF, etc.) están haciendo con eso, y dónde reside el riesgo real hoy.

Contenido

🧩 Qué significa “entrenar con código de fuente abierta” en términos legales

Cuando los abogados y los ingenieros hablan sin entenderse, suele ser porque están señalando partes distintas de la pila de IA.

🔧 Capa	Lo que en realidad ocurre	Por qué les importa a los abogados
Datos de entrenamiento (corpus de código)	Se copian cantidades enormes de código fuente a un conjunto de datos	Copia y almacenamiento de obras protegidas por derechos de autor; aquí aplican los términos de licencia de ese código
Proceso de entrenamiento	Se ejecuta el código de entrenamiento sobre ese corpus para producir los pesos del modelo	Usa el código copiado pero por lo general permanece interno; las licencias rara vez regulan el uso interno
Modelo (pesos + arquitectura)	Una gran matriz de parámetros que codifican estadísticamente patrones del código	Debate: ¿es esto una “obra derivada” o solo estadística? Ningún tribunal ha dicho de manera directa que “un modelo entrenado es una obra derivada de código GPL.”
Salidas (código generado)	Fragmentos y archivos producidos para los usuarios	Si las salidas reproducen sustancialmente código licenciado, los usuarios posteriores pueden tener que cumplir con esas licencias
Producto posterior	Su SaaS, complemento de IDE o aplicación de código cerrado	Aquí es donde las obligaciones de GPL/AGPL, atribución y share-alike pueden activarse si las salidas o el código integrado están licenciados

Entran en juego tres regímenes legales distintos:

Derechos de autor (¿es el entrenamiento o la salida una “copia” o una “obra derivada” infractora?)
Licencia / contrato (¿aceptó condiciones sobre cómo puede copiar/usar ese código, incluso si los derechos de autor pudieran permitir más?)
Definiciones comunitarias (la Open Source AI Definition de OSI, los criterios de “ML libre” de la FSF) que moldean las expectativas pero no crean por sí mismas responsabilidad. (

⚖️ Panorama general: lo que la ley dice en realidad hasta ahora

Algunos puntos son razonablemente claros, y unos cuantos no lo son en absoluto:

Los tribunales han empezado a decir que el entrenamiento de IA puede ser una infracción de derechos de autor cuando usa contenido propietario para competir con el titular de los derechos (por ejemplo, Thomson Reuters v. Ross, con los sumarios de investigación jurídica).
En el litigio de GitHub Copilot, la mayoría de las reclamaciones fueron desestimadas, pero sobrevivieron las reclamaciones por licencia de fuente abierta y por la “eliminación de información de gestión de derechos de autor” bajo la DMCA, lo que significa que un tribunal de EE. UU. está dispuesto a tomar en serio las teorías basadas en licencias en torno al entrenamiento y la regurgitación.
Un análisis detallado de 2025 sobre la teoría de que “la GPL se propaga a los modelos” señala: ningún tribunal ha sostenido todavía que un modelo entrenado deba ser GPL por haberse entrenado con código GPL, y los actores comunitarios de referencia (OSI, FSF, SFC) son cautelosos a la hora de llevar esa teoría a un precedente. (Open Source Guy)
La Open Source AI Definition 1.0 (OSI) exige código abierto, parámetros del modelo e información detallada sobre los datos de entrenamiento para que un sistema de IA pueda llamarse “de fuente abierta,” pero no exige publicar todos los datos de entrenamiento en sí, sino que se centra en la transparencia y la reproducibilidad. (Open Source Initiative)
La FSF, en cambio, está trabajando en criterios según los cuales una aplicación de ML “libre” exigiría que los propios datos y scripts de entrenamiento sean libres, pero esa es una postura ética/definicional, no una interpretación de que el texto actual de la GPL ya cubra los modelos.

En resumen: entrenar con código de fuente abierta no es automáticamente ilegal, pero tampoco es terreno libre para todo. El riesgo se concentra en torno a:

Ignorar las condiciones de licencia (atribución, avisos, copyleft)
Distribuir modelos que memorizan y reproducen código licenciado
Usuarios posteriores que pegan esas salidas en productos de código cerrado.

🏷️ Lo que exigen en realidad las principales familias de licencias

Ninguna de las licencias FOSS clásicas menciona la “IA” o el “entrenamiento.” Regulan la copia, modificación y distribución de software y derivados. El entrenamiento de IA se fuerza dentro de esos conceptos.

🔍 Comparación rápida de las familias de licencias

Familia de licencias	Obligaciones típicas	Dónde se cruza el entrenamiento de IA
MIT / BSD (permisivas)	Conservar el aviso de derechos de autor y de licencia cuando redistribuye el código o porciones sustanciales; por lo demás, amplia libertad de uso	Entrenar internamente con código MIT/BSD en general está dentro de la concesión de la licencia. El riesgo aparece si su modelo reproduce fragmentos reconocibles y los usuarios los distribuyen sin los avisos requeridos. (Nordia Law)
Apache 2.0 (permisiva + patentes)	Conservar la licencia y el archivo NOTICE al distribuir; conceder / recibir licencia de patente; algunas condiciones en torno a demandas por patentes	Similar a MIT/BSD para el entrenamiento; pero si las salidas o las herramientas incorporan código con licencia Apache, debe preservar los avisos requeridos. La concesión de patente rara vez importa para el entrenamiento puro, y más bien cuando los modelos o las herramientas incorporan técnicas patentadas del proyecto original.
GPLv2/v3 (copyleft fuerte)	Si distribuye un programa que es derivado de código GPL o que lo “contiene,” debe licenciar la obra completa bajo GPL y proporcionar el código fuente; el uso interno no tiene restricciones	Entrenar con código GPL sin distribuir el corpus de entrenamiento probablemente está permitido bajo el texto de la licencia. La cuestión abierta es si el modelo o sus salidas son “obras derivadas” u “obras que contienen el Programa.” Ningún tribunal ha dicho “sí” todavía, y los principales análisis de la comunidad son escépticos de que los modelos encajen con facilidad en esa definición. (Open Source Guy)
LGPL (copyleft débil)	El copyleft aplica principalmente a las modificaciones de la propia biblioteca; se permite el enlace dinámico desde aplicaciones propietarias; las obligaciones de código fuente se centran en la biblioteca	Entrenar con código LGPL es similar a la GPL en la fase de entrenamiento pero, de nuevo, no está claro cómo podría decirse que un modelo “contiene” una biblioteca en el sentido de la LGPL. El riesgo práctico se centra sobre todo en la salida literal de código de la biblioteca.
MPL 2.0 (copyleft a nivel de archivo)	Solo los archivos que modifica o crea a partir de archivos cubiertos por MPL deben permanecer bajo MPL; puede combinarlos con código propietario	Entrenar con código MPL no activa obligaciones MPL obvias sobre el modelo. Pero si un asistente de IA regurgita un archivo licenciado bajo MPL o una porción sustancial, y un desarrollador lo distribuye, esos archivos específicos deben permanecer licenciados bajo MPL y con el código fuente disponible.
AGPL (copyleft de red)	Como la GPL pero se extiende al software ofrecido a través de una red (SaaS); si los usuarios interactúan con el software AGPL a través de una red, tienen derecho al código fuente	La AGPL es más peligrosa por usar código AGPL directamente en su servicio, no por el entrenamiento en sí. Dicho esto, si un SaaS impulsado por un modelo incorpora fragmentos AGPL de las salidas en el código del lado del servidor, el copyleft de red de la AGPL puede activarse.

Un punto clave: la mayoría de las licencias de fuente abierta se centran en la distribución, no en el uso puramente interno. El entrenamiento es en su mayoría un acto interno. El conflicto legal llega cuando:

Distribuye el modelo o las herramientas de una forma que, posiblemente, los convierta en derivados de código licenciado, o
Los usuarios distribuyen código generado que es sustancialmente similar a obras licenciadas sin cumplir con esas licencias. (Nordia Law)

🧪 ¿Los modelos entrenados con código GPL quedan automáticamente bajo GPL?

Respuesta corta: hoy, nadie puede decir honestamente “sí” como cuestión de derecho asentado.

Un análisis a fondo de 2025 sobre la “propagación de la GPL a los modelos de IA” resume el estado actual así: (Open Source Guy)

Teoría de los derechos de autor: La mayoría de los tribunales y los académicos que han examinado el entrenamiento de modelos (por ejemplo, en casos de imágenes y música) son reacios a tratar el modelo en sí como una reproducción o un derivado de las obras de entrenamiento, salvo en casos extremos en los que está diseñado para escupir obras específicas de manera literal con alta frecuencia.
Texto de la GPL: La GPL está redactada en torno al código fuente legible por humanos y a programas que contienen o enlazan código GPL. No cubre con claridad matrices estadísticas de parámetros que solo pueden codificar diminutos rastros de código GPL entre miles de millones de pesos.
“Forma preferida para la modificación”: Si insistiera en que un modelo es un derivado de GPL, ¿cuál es la “fuente”? Los pesos no son modificables por humanos en un sentido significativo; los datos de entrenamiento tampoco son la “fuente” del modelo en el sentido de la GPL. El texto de la licencia simplemente no se redactó pensando en los modelos.
Organismos comunitarios:
- La Open Source AI Definition de OSI exige divulgar el código del modelo, los parámetros e información detallada de los datos, pero no exige publicar todos los datos de entrenamiento, y no dice que la GPL necesariamente se “propague” a los modelos. (Open Source Initiative)
- La FSF está trabajando en una nueva declaración para aplicaciones de ML libres que exigiría que los datos de entrenamiento sean libres para poder llamar “libre” a una aplicación de ML, pero eso es un nuevo criterio, no una reinterpretación de la GPL actual. (Free Software Foundation)

Así que, por el momento:

El riesgo de que “su modelo ahora es GPL” es real en la defensa de posturas, teórico en la doctrina y no probado en los tribunales.
Lo que sí es muy real es el riesgo de que las salidas que contienen código GPL arrastren a los usuarios posteriores a obligaciones GPL sobre su propio software.

Desde una perspectiva práctica de riesgo, muchos equipos de IA serios tratan el código licenciado bajo GPL/AGPL en los datos de entrenamiento como de alta fricción y, o bien:

Lo excluyen por completo de los corpus de entrenamiento, o
Lo mantienen en grupos separados y rastreables, o
Lo aceptan solo para modelos que se sienten cómodos publicando bajo términos de tipo copyleft fuerte. (Astraea Counsel)

💥 Caso de estudio: GitHub Copilot y el código de fuente abierta

La acción colectiva de Copilot es el principal banco de pruebas para estas cuestiones. Los desarrolladores demandaron a Microsoft, GitHub y OpenAI, alegando que: (Nordia Law)

Copilot se entrenó con cantidades enormes de código de GitHub licenciado bajo MIT, GPL, Apache y otras.
El sistema a veces emite código que es casi idéntico a repositorios de fuente abierta, pero sin atribución ni avisos de licencia.
Por lo tanto, el entrenamiento y la salida violan los términos de licencia que exigen atribución, avisos de derechos de autor y (para las licencias copyleft) obligaciones share-alike.
Copilot a veces elimina u omite la información de gestión de derechos de autor (por ejemplo, encabezados con nombres de autores), lo que los demandantes sostienen que viola las prohibiciones del §1202 de la DMCA.

El tribunal federal en California:

Desestimó muchas reclamaciones amplias y especulativas, sobre todo las que no estaban ligadas a obras específicas.
Pero permitió que dos reclamaciones clave avanzaran: el incumplimiento de la licencia de fuente abierta y la “eliminación de información de gestión de derechos de autor” bajo el §1202 de la DMCA. (Nordia Law)

Eso nos dice:

Los tribunales están dispuestos a tratar las licencias de fuente abierta como contratos exigibles en el contexto del entrenamiento de IA.
La mayor exposición, por ahora, no reside en las teorías abstractas de que “el entrenamiento es una infracción,” sino en la regurgitación concreta de código licenciado sin cumplir con las condiciones de la licencia.

📊 Mapa de riesgos: entrenamiento frente a salidas frente a productos

Aquí tiene una matriz de riesgo simplificada para el entrenamiento con código de fuente abierta:

Escenario	Ejemplo	Riesgo legal relativo (hoy)	Por qué
Entrenamiento interno con código mayormente permisivo (MIT/BSD/Apache), sin distribución externa del modelo	Una firma entrena un asistente de código interno con repositorios de GitHub seleccionados y lo usa solo dentro de la organización	Bajo → Moderado	Las licencias permiten ampliamente el uso y la modificación; no hay distribución del código ni del modelo. El riesgo aumenta si las salidas se copian de manera literal en productos distribuidos sin atribución. (Astraea Counsel)
Entrenar un modelo público con código mixto que incluye GPL/AGPL, sin control de la memorización	Una start-up publica los pesos de un modelo entrenado con “todo GitHub”	Moderado → Alto (licencia y reputación)	Ningún caso ha obligado a un modelo a quedar bajo GPL, pero los demandantes pueden alegar de forma plausible incumplimiento de licencia y problemas de DMCA si el modelo produce fragmentos GPL identificables. La reacción negativa de la comunidad está casi garantizada. (Open Source Guy)
Asistente de código con IA usado para generar fragmentos insertados en productos de código cerrado	Un desarrollador pega una función de 30 líneas sugerida por una herramienta tipo Copilot en una aplicación propietaria	Moderado → Alto (posterior)	Si ese fragmento es expresión protegible copiada de código GPL/MIT/Apache, el desarrollador puede tener que cumplir con esa licencia (share-alike de la GPL, atribución de MIT/Apache, etc.). Esto es independiente de si el entrenamiento fue lícito. (Nordia Law)
Modelo ajustado con código propietario que compite con el producto del titular de los derechos	Entrenar una IA de investigación jurídica con los sumarios de Westlaw o similares	Alto (derechos de autor)	Thomson Reuters v. Ross sugiere que los tribunales están dispuestos a considerar el entrenamiento de IA directamente infractor cuando el producto de IA sirve al mismo mercado y se apoya en contenido propietario. (Astraea Counsel)
Modelo de IA de fuente abierta publicado bajo una licencia OSS clara con datos de entrenamiento seleccionados y documentados	Modelo, código e información de datos de entrenamiento publicados bajo licencias coherentes aprobadas por OSI	Menor pero no nulo	Es lo que mejor se alinea con la Open Source AI Definition de OSI. El riesgo restante se centra sobre todo en la inclusión de código de terceros cuyas licencias se aplicaron o se entendieron mal. (Open Source Initiative)

🧾 Lo que MIT, GPL y Apache “dicen en realidad” para quienes construyen IA

Planteándolo de forma concreta para las tres licencias que más preocupan a la gente:

✅ MIT / BSD: permisivas, pero no “sin condiciones”

Conceden derechos muy amplios para usar, copiar, modificar y combinar el código con cualquier propósito, incluido el comercial.
La condición principal es que si redistribuye el código o porciones sustanciales, debe incluir el aviso de derechos de autor y el texto de la licencia. (Nordia Law)
Entrenar internamente con código MIT/BSD está plenamente dentro de esas concesiones, y no hay ninguna prohibición textual del aprendizaje automático.

Dónde surgen los problemas:

Si su modelo memoriza y produce como salida un archivo licenciado bajo MIT o un fragmento reconocible, y alguien lo distribuye en un producto sin avisos, esa redistribución no cumple con la licencia, aunque el entrenamiento en sí pueda estar bien.
Por eso las empresas están construyendo filtros conscientes de las licencias y sistemas de atribución para poder mostrar la procedencia de las sugerencias de código siempre que sea posible. (Astraea Counsel)

🧷 Apache 2.0: permisiva + capa de patentes

Similar a MIT al permitir un uso amplio, pero añade:
- Una licencia/concesión de patente, y
- Condiciones sobre conservar un archivo NOTICE y ciertas atribuciones al redistribuir. (Astraea Counsel)
Para el entrenamiento, la gran cuestión legal tiene menos que ver con las patentes y más con no perder la atribución y los avisos cuando el código se regurgita como sugerencias.

En la práctica:

Entrenar con código Apache 2.0 se considera en general aceptable dentro de la concesión de la licencia, especialmente para modelos internos.
Si su asistente sugiere una función licenciada bajo Apache y un desarrollador la distribuye, puede necesitar mecanismos para:
- Detectar que provino de código licenciado bajo Apache, y
- Ayudar al desarrollador a conservar el NOTICE y el texto de la licencia cuando corresponda.

🧨 GPL / AGPL: copyleft, pero no claramente “infecciosas para el modelo”

Lo que el texto hace con claridad:

Le da permiso para copiar, modificar y ejecutar código GPL internamente, con cualquier propósito.
Dice que si distribuye un programa que es una obra derivada de código GPL o que lo “contiene”, debe licenciar la obra completa bajo GPL y proporcionar el código fuente.
La AGPL extiende esto al software ofrecido a través de una red, no solo a los binarios distribuidos. (Open Source Guy)

Lo que no está claro:

Si un modelo entrenado “contiene” el programa GPL en el sentido textual, o es una obra derivada.
Si distribuir los pesos del modelo cuenta como distribuir una obra derivada del código de entrenamiento.
Cuál es la “forma preferida para la modificación” de un modelo (¿los pesos? ¿los datos de entrenamiento? ¿el código de entrenamiento?). (Open Source Guy)

La comunidad y la doctrina coinciden en gran medida ahora mismo en dos puntos operativos:

Afirmar que “este modelo es GPL porque vio código GPL” es, en el mejor de los casos, muy improbable y, en el peor, contraproducente para el ecosistema de fuente abierta. (Open Source Guy)
Usar herramientas de IA para copiar fragmentos GPL en productos cerrados es un riesgo de cumplimiento muy real, incluso si nadie llega a probar la propagación de la licencia al modelo en sí.

Para los equipos cautelosos, eso suele traducirse en, o bien:

Evitar por completo el código GPL/AGPL en el entrenamiento; o
Restringirlo a proyectos claramente marcados donde el modelo y las herramientas resultantes se publicarán bajo términos totalmente abiertos compatibles con copyleft. (Astraea Counsel)

🧭 Salvaguardas prácticas para equipos que entrenan con código de fuente abierta

En lugar de reglas abstractas de “no haga eso,” aquí tiene una guía más operativa, en formato de tabla:

Situación	Salvaguarda sensata
Construir un asistente de código de uso general	Prefiera corpus solo permisivos (MIT/BSD/Apache). Si debe incluirse código GPL/AGPL, etiquételo por separado e implemente filtros para evitar la regurgitación, especialmente de archivos completos o funciones distintivas. (Astraea Counsel)
Permitir que los desarrolladores peguen sugerencias directamente en los productos	Añada advertencias en el IDE cuando las sugerencias coincidan con repositorios conocidos o cuando la similitud supere un umbral; anime a los desarrolladores a tratar las sugerencias de IA como el código de StackOverflow: revisar la licencia antes de distribuir.
Publicar modelos o productos copiloto de forma pública	Mantenga un inventario de datos de entrenamiento que al menos distinga las fuentes permisivas, copyleft, propietarias y “desconocidas.” Evite comercializar su modelo como “totalmente de fuente abierta” a menos que encaje en la Open Source AI Definition de OSI (código + pesos + información de datos bajo licencias aprobadas por OSI). (Open Source Initiative)
Ejecutar sobre bases de código de clientes	Trate el código del cliente como datos de alta sensibilidad, regidos por contrato. Separe los modelos entrenados con repositorios de clientes de los entrenados con OSS a escala de internet, y sea explícito en los contratos sobre los derechos de entrenamiento frente al uso solo de inferencia.
Usar modelos de pesos abiertos que a su vez fueron entrenados con código desconocido o mixto	Lea la licencia del modelo; muchos modelos “abiertos” son en realidad “de pesos abiertos” con restricciones no comerciales o de uso. No asuma que es seguro incorporarlos en herramientas de desarrollo comerciales solo porque los pesos se pueden descargar. (Hunton Andrews Kurth)

📌 Conclusiones

Ninguna licencia FOSS importante habla actualmente el lenguaje del “entrenamiento de IA,” así que estamos trasladando texto de los años noventa a la tecnología de 2025.
Para MIT / BSD / Apache, la principal tensión legal está entre:
- El amplio permiso para usar y modificar el código (incluido para entrenamiento), y
- Los deberes de atribución / aviso cuando el código (o fragmentos reconocibles de él) se redistribuyen a través de las salidas del modelo.
Para GPL / AGPL / MPL, el riesgo realista hoy es menos “su modelo ahora es GPL” y más:
- Salidas que llevan código copyleft a productos cerrados, y
- La posibilidad de que futuros tribunales o reguladores empujen hacia alguna forma de propagación de licencia en escenarios extremos de memorización.
Los tribunales están pasando de los “argumentos abstractos de uso justo” a análisis granulares e intensivos en hechos de cómo se entrenaron los modelos y qué producen, lo que convierte la documentación, el rastreo de procedencia y el filtrado de salidas en controles de riesgo centrales. (Astraea Counsel)

Desde la perspectiva de quien construye IA, la postura más segura ahora mismo es:

Trate el código de fuente abierta como licenciado, no como “combustible gratis”; diseñe su entrenamiento y sus herramientas de modo que pudiera explicar, bajo juramento, en qué licencias se apoyó, cómo cumplió con ellas y cómo evita que su modelo se convierta en una máquina de copiar código.