Licenciamiento de IA y Datos · Memorando

Licenciamiento de Datos de Entrenamiento de IA: Cómo Debe Ser un Acuerdo Funcional

La jurisprudencia sobre datos de entrenamiento de IA está genuinamente sin resolver, y el asesor que trabaja en este espacio debe ser honesto con sus clientes al respecto. Expondré la estructura de un acuerdo que creo que resiste bajo la mayoría de los resultados plausibles, y señalaré los puntos donde la ley aún no ha definido su postura.

Los casos que establecerán las reglas para los datos de entrenamiento de IA aún están en curso. La demanda colectiva Bartz v. Anthropic sobre libros usados en entrenamiento, el asunto paralelo Kadrey v. Meta, el litigio New York Times v. OpenAI, la línea Doe v. GitHub sobre código, la línea Andersen v. Stability AI sobre imágenes, y los múltiples asuntos en tribunales estatales y en el extranjero que corren en paralelo producirán un conjunto heterogéneo de resultados en los próximos dieciocho a treinta meses. La cuestión del uso legítimo (fair use) es la que más observadores siguen, y las resoluciones de tribunales de primera instancia hasta la fecha han sido inconsistentes en cuestiones clave, incluida la transformatividad del uso, la sustitución de mercado y la relevancia de los mecanismos de exclusión voluntaria. No creo que ningún profesional deba estar seguro sobre cómo se resolverá esto.

La consecuencia para la redacción es que una licencia de datos de entrenamiento de IA que depende de que la cuestión del uso legítimo se resuelva de una manera determinada es, en mi opinión, una licencia imprudente. El acuerdo debe estructurarse para resistir bajo un resultado fuerte o débil en cuanto al uso legítimo. Eso significa una concesión explícita, un conjunto de garantías explícitas, una indemnización explícita y una asignación explícita de la cuestión de los outputs del modelo.

La cláusula de concesión

La concesión no debe ser una sola oración. Los elementos estructurales que no redactaría sin incluir:

Alcance del uso permitido. El acuerdo debe especificar que el licenciatario puede usar los datos licenciados para entrenar, ajustar y evaluar modelos de aprendizaje automático. Debe especificar si el uso está limitado a un solo modelo nombrado o se extiende a modelos derivados o sucesores. Para la mayoría de los licenciantes de datos empresariales, la respuesta es un solo modelo con derecho a extender bajo una tarifa adicional.
Derechos sobre los outputs. El acuerdo debe especificar qué derechos tiene el licenciatario sobre los outputs de los modelos entrenados con los datos licenciados. El primer borrador del licenciante típicamente no dice nada sobre los outputs, lo que deja al licenciatario expuesto si el output infringe la obra licenciada. El licenciatario debe presionar para obtener una declaración de que los outputs no derivan en sentido protegible por derechos de autor de ninguna obra licenciada individual, más una indemnización si esa declaración falla. El licenciante resistirá esto y la negociación depende del conjunto de datos.
Territorio y duración. El entrenamiento es típicamente un evento único, pero el modelo continúa usando lo que aprendió. Una licencia que termina después de un período definido deja al licenciatario con un modelo entrenado con datos sobre los que ya no puede declarar que tiene derechos. La estructura más limpia: una licencia perpetua y mundial para entrenar y usar los modelos entrenados, con una licencia finita para el acceso continuo al propio conjunto de datos.
Sublicenciamiento. Si el licenciatario va a proporcionar un modelo a sus propios clientes, el acuerdo debe abordar si el uso del modelo por parte de los clientes está sublicenciado. La posición conservadora es que los clientes del licenciatario usen el modelo bajo los términos generales de licencia del licenciatario y el licenciatario permanezca responsable ante el licenciante; ninguna sublicencia separada fluye al cliente.

El conjunto de garantías

Las garantías del licenciante son donde ocurre la asignación real del riesgo. Las garantías mínimas que presiono para obtener desde el lado del licenciatario:

Que el licenciante es propietario o tiene los derechos para licenciar los datos.
Que el uso de los datos para el entrenamiento según lo especificado en el acuerdo no infringe los derechos de autor, marcas comerciales u otros derechos de propiedad intelectual de un tercero.
Que los datos fueron recopilados de conformidad con la ley aplicable (incluida la ley de privacidad, los controles de acceso al web scraping y los términos contractuales de la fuente).
Que ninguna persona cuyos datos están en el conjunto de datos ha invocado un derecho de exclusión voluntaria que impida el uso licenciado.

La cuarta garantía es la que la mayoría de los licenciantes no están en condiciones de dar claramente. La infraestructura de exclusión voluntaria para datos de entrenamiento sigue desarrollándose, y la garantía tal como está redactada puede no ser sostenible. El compromiso intermedio al que llego: el licenciante garantiza que, según su leal saber y entender, no se ha invocado ninguna exclusión voluntaria, con una declaración de que el licenciante utilizará esfuerzos comercialmente razonables para respetar las exclusiones voluntarias invocadas después de la fecha de la licencia. Eso es más suave de lo que querría, pero refleja la realidad de la capa de datos.

La indemnización

Para una licencia de datos de entrenamiento sustancial, la indemnización es la que hace el trabajo principal. La estructura que presiono para obtener: el licenciante indemniza al licenciatario por cualquier reclamación de terceros que alegue que los datos licenciados, tal como se usan de conformidad con el acuerdo, infringen los derechos de propiedad intelectual del tercero o fueron recopilados ilegalmente. La indemnización debe cubrir los costos de defensa, los importes de conciliación y las resoluciones, con controles procesales razonables.

Las exclusiones que solicitará el licenciante:

Reclamaciones derivadas de la combinación del licenciatario de los datos licenciados con otros datos, donde la infracción no habría ocurrido sin la combinación.
Reclamaciones derivadas del incumplimiento del licenciatario de respetar una exclusión voluntaria tras notificación del licenciante.
Reclamaciones derivadas del uso de los outputs del modelo por parte del licenciatario de una manera no contemplada por el acuerdo.

La primera exclusión es razonable en principio pero fácilmente sobreredactada. El mismo lenguaje de reducción que uso en las exclusiones de indemnización de propiedad intelectual en SaaS se aplica aquí. La segunda exclusión es razonable si el licenciante ha construido una infraestructura de exclusión voluntaria; si no, traslada el riesgo al licenciatario por el cumplimiento que el licenciatario no puede operar. La tercera exclusión es el lugar donde los licenciantes intentan trasladar el riesgo de infracción en los outputs al licenciatario, y la negociación depende de si el licenciante o el licenciatario tiene mayor visibilidad sobre el comportamiento de los outputs.

El archivo de procedencia de los datos

El requisito operativo que ahora añado a cualquier licencia de datos de entrenamiento sustancial: un archivo de procedencia de datos. El licenciante se compromete a entregar, en el momento de la licencia, un registro estructurado del origen de los datos (fuentes, fechas de recopilación, métodos de recopilación, consentimientos o licencias aplicables), el procesamiento de los datos (deduplicación, filtrado, redacción) y las limitaciones conocidas de los datos (subconjuntos conocidos infractores o de otro modo riesgosos que han sido eliminados). El archivo de procedencia es lo que necesitará el asesor del licenciatario cuando llegue una reclamación y el litigio requiera que el licenciatario rastree el linaje de los datos.

El licenciante resistirá el requisito del archivo de procedencia. El compromiso razonable es un archivo de procedencia resumido en la fecha de la licencia, con un registro más completo disponible a solicitud en caso de una reclamación de terceros. El registro completo no es, en la mayoría de los acuerdos, algo que el licenciante quiera en un expediente de descubrimiento público, por lo que el acuerdo debe tratarlo como confidencial.

Lo que yo no asumiría

La cuestión del uso legítimo está genuinamente abierta. El expediente de Bartz v. Anthropic afectará cómo los tribunales aplican el análisis de uso transformativo a la ingestión masiva de libros con derechos de autor. La línea Doe v. GitHub afectará el código. La línea Andersen v. Stability AI afectará las imágenes. Cada uno de estos asuntos ha tenido resoluciones inconsistentes a nivel de tribunal de primera instancia. El licenciatario que depende del uso legítimo como su licencia está asumiendo un riesgo de litigio que una licencia real, con garantías e indemnización, desplaza.

Las reglas de inferencia de la CCPA y la CPRA, y las regulaciones de ADMT en evolución de la CPPA, también inciden sobre si el entrenamiento con datos personales tiene una exposición separada bajo la ley estatal. Las reglas borrador de la CPPA a través de 2024 y 2025 han indicado que los sistemas de toma de decisiones automatizada entrenados con información personal están dentro del alcance de la agencia, con obligaciones específicas de aviso y exclusión voluntaria. La medida de redacción: asumir que la capa regulatoria se volverá más estricta, redactar el acuerdo para respaldar el cumplimiento de reglas más estrictas y poner la carga del cumplimiento regulatorio sobre la parte mejor posicionada para manejarlo (generalmente el licenciatario, con declaraciones de respaldo del licenciante).

¿Acuerdo de datos de entrenamiento de IA en su escritorio?

Si está trabajando una licencia de datos de entrenamiento en cualquier dirección y desea un borrador revisado con las posiciones de garantía, indemnización y procedencia que tomaría, escriba a owner@terms.law con el borrador actual.

Sergei Tokmakov, Esq., CA Bar #279869. Este memorando es comentario de un abogado sobre cuestiones jurídicas y no constituye asesoramiento legal. Su lectura no crea una relación abogado-cliente. Los resultados de asuntos anteriores dependen de los hechos y de la parte demandada; nada aquí es una predicción de resultado.