Licenciamiento de IA y Datos · Memorando

Licenciamiento de Datos de Entrenamiento de IA: Cómo Debe Ser un Acuerdo Funcional

La jurisprudencia sobre datos de entrenamiento de IA está genuinamente sin resolver, y el asesor que trabaja en este espacio debe ser honesto con sus clientes al respecto. Expondré la estructura de un acuerdo que creo que resiste bajo la mayoría de los resultados plausibles, y señalaré los puntos donde la ley aún no ha definido su postura.

Los casos que establecerán las reglas para los datos de entrenamiento de IA aún están en curso. La demanda colectiva Bartz v. Anthropic sobre libros usados en entrenamiento, el asunto paralelo Kadrey v. Meta, el litigio New York Times v. OpenAI, la línea Doe v. GitHub sobre código, la línea Andersen v. Stability AI sobre imágenes, y los múltiples asuntos en tribunales estatales y en el extranjero que corren en paralelo producirán un conjunto heterogéneo de resultados en los próximos dieciocho a treinta meses. La cuestión del uso legítimo (fair use) es la que más observadores siguen, y las resoluciones de tribunales de primera instancia hasta la fecha han sido inconsistentes en cuestiones clave, incluida la transformatividad del uso, la sustitución de mercado y la relevancia de los mecanismos de exclusión voluntaria. No creo que ningún profesional deba estar seguro sobre cómo se resolverá esto.

La consecuencia para la redacción es que una licencia de datos de entrenamiento de IA que depende de que la cuestión del uso legítimo se resuelva de una manera determinada es, en mi opinión, una licencia imprudente. El acuerdo debe estructurarse para resistir bajo un resultado fuerte o débil en cuanto al uso legítimo. Eso significa una concesión explícita, un conjunto de garantías explícitas, una indemnización explícita y una asignación explícita de la cuestión de los outputs del modelo.

La cláusula de concesión

La concesión no debe ser una sola oración. Los elementos estructurales que no redactaría sin incluir:

El conjunto de garantías

Las garantías del licenciante son donde ocurre la asignación real del riesgo. Las garantías mínimas que presiono para obtener desde el lado del licenciatario:

  1. Que el licenciante es propietario o tiene los derechos para licenciar los datos.
  2. Que el uso de los datos para el entrenamiento según lo especificado en el acuerdo no infringe los derechos de autor, marcas comerciales u otros derechos de propiedad intelectual de un tercero.
  3. Que los datos fueron recopilados de conformidad con la ley aplicable (incluida la ley de privacidad, los controles de acceso al web scraping y los términos contractuales de la fuente).
  4. Que ninguna persona cuyos datos están en el conjunto de datos ha invocado un derecho de exclusión voluntaria que impida el uso licenciado.

La cuarta garantía es la que la mayoría de los licenciantes no están en condiciones de dar claramente. La infraestructura de exclusión voluntaria para datos de entrenamiento sigue desarrollándose, y la garantía tal como está redactada puede no ser sostenible. El compromiso intermedio al que llego: el licenciante garantiza que, según su leal saber y entender, no se ha invocado ninguna exclusión voluntaria, con una declaración de que el licenciante utilizará esfuerzos comercialmente razonables para respetar las exclusiones voluntarias invocadas después de la fecha de la licencia. Eso es más suave de lo que querría, pero refleja la realidad de la capa de datos.

La indemnización

Para una licencia de datos de entrenamiento sustancial, la indemnización es la que hace el trabajo principal. La estructura que presiono para obtener: el licenciante indemniza al licenciatario por cualquier reclamación de terceros que alegue que los datos licenciados, tal como se usan de conformidad con el acuerdo, infringen los derechos de propiedad intelectual del tercero o fueron recopilados ilegalmente. La indemnización debe cubrir los costos de defensa, los importes de conciliación y las resoluciones, con controles procesales razonables.

Las exclusiones que solicitará el licenciante:

La primera exclusión es razonable en principio pero fácilmente sobreredactada. El mismo lenguaje de reducción que uso en las exclusiones de indemnización de propiedad intelectual en SaaS se aplica aquí. La segunda exclusión es razonable si el licenciante ha construido una infraestructura de exclusión voluntaria; si no, traslada el riesgo al licenciatario por el cumplimiento que el licenciatario no puede operar. La tercera exclusión es el lugar donde los licenciantes intentan trasladar el riesgo de infracción en los outputs al licenciatario, y la negociación depende de si el licenciante o el licenciatario tiene mayor visibilidad sobre el comportamiento de los outputs.

El archivo de procedencia de los datos

El requisito operativo que ahora añado a cualquier licencia de datos de entrenamiento sustancial: un archivo de procedencia de datos. El licenciante se compromete a entregar, en el momento de la licencia, un registro estructurado del origen de los datos (fuentes, fechas de recopilación, métodos de recopilación, consentimientos o licencias aplicables), el procesamiento de los datos (deduplicación, filtrado, redacción) y las limitaciones conocidas de los datos (subconjuntos conocidos infractores o de otro modo riesgosos que han sido eliminados). El archivo de procedencia es lo que necesitará el asesor del licenciatario cuando llegue una reclamación y el litigio requiera que el licenciatario rastree el linaje de los datos.

El licenciante resistirá el requisito del archivo de procedencia. El compromiso razonable es un archivo de procedencia resumido en la fecha de la licencia, con un registro más completo disponible a solicitud en caso de una reclamación de terceros. El registro completo no es, en la mayoría de los acuerdos, algo que el licenciante quiera en un expediente de descubrimiento público, por lo que el acuerdo debe tratarlo como confidencial.

Lo que yo no asumiría

La cuestión del uso legítimo está genuinamente abierta. El expediente de Bartz v. Anthropic afectará cómo los tribunales aplican el análisis de uso transformativo a la ingestión masiva de libros con derechos de autor. La línea Doe v. GitHub afectará el código. La línea Andersen v. Stability AI afectará las imágenes. Cada uno de estos asuntos ha tenido resoluciones inconsistentes a nivel de tribunal de primera instancia. El licenciatario que depende del uso legítimo como su licencia está asumiendo un riesgo de litigio que una licencia real, con garantías e indemnización, desplaza.

Las reglas de inferencia de la CCPA y la CPRA, y las regulaciones de ADMT en evolución de la CPPA, también inciden sobre si el entrenamiento con datos personales tiene una exposición separada bajo la ley estatal. Las reglas borrador de la CPPA a través de 2024 y 2025 han indicado que los sistemas de toma de decisiones automatizada entrenados con información personal están dentro del alcance de la agencia, con obligaciones específicas de aviso y exclusión voluntaria. La medida de redacción: asumir que la capa regulatoria se volverá más estricta, redactar el acuerdo para respaldar el cumplimiento de reglas más estrictas y poner la carga del cumplimiento regulatorio sobre la parte mejor posicionada para manejarlo (generalmente el licenciatario, con declaraciones de respaldo del licenciante).

¿Acuerdo de datos de entrenamiento de IA en su escritorio?

Si está trabajando una licencia de datos de entrenamiento en cualquier dirección y desea un borrador revisado con las posiciones de garantía, indemnización y procedencia que tomaría, escriba a owner@terms.law con el borrador actual.

Sergei Tokmakov, Esq., CA Bar #279869. Este memorando es comentario de un abogado sobre cuestiones jurídicas y no constituye asesoramiento legal. Su lectura no crea una relación abogado-cliente. Los resultados de asuntos anteriores dependen de los hechos y de la parte demandada; nada aquí es una predicción de resultado.