IA y licenciamiento de datos
Soy Sergei Tokmakov, abogado de California (CA Bar #279869). El trabajo contractual de IA se ha convertido en una parte significativa de mi práctica en los últimos dos años. Esta página cubre licencias de datos de entrenamiento, derechos de salida, acuerdos de servicio de modelo, contratos con proveedores de IA y la capa de privacidad que los rodea, en particular CCPA/CPRA y GDPR para datos transfronterizos. Está escrita para fundadores, proveedores de datos, constructores de modelos y operadores que están comprando o vendiendo servicios de IA y necesitan saber qué dice realmente el papel sobre entrenamiento, propiedad de salidas y riesgo aguas abajo.
Asuntos que manejo en esta área
- Acuerdos de licencia de datos de entrenamiento. Redacción y revisión de licencias para uso de imágenes, texto, audio, código y conjuntos de datos propietarios en entrenamiento de modelos. Alcance de uso, sublicenciamiento, derechos sobre conjuntos derivados y cláusulas de auditoría.
- Derechos de salida y propiedad de IP. Quién es dueño de la salida del modelo, qué licencia de retorno a la plataforma sobrevive, qué exclusiones existen para prompts y modelos afinados y cómo el contrato maneja salidas que reflejan los datos de entrenamiento.
- Acuerdos de servicio de modelo (MSA) con proveedores de IA. Revisión del lado del cliente de los términos de OpenAI, Anthropic, Cohere, Google, AWS Bedrock y Azure OpenAI; redacción del lado del proveedor para productos de IA construidos sobre esas API.
- Contratos con proveedores de servicios de IA bajo CCPA/CPRA. Clasificación como proveedor de servicios, contratista o tercero, cuál califica realmente su contrato y qué restricciones de uso impone esto al proveedor de IA.
- Despliegue transfronterizo de IA bajo GDPR. Términos de procesador del Artículo 28, mecanismos de transferencia internacional de datos (SCC, UK IDTA) y la capa de la EU AI Act para proveedores y desplegantes de IA de propósito general.
- Peleas de indemnización con proveedores de IA. Negociación del alcance del indemnity de IP (entrenamiento frente a salida), exclusiones para prompts suministrados por el cliente y el reciente movimiento de la industria hacia indemnity de IP del lado de la salida.
- TOS de productos de IA y políticas de uso. Redacción de términos para el cliente de productos de IA, incluyendo listas de uso prohibido, aplicación del uso aceptable, descargos sobre la salida y cláusulas de disputas.
Por qué esto es una área de práctica separada
Los contratos de IA se parecen a los contratos SaaS en la superficie y no lo son. La distribución sustantiva de riesgos pasa por cláusulas que no existían hace cinco años: garantías sobre datos de entrenamiento, IP de la salida del modelo, confidencialidad de prompts, acceso a monitoreo de abuso y la cadena de lenguaje de proveedor de servicios CCPA y procesador GDPR que debe fluir a través de modelo, API e integrador. Trato esto como un área separada porque la lista de diligencia es materialmente diferente.
Estudios de caso anonimizados
Proveedor de conjuntos de datos negoció una licencia con un constructor de modelo de fundación
Hechos: Un curador de datos especializado poseía un conjunto de aproximadamente medio millón de imágenes autorizado para uso comercial. Un constructor de modelo de fundación quería una licencia para entrenar un modelo multimodal. El acuerdo estándar del constructor de modelo incluía amplios derechos de sublicencia, uso perpetuo tras la terminación y sin derechos de auditoría para el dueño de los datos.
Lo que hice: Reescribí la licencia como limitada al campo de uso (solo entrenamiento de modelos), prohibí el sublicenciamiento a entrenadores de modelos de terceros sin consentimiento, limité la exclusión de uso perpetuo a una lista definida de modelos con nombre y agregué un derecho de auditoría con un envoltorio de confidencialidad. Añadí una declaración de que el modelo entrenado no se configuraría intencionalmente para regenerar imágenes de entrenamiento identificables en el momento de salida.
Resultado: El constructor del modelo aceptó la limitación de campo de uso y la lista de modelos nombrados. El derecho de auditoría se redujo a un auditor de terceros bajo un acuerdo mutuo de confidencialidad. La tarifa de licencia se pagó por adelantado en lugar de en cuotas.
Cliente SaaS que adopta una función de IA construida sobre un modelo de fundación de terceros
Hechos: Una empresa SaaS de mercado medio quería agregar una función de resumen con IA para sus clientes empresariales. La función estaba construida sobre una API de modelo de fundación importante. Los acuerdos empresariales del lado del cliente prometían "sin uso de datos del cliente para entrenamiento del modelo", pero el acuerdo del proveedor con el proveedor del modelo de fundación no respaldaba limpiamente esta promesa.
Lo que hice: Revisé los términos empresariales para el cliente y el acuerdo de API del modelo de fundación lado a lado. Identifiqué la brecha: el acuerdo del modelo de fundación permitía uso limitado de entrenamiento a menos que el cliente estuviera en un nivel empresarial específico y se habilitaran ciertos ajustes. Redacté un anexo correctivo de DPA, una lista interna de control de una página y un lenguaje corrector para los clientes preciso respecto a la configuración técnica real.
Resultado: Los términos para el cliente se actualizaron para coincidir con la configuración subyacente. La empresa SaaS pasó al nivel empresarial de la API del modelo de fundación y confirmó que la opción de no entrenamiento estaba habilitada por defecto. La ventana de exposición se reveló al cliente más afectado con una atestación escrita.
Proveedor de IA demandado por un cliente por presunta infracción de IP en la salida
Hechos: Un proveedor de IA de generación de código recibió una carta de demanda de un cliente cuyo cliente final aguas abajo había sido acusado de usar código generado por IA que presuntamente reflejaba una base de código de código abierto bajo una licencia copyleft. El cliente exigió indemnización conforme al acuerdo estándar del proveedor, que incluía un indemnity de IP pero excluía los "prompts del cliente" de la cobertura.
Lo que hice: Representé al proveedor de IA. Revisé el historial de prompts, los filtros de salida del modelo y el alcance real de la cláusula de indemnity. La salida en cuestión se generó a partir de un prompt suministrado por el cliente que solicitaba explícitamente código que coincidiera con un estilo específico de código abierto. Bajo el contrato, ese escenario impulsado por el prompt caía dentro de la exclusión del prompt. Redacté una carta de respuesta explicando el análisis y ofreciendo, sin admisión, un paquete estructurado de cooperación, incluida la indemnización por honorarios legales en el asunto aguas abajo hasta un tope definido.
Resultado: El cliente aceptó el paquete de cooperación. El asunto aguas abajo se resolvió al nivel del cliente. El proveedor de IA revisó su flujo de incorporación para incluir una advertencia de prompt antes de generar código en estilos estrechamente asociados con bases de código copyleft.
Estatutos de California y autoridad federal de control
A continuación, la lista de trabajo de autoridades que invoco con más frecuencia. La ley de IA está cambiando; confirmo las citas contra el texto estatutario actual antes de incluirlas en un entregable para el cliente.
- Cal. Civ. Code sección 1798.100 et seq. (CCPA, modificado por CPRA), incluidas las definiciones de proveedor de servicios y contratista y los términos contractuales requeridos.
- Regulaciones de la California Privacy Protection Agency, incluidas las reglas de 2025-2026 sobre tecnología de toma de decisiones automatizada y evaluaciones de riesgo.
- Cal. Civ. Code sección 3344, derecho de publicidad, cuando la salida de IA usa nombre, imagen o voz sin consentimiento.
- Cal. Bus. and Prof. Code sección 17200, Ley de Competencia Desleal, aplicada al marketing engañoso de IA y al uso no divulgado de datos.
- Cal. Bus. and Prof. Code sección 22675 et seq., donde aplique a las obligaciones de transparencia de datos de entrenamiento de IA promulgadas en 2024 (p. ej., AB 2013) para desarrolladores de IA generativa que operan en California.
- Cal. Civ. Code sección 1798.99.20 et seq., toma de decisiones automatizada y obligaciones de aviso de acción adversa en industrias específicas.
- 17 U.S.C. sección 102 et seq. (Ley federal de derechos de autor), incluida la línea de casos sobre salida generada por IA y autoría humana bajo Thaler v. Perlmutter y la guía de la Oficina de Derechos de Autor de 2023-2025.
- 17 U.S.C. sección 1201 (DMCA), incluidas las exenciones anticircunvención para investigación de seguridad de IA.
- Federal Defend Trade Secrets Act, 18 U.S.C. sección 1836, para apropiación indebida de datos de entrenamiento.
- Ley de Inteligencia Artificial de la UE (Reglamento (UE) 2024/1689), incluidas las obligaciones de IA de propósito general y la lista de prácticas prohibidas.
- Artículos 5, 6, 22, 28, 32 y 46 del GDPR, sobre licitud, decisiones automatizadas, términos de procesador, seguridad y transferencia internacional.
- UK Data Protection Act 2018 y guía de la ICO sobre decisiones automatizadas, cuando el cliente o los titulares de datos están en el Reino Unido.
- Jurisprudencia: Andersen v. Stability AI (N.D. Cal., pendiente) y los casos consolidados de datos de entrenamiento; Authors Guild v. OpenAI (S.D.N.Y., pendiente); New York Times v. Microsoft y OpenAI (S.D.N.Y., pendiente). Estos son objetivos en movimiento; los cito como pendientes mientras lo sigan siendo.
Cuestiones contractuales modelo que verifico en cada revisión de IA
- Alcance de los datos de entrenamiento: qué datos usa el proveedor, si las entradas del cliente se usan para entrenamiento y cuál es el mecanismo de opt-out.
- Propiedad de la salida: quién es dueño de la salida, qué licencia de retorno al proveedor sobrevive, qué exclusiones se aplican a afinaciones y modelos personalizados.
- Indemnity de IP: ¿es del lado de salida, entrenamiento o ambos, y cuáles son las exclusiones para prompts del cliente y datos suministrados por el cliente?
- Clasificación como proveedor de servicios bajo CCPA/CPRA: ¿está redactado el contrato para calificar y qué restricciones de uso impone?
- Términos del Artículo 28 del GDPR: ¿están presentes y son precisos las obligaciones del procesador, el traspaso de subprocesadores y las ventanas de brecha?
- Residencia de datos: dónde se realiza el entrenamiento y la inferencia y qué mecanismo de transferencia internacional aplica.
- Acceso a monitoreo de abuso: ¿tiene el proveedor un derecho contractual para leer prompts y salidas para revisión de seguridad y cómo se reconcilia con la confidencialidad del cliente?
- Terminación y eliminación: ¿sobreviven los datos y cualquier peso afinado a la terminación y en qué cronograma?
- Uso aceptable: ¿son claras las categorías de uso prohibido, son recíprocas y cuál es el mecanismo de cura y suspensión?
- Capa de la EU AI Act: ¿es el proveedor un proveedor de IA de propósito general y se abordan las obligaciones de documentación técnica y divulgación?
Dónde realmente muerde la capa de privacidad
La capa de privacidad sobre contratos de IA es más que un ejercicio de marcar casillas. Tres ejemplos concretos donde la postura de privacidad define el acuerdo.
Clasificación como proveedor de servicios CCPA. Una empresa SaaS que integra un proveedor de IA de terceros en su producto casi siempre quiere que el proveedor de IA califique como "proveedor de servicios" bajo la CCPA. La calificación es contractual: el proveedor no puede usar los datos para sus propios fines, no puede retenerlos más allá del período del contrato y está restringido en el uso conductual entre contextos. Si el contrato del proveedor de IA reserva derechos de uso de entrenamiento, el proveedor puede no ser un proveedor de servicios, lo que significa que la declaración de la empresa SaaS de "no vendemos ni compartimos sus datos" a sus propios clientes se vuelve inexacta. La exposición es de la empresa SaaS, no del proveedor de IA. Reviso el contrato para esta brecha en cada revisión de proveedor de IA.
Mecanismo de transferencia internacional GDPR. Cuando el proveedor de IA procesa datos personales de la UE, el contrato debe designar un mecanismo de transferencia: Cláusulas Contractuales Estándar, el Marco UE-EE. UU. de Privacidad de Datos (cuando el proveedor está autocertificado) o, en casos limitados, una decisión de adecuación. Muchos contratos de proveedores de IA insinúan esto sin nombrar el mecanismo. El contrato debe nombrarlo realmente. La propia DPIA del cliente depende de la respuesta.
Toma de decisiones automatizada bajo CCPA/CPRA y la EU AI Act. Las reglas de California sobre tecnología de toma de decisiones automatizada y la EU AI Act imponen obligaciones de divulgación y evaluación de riesgo para ciertos usos de IA. El contrato debe divulgar si el proveedor está suministrando un sistema de IA de "alto riesgo" (EU AI Act) o una tecnología de toma de decisiones automatizada "cubierta" (reglas CPPA de California), para que el cliente pueda cumplir con sus propias obligaciones aguas abajo. Un proveedor que renuncia a esta divulgación en el contrato está descargando riesgo regulatorio en el cliente; a veces es aceptable, a veces no. Lo señalo explícitamente en cada revisión de proveedor de IA.
La pregunta más importante para cualquier acuerdo de IA
Una pregunta separa una relación defendible con proveedor de IA de un problema esperando ocurrir: ¿los datos del cliente se convierten en parte del modelo del proveedor?. El contrato debe responder esto claramente. "No usamos datos del cliente para entrenamiento" no es suficiente; el contrato debe decirlo, la configuración técnica debe respaldar el contrato y las exclusiones (monitoreo de abuso, revisión de seguridad, datos agregados y desidentificados) deben definirse de modo lo suficientemente estrecho como para que no se traguen la regla. El modo de fallo recurrente es un contrato que dice que el uso de entrenamiento es por defecto opt-out, cuando los propios términos del cliente para sus clientes prometen que no se usan datos del cliente para entrenamiento. Los dos documentos divergen en silencio hasta que algo más dispara una revisión. Detectar esto en el día uno es la mayor parte del valor que aporto en trabajo de proveedor de IA.
Rangos de honorarios típicos
Preguntas frecuentes sobre IA y licenciamiento de datos
¿Las salidas de IA son protegibles por derechos de autor? Según la guía actual de la Oficina de Derechos de Autor de EE. UU., la salida puramente generada por IA sin autoría humana significativa no es protegible. Los prompts de autoría humana y la selección o arreglo curado por humanos de salida de IA pueden producir una obra protegible. La línea es específica a los hechos y está en movimiento. Sigo la guía de la Oficina de Derechos de Autor y la litigación pendiente; para cualquier producto específico le diré al cliente dónde se sitúa el activo en esa línea y cuál debería ser la estrategia de documentación.
¿Las demandas estadounidenses sobre datos de entrenamiento invalidarán mi producto? Casi seguro que no para usuarios de API de modelos de fundación. El indemnity de IP del lado de salida es ahora estándar de los principales proveedores de modelos de fundación para clientes empresariales; ese indemnity es el mecanismo práctico de transferencia de riesgo. Para constructores de modelos que entrenan con datos de terceros, el riesgo es real y es objeto de casos pendientes. Leo la lista pendiente mensualmente y ajusto los consejos al cliente en consecuencia.
¿Cómo redacto los términos para clientes de un producto de IA? Descargo sobre la salida, descargo de exactitud y fiabilidad, lista de uso prohibido, opt-out de datos del cliente y entrenamiento, y una asignación clara de quién es dueño del prompt y de la salida. Redacto esto como un documento, no como cláusulas estándar separadas, para que el cliente pueda leerlo de una sentada y entender a qué está aceptando.
¿Necesito un DPA con mi proveedor de modelo de fundación? Si procesa datos personales (la mayoría de las funciones de IA para clientes lo hacen), sí. Los principales proveedores de modelos de fundación ofrecen DPA; muchos están vinculados desde el centro de confianza del proveedor y requieren contrafirma manual. Un número sorprendente de clientes ejecuta funciones de IA durante meses sin firmar nunca el DPA.
¿Qué pasa con la EU AI Act? Si sirve a usuarios de la UE, aplica la capa de la EU AI Act. Las obligaciones de IA de propósito general (transparencia, documentación técnica, resumen de datos de entrenamiento bajo derechos de autor) recaen sobre el proveedor del modelo; las obligaciones del desplegante recaen sobre usted. El cronograma de implementación va de 2026 a 2027; el consejo práctico es mapear su producto contra las categorías de riesgo ahora, no más tarde.
Cuándo contratarme, cuándo manejarlo internamente, cuándo acudir a una firma grande
Contráteme cuando esté firmando un contrato con proveedor de IA por encima del nivel estándar de autoservicio, cuando esté licenciando un conjunto de datos o se lo estén licenciando, cuando esté lanzando un producto de IA y necesite un paquete de términos para clientes que no rompa su posición CCPA o GDPR, o cuando tenga una disputa con una sola contraparte sobre IP de salida o uso de datos de entrenamiento. Soy el ajuste adecuado para fundadores, abogados internos y operadores que quieren un redline funcional y una respuesta clara de un párrafo.
Manéjelo internamente cuando esté comprando servicios de IA en un nivel de autoservicio con términos estándar y su caso de uso sea de bajo riesgo (productividad interna, no de cara al cliente). El acuerdo estándar del proveedor rara vez vale un redline a ese nivel. Confirme que su equipo no está pegando datos del cliente en prompts y ya ha hecho lo que tenía que hacer.
Vaya a una firma grande cuando esté litigando una acción colectiva sobre datos de entrenamiento, cuando esté respondiendo a un regulador bajo la EU AI Act, la FTC o los equipos de aplicación de la CPPA, o cuando esté negociando una asociación con un modelo de fundación al nivel que dispare una revisión antimonopolio. Cooley, Wilson Sonsini, Latham y Gunderson tienen bancas completas para IA; para una litigación importante o un asunto regulatorio multijurisdiccional, contrátelos y use mi servicio para una segunda lectura de cláusulas específicas si quiere.
Envíe el acuerdo de IA o el resumen del asunto
Envíeme un correo con el acuerdo adjunto y unas líneas sobre su rol. Respondo personalmente, normalmente dentro de un día hábil.
Qué incluir: el archivo o enlace del producto TOS, si es vendedor, cliente o licenciante, el valor del acuerdo o monto de riesgo, sus jurisdicciones (estados de EE. UU., UE, Reino Unido) y un párrafo sobre lo que desea cambiar o recuperar.
Enviar la admisión de IA