Caso judicial OpenAI: ¿Pueden citarse judicialmente tus registros de ChatGPT? 20 millones de chats ordenados a divulgarse
OpenAI v. New York Times: Cuando tus registros de ChatGPT se convierten en prueba
Cómo una demanda por derechos de autor se convirtió en una orden de divulgación de 20 millones de chats, y lo que significa para la privacidad en la IA
Un análisis de audio exhaustivo sobre las implicaciones legales y las preocupaciones sobre privacidad
Lo que comenzó como una disputa por derechos de autor sobre datos de entrenamiento se ha convertido en una prueba histórica de hasta dónde puede llegar el descubrimiento civil en los historiales de chat de IA, y qué sucede cuando las promesas de privacidad de una plataforma chocan con una orden judicial federal.
Un juez ordena a OpenAI dejar de eliminar los registros de ChatGPT, conservando indefinidamente todos los datos de salida en los niveles Free, Plus, Pro y Team
El tribunal ordena a OpenAI producir 20 millones de registros de chat de ChatGPT desidentificados para The New York Times y otros demandantes
OpenAI solicita reconsideración, argumentando que la orden es un desastre para la privacidad y una expedición de pesca que afecta a millones de usuarios no involucrados
¿Puede una orden judicial federal anular las solicitudes explícitas de eliminación de los usuarios y las promesas de privacidad?
¿Son realmente anónimos 20 millones de chats "desidentificados", o pueden ser re-identificados usando pistas contextuales?
La brecha entre el mensaje "tus chats son privados" y la realidad legal de la divulgación ordenada por un tribunal
Los tribunales tratan los chats de IA como registros comerciales sujetos a descubrimiento, no como comunicaciones privilegiadas como las conversaciones entre abogado y cliente
OpenAI tuvo que:
- Suspender las prácticas de eliminación normales durante meses
- Conservar los chats que los usuarios eliminaron explícitamente
- Suspender temporalmente el "derecho a la supresión" de los usuarios de la UE bajo el Artículo 17 del RGPD
- Prepararse para entregar millones de conversaciones a la parte contraria bajo una orden de protección
Este caso establece que los registros de chat de IA están sujetos a las reglas estándar de descubrimiento civil a una escala sin precedentes. Incluso con órdenes de protección y desidentificación, millones de conversaciones de usuarios se convirtieron en prueba en litigios, un nuevo perfil de riesgo para cualquier plataforma de IA o usuario intensivo de IA.
Lo que comenzó como una disputa sobre datos de entrenamiento es ahora una prueba en vivo de tres cosas:
- hasta dónde puede llegar el descubrimiento civil en los historiales de chat de IA,
- cuánta protección brindan realmente la “anonimización” y las órdenes de protección, y
- qué significa cuando las promesas de privacidad de una plataforma chocan con sus propios Términos de Uso y una orden judicial federal.
Por qué este caso se convirtió en un asunto sobre registros de chat 🧠💬
La demanda subyacente es bastante directa: The New York Times alega que OpenAI y Microsoft usaron millones de artículos del Times sin permiso para entrenar modelos GPT, y que los modelos pueden regurgitar contenido del Times de formas que infringen los derechos de autor. El Juez Sidney Stein permitió en gran medida que el caso avanzara en abril de 2025, rechazando la mayor parte de la moción de OpenAI para desestimar y encontrando que el Times había alegado de manera plausible la infracción de derechos de autor. (Reuters)
Una vez que el caso entró en la fase de descubrimiento, los demandantes presionaron por pruebas de resultados, no solo datos de entrenamiento, para mostrar cómo se comportan los modelos en el mundo real. Ahí es donde entran los chats de los usuarios:
- los demandantes argumentaron que las indicaciones y los resultados del mundo real podrían mostrar una “regurgitación” sistemática del contenido del Times,
- OpenAI argumentó que la solicitud es excesivamente amplia, convierte a millones de usuarios no involucrados en daños colaterales, y entra en conflicto con sus prácticas de privacidad y eliminación.
A partir de ahí, se obtienen dos órdenes críticas: una orden de conservación y una orden de producción.
La orden de conservación: “guarda todo” 🔒
El 13 de mayo de 2025, la Magistrada Jueza Ona Wang ordenó a OpenAI ”conservar y segregar todos los datos de registro de salida que de otro modo se eliminarían de forma continua hasta nueva orden del Tribunal.” (cdn.arstechnica.net)
En términos sencillos:
- OpenAI tuvo que dejar de eliminar los registros de salida de ChatGPT bajo sus políticas normales,
- incluidos los chats que los usuarios habían eliminado explícitamente o que las leyes de privacidad de otro modo requerirían que OpenAI borrara,
- para esencialmente toda la base de usuarios activos en los niveles Free, Plus, Pro y Team (los clientes empresariales / de retención cero de datos fueron excluidos).
OpenAI objetó públicamente, llamando a la orden un “exceso” de privacidad que “abandona las normas de privacidad de larga data” y pidiendo al juez de distrito que la anulara.
Algunos puntos clave para tu análisis:
| 🧩 Característica de la orden de conservación | 🧐 Por qué importa |
|---|---|
| Retención indefinida de todos los registros de salida | Entra en conflicto directo con el compromiso previo de OpenAI de eliminar los chats (incluidos los “eliminados”) después de unos 30 días. (The Verge) |
| Incluye datos cubiertos por el “derecho a la supresión” | OpenAI dijo explícitamente a los usuarios de la UE que estaba suspendiendo temporalmente los derechos de supresión bajo el Art. 17(3)(b) del RGPD debido a la orden judicial. (Reddit) |
| Exime los acuerdos empresariales / de retención cero | Confirma que lo que negociaste en tu contrato B2B puede cambiar materialmente tu exposición cuando tu proveedor sea demandado. |
Para el 22 de octubre de 2025, OpenAI informó que su obligación de retener todo el contenido del consumidor indefinidamente bajo esa orden particular terminó el 26 de septiembre de 2025, pero solo después de meses de retención extraordinaria. (OpenAI)
La batalla por la conservación sentó las bases para la siguiente disputa, más intensa: la producción.
La orden de producción de 20 millones de chats 🧾➡️🕵️
En noviembre de 2025, la Jueza Wang fue un paso más allá: ordenó a OpenAI producir 20 millones de registros de chat de ChatGPT desidentificados para el Times y otros “Demandantes de Noticias”. (Ars Technica)
La cronología, en resumen:
- 30 de oct de 2025: los demandantes solicitan una muestra de 20 millones de registros de consumidores;
- 7 de nov de 2025: Wang concede la solicitud, requiriendo la producción de los 20 millones de registros desidentificados antes del 14 de noviembre, bajo una orden de protección existente;
- 12 de nov de 2025: OpenAI presenta una carta y moción de reconsideración, argumentando que la orden es una expedición de pesca y un desastre para la privacidad;
- 13 de nov de 2025: Wang niega una suspensión (al menos inicialmente); el plazo se mantiene. (PPC Land)
La posición de OpenAI:
- el 99,99% de los 20 millones de registros son irrelevantes para determinar si ChatGPT regurgita contenido del Times, basándose en las propias concesiones anteriores de los demandantes sobre la prevalencia;
- incluso con la desidentificación, el contenido de los registros es “profundamente personal” y en algunos casos sensible desde el punto de vista de la seguridad;
- el tribunal no lidió suficientemente con la proporcionalidad, la privacidad o la adecuación de la anonimización. (Reuters)
La posición del Times:
- todo está anonimizado;
- todos los datos están cubiertos por una estricta orden de protección y protocolos de seguridad;
- esto es un muestreo rutinario a gran escala para probar las afirmaciones de OpenAI sobre la frecuencia con la que sus resultados siguen el contenido del Times. (Business Insider)
La orden de la Jueza Wang se basa explícitamente en esas salvaguardias: la producción está desidentificada y sujeta a una orden de protección con controles de acceso, registro y limitaciones de uso. (Ars Technica)
Así que, procedimentalmente, ahora tienes:
| ⚖️ Paso de descubrimiento | 📌 Estado a finales de noviembre de 2025 |
|---|---|
| Conservación masiva de registros | Ordenada en mayo de 2025; posteriormente limitada, pero suficiente para cambiar el comportamiento de retención de OpenAI durante meses. (Nelson Mullins Riley & Scarborough LLP) |
| Producción de 20 millones de registros | Ordenada el 7 de noviembre; OpenAI busca reconsideración y reversión, argumentando privacidad y proporcionalidad. (Reuters) |
Independientemente de lo que suceda en la reconsideración, el precedente ya está establecido: un tribunal federal ordenó a un proveedor de IA extraer 20 millones de conversaciones de usuarios y entregárselas a una parte contraria bajo una orden de protección.
Ese es el nuevo perfil de riesgo de descubrimiento.
¿Qué tan “anónimos” son realmente 20 millones de chats? 🕶️
Desde la perspectiva del tribunal y del Times:
- los registros están desidentificados (OpenAI elimina datos PII, contraseñas y otros campos sensibles obvios), y
- una orden de protección restringe el uso al litigio, limita quién puede ver los datos y requiere un entorno seguro. (OpenAI)
Desde la perspectiva de los comentaristas de privacidad y ciberseguridad, esto es mucho más complicado:
- la investigación moderna de re-identificación muestra de manera rutinaria que el texto “anónimo” puede vincularse a individuos combinando hechos únicos, estilo de escritura y datos externos;
- 20 millones de conversaciones prácticamente garantizan peculiaridades vinculables (eventos únicos, fechas, ubicaciones) que pueden apuntar a personas reales;
- cuantas más partes y expertos posean copias, mayor será la superficie de ataque para un conjunto de datos muy jugoso. (National Law Review)
OpenAI ha apoyado fuertemente esta línea de argumentación en sus mensajes públicos, diciendo que la orden:
- ”ignora las protecciones de privacidad de larga data” y
- ”rompe con las prácticas de seguridad de sentido común” al forzar la divulgación de chats altamente personales de personas no relacionadas con el Times. (OpenAI)
El Times, por su parte, ha respondido públicamente que:
- los propios Términos de OpenAI ya permiten el uso de chats para fines de entrenamiento y legales;
- los registros que solicitan están anonimizados y protegidos; y
- acusarlos de intentar “invadir la privacidad del usuario” es alarmismo dado que existe la orden de protección. (Business Insider)
Ese choque es exactamente donde entran los Términos de Uso.
Qué papel juegan los propios Términos de Uso de OpenAI y sus promesas de privacidad 📜🔍
OpenAI comercializa ChatGPT como respetuoso de la privacidad: los usuarios pueden eliminar chats, optar por no participar en el entrenamiento y (en algunos niveles) disfrutar de retención cero de datos. (OpenAI)
Pero sus Términos de Uso y el lenguaje de privacidad también incluyen la familiar puerta trasera que tiene todo producto SaaS:
”Podemos conservar o divulgar tu información si creemos que es razonablemente necesario para cumplir con una ley, regulación, proceso legal o solicitud gubernamental.” (Reddit)
Así que, en papel:
- OpenAI promete la eliminación y la retención limitada a menos que un proceso legal (como esta demanda) diga lo contrario;
- se reserva explícitamente el derecho a conservar y divulgar datos de usuario para cumplir con las órdenes judiciales.
Las órdenes de descubrimiento son precisamente ese “proceso legal”. Desde una perspectiva puramente contractual, OpenAI está haciendo exactamente lo que casi todas las políticas de privacidad de la industria dicen: eliminaremos, excepto cuando la ley diga que no podemos.
La fricción está en la brecha entre el mensaje y la realidad:
| 🎭 Promesa / Percepción | 🧱 Realidad del litigio |
|---|---|
| ”Eliminar significa eliminar; tus chats desaparecen en 30 días.” (The Verge) | ”Eliminar significa que los marcamos para eliminación, a menos que un juez federal ordene la conservación indefinida y la producción masiva.” (cdn.arstechnica.net) |
| ”Luchamos por tu privacidad contra solicitudes excesivamente amplias.” (OpenAI) | ”Perdimos en la conservación; hemos perdido (hasta ahora) en la producción de 20 millones de registros; las órdenes de protección sustituyen al secreto real.” (Ars Technica) |
| ”Tus chats son privados, como hablar con un abogado o un médico.” (La retórica del ‘privilegio de IA’ de Altman) (TechRadar) | Las conversaciones con IA no son privilegiadas; los tribunales las tratan como registros comerciales sujetos a descubrimiento y al descubrimiento civil amplio. (National Law Review) |
Legalmente, los Términos de Uso dan a OpenAI margen para cumplir con las órdenes judiciales. En términos reputacionales, esas mismas órdenes destacan que:
- el “derecho a la eliminación” es condicional,
- la “privacidad” está limitada por el descubrimiento, y
- los chats de IA no son especiales del mismo modo que lo son las comunicaciones entre abogado y cliente o entre médico y paciente.
Ya se puede ver cómo los demandantes y los reguladores usan el lenguaje de marketing de OpenAI en su contra en investigaciones de privacidad paralelas (por ejemplo, la multa de 15 millones de euros de Italia por problemas de uso de datos y transparencia). (Reuters)
Términos de uso, descubrimiento y privilegio: algunas conclusiones para los profesionales ⚙️
Si asesoras a empresas que gestionan herramientas de IA o las usan de forma intensiva, este caso es un manual listo para usar.
Si un juez ordenara 20 millones de tus registros de IA…
Este diagrama de flujo explica qué sucede realmente cuando una orden judicial choca con el mensaje “eliminamos tus chats” de tu proveedor, y por qué tus indicaciones ahora se tratan como correos electrónicos, Slack y registros de servidor para el descubrimiento.
Empleados, clientes y fundadores alimentan el chat con todo tipo de información.
Canalizas el trabajo diario, experimentos e incluso preguntas sensibles a través de una interfaz de IA de consumidor o "empresarial". El contenido típico incluye:
- Borradores de contratos, cartas de demanda y planes de negociación
- Escenarios de RR.HH. y notas de desempeño sobre empleados nombrados
- Finanzas internas, estrategias de precios y hojas de ruta confidenciales
- Datos de clientes, casos límite personalizados y capturas de pantalla de producción
Las indicaciones y los resultados se almacenan en el registro centralizado.
Detrás de la interfaz de chat, las indicaciones y los resultados se convierten en registros estructurados con marcas de tiempo, IDs de sesión e identificadores de usuario internos. El texto estándar del proveedor dice:
- Los registros se conservan para depuración, detección de abusos y análisis de productos.
- A menos que estés en un plan empresarial o de retención cero, pueden usarse para entrenamiento y mejora del modelo.
- Hay una ventana de eliminación programada (por ejemplo, 30 días o similar).
Un tercero demanda y el descubrimiento apunta al comportamiento del modelo.
Un editor, regulador o grupo de usuarios alega mal uso de datos y pregunta cómo se comporta la IA en el mundo real. Quieren pruebas de indicaciones y resultados reales, no solo datos de entrenamiento:
- "Muéstranos con qué frecuencia tu modelo regurgita nuestro contenido."
- "Muéstranos cómo manejas los datos personales en conversaciones del mundo real."
- "Demuestra que no eres sistemáticamente sesgado."
Un juez instruye al proveedor a dejar de eliminar los registros.
El tribunal emite una orden de "conservar y segregar" los registros de salida que de otro modo se eliminarían. Por un período de tiempo:
- La eliminación programada queda suspendida para los registros afectados.
- Los chats "eliminados" quedan efectivamente congelados en lugar de ser purgados.
- Cualquier promesa de derecho a la supresión queda subordinada a la suspensión por litigio.
- Las instancias empresariales / de retención cero pueden excluirse por contrato.
Se ordena al proveedor entregar un enorme conjunto de datos "anonimizados".
Bajo la orden de protección existente, el tribunal aprueba un muestreo a gran escala de registros (por ejemplo, 20 millones de conversaciones). El proveedor:
- Elimina los identificadores obvios, contraseñas y algunos datos PII.
- Conserva suficiente texto para probar las alegaciones de los demandantes.
- Entrega los datos a un entorno de revisión seguro controlado por abogados externos y expertos.
Tus indicaciones ahora están en el expediente de otro caso.
Los registros del proveedor, que contienen tus conversaciones, ahora están en manos de:
- La parte contraria y sus equipos de expertos
- Proveedores externos de servicios de alojamiento, análisis y herramientas de búsqueda
- Potencialmente otros tribunales en procedimientos relacionados o posteriores
Tu propia postura de riesgo ahora depende de lo que escribiste en esas indicaciones y si tu contrato con el proveedor realmente te excluyó del flujo masivo del consumidor.
1. Tratar los registros de chat de IA como ESI de primera clase, no como un canal secundario
Las órdenes en NYT v. OpenAI son una señal clara de que:
- los tribunales tratarán las indicaciones y los resultados de IA exactamente como correos electrónicos, Slack y registros de servidor para fines de descubrimiento;
- los alcances de conservación y producción pueden abarcar millones de registros si eso es lo que admite el análisis de proporcionalidad. (huntress.com)
Si tus clientes canalizan trabajo sensible a través de herramientas de IA de consumidor, asumir que esos chats son detectables y persistentes, independientemente de la interfaz de usuario.
2. Alinear tus propias promesas de privacidad con el peor escenario de litigio
OpenAI no es un caso excepcional; la mayoría de los avisos de privacidad de SaaS dicen alguna versión de:
- ”eliminamos o minimizamos,” y
- ”conservamos y divulgamos cuando lo exige la ley.”
Para tus propios productos, la postura de redacción más segura es:
- hacer que la advertencia “excepto cuando la ley lo exija” sea extremadamente explícita,
- describir en lenguaje sencillo qué sucede si se emite una orden de conservación o producción, y
- evitar la sobreventa de la eliminación o las analogías de “privacidad como un abogado” que se verán mal en una disputa de descubrimiento. (OpenAI)
3. Segmentar a los clientes comerciales y negociar términos reales de gobernanza de datos
Una de las lecciones más prácticas de la orden de conservación es que los acuerdos empresariales y de retención cero fueron excluidos. (The Verge)
Para los usuarios corporativos, eso significa:
- insistir en términos B2B claros sobre retención, eliminación y suspensiones por litigio,
- aspirar a almacenes de datos separados y entidades legales donde sea posible, y
- comprender exactamente qué partes de tus datos se encuentran en el mismo lugar que el flujo masivo del consumidor que podría verse afectado por una orden al estilo del NYT.
4. No confiar en el “privilegio de IA”
El impulso retórico de Sam Altman por el “privilegio de IA” es una defensa política interesante, pero los tribunales actuales tratan los chats de IA como comunicaciones ordinarias con terceros: no privilegiadas y a menudo inconsistentes con el mantenimiento del privilegio sobre el asunto subyacente. (TechRadar)
Si tu cliente introduce material confidencial o cargado de trabajo protegido en una plataforma de IA de terceros:
- debes asumir que ese contenido puede ser posteriormente detectado en contra de tu cliente, del proveedor, o de ambos;
- las estrategias de no renuncia (por ejemplo, instancias empresariales, límites contractuales, implementaciones privadas) se vuelven cruciales si quieres algún argumento creíble de que se preservó el privilegio.
La lección más amplia: las reglas de descubrimiento no cambiaron de repente, pero la escala sí 📊
Nada en NYT v. OpenAI cambia las reglas básicas del descubrimiento civil. La relevancia, la proporcionalidad y las órdenes de protección ya existían.
Lo que es nuevo es:
- el volumen de datos conversacionales centralizados en un solo proveedor;
- la disposición del tribunal a ordenar la conservación y el muestreo a esa escala; y
- la forma en que esa orden chocó instantáneamente con narrativas de privacidad cuidadosamente elaboradas y el lenguaje de los Términos de Uso.
Desde la perspectiva del derecho corporativo y el abogado de productos, el caso trata menos sobre quién tiene razón en materia de derechos de autor y más sobre esta pregunta:
”Si un juez hiciera que el proveedor de IA de la empresa conserve todo y entregue 20 millones de registros mañana, ¿sobrevivirían los Términos de Uso, la política de privacidad y la postura de gobernanza de datos interna a esa prueba de estrés?”
Esa es la pregunta que hay que incorporar en tu próxima revisión de NDA, DPA o política de uso de IA, antes de que la demanda de descubrimiento de otra persona la responda por ti.