Лицензирование ИИ и данных · Меморандум

Лицензирование обучающих данных для ИИ: структура работающего соглашения

Судебная практика по обучающим данным для ИИ находится в состоянии подлинной неопределённости, и юристам, работающим в этой сфере, следует откровенно говорить об этом с клиентами. Я изложу структуру соглашения, которое, на мой взгляд, выдержит большинство вероятных исходов, и укажу на точки, где право ещё не сложилось.

Дела, которые установят правила для обучающих данных ИИ, ещё продолжаются. Коллективный иск Bartz v. Anthropic об использованных при обучении книгах, параллельное дело Kadrey v. Meta, судебный процесс New York Times v. OpenAI, линия дел Doe v. GitHub по коду, линия Andersen v. Stability AI по изображениям и многочисленные параллельные дела в судах штатов и за рубежом в ближайшие восемнадцать-тридцать месяцев дадут разнородные результаты. Вопрос добросовестного использования -- тот, за которым следит большинство наблюдателей, -- и решения судов первой инстанции на сегодняшний день противоречивы по ключевым подвопросам, включая трансформативное использование, замещение рынка и значение механизмов отказа. Я не считаю, что какой-либо практикующий юрист может быть уверен в том, как это разрешится.

Практическое следствие для составления договоров: лицензия на обучающие данные ИИ, которая зависит от того, что вопрос добросовестного использования разрешится определённым образом, -- в моём понимании, неосмотрительная лицензия. Соглашение должно быть структурировано так, чтобы оно выдерживало проверку как при сильном, так и при слабом исходе по добросовестному использованию. Это означает прямую оговорку о предоставлении прав, прямой стек гарантий, прямую гарантию возмещения убытков и прямое распределение вопроса о результатах модели.

Оговорка о предоставлении прав

Оговорка о предоставлении прав не должна состоять из одного предложения. Структурные элементы, без которых я не стал бы составлять договор:

Стек гарантий

Гарантии лицензиара -- это место, где происходит фактическое распределение рисков. Минимальный набор гарантий, который я добиваюсь со стороны лицензиата:

  1. Что лицензиар владеет данными или имеет право их лицензировать.
  2. Что использование данных для обучения в соответствии с соглашением не нарушает права на интеллектуальную собственность (авторское право, товарные знаки и иные) третьих лиц.
  3. Что данные были собраны в соответствии с применимым правом (включая законодательство о конфиденциальности, условия веб-сайтов, ограничивающие парсинг, и договорные условия источников).
  4. Что ни одно физическое лицо, чьи данные входят в набор, не воспользовалось правом на отказ, которое препятствовало бы лицензируемому использованию.

Четвёртая гарантия -- та, которую большинство лицензиаров не в состоянии дать без оговорок. Инфраструктура отказа от обучающих данных ещё складывается, и гарантия в указанной редакции может оказаться неподтверждаемой. Компромисс, к которому я прихожу: лицензиар гарантирует, что по его сведениям ни один отказ не поступал, с заверением о принятии коммерчески разумных мер для исполнения отказов, полученных после даты лицензии. Это мягче, чем я хотел бы, но отражает реалии слоя данных.

Гарантия возмещения убытков

Для существенной лицензии на обучающие данные основная работа возложена на гарантию возмещения убытков. Структура, которой я добиваюсь: лицензиар возмещает убытки лицензиату по любому требованию третьей стороны о нарушении прав IP лицензиата или о незаконном сборе данных при использовании лицензионных данных в соответствии с соглашением. Гарантия должна охватывать расходы на защиту, суммы урегулирования и судебные решения при разумных процессуальных условиях.

Исключения, которые запросит лицензиар:

Первое исключение разумно по существу, но легко редактируется слишком широко. Те же уточняющие формулировки, которые я использую для исключений из гарантии IP в SaaS, применимы и здесь. Второе исключение разумно, если лицензиар создал инфраструктуру отказа; в противном случае оно перекладывает риск на лицензиата за соблюдение требований, которые лицензиат не в состоянии обеспечить. Третье исключение -- место, где лицензиары пытаются переложить риск нарушения прав в результатах на лицензиата.

Файл происхождения данных

Операционное требование, которое я теперь добавляю в любую существенную лицензию на обучающие данные: файл происхождения данных. Лицензиар обязуется передать при заключении лицензии структурированную запись о происхождении данных (источники, даты сбора, методы сбора, применимые согласия или лицензии), об обработке данных (дедупликация, фильтрация, обезличивание) и об известных ограничениях (известные нарушающие или иначе рискованные подмножества, которые были удалены). Файл происхождения -- это то, что потребуется юристу лицензиата при поступлении требования, когда судебный процесс обяжет лицензиата проследить происхождение данных.

Лицензиар будет возражать против требования о файле происхождения. Разумный компромисс: сводный файл происхождения на дату лицензии, с предоставлением полной документации по запросу в случае требования третьей стороны. Полная документация, как правило, не то, что лицензиар хочет видеть в публичном процессуальном досье, поэтому соглашение должно обеспечивать её конфиденциальный режим.

Что я бы не принимал как данность

Вопрос добросовестного использования подлинно открыт. Материалы дела Bartz v. Anthropic повлияют на то, как суды применяют анализ трансформативного использования к массовому поглощению охраняемых авторским правом книг. Линия Doe v. GitHub повлияет на ситуацию с кодом. Линия Andersen v. Stability AI -- с изображениями. Каждое из этих дел получало противоречивые решения на уровне суда первой инстанции. Лицензиат, который полагается на добросовестное использование как на свою лицензию, принимает на себя судебный риск, который реальная лицензия с гарантиями и гарантией возмещения убытков устраняет.

Правила CCPA и CPRA об автоматическом выводе, а также развивающиеся регуляторные акты CPPA об автоматизированном принятии решений, влияющих на потребителей (ADMT), также определяют, влечёт ли обучение на персональных данных отдельный риск по праву штата. Практический шаг: исходите из того, что регуляторный слой будет ужесточаться, составляйте соглашение с учётом соответствия более строгим нормам и возлагайте бремя нормативного соответствия на сторону, лучше приспособленную для этого -- как правило, лицензиата, с поддерживающими заверениями лицензиара.

Сделка по обучающим данным для ИИ на Вашем столе?

Если Вы ведёте лицензию на обучающие данные с любой стороны и хотите получить письменный редлайн с позициями по гарантиям, гарантии возмещения убытков и происхождению данных, которые я бы занял, напишите на owner@terms.law с текущим проектом.

Сергей Токмаков, эсквайр, CA Bar #279869. Данный меморандум представляет собой профессиональный юридический комментарий к правовым вопросам и не является юридической консультацией. Ознакомление с ним не создаёт отношений между адвокатом и клиентом. Результаты прошлых дел зависят от конкретных обстоятельств и действий противоположной стороны; ничто в данном документе не является прогнозом результата.