ИИ и лицензирование данных
Я Сергей Токмаков, калифорнийский юрист (CA Bar #279869). Работа по контрактам ИИ за последние два года стала значимой долей моей практики. Эта страница посвящена лицензированию обучающих данных, правам на вывод, соглашениям о сервисе моделей, контрактам с ИИ-поставщиками и наложению норм о конфиденциальности вокруг них, прежде всего CCPA/CPRA и GDPR для трансграничных данных. Она написана для основателей, поставщиков данных, разработчиков моделей и операторов, которые покупают или продают ИИ-услуги и которым нужно знать, что на самом деле говорит контракт об обучении, владении выводом и нисходящих рисках.
Какие вопросы я веду в этой области
- Соглашения о лицензировании обучающих данных. Составление и проверка лицензий на использование изображений, текстов, аудио, кода и собственных датасетов в обучении моделей. Объём использования, сублицензирование, права на производные датасеты и аудиторские оговорки.
- Права на вывод и собственность на ИС. Кто владеет выводом модели, какая обратная лицензия в пользу платформы сохраняется, какие исключения существуют для промптов и дообученных моделей и как контракт обращается с выводом, повторяющим обучающие данные.
- Соглашения о сервисе моделей (MSA) с ИИ-поставщиками. Проверка со стороны клиента условий OpenAI, Anthropic, Cohere, Google, AWS Bedrock и Azure OpenAI; составление со стороны поставщика для ИИ-продуктов, построенных на этих API.
- Контракты с поставщиками ИИ-сервисов в соответствии с CCPA/CPRA. Квалификация как поставщика услуг, контрактора или третьего лица, к какой именно категории фактически относится Ваш контракт и какие ограничения на использование это накладывает на ИИ-поставщика.
- Трансграничное развёртывание ИИ под GDPR. Условия процессора по статье 28, механизмы международной передачи данных (SCC, UK IDTA) и наложение EU AI Act для поставщиков и пользователей ИИ общего назначения.
- Споры по индемнификации с ИИ-поставщиками. Согласование объёма индемнификации по ИС (обучение против вывода), исключений для промптов от клиента и недавнего отраслевого перехода к индемнификации ИС со стороны вывода.
- TOS ИИ-продукта и политики использования. Составление клиентских условий для ИИ-продуктов, включая списки запрещённого использования, принуждение к приемлемому использованию, оговорки о выводе и положения о спорах.
Почему это отдельная область практики
Внешне ИИ-контракты похожи на SaaS-контракты, но это не так. Существенное распределение рисков идёт через пункты, которых пять лет назад не существовало: гарантии по обучающим данным, ИС вывода модели, конфиденциальность промптов, доступ к мониторингу злоупотреблений и цепочка формулировок поставщика услуг по CCPA и процессора по GDPR, которая должна проходить через модель, API и интегратора. Я выделяю это в отдельную практику, потому что чек-лист due diligence существенно отличается.
Анонимизированные кейсы
Поставщик датасета согласовал лицензию для разработчика foundation-модели
Факты: специализированный курирующий поставщик данных владел датасетом примерно из полумиллиона изображений, очищенных для коммерческого использования. Разработчик foundation-модели хотел лицензию для обучения мультимодальной модели. Стандартное соглашение разработчика модели включало широкие права на сублицензирование, бессрочное использование после расторжения и отсутствие аудиторских прав у владельца данных.
Что я сделал: я переписал лицензию как ограниченную сферой использования (только обучение моделей), запретил сублицензирование сторонним разработчикам моделей без согласия, ограничил исключение бессрочного использования определённым списком поименованных моделей и добавил аудиторское право, обёрнутое NDA. Я добавил заверение о том, что обученная модель не будет умышленно настроена на регенерацию идентифицируемых обучающих изображений на этапе вывода.
Результат: разработчик модели принял ограничение по сфере использования и список поименованных моделей. Аудиторское право было сужено до стороннего аудитора по взаимному NDA. Лицензионный платёж был внесён авансом, а не в рассрочку.
SaaS-клиент, внедряющий функцию ИИ на базе сторонней foundation-модели
Факты: SaaS-компания среднего сегмента хотела добавить функцию ИИ-суммаризации для корпоративных клиентов. Функция была построена на API крупной foundation-модели. Корпоративные соглашения со стороны клиента обещали «отсутствие использования клиентских данных для обучения модели», но соглашение SaaS-компании с провайдером foundation-модели не подкрепляло это обещание корректно.
Что я сделал: я параллельно изучил корпоративные условия для клиента и соглашение по API foundation-модели. Я выявил разрыв: соглашение по foundation-модели допускало ограниченное использование для обучения, если только клиент не находится на конкретном корпоративном уровне и не активированы определённые настройки. Я составил корректирующее дополнение к DPA, одностраничный внутренний чек-лист контроля и переработал клиентские формулировки так, чтобы они соответствовали фактической технической конфигурации.
Результат: клиентские условия обновили под фактическую конфигурацию. SaaS-компания перешла на корпоративный уровень API foundation-модели и подтвердила, что настройка «без обучения» включена по умолчанию. Окно уязвимости было раскрыто крупнейшему пострадавшему клиенту с письменным подтверждением.
ИИ-поставщик получил претензию от клиента по поводу предполагаемого нарушения ИС в выводе
Факты: поставщик ИИ-системы генерации кода получил претензионное письмо от клиента, чьего конечного клиента обвиняли в использовании сгенерированного ИИ кода, якобы повторявшего открытую базу кода под copyleft-лицензией. Клиент требовал индемнификации по стандартному соглашению поставщика, в котором была индемнификация ИС, но «промпты клиента» исключались из покрытия.
Что я сделал: я представлял ИИ-поставщика. Я изучил историю промптов, выходные фильтры модели и фактический объём индемнификации. Спорный вывод был сгенерирован по промпту, прямо запросившему код в конкретном открытом стиле. По договору такой сценарий, обусловленный промптом, попадал под исключение по промптам. Я составил ответное письмо с объяснением анализа и предложил, без признания, структурированный пакет сотрудничества, в том числе индемнификацию по юридическим расходам в нисходящем деле до установленного лимита.
Результат: клиент принял пакет сотрудничества. Нисходящее дело было урегулировано на уровне клиента. ИИ-поставщик доработал процесс онбординга, включив предупреждение перед генерацией кода в стилях, тесно связанных с copyleft-базами.
Применимые статуты Калифорнии и федеральное законодательство
Ниже приведён рабочий перечень источников, к которым я чаще всего обращаюсь. Право об ИИ движется; я сверяю цитаты с текущим текстом статутов до их включения в результат для клиента.
- Cal. Civ. Code раздел 1798.100 и далее (CCPA с изменениями CPRA), в том числе определения поставщика услуг и контрактора и обязательные договорные положения.
- Правила California Privacy Protection Agency, включая правила 2025–2026 годов о технологии автоматизированного принятия решений и оценках рисков.
- Cal. Civ. Code раздел 3344, право на публичность, когда вывод ИИ использует имя, изображение или голос без согласия.
- Cal. Bus. and Prof. Code раздел 17200, Закон о недобросовестной конкуренции, применяемый к вводящему в заблуждение маркетингу ИИ и нераскрытому использованию данных.
- Cal. Bus. and Prof. Code раздел 22675 и далее, в применимой части к обязательствам по прозрачности обучающих данных ИИ, принятым в 2024 году (например, AB 2013), для разработчиков генеративного ИИ, работающих в Калифорнии.
- Cal. Civ. Code раздел 1798.99.20 и далее, автоматизированное принятие решений и обязательства об уведомлении о неблагоприятных решениях в отдельных отраслях.
- 17 U.S.C. раздел 102 и далее (федеральный Закон об авторском праве), в том числе линия дел о выводе, сгенерированном ИИ, и человеческом авторстве по Thaler v. Perlmutter, а также руководства Бюро авторских прав 2023–2025 годов.
- 17 U.S.C. раздел 1201 (DMCA), в том числе исключения от запрета на обход для исследований безопасности ИИ.
- Federal Defend Trade Secrets Act, 18 U.S.C. раздел 1836, для случаев присвоения обучающих данных.
- Закон ЕС об искусственном интеллекте (Регламент (ЕС) 2024/1689), в том числе обязательства по ИИ общего назначения и список запрещённых практик.
- Статьи 5, 6, 22, 28, 32 и 46 GDPR, о законности, автоматизированных решениях, условиях процессора, безопасности и международной передаче.
- UK Data Protection Act 2018 и руководства ICO по автоматизированным решениям, когда клиент или субъекты данных находятся в Великобритании.
- Судебная практика: Andersen v. Stability AI (N.D. Cal., в производстве) и объединённые дела об обучающих данных; Authors Guild v. OpenAI (S.D.N.Y., в производстве); New York Times v. Microsoft and OpenAI (S.D.N.Y., в производстве). Это движущиеся цели; я ссылаюсь на них как на находящиеся в производстве, пока они в нём остаются.
Примерные пункты, которые я проверяю в каждой проверке ИИ-контракта
- Объём обучающих данных: какие данные использует поставщик, используются ли вводы клиента для обучения и каков механизм отказа от обучения.
- Принадлежность вывода: кому принадлежит вывод, какая обратная лицензия в пользу поставщика сохраняется, какие исключения применяются к дообучениям и кастомным моделям.
- Индемнификация ИС: со стороны вывода, обучения или обеих и каковы исключения для промптов клиента и переданных клиентом данных.
- Квалификация как поставщика услуг по CCPA/CPRA: составлен ли контракт под квалификацию и какие ограничения на использование это накладывает.
- Условия по статье 28 GDPR: присутствуют ли и корректны ли обязательства процессора, передача субпроцессорам и сроки уведомления о нарушениях.
- Резидентность данных: где осуществляется обучение и инференс и какой механизм международной передачи применяется.
- Доступ к мониторингу злоупотреблений: имеет ли поставщик договорное право читать промпты и выводы для проверки безопасности и как это согласуется с конфиденциальностью клиента.
- Расторжение и удаление: переживают ли данные и любые дообученные веса прекращение и в какие сроки.
- Приемлемое использование: ясны ли категории запрещённого использования, взаимны ли они и каков механизм исправления и приостановки.
- Наложение EU AI Act: является ли поставщик поставщиком ИИ общего назначения и охвачены ли обязательства по технической документации и раскрытию.
Где наложение норм о конфиденциальности действительно кусается
Наложение норм о конфиденциальности в ИИ-контрактах - это больше, чем формальная галочка. Три конкретных примера, в которых позиция по конфиденциальности определяет сделку.
Квалификация как «поставщика услуг» по CCPA. SaaS-компания, встраивающая в свой продукт сторонний ИИ-сервис, почти всегда хочет, чтобы поставщик ИИ квалифицировался как «поставщик услуг» по CCPA. Квалификация договорная: поставщик не может использовать данные для собственных целей, не может удерживать их за пределами срока действия контракта и ограничен в перекрёстном поведенческом использовании. Если контракт ИИ-поставщика сохраняет права на обучение, поставщик может не быть «поставщиком услуг», а это значит, что заявление SaaS-компании клиентам «мы не продаём и не делимся Вашими данными» становится неточным. Экспозиция возникает у SaaS-компании, а не у ИИ-поставщика. Я проверяю контракт на этот разрыв при каждой проверке ИИ-поставщика.
Механизм международной передачи по GDPR. Когда ИИ-поставщик обрабатывает персональные данные ЕС, контракт должен указать механизм передачи: Стандартные договорные положения, рамку EU-US Data Privacy Framework (если поставщик самосертифицирован) или, в узких случаях, решение об адекватности. Многие контракты ИИ-поставщиков лишь намекают на это, не называя механизм. Контракт обязан его назвать. Собственная DPIA клиента зависит от ответа.
Автоматизированное принятие решений по CCPA/CPRA и EU AI Act. Правила Калифорнии о технологии автоматизированного принятия решений и EU AI Act налагают обязательства по раскрытию и оценке рисков для определённых применений ИИ. Контракт должен раскрывать, поставляет ли поставщик «высокорисковую» ИИ-систему (EU AI Act) или «охватываемую» автоматизированную технологию принятия решений (правила CPPA Калифорнии), чтобы клиент мог исполнять свои нисходящие обязательства. Поставщик, отказывающийся от такого раскрытия в контракте, перекладывает регуляторный риск на клиента; иногда это приемлемо, иногда нет. Я явно отмечаю это в каждой проверке ИИ-поставщика.
Самый важный вопрос в любой ИИ-сделке
Один вопрос отделяет защитимые отношения с ИИ-поставщиком от ожидаемой проблемы: становятся ли данные клиента частью модели поставщика. Контракт должен ответить на это ясно. «Мы не используем клиентские данные для обучения» - недостаточно; контракт должен это говорить, техническая конфигурация должна это поддерживать, а исключения (мониторинг злоупотреблений, проверка безопасности, агрегированные и обезличенные данные) должны быть очерчены достаточно узко, чтобы они не поглотили правило. Повторяющийся режим отказа - это контракт, в котором использование для обучения по умолчанию отключаемо, тогда как собственные клиентские условия SaaS-компании обещают, что никакие клиентские данные не используются для обучения. Два документа расходятся в тишине, пока что-то иное не запускает проверку. Поймать это в первый день - это и есть большая часть ценности, которую я приношу в работе с ИИ-поставщиками.
Типичные диапазоны гонораров
Частые вопросы по ИИ и лицензированию данных
Является ли вывод ИИ объектом авторского права? Согласно действующим разъяснениям Бюро авторских прав США, чисто сгенерированный ИИ вывод без значимого человеческого авторства не охраняется авторским правом. Промпты с человеческим авторством и куратурный отбор или аранжировка вывода ИИ человеком могут породить охраняемое произведение. Граница зависит от фактов и движется. Я отслеживаю разъяснения Бюро авторских прав и текущую судебную практику; для конкретного продукта я скажу клиенту, где находится актив на этой линии и какой должна быть стратегия документирования.
Аннулируют ли мой продукт американские иски по обучающим данным? Почти наверняка нет для пользователей API foundation-моделей. Индемнификация ИС со стороны вывода теперь является стандартом для корпоративных клиентов крупных поставщиков foundation-моделей; именно эта индемнификация - практический механизм передачи риска. Для разработчиков моделей, обучающих модели на сторонних данных, риск реален и является предметом дел в производстве. Я ежемесячно читаю реестры дел и соответственно корректирую советы клиенту.
Как составлять клиентские условия для ИИ-продукта? Оговорка о выводе, оговорка о точности и надёжности, список запрещённого использования, отказ клиента от использования данных для обучения и чёткое распределение того, кому принадлежит промпт и вывод. Я составляю это как единый документ, а не как набор шаблонных пунктов, чтобы клиент мог прочитать его за один присест и понять, на что соглашается.
Нужен ли DPA с моим поставщиком foundation-модели? Если Вы обрабатываете персональные данные (большинство клиентских ИИ-функций это делают), да. Крупные поставщики foundation-моделей предоставляют DPA; многие из них доступны через trust-центр поставщика и требуют ручной встречной подписи. Удивительно много клиентов запускают ИИ-функции на месяцы, ни разу не подписав DPA.
Что насчёт EU AI Act? Если Вы обслуживаете пользователей в ЕС, наложение EU AI Act применяется. Обязательства по ИИ общего назначения (прозрачность, техническая документация, сводка обучающих данных по авторскому праву) ложатся на поставщика модели; обязательства пользователя - на Вас. График внедрения тянется до 2026–2027 годов; практический совет - сопоставить свой продукт с категориями риска уже сейчас, а не позже.
Когда привлекать меня, когда справляться внутренними силами, когда идти в крупную фирму
Привлекайте меня, когда Вы подписываете контракт с ИИ-поставщиком выше стандартного self-serve-уровня, лицензируете датасет или Вам его лицензируют, запускаете ИИ-продукт и Вам нужен клиентский пакет условий, не ломающий Вашу позицию по CCPA или GDPR, либо у Вас одно-контрагентный спор по ИС вывода или использованию обучающих данных. Я подхожу основателям, in-house юристам и операторам, которым нужен рабочий редлайн и ясный ответ на один абзац.
Справляйтесь внутренними силами, когда покупаете ИИ-услуги на self-serve-уровне со стандартными условиями и ваш сценарий низкорисковый (внутренняя продуктивность, а не клиентский). Стандартное соглашение поставщика редко стоит редлайна на таком уровне. Подтвердите, что Ваша команда не вставляет данные клиента в промпты, и сделайте то, что нужно сделать.
Идите в крупную фирму, когда Вы судитесь по коллективному иску по обучающим данным, отвечаете регулятору по EU AI Act, FTC или команде применения CPPA, либо ведёте переговоры о партнёрстве с foundation-моделью на уровне, запускающем антимонопольную проверку. Cooley, Wilson Sonsini, Latham и Gunderson располагают полноценными командами по ИИ; для масштабного судебного процесса или многоюрисдикционного регуляторного дела наймите их, а меня - для второй экспертизы по конкретным пунктам, если это нужно.
Отправьте ИИ-соглашение или резюме дела
Напишите мне на email с приложенным соглашением и несколькими строками о Вашей роли. Я отвечаю лично, как правило, в течение одного рабочего дня.
Что включить: файл соглашения или ссылку на TOS продукта, выступаете ли Вы поставщиком, клиентом или лицензиаром, стоимость сделки или сумму риска, Ваши юрисдикции (штаты США, ЕС, Великобритания) и один абзац о том, что Вы хотите изменить или вернуть.
Отправить обращение по ИИ