Обучение ИИ на открытом исходном коде: что на самом деле говорят GPL, MIT и другие лицензии

Краткий ответ (Калифорния): С учётом положения о взаимности в GPL v3 и дела Doe 1 v. GitHub / Copilot (N.D. Cal. 2024) вопрос об обучении генеративной модели на исходном коде под лицензией GPL не является решённым; разрешительные лицензии (MIT, BSD, Apache 2.0) в целом допускают обучение, но требования каждой лицензии об указании авторства и сохранении уведомлений по-прежнему распространяются на существенное повторное использование выходных данных. Наймите меня за $575, чтобы я подготовил по этому вопросу адвокатскую претензию.

Опубликовано: 5 декабря 2025 г. • ИИ

🧠 Если моя модель обучается на GitHub, не «заражена» ли она теперь GPL?
Этот вопрос мучает всех, от разработчиков-одиночек до главных юрисконсультов крупных технологических компаний, с момента появления Copilot и помощников по написанию кода.

В этом руководстве разбирается, как основные лицензии с открытым исходным кодом (MIT/BSD, Apache 2.0, GPL/LGPL, MPL, AGPL) пересекаются с обучением ИИ: что лицензии на самом деле говорят, как с этим работают суды и сообщества (OSI, FSF и др.) и где сегодня находится реальный риск.

Содержание

🧩 Что в юридическом смысле означает «обучение на открытом исходном коде»

Когда юристы и инженеры говорят на разных языках, обычно это происходит потому, что они указывают на разные части стека ИИ.

🔧 Слой	Что фактически происходит	Почему это важно юристам
Обучающие данные (корпус кода)	Вы копируете огромные объёмы исходного кода в набор данных	Копирование и хранение охраняемых авторским правом произведений; здесь применяются лицензионные условия на этот код
Процесс обучения	Вы прогоняете обучающий код по этому корпусу, чтобы получить веса модели	Использует скопированный код, но обычно остаётся внутренним; лицензии редко регулируют внутреннее использование
Модель (веса + архитектура)	Большая матрица параметров, которая статистически кодирует закономерности в коде	Спор: это «производное произведение» или просто статистика? Ни один суд прямо не заявил, что «обученная модель является производным от кода под GPL».
Выходные данные (сгенерированный код)	Фрагменты и файлы, выдаваемые пользователям	Если выходные данные существенно воспроизводят лицензированный код, конечные пользователи могут быть обязаны соблюдать эти лицензии
Конечный продукт	Ваш SaaS, плагин для IDE или приложение с закрытым исходным кодом	Именно здесь могут сработать GPL/AGPL, обязанности по указанию авторства и распространению на тех же условиях, если выходные данные или встроенный код лицензированы

В игре три отдельных правовых режима:

Авторское право (является ли обучение или выходные данные нарушающей права «копией» или «производным произведением»?)
Лицензия / договор (согласились ли вы на условия о том, как можно копировать/использовать этот код, даже если авторское право допускало бы большее?)
Определения сообщества (Open Source AI Definition от OSI, критерии «свободного машинного обучения» FSF), которые формируют ожидания, но сами по себе не создают ответственности. (

⚖️ Общая картина: что закон на самом деле говорит на сегодня

Несколько моментов достаточно ясны, а несколько других совсем нет:

Суды начали признавать, что обучение ИИ может быть нарушением авторских прав, когда оно использует проприетарный контент для конкуренции с правообладателем (например, Thomson Reuters v. Ross про аннотации к материалам юридического поиска).
В споре по GitHub Copilot большинство требований были отклонены, но требования по лицензии открытого кода и по «удалению информации об управлении авторскими правами» в рамках DMCA устояли, а значит суд США готов всерьёз рассматривать правовые теории, основанные на лицензиях, в отношении обучения и воспроизведения.
Подробный обзор 2025 года, посвящённый теории «GPL распространяется на модели», отмечает: ни один суд пока не постановил, что сама обученная модель должна быть под GPL только потому, что обучалась на коде под GPL, а основные участники сообщества (OSI, FSF, SFC) с осторожностью относятся к продвижению этой теории в качестве прецедента. (Open Source Guy)
Open Source AI Definition 1.0 (OSI) требует открытого кода, параметров модели и подробной информации об обучающих данных, чтобы систему ИИ можно было назвать «открытым исходным кодом», но не требует публикации самих обучающих данных целиком, делая упор на прозрачность и воспроизводимость. (Open Source Initiative)
FSF, напротив, работает над критериями, согласно которым «свободное» ML-приложение требовало бы, чтобы сами обучающие данные и скрипты были свободными, но это этическая/определительная позиция, а не толкование о том, что текущий текст GPL уже охватывает модели.

Итог: обучение на открытом исходном коде не является автоматически незаконным, но и не является вседозволенностью. Риск сосредоточен вокруг следующего:

Игнорирование условий лицензии (указание авторства, уведомления, копилефт)
Выпуск моделей, которые запоминают и воспроизводят лицензированный код
Вставка конечными пользователями этих выходных данных в продукты с закрытым исходным кодом.

🏷️ Что на самом деле требуют основные семейства лицензий

Ни одна из классических FOSS-лицензий не упоминает «ИИ» или «обучение». Они регулируют копирование, изменение и распространение программного обеспечения и производных от него. Обучение ИИ приходится втискивать в эти понятия.

🔍 Краткое сравнение семейств лицензий

Семейство лицензий	Типичные обязанности	Где пересекается с обучением ИИ
MIT / BSD (разрешительные)	Сохраняйте уведомление об авторском праве и лицензии при повторном распространении кода или его существенных частей; в остальном широкая свобода использования	Внутреннее обучение на коде MIT/BSD обычно укладывается в предоставленные лицензией права. Риск возникает, если ваша модель воспроизводит узнаваемые фрагменты, а пользователи выпускают их без требуемых уведомлений. (Nordia Law)
Apache 2.0 (разрешительная + патенты)	Сохраняйте лицензию и файл NOTICE при распространении; предоставляйте / получайте патентную лицензию; некоторые условия касаются патентных исков	Для обучения похожа на MIT/BSD; но если выходные данные или инструменты включают код под лицензией Apache, вы должны сохранять требуемые уведомления. Патентное предоставление редко имеет значение при чистом обучении, чаще когда модели или инструменты воплощают запатентованные методы из исходного проекта.
GPLv2/v3 (сильный копилефт)	Если вы распространяете программу, которая является производной от кода под GPL или «содержит» его, вы должны лицензировать всё произведение под GPL и предоставить исходный код; внутреннее использование не ограничено	Обучение на коде под GPL без распространения обучающего корпуса, вероятно, допускается текстом лицензии. Открытый вопрос в том, являются ли модель или её выходные данные «производными произведениями» или «произведениями, содержащими Программу». Ни один суд пока не ответил «да», и основные аналитики сообщества скептически относятся к тому, что модели легко вписываются в это определение. (Open Source Guy)
LGPL (слабый копилефт)	Копилефт распространяется в основном на изменения самой библиотеки; динамическое связывание из проприетарных приложений разрешено; обязанности по исходному коду нацелены на библиотеку	Обучение на коде под LGPL на этапе обучения похоже на GPL, но, опять же, неясно, как можно сказать, что модель «содержит» библиотеку в смысле LGPL. Практический риск в основном связан с дословным выводом кода библиотеки.
MPL 2.0 (копилефт на уровне файлов)	Только файлы, которые вы изменяете или создаёте на основе файлов, охваченных MPL, должны оставаться под MPL; вы можете сочетать их с проприетарным кодом	Обучение на коде под MPL не порождает очевидных обязанностей MPL в отношении модели. Но если ИИ-ассистент воспроизводит файл под лицензией MPL или существенную его часть, а разработчик выпускает его, эти конкретные файлы должны оставаться под лицензией MPL и с доступным исходным кодом.
AGPL (сетевой копилефт)	Как GPL, но распространяется на ПО, предоставляемое по сети (SaaS); если пользователи взаимодействуют с ПО под AGPL по сети, они имеют право на исходный код	AGPL наиболее опасна при использовании кода под AGPL непосредственно в вашем сервисе, а не при обучении как таковом. При этом, если SaaS на базе модели встраивает фрагменты под AGPL из выходных данных в серверный код, сетевой копилефт AGPL может сработать.

Ключевой момент: большинство лицензий открытого кода ориентированы на распространение, а не на чисто внутреннее использование. Обучение по большей части является внутренним действием. Юридический накал наступает, когда:

Вы распространяете модель или инструменты так, что их можно с основанием счесть производными от лицензированного кода, либо
Пользователи выпускают сгенерированный код, существенно схожий с лицензированными произведениями, не соблюдая эти лицензии. (Nordia Law)

🧪 Становятся ли модели, обученные на коде под GPL, автоматически GPL?

Краткий ответ: на сегодня никто не может честно сказать «да» как о решённом вопросе права.

Подробный анализ 2025 года о «распространении GPL на модели ИИ» резюмирует текущее положение так: (Open Source Guy)

Теория авторского права: Большинство судов и учёных, рассматривавших обучение моделей (например, в делах об изображениях и музыке), неохотно признают саму модель воспроизведением или производным от обучающих произведений, за исключением крайних случаев, когда она специально сконструирована так, чтобы часто выдавать конкретные произведения дословно.
Текст GPL: GPL написана вокруг читаемого человеком исходного кода и программ, которые содержат или связываются с кодом под GPL. Она явно не охватывает статистические матрицы параметров, которые могут кодировать лишь мельчайшие следы кода под GPL среди миллиардов весов.
«Предпочтительная форма для внесения изменений»: Если настаивать, что модель является производным от GPL, то что является «исходным кодом»? Веса не поддаются осмысленному изменению человеком; обучающие данные тоже не являются «исходным кодом» модели в смысле GPL. Текст лицензии просто не составлялся с расчётом на модели.
Органы сообщества:
- Open Source AI Definition от OSI требует раскрытия кода модели, параметров и подробной информации о данных, но не требует публикации всех обучающих данных и не утверждает, что GPL обязательно «распространяется» на модели. (Open Source Initiative)
- FSF работает над новым заявлением о свободных ML-приложениях, которое требовало бы свободы обучающих данных, чтобы ML-приложение можно было назвать «свободным», но это новый критерий, а не переосмысление действующей GPL. (Free Software Foundation)

Таким образом, на данный момент:

Риск «ваша модель теперь под GPL» реален в риторике, теоретичен в доктрине и не проверен в суде.
Что действительно очень реально, так это риск того, что выходные данные, содержащие код под GPL, втягивают конечных пользователей в обязательства GPL по их собственному ПО.

С точки зрения практического риска многие серьёзные команды, работающие с ИИ, относятся к коду под лицензиями GPL/AGPL в обучающих данных как к источнику повышенного трения и либо:

Полностью исключают его из обучающих корпусов, либо
Держат его в отдельных, отслеживаемых группах, либо
Допускают его только для моделей, которые они готовы выпускать на условиях, близких к сильному копилефту. (Astraea Counsel)

💥 Разбор кейса: GitHub Copilot и открытый исходный код

Коллективный иск по Copilot является главным полигоном для этих вопросов. Разработчики подали в суд на Microsoft, GitHub и OpenAI, утверждая, что: (Nordia Law)

Copilot был обучен на огромных объёмах кода с GitHub, лицензированного под MIT, GPL, Apache и другими.
Система иногда выдаёт код, почти идентичный репозиториям с открытым исходным кодом, но без указания авторства или лицензионных уведомлений.
Поэтому обучение и выходные данные нарушают условия лицензий, требующие указания авторства, уведомлений об авторском праве и (для копилефт-лицензий) обязательств о распространении на тех же условиях.
Copilot временами удаляет или пропускает информацию об управлении авторскими правами (например, заголовки с именами авторов), что, по мнению истцов, нарушает запреты §1202 DMCA.

Федеральный суд в Калифорнии:

Отклонил многие широкие и умозрительные требования, особенно те, что не были привязаны к конкретным произведениям.
Но позволил двум ключевым требованиям двигаться дальше: нарушение лицензии открытого кода и «удаление информации об управлении авторскими правами» по §1202 DMCA. (Nordia Law)

Это говорит нам о следующем:

Суды готовы рассматривать лицензии открытого кода как обеспеченные принудительным исполнением договоры в контексте обучения ИИ.
Наибольший риск пока кроется не в абстрактных теориях «обучение есть нарушение», а в конкретном воспроизведении лицензированного кода без соблюдения условий лицензии.

📊 Карта рисков: обучение, выходные данные и продукты

Вот упрощённая матрица рисков для обучения ИИ на открытом исходном коде:

Сценарий	Пример	Относительный юридический риск (сегодня)	Почему
Внутреннее обучение преимущественно на разрешительном коде (MIT/BSD/Apache), без внешнего распространения модели	Компания обучает внутреннего помощника по написанию кода на отобранных репозиториях GitHub и использует его только внутри организации	Низкий → Умеренный	Лицензии широко разрешают использование и изменение; нет распространения кода или модели. Риск возрастает, если выходные данные дословно копируются в выпускаемые продукты без указания авторства. (Astraea Counsel)
Обучение публичной модели на смешанном коде, включая GPL/AGPL, без контроля за запоминанием	Стартап выпускает веса модели, обученной на «всём GitHub»	Умеренный → Высокий (лицензия и репутация)	Ни одно дело не заставило модель стать под GPL, но истцы могут правдоподобно заявить о нарушении лицензии и проблемах с DMCA, если модель выдаёт опознаваемые фрагменты под GPL. Негативная реакция сообщества почти гарантирована. (Open Source Guy)
ИИ-помощник по написанию кода используется для генерации фрагментов, вставляемых в продукты с закрытым исходным кодом	Разработчик вставляет функцию из 30 строк, предложенную инструментом наподобие Copilot, в проприетарное приложение	Умеренный → Высокий (на стороне конечного пользователя)	Если этот фрагмент является охраноспособным выражением, скопированным из кода под GPL/MIT/Apache, разработчик может быть обязан соблюдать эту лицензию (распространение на тех же условиях у GPL, указание авторства у MIT/Apache и т. д.). Это не зависит от того, было ли обучение законным. (Nordia Law)
Модель, дообученная на проприетарном коде, который конкурирует с продуктом правообладателя	Обучение ИИ для юридического поиска на аннотациях Westlaw или подобном	Высокий (авторское право)	Дело Thomson Reuters v. Ross показывает, что суды готовы признать обучение ИИ прямым нарушением, когда ИИ-продукт обслуживает тот же рынок и опирается на проприетарный контент. (Astraea Counsel)
ИИ-модель с открытым исходным кодом, выпущенная под понятной OSS-лицензией с отобранными, документированными обучающими данными	Модель, код и информация об обучающих данных выпущены под согласованными, одобренными OSI лицензиями	Ниже, но не нулевой	Лучше всего согласуется с Open Source AI Definition от OSI. Остаточный риск связан в основном с включением стороннего кода, лицензии на который были применены или поняты неверно. (Open Source Initiative)

🧾 Что MIT, GPL и Apache «на самом деле говорят» разработчикам ИИ

Конкретно по трём лицензиям, о которых беспокоится большинство людей:

✅ MIT / BSD: разрешительные, но не «совсем без условий»

Они предоставляют очень широкие права на использование, копирование, изменение и объединение кода для любых целей, включая коммерческие.
Главное условие в том, что при повторном распространении кода или его существенных частей вы должны включить уведомление об авторском праве и текст лицензии. (Nordia Law)
Внутреннее обучение на коде MIT/BSD полностью укладывается в эти предоставленные права, и текстового запрета на машинное обучение нет.

Где возникают проблемы:

Если ваша модель запоминает и выдаёт файл под лицензией MIT или узнаваемый фрагмент, а кто-то выпускает его в продукте без уведомлений, именно это распространение нарушает условия, даже если само обучение могло быть допустимым.
Поэтому предприятия создают фильтры, учитывающие лицензии, и системы указания авторства, чтобы по возможности показывать происхождение предложений кода. (Astraea Counsel)

🧷 Apache 2.0: разрешительная плюс патентный слой

Похожа на MIT в части широкого использования, но добавляет:
- Патентную лицензию/предоставление, и
- Условия о сохранении файла NOTICE и определённых атрибуций при повторном распространении. (Astraea Counsel)
Для обучения главный юридический вопрос связан не столько с патентами, сколько с тем, чтобы не потерять указание авторства и уведомления, когда код воспроизводится в виде предложений.

На практике:

Обучение на коде под Apache 2.0 обычно считается допустимым в рамках предоставленной лицензии, особенно для внутренних моделей.
Если ваш ассистент предлагает функцию под лицензией Apache, а разработчик выпускает её, вам могут понадобиться механизмы, чтобы:
- Определить, что она взята из кода под лицензией Apache, и
- Помочь разработчику сохранить NOTICE и текст лицензии там, где это уместно.

🧨 GPL / AGPL: копилефт, но не очевидно «заражающий модель»

Что текст явно делает:

Даёт вам право копировать, изменять и запускать код под GPL внутренне, для любых целей.
Указывает, что если вы распространяете программу, являющуюся производным произведением кода под GPL или «содержащую» его, вы должны лицензировать всё произведение под GPL и предоставить исходный код.
AGPL распространяет это на ПО, предоставляемое по сети, а не только на распространяемые бинарные файлы. (Open Source Guy)

Что не ясно:

«Содержит» ли обученная модель программу под GPL в текстовом смысле или является производным произведением.
Считается ли распространение весов модели распространением производного произведения обучающего кода.
Что является «предпочтительной формой для внесения изменений» для модели (веса? обучающие данные? обучающий код?). (Open Source Guy)

Сообщество и научная среда сейчас в основном сходятся в двух практических пунктах:

Утверждение «эта модель под GPL, потому что она видела код под GPL» в лучшем случае маловероятно, а в худшем контрпродуктивно для экосистемы открытого кода. (Open Source Guy)
Использование инструментов ИИ для копирования фрагментов под GPL в закрытые продукты является вполне реальным риском несоблюдения, даже если никто никогда не докажет распространение лицензии на саму модель.

Для осторожных команд это обычно означает либо:

Полностью избегать кода под GPL/AGPL в обучении; либо
Ограничивать его чётко обозначенными проектами, где итоговые модель и инструменты будут выпущены на полностью открытых условиях, совместимых с копилефтом. (Astraea Counsel)

🧭 Практические ограничители для команд, обучающих ИИ на открытом исходном коде

Вместо абстрактных правил «так не делайте» вот более практичное руководство в виде таблицы:

Ситуация	Разумный ограничитель
Создание универсального помощника по написанию кода	Отдавайте предпочтение корпусам только из разрешительного кода (MIT/BSD/Apache). Если код под GPL/AGPL необходимо включить, отслеживайте его отдельным тегом и внедряйте фильтры, чтобы избежать воспроизведения, особенно целых файлов или характерных функций. (Astraea Counsel)
Когда разработчики вставляют предложения прямо в продукты	Добавьте в IDE предупреждения, когда предложения совпадают с известными репозиториями или когда сходство превышает порог; призывайте разработчиков относиться к предложениям ИИ как к коду со StackOverflow: проверьте лицензию перед выпуском.
Публичный выпуск моделей или продуктов-копилотов	Ведите учёт обучающих данных, который как минимум различает разрешительные, копилефт, проприетарные и «неизвестные» источники. Избегайте маркетинга своей модели как «полностью открытый исходный код», если она не соответствует Open Source AI Definition от OSI (код + веса + информация о данных под одобренными OSI лицензиями). (Open Source Initiative)
Работа с кодовыми базами клиентов	Относитесь к коду клиента как к данным высокой чувствительности, регулируемым договором. Отделяйте модели, обученные на репозиториях клиентов, от моделей, обученных на OSS интернет-масштаба, и прямо прописывайте в договорах права на обучение в сравнении с использованием только для вывода.
Использование моделей с открытыми весами, которые сами были обучены на неизвестном или смешанном коде	Прочитайте лицензию модели; многие «открытые» модели на деле имеют «открытые веса» с некоммерческими ограничениями или ограничениями на использование. Не считайте, что их безопасно встраивать в коммерческие инструменты разработки только потому, что веса можно скачать. (Hunton Andrews Kurth)

📌 Выводы

Ни одна крупная FOSS-лицензия сейчас не говорит на языке «обучения ИИ», поэтому мы накладываем текст 1990-х годов на технологии 2025 года.
Для MIT / BSD / Apache главное юридическое напряжение возникает между:
- Широким разрешением использовать и изменять код (в том числе для обучения), и
- Обязанностями по указанию авторства и уведомлений, когда код (или его узнаваемые фрагменты) повторно распространяется через выходные данные модели.
Для GPL / AGPL / MPL реалистичный риск сегодня связан не столько с тем, что «ваша модель теперь под GPL», сколько с:
- Выходными данными, переносящими копилефт-код в закрытые продукты, и
- Возможностью того, что будущие суды или регуляторы подтолкнут к какой-либо форме распространения лицензии в крайних сценариях запоминания.
Суды переходят от «абстрактных аргументов о добросовестном использовании» к детальному, фактологически насыщенному анализу того, как модели обучались и что они выдают, делая документирование, отслеживание происхождения и фильтрацию выходных данных центральными средствами контроля рисков. (Astraea Counsel)

С точки зрения разработчика ИИ самая безопасная позиция сейчас такова:

Относитесь к открытому исходному коду как к лицензированному, а не как к «бесплатному топливу»; выстраивайте обучение и инструментарий так, чтобы вы могли под присягой объяснить, на какие лицензии вы опирались, как вы их соблюдали и как вы не даёте своей модели превратиться в машину для копирования кода.