Пираты 21 века: компания Nvidia украла 500 ТБ книг для обучения ИИ
Обратная сторона бума искусственного интеллекта — масштабное пиратство. Авторы книг утверждают, что корпорация Nvidia для обучения своих нейросетей намеренно и с одобрения руководства закупала данные у скандально известной пиратской библиотеки, прекрасно зная об их незаконном происхождении.
Цена данных
Бум генеративного ИИ породил ненасытный спрос на данные для обучения нейросетей. Чем больше и разнообразнее информация — тем умнее и универсальнее становится модель. Однако львиная доля качественных текстов, книг и научных статей защищена авторским правом. Легальное получение таких массивов — долгий, дорогой и сложный процесс. Nvidia, разрабатывая собственные флагманские модели, столкнулась с этой проблемой лицом к лицу. И, как утверждают истцы, выбрала самый короткий и сомнительный путь.
Союз с «теневой библиотекой»
Ключевым фигурантом обвинений выступает так называемый Anna’s Archive — «Архив Анны». Этот проект, существующий с 2022 года, позиционирует себя как некоммерческую инициативу по каталогизации всех мировых знаний. По факту же это одна из крупнейших пиратских библиотек, чьи серверы хранят миллионы книг, выложенных с нарушением прав авторов. Согласно иску, представители Nvidia вышли на администрацию архива. Более того — пираты напрямую предупредили компанию о незаконном характере своего контента и спросили, есть ли у менеджеров внутреннее разрешение на работу с таким материалом. Ответ, судя по материалам дела, был положительным и поступил всего за пару дней. Так началось сотрудничество, в результате которого в распоряжении технологического гиганта оказалось около 500 ТБ данных — среди них миллионы книг, никогда не предназначавшихся для свободного коммерческого использования.

Машина нарушений
Обвинения на этом не заканчиваются. Писатели утверждают, что Nvidia не просто тайно использовала украденный контент для внутренних нужд. Компания, по их данным, пошла дальше и стала распространять среди своих корпоративных клиентов специальные скрипты и инструменты. Эти программы позволяли автоматически скачивать другой известный пиратский набор данных — «The Pile», содержащий в том числе контент из библиотеки Books3. Таким образом, в иске появились новые пункты — о пособничестве и соучастии в нарушении авторских прав. Юристы авторов настаивают, что Nvidia извлекала коммерческую выгоду не только из прямого использования книг, но и из предоставления клиентам доступа к нелегальным ресурсам.
Суды и падающее доверие
Этот скандал стал для Nvidia далеко не первым ударом в начале 2026 года. Ранее компания объявила о планируемом существенном подорожании своих графических процессоров, что вызвало резко негативную реакцию рынка и привело к заметному падению котировок акций. Теперь к финансовым рискам добавляются судебные перспективы, которые грозят колоссальными компенсациями. Истцы требуют возмещения ущерба не только для себя, но и для сотен других правообладателей, которые могут присоединиться к коллективному иску.

Большие вопросы без простых ответов
История с Nvidia и Anna’s Archive выходит далеко за рамки частного судебного разбирательства. Она обнажает фундаментальный конфликт эпохи ИИ. Где та грань, за которой стремление к технологическому прогрессу оправдывает игнорирование прав создателей оригинального контента? Являются ли данные таким же сырьем, как руда или нефть? И кто в конечном счете заплатит за стремительный рывок машинного интеллекта — компании-гиганты или авторы, чьи труды легли в его основу без спроса и оплаты? Пока суды ищут ответы в правовом поле, обществу предстоит найти ответы в поле этическом. От этого будет зависеть не только будущее авторского права, но и сама модель развития искусственного интеллекта.