Компанию NVIDIA обвиняют в обучении ИИ на миллионах пиратских книг
23.01.2026 • Евгения Слив

NVIDIA столкнулась с судебным иском, в котором ее обвиняют в использовании миллионов пиратских книг для обучения своих больших языковых моделей. Согласно документам, поданным в суд, гигант в области производства чипов получил доступ к массиву данных объемом около 500 терабайт через платформу Anna's Archive, которая агрегирует контент из известных теневых библиотек, таких как LibGen и Z-Library. В иске утверждается, что NVIDIA целенаправленно приобрела эти данные в августе 2023 года для предварительного обучения своих ИИ-систем, получив «зеленый свет» на сделку менее чем за неделю.
В своем заявлении от 21 января 2026 года представители Anna's Archive отрицают прямой контакт с NVIDIA, предположив, что компания использовала посредников для избежания юридических рисков. При этом они отметили, что не имеют ничего против сотрудничества и готовы предоставить NVIDIA высокоскоростной доступ за пожертвование. Параллельно сама пиратская платформа находится под судебным давлением: в январе 2026 года суд обязал ее удалить все копии данных WorldCat, что указывает на усиление борьбы с подобными ресурсами.
Данный случай не единичен — в индустрии ИИ широко распространена практика использования непроверенных или пиратских данных для обучения моделей. В иске упоминается, что около 30 компаний, включая практически всех крупных разработчиков языковых моделей, пользовались услугами Anna's Archive. Исследовательская работа DeepSeek-VL от марта 2024 года также ссылается на использование сотен тысяч электронных книг из этого архива.
