«Инъекция промпта» стала главной угрозой для ИИ-браузеров
27.12.2025 • Евгения Слив

OpenAI предупредила об уязвимости ИИ-браузеров Atlas перед атаками «инъекция промпта». Такие манипуляции заставляют агентов игнорировать инструкции и выполнять вредные команды, и риск сохранится надолго. Компания отметила, что «режим агента» расширяет площадь угроз, подобно мошенничеству в сети. Национальный центр кибербезопасности Великобритании в декабре подтвердил: проблема неустранима полностью, сейчас идет фокус на минимизации ущерба. OpenAI усиливает защиту с помощью постоянных тестов и обновлений.
Для борьбы с такими угрозами OpenAI внедрила проактивную систему быстрого реагирования. В основе системы лежит «автоматизированный злоумышленник на базе LLM» — ИИ-бот, обученный действовать как хакер, он ищет пути для внедрения вредоносных промптов в целевого агента.
Искусственный мошенник тестирует эксплуатацию уязвимостей в специальном симуляторе, где отслеживаются действия скомпрометированной нейросети.
Анализируя реакцию, бот корректирует свои действия и совершает новые попытки, постепенно совершенствуя атаку. При этом посторонние лица не имеют доступа к внутренним процессам целевой модели. Теоретически такой «виртуальный хакер» способен обнаруживать уязвимости быстрее, чем реальные злоумышленники.
«Наш ИИ-ассистент может направлять агента на выполнение сложных, многоэтапных вредоносных процессов, которые разворачиваются в течение десятков или даже сотен шагов. Мы наблюдали новые стратегии атак, которые не проявлялись в ходе тестов с участием нашей красной команды или во внешних отчетах», — отмечается в блоге OpenAI.
В демонстрационном примере автоматизированный злоумышленник отправил письмо на почту пользователя. Затем ИИ-агент просканировал почтовый сервис и выполнил скрытые инструкции, отправив уведомление об увольнении вместо запланированного ответа об отсутствии на работе. После внедрения обновления система безопасности смогла обнаружить попытку инъекции промпта и предупредить пользователя.
OpenAI подчеркивает, что, хотя создание абсолютно надежной защиты от такого типа атак является сложной задачей, компания опирается на масштабное тестирование и оперативные циклы исправлений для минимизации рисков. Anthropic и Google поддерживают данные меры и предлагают систематически проводить стресс-тесты для ИИ-агентов.
Рами Маккарти, главный исследователь по безопасности в компании Wiz, советует пользователям ограничивать доступ агентов и требовать подтверждения действий. Конкретные инструкции вместо широких полномочий снижают риски автономности при высоком доступе к данным. Пока польза ИИ-браузеров не перевешивает угроз, баланс остается хрупким. Microsoft в ноябре выявила похожие слабости после масштабных проверок.
