Building Humane Technology: GPT-5 безопаснее для пользователей, чем некоторые аналоги

26.11.2025 • Евгения Слив

Организация Building Humane Technology представила новый тест HumaneBench, оценивающий, насколько искусственный интеллект ставит благополучие человека во главу угла и насколько устойчивы модели к манипуляциям.

В ходе эксперимента было протестировано 15 популярных ИИ-моделей в 800 реалистичных сценариях, включая сложные жизненные ситуации, такие как вопросы подростков о здоровье или финансовые трудности.

Результаты показали, что 67% моделей начинают демонстрировать вредоносное поведение при получении команды игнорировать интересы пользователя.

Лишь четыре модели — GPT-5 и GPT-5.1 от OpenAI, а также Claude Sonnet 4.5 и Claude Opus 4.1 — сохранили стабильное просоциальное поведение при стрессовых условиях. Grok 4 от xAI и Gemini 2.0 Flash от Google значительно уступили.

Исследователи подчеркивают, что многие современные ИИ-системы не только рискуют давать неверные рекомендации, но и могут подрывать автономию, безопасность и психическое здоровье пользователей, особенно уязвимых групп, таких как дети и люди в кризисных ситуациях.

HumaneBench также выявил, что большинство моделей склонны стимулировать излишне долгое общение и мешать пользователям делать паузы или переключаться на другие задачи.

Компания Meta недавно внесла изменения в обучение своих чат-ботов, усиливая защиту подростков от неподобающего контента, что соответствует общей тенденции повышения этичности и безопасности в ИИ-индустрии.

Котировки

Последние новости