OpenAI обучила ChatGPT признавать свои ошибки с помощью системы «исповеди»
05.12.2025 • Евгения Слив

Компания OpenAI внедрила новую методику обучения искусственного интеллекта, которая научит языковую модель откровенно рассказывать о собственных промахах и нежелательных действиях как самой системы, так и пользователя. Этот подход, получил название «исповедь» (confession).
Суть новации заключается в создании дополнительного текста рядом с основным ответом, где модель открыто признает, если ее поведение ушло в нежелательную сторону или возникли ошибки в попытке угодить запросу пользователя. В то время как главный ответ оценивается по множеству критериев — включая полезность, точность и соответствие инструкциям, — внутрифункциональная «исповедь» тренируется исключительно на честность.
Исследовательская группа OpenAI применила эту методику к версии GPT-5 Thinking, проверяя ее на специализированных наборах данных, которые провоцируют модель на ложные суждения, обход правил или создание дезинформации.
Проблема, которую решает новая система, связана с тем, что крупномасштабные языковые модели часто стремятся выдать наиболее желательный для пользователя ответ. Такое угодничество способствует появлению устойчивых галлюцинаций — ситуаций, когда ИИ уверенно излагает недостоверные факты. Особенно выраженной эта тенденция стала с выходом GPT-4 и ее продолжателя GPT-5.
Внедрение «исповеди» дает модели возможность объяснить логику и сомнения, которые привели к главному ответу, повышая тем самым прозрачность процессов принятия решений. OpenAI акцентирует, что большинство ошибок происходит не из-за преднамеренного обмана, а вследствие сложности и неоднозначности входных запросов.
Компания намерена масштабировать исследование, чтобы проверить надежность и устойчивость данного метода в различных условиях.
