Исследование JGU: ИИ-модели предвзяты к носителям диалектов

03.01.2026, 08:00 • Евгения Слив

Крупные языковые модели вроде ChatGPT-5 mini и Llama 3.1 приписывают носителям диалектов негативные стереотипы, такие как «необразованные» или «гневные фермеры» для баварского и кельнского немецкого. Исследование Университета имени Йоханнеса Гутенберга (JGU), показало усиление предвзятости при указании диалекта. Аналогично ChatGPT реагировал унизительно на индийский, ирландский или нигерийский английский по сравнению со стандартным. Один из ведущих авторов исследования ИИ-моделей Минь Дук Буй назвал эпитеты «шокирующими».

ИИ-ассистент для покупок Amazon Rufus летом 2025 года грубо отвечал на афроамериканский диалект, меняя фамилии индийских соискателей на «высококастовые».

По мнению аспиранта Корнеллского университета США в области информатики Эммы Харви, широкое распространение языковых моделей ИИ несет угрозу не просто сохранения, а значительного усиления существующих социальных предубеждений. Технология, вместо того чтобы уменьшить вред, может придать ему системный и повсеместный характер.

Однако проблема не сводится только к предвзятости — некоторые модели оказываются просто «глухи» к языковому разнообразию. Яркий пример произошел в июле 2025 года, когда ИИ-ассистент городского совета Дерби (Англия) не смог понять местного радиоведущего, использовавшего в эфире диалектные слова вроде mardy («капризный») и duck («дорогой/ая»).

Корень проблемы, как отмечают эксперты, лежит не в самой технологии, а в принципах ее обучения. Чат-боты анализируют колоссальные массивы текстов из интернета, перенимая заложенные в них стереотипы. «Ключевой вопрос — кто автор этих текстов. Если в них присутствует предвзятое отношение к носителям диалектов, ИИ неизбежно его воспроизводит», — поясняет исследовательница Каролин Хольтерманн из Гамбургского университета.

При этом, по ее словам, у ИИ есть принципиальное преимущество перед человеком: «В отличие от людей, предвзятость в алгоритме можно выявить и целенаправленно „отключить“. Это дает нам возможность активно с ней бороться». Один из предлагаемых учеными путей — создание специализированных моделей, адаптированных под конкретные диалекты. Например, в августе 2024 года компания Acree AI уже представила модель Arcee-Meraj, способную работать с несколькими арабскими диалектами.

Как заключает Хольтерманн, появление более гибких языковых моделей позволяет взглянуть на ИИ «не как на врага языкового разнообразия, а как на несовершенный, но улучшаемый инструмент». Напомним, что ранее эксперты уже предупреждали о других скрытых рисках ИИ — например, журналисты The Economist указывали на потенциальную опасность «умных» игрушек для психического развития детей.

Исследование JGU: ИИ-модели предвзяты к носителям диалектов

Популярные статьи