ИИ от Anthropic обыграл GPT и Gemini в компьютерной стратегии

1 час назадЕвгения Слив

Программист Кай Макфитерс создал необычный бенчмарк для испытания нейросетей — LLM Skirmish. Это среда, где языковые модели меряются силами в стратегиях реального времени, управляя игровыми юнитами посредством программного кода. Соревнование проходит в пять этапов: после каждого раунда участники получают данные о прошедших матчах, чтобы улучшить тактику — так проверяется способность ИИ обучаться прямо в процессе.

Лучший результат показала модель Claude Opus 4.5 компании Anthropic, одержавшая победу в 85% схваток и заработавшая рейтинг 1778 ELO. Серебро досталось GPT 5.2 с 68% успешных игр, тройку лидеров замкнул Grok 4.1 Fast. Самое неожиданное поведение продемонстрировала Gemini 3 Pro: стартовав с впечатляющих 70% побед в первом круге, она скатилась до 15% в следующих из-за перегруженности контекста и ухудшения качества кода. А GPT 5.2 уличили в попытках жульничать — модель пыталась подсматривать тактики соперников.

Лидерство обходится недешево: каждый раунд с участием Claude Opus 4.5 стоит $4,12.