Представлен бенчмарк, в котором искусственный интеллект значительно уступает человеку

2025-09-08 15:03

В бенчмарке ClockBench, направленном на распознавание времени по аналоговым часам, ИИ-модели показали крайне низкие результаты. Так, лучшая из них — Gemini 2.5 Pro — дала правильные ответы лишь в 13,3% случаев, тогда как люди справились с задачами в 89,1%.

Датасет бенчмарка включает 36 типов циферблатов, каждый из которых представлен в 5 различных положениях стрелок. Всего получилось 180 комбинаций, к каждой из которых задавалось по 4 вопроса. Участникам сначала предлагалось определить точное время и указать, является ли оно корректным — в датасете присутствовали случаи, где положение стрелок было противоречивым (например, минутная стрелка показывает 20 минут, а часовая не сдвинулась на соответствующую треть часа). После этого следовали задания на прибавление или вычитание времени, поворот стрелок на заданный угол и перевод между часовыми поясами.

Авторы бенчмарка отмечают не только общий провал ИИ, но и значительную разницу в точности: медианная ошибка у лучших моделей составляла 1 час, в то время как у людей — всего 3 минуты. Однако, если модели всё же правильно определяли время, последующие вопросы обычно не вызывали затруднений.

Основные сложности для ИИ возникали на "нестандартных" циферблатах — 24-часовых, с римскими цифрами, необычным расположением, наличием секундной стрелки, декоративными элементами. Исследователи считают, что задача требует именно визуального рассуждения, а не просто обработки текста — и современные модели в этом пока слабы. Встает вопрос: поможет ли масштабирование, или нужны принципиально новые архитектуры?