ИИ-агенты с трудом справляются с бизнес-задачами: результаты теста CRMArena-Pro от Salesforce
2025-06-16 15:31
Новый тест CRMArena-Pro, разработанный компанией Salesforce, показал, что современные ИИ-модели испытывают значительные трудности при выполнении практических бизнес-задач. Даже у одной из самых продвинутых моделей — Gemini 2.5 Pro — уровень успешного выполнения одноступенчатых задач составляет лишь 58%, а при переходе к многоэтапным диалогам он снижается до 35%.
Что такое CRMArena-Pro
CRMArena-Pro — это расширенная версия оригинального теста CRMArena, созданная для оценки эффективности больших языковых моделей (LLM) в типичных задачах CRM: продажи, поддержка клиентов, ценообразование и защита данных. Тест включает 4280 задач, охватывающих 19 типов бизнес-операций и 3 категории работы с конфиденциальной информацией, и использует синтетические данные Salesforce.
Снижение точности при усложнении диалога
Результаты демонстрируют чёткие ограничения ИИ в деловых сценариях. Если в простых запросах ИИ способен показать приемлемую точность, то при необходимости вести многошаговый диалог — например, задавать уточняющие вопросы или учитывать скрытые детали — большинство моделей быстро теряют эффективность. Анализ 20 неудачных кейсов с Gemini 2.5 Pro показал, что в половине случаев провалы были связаны с тем, что модель не запрашивала важную информацию.
Отмечается, что ИИ, задающие больше уточняющих вопросов, справляются с задачами лучше. Однако в целом даже передовые LLM слабо проявляют инициативу в диалоге.
Где модели справляются лучше
Несмотря на общие трудности, в некоторых задачах Gemini 2.5 Pro показал хорошие результаты. Например, при автоматизации процессов, таких как маршрутизация обращений в поддержку, модель достигла 83% успешных решений. Но в задачах, требующих анализа текста или следования сложным правилам — например, при проверке конфигураций продукта или извлечении информации из логов — точность существенно снижалась.
Оценка проводилась среди девяти языковых моделей. OpenAI o3(-pro) не участвовал в сравнении.
Проблемы с конфиденциальностью данных
CRMArena-Pro также выявил слабые места в обработке чувствительной информации. Большинство моделей не распознают и не блокируют запросы, связанные с персональными или внутренними данными компаний — если только специально не указать это в инструкциях.
Так, GPT-4o начал корректно распознавать такие запросы, когда в подсказках были заданы строгие правила, повысив уровень обнаружения до 34,2%. Однако это привело к снижению общего качества выполнения задач на 2,7%. Модели с открытым кодом, такие как LLaMA 3.1, оказались менее чувствительны к корректировкам, что указывает на необходимость дообучения.
По словам одного из авторов проекта, Кунг-Сяна Стива Хуанга, CRMArena-Pro стал первым масштабным тестом, в котором системно оценивается поведение ИИ по критерию защиты данных.