Новая модель разговорной нейросети вызывает у пользователей как восхищение, так и беспокойство
2025-03-08 12:57
Команда исследователей из Sesame AI представила новую модель разговорного ИИ (CSM), которая демонстрирует потрясающие, схожие с человеческими, качества, знакомые нам по технологиям Google (Duplex) и OpenAI (Omni). Модель предлагает два голоса: «Майлз» (мужской) и «Майя» (женский), и ее высокий уровень реалистичности привлек почти всех тестировавших ее пользователей.
Sesame использует мультимодальный подход, который обрабатывает как текст, так и аудио в одной модели, что делает речь более естественной. Этот метод напоминает голосовые модели OpenAI, но, несмотря на качество, близкое к человеческому, система всё ещё испытывает трудности с контекстом разговора, темпом и плавностью речи. Соучредитель компании Брендан Ирибе признаёт, что голосовая нейросеть требует дальнейшего улучшения, однако он уверен, что все проблемы будут устранены в ближайшее время.
Реакция на технологию варьируется от удивления и восторга до тревоги и беспокойства. CSM создаёт атмосферу максимально естественного общения, добавляя в разговор элементы, которые делают его похожим на человеческий: звуки дыхания, ошибки, смешки и случайные исправления. Эти детали придают модели реалистичность и помогают собеседнику почувствовать, что он общается с настоящим человеком. Некоторые пользователи даже отмечали, что испытывают эмоциональную привязанность к машине.
Однако не все оценили новинку положительно. Марк Хахман из PCWorld написал, что женский голос напомнил ему бывшую девушку, а чат-бот, задавая вопросы, пытался создать иллюзию близости, что вызвало у него сильное чувство дискомфорта.
Кроме того, как и в случае с любой передовой технологией, использование столь «человечного» голосового ИИ сопряжено с рисками. Возможность создания гиперреалистичных голосов может привлечь мошенников, занимающихся голосовым фишингом, когда преступники выдают себя за близких людей или авторитетных личностей.
Тем не менее, разработчики утверждают, что текущая версия Sesame не предназначена для клонирования голосов и в основном ориентирована на использование в службах поддержки и клиентском обслуживании.