Новости

ИИ-модель T-one: "Т-Технологии" открыли систему, которая может распознавать речь в реальном времени и троллить мошенников

Т-Технологии (входящие в холдинг, владеющий 99,97% Т-Банка) выложили в открытый доступ собственную модель автоматического распознавания речи под названием T-one. В отличие от решений OpenAI и Сбера, эта система способна работать с потоковой речью и, по заявлению разработчиков, демонстрирует более высокое качество распознавания русской речи в телефонии.

Объявление о запуске модели прозвучало 19 июля на конференции Turbo ML Conf в Москве. T-one уже доступна на платформах Hugging Face и GitHub. Размер модели — 70 млн параметров, что делает её компактной по сравнению с альтернативами (например, у Whisper large-v3 от OpenAI — 1,55 млрд параметров).

Практическое применение

T-one уже внедрена в продукты Т-Банка, включая службу поддержки, мобильного секретаря и антиспам-систему. Последняя не просто блокирует подозрительные звонки, но и умеет саркастично "троллить" спамеров и телефонных мошенников, подстраиваясь под контекст разговора. Всего в банке работают над шестью ИИ-ассистентами.

По словам представителей компании, создание модели обошлось менее чем в 10 млн рублей, включая технику и зарплаты команды. Благодаря компактности, T-one можно запускать даже с ноутбука, что делает её привлекательной для бизнеса, научных лабораторий и разработчиков голосовых решений.

Переход от "Олега" к новому подходу

T-Банк с 2016 года развивает голосовые технологии. В 2019 году был представлен ассистент "Олег", но в 2024 году банк отказался от его бренда. Сейчас его место занял мобильный секретарь, работающий на T-one. Переименование связано с уходом от имени основателя банка.

Оценки отрасли и значение опенсорса

Эксперты положительно оценивают появление компактных open-source моделей на русском языке. По словам специалистов из Naumen, Avito, MTS, CraftTalk и Яндекса, это стимулирует развитие отечественного рынка NLP и ASR (автоматического распознавания речи), делая технологии доступнее для малого и среднего бизнеса.

Рынок ASR и речевой аналитики активно растёт — в 2024 году его объём достиг 680 млн рублей (+7% к прошлому году), а весь сектор NLP в РФ оценивается в 8 млрд рублей. Речевые технологии всё чаще используются в колл-центрах, голосовых помощниках, системах безопасности и даже для выявления эмоций и дипфейков.

По мнению руководителя ASR-направления "Яндекса" Евгения Ганковича, опенсорс в сфере распознавания речи — важнейший драйвер прогресса. Благодаря таким инициативам, как T-one, отечественные модели могут выйти на конкурентный уровень и способствовать дальнейшему внедрению ИИ в бизнес-практики и сервисы.