Представлена новая открытая модель синтеза речи Kani-TTS-370M

Kani-TTS-370M — новая открытая модель для тексто-речевого синтеза, отличающаяся естественным и выразительным звучанием при высокой скорости генерации. Обладая 370 миллионами параметров, она оптимизирована для работы на массовых потребительских видеокартах, включая RTX 3060, и способна воспроизводить речь в режиме реального времени.

Модель основана на сочетании технологий NanoCodec и LFM2-350M, что обеспечивает компактный размер и высокое качество речи, сравнимое с более крупными TTS-системами. Разработчики уделили особое внимание интонационной выразительности, чистоте аудио и минимальной задержке при синтезе.

Одним из ключевых преимуществ Kani-TTS является её универсальность и эффективность. Она легко запускается на локальных устройствах и подходит для использования в голосовых помощниках, озвучивании игровых персонажей, офлайн-озвучке и других решениях, не требующих подключения к облаку.

Создатели модели подчёркивают, что Kani-TTS-370M делает высококачественный синтез речи более доступным, открывая новые горизонты для разработки голосовых интерфейсов и интерактивных решений на различных платформах и устройствах.