Компания OpenAI представила новое поколение аудиомоделей: улучшенное распознавание речи и настройку стиля голоса ИИ

Компания OpenAI анонсировала обновлённые аудиомодели, которые позволяют разработчикам настраивать речь ИИ-помощников. Новое обновление включает улучшенное распознавание речи и возможность управлять стилем голоса ИИ с помощью простых текстовых команд.

По данным OpenAI, новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe допускают меньше ошибок при преобразовании речи в текст по сравнению с предыдущими системами, такими как Whisper. Эти модели показывают лучшие результаты в сложных условиях, таких как сильный акцент, шумная обстановка и разная скорость речи.

Особое внимание привлекает новая модель gpt-4o-mini-tts для преобразования текста в речь. Она позволяет настраивать стиль голоса ИИ с помощью команд вроде «говорите как пират» или «расскажите это как сказку на ночь», что дает разработчикам возможность точно настроить звучание. Эти возможности основаны на архитектурах GPT-4o и GPT-4o-mini от OpenAI, которые обрабатывают различные типы входных и выходных данных.

По заявлению OpenAI, улучшенная производительность моделей была достигнута благодаря специализированному предварительному обучению на аудиоданных для более глубокого понимания речи, улучшенным методам сжатия моделей и более широкому применению обучения с подкреплением в распознавании речи. Компания также внедрила методы «самообучения», которые имитируют естественные модели общения.

Теперь разработчики могут получить доступ к этим моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений, работающих в реальном времени, OpenAI предлагает использовать Realtime API с функцией преобразования текста в речь.

На данный момент система поддерживает только предустановленные искусственные голоса OpenAI — разработчики не могут создавать новые голоса или клонировать существующие. Компания заявляет, что в будущем планирует разрешить использование пользовательских голосов, при этом соблюдая стандарты безопасности, а также расширить возможности для мультимодальных взаимодействий, включая видео.

Это обновление стало продолжением запуска в марте 2024 года голосового движка Voice Engine от OpenAI, который был доступен только для собственных продуктов компании и избранных клиентов. Судя по всему, эта ранняя модель была заменена более универсальными мультимодальными возможностями GPT-4o.