Nvidia представила GPU Rubin CPX для моделей с экстремально длинным контекстом

Компания Nvidia анонсировала новый графический процессор Rubin CPX, разработанный специально для языковых и мультимодальных моделей, которым необходимо обрабатывать колоссальные объёмы данных. Новый чип способен работать с контекстом более чем в 1 миллион токенов — это в разы превышает возможности современных ИИ-моделей.

Ключевая особенность Rubin CPX — использование архитектуры disaggregated inference, при которой задачи распределяются между несколькими GPU, а их результаты объединяются в итоговый ответ. Такой подход повышает производительность при работе с длинными запросами, снижает задержки и позволяет эффективнее использовать ресурсы. Это особенно полезно для задач, где критична глобальная связность — например, генерация видео, обработка сложного кода, анализ больших текстов и ведение длительных диалогов.

Rubin CPX открывает новые перспективы для различных отраслей:

в юриспруденции — для анализа сотен страниц нормативных актов,
в медицине — для сопоставления больших массивов медицинских данных,
в разработке ПО — для работы с проектами целиком, а не отдельными файлами,
в творчестве — для генерации сложных видеороликов и мультимедийных проектов.

Чип ориентирован не на обучение моделей, а на ускорение инференса — процесса выполнения уже обученных ИИ-систем. Nvidia рассчитывает, что Rubin CPX станет важным элементом в масштабировании ИИ-решений следующего поколения, сделав их внедрение в бизнес быстрее и экономичнее.

Релиз Rubin CPX ожидается в конце 2026 года. Несмотря на то, что до начала поставок ещё более года, уже сейчас очевидно — этот GPU способен задать новый стандарт в сфере искусственного интеллекта, превратив работу с миллионным контекстом из эксперимента в норму.