Microsoft представила локальную языковую модель Mu для Windows 11

Microsoft анонсировала новую компактную языковую модель Mu, встроенную в Windows 11, которая работает локально. Mu предназначена для взаимодействия с пользователем через агент в настройках, доступный для инсайдеров Windows в Dev Channel с ПК Copilot+. Модель обрабатывает запросы на естественном языке и преобразует их в вызовы функций настроек системы.

Модель Mu использует нейронный процессор (NPU), который способен обрабатывать более 100 токенов в секунду. Для её разработки применялись данные работы на NPU Phi Silica.

Mu — это языковая модель кодера-декодера с 330 миллионами параметров, оптимизированная для мелкомасштабного развёртывания, особенно на NPU в ПК Copilot+. Архитектура модели состоит из кодера, который преобразует входные данные в скрытое представление фиксированной длины, и декодера, генерирующего выходные токены на основе этого представления. Это решение снижает задержки и улучшает пропускную способность при использовании специализированного оборудования. Например, на Qualcomm Hexagon NPU Mu показала 47%-е снижение задержки и в 4,7 раза большую скорость декодирования по сравнению с моделью с одним декодером того же размера.

При проектировании модели была учтена эффективность её работы на NPU, что проявляется в оптимизированной архитектуре и размере слоев. Размеры слоев были согласованы с предпочтительными размерами тензора NPU, что повышает эффективность выполнения операций, таких как умножение матриц. Также распределение параметров между кодером и декодером было оптимизировано (например, 32 слоя в кодере против 12 в декодере).

Для экономии памяти Mu использует однотипные веса как для входных, так и для выходных токенов, что улучшает согласованность между словарями кодера и декодера. Также модель ограничивает операции теми, которые оптимизированы для NPU и поддерживаются средой выполнения.

Mu была обучена с использованием графических процессоров A100 в Azure Machine Learning, проходя несколько этапов. На первом этапе модель учила синтаксис, грамматику и семантику, используя сотни миллиардов образовательных токенов. Для повышения точности также была применена дистилляция из моделей Phi.

Для оценки производительности Mu провели тонкую настройку на различных задачах, таких как SQUAD, CodeXGlue и агент настроек Windows. В тестах Mu почти сопоставима с моделью Phi-3.5-mini, несмотря на её размер в десять раз меньший.

После обучения модель была квантована (PTQ), что позволило преобразовать веса и активации из плавающей точки в целочисленные представления (8- и 16-битные). Microsoft сотрудничала с AMD, Intel и Qualcomm, чтобы оптимизировать квантованные операции на целевых NPU.

Mu генерирует данные со скоростью более 200 токенов в секунду на Surface Laptop 7.

Для повышения удобства использования Mu в Windows, разработчики сосредоточились на улучшении взаимодействия с системой настроек. Модель теперь обрабатывает запросы на естественном языке и вносит соответствующие изменения в настройки, при этом обеспечивает отклик менее чем 500 миллисекунд.

В процессе оптимизации было замечено, что модель работает лучше с более длинными запросами, которые чётко формулируют намерения. Чтобы улучшить работу с короткими запросами, агент был интегрирован в поле поиска настроек, преобразуя краткие фразы в более подробные. Например, запрос типа «Увеличить яркость» может ссылаться на несколько параметров, если у пользователя несколько мониторов. В таких случаях разработчики уточнили обучающие данные, чтобы приоритет был отдан наиболее часто используемым настройкам.

Модель Mu уже доступна для участников программы Windows Insiders.