Microsoft анонсировала новую компактную языковую модель Mu, встроенную в Windows 11, которая работает локально. Mu предназначена для взаимодействия с пользователем через агент в настройках, доступный для инсайдеров Windows в Dev Channel с ПК Copilot+. Модель обрабатывает запросы на естественном языке и преобразует их в вызовы функций настроек системы.
Модель Mu использует нейронный процессор (NPU), который способен обрабатывать более 100 токенов в секунду. Для её разработки применялись данные работы на NPU Phi Silica.
Mu — это языковая модель кодера-декодера с 330 миллионами параметров, оптимизированная для мелкомасштабного развёртывания, особенно на NPU в ПК Copilot+. Архитектура модели состоит из кодера, который преобразует входные данные в скрытое представление фиксированной длины, и декодера, генерирующего выходные токены на основе этого представления. Это решение снижает задержки и улучшает пропускную способность при использовании специализированного оборудования. Например, на Qualcomm Hexagon NPU Mu показала 47%-е снижение задержки и в 4,7 раза большую скорость декодирования по сравнению с моделью с одним декодером того же размера.
При проектировании модели была учтена эффективность её работы на NPU, что проявляется в оптимизированной архитектуре и размере слоев. Размеры слоев были согласованы с предпочтительными размерами тензора NPU, что повышает эффективность выполнения операций, таких как умножение матриц. Также распределение параметров между кодером и декодером было оптимизировано (например, 32 слоя в кодере против 12 в декодере).
Для экономии памяти Mu использует однотипные веса как для входных, так и для выходных токенов, что улучшает согласованность между словарями кодера и декодера. Также модель ограничивает операции теми, которые оптимизированы для NPU и поддерживаются средой выполнения.
Mu была обучена с использованием графических процессоров A100 в Azure Machine Learning, проходя несколько этапов. На первом этапе модель учила синтаксис, грамматику и семантику, используя сотни миллиардов образовательных токенов. Для повышения точности также была применена дистилляция из моделей Phi.
Для оценки производительности Mu провели тонкую настройку на различных задачах, таких как SQUAD, CodeXGlue и агент настроек Windows. В тестах Mu почти сопоставима с моделью Phi-3.5-mini, несмотря на её размер в десять раз меньший.
После обучения модель была квантована (PTQ), что позволило преобразовать веса и активации из плавающей точки в целочисленные представления (8- и 16-битные). Microsoft сотрудничала с AMD, Intel и Qualcomm, чтобы оптимизировать квантованные операции на целевых NPU.
Mu генерирует данные со скоростью более 200 токенов в секунду на Surface Laptop 7.
Для повышения удобства использования Mu в Windows, разработчики сосредоточились на улучшении взаимодействия с системой настроек. Модель теперь обрабатывает запросы на естественном языке и вносит соответствующие изменения в настройки, при этом обеспечивает отклик менее чем 500 миллисекунд.
В процессе оптимизации было замечено, что модель работает лучше с более длинными запросами, которые чётко формулируют намерения. Чтобы улучшить работу с короткими запросами, агент был интегрирован в поле поиска настроек, преобразуя краткие фразы в более подробные. Например, запрос типа «Увеличить яркость» может ссылаться на несколько параметров, если у пользователя несколько мониторов. В таких случаях разработчики уточнили обучающие данные, чтобы приоритет был отдан наиболее часто используемым настройкам.
Модель Mu уже доступна для участников программы Windows Insiders.
Модель Mu использует нейронный процессор (NPU), который способен обрабатывать более 100 токенов в секунду. Для её разработки применялись данные работы на NPU Phi Silica.
Mu — это языковая модель кодера-декодера с 330 миллионами параметров, оптимизированная для мелкомасштабного развёртывания, особенно на NPU в ПК Copilot+. Архитектура модели состоит из кодера, который преобразует входные данные в скрытое представление фиксированной длины, и декодера, генерирующего выходные токены на основе этого представления. Это решение снижает задержки и улучшает пропускную способность при использовании специализированного оборудования. Например, на Qualcomm Hexagon NPU Mu показала 47%-е снижение задержки и в 4,7 раза большую скорость декодирования по сравнению с моделью с одним декодером того же размера.
При проектировании модели была учтена эффективность её работы на NPU, что проявляется в оптимизированной архитектуре и размере слоев. Размеры слоев были согласованы с предпочтительными размерами тензора NPU, что повышает эффективность выполнения операций, таких как умножение матриц. Также распределение параметров между кодером и декодером было оптимизировано (например, 32 слоя в кодере против 12 в декодере).
Для экономии памяти Mu использует однотипные веса как для входных, так и для выходных токенов, что улучшает согласованность между словарями кодера и декодера. Также модель ограничивает операции теми, которые оптимизированы для NPU и поддерживаются средой выполнения.
Mu была обучена с использованием графических процессоров A100 в Azure Machine Learning, проходя несколько этапов. На первом этапе модель учила синтаксис, грамматику и семантику, используя сотни миллиардов образовательных токенов. Для повышения точности также была применена дистилляция из моделей Phi.
Для оценки производительности Mu провели тонкую настройку на различных задачах, таких как SQUAD, CodeXGlue и агент настроек Windows. В тестах Mu почти сопоставима с моделью Phi-3.5-mini, несмотря на её размер в десять раз меньший.
После обучения модель была квантована (PTQ), что позволило преобразовать веса и активации из плавающей точки в целочисленные представления (8- и 16-битные). Microsoft сотрудничала с AMD, Intel и Qualcomm, чтобы оптимизировать квантованные операции на целевых NPU.
Mu генерирует данные со скоростью более 200 токенов в секунду на Surface Laptop 7.
Для повышения удобства использования Mu в Windows, разработчики сосредоточились на улучшении взаимодействия с системой настроек. Модель теперь обрабатывает запросы на естественном языке и вносит соответствующие изменения в настройки, при этом обеспечивает отклик менее чем 500 миллисекунд.
В процессе оптимизации было замечено, что модель работает лучше с более длинными запросами, которые чётко формулируют намерения. Чтобы улучшить работу с короткими запросами, агент был интегрирован в поле поиска настроек, преобразуя краткие фразы в более подробные. Например, запрос типа «Увеличить яркость» может ссылаться на несколько параметров, если у пользователя несколько мониторов. В таких случаях разработчики уточнили обучающие данные, чтобы приоритет был отдан наиболее часто используемым настройкам.
Модель Mu уже доступна для участников программы Windows Insiders.