Физический искусственный интеллект, объединяющий робототехнику и крупные языковые модели, стремительно развивается. В эту сферу активно инвестируют технологические гиганты вроде Nvidia, Google и Meta, разрабатывая системы, которые объединяют визуальное восприятие, язык и действия.
Институт искусственного интеллекта Аллена (Ai2) представил разработку под названием MolmoAct 7B — открытую модель нового поколения, ориентированную на работу в трёхмерной среде. Она базируется на платформе Molmo и поставляется с открытыми обучающими данными. Код распространяется по лицензии Apache 2.0, а датасеты — под CC BY-4.0.
MolmoAct относится к классу action reasoning models — моделей, предназначенных для пространственного мышления и построения цепочек действий в физическом мире. В отличие от традиционных моделей типа VLA (vision-language-action), MolmoAct обрабатывает информацию, учитывая пространственные особенности окружающей среды. Это делает её более универсальной и эффективной с архитектурной точки зрения.
Модель ориентирована на сценарии, где машине необходимо анализировать физическую обстановку. Наибольшее внимание уделяется бытовым ситуациям, поскольку они наиболее сложны для робототехники из-за своей изменчивости. Однако область применения MolmoAct значительно шире и может включать самые разные физические контексты.
Ключевой особенностью MolmoAct являются spatially grounded perception tokens — «пространственно привязанные токены восприятия». Эти токены формируются с помощью векторно-квантованного вариационного автоэнкодера, преобразующего входные данные (например, видео) в форму, пригодную для пространственного анализа. В отличие от текстовых токенов в VLA-системах, токены MolmoAct кодируют геометрию объектов, их взаимное расположение и расстояния между ними.
На основе этих данных модель формирует траекторию — цепочку ориентиров в изображении, а затем определяет необходимые действия, такие как перемещение манипулятора или выдвижение руки.
MolmoAct демонстрирует высокую степень адаптивности — она легко настраивается под разные типы роботов: от промышленных манипуляторов до гуманоидных систем. При этом объем требуемой донастройки минимален.
В ходе тестирования на бенчмарках MolmoAct 7B показала эффективность выполнения задач на уровне 72,1%, обойдя аналогичные решения от Google, Microsoft и Nvidia. Таким образом, модель Ai2 демонстрирует серьёзный потенциал и становится заметным конкурентом на фоне крупных игроков индустрии.
Продвижение в физическом ИИ: MolmoAct как важный этап развития пространственного мышления у роботов
Исследование, проведённое Институтом искусственного интеллекта Аллена (Ai2), отражает растущую тенденцию интеграции возможностей больших языковых и визуально-языковых моделей (LLM и VLM) в области физического ИИ. Это направление, объединяющее робототехнику и генеративные технологии, рассматривается как основа для построения будущих интеллектуальных систем.
Работа Ai2 оценивается экспертным сообществом как значимый этап в развитии моделей, способных к анализу и планированию действий в трёхмерной среде. В отличие от предыдущих решений, ориентированных на двухмерное восприятие, MolmoAct делает акцент на реальное понимание пространственных характеристик окружения. Несмотря на то, что тестирования пока ограничиваются лабораторными задачами, уже достигнутые результаты воспринимаются как серьёзный шаг вперёд. Модель демонстрирует улучшенные показатели по сравнению с аналогами, и это усиливает интерес к её практическому применению.
Также отмечается, что открытый доступ к модели и обучающим данным открывает широкие возможности для исследователей, академических лабораторий и независимых разработчиков. Высокая стоимость разработки подобных систем ранее ограничивала их распространение, но теперь появляется более доступная база для дальнейших экспериментов и доработок.
Физический ИИ и его потенциал
Интерес к созданию роботов, способных самостоятельно ориентироваться в пространстве и принимать решения, не нов. Однако до недавнего времени разработчики были вынуждены вручную прописывать каждое движение машин. Это делало системы негибкими и ресурсоёмкими в разработке. Появление LLM и VLM позволило автоматизировать поведенческие сценарии, придавая роботам способность к адаптивному принятию решений на основе окружающей обстановки.
Ведущие компании уже внедряют такие подходы. В частности, Google Research использует LLM в системе SayCan для построения последовательностей действий. Meta (организация, признанная экстремистской в РФ) и Нью-Йоркский университет применяют визуально-языковые модели в проекте OK-Robot для планирования манипуляций. Hugging Face предложила доступный настольный робот за 299 долларов, стремясь упростить вход в разработку ИИ-решений в области робототехники. Nvidia, в свою очередь, продвигает концепцию физического ИИ как нового технологического тренда, предлагая модели для ускоренного обучения роботов, включая Cosmos-Transfer1.
Несмотря на то что количество публичных демонстраций пока ограничено, физический ИИ активно набирает популярность. Участники отрасли отмечают, что крупные универсальные модели пока находятся на раннем этапе развития, однако потенциал для дальнейшего роста в этом направлении остаётся очень высоким. По мере повышения сложности задач, с которыми сталкиваются роботы, растёт и потребность в интеллектуальных решениях, способных гибко реагировать на изменения в окружающем мире. Именно это делает сферу физического ИИ одной из самых перспективных и динамичных в современном ИТ-секторе.
Институт искусственного интеллекта Аллена (Ai2) представил разработку под названием MolmoAct 7B — открытую модель нового поколения, ориентированную на работу в трёхмерной среде. Она базируется на платформе Molmo и поставляется с открытыми обучающими данными. Код распространяется по лицензии Apache 2.0, а датасеты — под CC BY-4.0.
MolmoAct относится к классу action reasoning models — моделей, предназначенных для пространственного мышления и построения цепочек действий в физическом мире. В отличие от традиционных моделей типа VLA (vision-language-action), MolmoAct обрабатывает информацию, учитывая пространственные особенности окружающей среды. Это делает её более универсальной и эффективной с архитектурной точки зрения.
Модель ориентирована на сценарии, где машине необходимо анализировать физическую обстановку. Наибольшее внимание уделяется бытовым ситуациям, поскольку они наиболее сложны для робототехники из-за своей изменчивости. Однако область применения MolmoAct значительно шире и может включать самые разные физические контексты.
Ключевой особенностью MolmoAct являются spatially grounded perception tokens — «пространственно привязанные токены восприятия». Эти токены формируются с помощью векторно-квантованного вариационного автоэнкодера, преобразующего входные данные (например, видео) в форму, пригодную для пространственного анализа. В отличие от текстовых токенов в VLA-системах, токены MolmoAct кодируют геометрию объектов, их взаимное расположение и расстояния между ними.
На основе этих данных модель формирует траекторию — цепочку ориентиров в изображении, а затем определяет необходимые действия, такие как перемещение манипулятора или выдвижение руки.
MolmoAct демонстрирует высокую степень адаптивности — она легко настраивается под разные типы роботов: от промышленных манипуляторов до гуманоидных систем. При этом объем требуемой донастройки минимален.
В ходе тестирования на бенчмарках MolmoAct 7B показала эффективность выполнения задач на уровне 72,1%, обойдя аналогичные решения от Google, Microsoft и Nvidia. Таким образом, модель Ai2 демонстрирует серьёзный потенциал и становится заметным конкурентом на фоне крупных игроков индустрии.
Продвижение в физическом ИИ: MolmoAct как важный этап развития пространственного мышления у роботов
Исследование, проведённое Институтом искусственного интеллекта Аллена (Ai2), отражает растущую тенденцию интеграции возможностей больших языковых и визуально-языковых моделей (LLM и VLM) в области физического ИИ. Это направление, объединяющее робототехнику и генеративные технологии, рассматривается как основа для построения будущих интеллектуальных систем.
Работа Ai2 оценивается экспертным сообществом как значимый этап в развитии моделей, способных к анализу и планированию действий в трёхмерной среде. В отличие от предыдущих решений, ориентированных на двухмерное восприятие, MolmoAct делает акцент на реальное понимание пространственных характеристик окружения. Несмотря на то, что тестирования пока ограничиваются лабораторными задачами, уже достигнутые результаты воспринимаются как серьёзный шаг вперёд. Модель демонстрирует улучшенные показатели по сравнению с аналогами, и это усиливает интерес к её практическому применению.
Также отмечается, что открытый доступ к модели и обучающим данным открывает широкие возможности для исследователей, академических лабораторий и независимых разработчиков. Высокая стоимость разработки подобных систем ранее ограничивала их распространение, но теперь появляется более доступная база для дальнейших экспериментов и доработок.
Физический ИИ и его потенциал
Интерес к созданию роботов, способных самостоятельно ориентироваться в пространстве и принимать решения, не нов. Однако до недавнего времени разработчики были вынуждены вручную прописывать каждое движение машин. Это делало системы негибкими и ресурсоёмкими в разработке. Появление LLM и VLM позволило автоматизировать поведенческие сценарии, придавая роботам способность к адаптивному принятию решений на основе окружающей обстановки.
Ведущие компании уже внедряют такие подходы. В частности, Google Research использует LLM в системе SayCan для построения последовательностей действий. Meta (организация, признанная экстремистской в РФ) и Нью-Йоркский университет применяют визуально-языковые модели в проекте OK-Robot для планирования манипуляций. Hugging Face предложила доступный настольный робот за 299 долларов, стремясь упростить вход в разработку ИИ-решений в области робототехники. Nvidia, в свою очередь, продвигает концепцию физического ИИ как нового технологического тренда, предлагая модели для ускоренного обучения роботов, включая Cosmos-Transfer1.
Несмотря на то что количество публичных демонстраций пока ограничено, физический ИИ активно набирает популярность. Участники отрасли отмечают, что крупные универсальные модели пока находятся на раннем этапе развития, однако потенциал для дальнейшего роста в этом направлении остаётся очень высоким. По мере повышения сложности задач, с которыми сталкиваются роботы, растёт и потребность в интеллектуальных решениях, способных гибко реагировать на изменения в окружающем мире. Именно это делает сферу физического ИИ одной из самых перспективных и динамичных в современном ИТ-секторе.