Перейти к основному содержанию
Meta представила Muse Spark — новую ИИ-модель с мультимодальностью и логическим выводом

Meta представила Muse Spark — новую ИИ-модель с мультимодальностью и логическим выводом

Компания Meta объявила о запуске новой модели искусственного интеллекта Muse Spark, которая стала частью обновления приложения Meta AI. Модель ранее разрабатывалась под кодовым названием Avocado и теперь входит в новое семейство моделей Muse.

Meta представила Muse Spark — новую ИИ-модель с мультимодальностью и логическим выводом

Новая архитектура и возможности

Muse Spark разработана подразделением Meta Superintelligence Labs и представляет собой закрытую модель, в отличие от ряда предыдущих решений компании. Она изначально поддерживает мультимодальность и логический вывод, а также работу с инструментами, визуальные цепочки рассуждений и координацию нескольких ИИ-агентов.

Модель уже доступна пользователям через сервис meta.ai и приложение Meta AI при установленной последней версии. Также компания открыла ограниченный доступ к API в формате приватного превью.

Стратегия развития

В Meta заявляют, что Muse Spark — это первый шаг в рамках масштабной трансформации ИИ-направления. Компания инвестирует в развитие всей технологической цепочки, включая исследования, обучение моделей и инфраструктуру, в частности дата-центр Hyperion.

Производительность и ограничения

По данным Meta, версия Muse Spark (Thinking) демонстрирует конкурентные результаты по сравнению с моделями Opus 4.6 Max, Gemini 3.1 Pro High, GPT 5.4 Xhigh и Grok 4.2 Reasoning.

БенчмаркMuse SparkOpus 4.6Gemini 3.1 ProGPT 5.4Grok 4.2
МУЛЬТИМОДАЛЬНЫЕ     
CharXiv Reasoning (Понимание графиков)86.465.380.282.860.9
MMMU Pro (Мультимодальное понимание)80.477.483.981.275.2
ERQA (Воплощённое рассуждение)64.751.669.465.454.1
SimpleVQA (Визуальная фактичность)71.362.272.461.157.4
ScreenSpot Pro (Поиск на скриншотах)84.183.184.485.4
ZeroBench (Многошаговое визуальное рассуждение)33.029.041.0
ТЕКСТ / РАССУЖДЕНИЕ     
Humanity’s Last Exam (без инструментов)42.840.045.443.931.6
Humanity’s Last Exam (с инструментами)50.453.151.452.1
ARC AGI 2 (Абстрактные задачи)42.563.376.576.153.3
GPQA Diamond (PhD-уровень)89.592.794.392.888.5
LiveCodeBench Pro (Соревновательное программирование)80.070.782.987.574.2
ЗДРАВООХРАНЕНИЕ     
HealthBench Hard (Открытые мед. вопросы)42.814.820.640.120.3
MedXpertQA (текст)52.652.171.559.650.2
MedXpertQA (мультимодальный)78.464.881.377.165.8
АГЕНТНЫЕ ЗАДАЧИ     
DeepSearchQA (Агентный поиск)74.873.769.773.662.8
SWE-Bench Verified (Агентное программирование)77.480.880.676.7
SWE-Bench Pro (Разнообразное агентное кодирование)52.453.454.257.751.8
Terminal-Bench 2.0 (Терминальное кодирование)59.065.468.575.147.1
t²-Bench Telecom (Использование инструментов)91.592.195.691.596.5
GDPval-AA Elo (Офисные задачи)14441606132016721055

Модель показывает высокую эффективность в задачах мультимодального восприятия, логического анализа, медицины и агентных сценариев. При этом компания признаёт наличие ограничений в задачах с длительным планированием и в сценариях, связанных с программированием, и планирует улучшать эти направления.

Новые режимы работы

Помимо режимов Instant и Thinking, Meta разрабатывает новый режим под названием Contemplating, который пока не представлен публично. Он предполагает использование нескольких ИИ-агентов, работающих параллельно, что должно повысить эффективность при решении сложных задач.

В рамках тестов модель показывает 58% в бенчмарке Humanity’s Last Exam и 38% в FrontierScience Research, что, по заявлению компании, приближает её к возможностям продвинутых режимов рассуждения, реализованных в других ведущих моделях.