-
Добавлено пользователем arturbaranok - 09.04.2026 - 07:32
Компания Meta объявила о запуске новой модели искусственного интеллекта Muse Spark, которая стала частью обновления приложения Meta AI. Модель ранее разрабатывалась под кодовым названием Avocado и теперь входит в новое семейство моделей Muse.
Новая архитектура и возможности
Muse Spark разработана подразделением Meta Superintelligence Labs и представляет собой закрытую модель, в отличие от ряда предыдущих решений компании. Она изначально поддерживает мультимодальность и логический вывод, а также работу с инструментами, визуальные цепочки рассуждений и координацию нескольких ИИ-агентов.
Модель уже доступна пользователям через сервис meta.ai и приложение Meta AI при установленной последней версии. Также компания открыла ограниченный доступ к API в формате приватного превью.
Стратегия развития
В Meta заявляют, что Muse Spark — это первый шаг в рамках масштабной трансформации ИИ-направления. Компания инвестирует в развитие всей технологической цепочки, включая исследования, обучение моделей и инфраструктуру, в частности дата-центр Hyperion.
Производительность и ограничения
По данным Meta, версия Muse Spark (Thinking) демонстрирует конкурентные результаты по сравнению с моделями Opus 4.6 Max, Gemini 3.1 Pro High, GPT 5.4 Xhigh и Grok 4.2 Reasoning.
| Бенчмарк | Muse Spark | Opus 4.6 | Gemini 3.1 Pro | GPT 5.4 | Grok 4.2 |
|---|---|---|---|---|---|
| МУЛЬТИМОДАЛЬНЫЕ | |||||
| CharXiv Reasoning (Понимание графиков) | 86.4 | 65.3 | 80.2 | 82.8 | 60.9 |
| MMMU Pro (Мультимодальное понимание) | 80.4 | 77.4 | 83.9 | 81.2 | 75.2 |
| ERQA (Воплощённое рассуждение) | 64.7 | 51.6 | 69.4 | 65.4 | 54.1 |
| SimpleVQA (Визуальная фактичность) | 71.3 | 62.2 | 72.4 | 61.1 | 57.4 |
| ScreenSpot Pro (Поиск на скриншотах) | 84.1 | 83.1 | 84.4 | 85.4 | — |
| ZeroBench (Многошаговое визуальное рассуждение) | 33.0 | — | 29.0 | 41.0 | — |
| ТЕКСТ / РАССУЖДЕНИЕ | |||||
| Humanity’s Last Exam (без инструментов) | 42.8 | 40.0 | 45.4 | 43.9 | 31.6 |
| Humanity’s Last Exam (с инструментами) | 50.4 | 53.1 | 51.4 | 52.1 | — |
| ARC AGI 2 (Абстрактные задачи) | 42.5 | 63.3 | 76.5 | 76.1 | 53.3 |
| GPQA Diamond (PhD-уровень) | 89.5 | 92.7 | 94.3 | 92.8 | 88.5 |
| LiveCodeBench Pro (Соревновательное программирование) | 80.0 | 70.7 | 82.9 | 87.5 | 74.2 |
| ЗДРАВООХРАНЕНИЕ | |||||
| HealthBench Hard (Открытые мед. вопросы) | 42.8 | 14.8 | 20.6 | 40.1 | 20.3 |
| MedXpertQA (текст) | 52.6 | 52.1 | 71.5 | 59.6 | 50.2 |
| MedXpertQA (мультимодальный) | 78.4 | 64.8 | 81.3 | 77.1 | 65.8 |
| АГЕНТНЫЕ ЗАДАЧИ | |||||
| DeepSearchQA (Агентный поиск) | 74.8 | 73.7 | 69.7 | 73.6 | 62.8 |
| SWE-Bench Verified (Агентное программирование) | 77.4 | 80.8 | 80.6 | — | 76.7 |
| SWE-Bench Pro (Разнообразное агентное кодирование) | 52.4 | 53.4 | 54.2 | 57.7 | 51.8 |
| Terminal-Bench 2.0 (Терминальное кодирование) | 59.0 | 65.4 | 68.5 | 75.1 | 47.1 |
| t²-Bench Telecom (Использование инструментов) | 91.5 | 92.1 | 95.6 | 91.5 | 96.5 |
| GDPval-AA Elo (Офисные задачи) | 1444 | 1606 | 1320 | 1672 | 1055 |
Модель показывает высокую эффективность в задачах мультимодального восприятия, логического анализа, медицины и агентных сценариев. При этом компания признаёт наличие ограничений в задачах с длительным планированием и в сценариях, связанных с программированием, и планирует улучшать эти направления.
Новые режимы работы
Помимо режимов Instant и Thinking, Meta разрабатывает новый режим под названием Contemplating, который пока не представлен публично. Он предполагает использование нескольких ИИ-агентов, работающих параллельно, что должно повысить эффективность при решении сложных задач.
В рамках тестов модель показывает 58% в бенчмарке Humanity’s Last Exam и 38% в FrontierScience Research, что, по заявлению компании, приближает её к возможностям продвинутых режимов рассуждения, реализованных в других ведущих моделях.