Google представила Gemini 3.1 Pro с рекордными результатами в бенчмарках
-
Добавлено пользователем arturbaranok - 20.02.2026 - 00:33
Google анонсировала Gemini 3.1 Pro — обновленную ИИ-модель, которая превосходит предыдущую версию и конкурентов по ряду ключевых логических и научных тестов.
В ноябре компания представила Gemini 3 Pro с продвинутыми возможностями рассуждения и мультимодальности. Теперь Google объявила о выходе Gemini 3.1 Pro — преемника 3 Pro с существенными улучшениями и результатами уровня state-of-the-art в нескольких значимых бенчмарках.
Результаты в бенчмарках
По данным Google, модель 3.1 Pro стала более интеллектуальной и способной к решению сложных задач.
- В тесте ARC-AGI-2, который оценивает способность модели решать полностью новые логические паттерны, Gemini 3.1 Pro набрала 77,1%.
- В научном бенчмарке GPQA Diamond модель показала рекордный результат — 94,3%.
- В тесте APEX-Agents, оценивающем выполнение долгосрочных профессиональных задач, модель получила 33,5%, что значительно превышает показатели других ведущих моделей на рынке.
Google также заявляет, что новая версия обеспечивает более понятные визуальные объяснения сложных тем, что делает ее более подходящей для работы со сложными дисциплинами.
Полное сравнение Gemini 3.1 Pro с Gemini 3 Pro, GPT 5.2, Claude Sonnet 4.6, Opus 4.6 и GPT-5.3-Codex.
| Benchmark | Gemini 3.1 Pro (Thinking High) | Gemini 3 Pro (Thinking High) | Sonnet 4.6 (Thinking Max) | Opus 4.6 (Thinking Max) | GPT-5.2 (Thinking xhigh) | GPT-5.3-Codex |
|---|---|---|---|---|---|---|
| Humanity’s Last Exam (No tools) | 44.4% | 37.5% | 33.2% | 40.0% | 34.5% | — |
| Humanity’s Last Exam (Search blocklist + Code) | 51.4% | 45.8% | 49.0% | 53.1% | 45.5% | — |
| ARC-AGI-2 | 77.1% | 31.1% | 58.3% | 68.8% | 52.9% | — |
| GPQA Diamond | 94.3% | 91.9% | 89.9% | 91.3% | 92.4% | — |
| Terminal-Bench 2.0 (Terminus-2 harness) | 68.5% | 56.9% | 59.1% | 65.4% | 54.0% | 64.7% |
| Terminal-Bench 2.0 (Other best self-reported harness) | — | — | — | — | 62.2% (Codex) | 77.3% (Codex) |
| SWE-Bench Verified (Single attempt) | 80.6% | 76.2% | 79.6% | 80.8% | 80.0% | — |
| SWE-Bench Pro (Public) | 54.2% | 43.3% | — | — | 55.6% | 56.8% |
| LiveCodeBench Pro (Elo) | 2887 | 2439 | — | — | 2393 | — |
| SciCode | 59% | 56% | 47% | 52% | 52% | — |
| APEX-Agents | 33.5% | 18.4% | — | 29.8% | 23.0% | — |
| GDPval-AA Elo | 1317 | 1195 | 1633 | 1606 | 1462 | — |
| t2-bench (Retail) | 90.8% | 85.3% | 91.7% | 91.9% | 82.0% | — |
| t2-bench (Telecom) | 99.3% | 98.0% | 97.9% | 99.3% | 98.7% | — |
| MCP Atlas | 69.2% | 54.1% | 61.3% | 59.5% | 60.6% | — |
| BrowseComp | 85.9% | 59.2% | 74.7% | 84.0% | 65.8% | — |
| MMMLU Pro | 80.5% | 81.0% | 74.5% | 73.9% | 79.5% | — |
| MMMLU | 92.6% | 91.8% | 89.3% | 91.1% | 89.6% | — |
| MRCR v2 (8-needle, 128k avg) | 84.9% | 77.0% | 84.9% | 84.0% | 83.8% | — |
| MRCR v2 (1M pointwise) | 26.3% | 26.3% | Not supported | Not supported | Not supported | — |
Доступность
Предварительная версия Gemini 3.1 Pro уже доступна как для потребителей, так и для разработчиков.
Для пользователей модель доступна в приложении Gemini. Подписчики Google AI Pro и Google AI Ultra получат доступ с повышенными лимитами. Также модель будет доступна в NotebookLM исключительно для пользователей Pro и Ultra.
Для разработчиков и корпоративных клиентов предварительная версия Gemini 3.1 Pro доступна через Gemini API в следующих продуктах и сервисах:
- AI Studio
- Antigravity
- Vertex AI
- Gemini Enterprise
- Gemini CLI
- Android Studio
Gemini 3.1 Pro позиционируется как новое флагманское решение Google для сложных логических и научных задач.