Перейти к основному содержанию
Google представила мультимодальную модель Gemini Embedding 2

Google представила мультимодальную модель Gemini Embedding 2

Google представила мультимодальную модель Gemini Embedding 2

Google выпустила в публичный доступ модель Gemini Embedding 2. Это первая в истории компании нативная мультимодальная модель встраивания, которая способна «переводить» текст, изображения, аудио, видео и PDF-документы в единый математический формат — векторы.

Google представила мультимодальную модель Gemini Embedding 2

В отличие от генеративных моделей (как Gemini 3), которые создают контент, модели встраивания созданы для его глубинного понимания. Они позволяют машинам искать смысловые связи между абсолютно разными типами данных, не опираясь на ключевые слова.

Технические лимиты: что можно «скормить» модели за один раз

Gemini Embedding 2 значительно расширяет границы возможностей по сравнению со своей предшественницей (текстовой моделью gemini-embedding-001).

Характеристики Gemini Embedding 2 (март 2026)

Тип данныхЛимит на один запросФорматы
Текстдо 8 192 токеновЛюбой текст (100+ языков)
Изображениядо 6 штукPNG, JPEG
Видеодо 120 секундMP4, MOV
АудиоПрямая обработкаБез промежуточной транскрипции
ДокументыPDF до 6 страницСканы и текстовые слои (OCR)

Ключевые инновации: почему это важно для ИИ-индустрии

  1. Единое векторное пространство: Раньше ИИ видел «кота» на картинке и слово «кот» в тексте как два разных объекта в разных «кабинетах». Теперь они живут в одном месте. Это позволяет, например, искать видео по текстовому описанию или находить похожие аудиозаписи по картинке.
  2. Перемешанные (Interleaved) запросы: Вы можете отправить в одном запросе сразу изображение и уточняющий текст (например, «найди в базе видео с таким же зданием, как на фото, но в сумерках»).
  3. Matryoshka Representation Learning (MRL): Модель создает векторы размером до 3072 измерений. Однако благодаря технологии «Матрешка», разработчики могут «отрезать» лишние данные, уменьшая размер вектора до 768 или даже 128 измерений без критической потери точности. Это радикально снижает затраты на хранение данных в векторных БД.
Модель встраивания Gemini Embedding 2

Практическое применение: от юристов до аналитиков

Google приводит в пример работу юристов. В процессе судебных разбирательств приходится анализировать миллионы записей: письма, записи звонков, видео с камер и PDF-отчеты.

  • Gemini Embedding 2 позволяет искать по всему этому массиву одновременно.
  • Модель понимает контекст и «настроение» данных (sentiment analysis), что помогает мгновенно находить критически важные доказательства вне зависимости от того, в каком формате они хранятся.

Мы переходим от «умного поиска по словам» к «интеллектуальному пониманию смыслов». Для разработчиков это означает упрощение архитектуры приложений: больше не нужно строить сложные цепочки из разных сервисов для распознавания речи, OCR и анализа видео — всё это делает одна модель.