Перейти к основному содержанию
OpenAI представила протокол MRC для повышения эффективности вычислений

OpenAI представила протокол MRC для повышения эффективности вычислений

Компания OpenAI совместно с исследователями из AMD, Broadcom, Intel, Microsoft и Nvidia опубликовала научную работу, в которой представила новый сетевой протокол MRC (Multipath Reliable Connection). Разработка направлена на повышение эффективности использования вычислительных ресурсов на фоне растущего дефицита мощностей для обучения ИИ-моделей.

OpenAI представила протокол MRC для повышения эффективности вычислений

Протокол создавался в течение двух лет и уже используется в крупнейших вычислительных кластерах OpenAI и Microsoft.

Решение проблем перегрузок и сбоев

MRC нацелен на устранение двух ключевых ограничений современной ИИ-инфраструктуры — сетевых перегрузок и отказов. По мере роста GPU-кластеров эти проблемы становятся всё более значимыми.

В основе подхода лежит метод «распыления пакетов», при котором данные одновременно передаются по множеству маршрутов внутри сети. Это снижает риск перегрузки отдельных каналов и позволяет формировать более «плоскую» сетевую архитектуру с меньшим числом уровней.

При сбоях протокол способен обнаруживать и перенаправлять трафик за микросекунды, что позволяет продолжать обучение моделей без остановок даже при частичных отказах инфраструктуры.

Снижение нагрузки и энергопотребления

MRC работает в связке с протоколом SRv6, который задаёт точный маршрут передачи данных. Это снижает нагрузку на сетевое оборудование, так как маршрутизация не требует дополнительных вычислений со стороны коммутаторов.

В результате уменьшается энергопотребление как отдельных компонентов, так и дата-центров в целом.

Как отметил руководитель направления вычислительных нагрузок OpenAI Грег Стайнбрехер в интервью The Deep View:
«Мы хотим использовать максимум доступных вычислительных ресурсов, но при этом делать это эффективно. Этот протокол — важная часть такой стратегии».

Применение в инфраструктуре OpenAI

Протокол уже используется в крупнейших обучающих кластерах OpenAI и Microsoft, включая площадку Oracle в Абилине (Техас) и суперкомпьютеры Microsoft Fairwater. С его помощью обучались несколько моделей OpenAI.

По словам разработчиков, традиционные задачи обучения ИИ выступают «усилителем отказов»: единичная проблема может остановить весь процесс и привести к простою GPU. MRC позволяет избежать подобных ситуаций и ускоряет проведение исследований.

Стайнбрехер отметил, что внедрение протокола позволяет «значительно быстрее продвигать весь исследовательский конвейер» и эффективнее использовать доступные ресурсы.

Открытый стандарт для отрасли

Спецификация MRC опубликована в рамках Open Compute Project с открытой лицензией. В OpenAI подчёркивают, что цель разработки — не создание конкурентного преимущества, а устранение системного ограничения для всей индустрии.

Разработчики указывают на проблему фрагментации: крупные компании создают собственные закрытые решения, что замедляет развитие отрасли. Новый протокол предлагается как единый стандарт для повышения эффективности сетевой инфраструктуры.

Контекст: дефицит вычислительных ресурсов

Рост сложности ИИ-моделей усиливает нагрузку на инфраструктуру, делая вычислительные ресурсы ключевым ограничением. Повышение эффективности дата-центров напрямую влияет на возможности компаний по обучению новых моделей.

Публикация MRC отражает стремление OpenAI и партнёров повысить общую доступность вычислительных мощностей за счёт оптимизации сетевых процессов.

Источник: thedeepview