-
Добавлено пользователем weblaby - 06.05.2026 - 18:58
Компания OpenAI совместно с исследователями из AMD, Broadcom, Intel, Microsoft и Nvidia опубликовала научную работу, в которой представила новый сетевой протокол MRC (Multipath Reliable Connection). Разработка направлена на повышение эффективности использования вычислительных ресурсов на фоне растущего дефицита мощностей для обучения ИИ-моделей.
Протокол создавался в течение двух лет и уже используется в крупнейших вычислительных кластерах OpenAI и Microsoft.
Решение проблем перегрузок и сбоев
MRC нацелен на устранение двух ключевых ограничений современной ИИ-инфраструктуры — сетевых перегрузок и отказов. По мере роста GPU-кластеров эти проблемы становятся всё более значимыми.
В основе подхода лежит метод «распыления пакетов», при котором данные одновременно передаются по множеству маршрутов внутри сети. Это снижает риск перегрузки отдельных каналов и позволяет формировать более «плоскую» сетевую архитектуру с меньшим числом уровней.
При сбоях протокол способен обнаруживать и перенаправлять трафик за микросекунды, что позволяет продолжать обучение моделей без остановок даже при частичных отказах инфраструктуры.
Снижение нагрузки и энергопотребления
MRC работает в связке с протоколом SRv6, который задаёт точный маршрут передачи данных. Это снижает нагрузку на сетевое оборудование, так как маршрутизация не требует дополнительных вычислений со стороны коммутаторов.
В результате уменьшается энергопотребление как отдельных компонентов, так и дата-центров в целом.
Как отметил руководитель направления вычислительных нагрузок OpenAI Грег Стайнбрехер в интервью The Deep View:
«Мы хотим использовать максимум доступных вычислительных ресурсов, но при этом делать это эффективно. Этот протокол — важная часть такой стратегии».
Применение в инфраструктуре OpenAI
Протокол уже используется в крупнейших обучающих кластерах OpenAI и Microsoft, включая площадку Oracle в Абилине (Техас) и суперкомпьютеры Microsoft Fairwater. С его помощью обучались несколько моделей OpenAI.
По словам разработчиков, традиционные задачи обучения ИИ выступают «усилителем отказов»: единичная проблема может остановить весь процесс и привести к простою GPU. MRC позволяет избежать подобных ситуаций и ускоряет проведение исследований.
Стайнбрехер отметил, что внедрение протокола позволяет «значительно быстрее продвигать весь исследовательский конвейер» и эффективнее использовать доступные ресурсы.
Открытый стандарт для отрасли
Спецификация MRC опубликована в рамках Open Compute Project с открытой лицензией. В OpenAI подчёркивают, что цель разработки — не создание конкурентного преимущества, а устранение системного ограничения для всей индустрии.
Разработчики указывают на проблему фрагментации: крупные компании создают собственные закрытые решения, что замедляет развитие отрасли. Новый протокол предлагается как единый стандарт для повышения эффективности сетевой инфраструктуры.
Контекст: дефицит вычислительных ресурсов
Рост сложности ИИ-моделей усиливает нагрузку на инфраструктуру, делая вычислительные ресурсы ключевым ограничением. Повышение эффективности дата-центров напрямую влияет на возможности компаний по обучению новых моделей.
Публикация MRC отражает стремление OpenAI и партнёров повысить общую доступность вычислительных мощностей за счёт оптимизации сетевых процессов.
Источник: thedeepview