DeepSeek ускорила генерацию ответов ИИ на 85% с помощью новой технологии DSpark

Добавлено пользователем arturbaranok - 29.06.2026 - 09:32

Китайская компания DeepSeek представила крупное обновление для своей флагманской модели V4, направленное на существенное ускорение генерации ответов искусственного интеллекта. Новый механизм под названием DSpark способен увеличить скорость обработки запросов пользователей до 85%, одновременно снижая потребность в более мощной вычислительной инфраструктуре.

DeepSeek ускорила генерацию ответов ИИ на 85% с помощью новой технологии DSpark

Разработка появилась на фоне усиливающейся конкуренции среди китайских компаний в сфере искусственного интеллекта, где все большее значение приобретают снижение стоимости эксплуатации моделей и повышение удобства для пользователей.

Новая система устраняет одно из главных ограничений ИИ

В опубликованной в субботу исследовательской работе DeepSeek отметила, что традиционный процесс генерации текста, при котором модель формирует ответ токен за токеном, становится серьезным препятствием при создании длинных ответов. Такой подход приводит к недостаточной загрузке графических процессоров и увеличивает время ожидания для пользователей.

Компания назвала эту проблему одним из основных ограничений при масштабном обслуживании систем искусственного интеллекта.

Для ее решения DeepSeek внедрила механизм спекулятивного декодирования. В рамках этой схемы облегченная модель сначала формирует предварительные варианты ответа, после чего более крупная модель проверяет их пакетами. Такой подход позволяет значительно ускорить генерацию итогового результата.

Полуавторегрессионная генерация и интеллектуальное распределение ресурсов

Дополнительно DSpark использует метод полуавторегрессионной генерации, благодаря которому система формирует сразу небольшие блоки токенов вместо последовательной генерации каждого элемента по отдельности.

Также в платформу встроен механизм управления на основе оценки уверенности модели. Он динамически регулирует объем проверок в зависимости от текущей вычислительной нагрузки.

При низкой загрузке оборудования выполняется больше проверок для максимального использования ресурсов. Когда нагрузка возрастает, количество проверок сокращается, что позволяет поддерживать высокую скорость генерации ответов.

Эффективность позволяет обслуживать больше пользователей

По словам программиста из Пекина Хуан Юна, новая технология способна существенно сократить вычислительные ресурсы, необходимые для работы систем искусственного интеллекта.

В качестве примера эксперт отметил, что если ранее один графический процессор мог обслуживать около 100 пользовательских запросов, то после повышения эффективности на 85% тот же ускоритель сможет обработать примерно 185 запросов.

Решение актуально на фоне ограничений на поставки чипов

Хотя DSpark не повышает интеллектуальные возможности самой модели, технология стала очередным шагом DeepSeek по увеличению эффективности ИИ-систем на менее производительном оборудовании.

Этот вопрос имеет особое значение для китайских разработчиков на фоне продолжающегося ужесточения американских ограничений на поставки в Китай современных полупроводников и вычислительных ускорителей.

Технология протестирована на моделях Google и Alibaba

DeepSeek провела испытания DSpark на нескольких открытых моделях, включая Gemma компании Google DeepMind и Qwen от Alibaba Group Holding.

Результаты показали, что предложенный подход может применяться не только к собственным разработкам компании, но и к широкому кругу других моделей. Это открывает возможности для организаций, которые хотят повысить производительность ИИ без существенного увеличения затрат на вычислительную инфраструктуру.

Исходный код DSpark опубликован в открытом доступе на платформах GitHub и Hugging Face. Проект был реализован совместно с Пекинским университетом.

Оптимизация инференса становится новым направлением конкуренции

Появление DSpark отражает изменения на рынке искусственного интеллекта. Если ранее компании в первую очередь сосредотачивались на улучшении возможностей моделей, то теперь все больше внимания уделяется оптимизации инференса — процессу обслуживания пользовательских запросов уже обученными моделями.

Рост популярности ИИ привел к увеличению спроса на оборудование для его работы, включая графические процессоры и микросхемы памяти. На этом фоне повышение эффективности становится одним из ключевых факторов развития отрасли.

О важности данной проблемы на прошлой неделе также заявила компания Tencent, отметившая, что эффективность инференса становится серьезным ограничением для масштабного развертывания систем искусственного интеллекта на менее производительном оборудовании. Компания сообщила о проведении ряда инженерных оптимизаций, включая совершенствование механизмов внимания, асинхронных вычислений и систем кэширования памяти.

Ранее в июне команда искусственного интеллекта компании Xiaomi сообщила, что смогла повысить скорость генерации модели MiMo-V2.5-Pro-UltraSpeed до уровня более 1000 токенов в секунду, что является одним из лучших показателей в отрасли.