Nvidia агрессивно улучшает свое текущее аппаратное обеспечение для ИИ, Blackwell, даже готовясь к следующему поколению, Vera Rubin. Хотя ожидаемая GPU Rubin появится только в конце 2026 года, существующие системы Blackwell уже сейчас демонстрируют значительный рост производительности благодаря программным оптимизациям. Эта стратегия позволяет предприятиям максимизировать свои инвестиции в текущую инфраструктуру, одновременно готовясь к будущему.
Быстрая эволюция Blackwell
Nvidia не ждет выхода нового оборудования, чтобы принести пользу. Архитектура Blackwell, выпущенная в 2024 году, уже улучшается за счет оптимизаций как для инференса, так и для обучения. Всего за три месяца Nvidia увеличила производительность Blackwell в задачах инференса до 2,8 раза без каких-либо аппаратных обновлений. Это достигается благодаря инновациям в движке инференса TensorRT-LLM, включая:
- Программный зависимый запуск (PDL): Сокращает задержки запуска ядра для повышения пропускной способности.
- Коммуникация «все ко всем»: Упрощает передачу данных за счет устранения ненужных буферов.
- Многотокеночное предсказание (MTP): Генерирует несколько токенов за один прямой проход, повышая эффективность.
- Формат NVFP4: 4-битный формат с плавающей запятой, который снижает пропускную способность памяти без ущерба для точности.
Эти оптимизации приводят к снижению стоимости на миллион токенов и повышению пропускной способности для облачных провайдеров и предприятий.
Улучшения Blackwell в обучении
Улучшения Blackwell не ограничиваются инференсом. Производительность обучения также выросла на 1,4 раза всего за пять месяцев благодаря оптимизированным рецептам обучения, использующим точность NVFP4. Это демонстрирует приверженность Nvidia непрерывным инновациям, выходящим за рамки первоначальных аппаратных развертываний.
Vera Rubin: Следующий скачок
Несмотря на успехи Blackwell, Nvidia уже смотрит вперед к Vera Rubin, выпуск которой запланирован на вторую половину 2026 года. Согласно внутренним тестам Nvidia, Rubin обещает трансформационные улучшения:
- Обучение больших моделей в четверть меньшего количества GPU.
- В 10 раз более высокая пропускная способность на ватт для инференса.
- Инференс по цене в десять раз ниже за токен.
Эти показатели позволяют предположить, что Vera Rubin резко снизит экономическую целесообразность ИИ-операций в масштабе, позволяя создавать более мощные и эффективные модели.
Что это означает для предприятий
Для организаций, развертывающих ИИ-инфраструктуру сегодня, Blackwell остается надежной инвестицией. Существующие развертывания могут немедленно воспользоваться последними программными оптимизациями, что позволит сэкономить средства без капитальных затрат. Однако предприятия, планирующие масштабные инфраструктурные проекты, должны учитывать Vera Rubin в своих планах.
Ключевой вывод заключается в том, что Nvidia предлагает поэтапный подход: максимизируйте отдачу от текущих развертываний Blackwell, одновременно готовясь к следующему поколению. Это не решение «либо/либо», а стратегия, позволяющая оставаться конкурентоспособными в быстро развивающемся ландшафте ИИ.
Непрерывная модель оптимизации Nvidia гарантирует, что предприятия смогут извлечь максимальную отдачу от своих текущих инвестиций, одновременно позиционируя себя для будущего с предстоящей архитектурой Vera Rubin.

































