images

NVIDIA L40S или H100: выбор для ИИ-инфраструктуры

Главное отличие современных систем в том, что они занимают полный 5U-корпус. Как правило, это связано с тем, что TDP каждого графического процессора, H100 или L40S, составляет 350 Вт. Обычно в таких системах восемь графических процессоров, что составляет около 2,8 кВт. Кроме того, эти системы обычно потребляют от 4,3 до 5 кВт. Этого достаточно для одного сервера в стойке на 208 В и 30 А или для нескольких серверов в стойке с более высокой мощностью. С современными серверами для искусственного интеллекта вопрос плотности размещения не так актуален, поскольку зачастую ограничивающими факторами являются мощность и охлаждение в стойках.

Supermicro SYS 521GE TNRT 7

Это дополнительное пространство в 1U обеспечивает лучшее охлаждение графических процессоров (GPU). GPU от NVIDIA, такие как H100 и L40S, следуют этому принципу: обычно они могут работать на максимальной заявленной мощности, но в среднем потребляют меньше этого значения.

Supermicro SYS 521GE TNRT 39

У компании Supermicro есть версии этого шасси как на базе процессоров Intel Xeon, так и на AMD EPYC. В примере было настроено две версии с Intel Xeon, одна из которых оснащена восемью графическими процессорами NVIDIA H100.

Supermicro SYS 521GE TNRT 117

А вторая с картами NVIDIA L40S.

Supermicro SYS 521GE TNRT 118

Вы можете видеть, что здесь установлено всего восемь карт, но эти системы масштабируются до десяти.

Supermicro SYS 521GE TNRT 96

При использовании серверов с GPU на базе PCIe способ их подключения имеет критическое значение для таких функций, как P2P (peer-to-peer) через PCIe-коммутатор без NVLink, а также для эффективности работы NVIDIA NCCL при распределенных вычислениях. NCCL необходим для масштабирования задач на несколько GPU.

Модель Supermicro SYS-521GE-TNRT использует коммутаторы PCIe Gen5 в конфигурации с двумя корневыми комплексами (dual root). На плате GPU под радиаторами можно увидеть два PCIe-коммутатора; сама плата соединена кабелями между этими коммутаторами и центральными процессорами системы.

Supermicro SYS 521GE TNRT 63

Ускорители NVIDIA H100 можно установить в этот сервер, соединив их попарно с помощью мостиков NVLink. Что касается L40S, то здесь все работает исключительно через PCIe.

Краткая информация о результатах тестов

По итогу запустили инференс LLaMA 7B на этих GPU. К сожалению, время доступа к оборудованию было ограничено, что сузило объем тестов. NVIDIA публикует множество данных по производительности в задачах ИИ, поэтому вы можете ознакомиться с ними самостоятельно.

NVIDIA L40S Vs H100 LLaMA 7B Inference Performance

Результаты теста сравнили с официальными данными NVIDIA. В официальных тестах NVIDIA использует версию H100 SXM5, а не PCIe. Версия SXM5 примерно на 25% быстрее (хотя это зависит от нагрузки), так что показатели вполне укладываются в ожидаемый диапазон.

Это подводит к очевидному вопросу: зачем выбирать L40S, если H100 быстрее?

Оказывается, многие выбирают L40S, потому что 48 ГБ памяти (особенно при использовании формата FP8) позволяют этой карте более чем успешно конкурировать с A100 (даже в версии SXM на FP16). С другой стороны, H100 PCIe в 2,0–2,7 раза быстрее, чем L40S, но при этом она и в 2,6 раза дороже.

Здесь есть несколько нюансов. Если вы развертываете более 10 000 графических процессоров, NVIDIA делает ставку не просто на H100, а именно на H100 SXM5 в составе платформ Delta Next с использованием NVSwitch и других сопутствующих технологий.

Другие аспекты сравнения NVIDIA L40S и H100

Существует еще несколько аспектов, которые стоит учитывать при выборе L40S. Один из них это поддержка NVIDIA Virtual GPU (vGPU) версии 16.1, в то время как для H100 поддержка все еще ограничена версией vGPU 15. NVIDIA начинает немного разделять свои ИИ-чипы с точки зрения поддержки виртуализации vGPU.

NVIDIA Virtual GPU Software Supported GPUs As Of 2023 10 31

Для тех, кто хочет развернуть один тип серверов и иметь возможность запускать на них самые разные рабочие нагрузки, выбор в пользу L40S выглядит логичным. Учитывая её корни в сегменте визуализации, эта карта оснащена движками кодирования видео с поддержкой AV1 и RT-ядрами.

Supermicro SYS 521GE TNRT 7

У L40S есть одна особенность, это то что она не поддерживает MIG (Multi-Instance GPU). MIG - эта технология, которая позволяет разделить одну H100 на 7 изолированных разделов разного размера.

В первую очередь это полезно в публичных облаках, чтобы ресурсы одного графического процессора могли использовать сразу несколько клиентов. Для обычного предприятия (enterprise-сектора) эта функция, как правило, не представляет особого интереса.

NVIDIA A100 40GB Split To Two MIG Instances

Кроме того, развертывание систем на базе L40S требует гораздо меньше энергии, где-то примерно вдвое меньше, чем у систем на базе SXM5. Это делает их очень привлекательными для тех, кто хочет масштабировать свои мощности, но ограничен бюджетом электропитания на каждую стойку.

Supermicro SYS 521GE TNRT with NVIDIA L40S

Подводя итог: L40S уступает H100 в чистой скорости, но благодаря поддержке FP8 и технологии NVIDIA Transformer Engine она становится отличной альтернативой. Для многих заказчиков этот вариант доступнее, проще в развертывании и зачастую обходится дешевле, чем H100.

Вывод

В сети можно встретить много недостоверной информации о сравнении NVIDIA H100 PCIe и L40S, а также о причинах выбора той или иной модели. Надеемся, этот разбор помог прояснить ситуацию.

Главное, что стоит запомнить: L40S не стоит воспринимать просто как «бюджетную замену». Это возвращение к проверенной стратегии: вместо того чтобы гнаться за единичными сверхмощными решениями, эффективнее использовать больше карт среднего уровня. NVIDIA официально поддерживает такую архитектуру, позволяя объединять тысячи L40S в единую систему. Таким образом, выбор в пользу L40S - это ставка на масштабируемость и гибкость инфраструктуры, а не на сиюминутную экономию.

Текст подготовлен на основе материала ServeTheHome. Полный оригинал доступен по ссылке.