NVIDIA B300 是什么?深度解析这款 AI 超级计算机
在 DigitalOcean,我们一直致力于为用户带来最好、最新的云技术。这涵盖了从存储等基础云服务,一直到我们卓越的 Gradient 智能体 AI 平台。驱动我们 AI 系统的是市面上最强大的 GPU 之一,例如 NVIDIA H200 或 AMD MI350X。但技术总是在不断发展,每一代技术进步都会带来物理性能指标远超上一代的硬件发布。NVIDIA 就是一个绝佳的例子。去年,我们在这个平台上详细介绍了他们的 NVIDIA Hopper H100 和 NVIDIA H200 GPU。此后,NVIDIA 发布了更新的微架构:NVIDIA Blackwell。
Blackwell 在几个显著方面相比 Hopper 带来了令人印象深刻的改进,但首要的是 NVIDIA DGX B300 GPU 的诞生。作为有史以来为消费者制造的最强大的硬件之一,NVIDIA DGX B300 "是 AI 创新者的动力源,提供构建现代 AI 工厂所需的超大规模性能"(来源)。在本教程中,我们将详细探讨 NVIDIA DGX B300,概述其技术规格,解析其关键新特性,最后讨论何时可能是使用 NVIDIA B300 的最佳时机。请跟随我们深入了解这款最热门的 AI 新技术之一——即将登陆 DigitalOcean!
机器概览:NVIDIA B300
在本节中,我们将详细审视 NVIDIA DGX B300。首先,我们将了解构成 NVIDIA DGX B300 如此强大的组件架构和硬件。接着,我们将探讨其组件 GPU 的新特性以及进一步超越前代机器的 Blackwell 微架构。
NVIDIA B300 硬件规格与架构概览
- 类别 规格
- 系统 NVIDIA DGX B300
- GPU 8× NVIDIA Blackwell Ultra SXM
- CPU Intel® Xeon® 6776P 处理器
- 总 GPU 内存 2.1 TB
- 性能 FP4 Tensor Core: 144 PFLOPS (稀疏) | 108 PFLOPS (稠密)
- FP8 Tensor Core: 72 PFLOPS (稀疏)
- NVIDIA NVLink™ 交换系统 2× NVIDIA NVLink
- 带宽 14.4 TB/s 聚合带宽
- 网络 8× OSFP 端口 (8× 单端口 NVIDIA ConnectX-8 VPI,高达 800 Gb/s InfiniBand/以太网)
- 2× 双端口 QSFP112 NVIDIA BlueField-3 DPU (高达 400 Gb/s InfiniBand/以太网)
- 管理网络 板载 1GbE NIC,带 RJ45 1GbE RJ45 主机 BMC
- 存储 操作系统: 2× 1.9 TB NVMe M.2
- 内部: 8× 3.84 TB NVMe E1.S
- 功耗 ~14 kW
- 软件 NVIDIA AI Enterprise
- NVIDIA Mission Control (含 NVIDIA Run:ai)
- NVIDIA DGX OS
- 操作系统支持 Red Hat Enterprise Linux, Rocky Linux, Ubuntu
- 机架单元 10U
- 支持 三年商业标准硬件和软件支持
复制代码
让我们看看构成 NVIDIA Blackwell DGX B300 的技术组件。其核心是 8 个 NVIDIA Blackwell Ultra SXM GPU,搭配 Intel® Xeon® 6776P 处理器。这共同提供了总计 2.1 TB 的总 GPU 内存(每个 288 GB HBM3e 内存)。性能方面,FP4 Tensor Core 计算达到惊人的 144 PFLOPS(稀疏)和 108 PFLOPS(稠密),而 FP8 Tensor Core 则为 72 PFLOPS(稀疏)。所有这些都由高达 14.4 TB/s 的带宽承载。最后,它仅需(虽然仍然很高)约 14 kW 的功耗即可运行。
让我们看看上面展示的 NVIDIA DGX B300 爆炸视图。这里我们可以看到,在 GPU 托盘上方,前挡板上连接着 12 个 3.3 kW 交流电源单元。这容纳了 8 个独立的组件 Blackwell Ultra SXM GPU。它们插在系统内存上方。在前部,挡板下方,是 2 个 BlueField 3 DPU、M.2 启动驱动器、自加密驱动器和 DC-SCM。设备后部是一个背板,带有 20 个连接的交流单元和交流电源输入。上图来源自此处。
NVIDIA B300 的特性
在本节中,我们将概述 Blackwell GPU 和 B300 特有的一些我们认为能凸显该机器潜力的特性。
NVFP4 量化
4 位量化将模型权重和激活的数值精度降低到仅 4 位,相比标准的 16 位或 32 位浮点表示法显著减少。借助 Blackwell GPU,我们可以以这种低精度数字格式处理推理和训练负载。这使得训练推理时间呈指数级增长,同时能力损失最小。有关 NVFP4 如何革新 AI 训练负载的更多细节,请查看 NVIDIA 的这篇文章。
第二代 Transformer Engine
第二代 NVIDIA Transformer Engine 将 Blackwell 级 Tensor Core 硬件与 NVIDIA TensorRT-LLM 和 NeMo Framework 中的软件进步相结合,显著提升大型语言模型和专家混合架构的训练和推理性能。基于 NVIDIA Blackwell Ultra Tensor Cores,该平台在注意力层提供约两倍的加速,整体 AI 计算吞吐量比标准 Blackwell GPU 高 1.5 倍。这些 Tensor Core 引入了新的精度模式,包括社区定义的微缩放格式,可在保持数值保真度的同时无缝替代更高精度的数据类型。通过应用细粒度微张量缩放,Blackwell Transformer Engine 高效支持 4 位浮点(FP4)计算,使模型运行更快,并在相同内存占用下扩展到更大规模,同时保持高精度。
解压缩引擎
历史上,数据分析和数据库工作负载主要由基于 CPU 的处理主导,但 GPU 加速的数据科学可以通过缩短洞察时间和降低总体成本来显著改善端到端性能。现代分析平台和数据库——如 Apache Spark——是摄取、转换和查询大规模数据集的基础。NVIDIA Blackwell 通过其专用解压缩引擎以及通过超高速互连(提供高达 900 GB/s 的双向带宽)访问 NVIDIA Grace™ CPU 大内存池的能力,增强了这些工作流。这些功能共同加速了数据库查询和分析操作的整个生命周期,同时原生支持现代压缩标准,包括 LZ4、Snappy 和 Deflate,从而实现更高的吞吐量和更高效的数据处理。
可靠性、可用性与可维护性(RAS)引擎
NVIDIA Blackwell 通过专用的可靠性、可用性与可维护性(RAS)引擎引入先进的系统稳健性,旨在在硬件和软件问题影响运营之前检测它们。利用 AI 驱动的预测性管理,该平台持续分析系统堆栈中的数千个遥测信号,以评估整体健康状况,并主动预防故障、低效和计划外中断。RAS 引擎提供详细的诊断洞察,帮助精确定位潜在问题区域,从而实现更快的故障排除和更有效的维护规划。通过快速隔离故障并支持针对性修复,Blackwell 的智能弹性能力显著减少停机时间、运营开销以及能源和计算浪费。(来源)
附加特性
- 特性 描述
- GPU 8 × NVIDIA B300 Blackwell Ultra GPU
- GPU 内存 8 × 288 GB = 2.3 TB 总计
- 性能 72 PFLOPS FP8 (训练)
- 144 PFLOPS FP4 (推理)
- NVSwitch 2 × 第五代 NVIDIA NVLink™ 互连
- CPU 2 × Intel® Xeon® Platinum 6776P 处理器
- 系统内存 2 TB 默认(最高 4 TB)
- 网络连接与速度 8 × OSFP 端口连接至 8 × NVIDIA® ConnectX®-8 卡(集群网络)
- 8 × 800 Gb/s InfiniBand/以太网
- 2 × 双端口 NVIDIA® BlueField®-3 DPU(存储和管理网络)
- 2 × 400 Gb/s InfiniBand/以太网
- 缓存存储 8 × E1.S 3.84 TB NVMe 自加密驱动器
- 启动存储 2 × 1.92 TB M.2 NVMe(可软件加密)
- 主机管理 板载 1 GbE RJ-45 以太网
- 远程系统管理 基板管理控制器(BMC)
- 1 GbE RJ-45 网络连接
- 远程键盘、视频、鼠标(KVM)
- 远程存储
- Redfish 和 IPMI 管理
- 操作系统 DGX OS 7 基于 Ubuntu 24.04 LTS
- 额外支持 Ubuntu、Red Hat Enterprise Linux 8 & 9 和 Rocky Linux
复制代码
由 NVIDIA Blackwell Ultra GPU 驱动,DGX B300 被设计为一个统一平台,用于高吞吐量大型语言模型推理和训练。凭借高达 144 petaFLOPS 的推理性能,该系统以企业就绪的外形规格提供超大规模级能力,使任何规模的组织都能部署实时、生产级的 AI。DGX B300 设计灵活,提供多种电源配置选项,并针对卓越的每瓦性能进行了优化,使其成为可用的最高能效 AI 超级计算机之一。其重新设计的架构首次支持在 NVIDIA MGX 机架中部署,建立了一个新的基础设施标准,简化了现代数据中心集成,同时释放了更高的效率和可扩展性(来源)。
该平台的核心是 NVIDIA Blackwell GPU,每个 GPU 采用定制台积电 4NP 工艺制造,包含 2080 亿个晶体管,由两个受光罩限制的芯片通过统一的 10 TB/s 芯片间互连组成。Blackwell 还通过 NVIDIA 机密计算引入行业领先的安全性,以最小的性能开销为敏感数据和 AI 模型提供硬件强化的保护。作为首款支持 TEE-I/O 的 GPU,Blackwell 支持安全的训练、推理和联邦学习,同时即使在受保护的 NVIDIA NVLink 连接上也能保持接近原生的吞吐量。为支持百亿亿级 AI,第五代 NVIDIA NVLink 可在多达 576 个 GPU 之间实现快速、平衡的通信。NVLink 交换芯片在 72-GPU NVLink 域内提供高达 130 TB/s 的带宽,并将相同的 1.8 TB/s 互连扩展到多节点集群,提供高达单个八 GPU 系统九倍的 GPU 吞吐量,同时通过 SHARP FP8 加速保持通信效率(来源)。
何时使用 NVIDIA B300
总而言之,这台机器是为消费者创造的有史以来最强大的高性能计算技术之一。基于此,我们可以做出几个关键假设:
- 首先,由于它是当今可用的最强大的消费级机器,它也是最好的机器。这意味着你可以将几乎任何问题抛给它,它都会比其他任何机器更快得出结论。
- NVFP4 使其成为低精度任务(如大型预训练作业)的最佳机器。
- 基于初始投资和能源需求,它的运行成本明显高于当今运行的上一代 GPU。
基于这些假设,我们可以得出结论,NVIDIA B300 是几乎每种情况的理想 GPU。我们特别推荐在训练或部署特别大的 AI 模型时使用它。在我们看来,B300 相比所有竞争对手增加的带宽和内存容量使其成为处理任何大型模型的真正最佳选择。
结语
正如我们在本文中剖析的那样,NVIDIA B300 代表了现代 AI 基础设施的一个明显转折点。它汇集了前所未有的计算密度、巨大的内存容量和尖端的架构进步,重新定义了大规模训练和推理的可能性。虽然其功耗和成本状况使其牢牢属于严肃的企业和研究级硬件类别,但对于那些推动模型规模、吞吐量和延迟极限的团队来说,B300 提供了每系统无与伦比的能力。
原文链接:What is the NVIDIA B300? |