日韩区一中文字目
通(tong)过 ROCm,AMD 表(biao)示其正更加专注于其软件堆栈中日(ri)益增(zeng)长的推理能力。ROCm 7 堆栈(zhan)将包括增强型框架,如 vLLM v1、llm-d、SGLang,并专注于提供多种优化。即将到来的 ROCm 7 新内(nei)核和算法包括 GEMM 自动调优、MoE、Attention 和基于 Python 的内核编写。
广场舞幸福快车
IT之(zhi)傢(jiā)從(cóng)活動(dòng)穫(huò)悉(xi),AMD 還(hái)(hai)預(yù)告了其下一代 AI 機(jī)架架構(gòu)(gou)“Helios”。牠(tā)將(jiāng)基于下(xia)一代 AMD Instinct MI400 係(xì)列 GPU、基于“Zen 6”架構的 AMD EPYC “Venice” CPU 以(yi)及 AMD Pensando “Vulcano”網(wǎng)卡構建(jian)。AMD Instinct MI355X GPU 在 AI 和高性能计算领域都有着出色的表现🥿🍋💕👞。据 AMD 的介绍,在与 NVIDIA B200 和 GB200 的对比中🥒,MI355X 的显存约为竞品的 1.6 倍,内存带宽则基本持平。针对 FP64 和 FP32 运算🍒,MI355X 的峰值性能领先优势达到了竞品的 2 倍🥿。对于 FP16 和 FP8 运算👜,其峰值性能与竞品相当或略有胜出,而 FP6 的性能则也达到了竞品 2 倍以上。此外,在 FP4 运算上,MI355X 与竞品的峰值性能相近。而在性价比方面,另外相比 B200🤍,采用 Instinct MI355X 的企业或开发者可获得 40% Tokens/$ 性价比优势🥾🥝🍒👿。