• 点击右上角微信好友

    朋友圈

    请使用浏览器分享功能进行分享

    正在阅读:最新英伟达经济学:每美元性能是AMD�倍,买越多省越多是真的
    首页>时政频道>要闻>正文

    最新英伟达经济学:每美元性能是AMD�倍,买越多省越多是真的

    来源:{getone name="zzc/xinwenwang"/}2026-04-20 08:57:47

    梦晨 发自 凹非寺量子位 | 公众号 QbitAI

    为什么AI算力霸主永远是英伟达?

    不算不知道,一算吓一跳:在英伟达平台每花一美元,获得的性能是AMD�倍。

    尽管英伟达卖的更贵,但只要买齐一套,就更省钱。

    来自Signal65的一份最新详尽报告揭示了这个现实,一定条件下生成同样数量的token,英伟达的成本只有AMD的十五分之一。

    这份报告基于SemiAnalysis Inference MAX的公开基准测试数据,时间跨度��月�月,覆盖了从密集模型到前沿MoE推理模型的全场景测试。

    黄仁勋的“买的越多,省的越多”原来是真的。

    MoE时代:8卡系统撞上Scaling天花板

    AI模型正在经历一场架构革命,打开Artificial Analysis排行榜就会发现,智能度排名前十的开源模型清一色都是MoE(Mixture of Experts,专家混合)推理模型。

    另一项来自OpenRouter的数据显示,超�%的token流量正在被路由到推理模型上。

    MoE架构的核心思路是把模型参数拆分成多个专门化的“专家”子网络,每个token只激活其中一小部分。

    以经典的DeepSeek-R1为例,它拥�亿总参数,但每个token只激�亿——这让它能以更低的计算成本提供前沿级别的智能。

    问题随之而来。当专家分布在多块GPU上时,GPU之间的通信延迟会导致计算单元空闲等待数据,这些空闲时间直接转化为服务商的成本。

    报告指出,无论是英伟达B200还是AMD MI355X,所񀙢卡系统在超出单节点规模后都会撞上“扩展天花板”(scaling ceiling)。

    英伟达GB200 NVL72的解法是�块GPU通过NVLink连接成一个单一域,提� TB/s的互联带宽。

    在软件层面,整个系统就像一块巨型GPU一样运作。配合英伟达Dynamo推理框架的分离式预填充-解码调度和动态KV缓存路由,这套架构能够有效突񋈐卡系统的通信瓶颈。

    模型越复杂,英伟达的优势越明显

    报告测试了三类典型模型:模型越复杂,英伟达的优势越明显。

    在密集模型Llama 3.3 70B上,英伟达B200对比AMD MI355X的领先幅度相对温和。

    在基线交互性(30 tokens/sec/user)下,B200的性能约为MI355X񊄩.8倍;当交互性要求提升� tokens/sec/user时,这一差距扩大𳗦倍以上。

    中等规模的MoE模型GPT-OSS-120B开始让差距变得更加显著。

    这款OpenAI开源模型拥�亿总参数,但每个token只激活�亿参数。��月的测试数据中,100 tokens/sec/user交互性下B200的性能接近MI355X񊄫倍。

    在更符合推理模型需求� tokens/sec/user条件下,差距扩大𳗦.6倍。

    两个平台的绝对性能相�月都有显著提升,英伟达的峰值吞吐从� tokens/sec跃升�以上,AMD则从�提升�左右,但相对差距反而拉大了。

    真正的分水岭出现在前沿推理模型DeepSeek-R1上。

    这款模型集MoE路由、大参数规模和高强度推理生成于一身,对基础设施的要求极为苛刻。

    测试结果显示:� tokens/sec/user交互性下,GB200 NVL72的每GPU性能是H200�倍、MI325X�倍;� tokens/sec/user下,相比H200的优势扩大�倍,相比MI355X达�.5倍;� tokens/sec/user下,GB200 NVL72的性能是B200单节点配置񊄮.5倍,是MI355X�倍。

    更关键的是,GB200 NVL72能够达到竞争平台根本无法企及的水平,�卡配置下可以输出超� tokens/sec/user,而MI355X在相当吞吐水平下的峰值只� tokens/sec/user。

    Token经济学:贵𱄽.86倍,便宜�倍

    直觉上,性能更强的平台应该更贵。事实也确实如此:根据Oracle Cloud的公开定价,GB200 NVL72的每GPU每小时价格�美元,MI355X𰹌.60美元,前者是后者񊄩.86倍。

    如果参照CoreWeave的定价,GB200 NVL72相比上一代H200的价格也贵了񏉽.67倍。

    但报告的计算揭示了一个反直觉的结论:

    � tokens/sec/user交互性下,GB200 NVL72的性能优势𰹉.85倍,除𱓳.86倍的价格溢价,每美元性能仍是MI355X񊄫.1倍。

    � tokens/sec/user交互性下,28倍的性能优势除𱓳.86倍的价格,每美元性能达到MI355X�倍,这意味着生成同等数量的token,英伟达平台的成本只有AMD的十五分之一。

    与上一代产品的对比同样惊人。

    报告估算在DeepSeek-R1的典型工作负载下,GB200 NVL72相比H200的性能提升�倍。

    而GB200 NVL72价格仅上񄢑.67倍,换算下来每美元性能提升�倍,单token成本降至H200的十二分之一。

    MoE推理让网络成为推理成本的瓶颈,而机柜级的GB200 NVL72恰好解决了这个问题。价值的衡量标准正在从单纯的算力转向“每美元能产出多少智能”。

    报告在结论中指出,AMD的竞争力并未被完全否定——在密集模型和容量驱动的场景下,MI325X和MI355X仍有用武之地。

    AMD的机柜级解决方案Helios也在开发中,可能在未�个月内缩小差距。

    但就当前的前沿推理模型而言,从芯片到互联到软件的端到端平台设计,已经成为成本效益的决定性因素。

    [1]https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

    [责编:{getone name="zzc/mingzi"/}]
    阅读剩余全文(