英伟达新“王炸” 未发先难产

人参与 | 时间：2024-12-27 03:59:21

继B200/GB200芯片交付推迟后，王炸英伟达或又面临新品难产的英伟问题。

12月24日，达新据Wccftech报道，先难英伟达最新旗舰芯片B300/GB300的王炸参数已经确认。其中B300的英伟显存规格从上代产品的192Gb提升至288Gb；GB300平台将首次使用LPCAMM内存模块设计，并配备带宽提升至1.6Tbps的达新光模块，以确保数据高速传输。先难

英伟达新“王炸” 未发先难产

在性能大幅提升的王炸同时，B300/GB300的英伟功耗也被拉到史无前例的高度，TDP（热设计功耗）达到1400W。达新作为对比，先难Hopper架构的王炸拳头产品H100芯片，其TDP为350W。英伟

这对于服务器的达新散热设计来说，无疑是个巨大的挑战。

而就在上周，天风国际分析师郭明錤在研报中表示，英伟达在为B300/GB300开发测试DrMos技术时，发现芯片存在严重的过热问题，这可能会影响B300/GB300的量产进度。

尽管黄仁勋此前曾多次表示，英伟达未来将严格遵循“一年一换代”的原则，但旗下GPU在改用Blackwell架构后，不止一次出现“跳票”的情况。

Blackwell架构，真有问题？

在郭明錤发布的研报中，指出了B300/GB300目前面临的问题：由AOS（Alpha & Omega Semiconductor）公司提供的5*5 DrMos方案在测试中过热。

先来说说DrMos是什么。

这是英特尔在2004年推出的技术，主要原理是将驱动器和MOS集成在一起，以减小多个元件的空间占用以及降低寄生参数带来的负面影响，从而提升转换效率和功率密度。

简单地来说，它就是一个高度集成的电源解决方案。

消费级显卡RTX3060上的DrMos，由AOS供应

在英伟达Hooper架构芯片上，包括H100/A100/H800/A800在内，其DrMos方案全部由MPS（Monolithic Power Systems）供应，可能是基于“不把鸡蛋放在同一个篮子”的原则，在Blackwell架构芯片上，英伟达开始测试AOS的方案。

那是否能说明，AOS应该为B300芯片的过热问题“背锅”呢？

恐怕并不能。

首先，AOS的5*5 DrMos芯片是一款散热能效高，且十分成熟的方案设计，这在行业内已经得到广泛验证。

其次，郭明錤的财报中也提到了，有产业链人士指出，B300的发热问题除了DrMos芯片本身之外，还源于系统芯片管理的设计不足。

这已经不是Blackwell第一次被曝出存在设计问题。

今年8月，据《The Information》报道，B200在台积电流片过程中，发现设计存在缺陷。

起初业内认为可能是台积电的N4P制程工艺存在问题，但在与高盛的投资人沟通会中，黄仁勋说出了问题所在：由于GPU芯片、LSI桥、RDL中介层和主板基板之间的热膨胀特性不匹配，导致封装结构出现弯曲。

“100%是英伟达的责任。”

在芯片设计被曝出缺陷后，B200/GB200芯片的交付时间从今年3季度被推迟至4季度。而且从实际情况来看，现阶段仍没有公司拿到B200芯片，从公开资料中得知，马斯克凭借10.8亿美元的订单，获得了B200芯片的优先交付权，这些芯片将被用于增强xAI的超级计算集群Colossus。

而即便是获得优先交付权xAI，也得等到明年1月份才能收到B200芯片。

回到B300芯片上，这是一枚原定在明年3月GTC大会上发布的旗舰产品，现在却面临“未发布先难产”的问题。

完全垄断AI服务器芯片的英伟达，为什么会在Blackwell上一再翻车。

一个很重要的原因是，英伟达过于追求芯片性能上断代领先，从而导致Blackwell系列芯片作为量产型产品，几乎变成一个实验性平台。

比如CoWoS-L封装技术的应用。

这里需要说一个背景是，Blackwell是一枚基于MCM（多芯片封装）设计的GPU，即在同一个芯片上集成两颗GPU die。

为了配合英伟达的需求，台积电方面首次将CoWoS-L技术应用在这枚芯片的封装上。而在此之前，CoWoS-L封装也没有经过大规模验证。

有业内人士指出，CoWoS-L封装现阶段的良率可能在90%左右，作为一项后段工艺，这个数字很不理想。

需求是否过于乐观？

在Blackwell架构芯片推出后，知名华尔街投行Keybanc Capital Markets曾发出了一份预测：

“Blackwell芯片将推动英伟达数据中心业务的收入，从2024财年（截至2024年1月）的475亿美元增长到2025年的2000多亿美元。”

众所周知，在大模型的训练与部署中，英伟达的GPU居功至伟，但BlackWell架构芯片真的能凭一己之力带动业绩翻倍上涨吗？

即便忽略掉B200/B300的延期交付问题，仅从市场需求来看，可能并不是特别的乐观。

对于各大互联网公司来说，一个首当其冲的问题是，如果大规模引入基于Blackwell芯片的服务器，那么算力中心的建设成本将会被大大提高。

因为B200芯片高达1000W的TDP实际上已超过了传统风冷散热的极限，许多服务器厂商为了解决散热问题，不得以堆砌3D VC(真空腔均热板)的数量和面积，由此导致在42U的标准服务器机柜中，可容纳的芯片越来越少。

而到了B300芯片上，风冷散热方案无论如何修修补补都无法压住1400W的功耗，必须全面改用液冷。

但对于已经搭建好计算中心的厂商而言，改用液冷会导致其成本骤增。比如在传统服务器机房中在搭建时都会对空调系统进行重点设计，一些大型计算中心的空调系统可以支持0°以下的送风。

如果改用液冷，则意味着在加入配套基础设施的同时，过去花大价钱打造的空调系统沦为闲置。

另外就是服务器本身的价格问题。现阶段，一组基于GB200的AI服务器根据带宽配置的差异，定价约在200-300万美元之间，而如果这些服务器全部基于GB300改用液冷方案，价格甚至可能会翻倍。

还有一个很重要的问题是，市场对于最先进GPU的需求是否强烈？

就在12月14日的NeurIPS大会上，OpenAI联合创始人Ilya Sutskever）表示，大模型预训练即将结束，因为AI的化石燃料“数据”已经用尽了。

如果Ilya的判断没有问题，一个显而易见的转变将是大模型的研究重心将从训练转向推理，在这样的背景下，虽然英伟达Blackwell系列芯片具备强大的“训推一体”能力，但有多少厂商未来愿意持续性地高成本投入，还有待观察。

顶: 35832踩: 776

徒托空言网

英伟达新“王炸” 未发先难产

人参与 | 时间：2024-12-27 03:59:21

评论专区

相关文章