发布日期:2024-11-02 20:29 点击次数:53
起首:机器之心Pro
机器之心报谈
剪辑:泽南、杜伟
老黄:科技公司的芯片需求让我夜不成寐。
「咱们的 Blackwell 芯片存在设想劣势,天然不错闲居使用,但该设想劣势导致良率低下,」黄仁勋线路。「这 100% 是英伟达的错。」
自 3 月份发布以来,民众科技公司都在猖獗求购的 Blackwell AI 芯片,似乎终于要到了出货的时代。
本周三,在与高盛(Goldman Sachs)进行的会议中,英伟达线路 Blackwell GPU 中影响良率的设想劣势已宣告缔造,B100/B200 措置器的立异版行将参加量产。
据路透社等外媒报谈,英伟达 CEO 黄仁勋本周承认,该劣势皆备由英伟达形成,并线路该面前已在台积电的实时匡助下缔造了劣势。
本年 8 月,当干系英伟达最新一代芯片 Blackwell 设想劣势的第一批报谈出当前,一些媒体称台积电原意担背负 —— 并暗意这可能导致英伟达与其代工配结伙伴之间的关系弥留。
黄仁勋线路,事实并非如斯。他还评述了干系两家公司关系弥留的报谈,并称其为「假新闻」。为了让 Blackwell 策画开导闲居使命,英伟达设想了七种不同类型的芯片,并同期参加坐蓐。
英伟达的 Blackwell 芯片采选全新一代架构,台积电 4NP 工艺打造,领有 2080 亿个晶体管,在推行大模子推理等任务时恶果较前代普及了 30 倍,因而备受科技公司期待。
此种面积的芯片,较着不成再通过传统神志来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技艺齐集两个芯片,该技艺依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层(以罢了约 10 TB/s 的数据传输速率)。
英伟达线路,双芯片的 GPU 莫得内存局部性问题或缓存问题,CUDA 将其视为单块 GPU,可见这些芯片的桥接器至关繁难。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板之间的热扩展特点可能不匹配,导致系统周折和故障。
图源:Nvidia
因此,英伟达在 8 月承认了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的顶部金属层和凸片,以提高坐蓐良率。那时,英伟达在一份声明中线路,「公司依然对 Blackwell GPU 的掩膜实施了缔造。」
不外,英伟达也重申,公司在第二季度与客户一谈对 Blackwell GPU 进行了抽样检讨,并承认必老坐蓐「低良率 Blackwell 材料」智商知足对 Blackwell 措置器的需求。
同期,黄仁勋在 2025 财年第二季度财报电话会议上线路,公司针对 Blackwell B100 和 B200 GPU 的设想进行了扫数必要的变更,从而有望在第四季度罢了量产。
英伟达 Blackwell GPU 不同型号的参数规格。
其确凿半导体行业中,影响良率的 bug 以及紧邀功能问题并不是什么崭新事。频繁,公司通过修改金属层(或两层)等新步进(stepping)来缔造这些问题。
据此前报谈,英特尔的 Sapphire Rapids 有 500 个 bug。因此,英特尔发布了约莫十几个步进来缔造扫数 bug(其中五个是基础重置)。每个新步进约莫需要三个月智商完成(包括识别问题、缔造问题和坐蓐新版块芯片)。
图源:Intel
从这少许来看,英伟达和台积电缔造 Blackwell GPU 的速率确凿令东谈主印象深切。
面前,已缔造的用于 AI 和超等策画机的 Blackwell GPU 预测将于最近几天参加量产,并在 2025 年头运行发货(仍在英伟达 2025 财年内)。
此外,凭据英伟达在本年头袒露的音问,AWS、谷歌、Meta 和微软是其主要客户(统统收入占比高达 40%),为知足他们对其新一代 AI 算力的需求,该公司必须在本年度出货一些当先低良率的 Blackwell GPU。不外,2024 年究竟会有若干 Blackwell GPU 被「送」往数据中心,咱们不知所以。
周三好意思股收盘,刚刚创下历史新高的英伟达股票收跌 2.81 %,回落到 140 好意思元以下。
参考实质:
https://www.tomshardware.com/pc-components/gpus/nvidia-adresses-significant-blackwell-yield-issues-production-ramp-in-q4
https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/
https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidias-jensen-huang-admits-ai-chip-design-flaw-was-100-percent-nvidias-fault-tsmc-not-to-blame-now-fixed-blackwell-chips-are-in-production