亚搏体育 xAI坐拥55万张GPU加快卡, 但算力专揽率仅11%

宇宙AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU果真用起来”。但是,坐拥约55万块英伟达GPU,本体专揽率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的东谈主工智能公司xAI推优势口浪尖。
据外媒《The Information》赢得的xAI里面备忘录显现,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司现在的模子浮点运算专揽率(MFU)约为11%。这个数字意味着,表面上能输出100份查验算力的硬件,本体仅产出了11份。
xAI现在领有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell家具过期了一个世代,但xAI部署的GPU限制之大令市集印象真切。
关于这一近况,Michael Nicolls在里面备忘录中给出了直白的评价:“低得莫名”。他已为团队设定了在改日几个月内将专揽率拉升至50% 的标的。
“11%”这个数字,并非指89%的GPU在完好意思闲置,而是商量灵验查验轮廓占硬件表面峰值算力比例的严苛观点。
从行业基准来看,出产级大模子查验的MFU频繁落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈荟萃,其GPU专揽率辞别可达约43%和46%。即便以“低效”著称的GPT-3查验时间,MFU也在21%-26%之间。比拟之下,xAI的11%不仅远低于现时主活水平,以至低于AI算力发展史上的“古早”莫名时间。
坐拥算力“金山”却难有用武之地,要津出在那处?谜底指向软件堆栈与并行计谋的滞后。
xAI在业内以“完好意思按照英伟达保举方法部署GPU”的表率生作念法著称。表率生却跑出低分,泄漏问题不在表率的硬件或网罗拓扑层面。根源在于,查验栈、并行计谋和模子工程等软件优化速率,远跟不上其激进的硬件推广法式。
业界深广究诘的“存储墙”抖擞成为主要瓶颈——HBM显存读取速率远慢于计较芯片,亚搏体育导致芯片多量时间空转恭候数据;网罗拓扑中的任何一处瓶颈,在数万张卡的同步条目下,齐会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重计较和张量并行带来的跨GPU通讯支拨等,齐是负担MFU的系统性要素。
xAI的算力基础身手修复速率自身即是一个“听说”:其孟菲斯Colossus超算集群从动工到参加运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“频繁需要四年”。

△xAI孟菲斯Colossus超算集群
但是,惊东谈主的速率似乎也让xAI“欠下”了技巧债。推广越快,撑握大限制并行查验的软件系统复杂度就越大。当企业试图将GPU限制从数千张推向数十万张时,通讯、调遣、容错和并行计谋的挑战会呈指数级增长。xAI的11%的算力专揽率,恰是这一矛盾的纠合体现。
把问题完好意思烦恼于xAI一家也并不刚正。《The Information》的报谈征引一位匿名商量员的话称:“跑过40%对xAI的大多数竞争敌手来说也很难”。这标明,超大限制集群下的低效问题,是覆盖系数AI行业的暗影。
报谈还揭示了一个行业里面的污蔑抖擞:由于缅思GPU被调走或承受压力,一些商量员以至通过反复重跑查验来东谈主为“好意思化”自家MFU数据。囤而毋庸的算力败坏,成为行业心照不宣的高明。
濒临成果困局,xAI正多措并举。一方面,公司谋划通过基础身手和软件栈优化来惩办专揽率问题。另一方面,据媒体报谈,xAI已驱动将部分闲置算力对出门租,AI编程创业公司Cursor已谋划使用其“数万张GPU”来查验新模子。
AI算力之争已过“装备竞赛”阶段,认真进入“成果竞赛”的深水区。11%的低专揽率如覆没面镜子,照出AI行业下半场的中枢命题:若何将“买得到”的硬件亚搏体育,改变为果真“用得好”的竞争壁垒。
幸运彩票app官方手机版