访问一次中国,马斯克再次成为了世界首富。
马斯克访华期间,特斯拉股价2天累计上涨10.76%,市值上涨341.09亿美元。正是访华的两天,让马斯克身价超过了法国奢侈品巨头酩悦·轩尼诗-路易·威登集团(LVMH)董事长兼CEO贝尔纳·阿尔诺。彭博社亿万富豪指数显示,马斯克其时身家约为1923亿美元,阿尔诺身家约为1866亿美元,再次成为世界首富。
当然,同样是大佬,待遇却不同。中国媒体人甚至精确计算了马斯克此次访华在中国具体待的时间——44个小时,但摩根大通CEO戴蒙访华与马斯克也就是前后脚,关注度就没有那么高。
但首富和大佬们还是纷纷开启了访华行程,彭博社6月1日报道,继特斯拉CEO马斯克和摩根大通CEO戴蒙之后,前任世界首富、LVMH董事长贝尔纳·阿尔诺计划6月访问中国。看来,被马斯克超过之后,前首富也要来“沾沾欧气”。
不过,在媒体关注度和话题度上能与马斯克齐平的企业大佬,哪怕苹果的CEO库克都做不到——
知情人士表示,英伟达CEO黄仁勋将于6月6日到访上海,与腾讯、字节跳动、理想汽车、比亚迪和小米等中国企业的高管会面。报道称,黄仁勋此行为私人行程,如计划成行,也是他多年来首次参观访问中国大陆。
不过也有新消息称,黄仁勋已经从台北返回美国。6月6日已经到了,看来,这次传得沸沸扬扬的黄仁勋访华,终究还是一次误会。但无论黄仁勋是否来大陆,对英伟达来说,中国都是一个不能割舍的市场,黄仁勋对中国市场的看重也不会减少。
01 黄仁勋已经多年未来大陆
黄仁勋上一次作为主角来大陆,还是2005年6月(2013曾嘉宾出席小米发布会),其时黄仁勋在北京发布了英伟达新一代图形芯片GeForce 7800。
而那一次来华的背景,则是失去微软大客户的英伟达,试图在中国大陆这个快速崛起的市场中,寻找新的机会。
2005年的英伟达,刚刚从此前的两年困境中恢复:2005 财年总收入 20.1 亿美元,净利润 1.004 亿美元,分别比上一年增长了 10.4% 和 34.9%。但多年的显卡混战,战胜者英伟达彼时也只是惨胜,还没有获得足够的超额利润作为回报。
由于微软 2002 年下半年宣布其Xbox2 游戏机中不再使用英伟达的芯片,这直接导致英伟达2003 年出现负增长。2003年困境之后,黄仁勋决定在中国大陆成立公司,短短一年时间,就分别在北京、上海、深圳成立了独立的公司。其中,北京公司负责销售和客户支持,深圳公司负责研发和系统集成,上海公司负责芯片设计。
彼时,作为需求方的大陆市场,在先进芯片上还没有人会想到,会发生“卡脖子”这种事。
十八年过去了,本次传闻黄仁勋访华(传言时间可能会变)的背景,与上次相比,有不同;也有相同之处。
英伟达已经如日中天,是市值万亿美元的芯片巨头。中国大陆市场需求依然旺盛,英伟达财报数据显示,中国大陆在 2023 财年营收达到58亿美元,占总收入的 21%,而在2003财年中国大陆营收只有 2.4 亿美元,占总收入的比例仅为 13%。
尽管地缘政治变化了,但英伟达重视大陆市场的决心还没有变。
在美国拜登政府2022年公布禁令,禁止英伟达向包括腾讯和字节跳动在内的中国客户销售NVIDIA A100、H100两款计算加速卡之后,英伟达迅速调整了产品布局,为中国市场开发了“新的符合限制的芯片”。
首先是专供中国市场的A800,在已有A100的基础上将NVLink高速互连总线的带宽从600GB/s降低到400GB/s,其他完全不变。A800的大规模扩展互连将受到限制,但是单卡性能没有损失。
更强大的H100采用Hopper架构,GH100 GPU核心,台积电4nm制造工艺与CoWoS 2.5D封装技术,集成800亿个晶体管,核心面积814平方毫米。在大算力时代,仅靠一块芯片是不够的,NVLink互连下的暴力叠加,真的能大力出奇迹。如果没有足够的NVLink互连带宽,加速卡就无法实现“暴力美学”。当然,大模型不是只是单纯的暴力美学,背后还有大量的软件工程系统问题需要考量。
美国不愿意中国购买到英伟达的最先进芯片,但英伟达也不愿意失去中国市场。2023年3月的GTC 2023春季图形大会上,NVIDIA又确认为中国市场开发了特供版H800,基于已有的H100调整而来,符合美政府的规定。H800的具体变化英伟达未透露,但外媒称H800芯片间互连带宽只有H100的一半,如果用于AI训练会消耗更长的时间。
看似只是少了一半,但类似大模型这种应用,需要上千甚至上万块芯片互连以提供训练算力,最终耗费的时间是指数级增加,而这是哪怕购买2倍特供版芯片都无法解决的。美国当局也试图通过这种制裁,来延缓中国在AI应用上的进步速度。
02 死了张屠夫,就吃带毛猪?
尽管芯片产业独立自主,已经是坚定的方向。但英伟达H100、A100等先进计算卡,大陆短期内甚至10年内,依然难以制造出类似算力级别的芯片。
在对未来保持乐观与信心的同时,我们依然要解决,没了美国这个“张屠夫”,我们的先进芯片需求,确实会吃上“带毛猪”的窘境。我们自己的“屠夫”,在手艺上确实还落后于张屠夫。没有人愿意唱衰自己,但在长期乐观的同时,短期的需求如何解决?
不过,在我们担心高端芯片缺乏的同时,太平洋对面的精英也同样担心中国在禁令之下更要独立自主的决心。
据《华尔街日报》报道,美国对华半导体出口管制正促使多家中国龙头科技公司加快研究步伐,寻求利用国产自研等现有芯片资源开发尖端 AI,摆脱对个别外国先进制程芯片的依赖。报道称,许多中国公司正在研究,把三四种不太先进的芯片结合在一起,来模拟英伟达最先进处理器的性能。这些芯片绝大部分都是自研为主,组合芯片是单一芯片的数倍算力,对 ASIC 设计需求同步倍增。
而目前,国产GPU、CPU的研发推进速度也在加快。特别是GPU,相比CPU具有更强大的并行计算能力,在人工智能和高性能计算等领域有明显优势。大算力时代,GPU成为了主角。
据黄仁勋在2023年台北电脑展上的演讲,训练一个LLM大语言模型,将需要960个CPU组成的服务器集群,这将耗费大约1000万美元(约合人民币7070万元),并消耗11千兆瓦时的电力。相比之下,同样以1000万美元的成本去组建GPU服务器集群,将以仅3.2千兆瓦时的电力消耗,训练44个LLM大模型。相比CPU服务器,GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM,这将带来巨大的成本节省。
GPU强大计算能力和高效率使之成为各行各业的创新引擎,也是算力产业链的基石,驱动图形处理、计算机视觉、AI、科学研究等领域的突破性进展。
5月31日,国内GPU芯片公司摩尔线程(Moore Threads)就发布超过10款新产品与技术更新,包括全新游戏显卡MTT S70桌面GPU、面向游戏爱好者的DirectX 11社区版驱动、云桌面产品MT vGPU 2.1和MCCX VDI云桌面一体机以及GPU物理引擎AlphaCore等。
摩尔线程创始人兼CEO张建中就指出,AI训练、推理都需要更多的计算能力。只有一家公司(暗指英伟达)供应的话,供应量有限。价格也是一个重要考虑因素,许多创业公司在构建大型模型时都对成本控制有需求。如果摩尔线程能提供性价比高且经济实惠的解决方案,那就是其机会所在。张建中还表示,摩尔线程暂时不做超算云服务,把利润留给合作伙伴,只赚GPU的钱。
实际上,英伟达也不做服务器。英伟达最近发布的由256块Grace CPU和H100 GPU进行NV Link连接而成的超级计算机DGX GH200,就没有公布售价,英伟达表示售价由系统集成商最终确定,因此不便透露。官方透露的系统集成商中,谷歌云、Meta和微软将率先使用DGX GH200。
未必是针对国内组合芯片方案的创业者,英伟达还在台北电脑展上推出用于加速服务器的开放型架构MGX,这种架构可以同时支持CPU、GPU、DPU(数据处理单元)的应用开发,也支持x86和Arm处理器。因此软件开发商能在MGX上构建一百多种不同的服务器配置,从而支持AI、HPC和数据分析、数字孪生、云服务、云游戏和5G等各方面的应用开发。
英伟达是经历过20世纪末到21世纪初期显卡大战的十年血腥,最终和AMD一块活下来的唯二巨头。对国内GPU厂商来说,赶上英伟达,还需要很长时间。但创新从来都是新入局的小公司,逐步颠覆曾经的巨头。过去许多年,英伟达一直是英特尔背后的附属品,是小弟;但现在,英特尔的股价已经匍匐在英伟达的脚下。
03 算力中心建设中的技术比拼
中国是芯片巨头们不容错过的大市场。据估测,仅去年第三季度,芯片出口禁令就使 Nvidia损失了约 4 亿美元的潜在销售额。英伟达向中国出售特供版芯片也不是长久之计,美国的禁令更会“激励”中国可能寻找国产替代方案。
正如黄仁勋最近在接受英国《金融时报》采访时所说:“如果(中国)不能从……美国购买,他们就会自己建造。因此,美国必须小心。中国是科技行业非常重要的市场。”
对于中国GPU创业者来说,面对英伟达,不输就是赢,哪怕只是吃下犄角旮旯的市场份额。
但是英伟达来说,仅仅是面对美国禁令,如果不能及时获得许可推出中国特供版显卡,那么不赢就是输。
甚至于,英伟达性能打折扣的中国特供版显卡,简直是国内GPU厂家的神助攻。要不然,国内GPU企业或许还真的找不到任何突破口,只能在英伟达的阴影下,放弃自研。
从这个角度,更加着急的是担心失去中国市场的英伟达。
中国正处于开发大模型等各类AI应用的火热期。一般来说,构建AI服务包括三个步骤:大数据收集与处理、AI模型训练、AI模型在线服务,每一个环节都需要投入海量计算资源,成本很高。
成本高,就有优化需求,就有新入局者的机会。
甚至华为也要入局。有消息指出,华为将在7月7日举行的HDC.Cloud 2023开发者大会上,推出一款与ChatGPT相媲美的多模态千亿级大模型盘古Chat。而在训练千亿参数的盘古大模型时,华为团队调用了超过2000块的昇腾910芯片,进行了超过2个月的数据训练能力。
相比于其他大模型创业者往往不具备算力芯片能力,华为昇腾(HUAWEI Ascend)910却是华为自己掌控的算力极强的AI处理器,支持云边端全栈全场景应用,半精度(FP16)算力达到320 TFLOPS,整数精度(INT8)算力达到640 TOPS,功耗310W。在大模型的竞技场上,拥有大量昇腾910的华为就具有算力优势。
可以说大模型时代就是大算力时代。当然,对于入局大模型的厂商来说,在算力之外,如何做好算力调度、及时响应也很重要。比如,讯飞就打造了大模型专用的一体化平台来支持混合异构算力调度,打通训练推理资源数据闭环。
大模型实现智能涌现,需要模型参数量足够多,而这也带来了对算力的剧增,需要更高的并行效率,才能有效支持大参数模型训练。
最近成立的上海临港新片区智能算力产业联盟,就是对大模型等AI创业方向的算力支持。
据介绍,目前临港总算力超过3EFLOPS(FP32),智能算力占比近80%,总算力规模约占上海市近20%。临港还计划到2025年,新片区总算力超过5EFLOPS(FP32),AI算力占比达到80%。
而位于临港的商汤大装置SenseCore,就拥有5000 Petaflops算力,支持20个千亿参数超大模型同时训练。据了解,截至今年5月,商汤大装置已累计服务超40个核心客户,其中大模型客户10家以上。
英伟达同样也重视算力中心的建设。2019年,英伟达斥资69亿美金收购以色列芯片厂商Mellanox,就是在为大算力中心的建设做准备。据了解,Mellanox为服务器,存储和超融合基础设施提供包括以太网交换机、芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品。
国外分析机构Yole首席执行官Jean-Christophe Eloy就认为,英伟达有四分之一的营收是来自快速增长的数据中心市场,而Mellannox的加入,则可以帮忙扩大这种接入,并且为其现有产品线扩展新的渠道。
今年4月,在黄仁勋访问以色列期间,他就参观了Mellannox位于 Yokne'am 的研发中心,并颇为自豪地对员工说:“你们在 Mellanox一直习惯于在市场上竞争,但我会来创造新的市场”。
新市场是什么?一个月之后,英伟达也揭晓了答案。
每秒100亿亿次运算的超级计算机被称为E级超级计算机,随着ChatGPT等人工智能应用的火热,E级超级计算机也将发挥更大作用。5月29日,英伟达高级副总裁吉拉德·谢纳(Gilad Shainer)表示,公司正在以色列打造“Israel-1”, 预计浮点运算速度可达每秒800亿亿次。据悉,该系统的研制主力军来自曾经的以色列芯片制造商Mellanox技术公司。
算力中心需要两大关键技术——芯片和互连。
英伟达有芯片技术,虽然在NVLink和NVSwitch上也拥有自己强大的互连技术。但这主要用于扩展计算架构(处理能力在单一系统内增加),然而使用Mellanox的技术,可以实现横向扩展架构(其中通过向计算“结构”添加更多服务器节点来增加处理能力)。
有了Mellanox的InfiniBand和Ethernet等互连技术,英伟达也投桃报李,将在以色列率先建设这种每秒800亿亿次运算的超级计算机。对于黄仁勋来说,访问以色列,是因为以色列的企业提供了关键技术。
对于中国来说,黄仁勋到访大陆如果仅仅是因为中国的巨大市场,并不值得骄傲;如果此次访华黄仁勋不能成行,我们更期待黄仁勋的下一次访华,是因为大陆的技术而非市场。
本文源自亿欧网
微软新闻推荐
win10系统推荐
系统教程推荐