黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”-摩杜云开发者社区

黄仁勋SIGGRAPH主题演讲：

NVIDIA首席执行官带来生成式AI多项创新

在生成式AI继续席卷日益数字化和互联化的世界之际，NVIDIA创始人兼首席执行官黄仁勋重返全球知名的计算机图形大会 SIGGRAPH舞台。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者

“生成式AI时代和AI的iPhone时刻已经到来”，黄仁勋在SIGGRAPH现场向数千名观众发表了主题演讲，并通过直播分享给全球观众。

黄仁勋发布了GH200 Grace Hopper 超级芯片平台和一个名为NVIDIA AI Workbench的全新统一工作空间，以简化NVIDIA AI平台上模型的调节和部署。此外，他宣布将对NVIDIA Omniverse进行重大升级，加入对生成式AI和 OpenUSD的支持。

这些发布旨在将过去十年所有的创新结合在一起，其中包括人工智能、虚拟世界、加速、模拟、协作等创新与技术。

黄仁勋表示：“计算机图形学和 AI 密不可分，图形学需要 AI，AI 也需要图形学。”他解释说，AI 将在虚拟世界中学习技能，于此同时，AI 也可以用于创建虚拟世界。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_02

AI和实时图形的基础

黄仁勋表示，“五年前在 SIGGRAPH 上，NVIDIA 将 AI 和实时光线追踪引入 GPU ，从此颠覆了计算机图形。不仅如此，在 NVIDIA 通过 AI 重塑计算机图形的同时，也致力于为 AI 重塑 GPU。”

这些努力换来的成果是越来越强大的系统。例如 NVIDIA HGX H100，它利用 8 个 GPU 和总共 1 万亿个晶体管来实现加速计算，超越基于CPU的系统。

“这就是全球数据中心迅速转向加速计算的原因，”黄仁勋告诉观众。 “买得越多，省得越多。”

为了延续 AI 的发展势头，NVIDIA 打造了 Grace Hopper 超级芯片NVIDIA GH200，该芯片结合了 72 核 Grace CPU 和 Hopper GPU，并已于 5 月全面投产。

黄仁勋介绍说，已经投产的 NVIDIA GH200 将补充一个配备领先 HBM3e 内存的附加版本。

黄仁勋宣布推出新一代 GH200 Grace Hopper 超级芯片，它能够连接多个 GPU，以实现卓越的性能和易于扩展的服务器设计。

专为处理世界上复杂的生成式工作负载而构建的新平台，将提供多种配置，其中涵盖大型语言模型、推荐系统和矢量数据库等。

与当前一代产品相比，双配置的内存容量增加了 3.5 倍，带宽增加了 3 倍，包括一台具有 144 个 Arm Neoverse 核心、8 petaflops 的 AI 性能和 282 GB 最新 HBM3e 内存技术的单服务器。

领先的系统制造商预计将在 2024 年第二季度交付基于该平台的系统。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_03

NVIDIA 创始人兼首席执行官黄仁勋在SIGGRAPH 主题演讲的现场，座无虚席

NVIDIA AI Workbench加速自定义生成式AI的应用

为了加快全球企业对自定义生成式AI的应用，黄仁勋发布了NVIDIA AI Workbench。该平台为开发者提供了一个统一、易用的工作空间，使他们能够在个人电脑或工作站上快速创建、测试和微调生成式AI模型，然后将这些模型扩展到几乎所有数据中心、公有云或 NVIDIA DGX Cloud。

AI Workbench 大大降低了企业AI项目的门槛。开发者通过在本地系统上运行的简单界面，就可以使用自定义数据对来自 Hugging Face、GitHub 和 NGC 等常见资源库的模型进行微调，然后在多个平台上轻松共享。

虽然目前有成千上万的预训练模型可用，但使用许多现有的开源工具自定义这些模型依然十分困难且耗时。

黄仁勋表示：“为了使这种能力更加普及，我们必须使其能够在几乎任何地方运行。”

借助AI Workbench，开发者只需点击几下就能自定义和运行生成式AI。开发者可以将所有必要的企业级模型、框架、SDK 和库整合到一个统一的开发者工作空间中。

“有了 AI Workbench，任何人都可以做到这些。”黄仁勋说道。

包括戴尔科技、慧与、惠普、 Lambda、联想和超微在内的领先AI基础架构提供商正在使用AI Workbench，在本地设备等开发者想要工作的任何地点提供企业级生成式AI功能。

黄仁勋还宣布NVIDIA将与初创企业Hugging Face一起为数百万开发者提供生成式AI超级计算，帮助他们构建大型语言模型等高级AI应用。

开发者将能够使用Hugging Face 平台内的NVIDIA DGX Cloud AI 超级计算训练和调整高级 AI 模型。

黄仁勋表示，“这将是一项全新的服务，将世界上顶尖的AI社区与顶尖的训练和基础设施连接起来。”

在视频展示中，黄仁勋演示了 AI Workbench 和 ChatUSD 如何将这一切结合在一起：用户在 GeForce RTX 4090 笔记本电脑上启动项目，随着项目变得复杂，可以轻松地将项目扩展到工作站，亦或者是数据中心。

使用 Jupyter Notebook，用户可以训练模型使其生成 Toy Jensen 的太空图片。因为模型从未见过Toy Jensen，如果此时模型提供的结果不理想，用户可以使用 Toy Jensen 的八张图像微调模型，然后再次训练它以获得更准确的结果。

最终，通过 AI Workbench，可以将新模型部署到企业应用程序中。

全新NVIDIA Enterprise 4.0 推进AI部署

为进一步加快生成式AI的应用，NVIDIA发布了企业软件套件的最新版本 —— NVIDIA AI Enterprise 4.0。

NVIDIA AI Enterprise为企业提供采用生成式AI所需的工具，同时带来了大规模企业部署所需的安全性和API稳定性。

Omniverse 的重大升级：加入对生成式AI和 OpenUSD的支持以实现工业数字化

黄仁勋发布了 NVIDIA Omniverse 的重要更新，这是一个 OpenUSD 原生开发平台，用于跨工具构建、模拟和协作，为开发人员和企业提供新的基础应用程序和服务，以利用 OpenUSD 框架和生成式 AI 优化和增强他们的 3D 流程和虚拟世界。

他还宣布了 NVIDIA 对 OpenUSD 的贡献，OpenUSD 是用于描述、模拟和跨 3D 工具协作的框架和通用流通平台。

Omniverse 平台的更新包括 Omniverse Kit（用于开发原生 OpenUSD 应用和扩展程序的引擎）以及 NVIDIA Omniverse Audio2Face 基础应用和空间计算功能的升级。

Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics 现已通过 OpenUSD 与 Omniverse 相连。

Adobe 和NVIDIA 宣布计划将在Omniverse为用户提供 Adobe Firefly（Adobe的创作生成式AI模型系列）的 API 接口，以扩大双方在 Adobe Substance 3D、生成式AI和 OpenUSD项目方面的合作。

Omniverse 用户现在可以构建与其他基于 OpenUSD 的空间计算平台（例如 ARKit 和 RealityKit）兼容的内容、体验和应用程序。

黄仁勋宣布将为开发者和企业提供种类广泛的框架、资源和服务，以加快通用场景描述（即OpenUSD）的应用，包括地理空间数据模型、指标组装和模拟就绪（或 SimReady）、OpenUSD 规格等。

黄仁勋还发布了四款NVIDIA打造的全新Omniverse Cloud API，使开发者能够更加流畅地实施和部署OpenUSD流程和应用。

ChatUSD：它是一个大语言模型 (LLM) 代理，可帮助开发人员和艺术家处理 OpenUSD 数据和场景，用于从文本生成 Python-USD 代码脚本并回答USD知识问题。

RunUSD：一个云API，通过检查上传文件与 OpenUSD 版本的兼容性，将 OpenUSD 文件转换为全路径追踪渲染图像，并使用 Omniverse Cloud 生成渲染图像。

DeepSearch：一个LLM 代理，可在海量无标记资产数据库中进行快速语义搜索。

USD-GDN Publisher：一项一键式服务，使企业和软件制造商能够从基于 Omniverse 的应用程序（例如 USD Composer）向 Omniverse Cloud图形交付网络 (GDN) 发布高保真、基于 OpenUSD 的体验，并实时流式传输到网络浏览器和移动设备。

上周，NVIDIA 宣布与皮克斯、Adobe、苹果和 Autodesk 共同创立 OpenUSD 联盟。

强大的新型台式电脑系统和服务器黄仁勋表示NVIDIA和全球工作站厂商将发布性能强大的全新RTX工作站，为生成式AI和数字化时代的开发和内容创建提供更强大的算力。

来自BOXX、戴尔科技、惠普和联想等厂商的这些系统配备NVIDIA RTX 6000 Ada GPU以及 NVIDIA AI Enterprise和NVIDIA Omniverse Enterprise软件。NVIDIA还发布了三款全新的桌面工作站基于Ada架构的GPU —— NVIDIA RTX 5000、RTX 4500和 RTX 4000，为全球专业人员提供最新的AI、图形和实时渲染技术。

黄仁勋还详细介绍了NVIDIA如何与全球数据中心系统厂商一起通过搭载全新NVIDIA OVX继续大力推动生成式 AI 和工业数字化的发展。NVIDIA OVX 基于功能强大的通用数据中心处理器NVIDIA L40S GPU 打造而成。

这些性能强大的新系统将利用NVIDIA Omniverse平台加速高计算密集度的复杂应用，包括AI训练和推理、3D设计和可视化、视频处理、工业数字化等。

黄仁勋SIGGRAPH演讲：GH200、L40S显卡、ChatUSD轮番登场

财联社消息，北京时间周二晚间，英伟达联合创始人兼CEO黄仁勋时隔5年再度登上SIGGRAPH的舞台发表主旨演讲，期间提及一系列与生成式AI浪潮息息相关的硬件和软件服务。

SIGGRAPH由ACM SIGGRAPH（计算机协会计算机图形图像特别兴趣小组）举办，是计算机图形学的年度顶级会议。

对于再度登上SIGGRAPH的舞台，黄仁勋也是颇为感慨。他回忆称，2018年正是在SIGGRAPH的舞台上，他发布了能够在实时渲染中完成光线追踪的RTX平台，那也是英伟达的“赌命时刻”。时过境迁，当年发布显卡时他可以把显卡拿在手上展示，现在由Grace Hopper芯片组成的产品只能放在台子上展示了。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_生成式_04

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_英伟达_05

（来源：直播视频）

“买得越多、赚得越多”的GH200

黄仁勋也再度提到今年5月台北电脑展上展示过的GH200系统，并提到下一代GH200平台将搭配最新的HBM3e技术，有望在2024年二季度开始交付。在搭配双路Grace Hopper芯片的情况下，服务器的配置能达到144个Arm Neoverse核心和282GB HBM3e内存，与这一世代的系统相比，能提供高达3.5倍的内存容量和3倍的带宽。

英伟达同时通过动画展示如何使用NVLink等技术，构建出一整套为生成式人工智能打造的超级计算机系统。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_06

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_07

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_08

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_09

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_10

顺便一提，最后的图片是按照实物大小展示，中间那个影子就是黄仁勋。这套系统能够无缝连接256个Grace Hopper超级芯片——对应的是1 EFLOPS的AI算力和144TB的高速存储。

黄仁勋还顺便解释了一下GH200“买得越多、赚得越多”这件事情。作为比较，同样使用1亿美元打造数据中心，可以买下8800个x86的CPU或2500套GH200，但后者的AI算力是前者的12倍，同时能耗也更低。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_11

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_12

反过来算，只需要花800万美元采购210套GH200，就能达到与1亿美元CPU数据中心同等的AI算力。

Omniverse

Omniverse是Nvidia创建的实时3D图形协作平台，主要的功能就是创建“数字孪生”，在虚拟世界中模拟现实。

在周二的演讲中，黄仁勋也拿世界最大广告公司WPP和比亚迪（腾势汽车），作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”，并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_英伟达_13

Hugging Face

在这一轮AI浪潮中脱颖而出的共享机器学习模型和数据集平台Hugging Face（俗称“抱抱脸”）也出现在周二的舞台上。黄仁勋宣布，英伟达已经与Hugging Face达成合作协议，帮助该社区推出一项AI模型训练服务，背后自然有英伟达DGX云的支持。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_14

AI 工作台

随着各种模型的开发变得日常工作，开发者也有在不同设备间同时开发大模型的需求。一个统一，且能调用不同算力、同步微调结果的“AI工作台”应运而生。通过AI工作台，开发人员能够在PC或工作站上快速创建、测试和自定义预训练的生成式AI模型，然后将其扩展到几乎任何数据中心或者公共云上。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_生成式_15

另外，英伟达也发布了最新版本的企业软件平台NVIDIA AI Enterprise 4.0，为企业用户提供生成式人工智能所需的工具。

L40S显卡、新工作站和服务器

对于那些想要配置本地算力资源的个人和创业公司而言，英伟达也在周二发布了新的工作站产品，每个工作站最多可以塞进去四张NVIDIA RTX 6000显卡，对应的参数为5,828 TFLOPS AI算力和192GB显存。黄仁勋介绍称，用这台机器，微调400亿参数的GPT-3大概只需要15个小时。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_16

在这里，黄仁勋再一次强调“买得越多、赚得越多”，直言像这样的工作站，用来开发大模型，几个月就能把本金赚回来了。

英伟达也在周二发布了基于Ada Lovelace架构的新显卡L40S。官方数据介绍称，与A100相比，L40S的生成式AI推理性能提高最多1.2倍，训练性能提高最多1.7倍。L40S 包含18,176 个CUDA内核，单精度浮点 (FP32) 性能是A100的近5倍。

随后，黄仁勋也把遮在台上的黑布揭开，展示了一系列新的OVX服务器产品。新的OVX系统最多可以装8张L40S显卡，每张显卡拥有48GB的显存。黄仁勋也强调，这些服务器设计时的用途，并不是用来训练最尖端的大模型（例如GPT-4），而是用来运行从“抱抱脸”上下载的主流大模型。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_17

与前面提到的工作站相比，这些服务器微调400亿参数的GPT-3大概只需要7个小时。

通用场景描述

通用场景描述（OpenUSD）是一种高性能3D场景描述技术，对于3D交互而言，类似于超文本标记语言（HTML）与2D网页之间的关系。这项技术最早在2015年由皮克斯动画工作室创造，并在2016年开源。英伟达的Omniverse也正是以OpenUSD作为基础，以成为连接各类3D制作工具的平台为愿景来开发。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_18

黄仁勋在周二宣布，英伟达将为开发者和公司提供广泛的框架、资源和API服务，以加速OpenUSD的采用，并推出ChatUSD来帮助开发者利用自然语言实现一系列场景的调整。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_生成式_19

老黄赢麻了！

英伟达H100订单排到24年，

马斯克都坐不住了

炼大模型最佳GPU英伟达H100，全部卖空了！

即使现在立即订购，也要等2024年Q1甚至Q2才能用上。

这是与英伟达关系密切的云厂商CoreWeave对华尔街日报透露的最新消息。

从4月初开始，供应就变得异常紧张。仅仅一周之内，预期交货时间就从合理水平跳到了年底。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_20

全球最大云厂商亚马逊AWS也证实了这一消息，CEO Adam Selipsky近期表示：

A100和H100是最先进的……即使对于AWS来说也很难获得。

更早时候，马斯克还在一场访谈节目中也说过：GPU现在比d品还难获得。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_21

如果找“黄牛”买，溢价高达25%。

如Ebay上的价格已从出厂价约36000美元涨到了45000美元，而且货源稀少。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_22

这种形势下，国内的百度、字节、阿里、腾讯等大型科技公司也向英伟达下了总计50亿美元的A800等芯片订单。

其中只有10亿美元的货能今年内交付，另外80%也要等2024年才行。

那么现有高端GPU都卖给谁了？这一波产能又是卡在了哪？

H100卖给谁，老黄说了算

ChatGPT爆发以来，擅长训练大模型的英伟达A100、H100成了香饽饽。

甚至H100已经可以作为初创公司的一种资产，找投资基金获得抵押贷款。

OpenAI、Meta为代表的AI公司，亚马逊、微软为代表的云计算公司，私有云Coreweave和Lambda，以及所有想炼自家大模型的各类科技公司，需求量都巨大。

然而卖给谁，基本是英伟达CEO黄仁勋说了算。

据The Information消息，H100这么紧缺，英伟达把大量的新卡分配给了CoreWeave，对亚马逊微软等老牌云计算公司限量供应。

（英伟达还直接投资了CoreWeave。）

外界分析是因为这些老牌公司都在开发自己的AI加速芯片、希望减少对英伟达的依赖，那老黄也就成全他们。

老黄在英伟达内部还把控了公司日常运营的方方面面，甚至包括“审查销售代表准备对小型潜在客户说什么话”。

全公司约40名高管直接向老黄汇报，这比Meta小扎和微软小纳的直接下属加起来还多。

一位英伟达前经理透露，“在英伟达，黄仁勋实际上是每一款产品的首席产品官。”

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_英伟达_23

前阵子，还传出老黄干了一件夸张的事：要求一些小型云计算公司提供他们的客户名单，想了解GPU的最终使用者是谁。

外界分析，此举将使英伟达更了解客户对其产品的需求，也引起了对英伟达可能利用这些信息谋取额外利益的担忧。

也有人认为，还有一层原因是老黄想知道谁真的在用卡，而谁只是囤卡不用。

为什么英伟达和老黄现在有这么大的话语权？

主要是高端GPU供需太不平衡，根据GPU Utils网站的测算，H100缺口高达43万张。

作者Clay Pascal根据各种已知信息和传言估计了AI行业各参与者近期还需要的H100数量。

AI公司方面：

OpenAI可能需要5万张H100来训练GPT-5
Meta据说需要10万
InflectionAI的2.2万张卡算力集群计划已公布
主要AI初创公司如Anthropic、Character.ai、欧洲的MistraAI和HelsingAI需求各自在1万数量级。

云计算公司方面：

大型公有云里，亚马逊、微软、谷歌、甲骨文都按3万算，共12万
以CoreWeave和Lambda为代表的私有云加起来总共需要10万

加起来就是43.2万了。

这还没算一些摩根大通、Two Sigma等也开始部署自己算力集群的金融公司和其他行业参与者。

那么问题来了，这么大的供应缺口，就不能多生产点吗？

老黄也想啊，但是产能被卡住了。

产能这次卡在哪里？

其实，台积电已经为英伟达调整过一次生产计划了。

不过还是没能填补上如此巨大的缺口。

英伟达DGX系统副总裁兼总经理Charlie Boyle称，这次并不是卡在晶圆，而是台积电的CoWoS封装技术产能遇到了瓶颈。

与英伟达抢台积电产能的正是苹果，要在9月发布会之前搞定下一代iPhone要用的A17芯片。

而台积电方面近期表示，预计需要1.5年才能使封装工艺积压恢复正常。

CoWoS封装技术是台积电的看家本领，台积电之所以能击败三星成为苹果的独家芯片代工厂靠的就是它。

这项技术封装出的产品性能高、可靠性强，H100能拥有3TB/s(甚至更高)的带宽正是得益于此。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_开发者_24

CoWoS全名叫Chip-on-Wafer-on-Substrate，是一种在晶圆层面上的芯片集成技术。

这项技术可以将多个芯片封装到厚度仅有100μm的硅中介层上。

据介绍，下一代中介层面积将达到6倍reticle，也就是约5000mm²。

目前为止，除了台积电，没有哪家厂商拥有这个水平的封装能力。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_人工智能_25

虽然CoWoS的确强悍，但没有它就不行吗？其他厂商能不能代工呢？

先不说老黄已经表示过“不考虑新增第二家H100代工厂”。

从现实上看，可能也真的不行。

英伟达此前曾和三星有过合作，但后者从未给英伟达生产过H100系列产品，甚至其他5nm制程的芯片。

据此有人推测，三星的技术水平可能无法满足英伟达对尖端GPU的工艺需求。

至于英特尔……他们的5nm产品好像还迟迟没有问世。

既然让老黄换生产厂家行不通，那用户直接改用AMD怎么样？

AMD，Yes？

如果单论性能的话，AMD倒的确是慢慢追上来了。

AMD最新推出的MI300X，拥有192GB的HBM3内存、5.2TB/s的带宽，可运行800亿参数模型。

而英伟达刚刚发布的DGX GH200，内存为141GB的HBM3e，带宽则为5TB/s。

但这并不意味着AMD能马上填补N卡的空缺——

英伟达真正的“护城河”，在于CUDA平台。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_生成式_26

CUDA已经建立起一套完整的开发生态，意味着用户要是购买AMD产品，需要更长时间来进行调试。

一名某私有云公司的高管表示，没人敢冒险花3亿美元实验部署10000个AMD GPU。

这名高管认为，开发调试的周期可能至少需要两个月。

在AI产品飞速更新换代的大背景下，两个月的空档期对任何一家厂商来说可能都是致命的。

不过微软倒是向AMD伸出了橄榄枝。

此前有传闻称，微软准备和AMD共同开发代号为“雅典娜”的AI芯片。

而更早之前，MI200发布时，微软第一个宣布采购，并在其云平台Azure上部署。

比如前一阵MSRA的新大模型基础架构RetNet就是在512张AMD MI200上训练的。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_英伟达_27

在英伟达占据几乎整个AI市场的格局下，可能需要有人带头冲锋，先整个大型AMD算力集群打样，才有人敢于跟进。

不过短时间内，英伟达H100、A100还是最主流的选择。

One More Thing

前一阵苹果发布最高支持192GB内存新款M2 Ultra芯片的时候，还有不少从业者畅享过用它来微调大模型。

毕竟苹果M系列芯片的内存显存是统一的，192GB内存就是192GB显存，可是80GB H100的2.4倍，又或者24GB RTX4090的8倍。

黄仁勋最新演讲：“生成式AI时代和AI的iPhone时刻已经到来”_生成式_28

然鹅，有人真的把这台机器买到手后，实际测试训练速度还不如英伟达RTX3080TI，微调都不划算，训练就更别想了。

毕竟M系列芯片的算力部分不是专门针对AI计算优化的，光大显存也没用。

炼大模型，看来主要还是得靠H100，而H100又求之不得。

面对这种情况，网络上甚至流传着一首魔性的“GPU之歌”。

很洗脑，慎入。

GPU之歌本家
https://www.youtube.com/watch?v=YGpnXANXGUg

参考链接：
[1]https://www.barrons.com/articles/nvidia-ai-chips-coreweave-cloud-6db44825
[2]https://www.ft.com/content/9dfee156-4870-4ca4-b67d-bb5a285d855c
[3]https://www.theinformation.com/articles/in-an-unusual-move-nvidia-wants-to-know-its-customers-customers
[4]https://www.theinformation.com/articles/ceo-jensen-huang-runs-nvidia-with-a-strong-hand
[5]https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/#which-gpus-do-people-need
[6]https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/cowos.htm
[7]https://developer.nvidia.com/blog/cuda-10-features-revealed/
[8]https://www.theverge.com/2023/5/5/23712242/microsoft-amd-ai-processor-chip-nvidia-gpu-athena-mi300
[9]https://www.amd.com/en/press-releases/2022-05-26-amd-instinct-mi200-adopted-for-large-scale-ai-training-microsoft-azure