原作：格列高利的伊格内修斯

引言：从语言到视频

AI行业的下一个里程碑--视频的征服真在加剧。

借助业界最热门的创新之一“Ring Attention（环形注意力、环形使者）”，一组研究人员构建了 LWM 视频模型，尽管这些模型还非常小，但包含的功能超越了目前ChatGPT的能力。

然而，基于视频的模型作为大型语言模型（LLMs）的潜在“升级”，可能会带来意想不到的后果，向其已经令人印象深刻的监视、定位和潜在操纵的武器库中又增加了一种手段。

模态的征服

对于人工智能来说，征服视频始终是一个具有标志性意义的事件。

黄金模态

视频通常被视为数据的圣杯，被认为是解锁人工智能的关键力量，因为视频通过一种形式封装了我们世界的大量数据。

尽管如此，今天我们最先进的模型是 LLMs，这些模型通过文本的镜头了解我们的世界。

这一点非常令人兴奋，毫无疑问，人类已经极其擅长通过书籍描绘我们世界的历史，通过小说展示我们最深刻的幻想，通过哲学篇章展现人类思维的发展，等等。

然而，我们的世界远不止于此。我们可以通过皮肤感受到它，用眼睛看到它，用耳朵听到它。

对于文本，我们只能信任我们最伟大的作家通过精心编写的文本以最好的方式描绘这些感觉，但您肯定会同意我，阅读关于纽约的描述并非与亲眼目睹它的景象相同。

因此，捕捉对我们世界的理解是非常有限，并且人工智能的潜力远远超出了当前LLMs所能提供的范围。

跨越多模态差距

当然，业界在处理图像等其他数据类型方面已经非常成熟，这有助于使这些LLMs成为多模态LLMs，例如GPT-4V或Gemini。

通过这种方式，人工智能模型能够吸收世界的其他直觉。

它们能理解我们世界中动物或无生命物体的真实外观，同时还能够推断一些其他空间低级细节，如图像深度、透视等。

然而，您依然会同意我，世界远不止于此。

因此，视频被认为是向人工智能真实展示世界的关键，原因如下：

视频本质上捕捉了时间的流动，提供了一系列随时间展开的视觉和听觉线索。与提供信息快照的文本或图像不同，视频提供了叙事线索，使人工智能能够了解不同元素如何随着时间的推移相互作用和变化。
视频自然地集成了多种数据模式——视觉、声音，有时甚至包括文字元素（通过字幕或屏幕文字）。这种多模态性呈现了全面的感官体验，反映了人类感知世界的方式。
视频还使人工智能能够弥合低级感知学习和高级语义理解之间的差距。通过分析视频数据，模型可以学习在感知层面识别模式、物体和面孔，同时还可以通过所描述的事件和交互的进展来掌握更抽象的概念，例如情感、意图和社会动态。

总而言之，如果人工智能通过我们提供的数据学习，那么视频被视为其中最丰富的数据形式，因此可能是解锁人工智能真正力量的关键。

然而，最丰富的数据形式也是迄今为止最复杂的，以至于多年来，这一挑战是仍然难以克服。

直到现在？

透过AI看世界

为了理解类似LWM模型将会变得多么重要，我们必须了解我们最初面临的挑战以及我们最终可能克服的挑战。让我们从第一性原理出发。

Token大问题

在当今最先进的人工智能中，无论您使用什么模式（文本、图像、视频），在模型看来，这都是token，这个概念你可能已经听说过多次。

那么什么是token呢？

简单地说，它们是人工智能模型可以处理的世界的离散表示。简而言之，我们以某种形式获取数据，例如一段文本，并将其分解为有意义的块，每个块都有其特殊的意义。

例如，“懒狗回头打哈欠”这句话包括“狗”这个token，在我们的世界中是一个已知的概念，“懒”是另一个概念，等等。

然后，这些新的块被表示为一组数字，这是机器处理它们的先决条件。这些集合被称为“嵌入（embeddings）”。

因为token是人工智能模型的基本处理单元，我们根据它们可以处理的标记数量来衡量它们的容量。例如，ChatGPT 可以同时处理多达 128,000 个token。

折算成文本，大约是 100,000 个词，这意味着 ChatGPT 可以同时处理整本书的内容，对于大多数情况来说是可以接受的。

然而，我们的世界的“token 化”可以应用于每种可能的数据类型，包括图像和视频。

对于由一堆像素组成的图像，我们将它们分成这些像素的块。在某些情况下，我们可能希望将整个图像变成一个token，让这个token代表整个图像的语义。

但对于视频来说，token的数量猛增。

例如，一部长达 44 分钟的布斯特·基顿(Buster Keaton)无声电影所占用的token几乎是ChatGPT最大处理token数量的 6 倍，尽管这是一部相当过时的无声视频，但很快接近了百万标记，原因在于视频提供的信息远远超过文本能提供的。

通过感官，人类大脑在其一生中捕获了数万亿的token。

在这里有一篇发人深思的文章，他们试图进行这个练习，结果是 30 岁人类在其一生中大约产生了 310 万亿个token。

长话短说，数据类型拥有的token越多，传达的信息就越多。因此，在构建超级人工智能系统的道路上，我们需要找到增加它们可以处理的token数量的方法。

然而，当前引领潮流的架构Transformer 难以处理长序列的token，原因在于其底层机制——注意力（attention）。

然而，当今的开创性架构 Transformers 由于其底层机制“注意力”，无法很好地处理长序列的令牌。

有关注意力机制的更详细解释，请查看这篇文章。

但“Ring Attention（环形注意力、环形使者）”改变了这一点。有了它，我们可能会进入一个新时代。

解决问题

Ring Attention 提出了一种新型Transformer实现方法，该方法通过在环状GPU结构上分配长序列来进行计算。

尽管我在这篇论文中对此进行了详细探讨，但Ring Attention的关键直觉在于，由于LLMs非常庞大，需要多个GPU来运行同一个模型，将集群构建为基于环形结构可以实现每个GPU计算和通信之间的完全重叠。

理解上可能有难度，但通俗地说， Ring Attention 可以被视为一种高效处理基于Transformer的AI模型（如ChatGPT、Gemini或今天的主角LWM）的方法，计算效率高且在经济上可行。

这种实现非常强大，被认为是Google新的MLLM Gemini 1.5开发的基础，该模型可以一次处理高达1000万个token。

那么，什么是LWM模型呢？

视频模型的黎明

正如前面的例子所表明的那样，处理视频已经成为人工智能一个极为渴望达到的里程碑。

而我们可能刚刚征服了这一挑战，因为基于Meta的LLaMa 2 7B模型的LWM（长序列Wav2vec-Masked LM）系列MLLMs已经被训练出来，具备一次处理超过100万个标记的能力，使其能够处理长达一个小时的视频，以及图像和文本，自然地。

我们可能刚刚征服了它，因为 LWM（基于 Meta 的 LLaMa 2 7B 模型的 MLLM 系列）经过训练，能够一次处理超过 100 万个token，使其能够处理长达一小时的视频，当然还有图像和文本。

与类似的 MLLMs 一样，它包含一个LLM，以及视频和文本编码器，如下所示：

BPE 分词器（Byte Pair Encoding Tokenizer）接收文本序列，例如“一只小狗在草坪上奔跑”，并将其转换为文本标记。
而VQGAN则是一个视频编码器，它接收每一帧图像并将其转换为图像标记。

然后，我们将这两种类型的token输入LLM，并使用它们来预测序列中的下一个token，就像ChatGPT所做的那样。

如果我们看一下它的架构，就会发现它是一个相当标准的 MLLM。但使 LWM 模型与众不同的关键直觉有两点：

通过使用 Ring Attention 实现，它们可以向标准MLLM提供巨大的输入序列
在训练过程中，他们采用了智能渐进式训练程序，首先在短序列上训练模型，随着时间推移逐渐增加序列的大小，以最小化整体训练成本

结果显而易见。

在充满独立短片的长达一小时的视频中，LWM可以回答大多数当前模型无法回答的查询。

请注意，他们指的是 Gemini 1.0。 Gemini 1.5 应该完全能够正确回答这个答案。

此外，LWM 在大海捞针问题中表现出完美的分数，这是一种常见的测试，旨在查看模型是否可以在极长的序列上提取非常具体的一次性数据。

与像ChatGPT这样的尖端模型在多针问题（从长序列中提取多组特定数据）上相比，尽管据称LWM的能力和规模要小得多，但其表现却不逊色，这实际上展示了它们的强大之处。

总体而言，这是一个令人印象深刻的展示，但对我们所有人来说有什么实际意义呢？

真善美、假恶丑

长序列建模为MLLMs的许多高价值任务铺平了道路，例如：

视频和DNA处理：这些数据类型由于提供的信息量巨大，因此具有庞大的token需求。
Web 代理，因为浏览网络需要代理来处理多个网页的冲浪，每个站点有数千个token
世界模型，可以观察和预测现实世界的AI模型
通用智能体，即居住在我们世界中的人工智能，需要大量的模拟训练，只有通过长序列建模才能实现

但视频处理涉及到一个更为黑暗和直接的影响：监视。

如今，大多数广告定向机制通过从我们的搜索数据、社交媒体上查看的图像和视频的元标签中收集信息来创建与我们匹配的“客户画像”，从而给我们精准推送广告。

但是，像LWM这样可以解释视频的人工智能使得谷歌、Meta或TikTok等公司可以将客户监视推向一个全新的维度。

例如，他们可以分析您最关注视频的哪些部分，解释你的需求，并进行定向营销。

以YouTube为例，它已经识别了视频中最热门的部分，这意味着它们可以高精度地知道人们正在关注视频中的哪些部分。

现在，通过这些模型，他们可以prompt提取该组帧中发生的事件，识别用户可能感兴趣的对象，甚至进行许多更高级的解释，比如“从第x到第y帧，他们正在谈论斯多葛主义，这可能表明用户对此感兴趣，所以我们将会给他/她推送Ryan Holiday关于斯多葛主义的书籍”，或者其他内容。

我的观点是，现在视频不再仅仅是一系列帧的连接，或带有简单文本描述的内容，视频现在是通往人类最无意识欲望的大门，让广告平台可以从视频的不同部分提取含义，衡量我们的参与度，并对我们的客户资料进行分类以找到可能符合我们兴趣的产品匹配。

广告定向即将迎来全新的定义，这再次表明，AI的颠覆总是会牵涉到权衡。