Meta AI负责人：ChatGPT等AI系统还没有狗聪明-摩杜云开发者社区

Meta 的首席 AI 科学家 Yann LeCun 在巴黎 Viva Tech 会议上发言时表示，当前的人工智能系统（如 ChatGPT 等）尚未达到人类水平的智能，甚至还不如狗聪明。

他认为，LLM 并不是真正的智能，因为 LLM 无法理解、互动或理解现实，只能依靠语言训练来产生输出。“那些系统仍然非常有限，它们对现实世界的基本现实没有任何了解；因为它们纯粹是在文本上训练的，大量的文本。大部分人类知识与语言无关…… 所以这部分人类经验不会被人工智能捕捉到。”

并进行了举例称，一个人工智能系统现在可以顺利通过美国的律师资格考试，但却无法安装一个洗碗机 —— 一项 10 岁孩子可以 "在 10 分钟内学会" 的技能。

Meta AI负责人：ChatGPT等AI系统还没有狗聪明_计算机视觉

LeCun 还在另一个有关当前 AI 局限性的举例中指出，五个月大的婴儿会看到一个漂浮的物体，但不会思考太多。然而九个月大的婴儿在看到这个物品同时还会感到惊讶，因为他能意识到一个物体不应该漂浮。我们 "不知道今天如何用机器再现这种能力。在我们能够做到这一点之前，我们不会拥有人类水平的智能，也无法达到狗或猫的水平。"

目前，Meta 公司正在致力于在视频上训练 AI。针对有关未来的担忧，LeCun 则表示，未来将会出现比人类更聪明的机器，但这不应被视为构成危险。“我们不应该将其视为威胁，我们应该将其视为非常有益的事情。我们每个人都会有一个 AI 助手…… 它会像员工一样在日常生活中为你提供帮助，而且比你自己更聪明。”

他还驳斥了机器人将主宰世界的观点。认为，这些 AI 系统需要被创建为 “可控且基本上服从于人类”。“科幻小说中流行的一种恐惧是，如果机器人比我们聪明，他们就会想要接管世界…… 聪明和想要接管之间没有关联。”

值得一提的是，Meta 近日发布多个 AI 模型：

Meta 发布语音生成 AI 模型：Voicebox

Meta 宣布了一项在语音生成领域的突破性成果：Voicebox。这是一个在各方面都表现非常先进的语音生成 AI 模型，它能够通过上下文学习执行语音生成任务，如编辑、采样和风格转换等，而无需专门训练。

Voicebox 采用非自回归的流匹配模型，它被训练用于填充语音，给定音频上下文和文本，并在超过 50000 小时的未经过滤或增强的语音上进行训练。类似于 GPT，Voicebox 可以通过上下文学习执行许多不同的任务，但它更灵活，因为它还可以根据未来的上下文进行条件化。

Voicebox 模型具有多种用途。它可以用于单语言或跨语言的零样本文本到语音合成、噪声去除、内容编辑、风格转换和多样性样本生成。特别地，Voicebox 在可理解性（5.9% 对 1.9% 的单词错误率）和音频相似度（0.580 对 0.681）方面优于当前最先进的英语模型 VALL-E，同时速度比它快 20 倍。

Meta 开源音乐生成模型 MusicGen

MusicGen 主要用于音乐生成，它可以将文本和已有的旋律转化为完整乐曲。该模型基于谷歌 2017 年推出的 Transformer 模型。

研发团队表示：“我们使用了 20000 小时的授权音乐来对训练该模型，并采用 Meta 的 EnCodec 编码器将音频数据分解为更小的单元进行并行处理，进而让 MusicGen 的运算效率和生成速度都比同类型 AI 模型更为出色。”

除此之外，MusicGen 还支持文本与旋律的组合输入，例如你可以提出生成 “一首轻快的曲目” 并同时要求 “将它与贝多芬的《欢乐颂》结合起来”。

Meta 开源 I-JEPA，“类人” AI 模型

I-JEPA 可通过对图像的自我监督学习来学习世界的抽象表征，实现比现有模型更准确地分析和完成未完成的图像。

根据介绍，I-JEPA 结合了 Meta 首席 AI 科学家 Yann LeCun 所提倡的类人推理方式，帮助避免 AI 生成图像常见的一些错误，比如多出的手指。I-JEPA 在多项计算机视觉任务上表现出色，且计算效率比其他广泛使用的计算机视觉模型高得多。

详情查看：

你好，我是 JavaPub，多年开发老司机，区块链从业者、自媒体创作者、站长。喜欢自由、开放。选择计算机这个行业，就是因为热爱。一路过来，给我最深的感受就是一定要不断学习并关注前沿。只要你能坚持下来，多思考、少抱怨、勤动手，就很容易实现弯道超车！所以，不要问我现在干什么是否来得及。如果你看好一个事情，一定是坚持了才能看到希望，而不是看到希望才去坚持。相信我，只要坚持下来，你一定比现在更好！如果你还没什么方向，可以先关注我，这里会经常分享一些前沿资讯，帮你积累弯道超车的资本。