DeepMind与东京大学的WebAgent实现了根据自然语言指令进行真实世界网络导航-摩杜云开发者社区

预训练的大型语言模型（LLMs）因其在处理各种自然语言任务上的有效性而受到了广泛的欢迎。最近，人们已经认识到它们在使用自然语言指令指导自主网络导航方面的潜力。然而，现有的网络导航模型面临着许多挑战。这些包括缺乏预定义的动作空间，解释大量HTML文档的复杂性，以及缺乏关于HTML的领域特定知识。为了解决上述问题，来自Google DeepMind和东京大学的研究团队在一篇新的论文《具有规划、长上下文理解和程序合成的真实世界WebAgent》中，提出了WebAgent，这是一个由LLMs驱动的真实世界网络导航代理，可以根据自然语言指令处理真实网站任务。该团队总结了他们的主要贡献如下：

我们介绍了WebAgent，这是两个LLMs的集成，用于真实世界的网络导航。领域专家语言模型处理规划和HTML摘要，而通用语言模型生成可执行程序。
我们通过采用局部-全局注意力和在大规模HTML语料库上进行长跨度去噪预训练，提出了新的HTML特定语言模型HTML-T5。
HTML-T5显著提高了在真实网站中的成功率，超过50%，并在MiniWoB++中比先前的LLM代理提高了14.9%。

DeepMind与东京大学的WebAgent实现了根据自然语言指令进行真实世界网络导航_NLP

图2：WebAgent是LLMs的组合：HTML-T5用于规划和总结，Flan-U-PaLM用于基于实证的程序合成。WebAgent可以处理真实世界任务中的瓶颈：开放领域的动作空间、复杂的自然语言指令和长HTML页面。

WebAgent由HTML-T5用于规划和总结以及Flan-U-PaLM用于实证程序合成之间的交互组成。

DeepMind与东京大学的WebAgent实现了根据自然语言指令进行真实世界网络导航_NLP_02

图4：HTML-T5由局部和全局注意力机制[3,22]以及在大规模HTML语料库上进行长跨度腐化的混合去噪目标[66]组成。局部和全局注意力机制适用于HTML文档的层次树结构。因为短的平均跨度长度（例如，μ = 3），通常在先前的工作[54]中使用，只掩盖了不太有意义的块，采用更长的跨度长度（例如，μ = 8）有助于预训练的语言模型更好地捕捉HTML的语法和语义。我们还注意到，这个图描述了概念，HTML中的元素并不总是在注意力头中清晰地被捕捉到。

具体来说，HTML-T5是一个预训练的编码器-解码器语言模型，它包括1）局部和全局注意力机制，可以更好地捕捉HTML的层次结构；2）一种混合的去噪目标，将HTML的归纳偏差融入其中，以更好地理解HTML文档的语法和语义。

Flan-U-PaLM是一个解码器，它消耗给定的规范示例以生成程序，下一个子指令，以及从HTML-T5中提取的HTML片段，通过Selenium WebDriver（一种浏览器自动化库）解码出可执行的Python程序。因此，WebAgent不仅可以根据自然语言指令生成代码，还可以解释HTML元素的语义和功能。

DeepMind与东京大学的WebAgent实现了根据自然语言指令进行真实世界网络导航_NLP_03

表4：MiniWoB++的56个任务的平均成功率。我们使用了12K的演示[42]，并将HTML-T5与监督微调基线[24, 28]进行比较。HTML-T5-XL显著优于先前最好的方法WebN-T5-XL，提高了14.9%，HTML去噪比指令调优更能提高成功率。我们还使用347K的专家追踪[19]对HTML-T5进行了微调，即使只有3B的参数，其表现也优于Flan-T5-XXL（11B参数）。详细结果请参见附录H。

在他们的实证研究中，团队对WebAgent在真实世界的网络导航任务上进行了测试，包括规划、总结和基于实证的程序合成。WebAgent在网络导航上达到了70%的成功率，明显优于单一LLM方法超过50%，并且在MiniWoB网络导航基准测试上比先前的最先进方法高出14.9%的成功率。

总的来说，这项工作展示了所提出的WebAgent在自主网络导航方面的潜力，团队希望他们的工作能为自主网络代理系统的实际部署贡献一份力量。

论文《具有规划、长上下文理解和程序合成的真实世界WebAgent》下载请点击链接

您的关注是对我最大的支持👇

DeepMind与东京大学的WebAgent实现了根据自然语言指令进行真实世界网络导航_人工智能_04

【本文由“AI最新追踪”发布，2023年08月13日】