摩杜云开发者社区-摩杜云

NLP

预训练模型标签描述

文章 | VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等多模态预训练模型通过在多种模态的大规模数据上的预训练，可以综合利用来自不同模态的信息，执行各种跨模态任务。在本项目中，我们推出了VLE(Vision-LanguageEncoder)，一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中，VLE取得了公开模型中的最佳效果。最近，大型语言模型（LLM）取得了巨大成功，并被用于翻译、问答、摘要等文本任务。虽然LLM...

MBD88DuKutYQ 2023年11月02日 17 0 0 自然语言处理人工智能预训练模型自然语言处理预训练模型人工智能