每日学术速递7.12-摩杜云开发者社区

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

每日学术速递7.12_语言模型

标题：GPT4RoI：在感兴趣区域上调整大型语言模型的指令

作者：Shilong Zhang, Peize Sun, Shoufa Chen, Min Xiao, Wenqi Shao, Wenwei Zhang, Kai Chen, Ping Luo

文章链接：https://arxiv.org/abs/2307.03601

项目代码：https://github.com/jshilong/GPT4RoI

每日学术速递7.12_模态_02

每日学术速递7.12_泛化_03

每日学术速递7.12_泛化_04

每日学术速递7.12_语言模型_05

每日学术速递7.12_语言模型_06

每日学术速递7.12_泛化_07

每日学术速递7.12_语言模型_08

每日学术速递7.12_模态_09

摘要：

在图像-文本对上调整大语言模型（LLM）的指令已经实现了前所未有的视觉-语言多模态能力。然而，他们的视觉语言对齐仅建立在图像级别上，缺乏区域级别对齐限制了他们在细粒度多模态理解方面的进步。在本文中，我们提出对感兴趣区域进行指令调整。关键设计是将边界框重新表述为空间指令的格式。将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM，并以指令调整格式对转换后的区域文本数据进行训练。我们的区域级视觉语言模型（称为 GPT4RoI）带来了超越图像级理解的全新对话和交互体验。（1）可控性：用户可以通过语言和空间指令与我们的模型进行交互，以灵活调整问题的细节程度。（2）容量：我们的模型不仅支持单区域空间指令，还支持多区域。这解锁了更多区域级多模态能力，例如详细的区域标题和复杂的区域推理。(3) 组合：任何现成的物体检测器都可以作为空间指令提供者，以便从我们的模型中挖掘信息丰富的物体属性，如颜色、形状、材质、动作、与其他物体的关系等。代码、数据，并且可以在此 https URL 找到演示。

2.Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation

每日学术速递7.12_语言模型_10

标题：分解视觉机器人操作模仿学习中的泛化差距

作者：Annie Xie, Lisa Lee, Ted Xiao, Chelsea Finn

文章链接：https://arxiv.org/abs/2307.03659

项目代码：https://sites.google.com/view/generalization-gap

每日学术速递7.12_模态_11

每日学术速递7.12_语言模型_12

每日学术速递7.12_语言模型_13

每日学术速递7.12_泛化_14

每日学术速递7.12_语言模型_15

摘要：

是什么使得视觉机器人操作中的模仿学习难以泛化？从表面上看这个问题很难回答，但从机器人的角度来看，环境通常可以分解为无数的变化因素，例如照明条件或相机的放置。根据经验，对其中一些因素的泛化比其他因素提出了更大的障碍，但现有的工作几乎没有阐明每个因素对泛化差距的具体贡献有多大。为了回答这个问题，我们研究了模拟中的模仿学习策略和真实的机器人语言条件操作任务，以量化泛化到不同（组）因素的难度。我们还设计了一个包含 19 个任务和 11 个变异因素的新模拟基准，以促进更受控的泛化评估。根据我们的研究，我们根据泛化难度确定因素的排序，这在模拟和我们的真实机器人设置中是一致的。

3.BiPhone: Modeling Inter Language Phonetic Influences in Text(ACL 2023)

每日学术速递7.12_泛化_16

标题：BiPhone：对文本中的语言间语音影响进行建模

作者：Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, Aravindan Raghuveer

文章链接：https://arxiv.org/abs/2307.03322

每日学术速递7.12_语言模型_17

每日学术速递7.12_语言模型_18

每日学术速递7.12_语言模型_19

每日学术速递7.12_模态_20

每日学术速递7.12_模态_21

摘要：

由于技术不对称，很多人被迫以他们文化水平较低的语言使用网络。这些用户用第二语言 (L2) 编写的文本通常包含大量受其母语 (L1) 影响的错误。我们提出了一种方法来挖掘 L1 和 L2 对的音素混淆（L1 说话者可能混淆的 L2 中的声音）。然后将这些混淆插入生成模型（Bi-Phone）中，以综合生成损坏的 L2 文本。通过人工评估，我们发现 Bi-Phone 会产生看似合理的损坏，这些损坏在各个 L1 之间有所不同，并且在网络上也得到了广泛的报道。我们还用我们的技术（FunGLUE for Phonetically Noished GLUE）破坏了流行的语言理解基准 SuperGLUE，并表明 SoTA 语言低估模型表现不佳。我们还引入了一个新的音素预测预训练任务，帮助字节模型恢复接近 SuperGLUE 的性能。最后，我们还发布了 FunGLUE 基准测试，以促进语音稳健语言模型的进一步研究。据我们所知，FunGLUE 是第一个在文本中引入 L1-L2 交互的基准测试。

推荐阅读