摩杜云开发者社区-摩杜云

深度学习

多模态标签描述

文章 | 处理一张图片生成10个子图片，而且读取语义文本，比如'red hat'

完成了，对两个函数的重构，放入了imagebox.py文件中我从博客的文章日志，继续处理twitter数据集，重构代码。正向反馈，提高效率。重构save_10_boximg函数 1.添加im_file参数 2.添加生成boxlist的流程，目的是，让接口只需要调用save_10_boximg函数，就可以完成对子图片的提取。这样就可以为下一步提取特征做准备。无论是文字还是图片的特征。 3.修改函数的功能，让他可以在指定的路径，生成一个以图片命名的目录。把子图片存储在这个子目录中。这样函数功能就符合预期了。这就包含了创建目录的代码了。 fromimageboximportfile_2_10...

b5vpn9flcpYe 2023年11月25日 16 0 0 深度学习多模态数据集深度学习多模态数据集

文章 | 带你认识一下多模态对比语言图像预训练CLIP

本文分享自华为云社区《多模态对比语言图像预训练CLIP：打破语言与视觉的界限》，作者：汀丶。多模态对比语言图像预训练CLIP：打破语言与视觉的界限一种基于多模态（图像、文本）对比训练的神经网络。它可以在给定图像的情况下，使用自然语言来预测最相关的文本片段，而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3，具备出色的零射击能力，可以应用于多种多模态任务。多模态对比语言图像预训练（CLIP）是一种神经网络模型，它通过多模态对比训练来学习图像和文本之间的关联。与传统的单模态预训练模型不同，CLIP能够同时处理图像和文本，从而更好地理解它们之间的语义关系。 CLIP的设计类...

YqbaJkf98QJO 2023年11月14日 40 0 0 CLIP 多模态 CLIP 图像训练多模态图像训练