摩杜云开发者社区-摩杜云

X-Dreamer ：扩散模型的高质量3D生成

本篇分享论文X-Dreamer:CreatingHigh-quality3DContentbyBridgingtheDomainGapBetweenText-to-2DandText-to-3DGeneration，通过弥合Text-to-2D和Text-to-3D生成领域之间的差距来创建高质量的3D资产。论文地址：https://arxiv.org/abs/2312.00085 项目主页：https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ Github主页：https://github.com/xmu-xiaoma666/X-Drea...

2b807zGFB5zB 2023年12月22日 20 0 0 初始化 3d 3d 初始化

文字序顺不响影GPT-4阅读理解，别的大模型都不行

丰色研表究明，汉字序顺并不定一影阅响读（对于英文来说，则是每一个单词中的字母顺序）。现在，日本东京大学的一项实验发现，这个“定理”居然也适合GPT-4。比如面对这样一段“鬼画符”，几乎里面每一个单词的每一个字母都被打乱： oJnamRhwnohet2023MeatsrsermtnoTunanoduySantaatgsuAuntaaNloiGflobClu,gnelcinhiishifsrtneregecatkjnadncedosraecerjroam。但GPT-4居然完美地恢复出了原始句子（红框部分）：原来是一个叫做JonRahm的人赢得了2023年美国大师赛（高尔夫）的故事...

2b807zGFB5zB 2023年12月22日 37 0 0 计算机视觉计算机视觉 ci 数据集 ci 数据集

全国40多所院校，研究生补贴有多少？

研究生一个月能领多少补贴？考研上岸以后，准研究生们最关心的问题之一，研究生补贴的标准及渠道有哪些。本期信息小编汇总了全国42所高校的研究生补贴标准，以解答大家的困惑！（以下补贴信息均来自相应院校官网，如有不足欢迎大家在评论区补充！） 1.中国人民大学：基本补贴600元/月（每年6000元，每年发放10个月）；助教/助研岗位800/月；三级奖学金 2.中国政法大学：500/月（6000/年） 3.北京大学：6000元/年；助教岗800/月 4.清华大学：6000元/年 5.西南政法大学：600元/月，每年发放10个月 6.吉林大学：6000元/年 7.上海交通大学：6000...

2b807zGFB5zB 2023年12月22日 31 0 0 计算机视觉人工智能深度学习机器学习计算机视觉深度学习机器学习人工智能

LanguageBind：用语言对齐多模态信息，刷新多个榜单 | 北大腾讯等

北京大学与腾讯等机构的研究者们提出了多模态对齐框架——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能，刷榜多项评估榜单，这标志着多模态学习领域向着「大一统」理念迈进了重要一步。在现代社会，信息传递和交流不再局限于单一模态。我们生活在一个多模态的世界里，声音、视频、文字和深度图等模态信息相互交织，共同构成了我们丰富的感知体验。这种多模态的信息交互不仅存在于人类社会的沟通中，同样也是机器理解世界所必须面对的挑战。如何让机器像人类一样理解和处理这种多模态的数据，成为了人工智能领域研究的前沿问题。在过去的十年里，随着互联网和智能...

2b807zGFB5zB 2023年12月06日 16 0 0 数据数据集数据集模态数据模态

盘点2023人工智能进展，不止大模型而已

2023年大模型千帆竞发，除此外AI领域还有哪些新突破？来来来，畅销书《Python机器学习》作者SebastianRaschka的年末总结已经准备好了。看完才知道： RLHF今年虽然爆火，但实打实用到的模型并不多，现在还出现了替代方案，有望从开源界“出圈”；大模型透明度越来越低，透明度最高的是Llama2，但得分也仅有54；开源模型下一步不一定是“更大”，混合专家模型（MoE）可能是个突破点。 …… 除了大语言模型，SebastianRaschka还根据CVPR2023打包了计算机视觉进展，最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。走过路过的网友们纷纷表示总...

2b807zGFB5zB 2023年12月06日 14 0 0 语言模型数据集数据集计算机视觉人工智能语言模型人工智能计算机视觉

Gen-2 上线「Motion Brush」，可控制生成内容移动的新方法

 编辑：蛋酱网友：我都不敢想象一年后的视频技术会有多先进。一段五十秒的预告视频，再次让AI圈沸腾了。昨日Runway宣布，即将在视频生成工具Gen-2中上线「MotionBrush」（运动笔刷）功能，一种可控制生成内容移动的新方法。这次的玩法，甚至不需要输入文字，只要有手就够了。任选一张图片，画笔涂抹到哪里，哪里就立刻动起来：不管是水流、云彩、火焰、烟雾还是人物，都能高度还原其动态。这就是传说中的「点石成金」吗？网友看完表示：我都不敢想象一年后的视频技术会有多先进…… 毕竟在2023年初，从文本生成视频还是一件相当困难的事情。 Runway曾在今年2月推...

2b807zGFB5zB 2023年12月06日 14 0 0 深度学习机器学习计算机视觉机器学习深度学习计算机视觉

综述论文 | 多模态视觉大模型

Vision-LanguageInstructionTuning:AReviewandAnalysis https://arxiv.org/pdf/2311.08172.pdf https://github.com/palchenli/VL-Instruction-Tuning 指令调优是大型语言模型（LLMs）的一个重要的有监督训练阶段，旨在增强LLMs执行指令和适应用户偏好的能力。随着多模态数据被纳入LLMs、不断增加，人们对视觉语言指令调优的性能越来越感兴趣，因为相对于纯文本指令，它呈现出更复杂的特征。本文系统回顾了多模态LLMs中最新的视觉语言指令调优设置和数据集，并总结了高质量视...

2b807zGFB5zB 2023年12月06日 18 0 0 模态数据数据调优调优模态

那个年薪 201万的华为 “天才少年” 被曝光，醒醒！他根本就不是天才

有的人为了买房掏空家里6个钱袋，此后几十年被捆绑在房贷上，有的人自己奋斗几年，甚至是一两年就可以全款入手。今天介绍一个高考落榜，复读一年才进一所三本院校，最后成功逆袭成为年薪201万的华为“天才少年”的故事。你以为201万已经是他的极限了，其实更牛的还在后面。他曾拒绝腾讯和阿里，甚至是世界巨头IBM的offer，有的大厂甚至开出了360万年薪。这不算啥，年薪380W的7U5，很多人应该认识的，曾经是我的老师，后面也是我的小伙伴，帮我干了很多活儿看到的这样的消息，网友的态度很统一：这位“天才少年”叫张霁，彼时的他刚博士毕业，不过如今他的过往经历被曝光，人们震惊地发现他的真面目：根本不...

2b807zGFB5zB 2023年12月05日 51 0 0 华为计算机视觉机器学习机器学习深度学习深度学习华为计算机视觉

MeshGPT：3D建模生成效果惊动专业建模师

连续「预测下一个token」能生成句子，同理，连续「预测下一个三角形网格」也能生成3D模型。在计算机图形学中，「三角形网格」是3D几何物体的主要表现形式，也是游戏、电影和VR界面中主要使用的3D资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面，如建筑、车辆、动物，常见的几何变换、几何检测、渲染着色等动作，也需要基于三角形网格进行。与点云或体素等其他3D形状表示法相比，三角形网格提供了更连贯的表面表示法：更可控、更易操作、更紧凑，可直接用于现代渲染流水线，以更少的基元获得更高的视觉质量。此前，已有研究者尝试过使用体素、点云和神经场等表示方法生成3D模型，这些表示也需要通过后...

2b807zGFB5zB 2023年12月05日 15 0 0 编码器编码器建模建模 3d 3d

Stable Video Diffusion 3D合成功能引关注，网友：进步太快

作者：西风 StableDiffusion官方终于对视频下手了—— 发布生成式视频模型StableVideoDiffusion（SVD）。 StabilityAI官方博客显示，全新SVD支持文本到视频、图像到视频生成：并且还支持物体从单一视角到多视角的转化，也就是3D合成：根据外部评估，官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。虽然目前只发布了基础模型，但官方透露“正计划继续扩展，建立类似于StableDiffusion的生态系统”。目前论文代码权重已上线。最近视频生成领域不断出现新玩法，这次轮到StableDiffusion下场，以至于网友们的第一...

2b807zGFB5zB 2023年12月05日 14 0 0 人工智能 3c ide 3d ide 3d 3c 人工智能

视觉CV-AIGC一周最新技术精选(2023-11)

PG-Video-LLaVA:PixelGroundingLargeVideo-LanguageModels https://github.com/mbzuai-oryx/Video-LLaVA 将基于图像的大型多模态模型（LMM）扩展到视频领域是具有挑战性的。最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力（例如，VideoChat，Video-ChatGPT，Video-LLaMA），要么不利用音频信号来更好地理解视频（例如，Video-ChatGPT）。为解决这些问题，提出PG-Video-LLaVA，第一个具有像素级grounding能力的LMM，通...

2b807zGFB5zB 2023年12月05日 15 0 0 github github AIGC ide ide AIGC 生成模型生成模型

最新150篇！2023年10月diffusion生成扩散模型论文汇总

001 (2023-10-30)CustomNet Zero-shotObjectCustomizationwithVariable-ViewpointsinText-to-ImageDiffusionModels    https://arxiv.org/pdf/2310.19784.pdf 002 (2023-10-30)UpgradingVAETrainingWithUnlimitedDataPlansProvidedbyDiffusionModels    https://arxiv.org/p...

2b807zGFB5zB 2023年11月19日 65 0 0 Image ci sed Image ci sed

大跌眼镜！GPT-4V错觉挑战实录：该错的没错，不该错的反而错了

丰色 GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题，一个没做对：读图片中隐藏信息的也傻傻看不出，怎么问都说“没有啊”：但是呢，这种人类乍一看绝对会错的图，它又成功答对：以及这样的错位图，它对了又没完全对。。（GPT-4V直接看出来头盔是位于男的大腿上的，没有女的，但它还是表示图里有俩人，另一个躲在男的身后戴着那顶头盔）看完这些，是不是觉得很迷？整个一“该对的不对，该错的又对了”。测试者则表示：在测之前，他以为GPT-4V对这种挑战完全不在话下，谁知结果竟是这样。不止是他，网友也都不理解GPT-4V作为一个“精准的”AI系...

2b807zGFB5zB 2023年11月19日 13 0 0 位图计算机视觉 twitter 人工智能人工智能计算机视觉位图 twitter

Matryoshka扩散模型：提高高分辨率图像性能，减少七成训练步数 | 苹果公司

作者：克雷西苹果的一项最新研究，大幅提高了扩散模型在高分辨率图像上性能。利用这种方法，同样分辨率的图像，训练步数减少了超过七成。在1024×1024的分辨率下，图片画质直接拉满，细节都清晰可见。苹果把这项成果命名为MDM，DM就是扩散模型（DiffusionModel）的缩写，而第一个M则代表了套娃（Matryoshka）。就像真的套娃一样，MDM在高分辨率过程中嵌套了低分辨率过程，而且是多层嵌套。高低分辨率扩散过程同时进行，极大降低了传统扩散模型在高分辨率过程中的资源消耗。对于256×256分辨率的图像，在批大小（batchsize）为1024的环境下，传统扩散模型需要训...

2b807zGFB5zB 2023年11月13日 20 0 0 嵌套人工智能人工智能计算机视觉深度学习数据深度学习计算机视觉数据嵌套

在视觉提示中加入「标记」，让GPT-4V看得更准、分得更细

编辑：杜伟、小舟全新视觉提示方法SoM（Set-of-Mark），让OpenAI多模态大模型GPT-4V在视觉内容理解方面有了质的提升。最近一段时间，我们见证了大型语言模型（LLM）的显著进步。特别是，生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。自GPT-4发布以来，大型多模态模型(LMM)引起了研究界越来越多的兴趣，许多工作致力于构建多模态GPT-4。  近日，GPT-4V(ision)由于出色的多模态感知和推理能力得到了大家格外的关注。然而，尽管GPT-4V具有前所未有的视觉语言理解能力，但其细粒度visualgrounding（输入是...

2b807zGFB5zB 2023年11月13日 17 0 0 图像分割数据集模态数据集图像分割模态

PyTorch实践：图像分类的小样本学习

作者丨AryanJadon  编辑丨极市平台近年来，基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集，包含1000种不同的对象分类，现在一些模型已经超过了人类水平上。但是这些模型依赖于监督训练流程，标记训练数据的可用性对它们有重大影响，并且模型能够检测到的类别也仅限于它们接受训练的类。由于在训练过程中没有足够的标记图像用于所有类，这些模型在现实环境中可能不太有用。并且我们希望的模型能够识别它在训练期间没有见到过的类，因为几乎不可能在所有潜在对象的图像上进行训练。我们将从几个样本中学习的问题被称为“少样本学习Few...

2b807zGFB5zB 2023年11月13日 22 0 0 python 学习分类 pytorch Python 人工智能人工智能分类 pytorch 学习

3D-GPT：一句话生成3D世界，待公布代码的空仓库也已获141星！

编辑：润好困【新智元导读】最近，来自澳国立、牛津和智源的研究人员提出了一个由LLM驱动，用文字提示就能生成复杂3D场景的智能体框架。无所不能的大模型真的要开始创造3D世界了吗？继火爆全网的AI文生图，文生视频之后，文生3D场景的技术也来了！只要不到30个字的提示词，瞬间就能生成这样的3D场景。场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面，倒映出无云的天空，周围的山和水鸟的倒影呈现在湖中。」「烈日照耀在无垠的沙漠之上，倔强生长的植物投下了明显的阴影。大风把小沙丘雕刻成一片金色的土地。」而且针对生成的场景，还支持对不同的元素进行连续地修改和编辑！网友看到效果之后惊呼...

2b807zGFB5zB 2023年11月13日 24 0 0 建模建模 gpt 任务调度任务调度 3d 3d gpt

Fuyu-8B：又一视觉大模型开源！出自Transformer一作！100毫秒极速响应

作者：明敏最近多模态大模型是真热闹啊。这不，Transformer一作携团队也带来了新作，一个规模为80亿参数的多模态大模型Fuyu-8B。而且发布即开源，模型权重在HuggingFace上可以看到。该模型具备强大的图像理解能力。照片、图表、PDF、界面UI都不在话下。能从这么一张复杂的食物网里理清楚各个生物之间的关系。提问：道格拉斯冷杉针叶缺失了，哪种生物会灭绝？回答：红树田鼠。也能从密密麻麻的连线图里找到，权游“小指头”扮演者AidanGillen出演过HBO两个系列的剧。看得懂专业图表，可以帮你找到想要的数据。提问：（左图）24、32、33、42这组数...

2b807zGFB5zB 2023年11月13日 33 0 0 深度学习 transformer twitter 人工智能图像理解人工智能 transformer 图像理解深度学习 twitter

CycleGAN发明人新作：AI实现艺术Cinemagraph，绝妙的“静图之上，视频未满”效果！...

 编辑：桃子【导读】百度百科：“Cinemagraph，静态照片中神奇的细微运动技术。顾名思义（cinema是电影摄影，graph是图片）是动态摄影和静态图片的结合，这项艺术最早就是从cinemagraphs这个网站流出，来自NYC的Jamie和Kevin两个艺术家。” 最新AI模型Text2Cinemagraph，只需短短一行字，就可以让艺术大师的作品动起来。 CV大佬朱俊彦的新论文，让动画师感觉危了。只需要一句话，模型就能将其生成一个风格一致，画质细腻的动画。以梵高星之夜为参考，创作一个山前小溪流过的画面。又或以阿夫列莫夫的风格，创作一个瀑布从山间飞跃而下的景观。 ...

2b807zGFB5zB 2023年11月13日 17 0 0 人工智能人工智能机器学习光流光流 ci 机器学习 ci

GAN版马里奥创作家：单样本可训练，生成关卡要素丰富 | 开源

鱼羊发自凹非寺量子位报道| 未经授权，不得转载对超级马里奥的关卡太熟悉，想玩点刺激的？现在，汉诺威大学的研究人员推出了一个新的GAN，能够生成船新、可玩的超级马里奥关卡。画风完美统一，难点出其不意：并且，仅需要一个示例，就可以进行训练。比起我这样的马里奥乱造家，看上去有逻辑多了。并且，他们已经把代码开源啦。 GAN版马里奥创作家在《超级马里奥制造2》这款游戏里，玩家可以组合不同的关卡零件，凭借自己的灵感创作超级马里奥关卡。事实上，这只名为TOAD-GAN的AI生成关卡的逻辑也与之类似。 TOAD-GAN是基于SinGAN架构的扩展，能够生成基于token的...

2b807zGFB5zB 2023年11月12日 18 0 0 token