本篇分享论文X-Dreamer:CreatingHigh-quality3DContentbyBridgingtheDomainGapBetweenText-to-2DandText-to-3DGeneration,通过弥合Text-to-2D和Text-to-3D生成领域之间的差距来创建高质量的3D资产。 论文地址:https://arxiv.org/abs/2312.00085 项目主页:https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ Github主页:https://github.com/xmu-xiaoma666/X-Drea...

  2b807zGFB5zB   2023年12月22日   20   0   0 初始化3d3d初始化

丰色 研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)。 现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。 比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱: oJnamRhwnohet2023MeatsrsermtnoTunanoduySantaatgsuAuntaaNloiGflobClu,gnelcinhiishifsrtneregecatkjnadncedosraecerjroam。 但GPT-4居然完美地恢复出了原始句子(红框部分): 原来是一个叫做JonRahm的人赢得了2023年美国大师赛(高尔夫)的故事...

研究生一个月能领多少补贴? 考研上岸以后,准研究生们最关心的问题之一,研究生补贴的标准及渠道有哪些。本期信息小编汇总了全国42所高校的研究生补贴标准,以解答大家的困惑!(以下补贴信息均来自相应院校官网,如有不足欢迎大家在评论区补充!) 1.中国人民大学:基本补贴600元/月(每年6000元,每年发放10个月);助教/助研岗位800/月;三级奖学金 2.中国政法大学:500/月(6000/年) 3.北京大学:6000元/年;助教岗800/月 4.清华大学:6000元/年 5.西南政法大学:600元/月,每年发放10个月 6.吉林大学:6000元/年 7.上海交通大学:6000...

北京大学与腾讯等机构的研究者们提出了多模态对齐框架——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能,刷榜多项评估榜单,这标志着多模态学习领域向着「大一统」理念迈进了重要一步。 在现代社会,信息传递和交流不再局限于单一模态。我们生活在一个多模态的世界里,声音、视频、文字和深度图等模态信息相互交织,共同构成了我们丰富的感知体验。这种多模态的信息交互不仅存在于人类社会的沟通中,同样也是机器理解世界所必须面对的挑战。 如何让机器像人类一样理解和处理这种多模态的数据,成为了人工智能领域研究的前沿问题。 在过去的十年里,随着互联网和智能...

2023年大模型千帆竞发,除此外AI领域还有哪些新突破? 来来来,畅销书《Python机器学习》作者SebastianRaschka的年末总结已经准备好了。 看完才知道: RLHF今年虽然爆火,但实打实用到的模型并不多,现在还出现了替代方案,有望从开源界“出圈”; 大模型透明度越来越低,透明度最高的是Llama2,但得分也仅有54; 开源模型下一步不一定是“更大”,混合专家模型(MoE)可能是个突破点。 …… 除了大语言模型,SebastianRaschka还根据CVPR2023打包了计算机视觉进展,最后还讲到了AI当前的一些局限性、以及对2024年的技术预测。 走过路过的网友们纷纷表示总...

 编辑:蛋酱 网友:我都不敢想象一年后的视频技术会有多先进。 一段五十秒的预告视频,再次让AI圈沸腾了。 昨日Runway宣布,即将在视频生成工具Gen-2中上线「MotionBrush」(运动笔刷)功能,一种可控制生成内容移动的新方法。 这次的玩法,甚至不需要输入文字,只要有手就够了。 任选一张图片,画笔涂抹到哪里,哪里就立刻动起来: 不管是水流、云彩、火焰、烟雾还是人物,都能高度还原其动态。这就是传说中的「点石成金」吗? 网友看完表示:我都不敢想象一年后的视频技术会有多先进…… 毕竟在2023年初,从文本生成视频还是一件相当困难的事情。 Runway曾在今年2月推...

Vision-LanguageInstructionTuning:AReviewandAnalysis https://arxiv.org/pdf/2311.08172.pdf https://github.com/palchenli/VL-Instruction-Tuning 指令调优是大型语言模型(LLMs)的一个重要的有监督训练阶段,旨在增强LLMs执行指令和适应用户偏好的能力。随着多模态数据被纳入LLMs、不断增加,人们对视觉语言指令调优的性能越来越感兴趣,因为相对于纯文本指令,它呈现出更复杂的特征。 本文系统回顾了多模态LLMs中最新的视觉语言指令调优设置和数据集,并总结了高质量视...

  2b807zGFB5zB   2023年12月06日   18   0   0 模态数据数据调优调优模态

有的人为了买房掏空家里6个钱袋,此后几十年被捆绑在房贷上,有的人自己奋斗几年,甚至是一两年就可以全款入手。 今天介绍一个高考落榜,复读一年才进一所三本院校,最后成功逆袭成为年薪201万的华为“天才少年”的故事。 你以为201万已经是他的极限了,其实更牛的还在后面。 他曾拒绝腾讯和阿里,甚至是世界巨头IBM的offer,有的大厂甚至开出了360万年薪。这不算啥,年薪380W的7U5,很多人应该认识的,曾经是我的老师,后面也是我的小伙伴,帮我干了很多活儿 看到的这样的消息,网友的态度很统一: 这位“天才少年”叫张霁,彼时的他刚博士毕业,不过如今他的过往经历被曝光,人们震惊地发现他的真面目:根本不...

连续「预测下一个token」能生成句子,同理,连续「预测下一个三角形网格」也能生成3D模型。 在计算机图形学中,「三角形网格」是3D几何物体的主要表现形式,也是游戏、电影和VR界面中主要使用的3D资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面,如建筑、车辆、动物,常见的几何变换、几何检测、渲染着色等动作,也需要基于三角形网格进行。 与点云或体素等其他3D形状表示法相比,三角形网格提供了更连贯的表面表示法:更可控、更易操作、更紧凑,可直接用于现代渲染流水线,以更少的基元获得更高的视觉质量。 此前,已有研究者尝试过使用体素、点云和神经场等表示方法生成3D模型,这些表示也需要通过后...

  2b807zGFB5zB   2023年12月05日   15   0   0 编码器编码器建模建模3d3d

作者:西风 StableDiffusion官方终于对视频下手了—— 发布生成式视频模型StableVideoDiffusion(SVD)。 StabilityAI官方博客显示,全新SVD支持文本到视频、图像到视频生成: 并且还支持物体从单一视角到多视角的转化,也就是3D合成: 根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。 虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于StableDiffusion的生态系统”。 目前论文代码权重已上线。 最近视频生成领域不断出现新玩法,这次轮到StableDiffusion下场,以至于网友们的第一...

  2b807zGFB5zB   2023年12月05日   14   0   0 人工智能3cide3dide3d3c人工智能

PG-Video-LLaVA:PixelGroundingLargeVideo-LanguageModels https://github.com/mbzuai-oryx/Video-LLaVA 将基于图像的大型多模态模型(LMM)扩展到视频领域是具有挑战性的。最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT)。 为解决这些问题,提出PG-Video-LLaVA,第一个具有像素级grounding能力的LMM,通...

001 (2023-10-30)CustomNet Zero-shotObjectCustomizationwithVariable-ViewpointsinText-to-ImageDiffusionModels    https://arxiv.org/pdf/2310.19784.pdf 002 (2023-10-30)UpgradingVAETrainingWithUnlimitedDataPlansProvidedbyDiffusionModels    https://arxiv.org/p...

  2b807zGFB5zB   2023年11月19日   65   0   0 ImagecisedImagecised

丰色 GPT-4V挑战视觉错误图,结果令人“大跌眼镜”。 像这种判断“哪边颜色更亮”的题,一个没做对: 读图片中隐藏信息的也傻傻看不出,怎么问都说“没有啊”: 但是呢,这种人类乍一看绝对会错的图,它又成功答对: 以及这样的错位图,它对了又没完全对。。 (GPT-4V直接看出来头盔是位于男的大腿上的,没有女的,但它还是表示图里有俩人,另一个躲在男的身后戴着那顶头盔) 看完这些,是不是觉得很迷? 整个一“该对的不对,该错的又对了”。 测试者则表示: 在测之前,他以为GPT-4V对这种挑战完全不在话下,谁知结果竟是这样。 不止是他,网友也都不理解GPT-4V作为一个“精准的”AI系...

作者:克雷西 苹果的一项最新研究,大幅提高了扩散模型在高分辨率图像上性能。 利用这种方法,同样分辨率的图像,训练步数减少了超过七成。 在1024×1024的分辨率下,图片画质直接拉满,细节都清晰可见。 苹果把这项成果命名为MDM,DM就是扩散模型(DiffusionModel)的缩写,而第一个M则代表了套娃(Matryoshka)。 就像真的套娃一样,MDM在高分辨率过程中嵌套了低分辨率过程,而且是多层嵌套。 高低分辨率扩散过程同时进行,极大降低了传统扩散模型在高分辨率过程中的资源消耗。 对于256×256分辨率的图像,在批大小(batchsize)为1024的环境下,传统扩散模型需要训...

编辑:杜伟、小舟 全新视觉提示方法SoM(Set-of-Mark),让OpenAI多模态大模型GPT-4V在视觉内容理解方面有了质的提升。 最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练Transformer或GPT的发布引领了业界和学术界的多项突破。自GPT-4发布以来,大型多模态模型(LMM)引起了研究界越来越多的兴趣,许多工作致力于构建多模态GPT-4。  近日,GPT-4V(ision)由于出色的多模态感知和推理能力得到了大家格外的关注。然而,尽管GPT-4V具有前所未有的视觉语言理解能力,但其细粒度visualgrounding(输入是...

作者丨AryanJadon  编辑丨极市平台 近年来,基于深度学习的模型在目标检测和图像识别等任务中表现出色。像ImageNet这样具有挑战性的图像分类数据集,包含1000种不同的对象分类,现在一些模型已经超过了人类水平上。但是这些模型依赖于监督训练流程,标记训练数据的可用性对它们有重大影响,并且模型能够检测到的类别也仅限于它们接受训练的类。 由于在训练过程中没有足够的标记图像用于所有类,这些模型在现实环境中可能不太有用。并且我们希望的模型能够识别它在训练期间没有见到过的类,因为几乎不可能在所有潜在对象的图像上进行训练。我们将从几个样本中学习的问题被称为“少样本学习Few...

编辑:润好困 【新智元导读】最近,来自澳国立、牛津和智源的研究人员提出了一个由LLM驱动,用文字提示就能生成复杂3D场景的智能体框架。无所不能的大模型真的要开始创造3D世界了吗? 继火爆全网的AI文生图,文生视频之后,文生3D场景的技术也来了! 只要不到30个字的提示词,瞬间就能生成这样的3D场景。 场景效果和文字的要求几乎分毫不差——「平静如玻璃的湖面,倒映出无云的天空,周围的山和水鸟的倒影呈现在湖中。」 「烈日照耀在无垠的沙漠之上,倔强生长的植物投下了明显的阴影。大风把小沙丘雕刻成一片金色的土地。」 而且针对生成的场景,还支持对不同的元素进行连续地修改和编辑! 网友看到效果之后惊呼...

作者:明敏 最近多模态大模型是真热闹啊。 这不,Transformer一作携团队也带来了新作,一个规模为80亿参数的多模态大模型Fuyu-8B。 而且发布即开源,模型权重在HuggingFace上可以看到。 该模型具备强大的图像理解能力。 照片、图表、PDF、界面UI都不在话下。 能从这么一张复杂的食物网里理清楚各个生物之间的关系。 提问:道格拉斯冷杉针叶缺失了,哪种生物会灭绝? 回答:红树田鼠。 也能从密密麻麻的连线图里找到,权游“小指头”扮演者AidanGillen出演过HBO两个系列的剧。 看得懂专业图表,可以帮你找到想要的数据。 提问:(左图)24、32、33、42这组数...

 编辑:桃子 【导读】百度百科:“Cinemagraph,静态照片中神奇的细微运动技术。顾名思义(cinema是电影摄影,graph是图片)是动态摄影和静态图片的结合,这项艺术最早就是从cinemagraphs这个网站流出,来自NYC的Jamie和Kevin两个艺术家。” 最新AI模型Text2Cinemagraph,只需短短一行字,就可以让艺术大师的作品动起来。 CV大佬朱俊彦的新论文,让动画师感觉危了。 只需要一句话,模型就能将其生成一个风格一致,画质细腻的动画。 以梵高星之夜为参考,创作一个山前小溪流过的画面。 又或以阿夫列莫夫的风格,创作一个瀑布从山间飞跃而下的景观。 ...

鱼羊发自凹非寺量子位报道| 未经授权,不得转载 对超级马里奥的关卡太熟悉,想玩点刺激的? 现在,汉诺威大学的研究人员推出了一个新的GAN,能够生成船新、可玩的超级马里奥关卡。 画风完美统一,难点出其不意: 并且,仅需要一个示例,就可以进行训练。 比起我这样的马里奥乱造家,看上去有逻辑多了。 并且,他们已经把代码开源啦。 GAN版马里奥创作家 在《超级马里奥制造2》这款游戏里,玩家可以组合不同的关卡零件,凭借自己的灵感创作超级马里奥关卡。 事实上,这只名为TOAD-GAN的AI生成关卡的逻辑也与之类似。 TOAD-GAN是基于SinGAN架构的扩展,能够生成基于token的...

  2b807zGFB5zB   2023年11月12日   18   0   0 token
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~