随着对大型语言模型(LLM)研究的不断深入,越来越多的工作不再局限于模型本身的性能提升,而是更加关注如何在任务中实现更高效、可靠的性能。即使是通用型的离线LLM,也在各种领域和任务中具有不同的专业知识,因此,将多个LLM集成在一起,能够实现更为一致的性能提升。然而,尽管大多数LLM集成方法可以提高性能,但主要都是对模型输出进行奖励排名,这导致了大量计算开销。 来自阿里的研究团队近期提出了一个集成LLM的降本增效新方法,具体来说,通过一种奖励引导的路径决策方法ZOOTER,只需对在特定任务上表现最优越的模型进行推理,而非对所有模型都生成输出,如图1所示。为实现这一目标,引入了一个相对较小的路径...

我们都知道在大多数情况下,语言模型的体量和其推理能力之间存在着正相关的关系:模型越大,其处理复杂任务的能力往往越强。 然而,这并不意味着小型模型就永远无法展现出色的推理性能。最近,奶茶发现了微软的Orca2公开了论文,它详细探讨了如何提升小型大语言模型的推理能力,这样的研究无疑是在资源有限或对模型大小有特定要求的场景的重大进步。接下来,让我们一起来了解这篇论文的详细工作吧! 论文题目:Orca2:TeachingSmallLanguageModelsHowtoReason论文链接:https://arxiv.org/pdf/2311.11045.pdf 在研究团队之前发布的Orca1中,通过...

前些天OpenAI内斗的政权之争,相信各位看官在吃瓜的同时会感到大为震撼。OpenAI这次“政变”事件,让世人第一次看到那些将决定人工智能发展未来的科技大佬之间的激烈争斗。 但权利的斗争在硅谷AI激荡发展十余年中绝不是第一次。《纽约时报》为此采访了80多名高管、科学家和企业家,讲述了这十年关于AI浪潮下的硅谷科技大佬们野心和金钱的故事。 故事的开始,要先从DeepMind的成立讲起。 2010年:DeepMind诞生 这一年,34岁的神经科学家、后来的DeepMind创始人DemisHassabis(哈萨比斯)和两名住在英国的同事正在寻找资金来构建“通用人工智能”(AGI)。 但当时,很少有...

大家是怎样看待大型语言模型生成信息的可靠性呢? 尽管大语言模型生成的内容“像模像样”,但这些模型偶尔的失误揭示了一个关键问题:它们生成的内容并不总是真实可靠的。 那么,这种“不保真”特性能否被用来制造虚假信息呢? 最近,一篇论文正好针对这一议题进行了探讨:我们能否利用大型语言模型来制造虚假的信息? 论文题目:《DisinformationCapabilitiesofLargeLanguageModels》论文链接:https://arxiv.org/pdf/2311.08838.pdf 研究团队选取了10种不同的大语言模型,使用20种虚假信息叙事来评估它们的性能,这些叙事被分为五个类别:C...

持续48小时的OpenAI政变大戏终于迎来了大结局! 微软堪称最大赢家💥💥💥 微软CEO刚刚宣布: 我们仍然致力于与OpenAI的合作伙伴关系,并对我们的产品路线图、我们在MicrosoftIgnite上宣布的一切继续创新的能力以及继续为我们的客户和合作伙伴提供支持的能力充满信心。 我们期待了解EmmettShear和OpenAI的新领导团队并与他们合作。 我们非常高兴地分享这样的消息: SamAltman和GregBrockman及其同事将加入Microsoft,领导一个新的高级人工智能研究团队。 我们期待迅速采取行动,为他们提供成功所需的资源。 而在这之前,据TheIn...

机器幻觉问题,可能是未来相当长一段时间内悬浮在大模型领域上方的两片乌云之一。遥记半年前,LeCun就曾断言:“单纯根据概率生成自回归的大语言模型,根本解决不了幻觉、错误的问题,GPT模型活不过5年”。 当然,尽管LeCun话虽如此,但是我们可以看到,自GPT系列模型问世以来,无论是简单粗暴扩展模型参数,还是精心调配,使用微调、RLHF实现对齐,总体而言,大模型还是在朝着减轻机器幻觉,增加可信度的大方向不断向前发展的。如下图所示,左右两幅图分别展示了应用对齐技术(下图左)以及扩展模型参数量(下图右)为大模型可信度带来的提升。 依靠大模型这条已经被证明至少是部分“可行”的技术路径,如果希望减...

一个新的“贾维斯”即将落地国内头部手机厂商? 大家好,我是卖萌酱。 就在近日,2023OPPO开发者大会正式官宣发布自主训练的大模型AndesGPT+全新小布智能助手,算是正式预告国内头部一线手机厂商已经几乎全部完成大模型+终端的布局。 其实早在今年五月份,卖萌酱就曾经在推文里预言:“智能手机之后下一个计算机革命带给我们的,很有可能是一个贾维斯式的AI助手”。而时间来到半年之后,大模型界可谓腥风血雨,卷完参数卷榜单,卷完榜单卷应用。但是“用?”,“怎么用?”,“容不容易用?”,“好不好用?”似乎在业界一直都是一个“未解之谜”。 而在OPPO这场开发者大会上,主打“你的专属AI伙伴”的全...

作者|谢年年、python 大模型的幻觉问题一直是一个亟待解决的挑战。由于大模型的训练语料来源广泛,且都是未经筛选的现实世界文本,预训练的目标也仅在于预测下一个单词,并未对生成内容的真实性进行建模和验证,这导致了大模型幻觉问题的频繁出现。 为了增强模型事实准确性和可验证性,一种可行的方法是在大模型生成响应的同时,提供相关证据来支撑其答案。这一研究方向称为归因(Attribution),即为大模型生成的答案追根溯源。通过归因,可帮助用户查看答案可能的来源,从而增强模型的可解释性,有利于用户评估答案的可靠性。 最近,哈尔滨工业大学团队对开放域生成系统中的归因机制进行了全面的回顾,深入探讨了...

最近GPT-4被人发现了具有“福尔摩斯”一样的能力! 可以仅仅通过帖子内容来推测出用户的隐私! 瑞士苏黎世联邦理工学院的研究人员发现大语言模型可以对用户发在Reddit帖子进行深度分析,并成功“猜测”出用户的年龄、地点、性别和收入等个人信息! 论文题目:《Beyondmemorization:Violatingprivacyviainferencewithlargelanguagemodels》 论文链接:https://arxiv.org/pdf/2310.07298.pdf “奶茶”我对此非常好奇,LLM是不是真的具备这种能力? 我试图用一些地理和方言的暗号来让GPT猜测我的信息: ...

作者|张雨霏、王二狗 Runway是AI生成视频赛道的绝对霸主吗? 不一定!就在这两天天,Pika在推特上官宣——Pika1.0即将来袭! 网友看到后都直呼Amazing🤩!Unexpected!🔥 还有网友表示未来已来! pika1.0宣称仅仅不到一分钟就可以生成单个镜头的视频动画! 在视频中,pika还预告了pikabeta2.0的到来! 看来,未来的AI生成动画霸主终将有pika一席! pika之前最吸引用户的一点就是“免费可用”! 只需一个“关键描述性词语”,剩下的创意工作统统交给pika即可: 之前,PikaLabs也上线了“图像加提示生成视频”功能:上传一张图片,...

作者|付奶茶、王二狗最近,华盛顿邮报的一篇报道引起了“奶茶”我的关注! 报道中提到AI图像生成器已经开始暴露出它们学到的偏见。比如将非洲人刻板地视为原始,将领导者默认为男性,将囚犯一般视为黑人。 为了探究真相! “奶茶”我用StableDiffusion试着生成了一些图片: 相信大家都发现了! StableDiffusion生成的四张科学家照片全都是西方白人男性! 而生成的做家务的人物形象全部都是女性! 以及“奶茶”我最关心的下面这个💰💰问题:生成的结果也都是西方白人男性! 还有下面👇🏻这个非常过分的偏见! 图像生成器的有色眼镜 关于图像生成器带有偏见的问题,华盛顿邮报的记...

整理|王二狗中国大陆发第一篇计算机顶会的人都怎么样了?相信AI从业者对这个话题都会非常感兴趣,本文对知乎上各位大佬的信息做一个整理,分享给大家。 注:信息由知乎网友整理,不保证100%准确,欢迎大家帮忙指正。 GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可)[http://hujiaoai.cn](http://hujiaoai.cnm) ACL第一人:黄昌宁&赵军 论文标题: AQuasi-DependencyModelforStructuralAnalysisofChineseBaseNPs  论文链接: https://aclantholo...

作者|智商掉了一地、ZenMoore试想一下,在未来某个清晨,你坐在充满科技感的餐厅中,厨师和服务员已被智能机器取而代之,仅用佩戴一个能够解读大脑信号的设备,就能让机器人厨师根据你所想进行配菜、煮饭。 也许上一次聊起这个场景,还是在科幻电影或科幻小说中。但目前有研究团队将这一畅想联系生活,通过实验初步呈现了这幻想中的场景,也许在未来某一天,这样的科幻场景会出现在我们每个人的生活中。 在本篇文章中,研究者提出了神经信号操作智能机器人(NOIR),这是一个通用的大脑-机器人接口(BRI)系统,使人类可以通过大脑信号来命令机器人执行日常活动。通过这个接口,人们可以使用非侵入性脑电图(EEG)技...

 作者|谢年年、ZenMoore 大模型虽好,但却存在着一个恼人的问题:大模型回答得好不好,取决于我们问题问得怎么样。一个好的、详细的问题往往可以产生惊人的效果... 所以...ChatGPT问世之后,最火的书可能不是《ChatGPT技术原理》,而是《提示工程(PromptEngineering)指南》(如何让ChatGPT更能听懂你的问题)。 一时间,全球人民都捧起了这本“咒语”教程,开始背诵各种各样的“施咒”技巧,比如“Let'stakeabreath...”,比如“Youaremygrandma...”,比如... 但是够了!真正的人工智能是不需要解释的,你解释得越多,智能...

作者|王二狗 马斯克旗下公司xAI的第一款AI模型曝光! 名为:Grōk ,有望成为ChatGPT最强竞品! Grōk是什么意思呢?二狗我问了一下GPT-4: GrōkAI曝光12项功能 这次Grōk模型都曝光了什么内容呢?推特热心网友“小互”帮忙做了一个总结: 1.超长prompt(SuperPrompt):GrōkAI能够处理长达25,000个字符的提示,这意味着它可以理解和回应非常长的查询和指令。 有网友表示已经率先进行了内测: 2.支持个性化设置: 用户可以根据个人喜好设置AI的语气,比如选择更加“辛辣”或幽默的回答风格。 这一点马斯克亲自为其“带货”,向其提...

 作者|谢年年、王二狗 有了ChatGPT、GPT4之后,我们的工作学习效率得到大大提升(特别在凑字数方面୧(๑•̀◡•́๑)૭)。 作为一个工具,有人觉得好用,自然也有人觉得难用。 要把大模型用得6,必须得研究一下prompt使用技巧,但有时候绞尽脑汁想的prompt却无法获得理想的输出结果。一个好的prompt的重要性不言而喻,怪不得Prompt工程师这个新兴职业的年薪已经达到了二三十万美元。 但对于大部分公司来说,prompt工程师是请不起的,怎么办呢? 这里有一个省钱小技巧,让你从小白秒变大佬级Prompt工程师! 加州大学团队提出了可以自动优化Prompt的框架——Pr...

多模态交互的一个新兴的实现方式是工具增强语言模型,这些模型将大型语言模型(LLM)作为主要控制器,并将具有不同功能的工具作为插件进行整合。这有助于解决各种多模态任务,并为多模态交互中的创新应用打开了大门。 尽管LLM的性能令人瞩目,但由于用户提示的歧义、工具选择和参数化的不准确性以及工具调度的低效性,它们仍然面临工具调用的困难。目前一些方法基于的假设是每个子任务最多只有一个前置任务,这对于现实世界的应用来说不够,特别是对于通常需要多个输入的多模态任务。 为了克服这些挑战,这篇文章主要探讨了一种新颖框架ControlLLM,该框架使LLM能利用多模态工具来解决复杂的现实世界任务。Control...

作者|谢年年 最近,多篇文章《GPT-4的推理能力非常有限,有两篇论文为证》、《DeepMind:无法自我纠正推理,除非提前得知正确答案》指出大模型在推理任务中似乎没有自我改进的能力。即在无任何外部反馈的情况下无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正确答案。 大模型研究测试传送门 那么反过来,如果告诉模型错在哪儿,它能改正吗?另外,对于有唯一答案的题目来说,正确答案只有一个,错误答案可是千千万,能不能指出具体犯错的某一步对于模型改进来说至关重要。 加利福尼亚大学团队提出了一种名为多方面反馈(Multi-AspectFeedback)的迭代改进框架。该框架...

 作者|付奶茶、王二狗 最近多模态大模型的研究取得了巨大的进展。然而,这些模型在生成时存在着文本与图像不一致的问题,这个问题就是一直困扰研究者们的“幻觉难题”。 ▲给定一幅图像,MLLM会输出的回应,包括了物体层面和属性层面的幻觉。 为了缓解这个问题,中科大开发了一种名为Woodpecker(啄木鸟)的新方法。这个方法可以从生成的文本中挑选出幻觉并进行纠正。具体来说,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。 一句话总结就是:哪里出现问题就啄哪里~ ▲给定MLLM的一个回应,Woodpecker会校正被幻觉的部分并整合基...

作者|付奶茶、ZenMoore 你是否好奇大型语言模型(LLMs)在面对未知新知识时会有怎样的表现呢?或者你想知道我们如何让这些大模型了解新知识呢? 让我们一起探索北京大学王选计算机研究所的研究工作。在这项研究中,他们采用了一种创新的方法,通过修改现有实体的属性和关系,快速生成全新的知识(保证是大模型没见过的)。这种方法旨在提升大型语言模型在新知识理解、区分和关联等方面的能力。这项工作的目标是让LLMs更好地应对新知识,使它们能够在新信息面前表现得更加智能和灵活。 论文标题:ALCUNA:LargeLanguageModelsMeetNewKnowledge 论文链接:https://ar...

关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~