ChatGPT-深度思考(1)
  QHt7QJyNQUoA 2023年11月02日 25 0

1、总体看法 1. 从人工智能发展角度看,这是认知智能发展的一个重要里程碑,其意义要高于7年前的AlphaGo。 AlphaGo是在人类智慧高强度体现的领域(围棋),机器战胜了人类,基于数据和算法,它刷新了普通大众对人工智能技术的看法,但是其本身并不能广泛应用,普通大众也难以与其直接接触。 ChatGPT则完全不同,它是在人类三岁小孩就逐步形成的语言智能方面有了重大突破。 过去,在人工智能领域,在人比较难做的事情上,比如数学定理证明、下象棋,机器表现很好;但是在人容易做到的事情上,比如说话,常识推理,机器表现反而很差,这些人类基本的智能对机器来说很难,是人工智能最难啃的硬骨头。 这次的ChatGPT是在这方面有了一定的突破,因为是说话,不是下围棋,所以普通大众都可以成为ChatGPT的用户,也就是说ChatGPT天生具有广泛的用户基础,再加上其令人惊艳的表现,这些使得其发布后 用户量迅速增长,火出圈! 2. ChatGPT不仅仅是聊天,如果把它限制为聊天,那就显著降低了它的价值和意义。 OpenAI根据自己同类产品API的调用分析,除了纯聊天之外,用户还把它用于文本生成、开放域问答、头脑风暴、改写、摘要、分类等。 ChatGPT是对话式AI迈向真正实现的第一步,从互联网层面看,它可以作为信息入口,与搜索引擎相结合;从文案办公方面看,它可以与办公软件相结合,增强人的办公效率;从人机交互角度看,它体现的是一种基于语言的自然交互方式,可以与元宇宙、数字人结合。 除此之外,它还可以应用于机器人,充当机器人大脑。如果从人类信息发展的历史尺度上看,它是在人与机器之间的信息接口上有了很大突破。 3. ChatGPT是近几年技术快速发展和不断更新迭代、多种技术叠加在一起形成质变的产物,是自然语言处理领域近年来研究的结晶。 其底层的技术,包括Transformer、自监督学习、微调、人类反馈强化学习、AI对齐等,在自然语言处理和人工智能领域都有广泛的研究和应用。 但是ChatGPT将这些技术巧妙地结合在一起,有效规避了大模型的未对齐行为,利用了大模型规模带来的智能突现能力,增强了大模型的指令学习能力和用户意图捕获能力,解锁了大模型的泛化能力,这些能力叠加在一起形成了ChatGPT的质变效果。 4. ChatGPT探索了一种使机器获得语言智能的有效技术路线,但这个方向仍然需要在科学和技术上进一步探索。 技术上,其他的技术路线是否可以达到同样效果? 近几年,大模型研究技术架构上出现了同质化趋势,Transformer独步天下,GPT路线占据绝对统治地位,这对未来技术创新并不是好事; 科学上,ChatGPT一类技术体现了技术先行科学滞后的典型特点,为什么大模型有突现能力?对齐之后的泛化能力是如何形成的?语境学习的机制是什么? 这些问题目前都没有明确的答案,科学回答这些问题,显然可以进一步推动技术发展。 5. ChatGPT技术虽然取得了重要进展,但仍然面临诸多挑战。 第一,虽然采用了人类反馈强化学习(RLHF)AI对齐技术,但是生成的内容仍然存在未对齐行为,如不符合常识,存在偏见、歧视等内容,信息真实性有时存疑(即“一本正经地胡说八道”),未来在AI对齐技术上需要进一步研究和突破; 第二,以ChatGPT为代表的大模型技术通常被具有丰富算力和数据资源的企业垄断,且不开源,不利于大模型技术研究和突破; 第三,目前大模型的算力消耗非常庞大,要实现大规模真实场景应用,模型轻量化技术需要进一步探索; 第四,要提升模型的可解释性,要研制相关技术使得ChatGPT为代表的大模型技术可以自我追溯信息源头,增强可信性; 第五,ChatGPT背后还存在很多科学问题未有明确答案,如大模型突现能力是如何形成的?语境学习机制是什么?AI对齐为什么使大模型具有指令泛化能力?这些科学问题的探索将会推动未来技术更好地发展。 2、ChatGPT技术发展 1. GPT-3之前的大模型技术路线和架构是多种多样的,以BERT为代表的Encoder大模型、以GPT为代表的Decoder大模型、以T5为代表的Encoder-Decoder大模型等,但是从GPT-3之后,大模型技术路线趋于单一化。 包括Google的PaLM、LaMDA,Meta AI的Galactica、OPT,Nvidia/Microsoft的Megatron-Turing,AI21 Labs的Jurassic-1,DeepMind的Gopher、Chinchilla,Hugging Face的BLOOM,国内华为的Pangu-a,浪潮的Yuan-1.0等千亿级参数规模的大模型,基本上都是采用GPT-3的Decoder架构,可能是因为训练成本太高,采用其他未验证的架构,试错成本高,跟随GPT-3成功路线进行微创新是最好的选择。 2. GPT-3 2020年3月发布后,国内外研究机构相继快速跟进,上述提到的大模型基本上都是在2021-2022期间研发出来,也就是说从技术路线上总体滞后GPT-3 1-2年时间。 3. GPT-3文本生成结果比之前的模型有大幅度提升,但同时也存在很多问题,如各种偏见、歧视、潜在的滥用等。 鉴于这些问题,大模型研究开始逐步重视AI对齐研究,即使得大模型输出结果与人的意图、价值观等对齐。 一些瞄准通用人工智能的企业,如OpenAI、DeepMind纷纷成立专门的AI Alignment研究团队,招兵买马,将AI Alignment视为通向AGI之路必须要解决的问题。 来自这两个团队研究人员,甚至成立了一家非盈利研究机构:ARC(对齐研究中心)。 5. 基于大模型的对话agents纷纷在2021-2022期间开始研制,包括Google的 LaMDA、DeepMind的Sparrow、Anthropic的Claude等,这些dialogue agents无一例外都进行了AI对齐。 5. RLHF并不是唯一的AI对齐技术,面向language agents的对齐有很多方法、很多策略,需要更多探索。 6.模型编辑、稀疏模型、半参数检索模型,这些技术,在大模型发展中同样值得深入研究。大模型编码的知识不应该是一成不变的,将知识全部编码到模型链接和神经元中,可能也并不是最优选择。 7. 除了AI对齐和大模型赋能ChatGPT之外,OpenAI在长文档摘要、自然语言描述转为代码等方面也做了很多工作,这些工作同样增强了ChatGPT相应能力。

此外更多更详细的教程、AIGC导航、AIGC辅助工具、AIGC赚钱案例等更多有趣的玩法等你点击~~~

具体获取方式在公众号【程序员了不起】,回复【eee996】获得。


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
QHt7QJyNQUoA