这一章我们聊聊指令微调,指令微调和前3章介绍的prompt有什么关系呢?哈哈只要你细品,你就会发现大家对prompt和instruction的定义存在些出入,部分认为instruction是prompt的子集,部分认为instruction是句子类型的prompt。 对比前三章介绍过的主流prompt范式,指令微调有如下特点 面向大模型:指令微调任务的核心是释放模型已有的指令理解能力(GPT3中首次提出),因此指令微调是针对大模型设计的,因为指令理解是大模型的涌现能力之一。而prompt部分是面向常规模型例如BERT 预训练:与其说是instructiontunning,更像是instruc...

  rYK3XVfHhGRB   2023年11月01日   63   0   0 AI综合

上一章我们介绍了不同的指令微调方案,这一章我们介绍如何降低指令数据集的人工标注成本!这样每个人都可以构建自己的专属指令集,哈哈当然我也在造数据集进行时 介绍两种方案SELFInstruct和AutomaticPromptEngineer,前者是基于多样的种子指令,利用大模型的上下文和指令理解能力,以及生成的多样性来Bootstrap生成更多样的指令样本,后者是prompt逆向工程,基于输入和输出,使用LLM来生成和挑选最优的prompt指令。 于是我把这两个方法强行组了CP,用APE把原始任务转化成种子指令,再用SELF去扩充,在医学和金融NLP任务上进行了尝试。也在huggingface上用...

  rYK3XVfHhGRB   2023年11月01日   88   0   0 AI综合

上一章介绍了如何基于APE+SELF自动化构建指令微调样本。这一章咱就把微调跑起来,主要介绍以Lora为首的低参数微调原理,环境配置,微调代码,以及大模型训练中显存和耗时优化的相关技术细节 标题这样写是因为上周突然收到了一周内上线一版chatbo的命令,原因无它领导们都刷到了《一个小时你也可以拥有ChatGPT》,《100美金训练ChatGPT》,《仅训练3小时超越ChatGPT》,《人人都可以拥有ChatGPT》。。。领导说人人都有了为啥我没有呀?!!真诚呼吁标题党们求手下留情,留人一命!于是这里我换个标题来Debuff!Debuff! 看到这里本文最重要的部分已经说完了,累了的小伙伴可以撤...

  rYK3XVfHhGRB   2023年11月01日   68   0   0 AI综合

前三章都围绕指令微调,这一章来唠唠RLHF。何为优秀的人工智能?抽象说是可以帮助人类解决问题的AI,也可以简化成3H原则:Helpful+Honesty+Harmless。面向以上1个或多个原则,RLHF只是其中一种对齐方案,把模型输出和人类偏好进行对齐。大体分成3个步骤 人类偏好数据的标注 基于标注数据训练奖励模型 基于奖励模型使用RL微调语言模型 以OpenAI为基础,本章会对比DeepMind,Anthropic在以上3个步骤上的异同,并尝试回答以下几个问题 RLHF究竟做了什么 偏好对齐用RL和SFT有什么差异 什么模型适合作为RL的起点 考虑篇幅已经超出了我自己的阅读耐心,R...

  rYK3XVfHhGRB   2023年11月01日   92   0   0 AI综合

这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入,注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模BigBird&Longformer&Reformer&Performer,不过以上方案无一例外都需要在训练阶段引入。针对当前大模型微调成本高的问题,更多研究放到如何在模型外部支持长文本输入。先讨论下为啥当前的大模型会在推理时存在输入长度的限制,主要有以下几点原因 Attention矩阵计算复杂度:在不引入稀疏注意力的条件下,Attention矩阵的内存和计算复杂度是\(O(序列长度^2)\)...

  rYK3XVfHhGRB   2023年11月01日   72   0   0 AI综合

终于写了一篇和系列标题沾边的博客,这一篇真的是解密prompt!我们会讨论下思维链(chain-of-Thought)提示词究竟要如何写,如何写的更高级。COT其实是Self-ASK,ReACT等利用大模型进行工具调用方案的底层逻辑,因此在Agent调用章节之前我们会有两章来讲思维链 先打预防针,COT当前的研究多少存在一些玄学成分,部分COT的研究使用的模型并非SOTA模型,以及相同的COT模板在不同模型之间可能不具备迁移性,且COT的效果和模型本身能力强相关,哈哈可以去围观COT小王子和Claude友商的Prompt决战]。本章只是为大家提供一些思维链设计的思路,以及给Agent调用做一些...

  rYK3XVfHhGRB   2023年11月01日   54   0   0 AI综合

前一章思维链基础和进阶玩法我们介绍了如何写Chain-of-thoughtPrompt来激活生成逐步推理,并提高模型解决复杂问题的能力,这一章我们追本溯源,讨论下COT的哪些元素是提升模型表现的核心? 要进行因果分析,需要把思维链中的不同元素拆解开来,然后通过控制变量实验,来研究不同元素对COT效果的影响。以下两篇论文的核心差异就在于:COT的变量拆解,以及控制变量的实验方式。 结合两篇论文的实验结论,可能导致思维链比常规推理拥有更高准确率的因素有 思维链的推理过程会重复问题中的核心实体,例如数字,人物,数字等 思维链正确逻辑推理顺序的引入 友情提示:以下论文的实验依赖反事实因果推断,这种...

  rYK3XVfHhGRB   2023年11月01日   58   0   0 AI综合

前两章,我们分别介绍了基于微调和prompt的工具调用方案,核心都是如何让大模型和工具进行交互,包括生成工具调用语句和处理工具调用请求。不过在实际应用中,想要设计一个可以落地的LLMAgent,需要更全面整体的系统设计。本章我们以搜索工具为例,介绍如何更好和搜索引擎进行交互的LLMAgent。 搜索Agent方案 为啥需要整体方案,直接调用搜索接口取Top1返回不成嘛?要是果真如此Simple&Naive,NewBing岂不是很容易复刻->.-> 我们先来看个例子,前一阵火爆全网的常温超导技术,如果想回答LK99哪些板块会涨,你会得到以下搜索答案 从以上的搜索结果不难发现...

  rYK3XVfHhGRB   2023年11月01日   58   0   0 AI综合
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~