您的关注是对我最大的支持👇
思维链(CoT)提示是一种最近开发的提示方法,鼓励LLM解释其推理过程。下面的图像1显示了一些示范性标准提示(左)与思维链提示(右)的对比。
CoT的主要思想是通过向LLM展示一些示范性标本,其中在示范性标本中解释了推理过程,LLM在回答提示时也会显示出推理过程。这种推理的解释通常会导致更准确的结果。
示例
这里有一些演示。第一个示例展示了GPT-3(davinci-003)无法解决一个简单的单词问题。第二个示例展示了GPT-3(davinci-003)通过使用CoT提示成功解决了相同的问题。
不正确提示词:
哪种方式更快到达工作地点?
选项1:乘坐1000分钟的公交车,然后坐半小时的火车,最后骑自行车10分钟。
选项2:乘坐800分钟的公交车,然后坐一小时的火车,最后骑自行车30分钟。
AI返回结果:
选项1是到达工作地点更快的方式。
选项1是到达工作地点更快的方式。
正确提示词:
哪种方式更快到家?
选项1:乘坐10分钟的公交车,然后坐40分钟的公交车,最后坐火车10分钟。
选项2:乘坐90分钟的火车,然后骑自行车45分钟,最后坐公交车10分钟。
选项1将花费10+40+10 = 60分钟。
选项2将花费90+45+10=145分钟。
由于选项1花费了60分钟,而选项2花费了145分钟,因此选项1更快。
哪种方式更快到达工作地点?
选项1:乘坐1000分钟的公交车,然后坐半小时的火车,最后骑自行车10分钟。
选项2:乘坐800分钟的公交车,然后坐一小时的火车,最后骑自行车30分钟。
AI返回结果:
选项1将花费1000+30+10 = 1040分钟。
选项2将花费800+60+30 = 890分钟。
由于选项2花费了890分钟,而选项1花费了1040分钟,因此选项2更快。
结果 CoT已被证明在改进算术、常识和符号推理等任务的结果上非常有效。特别是,受提示的PaLM 540B2在GSM8K3上取得了57%的解决率准确性(在当时是SOTA)。局限性 根据韦伟等人的说法,“CoT只在与∼100B参数的模型一起使用时才能获得性能提升”。较小的模型写出了不合逻辑的思维链,导致准确性不如标准提示。通常情况下,模型会在与模型大小成比例的方式下获得CoT提示的性能提升。
明日预告《零点思维链-AI基础系列文章第28篇》