摩杜云开发者社区-摩杜云

前端开发

计算复杂性标签描述

文章 | 为什么大模型计算的时候只会利用KVcache来存放KV矩阵，Q矩阵每次不一样？

大型神经网络计算中使用KVCache（Key-Value缓存）的概念主要涉及于注意力机制（self-attentionmechanism），通常用于Transformer架构中。KVCache的目的是为了减少计算复杂性，提高效率，并节省计算资源。这涉及到Transformer的推理（inference）阶段，而不是训练（training）阶段。在Transformer中，自注意力机制的操作包括Q（Query）、K（Key）和V（Value）的计算。这三者用于计算注意力分布以权衡不同位置的输入信息。在推理阶段，Q矩阵通常是由模型输入计算得出的，因此每次输入都不同，而K和V矩阵是通过编码器部分...

FmrvKioKNQio 2023年11月13日 27 0 0 1024程序员节神经网络计算复杂性计算复杂性神经网络 1024程序员节缓存缓存