摩杜云开发者社区-摩杜云

Html/CSS

attention 标签描述

文章 | 加速attention计算的工业标准：flash attention 1和2算法的原理及实现

transformers目前大火，但是对于长序列来说，计算很慢，而且很耗费显存。对于transformer中的selfattention计算来说，在时间复杂度上，对于每个位置，模型需要计算它与所有其他位置的相关性，这样的计算次数会随着序列长度的增加而呈二次增长。在空间复杂度上，selfattention需要存储一个矩阵来保存所有位置的相关性分数，这个矩阵的大小也会随着序列长度的增加而呈二次增长。因此，对于非常长的序列，这种二次复杂度会导致计算和内存消耗急剧增加，使得模型在处理这样的输入时会变得相对缓慢且需要大量内存。这也是为什么对于超长序列，可能需要采取一些策略，如切分成短序列进行处理，或者...

7nWIKmLggXAa 2023年11月02日 65 0 0 attention attention flashAttention flashAttention transformer transformer 算法分块分块算法