前言 主要进行Qwen模型架构讲解。 1.Qwen整体介绍 Qwen的整体架构与Llama2类似,如下图所示: tokenizer将文本转为词表里面的数值。 数值经过embedding得到一一对应的向量。 attention_mask是用来看见左边、右边,双向等等来设定。 各类下游任务,Casual,seqcls等,基本都是基础模型model后面接对应的Linear层,还有损失函数不一样。 2.学习记录 在本次课程中,我深入学习了Transformer和Qwen2这两种先进的算法原理,并通过实践掌握了它们的代码实现流程。通过对相关源码的细致研读,我领悟到了Transforme...