前言   主要进行Qwen模型架构讲解。 1.Qwen整体介绍   Qwen的整体架构与Llama2类似,如下图所示: tokenizer将文本转为词表里面的数值。 数值经过embedding得到一一对应的向量。 attention_mask是用来看见左边、右边,双向等等来设定。 各类下游任务,Casual,seqcls等,基本都是基础模型model后面接对应的Linear层,还有损失函数不一样。 2.学习记录   在本次课程中,我深入学习了Transformer和Qwen2这两种先进的算法原理,并通过实践掌握了它们的代码实现流程。通过对相关源码的细致研读,我领悟到了Transforme...

  xGKadlD5E5vN   7小时前   9   0   0 大模型
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~