主要为了测试模型增加Lora模块后,参数量和训练速度的变化情况。结论:正常情况下,增加Lora模块是会增加参数量的,因此前向传播和反向传播的时间也会增加。但是,在大语言模型训练的情况下,因为基础模型本身参数量非常大,Lora模块增加的参数量相对非常小。并且,基础模型不参与梯度更新,可以做模型量化,实际上是能减少模型训练时间和显存使用量的。以下是实验脚本和运行结果: 部分参考https://zhuanlan.zhihu.com/p/666000885importtime importtorch fromtorchimportnn frompeftimportLoraConfig,get_pef...

  NnaYPU9EV93V   13天前   25   0   0 大模型
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~