摩杜云开发者社区-摩杜云

Lora训练的参数和性能

主要为了测试模型增加Lora模块后，参数量和训练速度的变化情况。结论：正常情况下，增加Lora模块是会增加参数量的，因此前向传播和反向传播的时间也会增加。但是，在大语言模型训练的情况下，因为基础模型本身参数量非常大，Lora模块增加的参数量相对非常小。并且，基础模型不参与梯度更新，可以做模型量化，实际上是能减少模型训练时间和显存使用量的。以下是实验脚本和运行结果：部分参考https://zhuanlan.zhihu.com/p/666000885importtime importtorch fromtorchimportnn frompeftimportLoraConfig,get_pef...

NnaYPU9EV93V 13天前 25 0 0 大模型

关注更多

空空如也 ~ ~

粉丝更多

空空如也 ~ ~