摩杜云开发者社区-摩杜云

Datawhale X 李宏毅苹果书 AI夏令营 Task2笔记

Task2.1：《深度学习详解》3.3&4&5自适应学习率的概念和方法，包括AdaGrad、RMSProp和Adam等优化器。训练网络时的梯度和损失变化：训练网络时损失可能不再下降，但梯度范数不一定小，梯度可能在山谷壁间“震荡”，多数训练未到临界点就停止。不同学习率的影响：学习率过大或过小都会影响训练效果，过大步伐大无法滑到谷底，过小则难以靠近局部最小值。自适应学习率方法：包括AdaGrad能根每个参数的梯度大小自动调整学习率；RMSProp可动态调整同一参数不同时间的学习率；Adam是RMSprop加上动量，能自适应调整学习率。 AdaGrad:根据每个参数的梯度大...

adlOek59Tnxa 13天前 33 0 0 机器学习

Datawhale X 李宏毅苹果书 AI夏令营 Task3 批量归一化、卷积神经网络、自注意力机制原理笔记

神经网络训练不起来怎么办（5）：批次标准化（BatchNormalization）简介_哔哩哔哩_bilibili   Task3：《深度学习详解》3.7批量归一化产生不好训练的误差表面的原因：输入特征不同维度的值范围差距大可能导致误差表面不好训练，如输入值小对损失影响小，输入值大对损失影响大。特征归一化：包括Z值归一化等方法，可使不同维度有相同数值范围，制造较好误差表面，加速损失收敛和训练。深度学习中的归一化：对深度学习中的特征进行归一化，如对z做特征归一化，要放在激活函数之前。归一化时考虑批量数据，批量大小要足够大，批量归一化时还会加上β和γ作为网络参数来调整输出分布。批量归...

adlOek59Tnxa 13天前 25 0 0 机器学习

Datawhale X 李宏毅苹果书 AI夏令营 Task1.2 笔记

《深度学习详解》3.2节中关于批量和动量的主要内容总结：   批量的概念：在深度学习训练过程中，数据不是一次性全部用于计算梯度，而是被分成多个小批量（batch），每个批量包含一定数量的数据。每个批量的损失函数用于计算梯度并更新模型参数。批量大小对梯度下降法的影响：　　两种极端情况：　　　　批量梯度下降法（BatchGradientDescent,BGD）：使用全部数据作为批量，计算稳定但每次更新需要等待所有数据处理完毕，计算量大。　　　　随机梯度下降法（StochasticGradientDescent,SGD）：批量大小为1，每次只用一个数据点更新参数，引入了随机性，更新方向...

adlOek59Tnxa 21天前 28 0 0 机器学习