Warm-up在Transformer中的作用
介绍Warm-up在Transformer中的作用
ICLR 2020
文章开头指出了Warm-up在Transformer结构中有十分重要的地位,Transformer的最终性能对设定的最大学习率和迭代次数的值都会非常敏感
作者发现其敏感性与Layer-Norm层的位置有密切联系,当Layer-Norm层在残差块中间时,靠近输出层部分的参数的梯度的期望将会很大。因此在没有Warm-up阶段时,直接对这些参数应用较大的学习率会导致模型优化不稳定
因此作者提出了Transformer的一种变体结构即Pre-LN,其如图(b)所示 ,在Pre-LN模型中Layer-Norm层被放到了模型的残差连接里面,在这种结构下可以不使用Warm-up方法

首先作者对不同优化器(Adam,SGD)进行了测试,在测试中可以看出,不使用Warm-up会导致最后性能较差,且Warm-up的步长\(T_{warmup}\)也是很重要的超参数,同样会影响最后的性能

在对比实验中同样可以发现,Warm-up不仅仅对Adam有效,也对SGD优化器有效