语言模型文献
整理语言模型相关文献
语言模型一般指用来衡量一句话符合语言习惯的概率,目前主流的是采用大规模数据参与训练的预训练模型BERT等
1.《INTRINSIC DIMENSIONALITY EXPLAINS THE EFFEC- TIVENESS OF LANGUAGE MODEL FINE-TUNING》
Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta
作者这篇论文是基于《MEASURING THE INTRINSIC DIMENSION OF OBJECTIVE LANDSCAPES》
作者试图解释为什么目前主流的fine-tuned可以生效,作者认为可以通过 intrinsic dimension (本征维度)来解释,作者研究发现常见的预训练模型都有很低的 intrinsic dimension 这意味着可以通过很小的维度参数重载实现和全参数fine-tuned一样的效果。
作者在文章一开始提出了为什么预训练模型可以只用简单的梯度下降(relative vanilla gradient descent)就可以在小型数据集上经过微调起作用。作者认为可以通过对intrinsic dimension 的研究来寻找这个问题的答案,intrinsic dimension 代表了为了解决目标函数所定义的问题所需的最小纬度。可以通过测量本征纬度知道需要多少自由参数来实现和fine-tuned一样的效果
intrinsic dimension
intrinsic dimension 被定义为目标函数达到满意的结果所需的最小参数数量(Li et al. 2018)
然而根据定义计算目标函数的 intrinsic dimension 是十分困难的,因此作者采用了启发式计算方法来计算其上限
定义 \(\theta^D=[\theta_0,\theta_1,\dots,\theta_m]\)是一组描述模型\(f(\cdot,\theta)\)维度为\(D\)的参数,在训练的时候不是直接使用全参数\(\theta^D\)去更新而是通过子空间去更新,再将更新的参数映射回\(D\)维度,其过程如下面公式所描述的: \[ \theta^D=\theta^D_0+P(\theta^d) \]
其中\(P(\cdot)\)是一个映射负责从低维\(d\)映射到高维度\(D\)当在低维度训练达到期望的时候称维度\(d\)为该模型的 intrinsic dimension
作者在这里使用的是 Fastfood transform 变换(Le et al.2013) \[ \theta^D=\theta^D_0+\theta^dM \\M=HG\Pi HB \] 其中\(H\) 是Hadamard 矩阵,\(G\)是随机正态分布的对角矩阵,\(B\)是对角线元素为\(\pm1\)的随机等概率对角矩阵,\(\Pi\)是随机置换矩阵