Hiroki Naganuma

Main Paper

1. Scaling Laws for Neural Language Models

Scaling Laws の最初の論文
Critical BS の論文 (An Empirical Model of Large-Batch Training) の著者と同じ
学習は Adam の改良版の Adafactor というのを使っていて、 Momentum 項には Half-Precision を使って学習
以下三つを示した
- (1): モデルサイズあげると　 Loss が下がる
- (2): データサイズ大きくすると　 Loss 下がる
- (3): 計算バジェットを大きくすると Loss 下がる

2. Scaling Vision Transformers

学習は Adam -> momentum SGD (Fine Tune)で学習
Vision でもちゃんと　 Scaling してる

3. Explaining Neural Scaling Laws

Overparameterized じゃなくても Scaling Law 成り立ってる (Data, Model Param をそれぞれ変化させる & Under Parameter, Over Param の掛け合わせ四種類の Regime で考える、実験は Full Batch Vanilla GD)

Reading List

Scaling Laws
- 「Transformer の性能はたった 3 つの変数のべき乗則に支配されている」
- Transformer (言語モデル) の性能はパラメータ数 N・データセットサイズ D・計算予算 C を変数としたシンプルなべき乗則 (Power Law)に従う
- 1750 億パラメータの GPT-3
- 同じ計算予算では最適なモデルサイズはすべてのドメインで共通
- 同じ計算予算では小さなモデルを収束するまで訓練するより，想定より大きいモデルを収束前に訓練をやめる方が性能が高いです Transformer に比べて LSTM は構造的なボトルネックを抱えるため，コンテキストが長くなると Scaling Law が適用されなくなります (おそらく CNN も), これなぜか丹羽さん・長瀬くんに聞きたい Scaling Laws for Neural Language Models (Jared Kaplan, Sam McCandlish et al., 2020-01-23)、この McCandlish さんは Critical BS の提唱者
言語モデルの Scaling Laws
- モデルのスケールに関係する 3 つの重要な要素は、モデルパラメータの数 (N)、データセットのサイズ (D)、および計算能力の量 (C) であり、深さと幅はトレーニングに強く影響しないことを発見した。
- 実際、非常に大きなモデルは、収束する前に最適なパフォーマンスを取得する。
- クリティカルバッチサイズは、損失の大きさに反比例する次の式で定義される。
- Adam が Optimize としては使われているっぽい？？
Extracting Training Data from Large Language Models
- GPT シリーズのような汎化性能の高いモデルでさえ訓練データを記憶してしまい、それが情報流出につながる
- GPT-2 に実際に攻撃をしかけ、最大 67%の精度で訓練データを抽出することに成功している
- 大きなモデルほど訓練データを記憶する能力が高く、昨今のモデルを巨大化させる風潮に一石を投じた重要な論文となっている
Scaling Laws for Neural Machine Translation
- 損失はクロスエントロピー
Attention and GNN
- GNN も結局 Self-Attention でしょ?となって Transformer に置き換わっていくのか、Self-Attention が結局グラフだから最終的に GNN に近くなっていくのか、気になるところ
Power-law scaling to assist with key challenges in artificial intelligence
- 深層学習アルゴリズムが臨界物理システムと漸近的に類似した振る舞いをすることを示しています。