Hiroki Naganuma
隔離 Day3
生活
政府指定ホテル隔離最終日
今日の食事は結構おいしかった
三回目の検査でも陰性で、羽田へ移動、その後自己隔離場所へ移動
お寿司が美味しすぎて感動した
研究
GAN に関して実装を進める
OOD に関して WILDS データセットでの学習基盤構築, 佐藤先生、横田先生への返事 (+ ABCI GC 報告会の準備)
Scaling Lawに関して, Irina + Kartik とのミーティング準備
飯塚先生の論文
読む
Ioannis と
Adaptive vs 1st Order-Method
のミーティング準備
大まかなまとめ
Adam と SGD の比較、厳密には Full Batch での比較 (特に汎化性能)
問題設定として 2-LayerのCNN、2値分類、入力はFeatureとNoiseから構成される、Adam を SignSGDと捉えて解析(LRが十分小さい場合)
収束性: Adam の方が早い
訓練損失: Adam も GD も Train Loss 0 を達成できる
期待損失: Adam よりも GD の方が低い Test Loss を達成できる(特に Nonconvex の場合にOptimizerによる差が出る、 Convex の場合はあまり変わらない)
OOD 論文に関連する箇所のまとめ
Adam より GD の性能が良い問題設定は、Nonconvex に依存、学習のダイナミクスが違う(GD は Feature を学習するが、 Adam は Noise に Fitting する傾向がある)
Noise に Fit してもうまく行くケースとは何か?、、分布が変わらないようなケース??
Noise に Fit するとダメなケースとは? 大体全て、他のデータ使ってる以上 Noise での Fitting でうまくいかないのが自然
Adam が Correlation Shift で性能出てた話は、 Noise への Fitting で説明できそう
Adam と GD の期待損失の差がないような問題設定では、Convex に近い可能性がある
OOD のプロジェクトで Optimizer 差が出なかったやつは、この問題設定になってた可能性が高い、例えば Overparameterized, e.g. データセットのサイズが明らかに小さかったりするとありうる
その他
移動とかが多くてあんまり作業は進まなかった