Schedule
直近の Schedule
[今月](https://hiroki11x.github.io/posts/diary/2023_11/)
```
- 直近の締め切り/予定
- ASAP IBM CoverLetter
- 11/22 NVIDIA 面接
- 11/22 ICLR Rebuttal End
- 11/31 Arxiv (SAM-Focal)
- 11/31 LinkedIn 返事
- 12/15 阪大 公募課題締め切り
- 1/? ICML x4 (F2 Metric? / SAM-Focal / SAM x Auto-Tuning)
- 1/? TMLR x1 (IRM Calibration)
- 2/? KDD x1 (Calibration CTR)
- 3/? TMLR x1 (TIC)
```
一日の流れ
- Cyberdyne のお世話になってる方々へのお土産送付準備
- NVIDIA 面接
- INTERVIEW GUIDE
- Misc
- 時期次第
- あんまり研究って感じではないかもな
- Explore the Best GNN model
- Reproduce Results
- Knowledge
- NVIDIA Grace Hopper Superchips
- GNN
- メールで質問送った
- RLOpt Meeting
- IRM variant
- 吉田くん・多田くんとやることが大体固まった
- 目黒に移動
- バスで作業
- Misc
- 眼精疲労がひどいので病院今夜予約した
- Huawei は 12ヶ月の契約社員っぽいな、なんて返事するかは、Ioannis と話してから
- Ioannis への推薦状の Material を作って共有
- 目黒でランチ
- AWS で作業
- 読み物
- Misc
- LinkedIn でリクルーターに返事
- 研究マネジメント
- ToDo 整理
- Curvature / SAM AutoTune / (NER) に Focus する
- Notion で整理 ref
- 締め切り整理
- Funding
- 論文関連
- NACCL 12/15
- IJCNN 1/15 or UAI 2/?
- ICML 2/1
- KDD 2/2
- Apply
- Flatness x Domaingeneralization 系の研究まとめる
-
twitter
- [1] Fairness and Accuracy under Domain Generalization
- paper
- twitter
- Domain generalization × fairness。公平性と期待損失の理論バウンドを証明。公平性と精度が完全に transferする表現学習の十分条件を導出。これらに基づき公平な学習アルゴリズムを提案し実験で効果を確認。
- [2] SWAD: Domain Generalization by Seeking Flat Minima
- paper
- twitter
- Flat minimaはドメイン汎化gapを小さくすることを証明。重みsamplingでsharp minimaに落ちるのを避ける手法SWADを提案。SOTA。また、Flatnessを考慮できないMixup, Cutmix等はOOD汎化しない事を実験で示した。
- [3] Sufficient Invariant Learning for Distribution Shift
- paper
- twitter
- ドメイン不変な特徴の中でも特に重要な特徴を抜き出す+Flatnessを強めることでドメイン汎化を狙う研究。ドメイン毎のlossの重みづけとSAMの亜種とを併用したoptimizerを提案して性能とflatnessを改善する事を確認。
- [4] Sharpness-Aware Gradient Matching for Domain Generalization
- paper
- twitter
- Flatな解だとドメイン汎化に効くという知見を生かしたoptimizerを提案。SAMだと元のlossと摂動したlossの勾配方向が大きく異なると勾配が打ち消しあうので、この2つの差分も勾配に入れて差分を小さくする方向に進み収束を良くするというアイデア。SOTA。
- Sharpness 関連
- [5] Sharpness Minimization Algorithms Do Not Only Minimize Sharpness To Achieve Better Generalization
- paper
- twitter
- Two-layer ReLU netでflatnessの果たす役割について三つのシナリオを証明。①flatだと汎化するケース②flatでも汎化しないケース③最もflatになっても汎化しないモデルだが sharpness minimization algorithmが依然として汎化する(!)ケース。データとモデル構造依存。
- [6] Penalizing Gradient Norm for Efficiently Improving Generalization in Deep Learning
- paper
- twitter
- slide
- 第1層の重みと入力との関係に着目し、flat minimaが入力に対する勾配を正則化する(!)ことを証明。flat minimaが汎化する理由を入力の勾配と絡めて示した素晴らしい論文。
- Flat ⇒ Input smoothness ⇒ Generalize の二段階を両方証明した。
- [7] SAM がなんぜうまくいくか?
- Hossein Mobahi: SAM の提案した Google Research の人の解説
- youtube
- twitter
- 平坦な極小点、2次最適化、重みノイズ、勾配ノルムペナルティ、活性化関数などの間のある謎と説明のつながりについて説明しています。
- 損失地形の幾何学が一般化に影響を与えると考えられています。平坦な極小点は機械学習の長い歴史があり、理論的にも一般化能力と関連しています。
- SAMオプティマイザは勾配ノルムペナルティと密接な関係があります。しかし後者は実践でうまくいかないことが多いのです。SAMは勾配にストップグラデーションをかけているのに対し、勾配ペナルティではヘッセ行列が更新則に現れます。
- ヘッセ行列にはガウスニュートン項と非線形モデリング誤差の2つの項があります。後者は活性化関数の2次微分を含み、ReLUではほぼ0に崩れます。GELUを使うとこれらの情報が勾配降下法によく伝わり、パフォーマンスが向上します。
- 要約すると、SAMがうまくいくのはヘッセ行列を避けていることと、GELUなどの活性化関数を使うことで2次情報が最適化に生かされることが大きな要因だと考えられます。
- CVPR の submission に関して
-
ICLR 関連で Charles に連絡
- 渋谷の眼精疲労のクリニックに行った
-
海鮮丼食べた
- OOD に関する研究をまとめる
- Representation Learning
- Gradient Control
所感
TODO
IceBox
Reference
Deadline
年間スケジュール
```
- NACCL 12/15
- NER
- IJCNN 1/15 or UAI 2/?
- IRM Variant
- ICML 2/1
- Curvature
- SAM Autotune
- KDD 2/2
- Logit Control
```