Hiroki Naganuma

List of Papers

Algorithms

  1. LAMB: Layer Adaptation applied to AdamW
  2. LARS: Layer Adaptation applied to SGD-M
  3. LANS: Nesterov’s momentum into LAMB

Adaptive Batch Sizes

  1. Adaptive Sampling Strategies for Stochastic Optimization: Statistical tests that can help determine when to increase batch size
  2. An Empirical Model of Large-Batch Training: This work discusses gradient noise scale, critical batch size and how to compute it in detail
  3. AdaAdaGrad (Adaptive Batch Size Schemes for Adaptive Gradient Methods): same as #4 focusing more on empirical study using Vision and Language Models

Online Evolutionary Batch Size Orchestration for Scheduling Deep Learning Workloads in GPU Clusters

LBT and Hyper-Parameter Tuning

  1. A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes: Argues against customized LBT optimizers viewing HP tuning as a means to make LBT work
  2. Don’t increase batch size decrease LR

Survey

  1. Large-Scale Deep Learning Optimizations: A Comprehensive Survey: Recommend reading Section 4 and 5 for a summary of LBT approaches and challenges
  2. Mustafa et al. 2018-11-07-Large-Batch-Training-Mustafa.pdf
  3. Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Re-visiting norm choices for LBT metrics

  1. The Geometry of Sign Gradient Descent: Does viewing gradient in terms of other norms bring out the LBT training behavior better?

  2. AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods

    Summary
    
    
    
    この論文は、深層学習における最適化手法の重要なハイパーパラメータである「バッチサイズ」を、訓練中に動的に調整する新しい手法ADADAGRADとその派生版ADADAGRAD-NORMを提案するものです。
    
    1. 背景と問題意識
    大規模バッチ学習の課題: 近年の深層学習では、GPUなどのハードウェア性能向上に伴い、大規模なバッチサイズでの訓練が主流です。これにより訓練は高速化しますが、一方で小さいバッチサイズで訓練したモデルに比べて汎化性能が低下する「汎化ギャップ」という問題が知られています。
    既存研究の限界: バッチサイズを動的に調整する研究はこれまでにも存在しましたが、主に以下のような限界がありました。
    多くの手法が、標準的な確率的勾配降下法(SGD)を対象としており、深層学習で広く利用されているADAGRADやADAMのような適応的勾配法(学習率を動的に調整する手法)との組み合わせは十分に研究されていませんでした。
    理論的な収束保証がなかったり、厳しい仮定の下でしか証明されていなかったりなど、理論と実践の間に乖離がありました。
    
    2. 提案手法と新規性
    本研究は、上記の課題を解決するために、適応的勾配法と親和性の高い適応的バッチサイズ手法を提案します。
    手法の核心:
    既存の適応的サンプリング研究で提案された「Norm Test」や「Inner Product Test」といった考え方を、ADAGRADやその派生版であるADAGRAD-NORMと統合しました。
    これらのテストは、現在のバッチから計算された勾配の「ノイズの大きさ(分散)」を評価し、ノイズが大きすぎると判断された場合にバッチサイズを自動的に増加させます。
    これにより、訓練の初期段階では小さいバッチサイズで探索的に学習を進めて汎化性能を高め、訓練が進むにつれて大きいバッチサイズに移行して安定かつ高速に収束させることを目指します。
    これまでの研究との違い・新規性:
    適応的勾配法への拡張: これまでSGD向けに開発されてきた適応的バッチサイズ手法を、初めてADAGRADのような適応的勾配法向けに拡張し、その理論的正当性を示した点に最大の新規性があります。
    理論的保証: 提案手法が、滑らかな非凸最適化問題において、高い確率で停留点に収束することを数学的に証明しました。これにより、手法の信頼性を理論的に裏付けています。
    
    3. 貢献の実証方法
    本論文では、提案手法の有効性を「理論」と「実験」の両面から実証しています。
    理論的貢献の実証:
    収束性の証明: 提案手法(ADADAGRAD-NORM)が、K回のイテレーションでO(1/K)という収束率を高い確率で達成することを証明しました。これは、既存のSGDベースの手法と同等の強力な保証です。
    仮定の緩和: 従来の多くの研究で用いられる「Lipschitz平滑性」という仮定を、より現実的な「一般化平滑性」の条件に緩和した上でも、収束性を証明しました。これにより、より広いクラスの問題に対して理論が適用可能であることを示しています。
    座標ごとの適応: ADAGRADの座標ごとに学習率を調整する特性に合わせて、座標ごとのNorm Testを導入し、その場合でも同様の収束保証が得られることを示しました。
    実験的貢献の実証:
    画像分類タスクでの評価: MNISTおよびCIFAR-10データセットを用いた画像分類タスクで、提案手法の性能を評価しました。
    性能比較: 提案手法を、固定バッチサイズのSGDやADAGRAD、そしてSGDベースの適応的バッチサイズ手法(ADASGD)と比較しました。
    結果: 実験の結果、提案手法は以下の点で優位性を示しました。
    汎化ギャップの緩和: 大規模な固定バッチサイズを用いた場合に比べて、高い検証精度(汎化性能)を達成しました。
    訓練効率の向上: 訓練が進むにつれてバッチサイズを大きくすることで、GPUリソースを有効活用し、少ないステップ数で効率的に学習を完了させることができました。
    自動化: 学習率のスケジューリングなどを細かく調整することなく、訓練効率と汎化性能のバランスを自動で取れることを実証しました。
    
    4. 結論
    本研究は、適応的勾配法のための適応的バッチサイズ手法「ADADAGRAD」を提案し、その理論的な収束保証と実験的な有効性を初めて示しました。これにより、大規模モデルの訓練におけるハイパーパラメータ調整の手間を削減し、訓練効率と汎化性能を両立させる新たな道筋を拓く貢献をしました。
    
    
    

SDEs

SignSGD

Templates

Summary