Hiroki Naganuma

Survey for Writing a Paper

Shape（スケジュール形状）と Scale（基準学習率）の分離

The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training コサイン減衰など一般的なスケジュール形状と基準学習率の調整を分けて考察し、一定期間の一定学習率＋最後に減衰するシンプルな形状でも最先端スケジュールと同等の性能が得られることを示しています。このようにスケジュールの形状選択と初期学習率（Scale）のチューニングを分離する観点が重要であることを示しました
SGDR: Stochastic Gradient Descent with Warm Restarts ディープラーニングで広く使われるコサイン減衰スケジュールを提案した研究。固定のスケジュールは全てのタスクに最適とは限らず、タスクごとに基準 LR を含めた調整が必要になることも指摘されています。

Scale のみを最適化する研究（固定学習率のチューニング）

Random Search for Hyper-Parameter Optimization

ハイパーパラメータ最適化において、ランダムサーチがグリッドサーチより効率的であることを示した古典的研究です。学習率のような重要ハイパーパラメータを広範囲にランダムに探索することで、限られた試行回数でも良好な値を見つけられると報告（scale のみに着目）。

Practical Bayesian Optimization of Machine Learning Algorithms

ベイズ最適化を用いて機械学習アルゴリズムのハイパーパラメータ（学習率や正則化項など）を自動調整する手法を提案した先駆的研究。学習率を含むスカラーなハイパーパラメータ（Scale）の自動チューニングとして画期的。

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

大規模バッチ学習における学習率スケーリング、Facebook による ResNet 大規模学習の実践報告で、バッチサイズを大きくした際に基準学習率（Scale）の線形スケーリングを提案しました。これはスケジュール形状自体は従来通り（例: ウォームアップ＋定率減衰）に固定し、データ並列性に応じて基準 LR だけを調整する戦略です。

Shape を最適化している研究（スケジュール形状の最適化）

Gradient-based Hyperparameter Optimization through Reversible Learning

学習率スケジュール自体を微分可能な hyperparameter として最適化した初期の研究です。逆伝播で学習過程全体を微分することで、各エポックの学習率やモメンタムなど数千ものハイパーパラメータに対する勾配を計算し、これらを最適化することに成功。この手法では各更新ステップごとの学習率（形状）を自由にパラメータ化しており、まさにスケジュール形状そのものを直接最適化しています。ただし、計算上の制約が大きく現代の設定には向かず、SGD 歯科対応できない。

Forward and Reverse Gradient-Based Hyperparameter Optimization

“Gradient-based Hyperparameter Optimization through Reversible Learning” の改良？学習過程を一定のステップで区切りつつハイパー勾配（hypergradient）を近似計算し、スケジュール（Shape）の各時点の値を更新していく方法。

Understanding Short-Horizon Bias in Stochastic Meta-Optimization

記のようなトランケーション（学習過程を短い区間で区切ってハイパーパラメータ最適化すること）によるバイアスに着目した研究です。メタ最適化（超最適化）において、ごく短い将来の性能指標だけを基準に学習率を更新すると、長期的には非最適な形状になる可能性があることを示しました。これに対し、より長い視野でスケジュール形状を最適化する重要性と手法上の工夫を議論。

MARTHE: Scheduling the Learning Rate via Online Hypergradients

ハイパーグラディエント（超勾配）を用いたオンライン学習率スケジュール最適化アルゴリズムです。過去の学習軌跡から推定した擬似的な将来の誤差勾配を用い、安定した学習率更新を行う MARTHE という手法を提案。

これらの研究は素晴らしい視点を提供したものの、その探索によってバイアスが乗っている可能性が高いのと、多くのモダンなアーキテクチャや optimizer の変更などを含めた計算コストに対して難しいケースが考えられる

適応型・学習型の学習率スケジュール

No More Pesky Learning Rates

SGD の学習率を自動調整するアルゴリズムを提案した研究です。勾配の局所的なばらつきを利用して重みごとの学習率を動的に増減させ、手作業の調整を不要にしました。学習率そのものを学習する適応的手法の先駆けです。

Online Learning Rate Adaptation with Hypergradient Descent

ハイパーグラディエント降下法によって学習率をオンライン適応させるシンプルな手法を示した研究です。損失の学習率に関する勾配（hypergradient）を用いて、各パラメータ更新時に学習率をわずかに調整していきます。過去と現在の勾配情報のみで貪欲に学習率を更新するこの手法は、1980–90 年代のパラメータごとのステップサイズ適応手法（例：Sutton, 1981; Almeida & al., 1999）を包括するものであり、極めて計算効率が高いです。その一方で短期的な目的に最適化しすぎてしまう傾向もあり、長期的汎化性能とのトレードオフも議論。

Population Based Training of Neural Networks

学習率のスケーラー（scaler）のみを調節している。進化戦略に基づくオンラインなハイパーパラメータ最適化手法で、学習率を含むハイパーパラメータをトレーニングしながら適応させます。並列に動作するモデル集団の中で定期的に性能の低い個体のハイパーパラメータを高性能な個体から引き継ぎつつランダム摂動を加えることで、結果的に各個体が異なる学習率スケジュールを自動発見します。固定の最良ハイパーパラメータを探索するのではなく、トレーニング途中で変化する最適スケジュールを発見できる点が画期的で、画像認識や強化学習で従来より高速かつ高性能な学習を実現しました。

Neural Optimizer Search with Reinforcement Learning

強化学習を用いて最適な最適化アルゴリズム自体を設計する試みです。学習率やモメンタムなどの更新則を表現する計算グラフを RNN エージェントが生成し、メタ的にその性能（最終損失）を強化学習の報酬として最適化しました。これにより、人手設計の SGD 派生では得られないような学習率の時間変化パターンを含む新しい最適化手法を自動的に発見。

Learning to Learn by Gradient Descent by Gradient Descent

メタ学習（Learning to Learn）の草分けとなった研究で、最適化アルゴリズム（オプティマイザ）そのものをLSTMネットワークで学習しました。この手法では多数の訓練タスクをメタ学習することで、LSTMが各タスクの勾配情報から次のパラメータ更新量を直接出力します。これにより従来は手動で設定していた学習率のスケールやスケジュールもネットワーク内部にエンコードされて学習されます。結果として、人手による学習率チューニングを不要とし、タスク固有に最適化された更新則（暗黙のスケジュール適応）で高速な収束を達成しました。

Learned Optimizers that Scale and Generalize

上記Andrychowiczらの手法を発展させ、より複雑なネットワーク構造を持つ学習型オプティマイザを提案した研究です。複数のスケールでパラメータの勾配を捉える階層構造や訓練スケジュールを工夫し、より長いステップ数や多様なタスクに対して一般化できる学習型最適化器を実現しました。これにより従来のSGD+手動スケジュールでは難しかった安定性向上や汎用性を達成し、学習率スケジュールを含むハイパーパラメータの自動学習・適応が一段と進展しました。

Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates

極端に大きな学習率を一時的に使用して高速に収束させるワンサイクルポリシー（一サイクル政策）を提唱した研究。学習開始時に徐々に学習率を上げていき、途中で最高値（従来より高いLR）に達した後、最後まで滑らかに下げる一度きりのサイクルを用いることで、通常より短時間で高い精度に到達できると報告しました。

用いられている最適化手法別のアプローチ

ランダム探索・グリッド探索
ベイズ最適化
勾配に基づく手法
進化戦略・人口ベース手法
強化学習
メタラーニング

List of Papers

Meta Learning

Gradient-based Hyperparameter Optimization through Reversible Learning
Optimal learning rate schedules in high-dimensional non-convex optimization problems
Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers
No More Pesky Learning Rates
The Road Less Scheduled
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler
An Automatic Learning Rate Schedule Algorithm for Achieving Faster Convergence and Steeper Descent
AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly
Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates
Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search
Optimization Hyper-parameter Laws for Large Language Models
A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

Reinforcement Learning

Population Based Training of Neural Networks
Learning to Schedule Learning rate with Graph Neural Networks

Theoretical

Optimal learning rate schedules in high-dimensional non-convex optimization problems

Empirical

kDecay: Just adding k-decay items on Learning-Rate Schedule to improve Neural Networks
Optimizer Benchmarking Needs to Account for Hyperparameter Tuning

Each Paper’s Details

Gradient-based Hyperparameter Optimization through Reversible Learning

https://arxiv.org/abs/1502.03492

論文の主な貢献
SGDの逆向き計算アルゴリズムの提案
本論文では、学習の逆向き計算を通じてハイパーパラメータの勾配を取得する新しい方法を提案しています。具体的には、確率的勾配降下法（SGD）を用いた学習過程を正確に逆向きにたどることで、メモリ使用量を大幅に削減しつつ、ハイパーパラメータの勾配を効率的に計算します。この方法は、SGDの反転計算を通じて、従来の手法では不可能であった大量のハイパーパラメータ（例えば、学習率や重みの初期化分布など）を最適化することを可能にしました。

メモリ効率の高いハイパーパラメータ最適化手法の実現
提案手法では、反復学習中に使用される中間変数をすべてメモリに保存するのではなく、学習プロセスの各ステップで必要な情報のみを効率的に保存しながら逆方向に計算する技術を開発しています。これにより、通常であればメモリ制約のために実行が困難であった長期間の学習プロセスに対しても、逆向きに計算が可能となりました。特に、モーメンタム項を利用することで、逆向き計算時に必要なメモリ量を従来の200分の1に削減できることを示しています。

多数のハイパーパラメータ最適化への適用
提案手法を用いることで、従来の勾配フリー手法では困難であった数千個に及ぶハイパーパラメータの最適化を実現しました。例えば、層ごとの学習率や初期化分布、各入力ごとの正則化パラメータ、データの前処理方法など、従来では考えられなかった詳細なハイパーパラメータの最適化が可能となりました。これにより、モデルの学習の柔軟性が飛躍的に向上し、精度の高いモデル構築が実現しています。

実験による有効性の実証
本論文では、MNISTデータセットを用いた複数の実験を通じて、提案手法の有効性を実証しています。例えば、各層の学習率を個別に最適化することで、層ごとの学習率スケジュールが異なる結果が得られ、これは従来の手法と比較して性能向上につながることを示しました。また、重みの初期化スケールや正則化パラメータを層ごとに最適化することで、学習過程を可視化しながら、各層の最適なハイパーパラメータが探索できることを確認しています。

従来研究との差異と新規性
従来のハイパーパラメータ最適化は、勾配フリーのモデルベース最適化（例：ベイズ最適化）に依存しており、最適化可能なハイパーパラメータの数は10〜20個に限定されていました。本研究の新規性は、逆向き計算によって多数のハイパーパラメータの勾配を取得することで、ハイパーパラメータ空間の大幅な拡張を可能にした点にあります。また、提案手法は既存のメモリ問題を克服することで、非常に大規模なニューラルネットワークにおいても実用可能であることを示しています。

論文での貢献の実証方法
提案された手法の有効性は、次のような具体的な実験を通じて実証されています。

各層の学習率や正則化パラメータの最適化を行い、提案手法を通じて学習率スケジュールや初期化スケールの自動調整が実現可能であることを示しました。
ロジスティック回帰を用いて、パラメータごとの正則化ペナルティを最適化し、モデルの解釈性を向上させています。
さらに、学習データそのものをハイパーパラメータとして扱い、データ前処理や重み付けを通じた学習の最適化を試みています。

Optimal learning rate schedules in high-dimensional non-convex optimization problems

1. 論文の構造と概要
論文は、学習率スケジューリングが最適化速度や損失の最小化に与える影響を解析し、特に非凸で高次元の問題における最適な学習率の減衰率について調査しています。まず、損失関数をガウス乱数に基づいた関数として定義し、その上で、学習率を時間のべき乗で減少させる形式（$\eta(t) = t^{-\beta}$）を提案しています。さらに、最適化が進む二つのフェーズ（探索フェーズと収束フェーズ）に着目し、最適な学習率スケジュールの導出を試みています。

2. 既存の研究との差異と新規性
これまでの研究では、学習率スケジュールに関する理論は主に凸問題に焦点を当てており、一般的に$\beta = 1$とするスケジュールが最適とされていました。しかし、この論文では非凸問題において$\beta < 1$とすることで最適化の速度向上が可能であることを示し、特に多くの臨界点を持つ高次元空間において$\beta = 1/2$または$\beta = 2/5$が適していることを明らかにしています。また、信号の存在を考慮したモデルでは、探索フェーズで高い学習率を維持し、収束フェーズで学習率を減衰させる二段階スケジュールが効果的であることを示しています。

3. 論文の貢献
この論文の主な貢献は以下の通りです：

非凸問題での最適学習率スケジュールの理論的分析：ランジュバン最適化に基づき、非凸設定における学習率減衰の最適なパラメータ$\beta$を導出しました。
探索・収束フェーズの動的解析：信号が存在する場合の動的な学習率スケジュールの重要性を示し、フェーズごとの最適な学習率の調整方法を提案しています。
数値実験による検証：ニューラルネットワークを用いた実験により、理論的な結果が実際の学習においても適用可能であることを確認しました。
この研究は、理論的な裏付けを提供するだけでなく、実践的な学習率スケジュールの設計にも応用可能であり、今後の研究や実装に対して重要なインサイトを提供しています。

Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers

https://arxiv.org/abs/2007.01547

No More Pesky Learning Rates

https://arxiv.org/abs/1206.1106

The Road Less Scheduled

https://arxiv.org/abs/2405.15682

概要
本論文は、機械学習における最適化理論に基づき、従来必要とされていた学習率スケジュールを使用せず、優れた性能を達成する「スケジュールフリー」手法を提案します。この手法は学習終了時刻を設定する必要がなく、通常の最適化アルゴリズムと同様に余分なハイパーパラメータを増やさずに済みます。

新規性と従来の研究との違い
従来の学習率スケジュール手法は、終了時刻の指定が必要であるため、実務で使用する際に制約が多くなりがちです。また、Polyak-Ruppert 平均を用いる従来の方法では理論上の最適性が示されている一方で、実際の性能にギャップがありました。本研究では、スケジュールを使用しないで、スケジュール付き手法に匹敵する性能を達成する新しい手法として「スケジュールフリー AdamW」を開発しました。この手法は、MLCommons 2024 AlgoPerf アルゴリズム効率チャレンジで優勝しており、第三者からの評価を得ています。

実証と貢献
提案手法は、様々な問題（凸最適化から大規模ディープラーニング問題まで）で高い性能を発揮することを、28 の問題設定を通じて実証しました。具体的には、従来の調整されたスケジュール付き手法と比較して、CIFAR-10 や ImageNet などの一般的なデータセットで同等またはそれ以上の性能を示しました。また、最適化理論において、オンラインからバッチへの変換定理を新たに導入し、理論的にもこの手法の有効性を証明しています。

以上により、提案手法が従来手法と異なるアプローチで、理論的な確証と実務での性能向上を両立させた点が本研究の貢献です。

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

https://arxiv.org/abs/2408.13359v1

概要
本論文では、大規模言語モデル（LLM）の事前学習における学習率スケジューリング問題に対して、新しい学習率スケジューラ「Power Scheduler」を提案しています。Power Scheduler は、学習トークン数やバッチサイズに依存しないアプローチを特徴とし、効率的かつ柔軟に学習を進めることが可能です。既存の手法では、学習率がトークン数やバッチサイズに強く依存するため、大規模なハイパーパラメータ検索が必要でしたが、本手法はこれを大幅に削減することを目指しています。

これまでの研究との違いと新規性
従来の学習率スケジューラには、Cosine スケジューラや Warmup-Stable-Decay (WSD) スケジューラがあり、特に WSD はトークン数やバッチサイズに柔軟な構造を持っています。しかし、これらの手法は特定のトークン数やバッチサイズでのみ最適なパフォーマンスが得られるという制約がありました。本論文では、学習率の最適値がトークン数とバッチサイズに対してべき乗則の関係にあることを発見し、この関係を利用して「Power Scheduler」を設計しました。これにより、バッチサイズやトークン数を変更しても一貫したパフォーマンスを発揮できる点が新規性です。

論文での貢献と実証方法
本研究では、まず WSD スケジューラと Power Scheduler を用いた複数の実験を行い、べき乗則の関係性を確かめた上で、Power Scheduler が学習トークン数やバッチサイズに依存せずに優れた性能を発揮することを示しました。具体的には、1B および 3B パラメータを持つモデルを対象とし、複数の評価タスク（例えば、言語モデリングと選択問題タスク）において、既存の Cosine および WSD スケジューラと比較して、Power Scheduler が一貫して優れたパフォーマンスを示すことを実証しています。

以上により、Power Scheduler がトークン数やバッチサイズに対してアグノスティックであり、広範なモデルサイズやアーキテクチャに適用可能な新しい学習率スケジューラであることを明らかにしました。

An Automatic Learning Rate Schedule Algorithm for Achieving Faster Convergence and Steeper Descent

https://arxiv.org/abs/2310.11291

本研究では、深層学習モデルの効率的な最適化を目的として、新しい学習率スケジューリング手法「Retractable Delta-Bar-Delta (RDBD)」アルゴリズムを提案します。従来の適応学習率手法（例えば、Adam や RMSProp など）は、学習の収束を改善する一方、特にミニバッチ最適化においてノイズの影響で収束が不安定になることが課題とされてきました。本論文では、この課題を解決するために、従来の Delta-Bar-Delta アルゴリズムに基づいた RDBD アルゴリズムを導入し、学習率の調整を適応的に行うことで、より速い収束と急峻な損失低下を実現しています。

これまでの研究との違いと新規性
従来の Delta-Bar-Delta アルゴリズムは、勾配の方向に応じて学習率を個別に調整するメタ学習アルゴリズムとして知られていますが、ミニバッチ最適化においてノイズによる学習率の不安定性が課題でした。本研究の RDBD アルゴリズムは、学習率の調整に「リトラクション（撤回）」の機能を追加することで、この不安定性を緩和し、誤った学習率の更新を適切に修正する新規性を持ちます。このリトラクション機能により、学習プロセスの適応性が高まり、最適化の効率が向上しています。

論文での貢献と実証方法
理論的証明: RDBD アルゴリズムが、急峻な損失低下をもたらすとともに、収束を保証することを数学的に証明しています。この理論的枠組みにより、RDBD がミニバッチ最適化においても安定したパフォーマンスを発揮することが示されています。

実験的検証: CIFAR-10 や MNIST などのデータセットを用いて、RDBD アルゴリズムを SGD や Adam と組み合わせた実験を行い、従来手法と比較して収束速度が大幅に向上することを実証しました。実験結果は、RDBD が学習率スケジューリング手法として強力であることを示し、既存の最適化手法への「プラグ・アンド・プレイ」の形で導入可能な有用性を強調しています。

このように、RDBD アルゴリズムはノイズが多い最適化環境における課題を解決し、深層学習の収束速度とモデルの学習効率を大幅に向上させることができる新たな貢献を示しています。

AutoLRS: Automatic Learning-Rate Schedule by Bayesian Optimization on the Fly

https://arxiv.org/abs/2105.10762

Super-Convergence: Very Fast Training of Neural Networks Using Large Learning Rates

https://arxiv.org/abs/1708.07120

Optimization Hyper-parameter Laws for Large Language Models

https://arxiv.org/pdf/2409.04777v1

A Multi-Power Law for Loss Curve Prediction Across Learning Rate Schedules

https://arxiv.org/abs/2503.12811

この論文は、大規模言語モデルの学習中に、どのように学習率（LR）の変化が損失（エラー）に影響を与えるかを詳しく解明し、
その関係を新たな法則「Multi-Power Law（MPL）」としてまとめたものです。

1. 背景と目的
   学習率スケジュールの重要性
   学習率は、モデルのパラメータ更新の大きさを決める重要なハイパーパラメータです。
   大きすぎると学習が不安定になり、小さすぎると収束が遅くなります。
   通常、学習の初めは高い学習率で急速に損失を下げ、後半は学習率を下げて安定させる「学習率スケジュール」を使います。

従来の課題
従来のスケーリング則（たとえば Chinchilla スケーリング則）は、最終的な損失とモデルサイズや学習データ量との関係に注目していましたが、
学習率スケジュールの変化が損失曲線全体にどのような影響を与えるかは十分に捉えられていませんでした。

2. Multi-Power Law（MPL）の基本アイデア
   損失曲線の分解
   論文では、実際の学習で現れる損失の推移（曲線）を、次の 2 つの部分に分けて考えています。

基底項（Constant Process Loss）
一定の学習率で学習した場合の損失曲線。これは、学習率の「累積和」を使ったべき乗則で表現されます。

損失低減項（Loss Reduction Term）
学習率が下がることで追加的に損失が減少する効果。これも別のべき乗則を用いてモデル化されています。

学習率の累積和を使う理由
学習の進行度は、単に「何ステップ学習したか」ではなく、「どれだけの学習率をかけて学習したか」で考えると、
異なるスケジュール間での比較がしやすくなります。MPL はこの「累積学習率」を用いることで、
どのスケジュールであっても損失曲線を正確に予測できるようにしています。

3. 従来研究との違いと新規性
   従来の方法との違い
   Chinchilla スケーリング則は、最終損失をモデルサイズや学習データ量に対する単一のべき乗則で予測するもので、
   学習率スケジュールの効果は含まれていません。
   最近の Momentum Law は、学習率の減衰効果を取り入れようと試みていますが、予測精度やスケジュール最適化の面で課題がありました。

MPL の新規性
損失曲線全体の予測
MPL は、学習の初期から最終までの損失曲線全体を予測することができるため、学習途中の挙動も詳細に捉えられます。

少数の実験データでのパラメータ推定
定常（一定学習率）、コサイン、2 段階スケジュールなど、数種類の学習率スケジュールの実験結果から MPL のパラメータを推定し、
未知のスケジュールにも応用可能です。

べき乗則による正確なモデリング
学習率の減衰に伴う損失低減効果を、従来の指数関数的な近似ではなく、
べき乗則を用いることでより正確に捉えている点が大きな特徴です。

4. 貢献の実証方法

実験による検証
複数のモデルサイズ（25M、100M、400M、さらには 1B パラメータ規模）で、
異なる学習率スケジュール（定常、コサイン、Warmup-Stable-Decay など）を用いて実験を行い、
MPL が実際の損失曲線を高精度に予測できることを示しました。

スケジュール最適化への応用
MPL を使って学習率スケジュール全体の最適化を行い、
その結果、従来よく使われるコサインスケジュールやチューニング済みの WSD スケジュールよりも、
最終的な損失がさらに低くなる最適なスケジュールを自動で導出できることを示しています。

5. まとめ

本論文は、学習率スケジュールの影響を包括的に捉える新たな経験的スケーリング則「Multi-Power Law (MPL)」を提案し、
従来手法に比べて全体の損失曲線を正確に予測できる点、また少数の実験データで広範なスケジュールに対応可能な点で新規性があります。
さらに、MPL を用いた学習率スケジュールの最適化により、実際のモデル学習において従来のスケジュールを上回るパフォーマンス向上を実証しており、
今後の大規模モデルの効率的な学習設定に向けた有望な手法として位置づけられます。

もう少し詳細(べき乗則による正確なモデリング)

学習率が下がるときの損失の低減効果は、初期は急速に損失が下がり、その後は効果が徐々に飽和していくという特徴があります。
従来は、こうした効果を指数関数的な減衰モデル（例えば、"1−exp(−Cx)" のような形）で近似していました。
しかし実際の学習曲線を見ると、単純な指数関数モデルでは初期の急激な変化や後半の緩やかな飽和現象を正確に捉えることが難しいことがわかりました。
この論文では、損失低減効果をより正確に表現するために、べき乗則を用いるアプローチが採用されています。具体的には、学習率の減衰による損失低減項を、

LD(t) = Σₖ B(ηₖ₋₁ − ηₖ)·[1 − (C·(ηₖ^(−γ)·Sₖ(t)) + 1)^(−β)]

のような形で定式化しています。この形では、パラメータ β や γ を調整することで、
初期段階での急激な損失低減効果
累積学習率 Sₖ(t)が大きくなるにつれて効果が次第に飽和する非線形的な挙動
の両方を柔軟に再現できます。

もう少し詳細(スケジュール最適化への応用)

MPL を用いることで、学習率スケジュールを直接最適化するための「サロゲート関数」として損失曲線全体をモデル化できる点が大きな強みとなっています。
以下、その詳細を説明します。

サロゲートモデルとしての MPL
MPL は、ある学習率スケジュールを与えた場合に、前処理中の損失曲線全体（特に最終損失）を高精度に予測します。
これにより、実際に膨大な計算資源をかけて複数の学習率スケジュールで実験を行わずとも、
MPL を使って予測された最終損失を評価できるサロゲート関数として利用できます。

最適化問題への定式化
学習率スケジュールは、各学習ステップごとの学習率 η₁, η₂, …, η_T という高次元の変数として表現されます。MPL を用いて、
これらの学習率の組み合わせ E に対して予測される最終損失 L₍Θ₎(E)を算出し、
 minimize L₍Θ₎(E)
という最適化問題に落とし込みます。なお、現実の学習では学習率は一般に「非増加」（徐々に下がる）という制約があるため、
 0 ≤ η_t ≤ ηₜ₋₁
という制約条件を加えた形で最適化が行われます。

最適スケジュールの導出と性能向上
この最適化を解くことで、従来よく使われるコサインスケジュールやチューニング済みの WSD（Warmup-Stable-Decay）スケジュールよりも、
より低い最終損失を実現できる学習率スケジュールが自動的に得られます。
実験では、例えば「安定フェーズ」と「急激な減衰フェーズ」を組み合わせたスケジュール（WSD に似たパターン）が得られ、
最終損失が従来の手法よりも低くなることが示されています。

MPL（Multi-Power Law）は、学習率スケジュールの効果をべき乗則に基づいてモデル化することで、損失曲線全体を予測する手法ですが、
その有効性は以下のような条件に依存します。

十分な学習進行（長いトレーニング時間）
MPL は、学習率の累積和が大きくなり、最終損失や中間の損失の挙動がべき乗則に従うような状況を前提としています。
つまり、十分なステップ数やトークン数で学習が進んでいる場合に、学習率の減衰効果がべき乗則として現れやすいです。

適切なモデル規模
論文では 25M パラメータ以上のモデルで MPL が有効であることが示されています。
非常に小さいモデルでは、学習ダイナミクスが単純な最適化の影響下にとどまり、
複雑なスケーリング則（べき乗則）が現れにくい可能性があります。
モデルが大きくなるほど、パラメータ間の相互作用や最適化の安定性が向上し、べき乗則的な振る舞いが顕著になる傾向があります。

安定した学習率スケジュール
MPL の導出は、学習率が温度期（warmup）の後、単調に減衰するという前提のもとで行われています。
スケジュール自体が極端に変動する場合や、学習率の変動が激しい場合は、MPL の前提条件が崩れ、予測精度が低下する可能性があります。

Relationship between Batch Size and Number of Steps Needed for Nonconvex Optimization of Stochastic Gradient Descent using Armijo Line Search

https://arxiv.org/abs/2307.13831

1. 背景と問題意識

深層学習における最適化問題の多くは非凸であり、Stochastic Gradient Descent（SGD）はその代表的な手法です。
学習率（Learning Rate, LR）の設定は SGD の性能に大きな影響を与えますが、
これまでの研究では主に「定数」や「減衰型」の LR が使われてきました。

一方で、Armijo 条件に基づくラインサーチによる学習率（Armijo-line-search LR）が、
訓練損失やテスト精度の点で有効であるという報告があり（Vaswani et al., 2019）、本研究はこの点に着目しています。

また、SGD の性能はバッチサイズ（batch size）にも依存しますが、
バッチサイズと学習ステップ数、計算コスト（SFO: stochastic first-order oracle complexity）
との関係は十分に理論的に解明されていませんでした。

2. 本研究の新規性と貢献（Contribution）
   本研究は、Armijo-line-search を用いた SGD について、以下の 3 つの主要な貢献を理論的および数値的に実証しました。

2.1 Armijo 条件下での SGD の収束解析（LR Scheduling との関連）
Armijo 条件に基づいて選択される学習率でも、SGD の収束が保証され、特に学習ステップ数 とバッチサイズ が大きいと、
損失関数の勾配ノルムの期待値の上限が小さくなる（Theorem 3.1）。
Armijo 条件による LR はデータ依存で適応的に決定されるため、
従来の定数 LR よりも現実的な深層学習タスクに適している。

2.2 バッチサイズとステップ数の関係性の定式化
非凸最適化に必要なステップ数 が、バッチサイズ の単調減少かつ凸関数であることを理論的に証明（Theorem 3.2）。
これにより、大きなバッチサイズが訓練の高速化に寄与することが理論的に裏付けられた。

2.3 SFO 計算コストを最小化する「臨界バッチサイズ」の存在証明
総計算コスト N=Kb がバッチサイズに関して凸関数であり、ある「臨界バッチサイズ 」
で最小化されることを示した（Theorem 3.3）。
これは、過度に大きなバッチサイズはリソース効率を損なう一方で、適切なサイズで最適化できるという実践的示唆を与える。

3. 実証方法（Numerical Validation）
   CIFAR-10 と MNIST のデータセットを用いて、ResNet-18 の学習における実験を行い、上述の理論結果を支持する数値的証拠を提示。
   特に、Armijo-line-search を用いた SGD が、他の最適化手法（Momentum、Adam、RMSProp 等）と比較して、
   ステップ数および SFO コストの両方で優れた性能を示すことを確認。
   学習率 がデータとステップに応じて自動調整されるため、チューニングが難しい従来手法に比べて実用的であることも示された

総括
本研究は、Armijo-line-search に基づく LR Scheduling の理論的・実証的有効性を体系的に示し、
SGD のバッチサイズと学習効率の最適化に新たな視点を提供しています。
従来研究との主な違いは、非現実的な前提（強成長条件）を排除しながら、
実践的に有効な Adaptive LR 戦略の理論解析を初めて行った点にあります。

SFO コストとは？：ざっくり言うと
「合計で何回、勾配（＝ gradient）を計算したか？」 を表すものです。

Population Based Training of Neural Networks

https://arxiv.org/abs/1711.09846

DeepMind (2017)

Population Based Training (PBT) を提案
問題
- 従来の手法（固定的なスケジューリング、手動調整、ハイパーグラディエント法など）は、計算コストが高く、探索空間の制限や局所的な最適解に留まるなどの課題がある。
新規性
- 本論文では従来の方法とは異なり、「学習率スケジュールの探索」を以下のようなアプローチで実現した：
  - Population Based Training (PBT) と呼ばれる強化学習に基づく手法を用い、訓練中に動的に複数のモデル（個体群）を管理し、逐次的に性能の高いモデルのハイパーパラメータを共有・進化させることで、最適なスケジュールを自動的に探索する仕組みを導入した。
  - 特に PBT は、進化戦略と強化学習の融合により「探索」と「活用」のバランスを自動で調整し、効率的に最適解を探索できる。
遺伝アルゴリズム？
- slide / ja

Learning to Schedule Learning rate with Graph Neural Networks

手法
- グラフニューラルネットワークベースの強化学習手法で、そのステップ毎に最適な lr を推定
- GNS（Graph-Network-based Scheduler）は、ニューラルネットワーク構造や学習状況をグラフニューラルネットワークで動的に捉え、強化学習で適応的な学習率スケジュールを探索するため、高度な一般化能力と柔軟性を持ちます。
- ただし、schedule family は interpolation を持つ spline 関数のような形のものに制限して計算コストを抑えてる
  - 実際に論文では、スケジュール探索において「gradient descent in schedule space」という手法を使っていると述べており、具体的には少数の結節点（数点〜十数点程度）のパラメータを調整し、そのスケジュールの性能（最終損失）に基づき直接勾配を計算
妥当性の検証は実験のみで理論は無い
- 提案されたスケジューリング手法は、ベンチマーク実験や異なるモデル・タスクにおいて、従来手法（例：Cosine Annealing, Step Decay）を一貫して上回っており、実験的・経験的な意味での最適性（あるいは「準最適性（near-optimality）」）を主張
懸念
- 学習初期は強化学習モデルも学習できてないので安定しないのでは？
  - warmup と lr clipping 使ってる
  - 事前訓練・シミュレーションによる安定化
    - 訓練を行う前に別途エージェントをシミュレーション環境や小規模タスクで事前学習し、初期状態からある程度妥当な行動がとれるように

kDecay: Just adding k-decay items on Learning-Rate Schedule to improve Neural Networks

https://arxiv.org/pdf/2004.05909

経験的に後半の急峻な lr の現象が高い性能を示すことを確認
高次の lr の導関数を lr に追加することで、終盤まで高い lr で、後半急峻な減少となる lr schedule を再現できる
これらは実際には lr schedule と直交した概念なので、cosine schedule などと組み合わせて使える

Optimizer Benchmarking Needs to Account for Hyperparameter Tuning

Idiap / ICML2020

https://arxiv.org/abs/1910.11758

-「最適化手法を評価する際には、ハイパーパラメータ探索のための計算コストを考慮すべきである」という新しい評価観点を提示している。

George の研究でもこの論文の主張の示唆は得られる