Hiroki Naganuma

Context



重要人物 (更新途中)



Original Paper

LocalSGD / Local SGD Converges Fast and Communicates Little

概要


Post Local SGD / Don’t Use Large Mini-Batches, Use Local SGD

概要


Extrapolation for Large-batch Training in Deep Learning

概要



後続の研究

DiLoCo: Distributed Low-Communication Training of Language Models

概要


Asynchronous Local-SGD Training for Language Modeling

概要

実験結果

Findings

関連研究

Futurework


Distributed Deep Learning In Open Collaborations

概要

貢献


SlowMo: Improving Communication-Efficient Distributed SGD with Slow Momentum

概要

LocalSGD との違い

検証

疑問


Communication-efficient SGD: From Local SGD to One-Shot Averaging

概要

本論文は、分散環境における確率的勾配降下法(SGD)の通信効率を改善するために、Local SGD を発展させ、通信回数を大幅に削減する新しいアプローチを提案しています。

これまでの研究との違いや新規性

従来の研究では、Local SGD は通信頻度を高めることで収束速度を向上させることが示されてきましたが、依然として通信回数が増加するため、並列化の効果が減少するという課題がありました。 本研究では、イテレーション数が増加するにつれて通信頻度を減少させる新しい Local SGD 手法を提案し、総通信回数を最小限に抑えながらも収束速度を維持することに成功しました。 また、従来の手法では収束率が T に依存していましたが、本研究では通信回数が T に完全に依存しないことを示し、これまでにない通信効率を達成しています。



Fedrated Learning の文脈

FedAve(Federated Averaging)

Local SGD との違い


FedOpt(Federated Optimization)


Locally Adaptive Federated Learning

概要

Layer-wise and Dimension-wise Locally Adaptive Federated Learning

概要


Federated Learning with Buffered Asynchronous Aggregation

概要



その他の関連研究

Decentralized Stochastic Optimization and Gossip Algorithms with Compressed Communication

概要

Scalable training of deep learning machines by incremental block training with intra-block parallel optimization and blockwise model-update filtering