PyTorch FSDP: Experiences on Scaling Fully Sharded Data Parallel のメモ
Hugging Face Accelerate による FSDP と DeepSpeed の比較と使い分け方
Kotoba-Recipes ライブラリ: 5 分ではじめる Llama-2 継続学習