Hiroki Naganuma

LLM 関連の実験をシュッとできるようにするべきこと

AWS, GCP setup
LLM 関連の必須ツール抑える (DeepSpeed, Apex, )

まず読む

https://zenn.dev/turing_motors/articles/0e6e2baf72ebbc
https://zenn.dev/turing_motors/articles/26e1f1be50c0b5
- BLOOM は GPT-3 と同程度のパラメータ数を持ち、軽量化されたモデルであっても 329GB の容量が必要です。2023 年 2 月現在、コンシューマー向けの最上位の GPU である GeForce RTX3090 や RTX4090 であってもメモリサイズ 24GB なので、最低でも 14 枚以上必要になります。
https://zenn.dev/turing_motors/articles/0f5ac6840f66fe
https://note.com/fukudawataru/n/n5152e6f587c8
https://www.deepspeed.ai/assets/files/DeepSpeed_Overview_Japanese_2023Jun7th.pdf

実践編

DeepSpeed
- https://zenn.dev/turing_motors/articles/04c1328bf6095a
- https://zenn.dev/turing_motors/articles/da7fa101ecb9a1
GPT-NeoX
- https://zenn.dev/turing_motors/articles/dff1466194f4ac

Llama2

llama2 のセットアップメモ (ダウンロードと推論)
- Meta の認証をする ref

Llama.cpp

「Llama.cpp」は C 言語で記述された LLM のランタイムです。「Llama.cpp」の主な目標は、MacBook で 4bit 量子化を使用して LLAMA モデルを実行することです。
ref

Other Resources

大規模言語モデル(Llama2 など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA)
Meta の LLaMA-2 13B の力を解明する：技術的な詳細説明
Fine-tuning Llama 2 70B using PyTorch FSDP
- PyTorch Fully Sharded Data Parallel
- requirements are as follows:

Number of nodes: 2. Minimum required is 1.
Number of GPUs per node: 8
GPU type: A100
GPU memory: 80GB
intra-node connection: NVLink
RAM per node: 1TB
CPU cores per node: 96
inter-node connection: Elastic Fabric Adapter

Llama 2 7B, 13B, 70B を学習するために必要なノード数はいくつですか？
- ref

7B: 1node
13B: 2node
70B: 28node
での動作確認と現実的なFLOPsが出ることを測定しています。
(使用環境 1ノードあたり A100 40GB x 8基)

[量子化 / 【Llama2】追加学習・ファインチューニング 7b・13b・70b](https://soroban.highreso.jp/article/article-057)

モデル	量子化	GPU メモリ（VRAM）使用量	ファインチューニングの時間	使用した GPU
Llama-2-7b-hf	8bit 量子化	18.3GB	1 時間 6 分	NVIDIA A100 80GB x 1
Llama-2-13b-hf	8bit 量子化	28.1GB	1 時間 56 分	NVIDIA A100 80GB x 1
Llama-2-70b-hf	4bit 量子化	61.8GB	3 時間 24 分	NVIDIA A100 80GB x 1

Huggingface / accelerate

立命館の山木くんに教えてもらった、結構上位のラッパー
github
zenn の記事