Hiroki Naganuma

LLM 関連の実験をシュッとできるようにするべきこと

まず読む

実践編

Llama2

Llama.cpp

Other Resources

Number of nodes: 2. Minimum required is 1.
Number of GPUs per node: 8
GPU type: A100
GPU memory: 80GB
intra-node connection: NVLink
RAM per node: 1TB
CPU cores per node: 96
inter-node connection: Elastic Fabric Adapter
7B: 1node
13B: 2node
70B: 28node
での動作確認と現実的なFLOPsが出ることを測定しています。
(使用環境 1ノードあたり A100 40GB x 8基)
モデル 量子化 GPU メモリ(VRAM)使用量 ファインチューニングの時間 使用した GPU
Llama-2-7b-hf 8bit 量子化 18.3GB 1 時間 6 分 NVIDIA A100 80GB x 1
Llama-2-13b-hf 8bit 量子化 28.1GB 1 時間 56 分 NVIDIA A100 80GB x 1
Llama-2-70b-hf 4bit 量子化 61.8GB 3 時間 24 分 NVIDIA A100 80GB x 1

Huggingface / accelerate