https://zenn.dev/turing_motors/articles/26e1f1be50c0b5
Number of nodes: 2. Minimum required is 1.
Number of GPUs per node: 8
GPU type: A100
GPU memory: 80GB
intra-node connection: NVLink
RAM per node: 1TB
CPU cores per node: 96
inter-node connection: Elastic Fabric Adapter
7B: 1node
13B: 2node
70B: 28node
での動作確認と現実的なFLOPsが出ることを測定しています。
(使用環境 1ノードあたり A100 40GB x 8基)
[量子化 / 【Llama2】追加学習・ファインチューニング | 7b・13b・70b](https://soroban.highreso.jp/article/article-057) |
モデル | 量子化 | GPU メモリ(VRAM)使用量 | ファインチューニングの時間 | 使用した GPU |
---|---|---|---|---|
Llama-2-7b-hf | 8bit 量子化 | 18.3GB | 1 時間 6 分 | NVIDIA A100 80GB x 1 |
Llama-2-13b-hf | 8bit 量子化 | 28.1GB | 1 時間 56 分 | NVIDIA A100 80GB x 1 |
Llama-2-70b-hf | 4bit 量子化 | 61.8GB | 3 時間 24 分 | NVIDIA A100 80GB x 1 |