大模型参数量与占用显存换算
简易结论:
- 在
float16
模式下,加载7B模型需要14G显存
计算方式推导:
只进行推理时,float32
占用4个字节,所以每10亿个参数就占用4G显存。计算方法为:
$$ 10^9 \times 4 / 1024/1024/1024=3.725G $$
比如LLaMA的参数量为7000559616,那么全精度加载这个模型参数需要的显存为:
7000559616 * 4 /1024/1024/1024 = 26.08G
float16每个参数只有2字节,显存降为一半
int8再降一半
int4继续降一半
![加载Intern-7B后占用15G]()