大模型加载等问题

大模型参数量与占用显存换算

简易结论:

  • float16模式下,加载7B模型需要14G显存

计算方式推导:

只进行推理时,float32占用4个字节,所以每10亿个参数就占用4G显存。计算方法为:
$$ 10^9 \times 4 / 1024/1024/1024=3.725G $$

比如LLaMA的参数量为7000559616,那么全精度加载这个模型参数需要的显存为:

7000559616 * 4 /1024/1024/1024 = 26.08G

float16每个参数只有2字节,显存降为一半
int8再降一半
int4继续降一半

加载Intern-7B后占用15G