大模型加载等问题

发表于 2024-01-25 更新于 2024-03-16

大模型参数量与占用显存换算

简易结论：

计算方式推导：

只进行推理时，float32占用4个字节，所以每10亿个参数就占用4G显存。计算方法为：
$$ 10^9 \times 4 / 1024/1024/1024=3.725G $$

比如LLaMA的参数量为7000559616，那么全精度加载这个模型参数需要的显存为：

7000559616 * 4 /1024/1024/1024 = 26.08G

float16每个参数只有2字节，显存降为一半
int8再降一半
int4继续降一半

加载Intern-7B后占用15G