显存计算
更新: 5/3/2025 字数: 0 字 时长: 0 分钟
显存需求由三部分组成
- 模型参数存储
- 公式:显存(GB)= 参数量(B) × 精度系数(Byte/参数)
- 精度系数:FP32=4B,FP16=2B,FP8=1B,INT4=0.5B
- 示例:70B模型在FP16下需140GB显存,INT4量化后仅需35GB
- 中间计算数据
- 训练阶段:激活值(前向传播中间结果)和梯度(反向传播需求)
- 激活值 ≈ 参数量 × 0.5~1倍(与模型深度相关)
- 梯度 = 参数量 × 1倍
- 推理阶段:激活值可复用,仅需存储当前层计算结果,显存需求降低至参数量的1.2~1.5倍
- 训练阶段:激活值(前向传播中间结果)和梯度(反向传播需求)
- 优化器状态
- Adam优化器:每个参数需存储动量(1B)和二阶动量(1B),显存占用=参数量 × 2倍
- 混合精度训练:优化器状态使用FP32存储,总显存=参数量 × (2+4+4)=20倍(FP16参数+FP32梯度+FP32优化器)