Skip to content

显存计算

更新: 5/3/2025 字数: 0 字 时长: 0 分钟

显存需求由三部分组成

  1. ​模型参数存储​
    • ​公式​​:显存(GB)= 参数量(B) × 精度系数(Byte/参数)
    • ​精度系数​​:FP32=4B,FP16=2B,FP8=1B,INT4=0.5B
    • ​示例​​:70B模型在FP16下需140GB显存,INT4量化后仅需35GB
  2. ​中间计算数据​
    • ​训练阶段​​:激活值(前向传播中间结果)和梯度(反向传播需求)
      • 激活值 ≈ 参数量 × 0.5~1倍(与模型深度相关)
      • 梯度 = 参数量 × 1倍
    • ​推理阶段​​:激活值可复用,仅需存储当前层计算结果,显存需求降低至参数量的1.2~1.5倍
  3. ​优化器状态​
    • ​Adam优化器​​:每个参数需存储动量(1B)和二阶动量(1B),显存占用=参数量 × 2倍
    • ​混合精度训练​​:优化器状态使用FP32存储,总显存=参数量 × (2+4+4)=20倍(FP16参数+FP32梯度+FP32优化器)

菜就多练

本站访客数 人次 本站总访问量