首页编程正文内容

显存计算_激活值显存计算

编程

更新时间：2026-04-03 07:27:05 36

admin 管理员组

文章数量: 1184232

显存

显存占用分析

Model States
模型参数
后向传递计算得到的梯度
优化器状态
Activation
前向计算过程中产生的 中间激活

数据类型

float32（FP32）：32 位浮点数，也称为单精度。
float16（FP16）：16 位浮点数，表示范围较小，也被称为半精度。
bfloat16（BF16）：扩大了指数位数，缩小了小数位数，因此表示的范围更大，精度更弱。

一般采用 16 位的表示，那么一个参数占用 2byte，即 2B。

FP16 的精度高，但是表示范围小，容易上溢；

BF16 的表示范围大，但精度低，因此更容易下溢，为了避免溢出问题，提出了混合精度方案。

训练过程

训练大模型时通常会采用 AdamW 优化器 ，并用 混合精度 训练来加速训练，基于这个前提分析显存占用。

在一次训练迭代中，每个可训练模型参数都会对应 1 个梯度 ，并对应 2 个优化器状态 （Adam 优化器梯度的一阶动量和二阶动量）。

推理过程

在神经网络的推理阶段，没有优化器状态和梯度，也不需要保存中间激活。 模型推理阶段占用的显存要远小于训练阶段 。

如果使用 float16 来进行推理， 推理阶段模型参数占用的显存大概是 $2\mathbf\Phi$ 。

模型参数

符号说明：

数学符号	定义
l	模型层数
d	隐层维度
h	注意力头数
b	batch size
s	序列长度
V	词表大小
μ	向量的均值
σ	向量的方差

从输入到输出的顺序依次计算：

Embedding 层：词嵌入矩阵即一个 $\rightarrow d$ 无偏置线性层，将 $V$ 大小的 one-hot 编码映射成 $d$ 大小的 token。参数个数 $ Vd $。
- Positional Embedding：如果采用可训练式的位置编码，会有一些可训练模型参数，数量比较少。如果采用相对位置编码，例如 RoPE 和 ALiBi，则不包含可训练的模型参数。我们忽略这部分参数。。
$l$ 个 block：
Self-attention：attention 层中有四个 $\rightarrow d$ 线性层，包含了权重： $W_q$ 、 $W_k$ 、 $W_v$ 、 $W_{out}$ 以及各自的偏置。
- 权重矩阵 n 的形状 $[d, d]$ ，参数个数 $d^2$ ，
- 偏置形状 $[d]$ ，参数个数 d。
- 总计参数量 $4d^2+4d$ .
Layer Normalization：设层输入是 $x_{in}$ ，
- layer normalization 公式： $x_{out}= \gamma \odot \alpha+\beta$ , $\alpha=\frac{x_{in}−\mu}{\sqrt{(\sigma^2+\epsilon)}}$ 。
- 其中 $\mu$ 表示 $x_{in}$ 的均值，$ \sigma$ 表示 $x_{in}$ 的方差， $\epsilon$ 防止除零， $\gamma$ 和 $\beta$ 是可学习的参数，形状都是 $[d]$ ，参数个数 $d$ ，一层的参数个数 $2 d$ 。
- 因为 self-attention 和 mlp 后各有一层 layer nromalization。所以总参数个数 $4 d$ 。
mlp：共有两个带偏置的线性层，隐层维度默认为 $4 d$ ：
- 第一个是 $\rightarrow 4d$ ，权重矩阵形状 $[d, 4 d]$ ，偏置形状 $[4 d]$ ，层参数 $4d^2+4d$ ；
- 第二个是 $\rightarrow d$ ，权重矩阵形状 $[4 d, d]$ ，偏置形状 $[d]$ ，层参数 $4d^2+d$ ；
- mlp 的总参数个数 $8d^2+5d$
每个 block 的参数个数共计 $12d^2+13d$ .
输出层和 Embedding 层共用参数。

因此，模型共计参数 $l∗(12d^2+13d)+Vd$

CodeGen 350M 参数
Name Size
Embedding transformer.wte.weight torch.Size([51200, 1024])
transformer.h.0.ln_1.weight torch.Size([1024])
transformer.h.0.ln_1.bias torch.Size([1024])
Self-attention transformer.h.0.attn.qkv_proj.weight torch.Size([3072, 1024])
Self-attention-out transformer.h.0.attn.out_proj.weight torch.Size([1024, 1024])
mlp transformer.h.0.mlp.fc_in.weight torch.Size([4096, 1024])
transformer.h.0.mlp.fc_in.bias torch.Size([4096])
transformer.h.0.mlp.fc_out.weight torch.Size([1024, 4096])
transformer.h.0.mlp.fc_out.bias torch.Size([1024])

	Name	Size
Embedding	transformer.wte.weight	torch.Size([51200, 1024])
	transformer.h.0.ln_1.weight	torch.Size([1024])
	transformer.h.0.ln_1.bias	torch.Size([1024])
Self-attention	transformer.h.0.attn.qkv_proj.weight	torch.Size([3072, 1024])
Self-attention-out	transformer.h.0.attn.out_proj.weight	torch.Size([1024, 1024])
mlp	transformer.h.0.mlp.fc_in.weight	torch.Size([4096, 1024])
	transformer.h.0.mlp.fc_in.bias	torch.Size([4096])
	transformer.h.0.mlp.fc_out.weight	torch.Size([1024, 4096])
	transformer.h.0.mlp.fc_out.bias	torch.Size([1024])

不同版本 LLaMA 模型的参数量

实际参数量	隐藏维度 h	层数 l	$12lh^2$
6.7B	4096	32	6,442,450,944
13.0B	5120	40	12,582,912,000
32.5B	6656	60	31,897,681,920
65.2B	8192	80	64,424,509,440

优化器状态

在训练过程中，模型的每个参数会记录梯度用于更新，此外优化器也会额外记录一些数据，称为 优化器状态 。

设模型参数为 $ \mathbf\Phi$, 那么梯度的元素数量为 $\mathbf\Phi$ ，模型参数（fp16）、模型梯度（fp16）和优化器状态（fp32）， 总占用 ：
$2\mathbf\Phi +2\mathbf\Phi+K\mathbf\Phi = (4+K)\mathbf\Phi$

总占用和参数量有关，和输入大小无关。
在整个训练过程中都要存在显存中。 模型参数一般只能通过并行切分 （Tensor Parallelism/Pipeline Parallism）能减少。 优化器状态一般通过 ZeRO 来减少。
不同优化器的 K 值不同 ，算法的中间变量、框架的实现都有可能有一定区别。

AdamW 优化器 对模型中的每个参数记录了两个动量（一阶和二阶动量） $m_t$ 和 $v_t$ 。
在 混合精度训练 中，会使用 float16 的模型参数 进行前向传递和后向传递，计算得到 float16 的梯度 ；
在 优化器 更新模型参数时，会使用 float32 的优化器状态 、 float32 的梯度 、 float32 的模型参数 来更新模型参数。
使用 AdamW 优化器 和 混合精度训练 来训练参数量为 $\mathbf\Phi$ 的大模型， 模型参数、梯度和优化器状态占用的显存大小为 $ 20\mathbf\Phi$ bytes
$\underbrace{2+4}_{\text {weights}} +\underbrace{2+4}_{\text {gradients}} + \underbrace{4+4}_{\text {Adam states}} = 20$
【注】：有的参考资料中，没有考虑 fp32 的梯度，计算得到总显存为 $2\mathbf\Phi +2\mathbf\Phi+12\mathbf\Phi = 16\mathbf\Phi$ ，此处参考

中间激活值

激活（activations） 指的是前向传递过程中计算得到的，并在后向传递过程中需要用到的所有张量

中间激活值占用显存分两个部分分析：Self-Attention 和 MLP，Embedding 没有中间值。

Self-Attention 块的中间激活占用显存大小为 $11bsd+5bs^2h$
对于 MLP 块，需要保存的中间激活值为 $19 b s d$ 。
layer norm 需要保存其输入，大小为 $2 b s d$ ，2 个 layer norm 需要保存的中间激活为 $ 4bsd $
对于 $l$ 层 transformer 模型， 最终合计 $l*(34bsd +5bs^2h)$ 。

激活值 与输入数据的大小（ 批次大小 b 和 序列长度 ）成正相关。
在训练过程中是变化值，特别是 batch size 大的时候成倍增长很容易导致 OOM。
可以通过 重计算 、 并行切分 策略减少。

在一次训练迭代中

模型参数（或梯度）占用的显存大小 只与 模型参数量 和 参数数据类型 有关，与输入数据的大小是没有关系的。
优化器状态占用的显存大小 与 优化器类型 有关，与 模型参数量 有关，与输入数据的大小无关。
中间激活值 与输入数据的大小（ 批次大小 $b$ 和 序列长度 $s$ ）是成正相关的，随着 批次大小 $b$ 和 序列长度 $s$ 的增大，中间激活占用的显存会同步增大。当我们训练神经网络遇到显存不足 OOM（Out Of Memory）问题时，通常会尝试减小批次大小来避免显存不足的问题，这种方式减少的其实是中间激活占用的显存，而不是模型参数、梯度和优化器的显存。

以 GPT3-175B 为例，直观对比模型参数与中间激活的显存大小。GPT3 的模型配置如下。假设采用混合精度训练，模型参数和中间激活都采用 float16 数据类型，每个元素占 2 个 bytes。

模型名	参数量	层数	隐藏维度	注意力头数
GPT3	175B	96	12288	96

GPT3 的模型参数量为 175B，占用的显存大小为 $2*175*10^9 \text{bytes}=350 \text{GB}$ 。GPT3 模型需要占用 350GB 的显存。
GPT3 的序列长度 $l$ 为 2048 。对比不同的批次大小 $b$ 占用的中间激活：
- 当 $l$ = 1 时，中间激活占用显存为 $(34bsd+5bs^2h)∗l=275,414,777,856 \text{bytes}\approx 275 \text{GB}$ ，大约是模型参数显存的 0.79 倍。
- 当 $l$ = 64 时，中间激活占用显存为 $(34bsd+5bs^2h)∗l=17626545782 \text{bytes}\approx 17.6 \text{TB}$ ，大约是模型参数显存的 50 倍。
- 当 $l$ = 128 时，中间激活占用显存为， $ (34bsd+5bs^2h)∗l=35253091565568 \text{bytes}\approx 35.3 \text{TB}$ 大约是模型参数显存的 101 倍。
可以看到随着批次大小 $b$ 的增大，中间激活占用的显存远远超过了模型参数显存。通常会采用 激活重计算 技术来减少中间激活，理论上可以将中间激活显存从 $O (n)$ 减少到 $O(\sqrt{n})$ ，代价是增加了一次额外前向计算的时间，本质上是“时间换空间”。

本文标签：占用的显模型参数编程

版权声明：本文标题：显存计算_激活值显存计算内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1773989461a3568041.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

显存计算_激活值显存计算

显存

模型参数

优化器状态

中间激活值

更多相关文章

Ubuntu中的QQ玩得不愉快？解决自动关闭的秘诀！

Ubuntu Linux新手必学：解决QQ自动关闭的技巧

QQ浏览器新手宝典：自动更新功能怎么开？详解教程

Ubuntu 下的QQ烦恼？一招搞定自动退出的小技巧

让QQ浏览器自动更新功能恢复正常的操作指南

TP-Link 478+的秘密武器：升级固件包，让你的设备焕然一新！

192.168.1.1的FTP服务器遇到障碍？这里有一站式解决方案！

192.168.0.1与192.168.1.1：家庭网络地址的细微区别

轻松搞定192.168.0.1，从初学者到高手的路由器设置技巧

告别重装系统，用DISM轻松解决电脑问题

Dism助力：快速上手实现Flash Player无缝安装与更新

一扫系统故障，畅享Flash内容新体验！

DISM++：你的Flash播放问题终结者，提升性能

从入门到精通：Dism++带你玩转系统安装，新手也能玩得转！

掌握Windows 10的Dism技巧，让系统管理更高效、更便捷

一文读懂Dism命令行，Adobe Flash Player安装不再难！

Dism++优化秘籍：一步到位提升电脑运行速度

GHOST教程：系统备份和还原，小白也能变成高手！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

发表评论

推荐文章

MFC71D.dll失踪记？快速找回攻略！

网约车市场新挑战：2024年7月22日，揭秘司机使用的作弊软件

电脑设置密码怎么设置？让你的电脑更安全！_电脑怎么设置密码

无线路由器设置全教程_无线路由器的基本配置步骤csdn

实芯HD音频驱动装不上？这些小技巧可以帮你轻松解决

热门文章

2023显卡性能巅峰战：最新排行榜单公布

轻松跨越斐讯K2路由器认证关卡：Pandorabox & Drcom_drcom web认证插件实用教程

在线开发者的福音：激活Vue调试工具，告别Flash中心的困扰！

老毛桃进阶攻略：深入解析如何制作WinPE镜像与U盘启动盘，让你电脑修复技能满点！

Word 2010老是自动进安全模式，是不是文件有问题？

企业IT运维实战：批量修改192.168.0.1密码的自动化方案

利用计算机名称共享打印机步骤,如何连接共享打印机汇总教程_按名称选择共享打印机

家中WiFi的IP地址轻松查找指南_查询路由器地址

磁盘分区？合并？看这一篇文章就够了_电脑磁盘怎么分盘和合并

Ubuntu系统安全大计，备份技巧大公开

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑