随着大模型参数量的不断增长, 显存成为瓶颈, 本文分析了显存占用的类型及大小, 同时讲述了业界提出的多种优化策略 

大模型显存占用及优化

将优化器状态, 梯度, 权重等显存占用进行切分, 进一步降低单卡显存

DeepSpeed之ZeRO系列

可以根据模型计算量以及集群的算力粗略计算出大模型预训练的时间, 对于大型模型的资源占用评估非常有必要

随着模型规模的增大, 以及GPU低精度算力的提升, 混合精度训练存在诸多优势, 成为业界标配; 常见的有FP32/BF16混合精度, 最近一年来, FP8混合精度也逐渐流行开来

随着大模型参数量以及训练数据量的不断增长, 显存根本不够用, 另外也为了加速计算, 出现了多种并行策略, 如TP, PP, DP, SP, EP等