木白's 技术小屋, 专注于大模型Infra & 分布式通信
随着大模型参数量的不断增长, 显存成为瓶颈, 本文分析了显存占用的类型及大小, 同时讲述了业界提出的多种优化策略
将优化器状态, 梯度, 权重等显存占用进行切分, 进一步降低单卡显存
© 木白 2024 - 2025