木白's 技术小屋

木白's 技术小屋, 专注于大模型Infra & 分布式通信

  • 博客
  • 关于
  • 订阅
  • 搜索
  • NCCL (3)
  • Source Code Diagram (3)
  • CUDA (4)
  • Distribute (3)
  • Intra Node (1)
  • GPU (1)
  • TOPO (1)
  • AI Infra (6)
  • Basic (1)
  • Memory Optimization (3)
  • DeepSpeed (2)
  • Training (5)
  • Inference (2)
  • Transformer (5)
  • Mixed Precision (1)

大模型显存占用及优化

May 23, 2025

随着大模型参数量的不断增长, 显存成为瓶颈, 本文分析了显存占用的类型及大小, 同时讲述了业界提出的多种优化策略

DeepSpeed之ZeRO系列

May 14, 2025

将优化器状态, 梯度, 权重等显存占用进行切分, 进一步降低单卡显存

大模型训练计算量及训练时间估计

Mar 31, 2025

可以根据模型计算量以及集群的算力粗略计算出大模型预训练的时间, 对于大型模型的资源占用评估非常有必要

混合精度训练

Apr 16, 2025

随着模型规模的增大, 以及GPU低精度算力的提升, 混合精度训练存在诸多优势, 成为业界标配; 常见的有FP32/BF16混合精度, 最近一年来, FP8混合精度也逐渐流行开来

大模型训练并行策略

Mar 28, 2025

随着大模型参数量以及训练数据量的不断增长, 显存根本不够用, 另外也为了加速计算, 出现了多种并行策略, 如TP, PP, DP, SP, EP等


© 木白 2024 - 2025