木白's 技术小屋

木白's 技术小屋, 专注于大模型Infra & 分布式通信

  • 博客
  • 关于
  • 订阅
  • 搜索
  • NCCL (3)
  • Source Code Diagram (3)
  • CUDA (4)
  • Distribute (3)
  • Intra Node (1)
  • GPU (1)
  • TOPO (1)
  • AI Infra (6)
  • Basic (1)
  • Memory Optimization (3)
  • DeepSpeed (2)
  • Training (5)
  • Inference (2)
  • Transformer (5)
  • Mixed Precision (1)

NCCL源码图解之allreduce

Jul 1, 2025

allreduce是最常用的集合通信算子, 同时也是primitives类涵盖最全的算子, 搞懂了allreduce的源码, 其他算子的源码就手到擒来了

NCCL源码图解之Primitives类的初始化

Jul 11, 2025

Primitives类是NCCL中最基本的通信行为, 常用的集合通信原语都是这些行为的组合

NCCL源码图解之基本通信算子

Aug 1, 2025

NCCL会将通信原语拆分成更细粒度的primitives op的组合,

CUDA Stream详解

Jun 21, 2025

cuda stream是一个先入先出队列, 用于管理异步操作的并行执行


© 木白 2024 - 2025