木白's 技术小屋, 专注于大模型Infra & 分布式通信
随着大模型参数量以及训练数据量的不断增长, 显存根本不够用, 另外也为了加速计算, 出现了多种并行策略, 如TP, PP, DP, SP, EP等
© 木白 2024 - 2025