《贪心科技-分布式高性能深度学习实战》课程简介
一、课程背景
随着大模型与AI应用的快速发展,深度学习对算力的需求急剧增长,单机训练已难以应对海量数据与复杂模型的迭代要求。分布式训练与高性能计算已成为AI工程师和研究员必须掌握的核心能力。
然而,分布式深度学习技术门槛较高,涵盖硬件架构、通信机制、并行策略与调度优化等多方面知识,许多开发者即使熟悉TensorFlow、PyTorch等框架,在实际中仍难以实施高效的训练方案。
本课程旨在系统讲解分布式深度学习的关键理论与实战方法,结合真实案例,帮助学员快速掌握业界主流的高性能训练技术。
二、课程特色
• 聚焦分布式与高性能实战,深入讲解数据并行、模型并行、流水线并行与混合并行等核心方法;
• 结合主流框架与工具,包括PyTorch Distributed、DeepSpeed、Horovod、Megatron-LM等;
• 解析GPU、TPU、InfiniBand、NVLink等硬件加速与优化策略,提升计算效率;
• 强调实战驱动,每模块配备完整实验,涵盖多机多卡训练、大模型并行处理等高端场景;
• 紧跟大模型发展趋势,覆盖大语言模型(LLM)与多模态模型的分布式训练方法。
三、核心内容
1. 基础理论
单机训练瓶颈分析
分布式架构与通信原语(MPI、NCCL、gRPC)
2. 分布式训练方法
数据并行、模型并行、流水线并行
混合并行与优化策略
3. 框架与工具实战
PyTorch DDP分布式训练
DeepSpeed与ZeRO优化
Horovod与Megatron-LM应用
4. 性能优化技术
GPU/TPU硬件加速
高速网络(NVLink、RDMA)
混合精度训练(FP16/BF16)与梯度累积
5. 环境搭建与部署
多机训练集群构建
基于Docker与Kubernetes的分布式部署
云平台实战(AWS、阿里云、华为云)
6. 案例实战
图像分类分布式训练
Transformer模型并行优化
大语言模型(LLM)训练全流程
企业级项目分析与复现
四、适合学员
• 从事深度学习算法开发的工程师与研究人员
• 希望突破单机资源限制的机器学习实践者
• 参与大模型训练与优化的项目组成员
• 具备AI基础、希望深入高性能计算领域的技术人员
五、学习收获
• 掌握分布式深度学习核心原理与实战技能
• 熟练运用PyTorch Distributed、DeepSpeed等主流工具
• 能够搭建与管理多机多卡训练环境
• 具备大模型训练、优化与性能调优的能力
• 积累企业级分布式AI项目实战经验
六、课程总结
本课程系统涵盖从理论到实践的分布式深度学习内容,不仅剖析技术原理,更注重企业级应用实现。完成学习后,学员将能够独立设计和部署高性能训练系统,为投身大模型研发、AI平台构建等前沿方向奠定扎实基础。
课程目录:
├──第01周 开班典礼
| ├──开班典礼1.mp4 70.34M
| ├──开班典礼2.mp4 72.24M
| └──开班典礼3.mp4 73.88M
├──第02周 基础理论及课程介绍
| ├──lecture1.mp4 193.10M
| ├──lecture2.mp4 78.97M
| ├──review1.mp4 53.63M
| ├──review2.mp4 534.13M
| └──review3.mp4 461.56M
├──第03周 并行及分布式框架概述
| ├──01.框架概述
| ├──02.代码实战
| └──03.阅读paper
├──第04周 环境安装与gitlab的使用
| ├──01.环境安装与gitlab的使用
| ├──02.经典并行模式
| └──03.Speaker-Aware Talking-Head Animation
├──第05周 卷积结构及其计算
| ├──01.卷积结构及其计算
| ├──02.EFFICIENT WINOGRAD CONVOLUTION VIA INTEGER ARITHMETIC
| └──03.前后向算法
├──第06周 目标检测算法
| ├──01.目标检测算法
| └──02.Distilling the Knowledge in a Neural Network
├──第07周 Lecture1 NvidiaTensort核心算法和Plugin开发
| ├──Lecture1NvidiaTensort核心算法和Plugin开发
| └──PaperDistillingheKnowledgeinaNeuralNetwork
├──第08周 TensoRT详讲 真实环境下的代码操作
| ├──DynamicetworkSurgeryorEfficientDNNs
| ├──LectureTensoRT详讲真实环境下的代码操作
| └──TensorRTpluginnmsPlugin这个plugin插件的具体
├──第09周 个性化语音合成项目技术概览
| ├──Improving Neural Network Quantization without Retraining using
| ├──Lecture 个性化语音合成项目技术概览
| └──TensorRT SSD 推理
├──第10周 计算图表示及优化
| ├──WorkshopData-Free Knowledge Distillation for Deep Neural Networks
| └──计算图表示及优化
├──第11周 Attention-Based Seq2Seq模型Tacotron2-Lecture
| ├──1-Lecture Attention-Based Seq2Seq模型Tacotron2
| ├──2-Workshop 说话人特征提取技术实现及环境搭建
| ├──3-Workshop Rethinking the Smaller
| └──4-Workshop 代码练习
├──第12周 声码器Wave序列生成算法实战-Lecture
| ├──PAYINGMOREATTENTIONTOATTENTIONIMPROVINGTHEPERFORMANCE.mp4 108.85M
| ├──Tacotron2合成模型实现1.mp4 67.98M
| ├──Tacotron2合成模型实现2.mp4 264.01M
| ├──声码器Wave序列生成算法实战1.mp4 145.60M
| ├──声码器Wave序列生成算法实战2.mp4 200.41M
| ├──声码器Wave序列生成算法实战3.mp4 182.15M
| └──声码器Wave序列生成算法实战4.mp4 211.25M
├──第13周 tensorrt实战
| ├──PerformanceGuaranteedNetworkAccelerationviaHighOrderResidualQuantization.mp4 76.54M
| ├──tensorrt实战1.mp4 191.33M
| ├──tensorrt实战2.mp4 254.88M
| ├──tensorrt实战3.mp4 151.37M
| ├──tensorrt实战4.mp4 328.99M
| └──tensorrt实战5.mp4 306.66M
├──第14周 推荐系统概览
| ├──SimpleResourceConstrainedStructureLearningofDeepNetworks.mp4 129.05M
| ├──常用Attention的实现1.mp4 45.84M
| ├──常用Attention的实现2.mp4 169.23M
| ├──推荐系统概览1.mp4 178.48M
| ├──推荐系统概览2.mp4 133.76M
| ├──推荐系统概览3.mp4 213.96M
| ├──推荐系统概览4.mp4 248.56M
| ├──作业讲解1.mp4 53.28M
| └──作业讲解2.mp4 174.93M
├──第15周 分布式参数服务器
| ├──HorovodfastandeasydistributeddeeplearninginTensorFlow.mp4 86.94M
| ├──Horovodtensorflow应用1.mp4 51.40M
| ├──Horovodtensorflow应用2.mp4 151.94M
| ├──分布式参数服务器1.mp4 148.66M
| ├──分布式参数服务器2.mp4 144.52M
| ├──分布式参数服务器3.mp4 191.63M
| └──分布式参数服务器4.mp4 168.76M
├──第16周 分布式推荐系统实战
| ├──Difacto中SGD算法的实现1.mp4 118.61M
| ├──Difacto中SGD算法的实现2.mp4 83.13M
| ├──DistributedTrainingStrategiesfortheStructuredPerceptron.mp4 147.37M
| ├──Mixed Precision Training.mp4 75.69M
| ├──分布式推荐系统实战1.mp4 108.56M
| ├──分布式推荐系统实战2.mp4 97.75M
| ├──分布式推荐系统实战3.mp4 119.11M
| ├──分布式推荐系统实战4.mp4 74.33M
| ├──分布式推荐系统实战5.mp4 157.52M
| ├──深度学习框架技术-1.mp4 174.45M
| ├──深度学习框架技术-2.mp4 180.86M
| ├──深度学习框架技术-3.mp4 114.47M
| └──深度学习框架技术-4.mp4 108.64M
├──第17周 训练加速高级技术1
| ├──Local SGD Converges Fast and Communicates Little.mp4 125.58M
| ├──TNN高效存储管理机制-1.mp4 111.53M
| ├──TNN高效存储管理机制-2.mp4 130.85M
| ├──训练及预测加速高级技术-1.mp4 48.04M
| ├──训练及预测加速高级技术-2.mp4 110.53M
| ├──训练及预测加速高级技术-3.mp4 81.10M
| ├──训练及预测加速高级技术-4.mp4 130.35M
| ├──训练及预测加速高级技术-5.mp4 76.83M
| └──训练及预测加速高级技术-6.mp4 236.77M
├──第18周 训练及预测加速高级技术
| ├──模型压缩技术实现-1.mp4 68.03M
| ├──模型压缩技术实现-2.mp4 112.17M
| ├──训练加速高级技术1-1.mp4 82.50M
| ├──训练加速高级技术1-2.mp4 70.46M
| ├──训练加速高级技术1-3.mp4 120.09M
| ├──训练加速高级技术1-4.mp4 105.00M
| ├──训练加速高级技术1-5.mp4 166.30M
| └──训练加速高级技术1-6.mp4 140.15M
└──第19周 最后一课
| ├──Fast Locality Sensitive Hashing for Beam Search on GPU.mp4 102.24M
| ├──最后一课-1.mp4 47.56M
| └──最后一课-2.mp4 57.17M
评论0