Interactive lesson~20 minAdvanced

Distributed Training

Distributed training splits model work across many accelerators. The art is keeping devices busy while moving as little data as possible.

DDPFSDPDeepSpeed

Mental model

Training at scale is choreography between compute and communication.

Large models require data parallelism, tensor parallelism, pipeline parallelism, and memory sharding to fit and train efficiently.

Memory fit

balanced

72% modeled signal

Throughput

balanced

58% modeled signal

Scaling efficiency

balanced

59% modeled signal

Concept pipeline

Build the idea in four moves

Interactive lab

Choose a parallelism strategy for a large model.

Shard

Split data, parameters, gradients, or layers.

Model size82

fitshuge

Network speed52

slowfast

Batch size58

smalllarge

Focus lens

The part that usually clicks late

DDP

Replicate models and average gradients across data shards.

Memory fit

Throughput

Scaling efficiency

Knowledge check

What does FSDP mainly shard?

Next horizon

Where this topic is headed

ZeRO stages

Sequence parallelism

Elastic training

Back to all lessons

Distributed Training

Build the idea in four moves

Shard

Compute

Synchronize

Overlap

Choose a parallelism strategy for a large model.

The part that usually clicks late

What does FSDP mainly shard?

Where this topic is headed

Finished this lesson?