Add ZeroRedundancyOptimizer to chapters 2 & 3 #44

corey-lambda · 2024-10-21T18:59:15Z

Docs: https://pytorch.org/docs/2.4/distributed.optim.html#torch.distributed.optim.ZeroRedundancyOptimizer

-    optimizer = torch.optim.AdamW(model.parameters(), lr=args.lr)
+    optimizer = ZeroRedundancyOptimizer(
+        model.parameters(),
+        optimizer_class=torch.optim.AdamW,
+        lr=args.lr,
+        fused=True
+    )

Very easy to use and immediately reduces memory usage.

corey-lambda · 2024-10-21T19:18:06Z

This also needs some updates to saving checkpoints:

 if state["global_step"] % args.ckpt_freq == 0:
+    optimizer.consolidate_state_dict(to=0)
     if rank == 0:
         torch.save(optimizer.state_dict(), exp_dir / "optimizer.pt")

However, HUGE CAVEAT:

The consolidate_state_dict transfers between single pair of GPUs at a time. It is VERY slow with llama 8B (taking minutes per GPU).

Not sure if should be recommended for this reason.

corey-lambda added a commit that referenced this issue Oct 21, 2024

#44 Adding ZeroRedundancyOptimizer to ch 2,3

2c7401e

corey-lambda linked a pull request Oct 21, 2024 that will close this issue

Adding ZeroRedundancyOptimizer to ch 2,3 #45

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add ZeroRedundancyOptimizer to chapters 2 & 3 #44

Add ZeroRedundancyOptimizer to chapters 2 & 3 #44

corey-lambda commented Oct 21, 2024

corey-lambda commented Oct 21, 2024 •

edited

Loading

Add ZeroRedundancyOptimizer to chapters 2 & 3 #44

Add ZeroRedundancyOptimizer to chapters 2 & 3 #44

Comments

corey-lambda commented Oct 21, 2024

corey-lambda commented Oct 21, 2024 • edited Loading

corey-lambda commented Oct 21, 2024 •

edited

Loading