NVIDIA · athitten · Jan 31, 2025 · Jan 31, 2025 · Feb 4, 2025 · Feb 5, 2025
diff --git a/nemo/lightning/megatron_parallel.py b/nemo/lightning/megatron_parallel.py
@@ -42,6 +42,7 @@
 
 import torch
 import torch.distributed
+from lightning.pytorch.trainer.states import TrainerFn
 from lightning.pytorch.utilities import move_data_to_device
 from megatron.core import parallel_state
 from megatron.core.distributed import DistributedDataParallel as McoreDDP
@@ -564,7 +565,9 @@ def init_model_parallel(self):
         if self.convert_module_fn:
             self.apply_convert_module_fn()
 
-        self.init_ddp()
+        # Skip init_ddp for inference i.e testing as it can lead to OOM.
+        if not self.trainer.state.fn == TrainerFn.TESTING:
+            self.init_ddp()
 
     def apply_convert_module_fn(self):
         for i in range(len(self)):

diff --git a/nemo/lightning/pytorch/strategies/megatron_strategy.py b/nemo/lightning/pytorch/strategies/megatron_strategy.py
@@ -477,11 +477,13 @@ def setup_megatron_parallel(self, trainer: pl.Trainer) -> None:
             convert_module_fn=convert_module_fn,
         )
 
+        # Assign trainer to megatron_parallel before init_model_parallel as its required to check stage of trainer
+        # (TESTING or not) in init_model_parallel.
+        self.megatron_parallel.trainer = trainer
+
         if self._init_model_parallel:
             self.init_model_parallel()
 
-        self.megatron_parallel.trainer = trainer
-
         # check signature-def of self.model.configure_optimizers to check if there's an optional arg: megatron_parallel
         sig = inspect.signature(self.model.configure_optimizers)
         if "megatron_parallel" in sig.parameters: