Which layer of DINOv2 do you align with? #11

Luciennnnnnn · 2025-01-13T03:04:37Z

Hi, I'm trying to reproduce the training of VA-VAE, which layer of DINOv2 do you align with?

JingfengYao · 2025-01-13T06:30:14Z

@Luciennnnnnn We simply use the last layer.

Luciennnnnnn · 2025-01-13T06:39:22Z

features = self.foundation_model.forward_features(rescale_inputs)["x_norm_patchtokens"]

Luciennnnnnn · 2025-01-13T06:48:05Z

By the way, how do you align the resolution of latent vector and the feature of DINOv2?

JingfengYao · 2025-01-13T06:52:00Z

Here are my implementations:

def get_dinov2_encoder():
    """
    Load the DINOv2 pretrained ViT-L encoder from the timm library.
    """
    model = timm.create_model("hf-hub:timm/vit_large_patch14_dinov2.lvd142m", pretrained=True, dynamic_img_size=True)
    model.requires_grad_(False)
    return model

def forward_dinov2(self, x):
    b, c, h, w = x.shape
    if h == 256 and w == 256:
        x = nn.functional.interpolate(x, size=(224, 224), mode='bilinear', align_corners=False)
    return self.model.forward_features(x)[:, 1:].reshape(b, h//16, w//16, -1).permute(0, 3, 1, 2)

Luciennnnnnn · 2025-01-13T06:57:05Z

Thanks! I want to use a vae with 8x downsampling, what's your opinion on aligning resolution?

JingfengYao · 2025-01-13T07:04:41Z

@Luciennnnnnn DINOv2 should support resolution between 224 to 518. In my case, I would likely begin by feeding a 448-sized image directly into DINOv2. That said, since this configuration remains untested, its efficacy cannot be ascertained at this stage.

Luciennnnnnn · 2025-01-13T07:07:45Z

That's sounds reasonable, I see REPA use same strategy.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Which layer of DINOv2 do you align with? #11

Which layer of DINOv2 do you align with? #11

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025 •

edited

Loading

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025 •

edited

Loading

Which layer of DINOv2 do you align with? #11

Which layer of DINOv2 do you align with? #11

Comments

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025 • edited Loading

Luciennnnnnn commented Jan 13, 2025

JingfengYao commented Jan 13, 2025

Luciennnnnnn commented Jan 13, 2025 • edited Loading

JingfengYao commented Jan 13, 2025 •

edited

Loading

Luciennnnnnn commented Jan 13, 2025 •

edited

Loading