微调模型可以用动作文本描述来控制人物的手部动作吗？ #487

281LinChenjian · 2024-10-19T12:06:28Z

如果对v1.3.0的模型进行一些微调实验，理论上，我可以以精确的手部动作的文本描述来驱动手部吗，是不是对于现有的预训练文本编码器模型来说太难了？

LinB203 · 2024-10-20T03:14:32Z

我认为主要问题还是在于模型参数不够大。当然文本编码器也有点影响。

281LinChenjian · 2024-10-20T12:02:28Z

主要问题还是在于模型参数不够大。当然文本编码器也有点影响。

感觉预训练的MT5或者CLIP模型在这种特定语料的任务上表现效果应该不好，除非把文本编码器重新训练一下。
如果想尝试一下用500个5-10秒左右的视频用两张A100微调的话，大概需要多久会有一个初步的效果呢？

Provide feedback