About SyncNet #90

YYY7C · 2024-11-26T14:58:25Z

为什么 SyncNet训练时不用进行optimizer.zero_grad()？

qwert1887 · 2024-11-27T06:19:58Z

我试过加上optimizer.zero_grad(set_to_none=True)后，loss会很小，偶尔会报错。尝试改动train.py中相应的10*sync_loss,区别不太大。也想知道作者大大累加梯度的本意

YYY7C · 2024-11-27T06:28:28Z

我试过加上optimizer.zero_grad(set_to_none=True)后，loss会很小，偶尔会报错。尝试改动train.py中相应的10*sync_loss,区别不太大。也想知道作者大大累加梯度的本意

加上optimizer.zero_grad()后训练大约十来个epoch就可以收敛了，因为只有单个样本。
同时我注意到在整个网络的训练中也进行了梯度累积，尝试清零后也可以正常收敛。

qwert1887 · 2024-11-27T07:27:43Z

我试过加上optimizer.zero_grad(set_to_none=True)后，loss会很小，偶尔会报错。尝试改动train.py中相应的10*sync_loss,区别不太大。也想知道作者大大累加梯度的本意

加上optimizer.zero_grad()后训练大约十来个epoch就可以收敛了，因为只有单个样本。同时我注意到在整个网络的训练中也进行了梯度累积，尝试清零后也可以正常收敛。

请教下，意思是说整个unet的训练也梯度累积了么？清零后是不是可以保证质量的情况下缩短训练时长呢？

YYY7C · 2024-11-27T10:45:51Z

我试过加上optimizer.zero_grad(set_to_none=True)后，loss会很小，偶尔会报错。尝试改动train.py中相应的10*sync_loss,区别不太大。也想知道作者大大累加梯度的本意

加上optimizer.zero_grad()后训练大约十来个epoch就可以收敛了，因为只有单个样本。同时我注意到在整个网络的训练中也进行了梯度累积，尝试清零后也可以正常收敛。

请教下，意思是说整个unet的训练也梯度累积了么？清零后是不是可以保证质量的情况下缩短训练时长呢？

是的，我感觉清零后效果是可以接受的，下面这个是简单尝试的，用的wenet，因为训练时是英文的，用英文的测试感觉更自然，那个视频太大了发不上来。

6bcbf4f8a55c07cb5f1a055cb65511b8.mp4

qwert1887 · 2024-11-28T07:23:59Z

感谢，这么说还是可以尝试下的，口型中英文训练的互泛性本身就不太好

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

About SyncNet #90

About SyncNet #90

YYY7C commented Nov 26, 2024

qwert1887 commented Nov 27, 2024

YYY7C commented Nov 27, 2024

qwert1887 commented Nov 27, 2024

YYY7C commented Nov 27, 2024

qwert1887 commented Nov 28, 2024

About SyncNet #90

About SyncNet #90

Comments

YYY7C commented Nov 26, 2024

qwert1887 commented Nov 27, 2024

YYY7C commented Nov 27, 2024

qwert1887 commented Nov 27, 2024

YYY7C commented Nov 27, 2024

qwert1887 commented Nov 28, 2024