训练损失出现nan的问题 #27

FangJingYunner · 2023-04-20T09:02:57Z

您好，我用您的代码训练自己采集的旋转目标检测数据集。数据集中不一定是每一张图都有旋转目标检测的标注。但是网络在计算损失的时候有时候会出现一些变量是nan的情况，比如offset0，loss_fg,loss_neg是nan的情况。而且这个还时好时坏的，有的时候网络参数或者训练策略改改就不会有，有的时候在某些网络参数下训练了几百个step就会出现nan

FangJingYunner · 2023-04-21T06:04:59Z

好吧，现在定位到是这一句代码出了问题，这个变量会在网络的头几个step就变得很大，最后溢出导致错误。有什么解决办法吗？

GGHL/modelR/head/head_GGHL.py

Line 31 in 5081a96

pred_l1234 = torch.exp(conv_raw_l1234) * stride ##l1-l4, 上-右-下-左

Crescent-Ao · 2023-04-25T02:13:30Z

请问有更加详细的log记录吗，这边帮你排查一下

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练损失出现nan的问题 #27

训练损失出现nan的问题 #27

FangJingYunner commented Apr 20, 2023

FangJingYunner commented Apr 21, 2023

Crescent-Ao commented Apr 25, 2023

训练损失出现nan的问题 #27

训练损失出现nan的问题 #27

Comments

FangJingYunner commented Apr 20, 2023

FangJingYunner commented Apr 21, 2023

Crescent-Ao commented Apr 25, 2023