-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于LCM论文效果的一点疑问 #13
Comments
感谢您认真的阅读和细致的研究!最近由于我在忙着做另一个研究,所以一直没有时间看issue,你提的这个问题确实值得思考,在实验方面,我确实没有尝试使用0.9这么大的smoothing,而是采用了其他工作中常见的设置。我会抽空对你提到的这些实验/设置进行探究,期待后面跟您的进一步探讨! |
好的,期待您的进一步回复~🤝 |
@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~ |
没有,我们提出这个issue之后,就放弃这个任务了,欢迎讨论👏~ |
我这边使用开源的代码实际的效果在82左右 且不同的seed 波动会比较大 |
您好,对代码不理解,LCM是如何进行梯度传播的,它的损失函数是如何定义的吗,有没有torch版本的代码?谢谢了。 |
|
您好,非常感谢您的工作!
我注意到您在计算label_sim_dict时使用了Softmax,与one-hot相加后又使用了一次Softmax。
重复的Softmax会在很大程度上削弱数据的敏感性。
因此,我进行了以下实验,以探究LCM的效果:
在20NG数据集上,我将batch size设为512,alpha设为0.5,其余参数跟您相同,
我发现,将lcm的作用对象从最后一层dense layer之前的input_vec,换到dense layer之后还没过Softmax的pred_score上,结果相比于lcm有两个点的提升。
进一步,我尝试了不使用lcm,用ground truth index直接从label embedding layer取embedding,softmax之后作为label_sim_dict,发现与上述效果相当。
进一步探究之后我发现,这一效果其实等同于将label smoothing设为e=0.9。
在LS上进行实验,效果也与上述情况相当。这样的话,label index位置相对于其他位置差异变小,拟合速度增快,且效果优于lcm。
————————————————————————————————————————
基于上述原因,我想请问,您有试过将lcm和label smoothing更大的情况进行对比吗?论文中得到的结果是因为LCM捕捉到了label之间的关系,还是仅仅相当于设置了更大的label smoothing呢?
仅仅是一些粗浅的意见,希望对您有帮助~😊
The text was updated successfully, but these errors were encountered: