Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于LCM论文效果的一点疑问 #13

Open
hemingkx opened this issue Mar 23, 2021 · 7 comments
Open

关于LCM论文效果的一点疑问 #13

hemingkx opened this issue Mar 23, 2021 · 7 comments

Comments

@hemingkx
Copy link

您好,非常感谢您的工作!
我注意到您在计算label_sim_dict时使用了Softmax,与one-hot相加后又使用了一次Softmax。
重复的Softmax会在很大程度上削弱数据的敏感性。

因此,我进行了以下实验,以探究LCM的效果:
在20NG数据集上,我将batch size设为512,alpha设为0.5,其余参数跟您相同,
我发现,将lcm的作用对象从最后一层dense layer之前的input_vec,换到dense layer之后还没过Softmax的pred_score上,结果相比于lcm有两个点的提升。
进一步,我尝试了不使用lcm,用ground truth index直接从label embedding layer取embedding,softmax之后作为label_sim_dict,发现与上述效果相当。
进一步探究之后我发现,这一效果其实等同于将label smoothing设为e=0.9。
在LS上进行实验,效果也与上述情况相当。这样的话,label index位置相对于其他位置差异变小,拟合速度增快,且效果优于lcm。

————————————————————————————————————————
基于上述原因,我想请问,您有试过将lcm和label smoothing更大的情况进行对比吗?论文中得到的结果是因为LCM捕捉到了label之间的关系,还是仅仅相当于设置了更大的label smoothing呢?

仅仅是一些粗浅的意见,希望对您有帮助~😊

@beyondguo
Copy link
Owner

感谢您认真的阅读和细致的研究!最近由于我在忙着做另一个研究,所以一直没有时间看issue,你提的这个问题确实值得思考,在实验方面,我确实没有尝试使用0.9这么大的smoothing,而是采用了其他工作中常见的设置。我会抽空对你提到的这些实验/设置进行探究,期待后面跟您的进一步探讨!

@hemingkx
Copy link
Author

好的,期待您的进一步回复~🤝

@chosenone75
Copy link

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

@hemingkx
Copy link
Author

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

没有,我们提出这个issue之后,就放弃这个任务了,欢迎讨论👏~

@chosenone75
Copy link

@hemingkx 请教一下 您可以复现LCM在 20NG这个数据集上的效果吗 基于bert的实验~

没有,我们提出这个issue之后,就放弃这个任务了,欢迎讨论👏~

我这边使用开源的代码实际的效果在82左右 且不同的seed 波动会比较大

@nicoyang-21
Copy link

您好,对代码不理解,LCM是如何进行梯度传播的,它的损失函数是如何定义的吗,有没有torch版本的代码?谢谢了。

@Josoope
Copy link

Josoope commented Dec 10, 2024

您好,对代码不理解,LCM是如何进行梯度传播的,它的损失函数是如何定义的吗,有没有torch版本的代码?谢谢了。
你好,请问你有torch版本的代码了吗

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants