Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning
BERT+Linear
情感分类数据集sentiment.zip
1.BERT的结构是 Trans(word_embed + position_embed + token_type_embed) , Trans()代表N层transformer结构,添加VAT产生的噪音noise_embed之后,BERT的结构成为了 Trans(word_embed + position_embed + token_type_embed + noise_embed)。因此当使用Transformers库调用BERT时,需要修改BERT的源码modeling_bert.py来实现对底层编码添加噪音。
2.原版是苏剑林的keras代码,我用torch进行了复现