You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
논문 Spelling Error Correction with Soft-Masked BERT
: SATRN이 예측한 결과를 input으로 입력. 10만 개 ground-truth로 사전 학습시키는 중.
각 수식 기호(토큰)의 임베딩 벡터를 구해서 유사도를 측정.
→ ground-truth 레이블링에 시간이 가장 많이 소요될 것으로 예상. 룰베이스로 후처리하는 게 강력할 것 같다. image
encoder와 decoder에 optimizer, lr를 다르게 설정하기
⇒ enc_optimizer, dec_optimizer 따로 선언. 베이스라인에 encoder, decoder를 따로 준 흔적이 있다.
enc_lr은 CosineAnnealing, dec_lr에는 constant lr : ASTER는 디코더가 약해서 lr을 높게 유지해주는 게 좋은 것 같다.
SATRN도 디코더 lr을 높게 유지하는 게 좋을 것 같다.
준철: CNN은 pretrained_model을 쓰기 때문에 lr을 처음부터 작게 주고, decoder만 빠르게 학습시켜야 하지 않을까??
지형: DST에서 BERT를 쓸 때는 enc_lr * 50 = dec_lr 으로 했는데, 이번에는 이미지 → 언어 니까 enc_lr도 너무 낮게 하면 안 되지 않을까?
주영: CNN은 lr=1e-4, 5e-5 정도일 때 학습을 잘 함.
학습 중에 GPU 메모리 사용량이 점점 증가하는 이유가 궁금합니다. 에폭이 지날수록 점점 사용량이 증가해서 터집니다..😂
서버 제출 방식으로 바뀌어서 궁금한 점이 있습니다. code/inference.py에 앙상블 코드를 추가한 뒤 서버를 저장해서 제출하는 게 맞을까요??
(여러 개의 .pth 파일을 서버에 올리면 서버 저장이 안정적으로 될까요..?? 지금 .pth 파일 하나만 올려놔도 서버 저장이 잘 안 됩니다.)
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
제출용 모델 k-fold 돌리기
실험결과 & 진행 상황
dataset.py - valid_dataset - batch_size = 64 or 128로 수정하면 빠름!
후처리 모델 고민 : 지형.준구오빠
논문 Spelling Error Correction with Soft-Masked BERT
: SATRN이 예측한 결과를 input으로 입력. 10만 개 ground-truth로 사전 학습시키는 중.
각 수식 기호(토큰)의 임베딩 벡터를 구해서 유사도를 측정.
→ ground-truth 레이블링에 시간이 가장 많이 소요될 것으로 예상. 룰베이스로 후처리하는 게 강력할 것 같다.
image
encoder와 decoder에 optimizer, lr를 다르게 설정하기
⇒ enc_optimizer, dec_optimizer 따로 선언. 베이스라인에 encoder, decoder를 따로 준 흔적이 있다.
enc_lr은 CosineAnnealing, dec_lr에는 constant lr : ASTER는 디코더가 약해서 lr을 높게 유지해주는 게 좋은 것 같다.
SATRN도 디코더 lr을 높게 유지하는 게 좋을 것 같다.
준철: CNN은 pretrained_model을 쓰기 때문에 lr을 처음부터 작게 주고, decoder만 빠르게 학습시켜야 하지 않을까??
지형: DST에서 BERT를 쓸 때는 enc_lr * 50 = dec_lr 으로 했는데, 이번에는 이미지 → 언어 니까 enc_lr도 너무 낮게 하면 안 되지 않을까?
주영: CNN은 lr=1e-4, 5e-5 정도일 때 학습을 잘 함.
⇒ CNN_lr = 1e-4 ( CosineAnnealing ) & enc_lr = 5e-4 ( constant ) 로 나눠보기!!
My_SATRN : tf_ratio = 1.0, augmentation p값 낮게, 20 에폭만 해도 validation score = 0.78 정도.
50에폭은 비효율적인 듯.
Deep ASTER → 앙상블 보조재료로 사용할 수 있을 듯.
멘토링 질문 준비하기
(여러 개의 .pth 파일을 서버에 올리면 서버 저장이 안정적으로 될까요..?? 지금 .pth 파일 하나만 올려놔도 서버 저장이 잘 안 됩니다.)
Beta Was this translation helpful? Give feedback.
All reactions