-
Notifications
You must be signed in to change notification settings - Fork 3
Home
-
-
์ด Wiki๋ P stage 4-OCR ์์์ธ์๊ธฐ ํ๋ก์ ํธ์ ๋ํด์ ์์ ํ๋ ํ์ด์ง์ ๋๋ค.[2021-06-18 Fri] Wiki ๋ด์ฉ ๊ฐฑ์ ๋์์ต๋๋ค.
[2021-06-17 Thur] Wiki ๋ด์ฉ ๊ฐฑ์ ๋์์ต๋๋ค.
[2021-05-27 Thur] Wiki ํ์ด์ง ๊ฐ์คํ์ต๋๋ค.
- ๋ฐ์ฌ์ฐ(JJayy)
- ๐พ์ก๊ด์(remaindere)
- โจ์ ์ฐฌ์ฝ(chanyub)
- ์กฐ์(jo-member)
- ๐ซํ๊ธ์ง(Atica57)
โ ๏ธ ํ์ฌ์ญ(shjas94)
ํ์ ๋๋ถ๋ถ ํ์ ์ ๊ฒฝํ์ด ์ ๋ฌดํ๊ธฐ ๋๋ฌธ์ Pull Request ํน์ Merge์ ๋ํด ๋ฅ์ํ์ง ์์์ต๋๋ค. ํ์ง๋ง ๊ฐ๋ฐ์์๊ฒ ์์ด ํ์ ์ ๋งค์ฐ ์ค์ํ๋ค๊ณ ์๊ฐ๋์ด ํ์ ๋๊ตฌ๋ก ๋๋ฆฌ ์๋ ค์ง Github์ ๊ธฐ๋ฅ์ ์ต๋ํ ํ์ฉํ์ฌ ํ์ ์ ์ํํ๊ฒ ์งํํ๊ณ ์ ํ์ต๋๋ค. ๋ํ Git ์์ฑ ๊ท์น์ ์ ํ๊ณ ์ด์ ๋ฐ๋ฅด๋ฉฐ ํจ์จ์ ์ผ๋ก Git์ ์ฌ์ฉํ๊ณ ์ ํ์ต๋๋ค.
- discussion
discussion ํญ์๋ ๊ฐ ํ์์ด ํ์ต์ ํ๋ฉด์ ์๋ก ๊ณต์ ํ๋ฉด ์ข๊ฒ ๋ค๊ณ ํ๋จ๋๋ ์ ๋ณด, ์ฝ๋ ๋ฑ์ ์์ฑํ์ฌ ์ฌ๋ ธ์ต๋๋ค.
"
- issue
issue ํญ์ ๊ฐ ํ์์ด ํ์ต์ ์งํํ๋ฉด์ ๋ฐ๊ฒฌํ ๋ฌธ์ ์ ์ ์์ฑํ์ฌ ์ฌ๋ ธ์ต๋๋ค.
text detection ๋ฐ text recognition์ ๊ดํ ๋ฐฐ๊ฒฝ์ง์์ ์ป๊ธฐ์ํด ์ฌ๋ฌ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์๋ก ๋ฆฌ๋ทฐํ๋ ์๊ฐ์ ๊ฐ์ก์ต๋๋ค. ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์ ์์ฝ๋ณธ ๋ฆฌ์คํธ๋ ์๋์ ๊ฐ์ต๋๋ค.
- CSTR.pdf
- Misspelling Correction with Pre-trained Contextual Language Model.pdf
- CRNN.pdf
- An_Attentional_Scene_Text_Recognizer_with_Flexible_Rectification.pdf
- CBAM.pdf
- Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks.pdf
- TextBoxes_A Fast Text Detector with a Single Deep Neural Network.pdf
โป EDA file์ ์ฌ๊ธฐ์์ ๋ณด์ค ์ ์์ต๋๋ค.
์ฌ์ ์ ์ฃผ์ด์ง ์ด 10๋ง์ฅ(์ถ๋ ฅ๋ฌผ 5๋ง์ฅ, ์๊ธ์จ 5๋ง์ฅ)์ ํ์ต ๋ฐ์ดํฐ๋ ์ด๋ค ํน์ง์ ๊ฐ๊ณ ์๋์ง ์๊ฐํํ๊ณ ๋ถ์ํ์ต๋๋ค. ์ธ๋ถ์ ์ผ๋ก ์ํํ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์์ sequence ๊ธธ์ด์ ๋ถํฌ
- Aspect Ratio์ ๋ถํฌ
- ์์ ์ด๋ฏธ์ง์ ๋๋น ๋ฐ ๋์ด ๊ฐ ๊ด๊ณ
- ์ฌ์ฉ ๋น๋๊ฐ ๋์ ์์ 20๊ฐ์ token ๋ถํฌ
- level๋ณ ๋ถ์ ๊ฒฐ๊ณผ
-
์์ sequence ๊ธธ์ด์ ๋ถํฌ
์์์ ground truth sequence ๊ธธ์ด์ ๋ถํฌ๋ฅผ ๋ง๋๊ทธ๋ํ๋ก ์๊ฐํํ ๊ฒฐ๊ณผ ํ๊ท ์ ์ผ๋ก 10 ~ 20 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง์ ํ์ธํ์์ต๋๋ค.
-
Aspect Ratio์ ๋ถํฌ
์์์ด๋ฏธ์ง์ ๋์ด ๋๋น ๋๋น์ ๋น์จ ๋ถํฌ๋ฅผ ๋ง๋๊ทธ๋ํ๋ก ์๊ฐํํ ๊ฒฐ๊ณผ ํ๊ท ์ ์ผ๋ก 4.3 ์์ ํ์ธํ์์ต๋๋ค. ์ด๋ฅผ ํตํด, ํ๊ท ์ ์ผ๋ก ์ด๋ฏธ์ง๊ฐ ๋๋น ๊ธธ์ด๊ฐ ๋์ด ๊ธธ์ด๋ณด๋ค ์ฝ 4๋ฐฐ ๋ ๊ธธ๋ค๋ ๊ฒ์ ์ ์ ์์์ต๋๋ค.
-
์์์ด๋ฏธ์ง์ ๋๋น ๋ฐ ๋์ด ๊ฐ ๊ด๊ณ
์์์ด๋ฏธ์ง์ ๋๋น ๋ฐ ๋์ด์ ๊ด๊ณ๋ฅผ seaborn์ jointplot๋ก ์๊ฐํํ ๊ฒฐ๊ณผ ๋์ฒด์ ์ผ๋ก ์ด๋ฏธ์ง๋ ๋๋น์ ๊ธธ์ด๊ฐ ๋์ด๋ณด๋ค ๋ ๊ธด ํํ๋ฅผ ๋๋ ๊ฒ์ ํ์ธํ์์ต๋๋ค.
-
์ฌ์ฉ ๋น๋๊ฐ ๋์ ์์ 20๊ฐ์ token ๋ถํฌ
์์์ ground truth์ ๊ตฌ์ฑํ๋ ์ ์ฒด token ์ค ์ฌ์ฉ ๋น๋๊ฐ ๋์ ์์ 20๊ฐ์ token์ ๋ถํฌ๋ฅผ ๋ง๋๊ทธ๋ํ๋ก ํํํ์ต๋๋ค. ๋ถ์๊ฒฐ๊ณผ ์ค๊ดํธ ๊ธฐํธ๊ฐ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋์์ผ๋ฉฐ ์ํ์ ์ผ๋ก ๋ง์ด ์ฌ์ฉ๋๋ ๊ธฐํธ(ex. 'x', 'y')๋ ์์์ ํ์ธํ์ต๋๋ค. ๋ํ ๋ถ์๋ฅผ ํํํ๋ ๊ธฐํธ(\frac)์ด ์์ 20๊ฐ ์์ ์กด์ฌํ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋ถ์๋ฅผ ์ธ์ํ๋ ๊ฒ์ด ์์ ์ธ์์ ์ ํ๋๋ฅผ ๋์ผ ์ค์ํ token์์ ์์ํ ์ ์์์ต๋๋ค.
-
level๋ณ ๋ถ์ ๊ฒฐ๊ณผ
train dataset์ "level.txt"๋ ์์์ ๋์ด๋ ์ ๋ณด๊ฐ ์ ์ฅ๋์ด์๋ ํ์ผ๋ก์ ๊ฐ ์นผ๋ผ์ (๊ฒฝ๋ก,๋์ด๋)๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๊ฐ๊ฐ 1 - ์ด๋ฑ, 2 - ์ค๋ฑ, 3 - ๊ณ ๋ฑ, 4 - ๋ํ, 5 - ๋ํ ์ด์ ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. level ๋ณ๋ก ์ฃผ๋ก ์ฌ์ฉ๋๋ token์ ์ฌ์ฉ ๋น๋๊ฐ ๋ค๋ฅผ ๊ฒ์ด๊ณ , ์ด์ ๋ฐ๋ผ sequence์ ๊ธธ์ด, aspect ratio ๋ฑ์ ๋ถํฌ๋ ๋ค๋ฅผ ๊ฒ์ด๋ผ ์์ํ์ฌ level ๋ณ EDA๋ฅผ ์งํํ์ต๋๋ค.
-
์์ sequence ๊ธธ์ด์ ๋ถํฌ
5๊ฐ level ๋ชจ๋ ๋์ฒด์ ์ผ๋ก ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ ์์ต๋๋ค. ๋ค๋ง level์ด ๋์์ง ์๋ก sequence ๊ธธ์ด์ ๋ฒ์์ ์ต๋๊ฐ์ด ์ปค์ง๋๋ค. ์ด๋ ๊ณ ํ๋ ์ผ๋ก ๊ฐ ์๋ก ์ข ๋ ๋ณต์กํ ์์์ ์ด์ฉํจ์ ๋ฐ๋ผ sequence์ ๊ธธ์ด๋ ๊ธธ์ด์ง๋ ๊ฒ์ด๋ผ๊ณ ์ ์ถํ ์ ์์ต๋๋ค.
-
Aspect Ratio์ ๋ถํฌ
5๊ฐ level ๋ชจ๋ aspect ratio ํ๊ท ์ด ์ ์ฒด ๋ฐ์ดํฐ์ ์ aspect ratio ํ๊ท ๊ณผ ๋น์ทํจ์ ํ์ธํ์ต๋๋ค. ๋ถํฌ์ ํํ๋ ์กฐ๊ธ์ฉ ์ฐจ์ด๊ฐ ์์ง๋ง ๋์ฒด์ ์ผ๋ก ์ด๋ฏธ์ง์ ๋๋น๊ฐ ๋์ด๋ณด๋ค ๊ธธ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
-
์์์ด๋ฏธ์ง์ ๋๋น ๋ฐ ๋์ด ๊ฐ ๊ด๊ณ
5๊ฐ level ๋ชจ๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๊ทธ๋ํ์ ๊ฐ์ด ๋์ฒด์ ์ผ๋ก ์ด๋ฏธ์ง๋ ๋๋น์ ๊ธธ์ด๊ฐ ๋์ด๋ณด๋ค ๋ ๊ธด ํํ๋ฅผ ๋์ ํ์ธํ์ต๋๋ค. ๋ค๋ง level 5๋ ๋ค๋ฅธ level๋ณด๋ค ๊ฐ์ ๋๋น์ ๋ํด ๋ ๊ธด ๋์ด๋ฅผ ๊ฐ๋ ์ด๋ฏธ์ง๊ฐ ์ข ๋ ๋ง์ด ์กด์ฌํจ์ ์ ์ ์์์ต๋๋ค. ์ด๋ ๊ณ ํ๋ ์ผ๋ก ๊ฐ ์๋ก ๋ณต์กํ ์์(ex. ๋ฏธ๋ถ ๊ธฐํธ)์ ์ฌ์ฉํจ์ ๋ฐ๋ผ ์ด๋ฏธ์ง์ ๋์ด๋ ๊ธธ์ด์ง ํ๋ฅ ์ด ์ปค์ง ๊ฒ์ด๋ผ๊ณ ์ ์ถํด๋ณผ ์ ์์์ต๋๋ค.
-
์ฌ์ฉ ๋น๋๊ฐ ๋์ ์์ 20๊ฐ์ token ๋ถํฌ
๋ถ์ํ ๊ฒฐ๊ณผ ์ค๊ดํธ ๋ฐ ์๊ดํธ ๊ธฐํธ๋ ๋ชจ๋ level์์ ์ฌ์ฉ ๋น๋๊ฐ ๋์์ ํ์ธํ์ต๋๋ค. ๋ํ level์ด ๋์ ์๋ก ๋ณ์ ํํ์ ์ด์ฉ๋๋ ๊ธฐํธ๊ฐ ๋ง์ด ์ฌ์ฉ๋จ์ ํ์ ํ์ต๋๋ค. ์ด๋ ํ์ ๋์ด๋๊ฐ ๋์์ง ์๋ก ์ซ์๋ณด๋ค๋ ๊ธฐํธ๋ฅผ ๋ ๋ง์ด ์ฌ์ฉํจ์ ์ ์ถํ ์ ์์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ level์ ๋ถ์ token์ด ๋ง์ด ์ฌ์ฉํ๋ token ๋ชฉ๋ก์ ํฌํจ๋๋ ๊ฒ์ผ๋ก ๋ณด์ ๋ถ์๋ฅผ ์ธ์ํ๋ ๊ฒ๊ณผ level์ ์๋ก ๊ด๋ จ์ฑ์ด ์๋ค๊ณ ํ๋จํ์ต๋๋ค.
์๋ ๊ทธ๋ฆผ์ ๊ฐ level์ ๋ฐ๋ฅธ ๊ทธ๋ํ๋ฅผ ๋ํ๋ธ ๊ฒ์ ๋๋ค. ๊ฐ level ๋ง๋ค ์ผ์ชฝ์๋ ์์ sequence ๊ธธ์ด ๋ฐ Aspect Ratio์ ๋ถํฌ, ์ฌ์ฉ ๋น๋๊ฐ ๋์ ์์ 20๊ฐ์ token ๋ถํฌ์ ๋ํ ๊ทธ๋ํ๊ฐ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค๋ฅธ์ชฝ์๋ ์์์ด๋ฏธ์ง์ ๋๋น ๋ฐ ๋์ด ๊ฐ ๊ด๊ณ์ ๋ํ jointplot ๊ทธ๋ํ๊ฐ ์์ต๋๋ค.
level 1
level 2
level 3
level 4
level 5
-
EDA ์ํ ๊ณผ์ ์์ ํ์ต์ ์๋นํ ์ํฅ์ ์ค ๊ฒ์ผ๋ก ์์๋๋ ๋ฌธ์ ์ ์ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
- ์ผ๋ถ token์ data ๋ถ์กฑ
์๋์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด train data์ ๋ฑ์ฅํ๋ token๋ค ์ค ๋น๋์๊ฐ ๊ฐ์ฅ ์ ์ 50๊ฐ๋ฅผ ๋ฝ์ ๊ทธ๋ํ๋ก ํ์ธํ์ต๋๋ค. ์ด๋ฅผ ํตํด 10ํ ๋ฏธ๋ง์ผ๋ก ๋ฑ์ฅํ token๋ค์ ๋ํ ์ถ๊ฐ์ ์ธ data๊ฐ ํ์ํ๋ค๊ณ ํ๋จํ์ต๋๋ค. ์ฌ์ดํธ๋ฅผ ํ์ฉํ์ฌ ๋ถ์กฑํ token๋ค์ ํฌํจํ๋ ์์์ trainํ์ผ์ 50๊ฐ ์ ๋์ data๋ฅผ ์ถ๊ฐํด์ฃผ์์ต๋๋ค.
- ์ธ๋ก๋ก ๋ ์์์ด๋ฏธ์ง
์ผ๋ถ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ์ธ๋กํํ์ ์์ ์ด๋ฏธ์ง๊ฐ ์์์ ๋ฐ๊ฒฌํ ์ ์์๊ณ ์ค์ ํ์ตํ ๋ ์ธ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ์ธ์ํ์ง ๋ชปํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
์ด์ ๊ด๋ จํ์ฌ aspect ratio์ ์ฌํ์ธํด๋ณด๋ aspect ratio๊ฐ ์ต์๊ฐ์ธ ์ด๋ฏธ์ง์ธ ๊ฒฝ์ฐ ์์ ๊ฐ์ด ์ธ๋ก๋ก ์ธ์์ง ์ด๋ฏธ์ง์์ ํ์ธํ ์ ์์์ต๋๋ค.
- ์์ ์ด์ธ์ ๋ฐ๊ฒฌ๋๋ ์์
์ผ๋ถ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ ๋ฐฐ๊ฒฝ์ ์ ์ด ๊ทธ์ด์ ธ ์๊ฑฐ๋ ํ๊ดํ ํ์๊ฐ ์๊ฑฐ๋ ํน์ ์์น์ ์ํ ํ์๋ฅผ ํ๋ ๋ฑ ํ์ต๊ณผ์ ์์ ๋ ธ์ด์ฆ(noise)๋ก ์์ฉํ ์ ์๋ ์์๋ค์ ๋ฐ๊ฒฌํ์์ต๋๋ค.
EDA๋ฅผ ํตํด ์ป์ ๊ฒฐ๋ก ์ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
- data์ ์๊ฐ ์ ์ token์ ๋ํด ์ธ๋ถ data๋ฅผ ์ถ๊ฐํด์ฃผ์ด์ผ ํจ
- ์ธ๋ก๋ก ๋ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ์ ์๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํด์ผ ํจ
- ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ(noise)๋ฅผ ์ต๋ํ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํด์ผ ํจ
EDA๋ฅผ ํตํด Aspect Ratio๊ฐ ํ๊ท ์ ์ผ๋ก 4.0์ ๊ฐ๊น๋ค๋ ๊ฒ์ ํ์ธํ์ฌ ๊ธฐ์กด input ์ด๋ฏธ์ง์ ์ฌ์ด์ฆ 128 X 128์์ 100 X 400์ผ๋ก ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ฌ์ค์ (Resize)ํ์ฌ dataset์ ๊ตฌ์ฑํ์์ต๋๋ค.
EDA์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด ์ธ๋ก๋ก ๋ ์ด๋ฏธ์ง์ ์ธ์๋ฅ ์ ๋์ด๊ธฐ ์ํด์๋ ์ด๋ฏธ์ง๋ฅผ 90๋ ๋ฐ์๊ณ(ํน์ ์๊ณ) ๋ฐฉํฅ์ผ๋ก ํ์ ์ํฌ ํ์๊ฐ ์์์ต๋๋ค. ์ ํฌ๋ opencv ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ์ ๊ณตํ๋ rotation ํจ์๋ฅผ ์ด์ฉํด ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฌ์ ์ธ๋ก๋ก ๊ธด ์ด๋ฏธ์ง๋ฅผ 50% ํ๋ฅ ๋ก ์๊ณ๋ฐฉํฅ ํ์ , 50% ํ๋ฅ ๋ก ๋ฐ์๊ณ๋ฐฉํฅ์ผ๋ก ํ์ ํ๋๋ก dataset์ ๊ตฌ์ฑํ์์ต๋๋ค.
rotation๋ฅผ ์ ์ฉํ๋ ์ฝ๋์ ์์๋ [discussion-rotate ์ฐ์ฐ์ ๋ฐ์ํ๋ ๋ฌธ์ ํด๊ฒฐ]๋ฅผ ํตํด์ ํ์ธํ ์ ์์ต๋๋ค.
์ด์งํ(binarization)์ ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ ์ค๋ก์ง ํ๊ณผ ๋ฐฑ์ผ๋ก๋ง ํํํ๋ ๊ฒ์ ๋งํฉ๋๋ค. ์ด์งํ๋ฅผ ํ ๋๋ gray scale์ ์ ์ฉํ ๋ค ์ด์งํ๋ฅผ ์งํํฉ๋๋ค. ์ด์งํ๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ ์ด๋ฏธ์ง์์ ์์ token์ ์ ์ธํ ๋๋จธ์ง ๋ ธ์ด์ฆ(noise)๋ฅผ ์ค์ฌ ํ์ต์ ํจ๊ณผ๋ฅผ ๋ ๋์ผ ์ ์์ต๋๋ค.
์ด์งํ๋ฅผ ์ ์ฉํ๋ ์ฝ๋์ ์์๋ [discussion-์ด์งํ ๋ฐ ๊ฐ๋ก ์ธ๋ก ์ ์ ๊ฑฐ ๋ฐฉ๋ฒ]๋ฅผ ํตํด์ ํ์ธํ ์ ์์ต๋๋ค.
๋ฅ๋ฌ๋ ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ Overfitting ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ๊ฐ์ 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก ์ ๊ทํ(normalization)์์ผฐ์ต๋๋ค.
SATRN์ self-attention mechanism์ ํ์ฉํ์ฌ ์ด๋ฏธ์ง ์์ ํ ์คํธ์ ์๋ ๊ธ์์ two dimensional spatial dependency๋ฅผ ํ์ ํด ํ์ตํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์์์ ์ผ๋ก ๋ฐฐ์น๋ ํ ์คํธ๋ฅผ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ์ ์ธ์ํ๊ณ irregular text ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด์ STR ์๊ณ ๋ฆฌ์ฆ๋ค ๋ณด๋ค ํ๊ท ์ ์ผ๋ก 5.7pp๋งํผ ์์ ๋ค๊ณ ์๋ ค์ ธ์์ต๋๋ค.
๊ทธ๋ฆผ 1. SATRN ๊ตฌ์กฐ ๊ฐ์์ ํฌ๋ ์์ ์ด๋ฏธ์ง์์ ์์๋ก ๋ฐฐ์น๋์ด ์๋ ํ ์คํธ๊ฐ ํ์ต์์ ํฐ ๋น์ค์ ์ฐจ์งํ ๊ฒ์ด๋ผ ์์ํ์ต๋๋ค. ๊ทธ๋์ SATRN์ ๊ธฐ๋ณธ model๋ก ์ ํ๋ฉด์ ๊ตฌ์กฐ ๋ณ๊ฒฝ, optimizer ๋ณ๊ฒฝ ๋ฑ ์ฌ๋ฌ ์กฐ๊ฑด๋ค์ ๋ณ๊ฒฝํ๋ฉด์ ๋ค์ํ ์คํ์ ์งํํ์ต๋๋ค.
-
๊ตฌ์กฐ ๋ณ๊ฒฝ
-
locality-aware feedforward layer
๊ธฐ์กด baseline์ ๊ตฌํ๋ Fully-connected feed forward๋ฅผ ๋ ผ๋ฌธ์์ ์ ์ํ Convolution feed forward๋ก ๊ต์ฒดํ๊ณ ์คํ์ ์งํํ์ต๋๋ค.
-
Adaptive 2D positional Encoding(A2DPE)
๊ธฐ์กด baseline์์ ๊ตฌํ๋ ์ผ๋ฐ์ ์ธ 2D positional encoding์ ๋ ผ๋ฌธ์์ ์ ์ํ ํ์ต๊ฐ๋ฅํ A2DPE์ผ๋ก ๊ต์ฒดํ๊ณ ์คํ์ ์งํํ์ต๋๋ค.
์๋๋ A2DPE๋ฅผ ์ ์ํ ์์์ ๋ํ๋ ๋๋ค.
-
Backbone
Encoder์ backbone์ ๋ค์ํ CNN model์ ์ ์ฉํ์ฌ ์คํ์ ์งํํ์ต๋๋ค. ์ฌ์ฉํ backbone model์ ์๋์ ๋ฆฌ์คํธ์ ๊ฐ์ต๋๋ค.
-
-
Mini SATRN
๋ค์ํ ์คํ์ ๋น ๋ฅด๊ฒ ์งํํ๊ธฐ ์ํด SATRN ์ size๋ฅผ ์ค์ธ ๋ค ์คํ์ ์งํํ์ต๋๋ค.
-
Layer Parameter ์์
-
Decoder Layer ์ ์ฆ๊ฐ
Mini SATRN ์คํํ๊ฒฝ์์ Decoder Layer์ ์๋ฅผ ์ถ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋จ์ ํ์ธํ์ต๋๋ค.
-
Active Function ๊ต์ฒด
Encoder์ backbone์ด ShallowCNN์ธ ์คํํ๊ฒฝ์์ activation function์ ReLU๋์ mish๋ฅผ ์ฌ์ฉํ์ฌ ์คํ์ ์งํํ์ต๋๋ค.
-
-
Optimizer
SATRN model์ ์ ์ฉํ optimizer์ ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Adam
- Adadelta
- AdamW
- AdamP
- MADGRAD
- NAdam
์ด ๋, Mini SATRN ์คํ ํ๊ฒฝ์์ Adam, AdamW, MADGRAD๋ฅผ ๋์์ผ๋ก ์๋์ ํ1๊ณผ ๊ฐ์ด parameter๋ฅผ ์ง์ ํ ๋ค ์คํํ ๊ฒฐ๊ณผ๋ ์๋์ ๊ทธ๋ํ์ ๊ฐ์ต๋๋ค.
optimizer learning rate momentum weight decay eps betas amsgrad Adam 5e-4 X 0 1e-08 (0.9, 0.999) False AdamW 5e-4 X 1e-4 1e-08 (0.9, 0.999) False MADGRAD 5e-4 0.9 1e-4 1e-6 X X
- Beam search
Beam search๋ Greedy search๊ณผ ํจ๊ป ๋ง์ด ์ฌ์ฉ๋๋ ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ฐ step์์ ํ์์ ์์ญ์ K๊ฐ์ ๊ฐ์ฅ ๊ฐ๋ฅ๋๊ฐ ๋์ ํ ํฐ๋ค๋ก ์ ์งํ๋ฉฐ ๋ค์ ๋จ๊ณ๋ฅผ ํ์ํฉ๋๋ค. Beam search๋ Beam ๊ฐ์(K) ๋งํผ ์ถ๋ ฅ๊ฐ์ ๋์ถํ์ฌ ๋ค์์ฑ์ ์ฃผ๊ธฐ ๋๋ฌธ์ ํ๋ฆฐ ๋ต์ ๋ด๋๋๋ผ๋ ๋ค๋ฅธ sequence๋ณด๋ค ๋ ์๋ง๋ ๋ต์ ๋์ถํ์๊ฑฐ๋ผ ์ ์ถํ ์ ์๊ณ ์ด ๊ณผ์ ์ ํตํด ์ต์ ์ ๋ต์ ๊ฐ๊น์์ง ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ K๋ ์ฌ์ฉ์๊ฐ ์ง์ ํ๋ hyper-parameter์ ๋๋ค. K๋ฅผ ํฌ๊ฒํ ์๋ก ๋์ ์์ญ์ ํ์ํด ๋ณด๋ค ์ข์ target sequence๋ฅผ ์์ฑํ ์ ์์ง๋ง, ๊ทธ๋งํผ ์๋๊ฐ ๋๋ ค์ง๊ธฐ ๋๋ฌธ์ ์ ์ ํ๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก 5 ๋๋ 10์ผ๋ก ์ค์ ํ๋ค๊ณ ์๋ ค์ ธ ์์ต๋๋ค.
์ ํฌ๋ ์์ ์ธ์๊ธฐ ํ๋ก์ ํธ์ ์ ํฉํ Beam search ๋ฅผ ๊ตฌํํ๊ธฐ ์ํด token์ ๋ฝ์ ๋ argmax๋ฅผ ์ฌ์ฉํด ๊ฐ step๋ง๋ค beam size K ๋งํผ token์ ๋ฝ์ ์ต๋ํ ์ ํฉํ sequence๋ฅผ ์ ํํ๋ ค ์๋ํ์ต๋๋ค.
- Ensemble
๋ค์ํ augmentation์ ์ ์ฉํ model๋ค์ ํ๋ฒ์ loadํ์ฌ soft voting ๋ฐฉ์์ผ๋ก ensembleํ๋ ค ์๋ํ์ต๋๋ค. ์ด๋ baseline์๋ ์กด์ฌํ์ง ์๋ torch.nograd๋ก memory ๋ฅผ ์ ์ฝํ๊ณ ์ ํ์ต๋๋ค.
- Language Model
Misspelling Correction with Pre-trained Contextual Language Model ์์ ์ ์ํ ์์ด๋์ด๋ฅผ ๋ฐํ์ผ๋ก BERT๋ฅผ ํ๋ก์ ํธ์ ์ ์ฉํด์ ํ์ต์ ์งํํด๋ณด๊ณ ์ ํ์ต๋๋ค.
- Robust Scanner
Robust Scanner๋ RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition์์ ์ ์ํ ๋ชจ๋ธ์ ๋๋ค. ๊ธฐ์กด attention ๊ธฐ๋ฐ text recognition model์ด ์์๋ก ๋ฐฐ์น๋ text ๋ฅผ ์ ์ธ์ํ์ง ๋ชปํ๋ค๋ ํ๊ณ์ ์ ๋ณด์ํ๊ธฐ ์ํด text ๊ธ์์ ์์น ์ ๋ณด๋ฅผ ํ์ต๊ณผ์ ์์ ๋ณด๊ฐํ๋ค๋ ํน์ง์ด ์์ต๋๋ค. ์ด๋ฌํ ์ ์ด ์์์ธ์๊ธฐ์ ๊ธฐํธ๋ฅผ ์ธ์ํ๋๋ฐ ๋์์ด ๋ ๊ฒ์ด๋ผ ์ถ๋ก ํ์ฌ ๋ชจ๋ธ ์ค๊ณ ๋ฐ ๊ตฌํ์ ์๋ํด๋ดค์ต๋๋ค.
๊ฐ๋จํ demo๋ฅผ ๊ฐ๋ฐํจ์ผ๋ก์จ ์ ํฌ์ ์์์ธ์๊ธฐ ํ๋ก์ ํธ๊ฐ ์ค์ ์๋น์ค๋ก ๊ตฌํ๋ ๊ฐ๋ฅ์ฑ์ ๊ฐ์ง์ ๋ณด์ด๊ณ ์ ํ์ต๋๋ค. ๊ฐ๋ฐ์ steamlit ์คํ ์์ค ํ๋ ์์ํฌ๋ฅผ ์ด์ฉํ์ฌ ์น ํ๋ก๊ทธ๋๋ฐ์ ์งํํ์ต๋๋ค. ์ค์ demo ์ฌ์ดํธ ๋งํฌ๋ฅผ ํตํด ์ด๋ฏธ์ง๋ฅผ ์ ๋ก๋ ํ๊ฑฐ๋ ๋ง์ฐ์ค๋ก ์์์ ์จ์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
์๋์ ์ฌ์ง์ ๋งํฌ๋ฅผ ํด๋ฆญํ๋ฉด ๋์ค๋ ์ฒซ ํ๋ฉด์ ๋๋ค.
์๋์ ์ฌ์ง๊ณผ ๊ฐ์ด ํ๋์ ์์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ก๋ํ ๋ค ๋์ถ๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ์ฌ ์ ์์ ์ผ๋ก ์๋ํจ์ ํ์ธํ ์ ์์ต๋๋ค.
ํ ์์ - 12ํ ์ค 5๋ฑ
LB Score
- score : 0.5751
- sentence accuracy : 0.5448
- wer : 0.1528
-