| ๊ฐ์ | ์ค๋ช |
|---|---|
| ์ฃผ์ | ๋ฌธ์ฅ ๊ฐ ์ ์ฌ๋ ์ธก์ (STS): ๋ ๋ฌธ์ฅ์ด ์๋ฏธ์ ์ผ๋ก ์ผ๋ง๋ ์ ์ฌํ์ง๋ฅผ ์์นํํ๋ ์์ฐ์ด ์ฒ๋ฆฌ ํ์คํฌ |
| ๋ฐ์ดํฐ์ | ํ์ต ๋ฐ์ดํฐ์
: 9,324๊ฐ, ๊ฒ์ฆ ๋ฐ์ดํฐ์
: 550๊ฐ, ํ๊ฐ ๋ฐ์ดํฐ์
: 1,100๊ฐ ํ๊ฐ ๋ฐ์ดํฐ์ 50%๋ Public ์ ์ ๊ณ์ฐ์ ํ์ฉ๋์ด ์ค์๊ฐ ๋ฆฌ๋๋ณด๋์ ํ๊ธฐ, ๋จ์ 50%๋ Private ๊ฒฐ๊ณผ ๊ณ์ฐ์ ํ์ฉ |
| ํ๊ฐ | 0๊ณผ 5์ฌ์ด์ ์ ์ฌ๋ ์ ์๋ฅผ ์์ธก ํผ์ด์จ ์๊ด๊ณ์(Pearson Correlation Coefficient, PCC) ์งํ |
| ๊ฐ๋ฐ ํ๊ฒฝ | GPU: Tesla V100 Sever 4๋, IDE: Vscode, Jupyter Notebook |
- ๋ฐ์ดํฐ ๋ถํฌ ๋ฐ ํน์ฑ ๋ถ์
- ๋ง์ถค๋ฒ: hanspell library๋ฅผ ์ด์ฉํด ๋ง์ถค๋ฒ ๊ฒ์ฌ ์งํ(~, ^^ ๋ฑ๋ ์ ๊ฑฐ), ๋ฐ๋ณต ๋ฌธ์ ์ ๊ฑฐ
- ๋ฐ์ดํฐ balancing: Label ๊ฐ์ 0๋ถํฐ 5๊น์ง์ ์ ์ ๋จ์๋ก ๋๋์์ ๋ ๋ถํฌ๋ฅผ ์ดํด๋ณธ ํ, 0์ ์ ์ธํ ๋จ์์ ๋ฐ์ดํฐ ๊ฐ์๊ฐ ์ฝ 2000๊ฐ๊ฐ ๋๋๋ก drop/duplication/swap ์งํ
- Swap sentence: ๋ ๋ฌธ์ฅ์ [SEP] ํ ํฐ ์ค์ฌ์ผ๋ก concatํ๊ธฐ ๋๋ฌธ์ ์์๋ฅผ ๋ฐ๊พธ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ค๋ฅธ tokenizer๊ฐ ์์ฑ๋ ์ ์์ผ๋ฏ๋ก, swap ํตํด ์๋ก์ด ๋ฐ์ดํฐ ์ฆ๊ฐ
- Duplication: Label 0 ๋ฐ์ดํฐ์ ๊ท ํ์ ๋ง์ถ๋ ๊ณผ์ ์์ dropํ ๋ฐ์ดํฐ ์ผ๋ถ๋ฅผ ํ์ฉํ์ฌ sentence_2 ์์น์ sentence_1์ ๊ทธ๋๋ก ์ฌ์ฉํด ๋์ผํ ๋ฌธ์ฅ์์ ๋ง๋ค๊ณ label์ 5๋ก ์ฃผ์ด ์ฆ๊ฐ
- Adverb insertion, Random insertion: ๋ค์ ํ๊ตญ์ด ์ฌ์ ์์ ๋ถ์ฌ๋ฅผ ๊ฒ์ํ ๊ฒฐ๊ณผ๋ก ๋ถ์ฌ๋ฅผ ๊ต์ฒดํ๊ฑฐ๋, BERT based ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์๋ฏธ์ ์์ฐ์ค๋ฌ์ด ํ ํฐ์ random์ผ๋ก ์ฝ์ ํ๊ฑฐ๋ ๋์ฒดํ์ฌ ์ฆ๊ฐ
| Data Version | ๋ฒ์ ์ค๋ช | |
|---|---|---|
| v1 | ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ + Swap Sentence + Duplication | |
| v2 | v2 | v1 + adverb insertion |
| v2.1 | v1 + random insertion | |
| v2.2 | ์ด์ฐฝ๊ธฐ ์ ์ฒ๋ฆฌ + adverb_insertion | |
| v2.3 | ์ด์ฐฝ๊ธฐ ์ ์ฒ๋ฆฌ + random_insertion | |
| v3 | v3 | label_balancing(random seed = 42) |
| v3.1 | label_balancing(random seed = 123) | |
| v3.2 | v3 + adverb insertion | |
| v3.3 | v3 + random insertion |
๋ชจ๋ธ ๋ถ์ ๋ฐ ์ฑ๋ฅ ๊ฐ์
- ๋ชจ๋ธ ๋ณ [UNK] tokenize ๋ถ์
- ์ฌ์ฉํ ๋ชจ๋ธ
- Roberta
- klue/roberta-large, klue/roberta-base, klue/roberta-small
- Electra
- monologg/koelectra-base-dicriminator, monologg/koelectra-base-v3-dicriminator
- snulp/KR-ELECTRA-dicriminator
- beomi/KcELECTRA-base-v2022
- deberta
- team-lucid/deberta-v3-base-korean, team-lucid/deberta-v3-xlarge-korean
- Roberta
- cosine annealing Warmup Restart๋ฅผ ์ฌ์ฉํ์ฌ ์ด๊ธฐ์๋ lr๋ฅผ ๋น ๋ฅด๊ฒ ์์น์์ผ ์๋ ด ์๋๋ฅผ ๋น ๋ฅด๊ฒ ํ๊ณ , epoch์ด ๋์ด๋ ์๋ก lr๋ฅผ ์ค์ฌ ๋ฏธ์ธ์กฐ์ ๋๊ฒ๋ ํ์๋ค.
- val_pearson์ ๊ธฐ์ค์ผ๋ก pearson์ด ๋จ์ด์ง๋ฉด ํ์ต์ ์ค๋จํด ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ณ ์ ํ์๋ค.
- ๋ฐ์ดํฐ์ ์ต๋ช ํ๋ฅผ ์ํด ์ด๋ฆ์ด ์ผ๋ก ์นํ๋์ด ์๋ ๊ฒ์ ๋ชจ๋ธ์๊ฒ ์ธ์์ํค๊ธฐ ์ํด ํ ํฐ์ ๋ช ์์ ์ผ๋ก ํ ํฌ๋์ด์ ์ ์ถ๊ฐํ์๋ค.
- tokenizer max_length๋ฅผ ๋ฐ์ดํฐ ๊ธธ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ์ง์ ํจ์ผ๋ก์จ ํ์ต ์ ๋ฉ๋ชจ๋ฆฌ ์ฉ๋์ ์ค์ฌ ํฐ ๋ชจ๋ธ์ ํ์ตํ ๊ฒฝ์ฐ ๋ฐฐ์น ์ฌ์ด์ฆ ํฌ๊ธฐ๋ฅผ ํค์ ํ์ต ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
- binary-label์ ํ์ต์ ํ์ฉํ๊ณ ์ model์ ์์ํ์ธ [CLS] ์๋ฒ ๋ฉ์ label์ ์์ธกํ๋ regression ๋ชจ๋ธ์ ์ ๋ ฅํ๊ณ , ๋์์ binary-label์ ์์ธกํ๋ classification ๋ชจ๋ธ์ ์ ๋ ฅํด ๋๊ฐ์ ์์ํ์ ๋ํด ๊ฐ๊ฐ์ loss๋ฅผ ๊ตฌํ ํ ๋ํ ์ต์ข Loss๋ฅผ ์ด์ฉํด ์ ์ฒด๋ฅผ ํ์ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ pearson ์ ์์ ์์น์ ๋ฏธ๋ฏธํ์ผ๋ ํ์ต ์๋ ด์๋๋ ์ฆ๊ฐํ์๋ค.
- ํ์ ๋ ์ด์ด๋ฅผ ํ์ฉํ๋ฉด ๋จ์ด ๋จ์์ ์ธ๋ถ ์ ๋ณด๋ฅผ ํตํด ์ ์ฌ๋ ์ธก์ ์ ๋์์ด ๋ ๊ฒ์ด๋ผ ์๊ฐํ๊ณ , ๊ฐ ๋ ์ด์ด์ ์ํ์ค ์๋ฒ ๋ฉ์ ํ๊ท ํด CNN์ผ๋ก ๊ฐ์คํฉํ์ฌ Head ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํ์ ๋ ์ด์ด๋ฅผ ์ด์ฉํ fine-tuning์ผ๋ก train๊ณผ val loss๊ฐ ๊ฐ์ํ๋ฉด์ ์ํญ ์์น์ ์ป์๊ณ , ์ด๋ฏธ ์์ธํ ์ ๋ณด๊ฐ ๋ด๊ธด BERT ์ธ์ฝ๋ ๋๋ถ์ ํฐ ์์น์ ์์์ง๋ง ํ์ ์ ๋ณด๋ฅผ ํ์ฉํด ์ ์๋ฅผ ์กฐ๊ธ ์์น์ํฌ ์ ์์๋ค.
- WandB๋ก ๊ธฐ๋ก๋ ํ์ต Loss๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋ชจ๋ธ๋ณ pearson ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค. ์๋จ ๋๊ฐ์ ๋ชจ๋ธ์ multi-task learning์ผ๋ก binary-label์ ๋ํ classification acc๋ ํ์ธ ๊ฐ๋ฅํ๋ค.
- ๋์ฒด๋ก ์ ์ฌํ๊ฒ ์์ธก๋๋ ์์ธก์ด ๊ฐ๋ฆฌ๋ ๊ฒ๋ค์ ๋ํด์๋ ์์๋ธ์ ํตํด ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ ๋ ์ ์์ ๊ฒ์ผ๋ก ์์๋๋ค.
-
๋ชจ๋ธ ๋ณ๋ก ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ ๊ฒฝ์ฐ์ output์ ์์๋ธ์ ํ์ฉํ์๋ค. roberta์ ๊ฒฝ์ฐ ์ ์ถ ์ ์ ์๋ก ๋ณด์์ ๋ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ํ๋จํ์ฌ loss๊ฐ ๋ค๋ฅธ ๋ ๋ฒ์ ์ ํ์ฉํ์๋ค.
๋ชจ๋ธ๋ช Batch_size Learning Rate Epoch Data version Test Score Model Loss team-lucid/deberta-v3-xlarge-korean_2 16 2e-5 5 v3.1 0.96516 deberta MSE beomi/KcELECTRA-base-v2022_1 128 5e-5 30 v3.3 0.9348 kr-electra MSE team-lucid/deberta-v3-base-korean_1 64 2e-5 20 v1 0.9309 deberta MSE Roberta-large_11 16 5e-6 20 v1 0.9291 roberta L1Loss Roberta-large_12 64 5e-6 20 v1 0.9286 roberta MSE snunlp-KR-ELECTRA-discriminator_w. Multi-task_9 32 2e-5 20 v2.1 0.92785 kr-electra MSE -
์์๋ธ์ ๊ฒฝ์ฐ ๊ตฌํํ๊ธฐ ์ฌ์ด ๋ชจ๋ output.csv์ ํ๊ท ์ ๊ตฌํ๋ ๋ฐฉ์๊ณผ, output.csv๋ฅผ ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ ์คํํน ๋ฐฉ์์ ์๋ํ์๋ค. ์ต์ข ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ผ๋ฉฐ, ๊ฐ์ ํ๊ฐ ์ ์๋ฅผ ๋ฐ์๋ค.
- ํ๊ฐ ๋ฐ์ดํฐ ์ผ๋ถ์ ๋ํ ์ ์๋ 0.9284๋ก 1๋ฑ์ด 0.94์ธ ๋นํด ๋ฎ์ ํธ์ด์์ผ๋, ์ค๊ฐ ์ ์์ ๊ณผ์ ํฉ ์ํค๊ฑฐ๋ ๊ณผ๋ํ ์์๋ธ์ ํ์ง ์์๊ธฐ์ ์ต์ข ์ ์๊ฐ ๋์์ง ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
- ๋ฆฌ๋๋ณด๋ [์ค๊ฐ ์์]
- ๋ฆฌ๋๋ณด๋ [์ต์ข ์์]















