RoBERTa瑜??댁슜???쒓뎅??湲곌퀎?낇빐

최윤수,이혜우,김태형,장두성,이영훈,나승훈,Yun Su Choi,Hye-Woo Lee,Tae-Hyeong Kim,Du-Seong Chang,Young-Hoon Lee,Seung-Hoon Na

RoBERTa瑜??댁슜???쒓뎅??湲곌퀎?낇빐

2019

최윤수
이혜우
김태형
장두성
이영훈
나승훈
Yun Su Choi
Hye-Woo Lee
Tae-Hyeong Kim
Du-Seong Chang
Young-Hoon Lee
Seung-Hoon Na

기계독해는 문단에서 주어진 질문에 대한 답을 찾는 자연어처리 task이다. 최근 BERT와 같이 대량의 데이터로 학습한 언어모델을 자연어처리에 이용하는 연구가 진행되고 있다. 본 논문에서는 토크나이징 방식을 형태소와 자소 단위를 결합한 형태 등으로 변경하고 RoBERTa 학습 및 평가를 진행하여 토크나이징 방식에 따른 성능 변화를 보았다. 그리고 BERT를 수정한 RoBERTa 모델을 학습하고 기계독해를 위해 MCAF(Multi-level Co-Attention Fusion)를 결합한 모델을 제안한다. 한국어 기계독해 데이터 셋인 KorQuAD 데이터를 이용하여 실험한 결과 dev 셋에서 EM 87.62%, F1 94.61%의 성능을 보였다.

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations