메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이정훈 (부산대학교, 부산대학교 대학원)

지도교수
권혁철
발행연도
2021
저작권
부산대학교 논문은 저작권에 의해 보호받습니다.

이용수20

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (8)

초록· 키워드

오류제보하기
본 논문은 영어 문서를 대상으로 문맥의존 철자오류 문제를 해결하고자 한다. 철자오류 종류는 두 가지로 단순 철자오류와 문맥의존 철자오류로 나뉜다. 단순 철자오류는 사전의 단어와 매칭만으로 오류를 찾을 수 있기 때문에 교정하기가 쉽지만 문맥의존 철자오류는 교정 대상 단어와 주변 문맥의 관계를 파악해야 오류 유무를 알 수 있기 때문에 교정의 난이도가 높아진다. 문맥오류의 세부 종류로 동음이의어 오류(homophone error), 문자 배열의 오류(typographical error), 문법 오류(grammatical error), 띄어쓰기 오류(cross word boundary error)로 나뉘며, 논문에서는 띄어쓰기 오류를 제외한 문맥의존 철자오류에 해당하는 나머지 오류에 대해서 다룬다. 그리고 문맥의존 철자오류의 검색은 통계적 방식을 사용하며, 최종 교정어 선택은 딥러닝(deep learning) 방식을 사용하여 문맥의존 철자오류 문제를 해결한다. 논문에서는 기존 문맥의존 철자오류 교정에 다뤄지지 않은 여러 뉴럴 언어모형을 교정에 적용 한다. 논문에서 제안하는 뉴럴 언어모형을 이용한 교정 기법은 크게 5가지로 Word embedding 정보 기반의 교정, Contextual embedding 정보 기반의 교정, Auto-regressive(AR) 계열 언어모형 기반의 교정, Auto-encoding(AE) 계열 언어모형 기반의 교정, Encoder- Decoder 계열 언어모형 기반의 교정으로 나뉜다. 본 논문에서는 최근까지 발표된 15가지 뉴럴 언어모형을 이용해서 문맥의존 철자오류 교정 실험을 진행한다. 논문에서는 교정 대상 단어를 기준으로 양방향의 문맥 정보를 참조하여 교정을 실험하며, 단방향으로 들어오는 입력이나 파라미터 조절을 이용한 성능 실험도 진행하였다. 성능의 측정은 오류어 검색(detection), 오류어 교정(correction)을 각각 정확도(precistion), 재현율(recall), F1으로 표현한다. 논문에서는 문맥의존 철자오류 교정 테스트 말뭉치 구축에 관한 내용도 다루며, 웹에서 얻어진 1조 어절로 구성된 말뭉치를 이용해 실제 사용자들의 오류를 추출하여 성능 테스트에서 제시한다.

목차

1 서론 1
1.1 연구의 배경과 목적 1
2 관련 연구 6
2.1 문맥의존 철자오류 교정 연구 6
2.2 문맥의존 철자오류 교정 테스트 말뭉치 연구 7
3 문맥의존 철자오류 교정 8
3.1 문맥의존 철자오류 교정 절차 8
3.2 문맥의존 철자오류 검색 기법 9
3.2.1 문맥의존 철자오류 교정에서의 교정 후보어 생성 12
3.2.2 교정 후보어 선택의 고려 사항 14
3.3 문맥의존 철자오류 교정 기법 15
3.3.1 교정 후보어를 이용한 교정어 선택 18
4 문맥의존 철자오류 교정에 사용되는 뉴럴 언어모형 20
4.1 문맥의존 철자오류 교정에 사용되는 전체 뉴럴 언어모형 20
4.2 Word embedding 계열 언어모형 24
4.2.1 문맥의존 철자오류 교정에서의 Glove 24
4.2.2 문맥의존 철자오류 교정에서의 fastText 24
4.2.3 문맥의존 철자오류 교정에서의 ELMo 25
4.3 Auto-encoding 계열 언어모형 25
4.3.1 문맥의존 철자오류 교정에서의 BERT 25
4.3.2 문맥의존 철자오류 교정에서의 RoBERTa 28
4.3.3 문맥의존 철자오류 교정에서의 XLM-RoBERTa 29
4.3.4 문맥의존 철자오류 교정에서의 Longformer 31
4.3.5 문맥의존 철자오류 교정에서의 BigBird 32
4.4 Auto-regressive 계열 언어모형 33
4.4.1 문맥의존 철자오류 교정에서의 GPT 33
4.4.2 문맥의존 철자오류 교정에서의 GPT-2 35
4.4.3 문맥의존 철자오류 교정에서의 GPT-Neo 36
4.5 Permutation 계열 언어모형 36
4.5.1 문맥의존 철자오류 교정에서의 XLNet 36
4.6 Encoder-Decoder 계열 언어모형 38
4.6.1 문맥의존 철자오류 교정에서의 BART 38
4.6.2 문맥의존 철자오류 교정에서의 T5 40
4.6.3 문맥의존 철자오류 교정에서의 LED 42
5 문맥의존 철자오류 교정 테스트 말뭉치 43
5.1 문맥의존 철자오류 교정 테스트 말뭉치 구축 목적 43
5.1.1 실제 오류어 43
a. 오류 후보어의 추출 45
b. 오류 후보어의 실제 생성 48
6 실험 52
6.1 실험 환경 52
6.1.1 오류 테스트 말뭉치 52
6.1.2 문맥의존 철자오류 교정의 성능 측정 방법 53
6.2 실험 결과 54
6.2.1 통계적 언어모형의 오류어 검색 성능 54
6.2.2 Word embedding 계열 언어모형의 성능 비교 54
6.2.3 Auto-encoding 계열 언어모형의 성능 비교 57
a. Auto-encoding 계열 언어모형의 학습 정보 57
b. Auto-encoding 계열 언어모형의 성능 비교 58
c. Auto-encoding 계열 언어모형의 주변 문맥 참조 실험 63
6.2.4 Auto-regressive 계열 언어모형의 성능 비교 64
a. Auto-regressive 계열 언어모형의 학습 정보 64
b. Auto-regressive 계열 언어모형의 성능 비교 65
c. Auto-regressive 계열 언어모형의 주변 문맥 참조 실험 68
6.2.5 Encoder-Decoder 계열 언어모형의 주변 문맥 참조 실험 69
a. Encoder-Decoder 계열 언어모형의 학습 정보 69
b. Encoder-Decoder 계열 언어모형의 성능 비교 70
6.2.6 전체 언어모형의 성능 비교 73
a. 교정 파라미터를 이용한 정확도와 재현율의 조정 74
b. 좌 문맥 정보를 이용한 AR/AE 계열 언어모형의 성능 비교 76
7 결론 및 향후연구 77
참고 문헌

최근 본 자료

전체보기

댓글(0)

0