비감독 학습 뉴럴 언어모형 기반의 문맥의존 철자오류 교정 :Context-sensitive Spelling Error Correction Based on Unsupervised Learning Neural Language Model

이정훈

추천

검색

자료유형: 학위논문

저자정보: 이정훈 (부산대학교, 부산대학교 대학원)

지도교수: 권혁철

발행연도: 2021

저작권: 부산대학교 논문은 저작권에 의해 보호받습니다.

이용수20

이 논문의 연구 히스토리 (8)

2022

한국어 어휘 의미망(alias. KorLex)의 지식 그래프 임베딩을 이용한 문맥의존 철자오류 교정 기법의 성능 향상

이정훈 , 조상현 , 권혁철 멀티미디어학회논문지 2022.03 학술저널

2021

비감독 학습 뉴럴 언어모형 기반의 문맥의존 철자오류 교정

이정훈 정보융합공학과 2021.01 학위논문

2017

통계적 문맥의존 철자오류 교정 기법의 향상을 위한 지역적 문서 정보의 활용

이정훈 , 김민호 , 권혁철 정보과학회 컴퓨팅의 실제 논문지 2017.07 학술저널

Default 연산과 보간을 이용한 통계적 문맥의존 철자오류 교정 기법의 고도화

이정훈 전기전자컴퓨터공 2017.01 학위논문

문맥의존 철자오류 후보 생성을 위한 통계적 언어모형 개선

이정훈 , 김민호 , 권혁철 멀티미디어학회논문지 2017.01 학술저널

2016

지역적 문서 빈도를 이용한 통계적 문맥의존 철자오류 교정 기법의 향상

이정훈 , 김민호 , 권혁철 한국정보과학회 학술발표논문집 2016.12 학술대회자료

말뭉치 간 보간 평탄화를 사용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상

이정훈 , 김민호 , 권혁철 한국정보과학회 학술발표논문집 2016.06 학술대회자료

Default 연산 알고리즘을 적용한 통계적 문맥의존 철자오류 교정 기법의 성능 향상

이정훈 , 김민호 , 권혁철 한국어정보학회 학술대회 2016.01 학술대회자료

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

본 논문은 영어 문서를 대상으로 문맥의존 철자오류 문제를 해결하고자 한다. 철자오류 종류는 두 가지로 단순 철자오류와 문맥의존 철자오류로 나뉜다. 단순 철자오류는 사전의 단어와 매칭만으로 오류를 찾을 수 있기 때문에 교정하기가 쉽지만 문맥의존 철자오류는 교정 대상 단어와 주변 문맥의 관계를 파악해야 오류 유무를 알 수 있기 때문에 교정의 난이도가 높아진다. 문맥오류의 세부 종류로 동음이의어 오류(homophone error), 문자 배열의 오류(typographical error), 문법 오류(grammatical error), 띄어쓰기 오류(cross word boundary error)로 나뉘며, 논문에서는 띄어쓰기 오류를 제외한 문맥의존 철자오류에 해당하는 나머지 오류에 대해서 다룬다. 그리고 문맥의존 철자오류의 검색은 통계적 방식을 사용하며, 최종 교정어 선택은 딥러닝(deep learning) 방식을 사용하여 문맥의존 철자오류 문제를 해결한다. 논문에서는 기존 문맥의존 철자오류 교정에 다뤄지지 않은 여러 뉴럴 언어모형을 교정에 적용 한다. 논문에서 제안하는 뉴럴 언어모형을 이용한 교정 기법은 크게 5가지로 Word embedding 정보 기반의 교정, Contextual embedding 정보 기반의 교정, Auto-regressive(AR) 계열 언어모형 기반의 교정, Auto-encoding(AE) 계열 언어모형 기반의 교정, Encoder- Decoder 계열 언어모형 기반의 교정으로 나뉜다. 본 논문에서는 최근까지 발표된 15가지 뉴럴 언어모형을 이용해서 문맥의존 철자오류 교정 실험을 진행한다. 논문에서는 교정 대상 단어를 기준으로 양방향의 문맥 정보를 참조하여 교정을 실험하며, 단방향으로 들어오는 입력이나 파라미터 조절을 이용한 성능 실험도 진행하였다. 성능의 측정은 오류어 검색(detection), 오류어 교정(correction)을 각각 정확도(precistion), 재현율(recall), F1으로 표현한다. 논문에서는 문맥의존 철자오류 교정 테스트 말뭉치 구축에 관한 내용도 다루며, 웹에서 얻어진 1조 어절로 구성된 말뭉치를 이용해 실제 사용자들의 오류를 추출하여 성능 테스트에서 제시한다.

#뉴럴언어모형 #철자오류

1 서론 1
1.1 연구의 배경과 목적 1
2 관련 연구 6
2.1 문맥의존 철자오류 교정 연구 6
2.2 문맥의존 철자오류 교정 테스트 말뭉치 연구 7
3 문맥의존 철자오류 교정 8
3.1 문맥의존 철자오류 교정 절차 8
3.2 문맥의존 철자오류 검색 기법 9
3.2.1 문맥의존 철자오류 교정에서의 교정 후보어 생성 12
3.2.2 교정 후보어 선택의 고려 사항 14
3.3 문맥의존 철자오류 교정 기법 15
3.3.1 교정 후보어를 이용한 교정어 선택 18
4 문맥의존 철자오류 교정에 사용되는 뉴럴 언어모형 20
4.1 문맥의존 철자오류 교정에 사용되는 전체 뉴럴 언어모형 20
4.2 Word embedding 계열 언어모형 24
4.2.1 문맥의존 철자오류 교정에서의 Glove 24
4.2.2 문맥의존 철자오류 교정에서의 fastText 24
4.2.3 문맥의존 철자오류 교정에서의 ELMo 25
4.3 Auto-encoding 계열 언어모형 25
4.3.1 문맥의존 철자오류 교정에서의 BERT 25
4.3.2 문맥의존 철자오류 교정에서의 RoBERTa 28
4.3.3 문맥의존 철자오류 교정에서의 XLM-RoBERTa 29
4.3.4 문맥의존 철자오류 교정에서의 Longformer 31
4.3.5 문맥의존 철자오류 교정에서의 BigBird 32
4.4 Auto-regressive 계열 언어모형 33
4.4.1 문맥의존 철자오류 교정에서의 GPT 33
4.4.2 문맥의존 철자오류 교정에서의 GPT-2 35
4.4.3 문맥의존 철자오류 교정에서의 GPT-Neo 36
4.5 Permutation 계열 언어모형 36
4.5.1 문맥의존 철자오류 교정에서의 XLNet 36
4.6 Encoder-Decoder 계열 언어모형 38
4.6.1 문맥의존 철자오류 교정에서의 BART 38
4.6.2 문맥의존 철자오류 교정에서의 T5 40
4.6.3 문맥의존 철자오류 교정에서의 LED 42
5 문맥의존 철자오류 교정 테스트 말뭉치 43
5.1 문맥의존 철자오류 교정 테스트 말뭉치 구축 목적 43
5.1.1 실제 오류어 43
a. 오류 후보어의 추출 45
b. 오류 후보어의 실제 생성 48
6 실험 52
6.1 실험 환경 52
6.1.1 오류 테스트 말뭉치 52
6.1.2 문맥의존 철자오류 교정의 성능 측정 방법 53
6.2 실험 결과 54
6.2.1 통계적 언어모형의 오류어 검색 성능 54
6.2.2 Word embedding 계열 언어모형의 성능 비교 54
6.2.3 Auto-encoding 계열 언어모형의 성능 비교 57
a. Auto-encoding 계열 언어모형의 학습 정보 57
b. Auto-encoding 계열 언어모형의 성능 비교 58
c. Auto-encoding 계열 언어모형의 주변 문맥 참조 실험 63
6.2.4 Auto-regressive 계열 언어모형의 성능 비교 64
a. Auto-regressive 계열 언어모형의 학습 정보 64
b. Auto-regressive 계열 언어모형의 성능 비교 65
c. Auto-regressive 계열 언어모형의 주변 문맥 참조 실험 68
6.2.5 Encoder-Decoder 계열 언어모형의 주변 문맥 참조 실험 69
a. Encoder-Decoder 계열 언어모형의 학습 정보 69
b. Encoder-Decoder 계열 언어모형의 성능 비교 70
6.2.6 전체 언어모형의 성능 비교 73
a. 교정 파라미터를 이용한 정확도와 재현율의 조정 74
b. 좌 문맥 정보를 이용한 AR/AE 계열 언어모형의 성능 비교 76
7 결론 및 향후연구 77
참고 문헌

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (8)

초록· 키워드

목차

최근 본 자료

댓글(0)