인공지능 각 분야별 관련 용어를 정리해 보고자 합니다.
조금씩 작성되는 글인만큼, 미완성된 글에 대한 양해를 부탁드립니다.
Q. 자연어처리(Natural Language Processing) 모델이란 무엇인가요?
A.
자연어처리 모델은 자연어를 입력받아 해당 입력이 특정 범주일 확률을 구하고, 이 확률값을 이용해 자연어 형태로 가공해 반환하는 모델입니다.
Q. 트랜스퍼 러닝(Transfer Learning, 전이학습)이란 무엇인가요?
A.
특정 태스크를 학습한 모델을 다른 태스크를 수행하기 위해 재사용하는 기법입니다. 기존 모델에서의 파라미터를 활용하여 새로운 모델을 만드는데 활용할 수 있습니다. 트랜스퍼 러닝을 적용하면 기존 모델보다 더 빠르고 태스크를 잘 수행하는 경향이 있습니다.
Q. 업스트림 태스크(Upstream Task)란 무엇인가요?
A.
트랜스퍼 러닝에 사용이 되는 태스크로 NLP에서는 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치의 문맥을 모델에 내재화하는 태스크라고 할 수 있습니다.
Q. 언어 모델(Language Model)이란 무엇인가요?
A.
언어 모델은 단어의 시퀀스에 확률을 부여하는 모델입니다. 다음 단어 시퀀스를 입력받아 얼마나 그럴듯한지 확률을 출력하게 됩니다. 다음 단어 맞히기로 Pre-training된 대표적인 모델로 GPT가 있습니다.
Q. 빈 칸 채우기로 업스트림 태스크를 수행한 모델이 무엇인가요?
A.
마스크 언어 모델(Masked Language Model) 이라고 합니다. 마스크 언어 모델로 Pre-training 된 대표적인 모델로 BERT가 있습니다.
Q. 다운스트림 태스크(Downstream Task)란 무엇인가요?
A.
업스트림 태스크를 활용하여 자연어 처리의 구체적인 과제를 해결하는 것입니다. 문서 분류, 자연어 추론, 개체명 인식, 질의 응답, 문장 생성 등이 있습니다.
Q. 문서 분류 모델은 무엇인가요?
A.
문장 또는 문서를 입력받아 해당 입력이 어떤 범주(긍정, 중립, 부정 등)에 속하는지 확률값을 반환하는 것을 말합니다.
Q. 자연어 추론 모델은 무엇인가요?
A.
두 개의 문장을 입력받아 두 문장 사이의 관계가 참, 거짓, 중립 등 어떤 범주인지 확률값을 반환합니다.
Q. 개체명 인식 모델은 무엇인가요?
A.
자연어를 입력받아 각 단어별로 어떤 개체명 범주에 속하는지 확률값을 반환하는 모델입니다. 쉽게 말해 단어를 보고 그 단어가 사람인지, 사물인지, 시간을 나타내는지 등 어떤 유형인지 인식하는 모델입니다.
Q. 질의응답 모델은 무엇인가요?
A. 자연어(질문+지문)을 입력받아 각 단어가 정답의 시작과 끝일 확률을 반환합니다. "... 한글이 창제된 연도는 언제일까? 한글은 1443년에 창제되어 ..." 에서 '1443년'을 찾는 모델이라 할 수 있습니다.
Q. 문장 생성 모델은 무엇인가요?
A.
문장을 입력 받아 어휘 전체에 대한 확률값을 반환합니다. 이를 통해 다음 단어를 생성합니다. 최근 GPT 계열 언어 모델로 널리 활용되고 있습니다.
Q. 다운스트림 태스크를 학습하는 방식은 어떤게 있나요?
A.
대표적인 방법으로 파인튜닝(Fine-tuning)이 있으며, 최근 프롬프트 튜닝(Prompt Tuning), 인컨텍스트 러닝(In-context Learning)이 주목받고 있습니다.
Q. 파인튜닝(Fine-tuning)이란 무엇인가요?
A.
다운스트림 태스크 데이터 전체를 사용하는 대표적인 트랜스퍼 러닝 기법입니다. 다운스트림 데이터에 맞게 모델 전체를 업데이트 합니다.
Q. 프롬프트 튜닝(Prompt Tuning)이란 무엇인가요?
A.
다운스트림 태스크 데이터 전체를 사용하는 것은 파인튜닝과 같습니다. 하지만 다운스트림 데이터에 맞게 모델을 일부만 업데이트 하게 됩니다.
Q. 인컨텍스트 러닝(In-context Learning)이란 무엇인가요?
A.
다운스트림 태스크 데이터의 일부만 사용하며, 모델을 업데이트 하지 않습니다. 제로샷 러닝, 원샷 러닝, 퓨샷 러닝 3가지 방식을 갖고 있습니다.
Q. 제로샷 러닝(zero-shot Learning)이란 무엇인가요?
A.
다운스트림 태스크 데이터를 전혀 사용하지 않는 학습 방법입니다. 모델이 바로 다운스트림 태스크를 수행하게 됩니다.
Q. 원샷 러닝(one-shot Learning)이란 무엇인가요?
A.
다운스트림 태스크 데이터를 1건만 사용하게 됩니다. 모델은 1건의 데이터가 어떻게 수행되는지 참고하여 다운스트림 태스크를 수행하게 됩니다.
Q. 퓨샷 러닝(few-shot Learning)이란 무엇인가요?
A.
다운스트림 태스크를 단 몇 건만 사용하게 됩니다. 모델은 몇 건의 데이터가 어떻게 수행되는지 참고하고 다운스트림 태스크를 수행합니다.
Q. CLS, SEP란 무엇인가요?
A.
입력 문장을 토큰화 한 뒤 문장의 시작과 끝을 알리기 위해 붙이는 스페셜 토큰입니다. Classification과 Seperate로부터 왔습니다.
Q. 1
A. 2
Q. 1
A. 2
Q. 1
A. 2
Q. 1
A. 2
Q. 1
A. 2
Q. 1
A. 2
댓글