본문 바로가기

ML, DL Basic7

GPT 이해하기, GPT-2까지 이 글은 Instruct GPT를 구체적으로 리뷰하기에 앞서 GPT의 발전 과정에 대해 간단하게 정리한 내용입니다. 일부 딥러닝과 자연어 처리에 대한 배경지식을 전제로 작성한 글이므로, 언어 모델링이나 트랜스포머 등에 대한 개념이 생소하다면 이해하는 데 어려움이 있을 수 있습니다. 추후 이 부분에 대해서도 자세히 풀이하여 GPT-1과 GPT-2 논문을 모두 리뷰할 예정입니다. GPT는 Improving Language Understanding by Generative Pre-Training 논문을 시작으로 2018년에 등장하여 현재는 GPT-4까지 발전했습니다. 이 게시글에서는 GPT-4까지의 내용을 모두 다루지는 않고, 앞서 언급한 논문과 Language Models are Unsupervised Mu.. 2023. 11. 7.
딥러닝 논문을 읽는 방법 인공지능이 사회의 모든 측면을 변화시키는 지금 시대에 딥러닝은 기술 혁신의 한 축으로 자리 잡고 있습니다. 그에 따라 관련 기술과 개념을 학습하기 위한 노력도 많이 이루어지고, 이를 위한 컨텐츠도 꾸준히 생성되고 있습니다. 수많은 양질의 도서나 튜토리얼에 손쉽게 접근할 수 있지만, 딥러닝을 공부할 때는 특히 논문 읽기의 중요성이 많이 강조되곤 합니다. 단순히 사전 학습된 모델과 공개된 데이터셋을 가져와서 모델을 구현하고 문제를 해결하는 데 그친다면, 원론적인 개념에 접근할 필요성을 느끼지 못할 수도 있습니다. 하지만 널리 사용되는 딥러닝 개념의 기저에 깔린 알고리즘과 여러 기법들이 등장할 수 밖에 없었던 이유에 대해 깊이 있게 탐색하고 싶다면 학술 논문을 필수적으로 접하게 됩니다. 그런데 학술 논문은 단.. 2023. 11. 3.
Attention과 Query, Key, Value 딥러닝 분야의 핵심 논문 중 하나인 Attention Is All You Need는 트랜스포머(Transformer)라는 새로운 아키텍처를 제안합니다. 자연어 처리의 많은 문제는 어떤 문장을 입력으로 받아 그에 대한 출력을 문장으로 내놓는 형태로 정의됩니다. 예를 들어 질문 답변, 요약, 번역 등의 태스크는 각각 질문, 전체 문서, 원어로 된 문장을 입력으로 받아 답변, 요약문, 번역어로 된 문장을 출력으로 합니다. 기술적인 표현으로는 입력과 출력이 모두 시퀀스로 나타나는 sequence-to-sequence 모델이라고 부릅니다. 논문에서는 이런 모델을 시퀀스 변환 모델(sequence transduction model)이라고 하며, 당시 사용되는 대부분의 시퀀스 변환 모델은 인코더-디코더 아키텍처를 갖.. 2023. 10. 26.
Hierarchical Softmax 자세히 알아보기 word2vec은 단어의 의미를 잘 표현하는 임베딩을 생성하는 알고리즘이며, CBOW와 Skip-gram이라는 두 가지 학습 알고리즘을 통해 생성됩니다. word2vec은 단어를 표현하는 데 있어 뛰어난 성능으로 주목을 받았지만, 밀도 높은 벡터를 확률 분포로 표현하는 과정에서 호율성을 개선해야 한다는 근본적인 과제가 남아있었습니다. 기존에는 소프트맥스 함수가 역할을 담당했지만 데이터의 규모나 어휘 집합의 크기가 급증하면서 효율적인 대안이 요구되었습니다. 그래서 등장한 것이 바로 hierarchical softmax(HS)입니다. 따라서 word2vec 논문에는 Hierarchical Softmax라는 개념이 소개되어 있습니다. 소프트맥스 함수에 대해서는 알고 있지만 Hierarchical이 무엇을 의미.. 2023. 10. 20.