본문 바로가기

분류 전체보기71

[논문리뷰] Emergent Abilities of Large Language Models 널리 알려진 프롬프팅 기법 중 하나인 Chain-of-Thought에 대한 논문을 읽다가 emegence라는 개념이 잠깐 언급되어 이에 대해 다룬 Emergent Abilities of Large Language Models를 읽고 정리해보았습니다. 우리말로는 창발이라고 하는데, 하위 계층에서는 존재하지 않던 특성이 상위 계층에서 자발적으로 돌연 출현하는 현상을 의미합니다. 지난 달에 참여한 EOST 2023이라는 컨퍼런스에서 LLM의 창발에 대해서 처음으로 알게 되었는데, 당시에는 LLM이 명시적으로 학습하지 않은 능력을 자연스럽게 갖추게 되는 현상이라고 막연하게만 이해하고 있었습니다. 실제로 논문에서 다룬 개념도 크게 다르진 않은데, 저자가 창발이라는 현상을 어떻게 이해하고 분석했는지 한 번 알아보겠.. 2023. 11. 20.
[논문리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 최근 LoRA와 QLoRA 논문을 읽으며 양자화를 비롯한 모델 경량화에 대한 개념에 대해서 조금 공부하였습니다. 기본적으로 모델 경량화가 가능한 이유는 애초에 모델이 필요 이상으로 많은 파라미터를 갖도록 설계되어 있기 때문이며, 고차원 공간을 효율적으로 사용하지 못하고 있음을 의미합니다. 따라서 파라미터를 더 낮은 차원의 공간에 컴팩트하게 분포하게 만듦으로써 모델 성능은 유지하고 크기는 줄일 수 있습니다. 이런 개념이 어쩌면 Distillation이 가능한 이유와도 비슷하다고 생각해서 DistilBERT를 다룬 논문 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter를 읽고 정리하였습니다. 결론적으로는 그 배경에 깔린.. 2023. 11. 20.
[논문리뷰] Training language models to follow instructions with human feedback GPT-1은 트랜스포머 아키텍처를 사용하여 단어 수준 이상의 정보를 학습하여 전이할 수 있게 되었을 뿐만 아니라, 사전 학습된 언어 표현을 아키텍처의 변형 없이 태스크와 관계없이 사용할 수 있습니다. GPT-2는 지도 학습 데이터의 필요성을 제거하고 파인 튜닝 없이 다양한 태스크를 수행할 수 있는 일반적인 언어 모델의 가능성을 제시하였습니다. 하지만 비지도 학습에만 의존하는 언어 모델의 성능은 각 태스크를 위해 파인 튜닝된 모델에 비해 성능이 한참 뒤떨어졌습니다. 그런데 당시에는 언어 모델의 규모를 점점 크게 만드는 트렌드가 있었고, 그에 따라 여러 다운스트림 태스크에서의 성능이 눈에 띄게 향상되었습니다. 저자는 여러 연구 결과를 통해 대규모 언어 모델이 훈련 과정에서 다양한 태스크를 수행하는 방법을 학.. 2023. 11. 10.
GPT 이해하기, GPT-2까지 이 글은 Instruct GPT를 구체적으로 리뷰하기에 앞서 GPT의 발전 과정에 대해 간단하게 정리한 내용입니다. 일부 딥러닝과 자연어 처리에 대한 배경지식을 전제로 작성한 글이므로, 언어 모델링이나 트랜스포머 등에 대한 개념이 생소하다면 이해하는 데 어려움이 있을 수 있습니다. 추후 이 부분에 대해서도 자세히 풀이하여 GPT-1과 GPT-2 논문을 모두 리뷰할 예정입니다. GPT는 Improving Language Understanding by Generative Pre-Training 논문을 시작으로 2018년에 등장하여 현재는 GPT-4까지 발전했습니다. 이 게시글에서는 GPT-4까지의 내용을 모두 다루지는 않고, 앞서 언급한 논문과 Language Models are Unsupervised Mu.. 2023. 11. 7.