본문 바로가기

분류 전체보기69

[논문리뷰] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 대규모 언어 모델의 등장 이후 프롬프트 엔지니어링이라는 새로운 학문이 탄생했습니다. 프롬프트 엔지니어링을 단순하게 정의하면 프롬프트를 정교하게 조작하여 언어 모델에게 더 좋은 답변을 얻는 방법을 연구하는 분야입니다. 아마 이와 관련해서 가장 유명한 연구가 Chain of Thought일 것이라고 생각하는데, 실제로 그 논문을 읽고 어떤 연구가 수행되었는지를 공부해보았습니다. AI나 LLM 트렌드에 대해 소개하는 세미나에서도 Chain of Thought에 대한 내용을 몇 번 들은 적이 있었는데, 흔히 프롬프트에 "Let's take step by step"과 같은 표현을 추가하면 언어 모델의 추론 성능이 눈에 띄게 좋아진다고 설명하였습니다. CoT가 실제로 추론에 이르는 과정을 생성하며 출력의 근거를 모.. 2023. 11. 24.
N그램 언어 모델 자연어 처리에서 언어 모델링은 문장의 일부가 주어졌을 때 이후에 나올 단어를 예측하는 과제를 말합니다. 현재는 딥러닝에 기반한 다양한 기술로 언어 모델을 설계하지만, 과거에는 통계적인 기법들을 사용한 통계적 언어 모델(statistical language mdoel)을 사용하였습니다. 사실 신경망 언어 모델(neural language model)도 훈련 목표만 놓고 보면 전통적인 언어 모델의 훈련 목표와 다르지 않습니다. 다만 각 단어를 표현하는 방법이나 모델이 목적 함수를 학습하는 방법에 차이가 있을 뿐입니다. 가장 대표적인 통계적 언어 모델 $N$ 그램입니다. $N$ 그램(N-gram)은 이전에 등장한 $N-1$ 개의 단어에 대하여 다음 단어를 예측하는 확률론적 모델입니다. 여기서 $N$그램은 $N.. 2023. 11. 21.
[논문리뷰] Emergent Abilities of Large Language Models 널리 알려진 프롬프팅 기법 중 하나인 Chain-of-Thought에 대한 논문을 읽다가 emegence라는 개념이 잠깐 언급되어 이에 대해 다룬 Emergent Abilities of Large Language Models를 읽고 정리해보았습니다. 우리말로는 창발이라고 하는데, 하위 계층에서는 존재하지 않던 특성이 상위 계층에서 자발적으로 돌연 출현하는 현상을 의미합니다. 지난 달에 참여한 EOST 2023이라는 컨퍼런스에서 LLM의 창발에 대해서 처음으로 알게 되었는데, 당시에는 LLM이 명시적으로 학습하지 않은 능력을 자연스럽게 갖추게 되는 현상이라고 막연하게만 이해하고 있었습니다. 실제로 논문에서 다룬 개념도 크게 다르진 않은데, 저자가 창발이라는 현상을 어떻게 이해하고 분석했는지 한 번 알아보겠.. 2023. 11. 20.
[논문리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 최근 LoRA와 QLoRA 논문을 읽으며 양자화를 비롯한 모델 경량화에 대한 개념에 대해서 조금 공부하였습니다. 기본적으로 모델 경량화가 가능한 이유는 애초에 모델이 필요 이상으로 많은 파라미터를 갖도록 설계되어 있기 때문이며, 고차원 공간을 효율적으로 사용하지 못하고 있음을 의미합니다. 따라서 파라미터를 더 낮은 차원의 공간에 컴팩트하게 분포하게 만듦으로써 모델 성능은 유지하고 크기는 줄일 수 있습니다. 이런 개념이 어쩌면 Distillation이 가능한 이유와도 비슷하다고 생각해서 DistilBERT를 다룬 논문 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter를 읽고 정리하였습니다. 결론적으로는 그 배경에 깔린.. 2023. 11. 20.