본문 바로가기

Paper Review31

[논문리뷰] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 대규모 언어 모델의 등장 이후 프롬프트 엔지니어링이라는 새로운 학문이 탄생했습니다. 프롬프트 엔지니어링을 단순하게 정의하면 프롬프트를 정교하게 조작하여 언어 모델에게 더 좋은 답변을 얻는 방법을 연구하는 분야입니다. 아마 이와 관련해서 가장 유명한 연구가 Chain of Thought일 것이라고 생각하는데, 실제로 그 논문을 읽고 어떤 연구가 수행되었는지를 공부해보았습니다. AI나 LLM 트렌드에 대해 소개하는 세미나에서도 Chain of Thought에 대한 내용을 몇 번 들은 적이 있었는데, 흔히 프롬프트에 "Let's take step by step"과 같은 표현을 추가하면 언어 모델의 추론 성능이 눈에 띄게 좋아진다고 설명하였습니다. CoT가 실제로 추론에 이르는 과정을 생성하며 출력의 근거를 모.. 2023. 11. 24.
[논문리뷰] Emergent Abilities of Large Language Models 널리 알려진 프롬프팅 기법 중 하나인 Chain-of-Thought에 대한 논문을 읽다가 emegence라는 개념이 잠깐 언급되어 이에 대해 다룬 Emergent Abilities of Large Language Models를 읽고 정리해보았습니다. 우리말로는 창발이라고 하는데, 하위 계층에서는 존재하지 않던 특성이 상위 계층에서 자발적으로 돌연 출현하는 현상을 의미합니다. 지난 달에 참여한 EOST 2023이라는 컨퍼런스에서 LLM의 창발에 대해서 처음으로 알게 되었는데, 당시에는 LLM이 명시적으로 학습하지 않은 능력을 자연스럽게 갖추게 되는 현상이라고 막연하게만 이해하고 있었습니다. 실제로 논문에서 다룬 개념도 크게 다르진 않은데, 저자가 창발이라는 현상을 어떻게 이해하고 분석했는지 한 번 알아보겠.. 2023. 11. 20.
[논문리뷰] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 최근 LoRA와 QLoRA 논문을 읽으며 양자화를 비롯한 모델 경량화에 대한 개념에 대해서 조금 공부하였습니다. 기본적으로 모델 경량화가 가능한 이유는 애초에 모델이 필요 이상으로 많은 파라미터를 갖도록 설계되어 있기 때문이며, 고차원 공간을 효율적으로 사용하지 못하고 있음을 의미합니다. 따라서 파라미터를 더 낮은 차원의 공간에 컴팩트하게 분포하게 만듦으로써 모델 성능은 유지하고 크기는 줄일 수 있습니다. 이런 개념이 어쩌면 Distillation이 가능한 이유와도 비슷하다고 생각해서 DistilBERT를 다룬 논문 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter를 읽고 정리하였습니다. 결론적으로는 그 배경에 깔린.. 2023. 11. 20.
[논문리뷰] Training language models to follow instructions with human feedback GPT-1은 트랜스포머 아키텍처를 사용하여 단어 수준 이상의 정보를 학습하여 전이할 수 있게 되었을 뿐만 아니라, 사전 학습된 언어 표현을 아키텍처의 변형 없이 태스크와 관계없이 사용할 수 있습니다. GPT-2는 지도 학습 데이터의 필요성을 제거하고 파인 튜닝 없이 다양한 태스크를 수행할 수 있는 일반적인 언어 모델의 가능성을 제시하였습니다. 하지만 비지도 학습에만 의존하는 언어 모델의 성능은 각 태스크를 위해 파인 튜닝된 모델에 비해 성능이 한참 뒤떨어졌습니다. 그런데 당시에는 언어 모델의 규모를 점점 크게 만드는 트렌드가 있었고, 그에 따라 여러 다운스트림 태스크에서의 성능이 눈에 띄게 향상되었습니다. 저자는 여러 연구 결과를 통해 대규모 언어 모델이 훈련 과정에서 다양한 태스크를 수행하는 방법을 학.. 2023. 11. 10.