본문 바로가기

분류 전체보기69

[논문리뷰] Training language models to follow instructions with human feedback GPT-1은 트랜스포머 아키텍처를 사용하여 단어 수준 이상의 정보를 학습하여 전이할 수 있게 되었을 뿐만 아니라, 사전 학습된 언어 표현을 아키텍처의 변형 없이 태스크와 관계없이 사용할 수 있습니다. GPT-2는 지도 학습 데이터의 필요성을 제거하고 파인 튜닝 없이 다양한 태스크를 수행할 수 있는 일반적인 언어 모델의 가능성을 제시하였습니다. 하지만 비지도 학습에만 의존하는 언어 모델의 성능은 각 태스크를 위해 파인 튜닝된 모델에 비해 성능이 한참 뒤떨어졌습니다. 그런데 당시에는 언어 모델의 규모를 점점 크게 만드는 트렌드가 있었고, 그에 따라 여러 다운스트림 태스크에서의 성능이 눈에 띄게 향상되었습니다. 저자는 여러 연구 결과를 통해 대규모 언어 모델이 훈련 과정에서 다양한 태스크를 수행하는 방법을 학.. 2023. 11. 10.
GPT 이해하기, GPT-2까지 이 글은 Instruct GPT를 구체적으로 리뷰하기에 앞서 GPT의 발전 과정에 대해 간단하게 정리한 내용입니다. 일부 딥러닝과 자연어 처리에 대한 배경지식을 전제로 작성한 글이므로, 언어 모델링이나 트랜스포머 등에 대한 개념이 생소하다면 이해하는 데 어려움이 있을 수 있습니다. 추후 이 부분에 대해서도 자세히 풀이하여 GPT-1과 GPT-2 논문을 모두 리뷰할 예정입니다. GPT는 Improving Language Understanding by Generative Pre-Training 논문을 시작으로 2018년에 등장하여 현재는 GPT-4까지 발전했습니다. 이 게시글에서는 GPT-4까지의 내용을 모두 다루지는 않고, 앞서 언급한 논문과 Language Models are Unsupervised Mu.. 2023. 11. 7.
[논문리뷰] Word Translation Without Parallel Data (2) 명시적인 번역 쌍을 사용하지 않고 비지도 학습을 통해 단어나 문장을 번역하는 방법론을 제안한 논문 Word Translation Without Parallel Data를 리뷰해보았습니다. 이 글에서는 이전에 업로드한 논문의 전반부에 이어 실험 결과와 해석에 대한 내용을 다룹니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표현은 원문의 표기를 따랐습니다. 오개념이나 오탈자가 있다면 댓글로 지적해주세요. 설명이 부족한 부분에 대해서도 말씀해주시면 본문을 수정하겠습니다. 4. Experiments 4.1 Evaluation Tasks Word translation 이 태스크에서는 원본 단어가 주어졌을 때 올바른 번역을 검색하는 문제를 .. 2023. 11. 5.
[논문리뷰] Word Translation Without Parallel Data (1) 명시적인 번역 쌍을 사용하지 않고 비지도 학습을 통해 단어나 문장을 번역하는 방법론을 제안한 논문 Word Translation Without Parallel Data를 리뷰해보았습니다. 단어 임베딩이나 기계 번역 태스크 논문으로 종종 언급되는데 제안한 방법론이 새롭다는 생각이 들어서 관심갖고 읽어보게 되었습니다. 논문 자체의 길이는 길지 않지만 많은 수학적 배경지식을 요하고 추가로 정리할 내용이 꽤 많았어서 논문에서 제안한 방법론에 대한 부분과 이를 통해 수행한 실험에 대한 부분을 나눠서 정리하였습니다. 여기서는 Introduction 부터 Training and Architecture Choices, 즉 섹션 1~3만을 다룹니다. 이후 내용은 별도의 게시글에 정리할 예정입니다. 번역을 통해 오히려 이.. 2023. 11. 4.