본문 바로가기

전체 글71

[논문리뷰] GloVe: Global Vectors for Word Representation word2vec에 이어 가장 널리 사용되고 이름이 많이 알려진 GloVe에 대한 논문 GloVe: Global Vectors for Word Representation를 읽고 리뷰해보았습니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표현은 원문의 표기를 따랐습니다. 오개념이나 오탈자가 있다면 댓글로 지적해주세요. 설명이 부족한 부분에 대해서도 말씀해주시면 본문을 수정하겠습니다. 1. Overview Semantic vector space model은 단어를 실수 벡터로 표현합니다. 이렇게 만든 벡터는 정보 검색, 질문 답변과 같은 다양한 태스크에 사용됩니다. 대부분의 단어 벡터는 두 단어 벡터 사이의 거리나 벡터가 이루는 각도를.. 2023. 10. 27.
Attention과 Query, Key, Value 딥러닝 분야의 핵심 논문 중 하나인 Attention Is All You Need는 트랜스포머(Transformer)라는 새로운 아키텍처를 제안합니다. 자연어 처리의 많은 문제는 어떤 문장을 입력으로 받아 그에 대한 출력을 문장으로 내놓는 형태로 정의됩니다. 예를 들어 질문 답변, 요약, 번역 등의 태스크는 각각 질문, 전체 문서, 원어로 된 문장을 입력으로 받아 답변, 요약문, 번역어로 된 문장을 출력으로 합니다. 기술적인 표현으로는 입력과 출력이 모두 시퀀스로 나타나는 sequence-to-sequence 모델이라고 부릅니다. 논문에서는 이런 모델을 시퀀스 변환 모델(sequence transduction model)이라고 하며, 당시 사용되는 대부분의 시퀀스 변환 모델은 인코더-디코더 아키텍처를 갖.. 2023. 10. 26.
[논문리뷰] Attention Is All You Need 자연어 처리 분야에서 가장 유명한 논문을 하나 고르라면 많은 사람들이 Attention Is All You Need를 선택할 것입니다. 이제는 자연어 처리를 넘어서 컴퓨터 비전를 비롯한 여러 분야에서도 매우 중요하게 여겨지는 트랜스포머 아키텍처를 제안한 혁명적인 논문입니다. Attention Is All You Need는 매우 중요한 논문인 만큼, 배경지식으로 사용된 여러 개념에 대한 설명을 추가하여 전체 내용을 이해하는 데 부족함이 없도록 노력하였습니다. 그럼에도 너무 길이가 길어질까봐 중간에 생략한 내용이 많은데, 더 공부하다가 필요한 내용이 누락되었다고 생각하면 추가할 예정입니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표.. 2023. 10. 24.
언어 처리 개요 및 토큰화 딥러닝을 활용한 자연어 처리를 공부하고 여러 논문을 읽는 중, 언어 처리에 대한 언어학적 지식과 통계 개념을 학습하면 깊이 있는 이해에 도움이 되겠다는 생각이 들어 추가로 공부한 내용을 정리하려고 합니다. 앞으로 작성될 내용은 Dan Jurafsy와 James H. Martin의 저서 Speech and Language Processing를 바탕으로 정리한 내용을 포함합니다. 국내에는 음성과 언어 처리 2판이 번역되어 출간되었는데, 원문은 온라인에서 pdf 파일로 다운받아 볼 수도 있습니다. 본 게시글에서는 1장 소개와 3장 단어 및 변환의 내용 중 일부를 정리하였습니다. 음성 및 언어 처리 개요 기계 번역, 질의 응답 등의 과제를 수행하는 언어 시스템은 언어에 대한 넓고 깊은 지식이 필요합니다. 이러한.. 2023. 10. 22.
[논문리뷰] Linguistic Regularities in Continuous Space Word Representations word2vec를 제안한 저자 Toms Mikolov가 임베딩 벡터가 갖는 언어적 규칙성에 대하여 분석한 논문 Linguistic Regularities in Continuous Space Word Representations를 읽고 리뷰하였습니다. 이번 논문에서는 특별히 새로운 기법이 제안되었다기보다는 저자를 비롯한 여러 연구자들이 기존에 생성한 Static embedding vector를 통해 발견한 임베딩 벡터의 언어적 특징을 깊게 연구한 내용입니다. 내용이 어렵지 않고 논문의 길이도 길지 않아 오랜만에 정말 편하게 읽은 것 같습니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표현은 원문의 표기를 따랐습니다. 오개념이나 오탈.. 2023. 10. 20.
Hierarchical Softmax 자세히 알아보기 word2vec은 단어의 의미를 잘 표현하는 임베딩을 생성하는 알고리즘이며, CBOW와 Skip-gram이라는 두 가지 학습 알고리즘을 통해 생성됩니다. word2vec은 단어를 표현하는 데 있어 뛰어난 성능으로 주목을 받았지만, 밀도 높은 벡터를 확률 분포로 표현하는 과정에서 호율성을 개선해야 한다는 근본적인 과제가 남아있었습니다. 기존에는 소프트맥스 함수가 역할을 담당했지만 데이터의 규모나 어휘 집합의 크기가 급증하면서 효율적인 대안이 요구되었습니다. 그래서 등장한 것이 바로 hierarchical softmax(HS)입니다. 따라서 word2vec 논문에는 Hierarchical Softmax라는 개념이 소개되어 있습니다. 소프트맥스 함수에 대해서는 알고 있지만 Hierarchical이 무엇을 의미.. 2023. 10. 20.