본문 바로가기

분류 전체보기69

딥러닝 논문을 읽는 방법 인공지능이 사회의 모든 측면을 변화시키는 지금 시대에 딥러닝은 기술 혁신의 한 축으로 자리 잡고 있습니다. 그에 따라 관련 기술과 개념을 학습하기 위한 노력도 많이 이루어지고, 이를 위한 컨텐츠도 꾸준히 생성되고 있습니다. 수많은 양질의 도서나 튜토리얼에 손쉽게 접근할 수 있지만, 딥러닝을 공부할 때는 특히 논문 읽기의 중요성이 많이 강조되곤 합니다. 단순히 사전 학습된 모델과 공개된 데이터셋을 가져와서 모델을 구현하고 문제를 해결하는 데 그친다면, 원론적인 개념에 접근할 필요성을 느끼지 못할 수도 있습니다. 하지만 널리 사용되는 딥러닝 개념의 기저에 깔린 알고리즘과 여러 기법들이 등장할 수 밖에 없었던 이유에 대해 깊이 있게 탐색하고 싶다면 학술 논문을 필수적으로 접하게 됩니다. 그런데 학술 논문은 단.. 2023. 11. 3.
[논문리뷰] Enriching Word Vectors with Subword Information FastText를 제안한 논문으로 알려진 Enriching Word Vectors with Subword Information를 리뷰해보았습니다. 이 논문의 저자 중 한 명은 word2vec의 저자인 Tomas Mikolov인데, 여러 논문을 읽을수록 단어 임베딩과 관련해서 정말 많은 연구를 하신 분이라는 생각이 듭니다. FastText도 word2vec의 확장으로 기본적으로 사용된 알고리즘은 같습니다. 이 논문에서도 skipgram을 사용하지만 subword information을 학습하여 더 풍분한 단어 벡터를 학습하는 기법을 제안합니다. 자세한 내용은 본문에서 소개하겠습니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표현은 .. 2023. 10. 29.
[논문리뷰] GloVe: Global Vectors for Word Representation word2vec에 이어 가장 널리 사용되고 이름이 많이 알려진 GloVe에 대한 논문 GloVe: Global Vectors for Word Representation를 읽고 리뷰해보았습니다. 번역을 통해 오히려 이해가 어려워지거나, 원문의 표현을 사용하는 게 원래 의미를 온전히 잘 전달할 것이라고 생각하는 표현은 원문의 표기를 따랐습니다. 오개념이나 오탈자가 있다면 댓글로 지적해주세요. 설명이 부족한 부분에 대해서도 말씀해주시면 본문을 수정하겠습니다. 1. Overview Semantic vector space model은 단어를 실수 벡터로 표현합니다. 이렇게 만든 벡터는 정보 검색, 질문 답변과 같은 다양한 태스크에 사용됩니다. 대부분의 단어 벡터는 두 단어 벡터 사이의 거리나 벡터가 이루는 각도를.. 2023. 10. 27.
Attention과 Query, Key, Value 딥러닝 분야의 핵심 논문 중 하나인 Attention Is All You Need는 트랜스포머(Transformer)라는 새로운 아키텍처를 제안합니다. 자연어 처리의 많은 문제는 어떤 문장을 입력으로 받아 그에 대한 출력을 문장으로 내놓는 형태로 정의됩니다. 예를 들어 질문 답변, 요약, 번역 등의 태스크는 각각 질문, 전체 문서, 원어로 된 문장을 입력으로 받아 답변, 요약문, 번역어로 된 문장을 출력으로 합니다. 기술적인 표현으로는 입력과 출력이 모두 시퀀스로 나타나는 sequence-to-sequence 모델이라고 부릅니다. 논문에서는 이런 모델을 시퀀스 변환 모델(sequence transduction model)이라고 하며, 당시 사용되는 대부분의 시퀀스 변환 모델은 인코더-디코더 아키텍처를 갖.. 2023. 10. 26.