본문 바로가기

분류 전체보기71

[논문 리뷰] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 추상적 요약(Abstractive Summary) 모델을 다룬 PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization에 대한 논문을 읽고 리뷰해보았습니다. 오개념이 있다면 댓글로 지적해주세요. 설명이 부족한 부분에 대해서도 말씀해주시면 본문을 수정하겠습니다. 개요 텍스트 요약은 입력 문서에 대한 정확하고 간결한 요약문을 생성하는 것을 목표로 합니다. 단순히 입력 문서의 일부를 복사하는 것에 그치는 추출적 요약(extractive summarization)과는 다르게, 추상적 요약(abstractive summarization)은 요약문에 새로운 단어를 생성하기도 합니다. 좋은 추상적 요약문은 핵심 정보를 잘 담고, .. 2023. 9. 22.
[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate Attention mechanism의 시초라고 할 수 있는 논문, Neural Machine Translation by Jointly Learning to Align and Translate를 읽은 후 리뷰해보았습니다. 해석이 잘못 되었거나, 오개념이 있다면 댓글로 지적해주세요. 설명이 부족한 부분에 대해서도 말씀해주시면 본문을 수정하겠습니다. 개요 기계 번역 분야에서 신경망 기계 번역(Neural Machine Translation, NMT)는 당시 새롭게 제안된 접근법이었습니다. 통계 기계 번역(Statistical Machine Translation, SMT)와는 다르게 NMT는 번역 성능을 극대화할 수 있는 공동으로 훈련될 수 있는 시스템을 구축하는 것을 목표로 합니다. SMT 시스템은 Langu.. 2023. 9. 20.
pandas의 boolean indexing 개념과 팁 판다스(pandas) 라이브러리를 사용하여 데이터 분석을 할 때, 데이터프레임에서 원하는 정보만을 추출해야 하는 상황은 항상 발생합니다. 판다스 데이터프레임에서 데이터를 선택하는 방법은 다양한데, 그 중에서도 특정 조건을 만족하는 데이터만을 선택하는 boolean indexing 기법은 매우 유용하고 자주 사용됩니다. 판다스에서 데이터를 선택하고 필터링하는 자세한 방법에 대해서는 공식문서를 참고해주세요. 이 글에서는 boolean indexing 개념에 대해서 알아보고 이와 관련한 몇 가지 팁을 소개하겠습니다. 글에서 pd는 pandas 라이브러리를 불러올때 사용하는 별칭입니다. boolean indexing 개념 boolean indexing은 boolean vector를 사용하여 데이터를 필터링하는 .. 2023. 9. 20.
pandas 실행시간 최적화하기 pandas 라이브러리를 사용하여 데이터를 분석할 때, 특정 코드의 실행시간이 과도하게 오래 걸리는 경우가 종종 있습니다. 그 사례와 원인은 여러 가지가 있을 텐데, 이 글에서는 제가 겪은 두 가지 상황에 대해서 소개하겠습니다. 먼저 실행 시간이 예상치 않게 오래 걸리는 경우에 대해서 살펴보고, 그 원인과 최적화 코드를 제시하는 순서로 작성하였습니다. 이 글에서 pd는 pandas 라이브러리를 호출할 때 흔히 사용되는 별칭을 의미합니다. 데이터프레임에 새로운 행 추가하기 pd.concat 메서드 사용하기 첫 번째는 데이터프레임에 새로운 행(데이터)을 추가할 때 겪은 상황입니다. 데이터프레임에 10000개의 데이터를 추가하는 상황을 생각해보겠습니다. 이 때, 추가하는 데이터는 매번 새롭게 생성된다고 가정하.. 2023. 9. 20.