2017년 알파고를 출시하여 세상을 놀라게 한 구글은 바로 어제 2023년 12월 6일, 또다시 역사를 바꿀지도 모를 새로운 모델인 Gemini를 출시했습니다. 세계적인 초거대기업인 구글은 수많은 분야에서 이루어지는 연구의 최전선에 서있었지만, 인공지능에서 만큼은 OpenAI의 그림자를 지우기가 힘들었습니다. 구글의 연구가 미흡한 것은 아니었지만, GPT를 통해 대규모 언어 모델의 효용을 널리 알리고 빠르게 시장 저변을 넓혀나간 OpenAI의 행보를 따라잡기는 쉽지 않았습니다. 게다가 야심차게 내놓은 Bard도 번번히 기대에 미치지 못하는 성능으로 사람들은 다시 한 번 ChatGPT의 우월함을 깨닫곤 했습니다. 그러던 구글이 마침내 새로운 모델을 발표하였습니다.
Gemini의 시대가 도래했다
누군가가 GPT-4를 능가하는 모델을 개발하게 된다면, 다름 아닌 구글일 것이라고 생각했습니다. 이런 예측은 지극히 타당하고 자연스럽습니다. 그리고 실제로 그 일이 일어났습니다. 구글은 Gemini의 존재를 일찍이 알렸고, 불과 며칠 전 올해 예정되었던 Gemini의 출시를 내년으로 미루겠다고 하였습니다. 그런데 갑작스럽게 발표가 다시 앞당겨졌습니다.
Gemini에 대해서는 정말 할 말이 많겠지만, 여기서는 구글 기술 블로그와 유튜브에 올라온 내용을 바탕으로 간단히 정리해보겠습니다. 참고로 Gemini는 쌍둥이자리를 의미하는데, 이제는 Google DeepMind라는 하나의 팀이 된 두 AI 연구소인 DeepMind와 Google Brain팀을 의미하기도 하며, 달 착륙 프로젝트인 아폴로 프로젝트의 지원 임무였던 Project Gemini를 참고했다고도 합니다. 보통 한글로는 제미니라고 쓰는데, 원래 발음은 jeh·muh·nai입니다.
구글 공식 유튜브에 제미니와 관련된 영상들이 업로드되어 있는데, 관심이 있으신 분은 꼭 시청하시는 것을 추천합니다. 상상 이상으로 놀라운 능력을 갖고 있는데, 실제로 출시되면 어떨지 정말 기대됩니다.
Introducing Gemini
구글은 제미니가 데이터 센터부터 모바일 기기까지 모든 환경에서 효율적으로 사용될 수 있는 가장 유연한 모델이라고 소개합니다. 이번에 출시한 Gemini 1.0은 모델 크기에 따라 세 가지로 구분됩니다. 매우 복잡한 작업을 수행할 수 있는 Gemini Ultra는 가장 크고 뛰어난 성능의 모델이며, Gemini Pro는 여러 분야에 널리 사용할 수 있는 유능한 모델이고, Gemini Nano는 온디바이스 환경에서 사용할 수 있는 효율적인 모델입니다. 구글이 발표한 기술 보고서에서는 각 모델을 다음과 같이 설명합니다.
경쟁적으로 대규모 언어 모델(LLM), 또는 대규모 멀티모달 모델(LMM)이 출시되는 현재, 기존 모델과 비교한 제미니의 성능을 알아보지 않을 수가 없습니다. 구글은 매우 엄격한 테스트를 통해 다양한 태스크에서 성능을 검증하였습니다. 텍스트 뿐만 아니라 이미지, 영상, 오디오 이해를 비롯하여 수학적 추론 태스크를 포함한 30개의 벤치마크에서 제미니는 기존 모델의 성능을 능가했습니다.
SOTA Performance
LLM의 멀티태스크 수행 능력을 평가하는 MMLU 벤치마크에서 제미니는 90.0%의 정확도를 달성하며 인간 전문가의 수준(89.9%)을 뛰어넘은 최초의 모델에 등극하였습니다. MMLU는 수학, 물리학, 역사, 법률, 의학, 윤리학 등을 포함한 57가지 주제에 대한 이해도를 묻는 벤치마크입니다. 다음과 같이 해당 분야의 전문 지식을 갖고 있어야만 해결할 수 있는 문제를 포함합니다.
조금 더 구체적으로 제미니가 언어 모델로써 갖는 성능을 알아보면 다음과 같습니다. 앞서 언급한 MMLU 벤치마크 이외에도 다양한 과제를 수행하는 테스트에서 GPT-4를 능가하는 성능을 보여줍니다. 추론, 수학 문제 풀이, 코드 작성은 모두 LLM이 수행하기 어려운 태스크에 해당하는데 상당히 높은 답변 정확도를 보입니다.
제미니는 단순한 언어 모델을 넘어선 멀티모달 모델인데, LMM으로써의 성능은 다음과 같습니다. 이미지 뿐만 아니라 영상과 오디오 처리 능력에서도 GPT-4V를 앞서는 모습을 보이며 다방면에서 전반적으로 뛰어난 성능을 보이는 것을 알 수 있습니다.
Next-generation Capabilities
사실 벤치마크 결과만으로는 제미니가 얼마나 대단한 모델인지가 잘 와닿지 않습니다. 그래서 “실제로 어떤 능력을 갖고 있는데?”라는 의문이 자연스럽게 들 텐데, 구글은 여러 사용 예시를 통해서 제미니와 상호작용하며 해결할 수 있는 다양한 태스크를 보여주었습니다. 사용 예시를 설명하기에 앞서 간단하게 LMM인 제미니가 갖는 독특한 구조를 말씀드리겠습니다.
지금까지 공개된 멀티모달 모델은 각 모달리티마다 다른 모델을 사용하고, 그들을 합쳐서 겉으로 보기에 다양한 형태의 입력을 처리하는 것처럼 보이게 할 뿐이었습니다. 그래서 그런 모델은 이미지 묘사와 같은 태스크는 잘 수행하였지만 복잡하고 개념적인 추론을 요구하는 과제를 어려워했습니다. 반면 제미니는 태생적으로 멀티모달을 처리하는 능력을 갖고 있습니다. 즉, 각 모달리티마다 다른 아키텍처를 사용하지 않고, 서로 다른 입력을 함께 처리할 수 있도록 훈련되었습니다.
구글 공식 유튜브에서 앞으로 언급할 제미니의 사용 예시에 대한 데모 영상을 확인할 수 있습니다. 제미니는 수많은 논문을 분석하여 어떤 연구 주제와 관련이 있는 논문을 구별할 수 있는 복잡한 추론 과제를 수행할 수 있습니다. 제미니는 텍스트, 이미지, 오디오를 모두 이해하며 주어진 문제를 풀이하고, 사람의 풀이 과정을 검토하며, 유사 문제를 제작하기까지 합니다. 또한 구글은 제미니를 탑재한 AlphaCode2를 발표하며, 복잡한 코딩 문제를 해결할 수 있는 능력을 보여주기도 하였습니다.
Reliable, Scalable and Efficient
제미니는 단순히 성능 향상만을 목표로 개발된 모델이 아닙니다. Gemini 1.0은 AI에 최적화된 인프라에서 TPU를 통해 훈련되었다고 합니다. 또한 배포 환경에서의 안정성, 확장성과 효율성을 모두 고려하여 설계하였다고 합니다.
TPU 덕분에 제미니는 작은 모델보다 속도가 훨씬 빠르지만, 성능은 훨씬 뛰어납니다. 수십억명의 사용자에게 다양한 서비스를 제공하는 구글에게는 속도 문제가 매우 중요할텐데, 모델의 성능과 속도라는 두 마리 토끼를 모두 잡은 것으로 보입니다.
Make Gemini Available to the World
Gemini는 출시된 바로 어제부터 여러 구글 제품에 적용된다고 합니다. Bard는 이제 Gemini Pro를 기반으로 하며 향상된 추론 능력을 보인다고 합니다. 구글은 이 변경점을 바드 출시 이래 최대 규모 업데이트라고 언급하였습니다. 현재는 영어에만 적용되었지만 앞으로 다양한 언어를 대상으로 서비스를 확대할 예정입니다. 또한 Pixel 8 Pro에도 Gemini Nano를 도입하여 녹음과 요약을 수행하는 기능과 메시지 응답 기능 등을 제공할 예정이라고 합니다.
12월 13일부터는 Google Cloud Vertex AI에서 API를 사용해 Gemini Pro를 기반으로 한 서비스를 직접 개발할 수 있다고 합니다. Google AI Studio는 API key를 사용하여 빠르게 어플리케이션을 구현할 수 있는 무료 웹 기반 개발 도구입니다. 또한 안드로이드 개발자는 Gemini Nano와 함께 온디바이스 서비스를 개발할 수 있는데, 이를 보조해주는 도구인 AICore를 곧 선보인다고 합니다.
Geminu Ultra는 최종적으로 신뢰성 및 안정성 검사가 이루어지고 있으며 추가적인 파인튜닝과 인간 피드백에 의한 강화학습(RLHF)이 이루어지고 있다고 합니다. 내년에는 Gemini Ultra를 기반으로 한 Bard Advanced가 출시될 예정이라고 하는데, Gemini의 모든 능력을 갖춘 바드는 얼마나 놀라운 모습을 보여줄 지가 기대됩니다.
이외에도 구글 기술 블로그에는 멀티모달 모델인 Gemini가 가진 다양한 능력이 설명되어 있고, 이를 활용한 향후 계획을 언급하고 있습니다. 자세한 정보는 원문을 확인해주세요.
Gemini가 출시된지 채 하루도 되지 않았지만, 수많은 기사와 소식이 쏟아져 나오고 있습니다. 아직 모든 내용을 확인하진 못했지만, 구글이 작정하고 출시한 모델인 만큼 앞으로의 행보가 정말 기대됩니다. 개인적으로는 제미니와 관련된 여러 영상과 글을 보다가 크게 한번 놀랐고, 이어서는 큰 의문을 품게 되었습니다. 앞서 언급한 구글 공식 유튜브의 제미니 관련 영상 16개를 모두 시청하였는데, 제미니와 상호작용하며 멀티모달 모델의 능력을 보여주는 영상을 보며 제미니가 학습한 세계 모델의 수준에 한 번 놀랐습니다.
인간과 대화하며 이미지와 영상을 이해하고 농담을 주고 받으며, 상황에 맞는 적절한 속담을 사용하는 모습에서 인공지능이 인간의 모습에 한 층 가까워졌다는 느낌을 받았습니다. Mark Rober라는 유튜버가 Gemini를 탑재한 Bard와 협업하는 영상에서는 AGI의 탄생이 멀지 않았다는 느낌도 받았습니다. Mark Rober는 이 영상에서 진행한 프로젝트를 혼자 기획하고 수행하면 거의 1년이 걸리지만, Bard와 협업한 이번 프로젝트는 단 3주밖에 걸리지 않았다고 언급했습니다.
제미니의 놀라운 성능을 보고 벤치마크 결과를 보니 자연스럽게 고개가 끄덕여졌습니다. 이 정도로 똑똑한 인공지능이 GPT-4를 능가하는 게 이상하지 않다고 생각했습니다. 그런데 결과 분석을 자세히 보니 조금 의문이 드는 부분이 있었습니다. 인간 전문가 수준을 뛰어넘었다는 MMLU 벤치마크는 Chain of Prompting을 사용한 결과이며, Gemini Ultra가 GPT-4보다 높은 점수를 받은 벤치마크 결과의 차이는 그리 크지 않았습니다. 반면 GPT-4보다 낮은 점수를 받은 벤치마크에서는 그 폭이 컸다고 생각되었습니다. 이런 해석에서 다시 한 번 GPT-4가 얼마나 대단한 모델인지를 생각해보게 되었고, Gemini를 과대평가하기에는 아직은 시기상조라는 생각도 듭니다.
물론 인공지능의 가치를 벤치마크 결과만으로 설명할 수는 없지만, 그렇다고 기업 발표에 제시된 데모만을 보고 가능성을 확대해석하는 것도 부적절합니다. 과거의 Bard가 그랬듯이, 아직은 조금 더 기다려봐야 합니다. 그래도 여전히 구글이니까, 이번에는 다르겠지 하는 기대감은 버릴 수 없는 것 같습니다.
Alphabet의 최고경영자인 선다 피차이(Sundar Pichai)는 AI가 가져오는 변화가 우리 인생에서 목격할 가장 심오한 변화가 될 것이라고 언급했습니다. 이는 모바일 혁명이나 웹의 탄생과는 비교할 수 없는 엄청난 진화입니다. 저 역시 같은 생각입니다. 인공지능은 진정한 4차 산업 혁명의 심장을 이루며, 만약 그렇지 않다면 인공지능은 5차 산업 혁명의 주역으로 자리잡을 것입니다. 구글은 “제미니의 시대에 온 것을 환영합니다.”라고 말했습니다. 그리고 AI라는 이름 아래 전세계를 휩쓸고 있는 변화의 바람은 우리에게 이렇게 속삭입니다. “인공지능의 시대에 오신 것을 환영합니다.”
'Features' 카테고리의 다른 글
GPT-5에 대한 다양한 소식 (0) | 2023.10.16 |
---|---|
왜 자연어 처리는 컴퓨터 비전보다 늦게 발전하였을까? (1) | 2023.10.10 |
왜 그렇게 많은 인공지능 시스템들이 머펫의 이름을 갖게 되었을까? (0) | 2023.09.24 |
댓글