본문 바로가기

사람처럼 빠르게 이해하고 빠르게 답변…오픈AI, 플래그십 LLM ‘GPT-4o’ 발표

반응형

사람처럼 ‘빠르게’ 이해하고 사람처럼 ‘빠르게’ 답변하는 거대언어모델(LLM) 모델이 세상에 등장했다. 그동안 사람처럼 생각하고 사람처럼 답변하는 거대언어모델의 진화 방향에, 사람처럼 자연스러운 상호작용을 하기 위해서 필수적인 ‘빠른 속도와 자연스러움’이 본격적으로 추가되며 진화의 속도가 빨라진 것이다.

오픈AI(OpenAI)가 기존의 GPT-3.5, GPT-4, GPT-4 터보의 뒤를 이은 거대언어모델인 GPT-4o(모든 것을 의미하는 ’omni’의 o)를 전격 공개하며, 새로운 플래그십(flagship) 거대언어모델을 세상에 발표했다. 기존의 거대언어모델과 비교할 때 입력과 출력 속도를 획기적으로 개선한 ‘실시간 추론’이 특징이다.

오픈AI가 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있는 GPT-4o를 발표했다. GPT-4o는 최소 232밀리 초, 평균 320밀리 초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간과 비슷한 수준이다. (자료 : OpenAI)


즉, 사람과 대화하는 것처럼 거의 실시간으로 입력을 이해하고, 또한 거의 실시간으로 답변을 할 수 있다는 의미다. 기존의 모델을 사용한 챗GPT에서 처럼 입력과 출력 그리고 그 사이 데이터처리에 필요한 시간을 최대한 줄여, 마치 사람과 마주하고 일대일로 대화하는 것처럼 일대일 상호작용이 가능하다는 것이다.

오픈AI는 “GPT-4o는 훨씬 더 자연스러운 인간과 컴퓨터의 상호작용을 위한 단계로, 텍스트, 오디오, 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 이미지의 모든 조합을 출력으로 생성할 수 있다. 최소 232밀리 초, 평균 320밀리 초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간과 비슷한 수준’이라고 밝혔다.

그러면서 “특히 기존 모델에 비해 시각 및 오디오 이해 능력이 뛰어나다. 영어 텍스트 및 코드에 대한 GPT-4 터보 성능과 비슷하며, 비영어권 언어의 텍스트에 대한 성능이 크게 향상되는 동시에 API에서 훨씬 빠르고 50% 더 저렴하다. 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연 시간으로 챗GPT(ChatGPT)와 대화할 수 있다”고 강조했다.

실제로 오픈AI 홈페이지에 소개된 다양한 시연 영상을 보면, 이전보다는 훨씬 자연스럽고 빠르게 대화가 가능한 것을 볼 수 있다. 일상적인 문답 수준의 단순한 대화는 물론이고 농담, 토론, 학습, 노래, 실시간 번역을 지연 시간 없이 거의 실시간으로 이어가는 것을 볼 수 있다.

이러한 빠르고 자연스러운 상호작용이 가능한 것은 GPT-4o가 텍스트, 비전(Vision), 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했기 때문이다. 입력과 출력을 동일한 신경망에서 처리하기 때문에 가능한 일이고, 이는 이러한 방식을 적용한 첫 번째 모델이다.

반면에 이전 거대언어모델인 GPT-3.5나 GPT-4에서의 음성 모델은 세 가지 개별 모델로 구성된 파이프라인울 사용했다. 하나의 단순 모델이 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4가 텍스트를 받아 텍스트를 출력하며, 세 번째 단순 모델이 해당 텍스트를 다시 오디오로 변환하는 방식이다.

이렇게 여러 단계를 거친다는 것은 각각의 단계를 지나면서 많은 정보를 잃는다는 의미다. 이 때문에 GPT-4는 톤, 여러 화자 또는 배경 소음을 직접 관찰할 수 없고 웃음, 노래, 감정 표현을 출력할 수 없는 등 많은 정보를 잃게 된다. GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리할 수 있게 해 이런 문제를 해결한 것이다.

다양한 언어 중에서 20개 언어에 대해 토큰 압축(tokenizer's compression)을 통해 효율을 높였다. 한국어의 경우 45개에서 27개로 1.7배 토큰을 줄였다. 중국어오 일본어는 각각 1.4배, 이탈리아어와 독일어는 각각 1.2배, 스페인어, 포르투갈어, 프랑스어가 1.1배로 토큰을 줄였다.

GPT-4o의 텍스트 및 이미지 기능은 발표와 동시에 바로 챗GPT를 통해 제공된다. 무료 계정에서도 GPT-4o를 사용할 수 있으며, 플러스 사용자에게는 최대 5배 더 높은 메시지 제한을 제공한다. 앞으로 몇 주 내에 챗GPT 플러스에 GPT-4o가 포함된 새로운 버전의 음성 모드를 알파 버전으로 출시할 예정이다.

개발자는 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스 할 수도 있다. GPT-4o는 GPT-4 터보에 비해 속도가 2배 빠르고 가격은 절반이며 속도 제한은 5배 더 높다. 앞으로 몇 주 내에 신뢰할 수 있는 소수의 파트너 그룹을 대상으로 GPT-4o의 새로운 오디오 및 비디오 기능에 대한 지원을 API에서 시작할 계획이다.

반응형