LG Sciencepark LG Sciencepark

전체메뉴 열기(Open menu)

매거진

[SP TECH COLUMN] AI를 더 인간처럼 만드는 기술 '멀티모달 AI'

  • 링크드인 바로가기
  • 트위터 바로가기
  • 페이스북 바로가기
  • 카카오톡 바로가기
멀티모달 AI
멀티모달 AI

KEYWORDS 
#인공지능 #생성형 AI #멀티모달

AI(artificial intelligence)가 인간의 뇌를 모티브로 만들어졌다는 사실 다들 알고 계시죠? 인간의 학습 능력, 추론 능력, 지각 능력 등을 인공적으로 재현한 AI는 인간보다 뛰어난 능력을 보여주기도 합니다. 단어 1000개를 1초만 외울 수 있는 건 AI에게만 가능한 능력이죠. 

그럼에도 우리는 지금의 AI가 인간의 뇌를 뛰어넘었다고 말하진 않습니다. 아직 AI가 인간의 뇌를 100% 따라가지 못하는 분야가 있기 때문입니다. 그중 하나가 바로 다양한 형태의 정보를 통합적으로 처리하는 능력입니다.

여러분이 길을 걷는데 건너편에서 누군가 소리를 외치고, 손을 흔들며 다가온다고 가정합시다. 이 때 여러분 대부분은 건너편 사람이 우호적인지, 위협적인지 쉽게 판단할 수 있습니다. 멀리서 보이는 표정, 실루엣으로 드러나는 몸 동작, 목소리 톤, 손 흔드는 속도 등 다양한 형태 정보(데이터)를 종합적으로 처리해 판단하기 때문이죠.

AI가 정말 인간의 뇌에 가까워지려면 이렇게 여러 형태의 정보를 한꺼번에 처리할 수 있어야 합니다. 그리고 오늘 칼럼에서 다룰 주제가 바로 여러 가지 형태의 정보를 동시에 처리하고 표현하는 AI 기술, 멀티모달(Multi Modal)  AI 기술이죠.
 

멀티모달(Multi Modal) AI란 무엇일까?

멀티모달(Multi-modal)이란 단어는 합성어인데요, 멀티(Multi)는 ‘여러 개’, 모달리티(Modality)는 ‘형태’입니다. 여기서 ‘형태’는 정보(데이터)의 형태를 말하는 것입니다. 텍스트 정보, 이미지 정보, 오디오 정보, 비디오 정보 등. 그렇기에 멀티모달 AI란 여러 가지 형태의 정보를 동시에 처리하고 출력하는 AI를 뜻합니다.

눈앞에 놓인 튀김을 볼 때 인간은 모든 감각을 사용해 인지하고 평가합니다. - 후각(‘음~고소한 냄새’), 시각(‘노릇노릇 튀겨졌는걸’), 청각(‘바사삭, 튀김 소리!’) - 하지만 이러한 일들이 컴퓨터에겐 쉽지 않습니다. 각 정보의 모달리티(형태)가 자신만의 독특한 데이터 패턴을 가지고 있기 때문입니다. 

예를 들면 ‘음성 데이터’는 시간의 흐름에 따라 배열된 시계열 데이터(time series)으로, 주파수 도메인에 대한 음파의 조합으로 구성되어 불규칙한 데이터 패턴을 갖고 있습니다. ‘이미지 데이터’는 픽셀 형태로 표현되어 있고, 보통 RGB 값(red, green, blue 3색상의 비율)으로 표현됩니다. 둘은 매우 다른 형태를 띠고 있죠. 

서로 다른 데이터 형태를 섞어서 처리하기 어렵기에, AI 발전 초기 연구자들은 싱글(단일) 모달리티를 각각 처리했는데요, 이러한 방식에서 점점 AI의 성능 향상에 한계를 느끼기 시작합니다. 이런 이유로 다양한 데이터를 한 번에 처리하는 AI 기술, 즉 멀티모달 AI가 주목받기 시작했습니다.
 

글자와 이미지를 한 번에 처리하는, 비전 랭귀지 모델

멀티모달 AI로 처음으로 성공을 거둔 사례는 바로 이미지와 텍스트의 만남입니다. ‘시각(vision)’적인 이미지와 텍스트로 쓰인 ‘언어(language)’를 동시에 처리한다고 해서 ‘비전 랭귀지 모델(Vision-Language Model)’이라고 부릅니다. 2021년 1월 AI 연구단체 Open AI는 CLIP(Contrastive Language-Image Pre-training)이라는 모델을 공개합니다. 
 

텍스트와 이미지를 연결해 한번에 처리하고 표현하는 멀티모달 AI 모델 CLIP (출처 : 오픈 AI 홈페이지)

사실 연구자들이 붙인 모델명은 해석해 보면 별 것이 아닌 경우가 많습니다.(웃음) CLIP도 마찬가지죠. AI가 사용할 데이터를 제공하는 것을 ‘학습(training)’이라고 합니다. CLIP을 해석하면, 언어(Language)와 이미지(Image)를 옆에 놓고 대조해서(Contrastive), AI에게 선행 학습(pre-training)시킨다는 뜻입니다. 
 

기존 이미지 분류 모델은 입력 이미지에 대해 숫자 형태의 정답지가 나오도록 학습되었습니다. 위 그림처럼, 강아지 사진이 들어가면 0, 0.99, 0.1, 0 등 각 분류에 대한 확률값을 출력하게 됩니다. 새 사진은 1번칸, 강아지 사진은 2번칸 이런 식으로 이미지와는 간접적인 관련이 있는 숫자에 대한 확률값을 매칭시킵니다. 그렇기에 주어진 큰 범주의 카테고리에 대해서 잘 분류하지만, 이렇게 학습된 모델은 이미지로부터 정답지 텍스트에 대한 추가적인 정보를 얻기가 어렵습니다.

그에 반해 CLIP은 (확률값 등 숫자 형태가 아닌)이미지와 텍스트 정보를 직접 매칭시켜 학습시키기 때문에 정답지 텍스트 자체에 대한 의미 있는 정보를 가질 수 있습니다. 입력되는 신호를 컴퓨터(AI)가 이해할 수 있는 특정한 값으로 바꿔주는 프로그램을 인코더(encoder)라고 하는데요. 위 이미지에서 보는 것처럼 CLIP은 텍스트 인코더와 이미지 인코더 두 개의 인코더로 구성되어 있습니다. CLIP은 이미지와 텍스트로 이뤄진 한 쌍(pair)에서 나온 인코딩된 정보를 이용하여 서로에 대한 유사도(cosine similarity)를 측정합니다. 

위 그림의 강아지에게 ‘베이지 색의’, ‘귀가 늘어져 있는’, ‘목걸이를 한’, ‘윙크를 하는’ 같이 디테일한 묘사를 담은 텍스트를 CLIP에서는 이미지와 직접 매칭시킬 수가 있는 것이죠. CLIP은 무려 4억쌍의 이미지-텍스트 데이터를 학습했습니다. 그 결과 주어진 이미지에 대해 관련이 깊은 텍스트 정보를 매칭해 줄 수 있는 모델이 되었습니다.

이미지-텍스트를 더 효과적이고 효율적으로 학습하게 만든 CLIP은 단순히 이미지 분류를 너머, 이미지 검색, VQA(이미지를 보고 답하는 AI 분야, Visual Question Answering), 그리고 많은 분들이 요즘 즐기는 AI 이미지 생성 분야에서도 훌륭한 역할을 해내기 시작했습니다. 이렇게 성공적인 멀티모달 AI 모델인 CLIP의 등장으로 인해 멀티모달 AI는 탄력을 받고 관련된 연구가 폭발적으로 늘어나기 시작합니다.
 

멀티모달 AI로 업그레이드된 이미지 생성 툴

CLIP의 등장과 함께 AI 연구자들은 이미지-텍스트 간의 정보를 더욱 유연하게 활용할 수 있게 되었습니다. 그 대표적인 분야가 이미지 생성 분야로, 텍스트를 입력해 그에 매칭되는 이미지를 생성하기 때문에 ‘Text to Image’라고도 부르기도 합니다. 여러분이 활용하고 계신 AI 그림 프로그램 미드저니(Midjourney), 달리2(DALL·E 2)가 바로 그것입니다.

이미지 생성 모델의 구조는 보통 위 그림과 같습니다. 텍스트 인코더 – 디퓨전 모델(Diffusion Model) – 초고해상도 모델(Super-resolution Model) - 초고해상도 모델(Super-resolution Model).  여기서 쓰이는 텍스트 인코더가 앞서 소개한 CLIP의 텍스트 인코더입니다. 모자를 쓴 개 같은 텍스트 프롬프트를 AI가 받아들일 수 있는 수학적 정보로 변환을 해주는 역할을 합니다. 그리고 이어서 ‘디퓨전 모델’로 이미지를 만듭니다. 

디퓨전 모델은 노이즈 샘플(noise sample)을 예측 후 반복적인 디노이징(denoising)을 통해 높은 퀄리티의 이미지를 생성하는 모델인데 이렇게 만든 이미지의 해상도를 높이는 초해상도 모델이 두 개가 연속으로 이어지고, 결국 여러분이 AI로 그리는 그 그림들이 탄생하는 것입니다.

비전 랭귀지 모델을 바탕으로 이미지를 만든 생성형 AI 툴, 미드저니 (출처 : 미드저니 홈페이지)

이 기술은 OpenAI, 구글, NVIDIA 등 주요 연구 단체를 중심으로 기술이 공개되어 있습니다. 현재는 오픈 소스인 스테이블 AI(Stability AI)의 스테이블 디퓨전(Stable Diffusion)이라는 모델이 가장 연구계의 중심에 있죠.

이미지-텍스트 둘의 조합만 있으면 손쉽게 학습이 가능해 많은 연구자들이 사용하고 있고, 일반인들이 손쉽게 사용할 수 있는 형태의 프로그램으로도 배포되어 누구나 손쉽게 고품질의 이미지 생성을 할 수 있는 시대가 열렸습니다. 그 외에도 응용분야로 비디오 생성, 이미지 편집 등의 분야도 꾸준히 연구 발전이 일어나고 있는 상황입니다.
 

멀티모달(Multi Modal) IN LG

혁신 기술에 관심이 높은 LG도 멀티모달 AI를 연구하고 있습니다. LG AI 연구원에서는 얼마 전 초거대 멀티모달 AI ‘엑사원 2.0’을 공개했는데요. 엑사원 2.0은 특허와 논문 등 약 4500만건의 전문 문헌과 3억 5000만장의 이미지를 학습했습니다. 영어와 한국어 둘을 동시에 이해하고 답변하는 이중 언어(Bilingual) 모델로 개발되기도 했죠. 

기존 초거대 AI를 기업에서 활용하려고 할 때 비용이 많이 드는 문제가 있는데요. 엑사원 2.0은 대형언어모델(LLM)과 멀티모달 모델의 경량화 및 최적화 기술에 신경 썼습니다. 기업들이 용도나 예산에 맞게 모델의 크기부터 종류(언어, 비전, 멀티모달), 사용 언어까지 맞춤 설계할 수 있게 제작되었죠.

LG AI연구원에서 초거대 멀티모달 AI인 ‘엑사원(EXAONE) 2.0’을 공개하는 모습

엑사원 외에도 LG AI연구원에서는 멀티모달 AI 기술을 활용한 다양한 연구를 진행하고 있습니다. 지난해엔 AI 분야 최고의 학회인 NeurIPS 2022에서 UniCLIP이란 이름으로 CLIP 모델을 계승하는 비전 랭귀지 모델을 활용한 연구 내용을 발표했으며, 올해 파리에선 열린 ICCV 2023 학회에서도 그 후속 연구를 발표해 멀티모달 AI에 대한 기술력을 뽐냈습니다.
 

멀티모달 AI의 미래

오늘은 이렇게 언어와 이미지를 오가는 비전 랭귀지 모델을 위주로 멀티모달 AI 기술에 대해 살펴보았습니다. 시간이 가면서 더 다양한 형태의 데이터가 밀접하게 합쳐지며 수준 높은 기술들이 등장할 것입니다. 가깝게는 이미지와 오디오 데이터가 만나서 성능 좋은 동영상 인식 모델을 만들 수도 있고, 3가지 이상의 모달리티가 만나서 기존 모델의 성능을 깨는 멀티모달 모델을 만들 수도 있을 거라고 예상합니다. 

최근 홍콩중문대학에서는 12가지 모달리티를 통합하는 모델이 논문을 통해 발표되기도 했는데, 벌써 이렇게 다중 모달리티를 위한 통합 구조가 나오기 시작했으니, 앞으로 얼마나 더 무궁무진한 멀티모달 AI 기술이 나올지 기대가 됩니다. AI는 우리 삶에 더해진 그저 또 하나의 기술이 아닙니다. 우리 생활 곳곳을 바꿀 커다란 혁신입니다. 테크에 관심 있는 여러분이라면 멀티모달 AI의 현황에 대해서도 관심 갖길 바랍니다.