220420_유명조달기업
[기고] 파운데이션 모델의 시대
상태바
[기고] 파운데이션 모델의 시대
  • CCTV뉴스 편집부
  • 승인 2022.03.16 17:27
  • 댓글 0
이 기사를 공유합니다

AI 발전 가속화하는 초대형 모델의 기대와 우려

[글=노규남 | 위블 CTO]
bardroh@weable.ai

 

AI 모델들은 계속해서 커지고 있다. 새로운 AI 모델을 연구하는 데는 인프라, 인력, 데이터 등 점점 많은 비용이 들게 되며 스타트업이나 중소기업 입장에서 큰 모델을 개발하는 일은 매우 어려워졌다. 현재 이런 대형 모델에 대한 연구는 카카오, 네이버, 구글, 페이스북 같은 IT 대기업들이 주로 하고 있으며, 작은 기업들은 이런 모델을 개발할 역량이 되지 않으므로 이미 만들어진 것을 가져다 쓰는 방향으로 발전할 가능성이 높다.

따라서 큰 조직들이 이런 모델들을 만들어서 유료 또는 무료로 배포하면 개개의 구체적인 서비스나 업무는 이를 활용하는 조직들이 개발하는 형태의 밸류체인이 생길 수 있는데, 이렇듯 다양한 서비스에 사용하기 위해 개발되고 학습된 다목적 모델을 파운데이션 모델이라 부른다.

 

 

AI는 어떤 방향으로 발전해 왔는가

이런 초대형 모델들에 대한 흥미로운 논문이 있다. ‘On the Opportunities and Risks of Foundation Models’라는 이름의 이 논문은 212쪽이나 되는 긴 내용으로, 그 길이에 걸맞게 저자도 무려 106명이나 된다. 저자들은 스탠포드대 인간 중심 인공지능(AI) 연구소(HAI)의 연구자들인데, 이들은 해당 논문에서 30년 동안 AI는 Emergence와 Homogenization을 증가시키는 방향으로 발전해왔다고 설명한다.

초기 머신러닝은 어떤 식으로 학습을 시켜야 효율적일지에 대해 주로 연구하여 알고리즘 위주로 발전했다. 여기서 모든 머신러닝의 가장 기본 모델이라 할 수 있는 Linear Regression, Logistic Regression, Decision Tree 등 수많은 알고리즘들이 고안되었고 어느 정도 성과를 보였다. 이 시기에는 더 높은 성능을 낼 수 있는 알고리즘을 연구하는 것이 가장 중요한 주제였다.

그러다가 딥러닝의 시대가 되면서 단일 알고리즘에 대한 연구보다 어떤 구조의 모델을 만들어야 더 학습이 잘 될 것인가로 사람들의 관심이 쏠리기 시작했다. 지금은 유명한 CNN, RNN, Transformer, GAN 등 단순한 Dense Network가 아닌 좀더 복잡한 구조의 신경망이 고안되었다.

CNN도 VGGNet, ResNet이나 DenseNet, Vision Transformer 등 다양한 형태가 나왔고, Transformer도 연구 붐을 촉발한 BERT에서부터 GPT2, T5, BART, ALBERT, ELECTRA 등 수많은 모델들이 나왔다. 또한 모델의 크기를 증가시키면 더 좋은 성능을 낼 수 있다는 점이 알려지면서 점점 모델들이 대형화되는 추세이다.

모델이 대형화되면서 단순히 성능만을 높인 것은 아니다. Emergence는 우리말로 하자면 출현, 발견 정도로 해석할 수 있을 텐데, 논문에서는 ‘시스템의 작동이 명시적(explicit)하게 지정되기 보다는 묵시적(implicit)으로 유도되는 것’을 의미한다고 설명하고 있다. 다시 말하자면 AI 모델들이 발전하면서 점점 사람이 명시적으로 지시해야 하는 부분이 줄어들고 있음을 의미한다.

초기 머신러닝 시절에는 어떤 알고리즘을 사용할지, 어떤 특성(feature)을 사용할지를 사용자가 일일이 지정해주어야 했지만 이제는 데이터를 제공해주면 그로부터 잠재 특성(latent feature)을 추출하여 학습할 수 있다. 초대형의 NLP(자연어처리) 모델에 이르러서는 이미 학습된 모델에 작은 샘플 데이터세트를 주어서 학습하거나(fine tuning) 또는 하나의 예제만을 주고 판단하게 하거나(One-shot learning) 아예 학습 없이 바로 특정 업무에 투입(Zero-shot learning) 할 수 있는 수준까지 올라와 있는 것이다.

 

AI는 Emergence와 Homogenization을 증가시키는 방향으로 발전해 왔다.(출처: https://arxiv.org/pdf/2108.07258.pdf)
AI는 Emergence와 Homogenization을 증가시키는 방향으로 발전해 왔다. (출처: https://arxiv.org/pdf/2108.07258.pdf)

 

Homogenization은 우리 말로 동질화 정도로 해석할 수 있는데, 이는 여러 가지 다양한 문제를 풀기 위해 각각 다른 알고리즘과 모델을 적용하는 것이 아니라, 동일한 한 가지 모델을 가지고 다양한 문제를 풀 수 있게 된다는 의미다.

특히 NLP쪽에서 이런 경향이 두드러지며, 초기 Transformer 모델의 대표격인 BERT는 미리 학습시킨 모델에 약간의 추가 학습(fine tuning)을 통해 Sentence Pair Classification, Single Sentence Classification, Question Answering, Tagging 등 다양한 업무를 수행할 수 있음을 증명해 보였다.

BERT 기본 모델은 1.1억 개의 파라미터로 이 정도의 성과를 보였지만, 이 숫자가 점점 늘어나면서 GPT-3에 이르러서는 1750억 개에 이르렀고, GPT-3는 자연어 처리의 단순한 과제뿐만 아니라 코딩(github copilot), 이미지 생성(DALL-E), 광고 카피 생성(Copysmith) 등 많은 분야의 업무를 커버하고 있다. 즉 이제는 모델의 구조를 구축하고 학습시키는 것도 어느 정도 정형화되어 잘 학습된 하나의 모델만으로도 다양한 업무를 처리할 수 있게 된 것이다.

하지만 모델의 크기가 커지면서 사람들은 새로운 고민을 안게 되었다. 파라미터의 수를 증가시키면 성능은 계속 올라가겠지만 이런 대형 모델은 학습시키는데 엄청난 데이터를 필요로 한다.

 

BERT의 다양한 downstream task (출처: https://arxiv.org/pdf/1810.04805.pdf)
BERT의 다양한 downstream task (출처: https://arxiv.org/pdf/1810.04805.pdf)

 

GPT-3의 경우 웹 크롤링과 책, 위키 등으로부터 수집한 40GB 데이터로 학습을 시켰는데 토큰으로 전환하면 499억 개에 달하며 이런 데이터를 모으고 정리하는 것부터 보통 일이 아니다. 데이터의 품질은 모델의 성능에 결정적 영향을 미치므로, 데이터의 양을 늘리면 그에 비례해 정제 비용이 늘어난다.

데이터를 모았다고 해서 끝이 아니다. 초대형 모델은 학습에도 엄청난 컴퓨팅 파워가 필요한데, 일례로 GPT-3를 학습시키는 데는 최소 한화 수십억 원의 비용이 소요되는 것으로 알려져 있다. 당연하지만 이 정도 비용은 어지간히 큰 규모의 회사라고 하더라도 부담스러운 수준이다. 더불어 실제 서비스에서도 모델의 크기와 운용에 필요한 연산력은 비례하므로 초대형 모델을 사용한다면 그에 따르는 높은 운영 비용은 불가피하다.

최근에는 GPT-3보다 더 많은 파라미터를 가진 Jurassic-1(1780억 개), PanGu Alpha(2000억 개), 하이퍼클로바(2040억 개), Megatron-Turing(5300억 개), WuDao 2.0(1조 7500억 개) 등의 모델들도 속속 등장하고 있으나 웬만큼 자본이 충분하지 않으면 이런 크기의 모델을 운영하는 일은 불가능하다.

성능과 파라미터의 숫자가 어느 정도 비례한다는 것은 거의 정설이지만, 모델의 크기를 늘리면 그에 수반되는 비용이 기하급수적으로 증가하는 것이다.

 

모델의 크기에 따른 Zero-shot, One-shot, Few-shot 성능. 같은 크기의 데이터세트를 사용하더라도 파라미터의 수가 증가하면서 정확도가 가파르게 상승하는 것을 확인할 수 있다. (출처: https://arxiv.org/pdf/2005.14165.pdf)
모델의 크기에 따른 Zero-shot, One-shot, Few-shot 성능. 같은 크기의 데이터세트를 사용하더라도 파라미터의 수가 증가하면서 정확도가 가파르게 상승하는 것을 확인할 수 있다. (출처: https://arxiv.org/pdf/2005.14165.pdf)

 

 

파운데이션 모델의 명과 암

파운데이션 모델을 사용하면 이렇게 큰 모델을 학습시킬 여건이 되지 않는 조직들도 높은 수준의 AI 서비스를 구축할 수 있다는 점에서 긍정적이다. 하지만 파운데이션 모델이 어떻게 학습되었는지에 따라 최종 모델에 여러 가지 선입견이나 편향이 들어갈 수 있다는 위험성도 존재한다.

만약 어떤 모델이 특정 계층에 대한 편견을 학습했다면 이로부터 파생되는 서비스 전체에 그러한 정서가 포함될 수 있을 것이고 향후 AI가 의사 결정의 보조 도구로 사용될 가능성이 높다는 점을 고려할 때 이건 심각한 문제가 될 수 있다.

또 파운데이션 모델은 재학습시킬 권한과 도구가 원 모델 제공자에게 있는데, 적절하게 재학습되지 않은 모델은 현실과 동떨어진 답을 내놓을 수도 있다. BERT의 초기 모델처럼 좋은 품질의 데이터를 사용했더라도 학습이 충분하지 않은 상태로 배포될 가능성도 있다.

이외에도 충분한 자금과 역량을 보유한 IT 대기업들이 이 시장을 과점할 가능성이 높은데, 대기업들이 사회 전체에 큰 영향을 미칠 수 있는 모델들을 좌지우지하는 것이 적절한가 하는 논쟁도 있다.

실제 서비스를 하기 위한 downstream task들을 고려할 때 파운데이션 모델이 너무 크기 경쟁 일변도로 흐르고 있다는 비판도 있다. 간단한 업무를 수행하기 위한 목적으로는 대부분의 모델이 너무 크다는 주장으로, 특정 업무에 대해서는 작은 모델로 비슷한 성과를 낼 수도 있는데 불필요하게 많은 컴퓨팅 파워와 시간, 비용이 소모되는 초대형 모델을 쓸 이유가 없다는 것이다.

해당 이슈는 하드웨어가 발전하여 지금보다 학습과 운영에 드는 컴퓨팅 파워가 훨씬 낮아지면 어느 정도 해소되는 문제이기는 하나, 모델의 크기 대비 수행 업무가 적절한가는 한번 검토해 볼만한 이슈다. 이는 일전에 언급한 대로 반드시 모든 부문에 딥러닝을 사용해야 하는 건 아니라는 얘기와도 상통한다.

이렇듯 파운데이션 모델에 대해서는 여러 가지 긍정과 부정적인 전망이 혼재해 있다. 하지만 이 형태는 본질적으로 미리 학습시킨 모델을 재사용한다는 개념이므로 결국 크기와 상관없이 대부분의 서비스에서 파운데이션 모델을 사용하게 될 것으로 전망한다.

컴퓨팅 파워가 현저하게 낮은 IoT 디바이스라면 경량화된 모델을 쓰게 될 것이고, 높은 품질의 결과물을 원하는 경우라면 API 형태로 빌려서라도 초대형 모델을 써야 할 것이다. 파운데이션 모델을 사용하면 기초 모델의 학습과 운영에 역량을 소모하지 않고 하고자 하는 서비스나 제품에 집중할 수 있어서 자원 사용면에서 훨씬 효율적이다.

결국 이 분야를 연구하는 이들의 목표는 모든 머신러닝 업무를 처리할 수 있는 단일 모델이 될 것이며, 이는 우리가 지향하는 강인공지능(Strong AI)이나 일반 인공지능(AGI)과도 맞닿아 있는 주제다.

모든 머신러닝 문제를 하나의 모델로 해결할 수 있다는 건 너무 이상적이어서 가까운 시일 내에 구현될 수 있을지 의구심이 들기도 한다. 그러나 AI의 발전 속도는 매우 빠르기 때문에 지금은 누구도 미래를 예단하기 어렵다. 초대형 모델들이 앞으로 어떤 방향으로 발전할지 기대를 가지고 지켜보도록 하자.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.