[기고] 그림 그리는 딥러닝 모델, DALL-E 2

AI는 예술을 만들 수 있을까?

2022-05-18 CCTV뉴스 편집부

[글=노규남 | (주)위블 CEO]
bardroh@weable.ai

생성적 트랜스포머 모델

‘그림 그리는 딥러닝’으로 유명한 OpenAI의 DALL-E가 1년여 만에 새로운 버전인 DALL-E 2를 내놓았다. DALL-E는 자연어로 원하는 이미지에 대한 설명을 입력하면 그에 맞는 이미지를 자동 생성해주는 모델로, 최근 카카오가 비슷한 초대형 모델인 minDALL-E를 내놓기도 하는 등 이 부문에 대한 사람들의 관심이 커지고 있던 중이었다.

사실 머신러닝을 사용하여 이미지를 생성하는 연구는 GAN(Generative Adversarial Network)의 발표 이후 계속되어 왔다. 다만 DALL-E가 GAN과 다른 점은 자연어를 입력으로 받아서 이로부터 이미지를 생성하는, 다른 두 가지 입력을 가지고 결과를 낸다는 점이다.

이렇게 두 종류 이상의 입력을 사용하는 모델을 멀티모달 모델(Multimodal model)이라 부른다. 또한 DALL-E는 GPT와 같이 트랜스포머의 디코더 부분만을 사용하여 출력을 만들어 내므로, 이를 생성적 트랜스포머 모델(Generative Transformer Model)이라 부를 수 있을 것이다.

GAN

GAN은 Generator와 Discriminator라는 두 개의 네트워크를 동시에 학습시키는 모델이다. Generator는 가짜 이미지를 최대한 진짜와 비슷하게 만들어 내려고 하고, Discriminator는 가짜 이미지를 최대한 잡아내려고 한다.

우리가 궁극적으로 학습시키려는 건 Generator지만 Discriminator가 가짜를 판별하는 능력이 향상되어야 Generator가 점점 더 진짜와 유사한 이미지를 만들어낼 수 있으므로 두 네트워크를 동시에 학습시키는 것이 GAN의 핵심이 된다. 이렇게 학습한 Generator는 원본이 아닌 새로운 이미지를 생성할 수 있는 모델을 구성할 수 있으며, 조건을 약간 변경하면 여러 개 원본으로부터의 특징을 계승한 이미지를 만들 수도 있게 된다.

이러한 적대적(Adversarial) 학습 방법은 GAN의 골자이면서 인공신경망의 연구에 새로운 시점을 제안한 것이며, 이후 GAN을 응용한 여러가지 모델과 여기서 파생된 새로운 연구방법들이 대거 등장하게 된다.

러프 스케치를 고해상도의 사진 이미지로 바꿔주는 pix2pix 프로젝트에서는 Conditional GAN이라는 모델을 사용한다. 3D 가속칩과 CUDA로 유명한 NVIDIA는 이를 좀더 발전시켜서 GauGAN(‘고갱’이라고 읽는다)이라는 온라인 서비스를 만들었는데 GauGAN은 GauGAN2를 거쳐 NVIDIA Canvas라는 제품으로 이어지게 된다.

NVIDIA Canvas는 현재 NVIDA 홈페이지에서 다운로드할 수 있으며 베타 상태다. 간단한 스케치와 자연어 텍스트만으로 사진 찍은 것 같은 정교한 이미지를 생성해낼 수 있는데 이제는 디자이너가 아닌 누구라도 이런 도구를 사용하여 상업적 이미지를 만들어낼 수 있을 것이다.

포토샵의 필터 효과가 처음 소개되었을 때 사람들이 모두 신기하게 보았지만 이제는 당연하게 사용하듯이, 이런 도구들도 향후 데스크탑에서 충분히 사용할 수 있을 것으로 생각한다.

NVIDIA

CLIP

이미지와 텍스트를 같이 사용하는 모델 중 대표적인 것의 하나로 2021년 초 발표된 CLIP(Contrastive Language-Image Pre-Training)을 들 수 있다.

CLIP은 이미지와 텍스트 두 종류의 입력을 받는 멀티모달 모델로, 텍스트와 이미지가 일치한다면 코사인 유사도가 높게, 그렇지 않다면 낮게 나오도록 학습한다. 학습 후 여러 개의 텍스트와 이미지를 입력하여 유사도를 보면, 가장 이미지와 관련도가 높은 텍스트의 유사도가 가장 높게 나온다.

기존 이미지 분류기는 매번 분류하고자 하는 이미지와 텍스트 데이터쌍을 미리 준비한 후 오랜 시간 학습시켜야 했지만 이 방식을 사용하면 이미지-텍스트를 미리 학습시킨 후 어떤 종류의 이미지에도 적용할 수 있는 Zero-Shot Learning이 가능하다.

성능에는 차이가 있겠지만, 한번 학습한 후 어떤 분류 작업에도 적용할 수 있다는 것이다. 이는 CLIP 모델이 입력된 자연어 token과 이미지와의 관계를 학습하기 때문에 가능하다. 이렇게 pre-train을 통해 입력된 이미지와 자연어 간의 관계를 학습하는 것은 자연어로 이미지를 생성하는 모델에 매우 중요하며, 이 연구는 DALL-E에도 사용된다.

CLIP의

DALL-E

DALL-E는 GAN과 같이 이미지를 생성하는 모델이기는 하나, 그 구조는 GAN보다는 자연어처리 모델인 GPT-3에 가깝다. GPT-3는 잘 알려진 대로 Transformer의 Decoder 부분만을 사용하는 Generative 모델로, 입력으로 받는 단어 token의 sequence를 가지고 다음 단어 token을 차례차례 예측하는 방식이다. 더불어 매우 많은 데이터로 pre-train하여 각 단어 간의 관계를 학습한 후 실제 사용 시는 이보다 적은 데이터로 fine-tuning하게 된다.

DALL-E에서도 이런 기본 작동 방식은 같지만 달라진 부분은 출력에서 예측하는 결과가 사전상의 단어 token이 아니라 이미지의 픽셀이라는 것이다. 입력받은 이미지를 256x256 크기로 조정한 후 이를 VQ-VAE(Vector Quantized Variational AutoEncoder)로 처리하여 32x32 즉 1024개의 token으로 변환한다.

원래 데이터를 그대로 학습하려면 약 20만 개의 token이 입력되어야 하지만 이를 단 1024개로 줄인 것이다. 실제로는 전체 1280개 token을 입력으로 사용하는데 이중 1024개를 이미지에, 나머지 128개를 이미지를 설명하는 텍스트에 할당한다. 출력된 결과는 입력과 동일하게 256x256의 이미지다.

다른 머신러닝 모델들과 마찬가지로 어떤 데이터로 얼마나 pre-train하느냐에 따라 결과의 차이는 크다. 실제 지금 구현된 pre-trained 모델들로 테스트해보면 일부 유형의 이미지는 잘 만들지만 때로는 형체를 알 수 없는 그로테스크한 결과를 출력하기도 한다. 이미지의 해상도도 높지 않다.

따라서 이 결과물을 상업적으로 사용하려면 적절한 크기 조절 및 리터칭이 필수적일 것이다. 하지만 그런 한계에도 불구하고 자연어 프롬프트만으로 이 정도까지 원하는 이미지를 만들어낼 수 있다는 건 놀라운 일이 아닐 수 없다.

DALL-E가

DALL-E 2는 DALL-E와 무엇이 다른가

DALL-E와 DALL-E 2의 기본적인 기작은 크게 다르지 않다. 두 모델 모두 초기에 수많은 이미지와 자연어 token 간의 관계를 학습하는 pre-training 과정을 거친다. 이후 자연어로 원하는 이미지에 대한 설명을 입력하면 그에 맞는 이미지 샘플들을 복수 개 제안하게 되며, 사용자는 이 중 원하는 하나를 고르면 된다. 만약 원하는 이미지가 나오지 않았다면 조건을 바꿔가면서 원하는 이미지에 근접한 결과가 나올 때까지 반복한다.

DALL-E 2는 DALL-E 대비 최대 4배나 높은 해상도를 지원한다. 기존 DALL-E가 256x256 이미지를 생성한 것에 비해 DALL-E 2는 이를 4배 업스케일링하여 1024x1024까지의 해상도를 지원한다. DALL-E에서 자연어로부터 이미지를 생성하는 것도 놀라운 일이었지만, 4배 높은 해상도를 지원한다는 것은 이제 이 모델의 결과물을 상업적으로 사용할 수 있는 기초적인 수준이 되었다는 것이다.

DALL-E 2의 해상도가 높아지면서 이제 적절한 수준의 이미지를 생성하는 작업을 충분히 기계가 대신할 수 있게 됐다. 더불어 해상도를 그 정도까지 높일 수 있다면 숫자를 더 끌어올리는 건 시간의 문제일 뿐이다.

컴퓨팅 파워는 계속 저렴해지고 있으므로 그만큼 연산량을 높이면 그만이고, 신경망의 학습 효율도 점점 더 좋아지고 있다. 이미 DALL-E 2의 접근 권한을 얻은 사람들이 각종 사이트에 DALL-E 2로 생성한 이미지들을 업로드하고 있는데 기존 DALL-E와는 이미지 품질과 디테일 면에서 엄청난 차이를 보여주고 있다.

DALL-E

더불어 DALL-E 2는 자연어로부터 이미지를 생성할 뿐만 아니라, 기존 이미지에 대해 원하는 방향으로의 수정을 가할 수 있다. 원래 상업용 이미지를 만들 때도 시안을 뽑은 후 디자이너와의 협의를 통해 이를 점차 수정하는 과정을 거치는데, DALL-E 2에도 자연어로 이런 요청을 할 수 있다는 것이다.

이미지를 처음부터 다시 생성하는 것보다 기존 이미지에 수정을 가하면서 결과를 뽑아보는 것이 더 빠르게 원하는 결과물을 얻을 수 있는 가능성이 높다는 건 말할 필요도 없다. 더불어 인간 디자이너에 비해 모델은 이런 수정 작업을 더 빠르고 반복적으로 지치지 않고 계속할 수 있다. 적절하게 자연어로 지시만 할 수 있다면 원하는 결과를 얻을 때까지 계속해서 시안을 수정해볼 수도 있을 것이다.

원본

생성적 트랜스포머 모델의 그림자

DALL-E 2가 나오고 난 후 학계와 업계의 반응은 GPT-3가 처음 나왔을 때와 같이 우려하는 목소리와 기대감이 공존한다. 이 모델을 좋은 방향으로 사용한다면 사람이 하던 텍스트 생성 작업을 상당 부분 대체할 수 있으므로 효율 면에서 막대한 향상을 기대할 수 있을 것이다.

하지만 악용한다면 지금 보다 더욱 많은, 그리고 그럴듯한 가짜 뉴스가 넘쳐날 가능성도 있을 것이다. 이를 스팸 메일이나 사기에 사용한다면 더 많은 사람들에게 범죄를 저지르는데 악용될 수도 있는 것이다.

DALL-E 2도 역시 마찬가지로, 상업적으로 사용할 수 있는 품질의 이미지를 생성할 수 있다면 지금보다 더 쉽게 딥페이크 이미지를 만들어낼 수 있게 된다. 더불어 이미지를 생성해낼 수 있다면 이를 동영상으로 전환하는 건 단순한 비용과 시간의 문제다.

만약 실존 인물을 대상으로 하는 딥페이크 이미지나 영상을 이렇게 빠르고 쉽게 만들 수 있다면 이는 보통 문제가 아닐 수 없다. 이런 영상들이 범람하게 되면 무엇이 사실이고 무엇이 사실이 아닌지 모호해지는 지경까지 이를 수 있다.

OpenAI에서도 이런 문제점을 모르지 않기 때문에 아직까지 이 모델은 신뢰할 만한 수백 명 수준의 연구 그룹에만 오픈되어 있고 향후 안전장치가 어느 정도 준비되었다고 생각될 때 일반에게 오픈한다고 한다.

더불어 허락 없이 타인의 사진을 사용하거나 상업적으로 사용하면 안 된다는 등의 윤리 규정이 있으며 노골적인 성적 이미지, 명시적으로 정치적인 콘텐츠 등은 입력 단계에서부터 필터링하게 되어 있다.

스팸성 이미지를 만들 수 없게 하기 위해 성능과 속도에 대한 제한도 두었다. 이런 규정을 지키지 않을 경우 계정 비활성화를 포함한 여러가지 제재 정책도 가지고 있다. 하지만 OpenAI는 이런 조치들이 이 모델의 오용을 완벽하게 막을 수 없다는 점에 대해서도 인정하고 있다.

또한 DALL-E 2의 원리가 알려져 있는 이상 유사한 시스템은 어디서든 만들어질 수 있다고 보아도 무방하며 결국 이런 모델을 악용하려는 사람들은 반드시 나오게 될 것이다.

결국 기술 자체는 선도 악도 아니지만 이를 사용하는 사람의 의도에 따라 좋은 방향으로도 나쁜 방향으로도 사용될 수 있을 것이다. DALL-E 2와 같은 기술 역시 이제 그 가능성이 보이기 시작한 상태인데 긍정적인 생각을 가지고 이런 좋은 기술들이 악용되지 않도록 신경써야 하는 것이 이쪽 업계에 속한 사람들 모두의 의무일 것으로 생각한다.