[기고] 그림 그리는 딥러닝 모델, DALL-E 2

AI는 예술을 만들 수 있을까?

[글=노규남 | (주)위블 CEO]
bardroh@weable.ai

생성적 트랜스포머 모델

‘그림 그리는 딥러닝’으로 유명한 OpenAI의 DALL-E가 1년여 만에 새로운 버전인 DALL-E 2를 내놓았다. DALL-E는 자연어로 원하는 이미지에 대한 설명을 입력하면 그에 맞는 이미지를 자동 생성해주는 모델로, 최근 카카오가 비슷한 초대형 모델인 minDALL-E를 내놓기도 하는 등 이 부문에 대한 사람들의 관심이 커지고 있던 중이었다.

사실 머신러닝을 사용하여 이미지를 생성하는 연구는 GAN(Generative Adversarial Network)의 발표 이후 계속되어 왔다. 다만 DALL-E가 GAN과 다른 점은 자연어를 입력으로 받아서 이로부터 이미지를 생성하는, 다른 두 가지 입력을 가지고 결과를 낸다는 점이다.

이렇게 두 종류 이상의 입력을 사용하는 모델을 멀티모달 모델(Multimodal model)이라 부른다. 또한 DALL-E는 GPT와 같이 트랜스포머의 디코더 부분만을 사용하여 출력을 만들어 내므로, 이를 생성적 트랜스포머 모델(Generative Transformer Model)이라 부를 수 있을 것이다.

GAN

GAN은 Generator와 Discriminator라는 두 개의 네트워크를 동시에 학습시키는 모델이다. Generator는 가짜 이미지를 최대한 진짜와 비슷하게 만들어 내려고 하고, Discriminator는 가짜 이미지를 최대한 잡아내려고 한다.

우리가 궁극적으로 학습시키려는 건 Generator지만 Discriminator가 가짜를 판별하는 능력이 향상되어야 Generator가 점점 더 진짜와 유사한 이미지를 만들어낼 수 있으므로 두 네트워크를 동시에 학습시키는 것이 GAN의 핵심이 된다. 이렇게 학습한 Generator는 원본이 아닌 새로운 이미지를 생성할 수 있는 모델을 구성할 수 있으며, 조건을 약간 변경하면 여러 개 원본으로부터의 특징을 계승한 이미지를 만들 수도 있게 된다.

이러한 적대적(Adversarial) 학습 방법은 GAN의 골자이면서 인공신경망의 연구에 새로운 시점을 제안한 것이며, 이후 GAN을 응용한 여러가지 모델과 여기서 파생된 새로운 연구방법들이 대거 등장하게 된다.

러프 스케치를 고해상도의 사진 이미지로 바꿔주는 pix2pix 프로젝트에서는 Conditional GAN이라는 모델을 사용한다. 3D 가속칩과 CUDA로 유명한 NVIDIA는 이를 좀더 발전시켜서 GauGAN(‘고갱’이라고 읽는다)이라는 온라인 서비스를 만들었는데 GauGAN은 GauGAN2를 거쳐 NVIDIA Canvas라는 제품으로 이어지게 된다.

NVIDIA Canvas는 현재 NVIDA 홈페이지에서 다운로드할 수 있으며 베타 상태다. 간단한 스케치와 자연어 텍스트만으로 사진 찍은 것 같은 정교한 이미지를 생성해낼 수 있는데 이제는 디자이너가 아닌 누구라도 이런 도구를 사용하여 상업적 이미지를 만들어낼 수 있을 것이다.

포토샵의 필터 효과가 처음 소개되었을 때 사람들이 모두 신기하게 보았지만 이제는 당연하게 사용하듯이, 이런 도구들도 향후 데스크탑에서 충분히 사용할 수 있을 것으로 생각한다.

CLIP

이미지와 텍스트를 같이 사용하는 모델 중 대표적인 것의 하나로 2021년 초 발표된 CLIP(Contrastive Language-Image Pre-Training)을 들 수 있다.

전체 기사를 보시려면 로그인 필요

로그인 또는 회원가입을 해주세요. (회원만 열람가능)

로그인 회원가입

CCTV뉴스 편집부 다른기사 보기