“인공지능 학습은 실수에서 빠르게 배우는 것 중요”

엔비디아, 세계 머신 러닝 학회서 ‘NVAIL’ 연구성과 발표

2017-08-11     최진영 기자

[CCTV뉴스=최진영 기자] 호주 시드니에서 진행되고 있는 ‘ICML(International Conference on Machine Learning) 2017’에서 엔비디아 인공지능 랩 ‘NVAIL’의 연구진이 DGX 기반 인공지능 연구성과를 발표했다.

엔비디아가 운영하는 NVAIL에는 세계 최고의 대학 및 연구소가 참여하고 있으며 특히 캘리포니아 대학교 버클리 캠퍼스, 스위스 인공지능연구소 IDSIA, 도쿄대학교의 연구진들은 인공지능 슈퍼컴퓨터인 엔비디아 DGX를 기반으로 딥 러닝 분야의 발전을 이끌고 있다.
 
☐ 인공지능 학습에 필요한 트레이닝 과정 줄이기 중요
캘리포니아 대학교 버클리 캠퍼스의 세르게이 레빈(Sergey Levine) 조교수가 이끌고 있는 연구팀은 로봇이나 기타 인공지능 적용 디바이스에 사람과 같은 학습 방법을 적용하는 연구를 진행하고 있다.

레빈 교수 연구팀은 딥 뉴럴 네트워크가 학습 방법을 터득하도록 학습시킴으로써, 지능형 에이전트의 학습 속도를 향상시키고 트레이닝 시간을 감소시키고자 노력중이다.

레빈 조교수는 “사람이 학습하는 과정을 살펴보면 처음부터 무작정 배우는 것이 아니라, 새로운 기술을 빠르게 배우기 위해 과거의 경험을 활용한다”며 “이와 유사한 방식의 학습 알고리즘을 구현하고자 한다”고 설명했다.

레빈 조교수에 따르면 인공지능 방식에서 로봇은 반복적인 작업 경험을 통해 자극에 대한 최상의 대응 방식을 학습하게 된다. 때문에 로봇이 이러한 반복 작업 없이 학습할 수 있도록 만든다면 로봇의 적응력이 향상되는 것은 물론 더 많은 것을 학습할 수 있을 것이라 기대를 모으고 있다. 

그는 “로봇이 하나의 기술을 학습하기 위해 필요한 수 천 번의 트레이닝 과정을 반복해야 한다. 이러한 학습에 필요한 경험 횟수를 획기적으로 줄일 수 있다면 기존에는 하나의 기술을 배우는 데 소요됐던 동일한 횟수의 작업으로 수 천 개의 기술을 학습할 수 있다”며 “실수를 전혀 하지 않는 머신을 구축하는 것은 어렵지만, 실수에서 보다 더 빠르게 배움으로써 경험해야 하는 실수의 횟수가 더 적은 머신을 구축하는 것은 가능하다”고 전했다.

현재 레빈 교수가 이끄는 연구팀은 엔비디아 DGX 시스템을 활용해 시각적 인식과 움직임을 조정하는 알고리즘을 트레이닝하고 있다. 

 
☐ 딥 러닝의 효율적 활용 가능성 높여야
리커런트 순환신경망(Recurrent Neural Network, RNN)과 장단기 기억(Long Short Term Memory, LSTM)의 결합은 필체 및 음성 인식 분야의 연구진들에게 주요한 영향을 미쳤다.

우선 순환신경망은 피드백이 없는 전향적(feedforward) 네트워크와 달리 내부 메모리를 이용해 각기 다른 발음 혹은 필체의 변형과 같은 임의 데이터를 처리하는 것이 가능하며 이전의 결정 사항 및 현재의 자극을 즉시 학습에 활용한다.

이는 발전할수록 더욱 다루기 어려워지고 딥 러닝 프로세스의 속도를 저하시킴을 의미한다. 스위스 인공지능 연구소 IDSIA 연구진은 리커런트 고속 네트워크(recurrent highway network)를 통해 이러한 문제에 대한 해답을 제시했다.

IDSIA의 인공지능 연구자이자 ICML 2017에서 발표된 연구 논문의 공동 저자인 루페시 스리바스타바(Rupesh Srivastava) 연구원은 “지금까지는 순차적 전이에서 레이어가 두 개로 증가하는 상황에서조차 리커런트 네트워크를 트레이닝하는 것이 무척 어려웠던 반면, 리커런트 고속 네트워크 덕분에 현재는 반복되는 전이에서 레이어가 열 개로 증가해도 리커런트 네트워크의 원활한 트레이닝이 가능해졌다”고 설명했다.

또한 “이러한 발전 덕분에 순차적 처리 작업을 공략할 수 있는 더욱 효율적인 모델의 구현 및 더욱 복잡한 모델의 사용이 가능해졌다”며 “본 초기 실험에서 앞으로 대규모 모델의 트레이닝 없이 더욱 복잡한 작업을 해결할 수 있을 것으로 나타났다”고 덧붙였다.

스리바스타바 연구팀은 트레이닝 속도 향상을 위해 엔비디아 테슬라(Tesla) K40, K80, 타이탄(TITAN) X를 비롯해 지포스(GeForce) GTX 1080 GPU 외에도 딥 러닝용 CUDA 및 cuDNN를 함께 활용했다. 

스리바스타바 연구원은 DGX 인공지능 슈퍼컴퓨터의 도입을 실험 사이클 가속화에 요인으로 꼽았다. 스리바드타바 연구원은 “이는 매우 중요한 진척이다. 다양한 방식으로 딥 모델의 효율성을 활용할 수 있는 능력이야말로 딥 러닝의 초석이기 때문”이라고 말했다.

☐ 인공지능 적용분야 넓히기는 중요한 과정 
딥 러닝 과정에서 많은 양의 음성을 인식하는 모델을 트레이닝 하는 경우, 그 모델은 주변 잡음이나 억양과 같은 변화를 설명할 수 있어야 한다.

영역 적응으로 알려진 이 개념은 인공지능의 지능이 파생된다는 개념이다. 트레이닝 실험실과 같은 단순한 환경과 달리, 감독과 예측이 불가능한 실제 세계에서 인공지능의 이러한 작업을 진행하는 것은 더욱 어렵다.

도쿄대학교의 연구진은 DGX의 능력을 활용해 대상 영역의 미분류 데이터에 ‘가상의 레이블’을 할당했다. 이는 자율적 영역 적응으로 발생할 문제를 피할 수 있는 대안이다.

이를 통해 딥 러닝 모델이 도서 리뷰의 분류 능력과 같은 소스 영역에서 학습한 사항을 새로운 모델을 트레이닝 할 필요 없이 영화 리뷰와 같은 전혀 다른 대상 영역에 적용할 수 있도록 한다.

도쿄대학교 연구팀은 ‘비대칭 삼각트레이닝(asymmetric tri-training)’이라는 개념을 제안했다. 본 개념은 세 가지 분류자(classifiers)에 각기 다른 역할을 할당해 세 개의 서로 다른 뉴럴 네트워크를 활용하는 것이다. 

두 개의 네트워크는 레이블이 되지 않은 대상 샘플에 레이블을 부여하는 데 이용되며, 나머지 하나의 네트워크는 가상의 레이블이 부여된 대상 샘플로 트레이닝을 실시한다.

도쿄대학교 정보과학기술대학원의 기계정보학과 타츠야 하라다(Tatsuya Harada) 교수는 “단순하거나 합성된 영역에서 쌓은 지식을 다양하고 실제와 같은 영역에 적용하는 것은 실용적이지만 까다로운 문제”라며 “우리의 방식이 단순한 영역에서 복잡한 영역으로의 적응을 실현하기 위한 중요한 과정을 보여주고 있다고 생각한다”고 말했다.