AWS, 3개 신규 아마존 AI 서비스 발표
상태바
AWS, 3개 신규 아마존 AI 서비스 발표
  • 이광재 기자
  • 승인 2016.12.05 12:32
  • 댓글 0
이 기사를 공유합니다

아마존웹서비스(Amazon Web Services, 이하 AWS)가 아마존 렉스(Amazon Lex), 아마존 폴리(Amazon Polly), 아마존 리코그니션(Amazon Rekognition) 등 3개의 신규 AI(Artificial Intelligence) 서비스를 출시한다고 밝혔다.

이번에 새롭게 발표된 서비스를 통해 개발자들은 자연어를 인식하고 텍스트를 실제 사람의 말과 같은 음성으로 바꿔 주며 음성이나 텍스트를 통해 대화를 진행하고 이미지 분석, 사람의 얼굴이나 물체, 특정 장면 등을 인식하는 애플리케이션을 손쉽게 개발할 수 있다.

아마존 렉스 및 폴리, 리코그니션은 수천여명의 아마존 딥 러닝, 머신 러닝 전문가들이 개발한 검증되고 고도의 확장성을 갖춘 아마존 기술에 기반했다. 아마존AI 서비스는 모두 우수한 품질과 높은 정확도를 자랑하는 AI 기능을 제공하며 탁월한 확장성을 갖추고 비용 효율적이다.

아마존의 AI 서비스는 아마존이 모든 관리 서비스를 제공해 별도의 알고리즘을 구축하거나 머신 러닝 모델을 트레이닝 할 필요가 없고 선지불(up-front commitments)이나 인프라 투자를 필요로 하지 않는다. 이는 개발자들에게 자유를 선사해 사람처럼 주변 환경을 보고 듣고 말하고 이해하고 상호 작용을 할 수 있는 새로운 애플리케이션 개발에 집중할 수 있도록 해 줄 것이라고 아마존은 밝혔다.

지금까지 인공지능 기능을 지닌 애플리케이션을 개발, 구축하고 이를 대규모로 확장할 수 있는 개발자의 수는 매우 적었다. 왜냐하면 이러한 과정은 방대한 양의 데이터에 접근할 수 있어야 하고 고도의 머신 러닝 및 신경망 관련 전문 지식을 필요로 했기 때문이다.

인공지능 기술을 효과적으로 적용하기 위해서는 여러 가지 서로 다른 종류의 머신 러닝 및 딥 러닝 알고리즘을 개발하고 조율하는 광범위한 수작업이 필요했다(예: 자동 음성 인식, 자연어 처리, 이미지 분류 기능). 그리고 나서 트레이닝 데이터(training data)를 수집 및 클린(clean)하고 다시 머신 러닝 모델을 훈련하고 튜닝하는 작업이 추가적으로 요구됐다.

하나의 애플리케이션을 개발하는 과정에서도 모든 사물, 얼굴, 음성, 언어 특징 별로 이러한 과정을 반복해야 했다. 그러나 아마존 AI는 완전 관리 서비스로서, 모든 앱 개발자들은 AWS 관리 콘솔(Management Console)에서 API 콜이나 몇 번의 클릭만으로 서비스에 접속해 아마존의 강력하고 검증된 딥 러닝 알고리즘과 기술들을 활용할 수 있어 이러한 작업의 어려움을 없애 준다.

아마존 AI 서비스는 아마존의 자연어 처리 기능, 음성 인식 기능, 텍스트 음성 변환(text-to-speech) 기능, 이미지 분석 기능을 앱과 기기, 장소와 규모를 가리지 않고 자유롭게 사용할 수 있도록 해 준다.

AWS 데이터베이스, 애널리틱스 및 AI 담당 부사장인 라주 굴라바니(Raju Gulabani)는 “알고리즘의 발전, 방대한 데이터에 대한 폭 넓은 접근, 클라우드로 인한 컴퓨팅 성능 비용 절감 등의 여러 요인 등이 결합해 애플리케이션 개발자들에게 AI는 더욱 구체적인 현실이 됐다. AWS는 오늘날 사용되는 가장 혁신적이고 창조적인 주요 AI 애플리케이션의 중심에 있다. 아마존의 머신 러닝 및 딥 러닝 전문가들 수천여명이 여러해 동안 인공 지능 기술을 개발해 왔다. 이들이 개발해 온 인공지능 기술은 사람들이 선호할 만한 읽을거리를 예측하고 로봇 기술과 컴퓨터 비전 기술을 통해 물류 센터(fulfillment center) 업무의 효율성을 증대시키며 고객들에게 아마존이 개발하고 있는 인공지능 기반 가상 비서, 알렉사(Alexa)를 선보일 수 있게 해 줬다. 이제 AWS는 이러한 혁신의 근간 기술을 모든 개발자들이 공유할 수 있도록 3가지 종류의 관리형 아마존 AI 서비스를 출시하게 됐다. 이 서비스들은 사용이 쉽고 성능이 뛰어나며 비용효율적이다. 앞으로 고객들이 어떻게 아마존 렉스, 폴리, 리코그니션을 사용해 인간과 같은 지성을 지니고 사람처럼 보고 듣고 말하며 인간 및 주변 환경과 상호작용할 차세대 앱을 어떻게 개발할지 매우 기대된다”고 말했다.

아마존 렉스는 대화형 인터페이스(conversational interfaces) 구축을 위한 새로운 서비스로 아마존 알렉사에서 사용되는 것과 동일한 자동 음성 인식 기술(ASR, automatic speech recognition) 및 자연어 처리 기술(NLU, natural language understanding) 기술을 기반으로 음성과 텍스트를 이용한다.

렉사가 거의 모든 앱에서 복잡한 자연어 처리 기능을 가능하게 한 것이다. 개발자들은 아마존 관리 콘솔에서 봇(날씨 확인, 항공기 예약 등의 자동화 기능을 수행하는 대화형 앱)을 생성해 간단한 어구를 타이핑해 시험해 볼 수 있다(예: “항공편을 찾아봐”, 또는 “비행기를 예약해라”). 또 해당 과업을 수행하는 데에 필요한 추가적인 매개 변수를 얻기 위해 지시를 내릴 수도 있으며(예: 여행 일자 및 목적지) 그에 해당하는 상세한 정보를 위한 질문을 받기도 한다(예: “어디로 가기를 원하십니까?”, “어디에 가고 싶으세요?”).

이후부터는 렉사가 언어 모델을 구성하고 추가적인 질문을 제시해 주어진 과업을 완수한다. 렉사는 AWS 람다(Lambda)와 통합돼 있으므로 개발자들은 AWS 람다 기능을 사용해 적절한 백엔드 서비스(항공권 예약 서비스 등)를 렉스로 불러 오도록 설정할 수 있다. 또 개발자들은 세일즈포스(Salesforce), 마이크로소프트 다이나믹스(Microsoft Dynamics), 마케토(Marketo), 젠데스크(Zendesk), 퀵북(QuickBooks), 허브스팟(HubSpot) 등의 엔터프라이즈 시스템에서 데이터를 불러와서 “Salesforce.com에서 내 상위 10대 계정이 무엇인가?”와 같은 질문에 답하도록 AWS 람다 기능을 수행하는 사전 구축된 엔터프라이즈 커넥터를 사용할 수 있다.

렉스를 사용해 구축한 봇은 웹 애플리케이션부터 페이스북 메신저(Facebook Messenger)나 슬랙(Slack) 등의 채팅 및 메신저 앱을 비롯해 모바일 또는 커넥티드 디바이스의 음성을 통해 어디서든 사용이 가능하다. 렉스는 개발자들로 하여금 각 플랫폼마다 사용자 인증 코드(custom code)를 입력하도록 요구하지 않고도 각각의 플랫폼에 필요한 인증 절차를 처리하고 사용자 인터페이스 설계를 간소화한다. 뿐만 아니라 렉스는 트래픽이 증가함에 따라 자동으로 확장이 이뤄지기 때문에 이제 개발자들은 인프라 확장에 대해 걱정하지 않고 렉스 API 호출에 따른 비용만 지불하면 된다.

아마존 폴리는 개발자로 하여금 사람의 음성과 같은 자연스러운 음성 출력 기능을 신문 읽기 앱이나 이러닝 플랫폼 등 기존의 애플리케이션에 쉽게 추가할 수 있도록 한다. 또는 이를 통해 모바일 앱, 디바이스, 애플리케이션 등의 분야에서 전혀 새로운 종류의 음성 지원 제품(speech-enabled products)을 개발할 수 있다.

폴리는 사용이 간편하다. 개발자들은 폴리에게 SDK를 사용하거나 AWS 관리 콘솔에서 메시지를 보낼 수가 있으며 폴리는 즉각 음성으로 이를 출력한다. 출력되는 음성은 바로 재생 가능하고 표준 오디오 파일 형식으로 저장할 수 있다.

전세계 24개 언어로 47개의 실제와 같은 음성을 제공하는 폴리를 통해 이제 개발자들은 성별, 억양 등을 자유롭게 선택해 전세계 사용자들을 대상으로 하는 애플리케이션을 개발할 수가 있게 됐다.

폴리는 텍스트를 매끄러운 발음으로 읽어 주므로 다양한 텍스트 포맷에 걸쳐 우수한 품질의 음성을 애플리케이션을 출력할 수 있다. 폴리는 확장성이 뛰어나며 대량의 음성 변환 작업에도 고품질의 음성을 빠른 속도로 출력한다. 개발자는 오직 변환되는 텍스트의 양 만큼만 비용을 지불하면 되고 생성된 음성 파일은 저장 후 자신이 원하는 만큼 아무런 제약 없이 재생할 수 있다.

아마존 리코그니션은 개발자들이 빠르고 손쉽게 이미지를 분석하고 안면이나 사물, 장면 등을 인식하는 애플리케이션을 개발할 수 있도록 해 준다. 리코그니션은 딥러닝 기술을 이용해 자동으로 차량이나 애완동물, 가구 등 사물과 장면을 식별한 후 신뢰도 점수(confidence score)를 제공한다.

이를 통해 개발자들은 이미지에 태그를 적용해 애플리케이션 사용자들이 키워드를 통해 이미지를 검색할 수 있게 한다. 리코그니션은 이미지 내에서 얼굴을 인식하고 웃고 있는지 눈을 감았는지 등의 속성을 감지해 낸다. 또 고급 안면 분석 기능을 제공해 안면 비교나 안면 검색 등도 수행할 수 있다.

리코그니션을 이용해 개발자들은 동일 인물을 촬영한 두 개의 이미지를 놓고 안면의 유사성을 측정할 수 있으며 이를 통해 거의 실시간으로 참고 사진과 대조해 사용자의 신원을 검증할 수 있다. 마찬가지로 수백만 장의 얼굴 이미지(사진에서 탐지)를 모을 수도 있고 기준이 되는 얼굴을 데이터베이스에서 검색할 수도 있다.

리코그니션은 종합적인 이미지 분류, 탐지, 관리 기능을 신뢰할 수 있는 AWS 서비스 형태로 쉽고 저렴하게 제공하며 고가의 이미지 처리 시스템을 구축하고 관리하는 데에 소요되는 복잡성과 오버헤드를 줄여 준다. 리코그니션 사용시 선투입 비용(upfront costs)은 발생하지 않으며 개발자는 저장하는 안면 형태 벡터 및 분석 이미지의 양에 따라 비용을 지불하면 된다.

폴리는 미국 동부 지역(북 버지니아), 미국 동부(오하이오), 미국 서부(오레곤), 유럽(더블린) 지역에서 바로 이용 가능하며 향후 수개월 간 서비스 지역을 넓혀 나갈 예정이다. 리코그니션은 미국 동부(북 버지니아), 미국 서부(오레곤), 유럽(더블린) 지역에서 이용이 가능하며 향후 수개월간 다른 지역으로 서비스 지역을 확대할 예정이다. Amazon Lex는 현재 프리뷰를 이용할 수 있다.

이들 서비스에 더해 AWS는 최근 오픈소스로 배포되는 딥 러닝 프레임워크인 MXNet에 대규모 투자를 단행한다고 발표했다. 카네기 멜론 대학 등 유명 대학 연구진에 의해 최초로 개발된 MXNet에 대해 아마존은 코드 기여 및 개발자 환경 개선 등을 진행해 왔다.

MXNet은 머신 러닝 분야의 과학자들을 대상으로 확장성을 지니는 딥 러닝 모델을 개발할 수 있도록 해 주며 이는 이들의 애플리케이션을 훈련 시키는 데에 소요되는 기간을 크게 단축해 줄 것이다.

뿐만 아니라 AWS에서는 개발자들이 AWS를 개반으로 자기만의 인공지능 플랫폼을 개발하는 데에 소요되는 머신 러닝 및 딥 러닝 작업 부하 실행 부담을 덜어주기 위해 노력하고 있다. 아마존 EC2(Amazon Elastic Compute Cloud)는 방대한 양의 메모리와 다양한 GPU 및 인스턴스 타입을 지원함으로써 딥러닝 훈련에 가장 이상적인 체제다.

2016년 9월 출시된 P2 인스턴스는 대규모 머신 러닝 및 딥 러닝 작업을 위해 설계된 제품으로 최대 8개의 엔비디아 테스 K80 엑셀러레이터를 통합할 수 있으며 이는 각각 한 쌍의 12GiB 엔비디아 GK210 GPU 및 2,496 병렬 처리 코어를 실행한다. 또 고객은 AWS의 딥러닝 AMI를 이용할 수 있는데 여기에는 모든 종속성(dependencies), 엔비디아 드라이버, 그리고 주피터(Jupyter)나 아나콘다와 같은 데이터 사이언스 툴을 포함해 사전에 설정 및 시험을 완료한 6개의 딥러닝 프레임워크가 포함돼 있다. 상품과 서비스들이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.