[기고] AI 시대의 인프라 운영
상태바
[기고] AI 시대의 인프라 운영
  • 석주원 기자
  • 승인 2021.02.08 11:16
  • 댓글 0
이 기사를 공유합니다

가치 평가보다 실용주의적 관점이 필요

[글=노규남 | KINX CTO]
bardroh@kinx.net

AI(인공지능) 열풍이 거세다. 2014년 합성곱 신경망(CNN)을 사용한 구글의 AI ‘알파고’가 이세돌 9단과의 바둑 대결에서 승리하며 전 세계의 주목을 받았다. 이후 세계 곳곳에서 다양한 조직이 AI에 투자하기 시작했고, 현재는 모든 분야로 AI가 확산되고 있다. 이런 모습은 ‘인터넷’이나 ‘닷컴’이라는 단어만 포함해도 기업이 엄청난 투자를 받을 수 있던 ‘닷컴 버블’을 연상케 하기도 한다. 이럴 때는 무엇보다 실용주의적 관점에서 바라보는 것이 중요하다. 단순히 AI를 적용하자고 선언하는 것만으로는 아무 일도 일어나지 않는다. AI가 구체적으로 조직에 어떤 이익이 될 수 있는지에 집중해야 한다.

 

IT 운영에도 AI를 적용할 시간

최근 수요가 급증하고 있는 클라우드 인프라 운영에도 AI가 중요한 역할을 할 것으로 예상된다. AI의 개발과 운영에 클라우드가 필요한 만큼, 클라우드 인프라 운영에도 AI를 빼놓을 수 없는 것이다. 잘 알려진 대로 이렇게 AI로 IT 인프라를 운영하는 방식을 ‘AIOps(AI for IT Operations, AI IT 운영관리시스템)’이라 부른다.

클라우드 시대로 넘어오면서 기업은 인프라를 매우 유연하게 활용할 수 있게 됐다. 개발자의 업무는 데브옵스(DevOps)의 도입으로 인해 CI/CD(지속적 통합·배포) 파이프라인에 통합되며 간편해졌다. 반면 인프라의 형태가 고정돼 있지 않아 관제와 운영은 매우 어려워졌다. 시스템 엔지니어들은 실시간으로 변하는 인프라를 안정적으로 관리해야 하는 새로운 숙제를 안게 됐다.

애플리케이션을 클라우드 네이티브하게 바꾸면 문제는 더욱 심각해진다. 클라우드 네이티브 애플리케이션은 하루에도 몇 번씩 배포될 수 있으며 필요에 따라 서비스 규모, 엔드포인트 등도 수시로 바뀔 수 있기 때문이다. 물리 인프라와 여러 업체의 클라우드를 함께 사용하는 멀티·하이브리드 클라우드의 경우 구성은 더욱 복잡해진다. 따라서 고정된 인프라를 전제로 개발된 과거의 도구로 오늘날의 대규모 클라우드 인프라를 원활히 운영하는 것은 사실상 불가능하다.

자동화된 도구의 등장으로 IT 인프라 운영이 어려워졌다면 이 역시 자동화된 도구를 이용해 문제를 해결할 수 있다. 업무에 있어 가능한 모든 부분을 자동화하는 것이 오늘날의 추세다. 특히 기존에 자동화가 어렵다고 판단된 부분까지도 AI로 자동화할 수 있게 되면서 관심이 자연스레 높아지고 있다. 이런 측면에서 AIOps의 확산은 불가피하다고 볼 수 있다.

 

IT 인프라 운영, AIOps로 무엇을 할 수 있는가

그러면 어떻게 IT 인프라 운영에 AI를 활용할 수 있을까? 가트너에 따르면 AIOps는 관제(Observe), IT 서비스 운영(Engage), 운영·관리 자동화(Act) 등 세 가지 영역으로 구성된다. 이 중 가장 직관적으로 효용을 얻을 수 있는 분야는 관제다. IT 업계에서 관제란 주로 모니터링 업무를 의미한다. IT 인프라가 정해진 상태로 유지되고 있는지 확인하고, 그렇지 않은 경우는 신속하게 감지해 문제를 해결하도록 하는 일련의 활동이다.

 

전통적 관제는 수많은 모니터에 띄워 놓은 여러 개의 대시보드를 확인하고 알람을 처리하는 것이 주된 업무이다. 과거에는 관리해야 하는 시스템의 수가 적고 구조가 단순했기 때문에 이런 방식으로 무리 없이 서비스를 운영할 수 있었다.

하지만 애플리케이션의 구조가 복잡해지고 확인해야 하는 데이터의 양이 늘어나면서 이 방식은 점점 더 많은 인력을 필요로 하게 되었다. 또한 인프라의 구조가 수시로 변화하는 클라우드 환경에서는 변경 사항을 모두 살펴야 하기 때문에 관제 인력의 업무 부담이 더욱 증가했다.

이러한 이유로 AI는 관제에 가장 먼저 도입되고 있다. AI가 기존 인력의 업무를 70% 정도 대체할 수 있다면 30%의 인력과 노동 강도로 동일한 품질의 관제 업무를 수행할 수 있다. 기업 입장에서는 부족한 인력 수급과 서비스 안정화라는 두 가지 과제를 모두 해결할 수 있는 것이다. 이 분야에는 다이나트레이스(Dynatrace), 스플렁크(Splunk), 엘라스틱(Elastic) 같은 전문 솔루션부터 AWS의 클라우드 워치 이상 탐지 기능(AWS CloudWatch Anomaly Detection) 등 CSP의 솔루션까지 다양한 도구가 존재한다.

이런 도구들을 사용하기 위해서는 우선 인프라에서 발생하는 수많은 메트릭(metric)과 로그를 쌓아야 한다. 이렇게 쌓인 데이터를 여러 방식으로 모델링해 미래의 메트릭값이나 이벤트를 예측하게 된다. 이때 다양한 예측 방법을 적용할 수 있는데, 그 방법과 적용 범위에 따라 다른 효용을 기대할 수 있다.

대표적인 예측 방법으로는 자기회귀 누적이동평균(ARIMA)으로 상하 밴드를 설정하는 방법, 순환 신경망(RNN)이나 게이트 순환 유닛(GRU)을 학습시켜 연속된 데이터로부터 미래 메트릭을 예측하는 회귀 분석, 전체 집단에서 벗어난 프로세스나 사용자를 찾아내는 모집단 이상 탐지(Population Anomaly Detection), 오토인코더(AutoEncoder)의 데이터 추상화를 활용한 비지도 이상 탐지(Unsupervised Anomaly Detection) 등이 있다.

이렇게 운영 방식을 바꾸면 임계치를 수동 설정하는 대신 AI가 학습한 데이터를 바탕으로 평소 패턴과 다른 데이터 발생 시 알림을 전송할 수 있다. 서로 다른 여러 가지 척도들의 상관관계를 자동으로 분석해 문제의 원인을 추적하기도 한다. 숙련된 시스템 엔지니어가 담당하던 장애 대응, 문제 예방 등의 업무를 AI가 대체하는 것이다. 이러한 방식은 단순 모니터링에서 시작해 성능 분석, 보안 등 점점 많은 영역으로 확대되고 있다.

다음으로는 ‘서비스 데스크’라 불리는 IT 서비스 운영 업무에 AI를 적용할 수 있다. 고객이 등록한 티켓을 읽고 분류해 처리하는 일 등이 포함된다. AIOps를 적용하면 자연어 처리를 통해 티켓을 카테고리에 따라 분류하고 적절한 부서에 할당할 수 있다. 반복되는 단순 질문에는 AI가 직접 답변함으로써 운영자가 처리해야 하는 티켓을 최대 90% 수준까지 줄일 수도 있다.

AI가 답변할 수 있는 질문이 단순한 부문에 국한될 것으로 생각한다면 한국어 질의응답 데이터세트 코쿼드(KorQuAD) 2.0의 리더보드를 확인해보라. 코쿼드 2.0은 10만 개 이상의 한국어 질문과 이에 대한 답변으로 쌍을 이룬 데이터세트다. 얼마나 정답과 유사하게 답변하는지를 ‘F1 점수’로 나타내는데, 2021년 1월 현재 사람의 최고 점수는 83.86점이고 AI의 최고 점수는 89.82점이다. 구글의 AI 언어 모델 ‘버트(BERT)’ 등 최신 기술로 무장한 AI는 이미 일정 영역에서 사람을 능가하는 수준이다. 충분한 양의 데이터를 학습했다면 일반적 질문에 답하는 것에는 전혀 문제가 없다고 볼 수 있다.

KorQuAD 2.0의 리더보드
KorQuAD 2.0의 리더보드

마지막으로 운영·관리 자동화 단계에 이르면 AI는 관제 데이터를 근거로 문제를 판단하고 운영자에게 알리는 동시에 낮은 단계의 조치를 직접 수행하게 된다. 이 경우 AI에서 발생하는 이벤트와 관제, 운영 시스템 간의 API 연동이 이루어져 시스템 간 메시지 교환과 그에 따른 실행이 자동화될 수 있게 구현돼야 한다. AI가 처리하지 못하는 중요 이슈는 운영자가 AI의 판단을 참고하고 본인의 의견을 더해 최종적으로 필요한 조치를 취하게 된다.

단순한 관제와 반복 작업, 그리고 업무가 명확히 규정되는 일들은 이미 자동화돼 시스템으로 구동할 수 있다. 기계에 맡기는 것이 불가능하다고 간주되었던 부분까지도 이제는 AI를 기반으로 자동화되고 있는 것이다.

 

AI는 결국 사람이 사용하는 도구

AI는 결국 사람이 사용하는 도구이다. 따라서 그 자체에 대한 가치 판단은 큰 의미가 없다. AI가 사람의 일자리를 모두 빼앗을 것이라는 전망에도 전적으로 동의하기는 어렵다. 다만 비숙련 개발자나 시스템 엔지니어의 업무는 대부분 AI가 대체할 것이 확실시된다. 과거에는 주산 작업이 경리의 주요 업무였지만 지금은 엑셀이 대신하고 있는 것처럼 말이다.

하지만 엑셀이 복잡한 계산을 대신해 준다고 해서 주산 자격증 소유자의 일을 빼앗았다고 보기는 어렵다. 오히려 업무를 빠르고 정확하게 함으로써 더 많은 가치와 일자리를 창출했다고 보는 편이 타당하다.

만약 엑셀이 없었다면 우리는 아직도 매출 집계 등의 업무에 엄청난 인력과 시간을 투입하고 있었을 것이다. 이 작업을 엑셀이 대신함으로써 우리는 복잡한 계산에 시달리지 않고 비즈니스의 핵심 경쟁력, 즉 사업의 본질과 관련된 업무에 집중할 수 있게 됐다.

시스템 엔지니어가 수행하는 단순 반복 업무 역시 AI가 빠르게 대체할 것이며, 이 밖에도 다양한 업무 영역에 AI가 도입돼 더 많은 일을 대신하게 될 것이다. 미래에는 시스템 엔지니어나 개발자가 아예 없는 기업도 대규모 인프라 기반의 서비스를 운영할 수 있을지도 모른다.

단, AI를 활용하는 인력의 역할은 여전히 중요하다. 아무리 AI 도구가 자동화돼 사람의 업무가 줄었다고 해도, AI에 대한 기술적인 이해가 전혀 없다면 제대로 사용할 수 없다. 데이터를 어떻게 준비하고 얼마나 학습해야 하는지, 또 학습과 추론 결과를 어떻게 해석하고 애플리케이션에 적용할지를 판단하는 것은 여전히 사람의 몫이다. 여기에 AI 도입의 성패가 달렸다.

따라서 앞으로는 AI라는 강력한 도구를 어떻게, 그리고 얼마나 활용하는지가 IT 인프라의 운영 효율을 결정할 것이다. 더불어 AIOps가 일반화되면 IT 인프라의 운영 방식은 또 다른 단계로 발전할 것이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.