캐리어급 NFV 인프라 구축 이해와 실제

NFV(Network Functions Virtualization: 네트워크 기능 가상화)는 통신 회사를 위한 IT 가상화의 개념으로 보다 효율적인 네트워크 관리에 대한 통신사의 엄격한 요구 사항을 충족시키기 위해 고가용성, 보안, 성능에 대한 부분을 강화시킨 것이다.

NFV에서 소프트웨어 기반의 VNF(Virtualized Network Function: 가상 네트워크 기능)는 하나 이상의 VM(Virtual Machine: 가상 머신)에서 실행되고 서로 연결돼 여러 통신 서비스들을 구현하기 위해 서로 연결돼 동작한다.

NFV 솔루션은 3개의 레이어로 구성돼 있다. VNF 레이어는 NFVI(NFV Infrastructure) 레이어에서 실행되고 NFV-MANO(NFV Management and Orchestration) 레이어는 VNF 및 NFVI 레이어를 관리한다.

NFV 서버는 NFV 캐리어급 솔루션을 위한 기본 빌딩 블록으로 범용 하드웨어에서 상에서 실행되는 NFV 소프트웨어로 구성돼 있다. 빌딩 블록으로 범용 하드웨어에서 상에서 실행되는 NFV 소프트웨어로 구성돼 있다.

NFV의 이점 = NFV는 네트워크 장비와 서비스를 배포하고 관리하는 방법에 있어서 통신 서비스 사업자, CSP(Communications Service Provider)에 혁신적인 유연성을 제공함으로써 통신사 네트워크에 변혁을 일으킬 것으로 전망되고 있다.

가상화는 하드웨어에서 네트워크 기능을 분리해 VNF를 네트워크상의 다양한 위치로 이동시켜 효율성을 극대화한다.

비용 절감 효과는 즉각적으로 확인이 가능하다. 우선 VNF는 물리적으로 여러 데이터센터에 위치할 수 있으며 이를 통해 운영비용을 절감한다.

여러 네트워크 기능을 통합해 NFV의 효율적인 장비 활용을 통해 비용을 혁신적으로 절감할 수 있는데 특히 장비수, 예비 물품 저장 공간, 장비 구매 비용, 케이블류 절감 및 전력 소비 절감 등을 통해 효율성을 높인다.

또한 빌딩 블록 개념을 바탕으로 NFV 솔루션에 대한 개념에 접근해보면 공통 툴 및, 자동화된 네트워크 관리 방식 적용이 가능해 개발 주기가 단축되고 운용 효율성이 개선된다.

서비스 중단 이슈의 열쇠 = NFV의 본질적인 특징 자체가 서비스 가용성이 이뤄지는 수준에서의 유연성을 제공한다. 프로텍션 그룹(Protection Group)은 여러 범위의 크기, 다양한 서비스 종류, 컨피규레이션으로 구성되며 다양한 리던던시(Redundancy) 전략을 통해 문제 발생에 대응할 수 있다.

가상화는 이중화를 위한 리소스를 효율화하고 리던던시 비용을 최소화한다. 하지만 장애 관리 설계가 제대로 구성되지 않으면 장애에 대한 진단이나 복구가 제대로 이뤄지지 않아 오히려 유지보수 비용과 서비스 중단에 대한 비용이 높아져 NFV를 통해 기대했던 비용 절감 효과를 거두지 못하게 될 수 있다.

서비스 중단으로 인한 비용은 진단 및 복구와 관련된 통신사의 운영비용, 그리고 서비스 중단의 결과로 고객에게 지불해야 하는 비용을 포함하고 있다.

포네몬 인스티튜트 리서치는 최근 IT 데이터 센터 중단에 관한 연구를 통해 평균 서비스 중단 비용이 사고당 69만240달러(한화 약 7억6000만원), 분당 6828달러(한화 약 760만원)라고 발표했다(‘2013 Cost of Data Center Outages’ Ponemon Institute, 후원: Emerson Network Power, 2013년 12월).

이는 IT 운영, 생산성 감소, 매출 손실, 사업 중단을 모두 고려한 전체 비용이다. 그러나 이러한 IT 비용은 공공 통신사 네트워크 중단 비용에 비하면 상대적으로 그리 높지 않은 수준이라고 할 수 있다.

예를 들어 2011년 7월에 프랑스텔레콤이 중단돼 2800만 고객이 12시간 동안 전화와 문자메시지를 사용할 수 없게 되자 프랑스텔레콤은 복구비용과 고객 환불로 1200만~2500만달러(약 133억~278억원)의 손실을 입었다.(Leila Abboud, ‘Analysis: France seeks influence on Telcos after outage’, 로이터(Reuter) 온라인 미국판, 2012년 7월).

서비스 중단 비용은 서비스 유형에 따라서도 달라진다. 컨틴전시 플래닝 리서치(Contingency Planning Research)에서 2000년에 실시한 설문 조사에 따르면 서비스 중단 비용이 증권, 금융 중개 업계에서는 시간당 650만달러, 신용카드 승인 업계에서는 시간당 2600만달러였다고 한다.(‘Outage Cost Survey-서비스 중단 비용 조사’, Contingency Planning Research, 2000년).

NFV 캐리어급 서버의 중요성 = NFV 서버는 NFV 인프라와 MANO 레이어를 구축에 사용되기 때문에 캐리어급 NFV 솔루션을 구현하기 위한 매우 핵심적인 구성 요소다.

NFV 서버의 캐리어급 기능은 가용성이 높고(High-availability), 유지보수 리소스가 적게 드는 NFV 솔루션을 구현하는데 반드시 필요하다.

또한 내결함성(Fault Tolerant) 및 장애 관리 기능들을 통해 장애 발생 전체 라이프사이클에 걸쳐 장애를 적절하게 관리할 수 있어야 한다.

장애를 신속하게 감지, 억제하고 적절히 대체 리소스로 프로비저닝하고 경보, 수리, 테스트를 거쳐 서비스를 다시 시작해야 한다.

캐리어급(Carrier Grade Implementation)을 정의하는 주요 특징으로는 높은 장애 감지율, 빠른 복구 시간, 정확한 결함 격리, 낮은 하드웨어·소프트웨어 장애율 등이 있다.

NFV 캐리어급 서버를 위한 안정성·가용성·유지보수성(RAM) 모델링 = 대표적인 NFV 캐리어급 서버인 윈드리버 티타늄 서버의 경우 내결함성(Fault Tolerant)에 대한 설계가 ‘6 9's(99.9999%)’의 고가용성을 보장할 수 있는지 확인하기 위해 마르코프 모델링(Markov Model) 방법을 적용했다.

이러한 방법론은 내결함성(Fault Tolerant) 동작이 작동하도록 시스템의 상태와 중간 상태를 규정할 수 있게 해주며 하드웨어 및 소프트웨어의 장애, 복구 작업, 소프트웨어 업그레이드에 대해 티타늄 서버의 응답을 요구한다.

그 결과로 얻은 RAM(RELIABILITY/AVAILABILITY/MAINTAINABILITY) 모델은 성능 지표를 계산하며 또한 장애 감지율, 소프트웨어 장애 발생율, 복구 시간과 같은 운영 파라미터 등의 구성을 변경해 다양한 설계 옵션으로 RAM 모델링을 통해 테스트에 활용할 수 있다.

RAM 모델은 정상 상태의 유효 수명을 가진 하드웨어 및 소프트웨어 장애율을 적용하며, 연간 서비스 운용 중 업그레이드를 가정해 ▲컴퓨트 노드 다운타임(Compute Server Downtime: VNF 세트를 지원하는데 서버를 사용할 수 없는 연간 평균 시간(분)) ▲컨트롤 노드 다운타임(Control Server Downtime: 관리 및 오케스트레이션을 제외한 NVFI 솔루션의 연간 평균 시간(분)) ▲UMAR(Unplanned Maintenance Actions Ratio: 내결함성(Fault Tolerant) 기능을 적용한 제품과 적용하지 않는 제품에 대한 계획되지 않은 유지보수 작업 비율) 등의 성능 지표를 계산한다.

리던던시를 추가하면 유지보수 비용이 증가하기 때문에 이와 같은 성능 지표는 다른 내결함성 설계 옵션에 대한 다운타임을 최소화하기 위해 필요한 추가 작업 등을 비교할 때 유용하게 사용된다.

NFV 서버의 구성 예시 = 윈드리버 티타늄 서버의 경우 VNF를 실행하는 컴퓨트 노드, NFVI 및 VNF를 관리하는 컨트롤 노드로 구성돼 있다.

이 솔루션의 RAM 성능 지표를 계산하기 위해 아래 그림의 서버 컨피규레이션을 모델링했다. (Rob Paterson, ‘Wind River 티타늄 서버 Reliability/Availability/Maintainability(RAM) Modeling Analysis,’ KerrNet Consulting Inc, 2015년 1월).

점선은 분석 영역을 의미한다. 이 모델에서는 이중화된 GE(Gigabit) 스위치와 통신 서비스 사업자의 VNF 소프트웨어는 제외시켰다.

예시의 구성은 11개의 티타늄 서버 컴퓨트 노드(10개는 활성, 1개는 활성 대기)로 이뤄져 있으며 이들은 네트워크와 통신 서비스 사업자의 VNF간 모든 통신 데이터 처리를 담당한다.

컴퓨트 노드 장애가 발생하면 활성 대기중인 컴퓨트 노드로 자동으로 페일오버(Fail Over)된다. 이 프로세스는 듀얼 서버(1개는 활성, 1개는 활성 대기)로 구성된 티타늄 서버 컨트롤 노드가 관리한다.

컨트롤 노트와 컴퓨트 노드간의 통신은 완전히 이중화된 서버간 및 스위치간 링크를 활용하는 듀얼 기가비트 GE 스위치를 통해 이뤄진다. 이 구성은 분산 가상 환경으로 점선으로 표시된 영역 내의 컴퓨트 노드에는 장애가 발생하지 않는 것으로 가정해 장애 발생시 컴퓨트 노드가 제공하는 모든 VNF가 동시에 중단된다.(즉, ‘전체 시스템 다운타임’ 장애 모드 없음).

10:1 컴퓨트 노드 구성에서는 소프트웨어를 처리하는 활성 대기 컴퓨트 노드를 하나 남겨 둔다. 모든 컴퓨트 노드는 소프트웨어 에이전트를 실행하며 이는 수백 밀리세컨드 내의 빈도로 ‘하트비트(heartbeat)’ 기능을 사용해 컨트롤 노드에 의해 상태를 확인한다.

하나의 활성 대기 하드웨어 플랫폼을 사용하는 컨트롤 노드도 동일한 간격으로 활성 컨트롤 노드에 의해 테스트된다.

컴퓨트 노드 하드웨어의 장애(HP DL380이 모델에 사용됨)가 발생하면 영향을 받는 모든 VNF가 VNF 통신에 영향이 없는 500밀리세컨드 미만으로 상시 스탠바이 컴퓨트 노드에 자동으로 재할당된다. 티타늄 서버 소프트웨어 장애는 프로세스 자동 재시작을 통해 5초 이내에 복구된다.

티타늄 서버는 일시적인 장애를 처리하기 위해 ‘홀드 오프(hold-off)’ 메커니즘을 구현한다.

이는 복구의 불안정을 예방하고 더 나아가 느린 GE 스위치 페일오버와 같은 특정 외부 네트워크 장애 모드에 의해 발생하는 불필요한 서비스 중단을 방지한다.

10:1 티타늄 서버 구성에 대한 예상 결과가 아래 표에 정리돼 있으며 티타늄 서버를 IT급(IT-grade)의 솔루션과 비교하고 있다.

IT급 솔루션은 통신사 유지보수 절차를 적용한다고 가정해, 설계 역량을 비교한다. 티타늄 서버와 마찬가지로 IT급 솔루션도 컴퓨트 노드 하드웨어 리던던시를 지원하지만 장애 감지율과 복구 속도는 티타늄 서버에 미치지 못한다. 결과적으로 IT급 솔루션은 무손실 소프트웨어 업그레이드를 제공할 수 없다.

티타늄 서버는 분산 아키텍처를 사용하기 때문에 전체 시스템 중단을 초래하는 일반 장애 모드가 없다. 주된 장애 모드는 VNF 그룹에 영향을 미치는 단일 서버 컴퓨팅 중단이다.

예상되는 컴퓨트 노드 시스템 다운타임은 연간 0.19분이며 이와 대조적으로 IT급 솔루션의 컴퓨트 노드 다운타임은 연간 6.4분이다. 통신사 배포의 경우, 이는 서비스 중단 비용에서 수천만 달러 차이가 발생할 수 있는 수치다.

관리 제어(컨트롤 시스템 다운타임)로 인한 손실은 티타늄 서버의 경우 연간 0.23분으로 예상 다운타임이 연간 7.4분인 IT급 솔루션과 비교해 현저하게 낮다. 이는 VNF와 컴퓨트 노드가 장애 관리, 통신에 대한 경보 및 유지보수 없이 실행되는 취약한 상태에서 소요된 시간이다.

시스템의 예상되는 연간 UMAR은 1.2분으로 비활성 컴퓨팅 노드에 대한 활성화 컴퓨팅 노드의 비율이 높기 때문에 상대적으로 낮다.

이중화 리소스를 효율적으로 활용하면 유지보수 비용이 절감된다. IT급 솔루션은 컨트롤 노드가 중복되지 않아 유지보수 비율이 조금 낮지만 단축된 다운타으로 인해 절감된 서비스 중단에 대한 비용은 유지보수 작업의 한계 비용 증가분을 훨씬 초과한다.

티타늄 서버의 리던던시 비율을 10:1 구성 이상으로 높일 수 있다. 컴퓨트 노드 다운타임에 대한 영향을 확인하기 위해 RAM 모델을 사용해 리던던시 비율을 최대 100:1로 변경했다. 그 결과(아래 그림 참조) 서비스 다운타임에 대한 악영향 없이 리던던시 비율이 유인 위치에서 100:1로 무인 사무실에서 30:1로 증가할 수 있다. 이는 각각 105와 108로 UMAR에서 확연한 차이를 확인할 수 있다.

NFV 성공적 구축 위한 조건 = NFV는 공공 통신 네트워크에서 서비스와 장비를 구성하고 관리하는 방법에 혁신을 가져온다.

통신 서비스 사업자는 NFV를 통해 다양한 유형의 네트워크 기능을 데이터센터로 통합해 자본 및 운영비용뿐만 아니라 서비스 도입 시간을 크게 줄일 수 있다. 따라서 완전하게 통합된 오픈 소스 기반의 총체적인 기능을 제공하는 NFV 서버를 통해 광범위한 리던던시 유형 및 장애 관리 기능을 지원해야 하며 최소한의 리던던시 비용으로 6'9(99.9999%)이상의 고가용성을 확보해야만 성공적인 NFV 구축을 보장할 수 있다.

이광재 기자 다른기사 보기