트리플 플레이 시대의 인프라 DSP
상태바
트리플 플레이 시대의 인프라 DSP
  • CCTV뉴스
  • 승인 2009.04.13 00:00
  • 댓글 0
이 기사를 공유합니다

글 : 레온 아담스 / 텍사스 인스트루먼트
www.ti.com

멀티미디어 콘텐츠가 총 트래픽에 따라 늘어나며 장비 제조업체들은 전례 없는 엔지니어링 위기와 기회에 직면하고 있다. 이들은 과거의 인프라 설계 패러다임을 이끈 음성 및 데이터 트래픽과는 근본적으로 다른 총 트래픽의 급격하면서도 지속적인 증가를 다룰 수 있는 새로운 종류의 장비를 구축해야 한다.

1970년대의 컴퓨터 변혁 이래, 몇 가지 경향이 결합되어 이러한 변화를 주도해왔다:

- 음성 전용에서 음성 및 데이터 트래픽으로의 전환. 이 경향은 수십 년 전에 시작되었으며 현재도 이어지고 있다. 

- 기존의 음성/데이터 트래픽에 멀티미디어 트래픽 추가(특히, 스트리밍 미디어). 이 경향은 텔레콤 사업자들이 음성/비디오/데이터 서비스를 제공하는 '트리플 플레이' 서비스로 전환하고 있는 현상으로 입증될 수 있다. 

- 고정 위치 서비스에서 홈서비스로 그리고 모바일 서비스로의 진화. 유선 인프라의 음성데이터미디어 진화가 동일하게 무선 인프라에서 현재 진행되고 있다.

이러한 앞의 세 가지 경향이 회선교환식 전송에서 패킷 기반 전송, 특히 인터넷 프로토콜(IP) 트래픽으로의 이동이라는 또 다른 경향을 만들어냈다. 음성 통신 시절에는 텔레콤 신호 프로세스는 단지 반향 소거, 데이터 모뎀에 대한 회선 조절, 그리고 회선교환을 통한 데이터의 변조/복조에 국한되었다. 그러나 오늘날 오디오, 비디오 및 데이터 트래픽의 디지털 방식 모듈/복조 및 압축/해제에 수십 가지의 신호 프로세스 알고리즘이 쓰이고 있다. 요약하면 텔레콤 인프라는 더 많은 양의 데이터를 처리하고 있을 뿐만 아니라 데이터에 적용되어야 할 신호 프로세스의 양 또한 급증하고 있다는 것이다.

이러한 급증을 충족하기 위해서는 상당한 성능 증대가 필요하다. 이에 대한 해결책은 간단히 DSP의 클록 속도를 높이는 것이다. 하지만 이 방법은 다음의 이유로 부적합하다. 첫째, 칩의 클록 속도를 무한정으로 높이기에는 한계가 있다. 둘째, 트래픽 부하가 선형이 아니라 지수적으로 증가하는 경우, 최고의 클록 속도라 할지라도 곧 성능 요구사항에 미치지 못하게 된다.

그리고 또 다른 근본적인 문제는 인프라 장비의 크기와 방열이 제한된 랙마운트 형이라는 점이다. 클록 속도를 줄이는 경우를 제외하고 랙의 크기를 변경하지 않는다면, 높은 클록 속도로 인한 고도의 방열은 클록 속도를 높이는 것을 불가능하게 할 것이다. 앞으로는 보드의 성능 제고가 보드의 전력 소모 예산, 건물의 노후도 및 위치, 그리고 인프라 장비를 수용하고 있는 랙으로 제한 될 것이다.

성능 제고

텔레콤 설계 엔지니어들은 큰 난관에 직면했다. 이들은 트래픽 유연성과 비용 효율성을 유지하면서 더 작은 공간에 더 높은 성능을 넣어야 하고, 채널 밀도를 올려야 하며, 점점 다양해지는 미디어를 다루어야 한다. 이를 해결하기 위해 DSP는 진화하고 있으며, 이는 칩 설계자들에게 위에 언급되어 있는 경향들을 특정 IC 기능과 아키텍처로 변환시키는 것을 의미하였다. 성능과 전력 목표를 동시에 충족시키는 가장 적절한 방법은 최적화된 엔진과 효율적인 I/O를 갖춘 저전압 칩 상에서 가능한 많은 프로세스가 이루어지도록 하는 것이다.

지속적으로 증가하는 원 자료의 프로세스에는 우수한 성능과 효율적인 온칩 데이터 전송이 필요하다. 구조상으로 이는 SRC(switched central resource), 즉 마스터와 슬레이브를 갖춘 크로스바 아키텍처를 통해 프로세스 요소들(DSP CPU, DSP 주변장치, 코프로세서 가속기, 내부 메모리)을 연결하면 가능하다. 그림 1은 이 아키텍처의 전형인 텍사스 인스트루먼트의 TMS320C6455 DSP의 블록 다이어그램을 보여주고 있다.



SCR 좌측의 마스터를 SCR 우측의 슬레이브에 바로 연결할 수 있다. 마스터에는 DSP의 CPU, 하나의 SRIO(시리얼 Rapid IO) 인터페이스, 네 개의 전송 컨트롤러(TC)와 세 가지 마스터 주변장치(PCI, HPI, EMAC)를 SCR에 연결하는 하나의 크로스바 포트가 들어있다. 슬레이브에는 DSP 메모리, DDR 메모리 인터페이스, 터보 코프로세서(TCP), 비터비(Viterbi) 코프로세서(VCP)와 여러 주변장치를 SCR에 연결하는 하나의 크로스바가 있다.

이러한 아키텍처는 SCR이 마스터와 슬레이브 간의 동시 데이터 전송을 허용하기 때문에 빠르고 효율적이다. 예를 들면, PCI과 DDR EMIF 간의 연결은 PCI166과 DSP CPU 간의 연결과는 별개이기에 데이터 전송이 완벽하게 동시에 이루어진다. 여러 마스터가 동일 슬레이브에 액세스할 경우, SCR이 중재 역할을 하여 시스템 설계자가 마스터들에 대하여 우선순위를 프로그램 할 수 있는 일부 제어권을 가진다.

아키텍처 상의 필수요소들

알고리즘을 실행시킬 때, CPU와 메모리 간의 데이터 이동과 명령이 극히 중요하다. 그림 2의 TMS320C6455 DSP 메모리 시스템의 경우, 256비트 광 데이터 버스를 이용하고 그 사이에 내부 DMA(direct memory access) 아키텍처 상에 보완된 두 레벨의 캐시 메모리를 생성함으로써 전송이 간소화되어 있다.



또 다른 아키텍처 상에 필수 요소는 효율적인 온칩 프로세스 엔진을 갖추는 것이다. 매우 효율적인 방법은 코프로세서 온칩을 통합시켜 고성능에 필요한 특정 기능을 가속화시키는 것이다. 예를 들면, 그림 1에 나와 있는 TMS320C6455 DSP에는 비터비 코프로세서(VCP)와 터보 코프로세서(TCP)가 통합되어 있다.

온칩 프로세스가 완료되었더라도, 개발자는 여전히 보드 상의 칩에서 텔레콤 전송 매체로 상당한 양의 데이터를 전송하여야 한다. 고속 IO는 탁월한 선택이지만, 위에서 언급한 이종 인프라(hetero geneous infrastructure)의 맥락에서는 어느 프로세스가 가장 적절할 지를 판단하는 것은 간단한 문제가 아닐 것이다.

칩 간 보드 레벨 인터페이스를 위한 몇 가지 다른 고성능 IO 인터페이스를 제공하는 것이 최적의 솔루션이다. sRIO(seri al Rapid IO)는 이종 멀티 프로세서 디바이스 간 통신에 최적의 선택이며, 이는 대역폭 활용이 95%에 달하는(4x 시리얼 양방향 링크의 경우 최대 10 Gb/s) 높은 스루풋의 메시지 전달 체계때문이다.

물론 외부 메모리 전송은 32비트 DDR2 메모리 컨트롤러로 가장 잘 이루어진다. 유사하게 66MHz PCI 버스 인터페이스는 오프칩 디바이스의 연결에 이상적이며, 1Gb/s EMAC(Ethernet Media Access Controller)은 보드를 가로지르거나 벗어난 IP 트래픽 처리에 최적이며, ATM 연결에는 텔레콤 전용 UTOPIA 2(Universal Test and Operations PHY interface for ATM)를 이용할 수 있다.

보다 뛰어난 병렬처리와 진보한 새로운 아키텍처로 DSP의 프로세싱 능력이 현저히 향상되었을지라도 여러 DSP를 효율적이며 효과적으로 단일 보드 상에 집적시키면 보드 설계에서 더욱 현저한 이득을 얻을 수 있다. DSP 소프트웨어의 관점에서 보면 DSP 간의 데이터 흐름은 단일 DSP에서 생성된 데이터와 크게 다르지 않게 처리되기 때문에, 이는 SRIO 고속 연결의 이용으로 더욱 간단해졌다.

보드 레벨의 성능

종래의 시스템에서는 음성과 데이터 트래픽은 별개로 분리되어 있었기 때문에 비효율적이었다. 시간이나 트래픽 프로파일에 영향을 미치는 여타 파라미터에 따라, 프로세스 능력은 비활동 상태였으며 대역폭은 충분히 활용되지 못했다. 새로운 아키텍처의 등장으로 설계자들은 단일 디바이스에서 모든 트래픽을 훨씬 더 효과적으로 처리할 수 있는 시스템을 개발할 수 있게 되었다.

통합 솔루션의 한 예가 특정 시스템의 트래픽 요구사항 에 맞추어 최적화될 수 있는 비용 효율적인 보드를 위한 하드웨어와 소프트웨어를 제공하는 Surf사의 SurfRider 제품군이다. The SurfRider/AMC는 최대 8개의 DSP를 단일 보드 상에 통합할 수 있으며 최대 10Gb/s의 스루풋을 제공한다. 최대 8개의 보드를 단일 ATCA(Advanced Telecommunications Computing Architecture)나 MicroTCA 랙에 장착할 수 있다.

중단 없는 진전

DSP 내에서의 동시 프로세싱을 높이고 DSP, 오프칩 메모리 및 다른 컴포넌트 간에 초고속 인터커넥트를 이용함으로써, 칩 설계자들은 새로운 종류의 인프라 보드와 게이트웨이 시스템을 만들어 낼 수 있게 되었다. 이러한 시스템을 이용함으로써 사업자들은 TPS(triple play service)를 동시에 제공하고 트래픽 유형과 로드의 변화에 적응할 수 있는 유연성을 갖추게 된 것이다.

그러나 새로운 한계는 언제나 있기 마련이다. 최근 수 년 간의 굉장한 진전처럼 그러한 한계는 개선될 수 있다. 일부 설계 전략은 추가 코프로세서 온칩을 통합하고 병렬처리를 높이는 것과 같이 매우 명백하다. 하지만 칩 및 보드 설계자들은 여러 DSP를 갖춘 보드의 비용이 부적절 하다는 것을 인식하고 있다.

단일 칩에서의 멀티 DSP 코어의 통합이 이루어지고 있다. 멀티코어 DSP는 멀티 패키지형 DSP보다 저가라는 장점뿐만 아니라 그 외에 여러 이점을 제공한다. 메모리를 공유하는 멀티 코어들은 클록 속도를 더 늦추어 보다 낮은 전압을 공급할 수 있다. 이는 채널 당 전력이 낮음을 의미하며, 멀티채널의 패킷화 음성 트래픽의 경우 비디오 보다 적은 프로세싱 및 메모리 대역폭을 요하기 때문에 특히 그러하다.

또한 무선 전송에 정교한 OFDM 모뎀이 필요하기 때문에 멀티 코어는 셀룰러 인프라와 새로이 생겨난 WIMAX 애플리케이션 도메인에도 기회를 부여한다. 이러한 모뎀의 워크로드는 보다 고속으로(VoIP MP의 500 MHz에 비하여 1GHz) 작동하는 멀티코어 DSP와 함께 현저한 하드웨어 가속과 터보코어 및 비터비와 같은 코프로세서를 필요로 한다. 전력의 제약 역시 칩 당 코어의 수를 줄이는 경향이 있다.

텔레콤 산업이 트리플 플레이의 시대에 접어들며 불과 수 년 전에는 해결이 불가능했던 엔지니어링 문제들과 직면하고 있다. 이 성능 장벽이 앞으로 계속 높아질 전망이지만, 이에 맞춰 용량을 증대시키는 혁신적인 DSP 칩 설계자들의 능력 또한 새로이 부상하는 멀티코어 및 DSP 기반 SoC에 따라 발전 할 것이다. 따라서 DSP의 역량은 장차 시스템 성능, 전력, 유연성 및 채널 당 가격 문제를 지속적으로 충족시킬 것이다.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.