비정형 데이터를 위한 비용효율성 중심의 스토리지 솔루션 ‘오브젝트 스토리지’
상태바
비정형 데이터를 위한 비용효율성 중심의 스토리지 솔루션 ‘오브젝트 스토리지’
  • 신동윤 기자
  • 승인 2017.06.28 15:19
  • 댓글 0
이 기사를 공유합니다

에릭 오템(Erik Ottem) | 웨스턴디지털 데이터센터 시스템 부문 제품 마케팅 담당 이사

[CCTV뉴스=신동윤 기자] 최근 전 세계적으로 지난 10년 간 생성된 데이터 보다 더 많은 양의 데이터가 매년 생성되고 저장, 분석, 변환, 활용되고 있으며, 해마다 두 배 이상 큰 폭으로 성장하고 있다. IDC에 따르면 디지털 데이터의 규모는 2025년 163ZB(제타바이트)를 넘어설 것이며, 이는 1TB 하드디스크 1630억 개에 해당하는 양이다. 이는 수십억 대의 PC와 스마트폰, IT 디바이스에서 수백만 개의 애플리케이션을 사용하는 수십억 명의 사람들에 의해 생성되는 데이터의 규모다.

오늘날의 데이터센터는 기업 고객이 온프레미스(On-premise)나 클라우드와 같은 물리적인 구분을 넘어서는 다양한 상호작용을 요구함에 따라 급격하게 변화하고 있다. 모바일 디바이스의 등장은 업무와 일상생활 양측의 소통 방식을 변화시켰고, 데이터센터 고객들은 전에 없던 방식으로 클라우드를 활용하고 있다. 이젠 PC, 스마트폰 뿐만 아니라 자동차, 로봇, 드론, 보안감시 시스템, 센서, 의료기기, 웨어러블 기기 등에서도 데이터가 생성되고 있다. 동시에 사진이나 영상/오디오 스트리밍, SNS 관련 데이터 또한 기하급수적으로 성장했다.

이렇게 생성된 거대한 양의 데이터를 분석하고 인사이트를 추출함으로써, 우리 삶을 더욱 풍요롭게 만들 수도, 더 나은 의사결정을 취할 수도 있게 된다. 하지만 문제는 모든 데이터가 동일한 고유 가치를 갖지는 않는다는 것이다. 따라서 고성능의 기본 스토리지를 갖추는 것이 항상 비용 효율적인 저장 방식은 아니며, 극단적인 확장성과 진보된 가용성, 내구성, 그리고 단순화된 관리 기능을 갖춘 성능 중심의 솔루션이 효과적인 대안이 될 수 있다.

오브젝트 스토리지(Object-Based Storage, OBS)는 이런 부분에 착안해 설계된 스토리지 솔루션으로, 오늘날 데이터센터에서 대규모 데이터를 비용효율적으로 전송하는 데 초점을 맞추고 있다.

비정형 데이터를 비롯한 모든 데이터를 오브젝트로 저장

오브젝트 스토리지는 기존의 블록 또는 파일 기반 방식과 달리 데이터를 오브젝트로 관리하고, 비정형 데이터를 페타바이트(PB) 급으로 저장하는 실용적인 방법을 제시한다. 폴더 계층의 데이터를 관리하는 파일 기반 스토리지나 디스크 섹터를 블록 단위로 관리하는 블록 기반 스토리지와 달리, 오브젝트 스토리지는 데이터를 오브젝트로 관리하는 것이다.

NAS(Network Attached Storage)는 파일 기반으로 폴더/경로(계층적 스토리지) 내에 저장된 데이터를 관리하므로 데이터에 액세스하는 과정에서 이같은 경로를 끊임없이 거쳐야 한다. SAN(Storage Area Network)은 디스크 섹터 모음이 논리적인 고유 주소가 존재하는 블록으로 그룹화되는 블록 기반의 스토리지 솔루션이다. 이 두가지 방식 모두, 단순화를 통해 관리 효율성을 강화하거나 혹은 급격한 증가세를 보이는 데이터에 대응할 수 있도록 돕는 저장 데이터에 대한 정보는 포함하지 않고 있다는 것이 문제다.

오브젝트 스토리지를 사용하면 문서, 오디오, 영상, 이미지, 사진 및 기타 비정형 데이터를 비롯한 모든 데이터가 단일 오브젝트로 저장된다. 또한 파일에 대한 구체적인 정보를 포함하는 메타 데이터를 자동으로 생성/보관/관리한다는 것이 특징이다. 따라서 오브젝트 스토리지에는 계층적 구조가 필요 없으며, 모든 것을 여러 위치에 분산할 수 있는 플랫 어드레스 스페이스(또는 싱글 네임스페이스)에 배치해 액세스를 단순화한다. 각 오브젝트에 할당된 고유 ID는 데이터의 인덱싱, 검색과 함께 영상, 사진과 같은 특정 오브젝트를 찾는 것을 더욱 용이하게 만든다. 메타 데이터는 사용자가 직접 정의할 수 있으므로, 적절하게 활용한다면 대용량 데이터에 대한 데이터 분석과 기타 정보 검색 기술을 대규모로 실행할 수 있다.

앞서 언급했듯이 오브젝트 스토리지는 사진, 오디오/영상 및 기타 멀티미디어 콘텐츠는 물론 센서 데이터나 모바일 데이터, 머신 로그 데이터와 같은 비정형 데이터에 적합한 솔루션이다. 오브젝트 스토리지 시스템은 SAN이나 NAS 아키텍처와 비교할 때 다음과 같은 기능적 이점을 제공한다.

  • 극한의 확장성(Extreme Scalability)
  • 진보된 데이터 가용성(Advanced Data Availability)
  • 진보된 데이터 내구성(Advanced Data Durability)
  • 단순화된 데이터 관리(Simplified Data Management)

극한의 확장성

플랫 어드레스 스페이스를 기반으로 작동하는 오브젝트 스토리지는 파일 시스템의 계층적 구조, 데이터 조회 또는 블록 재조립 등과 관련된 오버헤드 없이 대규모 확장이 가능하다. 기존의 파일 스토리지 아키텍처, 인덱스는 단일 폴더 이상으로 확장할 수 있지만 파일 수가 증가하면 파일 계층 관련 오버헤드가 발생하기 때문에 성능과 확장성에 제한이 발생한다. 인덱스 대신 오브젝트 스토리지를 활용할 경우, 메타 데이터를 통해 오브젝트를 버킷이나 다른 논리적 연계로 집계하기 때문에, 보다 효율적으로 용량을 확장할 수 있다. 다시 말해 오브젝트 스토리지의 확장성은 사실상 무제한이며, 대용량 데이터에 적합하다.

진보된 데이터 가용성

데이터 저장은 스토리지에 기록한 데이터를 액세스하고 읽을 수 있다는 간단한 전제를 기반으로 하며, 이는 데이터 가용성과 내구성이라는 두 가지 핵심 요소로 구성된다. 가용성은 스토리지 시스템이 작동 중이며, 요청 시 데이터를 제공할 수 있는 ‘시스템 가동 시간’을 의미하며, 내구성은 저장된 데이터가 비트 롯(Bit Rot), 성능 저하 또는 기타 손상을 겪지 않는 ‘장기간의 데이터 보호’를 뜻한다.

기존 스토리지 아키텍처에서 데이터 가용성을 보장하는 일반적인 방법은 RAID(Redundant Array of Independent Disks)를 사용하는 것이었다. 다중 드라이브에서 데이터를 스트라이핑하면 하나 또는 두 개의 드라이브 오류로 인한 손실을 방지할 수 있지만, 재구성 작업 중 성능이 크게 저하될 수 있다. 그러나 일반적으로 데이터센터의 드라이브 장애는 고립된 상태로 발생하지 않는다. RAID 그룹의 한 드라이브에서 장애가 발생한다면, 그룹을 구성하는 다른 드라이브의 장애 가능성 또한 확대된다. 재구성 작업 중 ‘복구 불가능한 읽기 오류(Unrecoverable Read Error, URE)’가 발생하면, 데이터가 영구적으로 손실돼 비즈니스 데이터와 생산성에 심각한 타격을 줄 수도 있다. 또한 드라이브 용량이 최근 12TB까지 확대됨에 따라 재구성에 필요한 시간도 늘어났다. 기존에는 복구에 몇 분 밖에 걸리지 않았다면 이젠 몇 시간 또는 며칠이 걸릴 수 있으며, 주말이나 공휴일 또는 심야 시간에 고장 난 드라이브를 즉시 교체해야 하는 경우가 발생할 수도 있다.

오브젝트 스토리지에서의 데이터 가용성은 최신 이레이저 코딩(Erasure coding)에 의해 달성된다. 이를 통해 데이터는 패리티 정보와 결합되거나, 조각으로 나뉘어 로컬 스토리지(또는 여러 데이터센터)에 분산된다. 이레이저 코딩을 적절하게 활용한다면 하나의 드라이브에 하나 이상의 오브젝트 조각을 보관할 필요가 없으며, 단일 노드(또는 지리적으로 분산된 데이터센터의 위치)는 오브젝트가 손실되는 것보다 더 많은 조각을 보관할 필요가 없다. 이런 방식은 여러 구성 요소에서 동시에 장애가 발생하더라도 변함 없는 데이터 액세스를 보장할 수 있다.

오브젝트 스토리지는 하드웨어보다는 데이터 중복성에 초점을 맞추고 있다. 조각 중 일부만 데이터를 다시 복구하므로 재구성에 필요한 시간이나 성능 저하가 발생하지 않으며, 장애가 발생한 스토리지를 편리하게 교체할 수 있다.

오브젝트 스토리지 시스템은 3개의 지역(또는 데이터센터)에 지리적으로 분산되는 것으로 데이터 가용성을 확보하지만, 3중 미러링 데이터 복제 모델과 달리 전체 데이터는 각 지역에 복제되지 않는다. 오히려 오브젝트 데이터의 1/3만이 각 지역에 저장된다고 보는 것이 맞다. 지리적 분산은 네트워크 트래픽을 줄이는 것뿐만 아니라, 3중 미러링이 세 곳의 지역에 있는 데이터를 복제, 저장, 관리하는 것에 비해 약 67%의 오버헤드 만으로 데이터 가용성을 유지할 수 있다. 따라서 지리적으로 분산된 오브젝트 스토리지 모델은 기존의 3중 미러링 데이터 복제보다 장비나 관리 비용을 대폭 절감하면서도 매우 높은 데이터 접근성과 복원력을 제공한다.

진보된 데이터 내구성

데이터 가용성의 확보는 기존 저장된 데이터에 액세스하는 것과는 다르다. 드라이브 표면 일부가 읽을 수 없게 되거나 데이터가 손상되는 비트 롯과 같은 오류는 데이터를 원래의 변경되지 않은 형식으로 검색할 수 없게 만든다. 따라서 디스크에 휴면 상태로 저장된 조각을 보호하는 것이 매우 중요하다. RAID와 마찬가지로 하드드라이브 전체의 장애를 방지하는 것만으로는 자기 매체(Magnetic media)에 저장된 비트가 점진적으로 손상되는 것을 막을 수 없다.

적절한 데이터 스크러빙 기술과 결합될 경우, 오브젝트 스토리지는 비트 단위의 오류까지 방지할 수 있다. 해당 조각이 손상되면 관련 오브젝트를 구성하는 나머지 조각에 저장된 패리티 정보로부터 교체 대상 조각을 구성할 수 있다. 따라서 영향을 받은 데이터 외에 전체 드라이브를 재구성하거나 교체할 필요가 없다.

미디어에 기록된 데이터의 유효성을 지속적으로 검증하는 데이터 스크러빙 기술과 지리적으로 분산된 이레이저 코드 데이터를 결합하면 최대 99.999999999999999%의 데이터 내구성을 실현할 수 있다. 더 간단하게 말하자면, 1000조 개의 오브젝트 중 오직 하나만 읽을 수 없는 수준의 내구성이다. 하이퍼스케일 데이터센터나 클라우드 서비스 제공업체가 오브젝트 스토리지를 사용할 경우, 이같은 획기적인 데이터 가용성과 데이터 내구성 요구 사항을 충족시키는 것은 놀라운 일도 아니다.

단순화된 데이터 관리

NAS 환경에서 사용되는 계층적 파일 스토리지와 달리 오브젝트 스토리지에는 ‘네임스페이스’라고 불리는 플랫 아키텍처가 존재한다. 네임스페이스는 이기종 스토리지 시스템 하드웨어와 지역을 포함해 오브젝트 스토리지에 보관되는 오브젝트의 모음이다. 하나의 컨텍스트 내 다중 스토리지 랙을 관리하는 효과적이고 비용 효율적인 방법으로, 모든 데이터를 위한 단순화된 단일 관리 솔루션을 구현할 수 있다. 지리적 분산은 여러 위치의 여러 스토리지 시스템에 데이터를 분산하지만 실제 작업은 한 번만 수행되며, 최종 사용자에게는 보이지 않는다. 싱글 네임스페이스를 사용함으로써 이전과 같이 여러 분산된 사이트를 개별적으로 관리하는 것이 아닌, 여러 지역에 걸쳐진 하나 시스템을 관리할 수 있게 된다.

고도로 분산된 고밀도 오브젝트 스토리지의 특성과 결합한 데이터센터는 기존 스토리지 아키텍처에 비해 효율적인 데이터 보호와 관리 구조로 인해 구매 비용과 운영 비용을 줄이면서 비용 효율적으로 데이터를 지원할 수 있다.

데이터센터를 위한 차세대 스토리지 솔루션

최근 데이터 규모의 폭발적인 팽창을 봤을 때, 이를 저장하고 관리하는 것이 한층 더 어려워질 것임을 누구나 쉽게 알 수 있다. 오브젝트 스토리지는 기존 스토리지 솔루션의 대안으로 오늘날 데이터센터에서 필요로 하는 다양한 기능을 제공한다. 뛰어난 확장성과 진보된 데이터 가용성, 내구성, 단순화된 관리 구조 외에도 높은 스토리지 밀도로 데이터센터 공간을 줄이고, 클라우드 기반 전략(온프레미스 또는 오프프레미스)을 구현한다. 또한 SAN이나 NAS 대비 낮은 운영비용(OpEx)으로 비용 효율성까지 뛰어나다.

이처럼 오브젝트 스토리지는 비즈니스 운영에 긍정적인 영향을 미칠 뿐만 아니라, 데이터센터에서 기하급수적으로 성장하는 데이터를 비용 효율적으로 관리하고 활용할 수 있게 해 주는 새로운 스토리지 아키텍처다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.