크리테오, 머신러닝 분야 발전 위해 데이터셋 공개
상태바
크리테오, 머신러닝 분야 발전 위해 데이터셋 공개
  • 이광재 기자
  • 승인 2015.06.25 07:58
  • 댓글 0
이 기사를 공유합니다

크리테오가 머신러닝(machine learning) 알고리즘의 혁신과 관련 연구 지원을 위해 일반 공개용으로는 역대 최대인 1테라바이트(terabyte) 규모의 데이터셋(dataset)을 오픈소스 커뮤니티에 제공한다고 발표했다.

머신러닝이란 방대한 데이터를 분석하는 빅데이터 기술에서 한 단계 진보된 형태의 기술로 데이터의 패턴을 검증, 분석해 미래를 예측하는 기술이다. 즉 데이터의 효과적인 분석 및 활용의 궁극적인 단계인 데이터에 기반한 행동 및 미래를 예측해 정확한 의사결정이 가능해진다.

머신러닝의 연구와 발전을 위해 학계와 업계에서는 실증적인 연구를 위한 대량의 데이터가 보다 많이 공개되는 것을 원하고 있다는 점에 착안해 크리테오는 자사 퍼포먼스 디스플레이 광고 집행시 발생한 수백만건의 클릭 피드백으로 구성된 대규모의 데이터셋을 공개키로 했으며 이를 통해 머신러닝 분야 학계 연구 및 업계 기술 개발을 적극 지원해나갈 계획이다.

크리테오는 자사 소유의 러닝 알고리즘을 활용해 개인별 맞춤형 퍼포먼스 디스플레이 광고를 제공하고 소비자가 특정 광고를 누를 때를 정확히 예측해냄으로써 광고주의 투자대비효과(ROI)를 높이고 있다.

이번 공개에 힘입어 관련 전문가들은 실제 애플리케이션에서 추출된 크리테오의 데이터셋을 기반으로 현재 많은 기업들이 적극 활용하고 있는 머신러닝 플랫폼을 테스트하고 개선 및 발전 시켜나갈 수 있게 됐다.

높은 소비자 도달률과 참여률로 명성을 얻고 있는 크리테오는 하루 평균 300억, 많게는 1초당 200만의 HTTP 요청(사용자와 서버 사이에 이뤄지는 요청/응답 프로토콜)을 받고 있다. 또한, 하루에 30억 개에 달하는 크리테오 솔루션 기반의 배너 광고를 노출 시키며 매일 20 테라바이트의 새로운 데이터를 저장하고 있고 37페타바이트(petabyte)의 원본 저장(raw storage) 용량을 갖추고 있다.

크리테오의 총책임 연구원 올리버 샤펠(Oiliver Chapelle)은 “정확하고 빠른 머신러닝 알고리즘은 비즈니스뿐만 아니라 다양한 분야의 성공을 위한 핵심이 되고 있지만 공개적으로 이용할 수 있는 데이터셋 없이는 관련 연구가 쉽지 않다”며 “크리테오는 오픈소스 프로젝트의 적극적인 참여자로서 오픈소스 혁신을 돕기 위해 머신러닝 커뮤니티를 지원하고 있고 관련 기술 혁신을 최대한 끌어내고자 새로운 데이터 셋을 공개하게 됐다. 이번 공개를 통해 학계 커뮤니티 및 산업 전반에 혜택이 가기를 기대하며 크리테오는 향후 머신러닝 기술을 발전시켜나가기 위해 업계와 협력을 지속해나갈 것이다”고 전했다.

크리테오는 빅데이터 분석 플랫폼 업체인 캐글(Kaggle)이 작년에 진행했던 디스플레이 광고 챌린지를 통해 데이터셋 공개를 한 차례 진행한 바 있으며 이번에 새롭게 공개한 데이터셋은 40억 개가 넘는 라인(line)에 1테라바이트 용량이 넘는 규모다.

이미 카네기멜론 대학(Carnegie Mellon University)의 연구원들이 고속 대량(High throughput)의 CTR(click-through-rate: 광고클릭률) 측정을 위한 러닝머신 알고리즘의 확장성을 벤치마크하기 위해 본 데이터셋을 사용했으며 향후 보다 많은 학계 및 리서치 애플리케이션 전문가들이 크리테오가 제공하는 데이터셋을 활용할 것으로 예상된다.

한편 크리테오의 테라바이트 데이터 셋은 마이크로소프트(Microsoft) 애저(Azure)를 통해 공개됐으며 데이터 셋 접속 및 활용 방법은 크리테오 랩(Criteo Labs)에서 확인 가능하다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.