검출과 분류기능이 탑재된 실시간 지능형 PTZ 카메라
상태바
검출과 분류기능이 탑재된 실시간 지능형 PTZ 카메라
  • CCTV뉴스
  • 승인 2012.02.03 00:00
  • 댓글 0
이 기사를 공유합니다


박구만 서울과학기술대학교 전자IT미디어공학과 교수


박종화 하이트론씨스템즈(주) 종합연구소 선임연구원


본 고에서는 카메라 자체에서 움직임을 검출하고 분류된 객체를 추적할 수 있는 지능형 PTZ 카메라 시스템을 제안하였다. 추적하고자 하는 객체가 검출되면 분류하고, 객체의 움직임에 따라 PTZ 카메라가 실시간으로 추적한다. 검출을 위해 GMM을 사용하였고 검출성능을 높이기 위해 그림자 제거 기법을 적용하였다. 검출된 객체의 분류를 위해 Legendre 모멘트를 적용하였다. 본 고에서는 카메라의 초점 조절을 사용하지 않고 영상의 중심과 객체와의 방향, 거리, 속도 정보만을 이용하여 PTZ 카메라의 움직임을 제어하는 방법을 제안하였다. TI DM6446 Davinci를 이용하여 실시간으로 객체의 검출, 분류와 추적이 가능한 카메라 시스템을 구성하였다. 실험 결과 사람과 차량을 구분하고, 움직임의 속도가 빠른 차량에 대해서도 본 추적시스템은 안정적으로 동작함을 확인하였다.



컴퓨터 비전 기술을 이용하여 움직이는 객체를 검출하고 실시간으로 추적하는 기술은 무인 감시 시스템, 지능형 교통 시스템 등 다양한 분야에서 응용이 가능하다. 객체 검출 및 추적 시스템은 입력되는 영상을 분석하여 움직이는 객체를 검출하고, 필요에 따라 그 검출된 객체의 움직임의 궤적에 따라서 카메라가 자동으로 동작하도록 구성하는 시스템을 말한다. 이러한 자동 추적 기술은 고난이도 범죄가 늘어남에 따라 이를 방지하고자 수요가 급증하고 있는 추세이며 선진국들은 이미 많은 연구 결과를 도출하여 상용화 단계까지 이르렀다. 특히 공공장소에서의 테러 감시 및 용의자 추적, 그리고 이동 경로 분석을 통해 지능화된 시스템에 대한 연구 성과를 획득할 뿐만 아니라 다양한 객체 정보 데이터를 획득하고 있다. 상점에서 입장객의 수를 세거나 운동경기에서 선수들의 운동궤적을 파악하는데 적용하려는 연구도 활발하게 진행되고 있다.


객체를 추적하는 연구는 국내외에서 활발하게 진행 중이다. 그 중에서 대표적으로 소개되는 방법으로는 전역 탐색 과정을 실행하지 않고도 참조모델과 후보모델의 Bhattacharyya 계수에 의해서 컬러 유사도를 측정하여 후보모델의 위치를 확률적으로 추적하는 Comaniciu등이 소개한 MeanShift[1] 기법과 S. Rangarajan이 소개한 Spatiogram[2]이 있다. 사전분포(Prior Distribution), 사후분포(Posterior Distribution)와 같은 베이지안 조건 확률에 기반을 두고 있으며 가중치가 부여된 샘플 집합에 의해 확률 분포를 근사화하여 객체를 추적하는 PF(Particle Filtering)[3] 기법 등도 L. Van Gool에 의해 소개되고 있다. 다른 연구에서는 TI사의 Davinci DSP를 기반으로 하여 네트워크가 가능한 스마트 카메라 설계 및 구현[4] 방법을 제안 하였고, Davinci를 기반으로 카메라를 설계하고 지능형 영상 감시시스템[5]을 제안하였다. [1]과 [2]의 연구에서는 객체를 추적하는데 중점을 두었고, [3]과 [4]의 연구에서는 하드웨어로 구현하는데 중점을 두었다고 볼 수 있다.
본 고에서는 이러한 두 가지 연구 흐름을 반영하여 임베디드 하드웨어 기반의 자동 객체 추적 카메라 시스템을 구현하였다. 기존의 추적 시스템은 대부분 PC 기반에서 비실시간으로 수행되기 때문에 임베디드 시스템을 구성하기 위해서는 최적화의 어려움이 있었으며 실시간 처리를 위한 소형화된 시스템을 구성하는 데 문제가 되었다. 또한, PTZ 카메라를 이용한 객체 추적 시 PTZ 제어에 대한 인터페이스가 용이하지 않았다. 따라서 본 고에서는 이러한 문제점을 해결하여 임베디드 기반의 실시간 처리 속도를 가지는 추적 시스템을 구현하였다. Davinci DSP 칩을 기반으로 하여 영상감시에 최적화된 시스템을 구축하고, ARM 프로세서를 이용하여 PTZ 카메라를 제어하였다. DSP 프로세서에 의해 실시간으로 움직이는 객체를 검출하고 분류한 후, 추적하는 지능형 PTZ 카메라 시스템을 구현하였다.
본 고의 구성은 다음과 같다. 2장에서는 전체 시스템 구성에 대해 소개하고, 3장에서는 제안한 객체를 검출하고 추적하는 알고리즘에 대해서 설명한다. 4장에서는 실험 결과 및 분석을 하고 마지막으로 5장에서는 결론을 내렸다.

시스템의 구성

전체 시스템의 구성

본 고에서 제안하는 시스템 구성은 그림 1과 같다. 시스템은 크게 검출부와 추적부로 구성된다. 검출부에서 추적하고자 하는 객체를 검출한다. 객체검출은 GMM(Gaussian Mixture Model)에 의한 배경제거 방법을 사용하고, 그림자를 제거한다. 그림자가 제거된 영상에 대해 침식, 팽창을 수행하고 객체에 라벨링을 한다. 이때 객체가 될 수 없는 작은 영역이나 잡음들이 제거된다. 추적하고자 하는 객체가 사람인지 차량인지를 분류하여 추적부에 위치좌표와 특징 정보를 넘겨주게 된다. 넘겨받은 정보를 이용하여 추적부에서는 매칭을 수행하여 최적의 위치를 결정하게 되고, 결정된 위치로 카메라를 움직인다. 한 화면에 다수의 객체가 존재하는 경우에는 화면에 가장 오래된 객체에 대한 정보를 추적부에 넘겨줌으로써 객체 추적을 수행한다.


그림 1. 제안된 시스템의 블록 다이어그램

하드웨어의 구성

본 고에서는 객체를 검출하고 추적하기 위해 TI사의 Davinci DM6446 프로세서를 사용하였다[6,7]. 그림 2는 Davinci DM6446 블록도를 나타낸 것이다. Davinci DM6446은 칩 안에 독립된 2개의 프로세서를 가지고 있다. 영상 입출력을 포함한 모든 I/O는 ARM subsystem에서 관장하고 있으며, DSP subsystems에서는 디지털 신호를 처리하도록 설계되어 있다. ARM subsystem에서는 RTOS(Real Time Operating System)를 구축하였고, DSP 프로그램의 디버깅을 위해서 Code Composer Studio 3.3버전과 XDS510 USB Emulator를 사용하였다.
TI에서는 영상처리에 관련하여 코드 자체를 최적화시킨 몇 가지 관련 라이브러리를 제공하고 있다. 본 고에서는 제안한 시스템을 구현하기 위하여 Image library, Vision library, IQ-math library를 사용하였다. 위의 라이브러리는 DSP 뿐만 아니라, PC 상에서도 연동이 되어 개발이 가능하도록 제공된다[8-10].


그림 2. TI Davinci DM6446 블록 다이어그램

제안한 객체 추적 알고리즘

객체 검출

가우시안 혼합 모델

객체 추적을 위해서는 객체 검출을 통해 유형을 분류하고 추적을 하는 세 단계의 과정을 거쳐야 한다. 그 중에서도 첫 번째 검출 단계에서는 가우시안 혼합 모델을 이용한다. 가우시안 혼합 모델은 가우시안 커널(kernel)을 다수 혼합하여 입력 영상 내 각 화소별로 커널을 적용해서 밀도가 높아지는 정도를 이용하여 배경과 객체를 분리, 검출하는 방법이다[11]. 이러한 가우시안 혼합 모델은 확률 분포를 사용하는 영상 처리 분야에서 유용하게 사용되는 방법으로서 다양한 환경적인 변화를 갖는 입력영상을 처리할 때 효과적이다.
가우시안 혼합 모델에서의 화소별 평균과 분산은 매 프레임별 학습이 이루어진다. 따라서 시간에 따라 화소 값이 변화해 학습에 따라 환경적으로 적응하는 구조를 가진다. 임의의 시간
에 대해 측정한 한 화소가
라고 하고, 이
가  M개의 가우시안 확률 분포를 따른다고 하면, 가우시안 혼합 모델은 식 (1)과 같다.

              (1)


여기서
는 가우시안 혼합 모델의 파라미터 벡터로
 이며,
은 m 번째 가우시안 분포의 평균과 공분산 행렬이다. 또한
은 m 번째 가우시안 분포의 혼합 가중치를 나타낸다.
의 다음 시간인
에 대해 새로운 화소 값
이 주어지면 가우시안 파라미터 모델은 적응적으로 새롭게 학습된다. 새롭게 학습된 
에서의 모델링은 아래의 식 (2), (3), (4)와 같다.

                (2)


               (3)

                (4)

이 때, α는 학습률 변수로서 상수  
(
는 혼합 모델에 사용하는 화소 데이터 총 수)로 근사화 한다.
은 소속(owner) 변수로서 화소 값이 m 번째 가우시안 분포에 근접한 값을 갖는지 판단한다. 판단할 때, 마할라노비스(Mahalanobis)의 거리를 이용하여 측정하고 가우시안 혼합 모델의 출력 값을 구분한다. 단, 배경과 전경을 분리해 낼 때에는 둘의 구분을 위하여 배경이 전경에 비해 혼합 가중치가 높은 것과 작은 분산 값을 가지는 특징을 파악하여 처리해야 한다. 이러한 배경과 전경의 분리를 위해 사용되는 배경 분포 모델은 식 (5)와 같다.

            (5)

B는 배경을 의미한다.
는 배경 모델에 주어지는 가중치의 값을 의미한다. 새로운 화소 값이 배경에 속하게 되려면 식 (6)에 의해 몇 개의 프레임이 경과하면 속하게 된다. 즉, F는 새로운 화소 값이 배경으로 포함될 때까지의 경과하는 프레임을 의미한다.

             (6)

그림자 제거

객체를 검출하는 과정에서 그림자는 객체의 형태를 왜곡 시킬 수가 있다. 추적하고자 하는 객체를 정확히 결정하기 위해서는 그림자의 제거가 필요하다. 그림자의 유형에는 크게 자기그림자(self shadow)와 주변그림자(cast shadow) 2가지가 존재한다. 자기그림자는 객체 자체의 존재로부터 생성되는 그림자를 의미하고 주변그림자는 주변 환경적인 영향에 의해 생성되는 그림자를 의미한다. 두 가지 경우의 그림자를 적절하게 제거하기 위한 알고리즘은 그림 3과 같이 밝기 왜곡(brightness distortion) 정보와 컬러 왜곡(color distortion) 정보를 이용한다[13].
식 (7)을 이용하여 왜곡률을 계산한 후 임계값과의 관계를 이용하여 그림자를 제거 할 수 있다.

           (7)

밝기 왜곡이 1.0 이상이면 전경은 더 밝아지고 밝기 왜곡이 1.0 이하이면 전경은 어두워진다. 임계값 1.0은 실험적인 결과에 의해 구하였다.



그림 3. 그림자 제거를 위한 밝기와 컬러 정보의 관계



  (A) 적용 전                               (B) 적용 후
그림 4. 그림자 제거 방법을 적용한 결과
 
본 고에서는 식(7)에서 컬러 왜곡 값의 계산량을 최소한으로 줄이기 위해 그레이 영상을 기반으로 적용하였다. 그림 4는 그림자 제거를 수행하기 전과 수행한 후의 결과를 나타낸 것이다.

객체 분류

객체 추적을 위한 두 번째는 객체 분류 단계이다. 본 고에서는 Teague[14]가 제시한 르장드르 모멘트(Legendre moment)를 추출하여 k-means 방법을 이용하여 단일사람, 차, 기타를 분류하는 분류기를 생성하고 적용하였다. 르장드르 모멘트는 직교하는 르장드르 다항식 커널을 의미한다. 그림 5는 사람과 차의 이진 영상을 획득하여 르장드르 모멘트를 추출 한 후 분류가 가능한 특징들을 나타낸 영상이다. 파란색(밀집된 군집)이 사람, 빨간색(퍼져있는 군집)이 차의 특성을 나타낸다. 

그림 5. 차와 사람의 르장드르 특성 모멘트: (a)3번, (b)5번, (c)14번 특성(파랑: 사람, 빨강: 차)

 
그림 5에서는 6차 르장드르 모멘트를 이용하여 29개의 특성을 얻었으며 그 중에서도 사람과 차의 경계의 구분이 뚜렷한 3번, 5번, 14번째의 특성을 이용하였다. 그림 6에서 각각의 위치에서 검정색으로 표시된 점들이 k-means 방법을 이용하여 분류기준을 선별하기 위한 기준점이며, 이러한 기준점과 영상 내에서의 객체의 거리값을 이용하여 분류 결과를 도출한다. 표 1은 실험한 결과 데이터를 정량적으로 정리한 것이고 그림 6은 사람과 차의 분류 결과를 도출한 최종 영상이다.   
표 1은 정량적인 객체 분류 결과를 나타낸 것이다. 난이도가 다양한 영상을 채택하여 실험을 진행하였으며, 그 결과 평균적으로 80% 이상의 우수한 결과를 나타내었다. 그림 6은 실험 영상을 나타낸 것으로 (a)는 차량을 분류한 결과를 나타낸 것이고, (b)는 사람을 분류한 결과를 나타낸 것이다. 차량의 경우 차의 각도와 상관없이 독립적으로 분류기가 정확한 판별을 한 것을 확인할 수 있다. 사람의 경우 그룹일 때에는 기타로 판별하고 단일 사람에 대해서는 정확히 분류하였다. 이것은 그룹의 경우 르장드르 모멘트의 특성이 차도 사람도 아닌 특성값을 갖기 때문에 기타로 판별하는 것이다. 이러한 문제를 해결하기 위해서는 모멘트의 특성 뿐 아니라 그룹만의 특성을 분류할 수 있는 다른 분류기와의 혼합이 요구된다. 본 고에서는 크기 필터를 이용하여 문제점을 해결하였다.

   

                (a)                                (b)

그림 6. k-means 방법을 이용한 최종 분류 결과

객체 추적

이동 객체를 추적하기 위해서 Spatiogram 방법을 적용하였다[2]. Spatiogram은 객체의 컬러 정보를 이용하는 면에서 Meanshift나 Camshift와 같으나 가장 큰 차이는 컬러의 공간 정보를 이용하기 때문에 기존의 방법과 큰 차이가 있다. 컬러의 공간 정보를 이용하기 때문에 기존의 방법보다 좀 더 강인한 추적을 할 수 있다. Spatiogram은 식 (8)로 나타낼 수 있다. 

                         (8)



 
는 b번째 빈(
)의 화소를 나타내며
는 평균 벡터와 공분산 행렬을 의미한다. 위의 정보를 이용하여 검출부에서 추적하고자 결정된 객체의 특징을 추출하게 되고 이를 사용하여 다음 영상에서 유사도를 측정하게 된다. 본 고에서는 마할라노비스 유사도를 고려하였으나 이 방법은 특징들의 작은 공간 변화에 대응하지 못한다. 따라서 식 (9)와 같이 개선된 마할라노비스 유사도 측정을 사용하였다. 


 
                            (9)




은 정규화된 가우시안 파라미터이며,
는 기존의 식을 단순하게 정리한 항(term)이다. 유사도로 최종 결정된 위치를 이용, 카메라의 이동 방향(Pan/Tilt)을 결정하고 Zoom In/Out을 결정하여 카메라 제어 명령어를 전송한다. 유사도를 측정함에 있어서 지수함수(exp)와 제곱근함수(sqrt)가 반복적으로 사용되게 된다. 따라서 이 함수들에 의해 연산 속도에 제약을 받게 된다. 제안하는 방법은 DSP에서 제공하는 IQ-math 라이브러리를 적용하였다. 표 2는 유사도 측정 시 DSP의 클럭을 측정한 결과이다. 수행되는 사이클 수를 비교해 볼 경우에 IQ-math를 사용한 경우가 약 62% 사이클 수를 줄일 수가 있다.

실험 및 결과 분석

본 고에서 사용한 실험 장비로는 Hitron 사의 36배 FASTRAX4 PTZ 카메라, HKBD01 컨트롤러를 이용하였다. 또한 JTAG XDS510USB과 컴파일 프로그램인 Code Com poser Studio 3.3을 사용하였으며, 라이브러리는 TI사의 vision library, IQ-math library를 사용하였다. ARM 부에서는 720x480 YCbCr 영상을 획득하여 프레임 버퍼에 저장을 한다. DSP 부에서는 획득된 영상을 DSP EDMA을 이용하여 320x240 YCbCr 영상을 복사하게 되고, 복사된 영상을 vision library를 이용하여 검출부에서는 흑백영상으로 변환하고 추적부에서는 RGB 영상으로 변환한다. 실험을 위해 사용되는 주요 함수로는 배경제거, 연결 성분 라벨링(connected component labeling), 르장드르모멘트이다. 아래의 그림 7은 본 고에서 제안한 실험 결과를 나타낸 영상이다. 건물 외벽의 높은 곳에 PTZ 카메라를 설치하여 본 추적 알고리즘을 적용한 개발된 영상 분석 보드와 인터페이스를 통해 사람과 도로의 차량을 추적하는 장면이다.

   


    

                             (a)

  


 


  

                              (b)

그림 7. 실험 결과 영상: (a) 사람, (b) 차


사람의 경우(그림 7(a))에는 객체의 이동 방향에 따라 안정된 추적 결과를 보여주고 있으며, 차량의 경우(그림 7(b))는 차량이 카메라로부터 멀어짐에 따라 크기가 변화에 따라 줌인과 줌아웃을 적절히 수행하면서 객체를 잘 추적하는 것을 확인할 수 있었다.
표 3은 사람과 차에 대한 객체 추적에 결과를 보여준다. 본 고에서는 객체 추적에 대한 평가를 하기 위해서 다음과 같이 정의한다. 출발 지점과 도착지점은 동일하고, 추적 길이의 절반지점에서 객체 추적에 실패하면 추적정도의 1/2에 해당하며, 1/2지점까지 추적하고 2/3지점 이전에 놓치면 추적정도는 2/3에 해당한다. 마지막으로 2/3지점 이후까지 추적하게 되면 추적정도는 1에 해당한다.
추적 평가는 절반지점 이상까지 객체 추적을 유지할 때 추적에 성공한 확률로 계산하였다. 표 3과 같이 결과적으로 추적 성공률은 86%를 보이고 있다. 표 4는 평가를 진행한 방법 및 환경 조건에 대해 정리한 것이다. 추적 성공률 계산을 위해 성공과 실패에 대한 정의를 하고 환경적 제약 조건을 두어 실험하였다. 유사한 색상을 가진 경우는 조명이나 환경적 영향을 많이 받아 추적 알고리즘 자체적인 평가를 제대로 할 수 없기 때문에 제약을 두었다. 이러한 방법을 통해 실험한 결과 객체 추적은 안정적인 결과를 갖는다는 것을 확인할 수 있었으며 실험에 대한 실험 결과 동영상은 blog.naver.com/boc 1023에서 확인이 가능하다.




 결  론
본 고는 TI Davinci를 사용하여 객체를 정확히 검출하기 위해 가우시안 혼합 모델과 그림자 제거 방법이 적용되었으며, 객체를 분류하기 위하여 르장드르 모멘트를 이용하였다. 매 프레임 마다 객체의 위치 정보를 알기 위한 방법으로 추적 알고리즘을 제안하였으며, 객체 추적 시 카메라의 움직임이 부드러운 움직임을 갖는 시스템을 제안하였다. 별도의 카메라 교정을 수행하지 않아도 움직이는 객체와 영상의 중심과의 방향과 속도만으로도 객체를 영상의 중심 부근에서 추적한다. 그러나 컬러 정보와 컬러 공간 정보를 이용하여 객체를 추적하기 때문에 유사한 컬러를 가지는 객체나 배경이 있을 때 객체를 놓치는 경우가 발생한다. 향후에는 형태나 에지 정보를 추가하여 객체를 추적하는 시스템을 연구해야 할 것이다.

[참고문헌]

[1] Comaniciu, D. and Meer, P., "Mean shift alysis and applications," In IEEE International Conference on Computer Vision(ICCV), Vol.2, pp.1197-1203, 1999.
[2] Stanley T. Birchfield and Sriram Rangarajan, "Spatiograms versus Histograms for Region- Based Tracking," cvpr, Vol.2, pp.1158-1163, 2005.
[3] K. Nummiaro, E. Koller-Meier and L. Van Gool, "A Color-Based Particle Filter," European Conference on Computer vision, pp.53-60, 2002.
[4] 안상준, "Davinci 기반 스마트 카메라 설계 및 구현", 석사학위논문, 숭실대학교 대학원, 2007.
[5] 임세훈, "다빈치 프로세서에서의 지능형 영상감시 S/W 설계 및 구현," 석사학위논문, 숭실대학교 대학원, 2008.
[6] TI, "TMS320C64x C64x+ DSP CPU and instruction," Texas Instruments, Dallas, Texas, 2008.
[7] TI, "TMS320C64x+ DSP Megamodule Reference Guide," Texas Instruments, Dallas, Texas, 2007.
[8] TI, "IQmath Library Module user''s guide," Texas Instruments, Dallas, Texas, Feb., 2008.
[9] TI, "TMS320C64x+ DSP Image/Video Processing Library Programmer''s Guide," Texas Instruments, Dallas, Texas, May, 2008.
[10] TI, "Vision Library Application Programming Interface Reference Guide," Texas Instruments, Dallas, Texas, Nov., 2009.
[11] Chris Stauffer and W.E.L Grimson, "Adaptive Background Mixture Models for Real-time Tracking," Proc.IEEE Conference on Computer Vision & Pattern Recognition, Vol.2, pp.246- 252, June, 1999.
[12] Zoran Zivkovic, "Improved Adaptive Gaussian Mixture Model for Background Subtraction," Proceedings of the 17th International Conference on Pattern Recognition (ICPR), 2004.
[13]
http://maleesh.wordpress.com/2010/03/18/shadow- removing-with-opencv-2
[14] M. Teague, "Image analysis via the general theory of moments," J. Opt. Soc., Am. 70, pp.920-930, 1988.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.