음성인식 CCTV 시스템 기술동향
상태바
음성인식 CCTV 시스템 기술동향
  • 이광재 기자
  • 승인 2013.08.09 00:00
  • 댓글 0
이 기사를 공유합니다

저자: 박세환 한국과학기술정보연구원 ReSEAT 프로그램 전문연구위원

"키워드 : 음성인식, CCTV시스템, 다중생체인식, HMM모델링, CCTV환경, 검출 이벤트, 추정기법, DTW, 연속어 음성인식, 고립단어 인식, 화자독립 음성인식, 대화체 음성인식, 비상상황, 검출능력, 경보발생,음성인식 칩, 음성인식 소프트웨어, 음성인식 특허, 영상판독"

서언 

최근 들어 상황인식 기반의 음성인식 기술과 CCTV 시스템을 결합한 융합기술에 대한 연구가 활발히 진행되고 있어 머지않아 관련 제품이 상용화 될 수 있을 것으로 예상된다.

이러한 융합기술이 상용서비스를 하게 된다면 학교나 인적이 한산한 주택가 등에서 자주 발생해 사회적으로 이슈화 되고 있는 성범죄를 사전에 검거 할 수 있는 효과를 기대할 수 있다.

지문과 얼굴, 얼굴과 홍채, 얼굴과 음성 등의 특징들을 결합해 사용하는 다중 생체특징방식 지문인식 과정에서 손가락 하나가 아닌 열 손가락을 모두 사용하는 등의 다중 생체인식 방식도 음성인식의 한 연구 분야로 떠오르고 있다.

이러한 융합기술을 GIS(지리정보 시스템(Geographic Information System) : 공간상 위치를 점유하는 지리자료(Geographic data)와 이에 관련된 속성자료(Attribute data)를 통합해 처리하는 정보시스템으로서 다양한 형태의 지리정보를 효율적으로 수집, 저장, 갱신, 처리, 분석, 출력하기 위해 이용되는 하드웨어, 소프트웨어, 지리자료, 인적자원의 총체적 조직체를 의미함) 기술력 기반의 CCTV 통합관제 시스템과 음성인식(Speech recognition) 기반의 검색기술과 결합된다면 검색자에게 실시간으로 지역정보를 확인하게 할 수 있는 서비스의 개발도 기대된다.

특히 음성인식 기술은 자연계의 음향이나 잡음(noise), 자연적 혹은 인위적인 기계음 등의 소리(sound), 인간의 음성(voice)을 모두 망라한 것이다. 이들 각각의 고유 주파수나 진동수가 서로 다를 뿐이지 기본적으로는 소리에 기반을 두고 있는 것이다. 다만 자연계의 소리와 인간의 음성과의 결정적인 차이는 음소(phoneme)나 음절(syllable) 등에 대한 규칙성이 다른 차이가 있다.

음성인식 기반의 CCTV 시스템을 구축하기 위해서는 자연계의 소리(sound)와 인간의 음성(voice)을 구분할 수 있는 기술이 필요하다.

CCTV 시스템 주변에서 발생하는 잡음을 와이너(Wiener) 필터링 기법을 이용해 효과적으로 제거할 수 있다면 순수한 인간의 음성을 구분할 수 있을 것이다. 이처럼 음성인식을 위해 HMM(Hidden Markov Model) 모델링을 통한 인식기법이 개발됐다. HMM 모델링 기법을 실제 CCTV 환경에 적용하기 위해서는 다음과 같은 문제점에 대한 해결방법이 제시돼야 한다. 

- CCTV 시스템에 검출된 이벤트에 대해 발생 가능한 확률을 실시간으로 계산할 수 있는 계산 기법(Evaluation problem)이 필요하다.

- 검출된 이벤트가 CCTV 시스템의 전방향(forward)인지 혹은 후방향(backward) 인지에 대한 방향을 탐지하는 검출 알고리즘이 필요하다.

- 검출된 이벤트가 어떤 상태전이를 거쳐 발생됐는지를 추정하는 추정 기법(Decoding problem)이 필요하다.

- 훈련과정을 통해 HMM 파라미터들을 도출할 수 있는 추정 기법(Estimation problem)이 필요하다.

결과적으로 최적의 이벤트 검출·추정·검색 알고리즘을 이용해 모든 가능한 인식가능 공간에서 최고의 확률을 가지는 단어열을 찾는 것이 관건이다.(현재 이 기법은 'HMM 기반 연속 음성인식 이론'으로 정착돼 있으나 실제 CCTV 시스템 환경에 적용하기 위해서는 좀 도 구체적인 실증 연구가 필요한 상황임)

이 연구에서는 최근 부각되고 있는 음성인식 CCTV 기술의 개요와 상용화 추세, 파급효과와 아울러 음성인식 기술을 상용화하기 위한 필요조건 등에 대해 설명한다. 이를 토대로 음성인식 CCTV 시스템의 성능을 결정짓는 음성인식 칩(IC-chip), 소프트웨어, 통신용 음성인식 기술과 함께 특허출원을 통해 본 음성인식 기술동향 등에 대해 설명한다. 

음성인식 CCTV 기술 

음성인식 기술의 개요

음성인식 기술개발 과정을 연대별로 정리하면 다음과 같다. 

- 1950년대에 벨랩(Bell Lab)에서는 고립 숫자음을 이용해 단독 화자에 대한 음성인식기술을 개발했으며 RCA랩에서는 차별적인 음절을 인식하는 시스템을 개발했다. 이 기술을 적용해 영국에서는 4개의 모음과 9개의 자음을 인식하는 음소인식 기술을 개발했고 MIT의 링컨랩에서는 화자독립 모음인식 기술을 개발했다.

- 1960년대에는 안정적인 음성 검출기술을 개해 러시아의 연구자들에 의해 DTW(Dynamic Time Warping)의 개념이 확립됐다. 이후 카네기멜론 대학에서 음소의 동적인 탐색기법을 이용해 연속어의 음성인식(CSR : Continuous Speech Recognition)에 대한 가능성을 확인했다.

- 1970년대에는 고립단어 인식(IWR : Isolated Word Recognition) 기술이 사용 가능한 수준으로 발전했다. IBM에서는 대어휘 음성인식 기술을 개발했으며 AT&T와 벨랩에서는 화자독립(SI : Speaker Independent) 음성인식 시스템을 개발하면서 음성인식 기술이 본격화됐다.

- 1980년대에는 DARPA(Defense Advanced Research Projects Agency)에서 대어휘 연속어 음성인식 기술을 개발했다. 이 기술력은 카네기멜론 대학, 링컨랩, MIT, AT&T 및 벨랩 등에서 후속연구를 지속해 HMM 모델링 기반의 DTW 기법 이후 최적의 음성인식 기술력으로 정착됐다. 1980년대 말에는 NN(Neural Networks : 1950년대에 등장했지만 여러 가지 구현상의 문제를 해결하지 못해 주목을 받지 못하다가 1980년대에 들어서 기술의 많은 한계를 극복하고 주목을 받게 됨) 기술이 음성인식에 본격적으로 응용되면서 현재 대부분의 글로벌 연속 음성인식 시스템을 HMM 기술력이 주도하고 있다.

- 1990년대에는 대화체 음성인식(SSR : Spontaneous Speech Recognition) 기술에 관심이 집중되면서 현재에 이르고 있다. 

음성인식 기술의 상용화 추세

음성인식 기술을 저용한 한·일/한·영 자동통역 시스템 등 음성인식 전화, 음성인식 컴퓨터 및 음성인식 자동차 등의 제품이 출시되면서 음성인식 기술 영역이 지능형 CCTV 시스템에도 미치게 됐다.

이처럼 음성인식 기술은 생활의 깊숙이 자리 잡고 있으나 이를 이용한 제품화는 매우 더딘 편이다. 선도국의 경우에는 음성인식 기술을 이용한 통신 서비스 및 제품이 이미 출시돼 상용화 시대를 맞이하고 있다.

글로벌 음성인식 기술개발 및 제품화 추세는 태동기를 벗어나 발전기에 접어들고 있다. 음성인식 기술 관련 특허는 미국의 경우 이미 수만건에 이르고 있으며 매년 그 증가율이 높아지고 있다. 이에 비해 한국 기업들의 공개특허 기술을 바탕으로 음성인식 기술동향을 보면 음성인식 기술은 개발 지향성을 나타내고 있으며 아직은 기술의 완성기가 아닌 기초 기술개발 단계에 있다. 아울러 음성인식 기술 관련 특허는 개량기술, 주변기술, 용도개발 등으로 확산되고 있다.

아직 기술의 완성단계는 아니지만 여러 다양한 산업 분야로 확산되고 있다는 것을 알 수 있으며 이는 음성인식 기술이 지능형 CCTV 시스템에도 확산될 수 있는 국내 기술력의 가능성을 시사하고 있다.

음성인식 기술을 이용한 글로벌 응용제품은 1980년대 후반에 출시되기 시작했으며 국내의 경우 1990년대 초반 이후부터 점차 수요자의 관심이 유발됐다. 아울러 그간 음성 언어처리 및 자연어처리 분야에 많은 연구가 이뤄졌지만 아직 확보되지 않은 핵심기술(원천기술)이 많아 세계시장 선점을 위한 지속적인 노력이 필요하다. 

음성인식 CCTV 기술 상용화 이슈 

응용분야·파급효과

음성인식 기술은 다음과 같이 매우 다양한 산업분야에 응용되고 있다. 

- 사무환경의 변화 : 음성을 통한 데이터입력, 대용량 데이터베이스의 음성(언어)처리 등

- 제조업의 환경변화 : 아이즈 프리(eyes-free), 핸즈 프리(hands-free), 공정자동화 등

- 통신 산업 환경의 회기적인 변화 : 음성을 통한 다이얼링, 오퍼레이터 지원, 상품 주문, 음성을 이용한 각종 안내방송(ARS : Automatic Response Services) 등

- 의료 환경의 변화 : 진료카드 작성, 진료비 청구, 진단서 작성 등

- 기타 장난감, 로보트, 자동차 및 가전제품 등 음성인식 기술은 전산업 분야에 전방위적으로 확산돼 가고 있다.

음성인식 즉, 자연계의 잡음(소리)과 인간의 음성을 구분한 음성(voice)인식 기술력이 CCTV 시스템에 적용되기 시작하면서 지능형 영상감시 기능을 한층 더 업그레이드시켜가고 있다. 음성인식 CCTV 기술의 최대 장점은 감시자의 모니터링 능력을 획기적으로 향상시킬 수 있다는 것이다. 이러한 관점에서 다음과 같은 이점이 있다. 

- CCTV시스템 주변의 이벤트를 발생시킨 당사자의 음성을 인식해 비상상황을 음성으로 합성, 경보로 알리고 제어함으로써 야간이나 기상상황이 좋지 않은 상황에서도 이벤트 검출능력을 획기적으로 향상시킬 수 있다. 이로써 사건발생 이후의 범인 검거 등 사건해결이 아닌 발생시점 실시간에 대응할 수 있어 피해를 막을 수 있을 것이다.

- CCTV시스템의 관제기능 모듈 조작을 음성으로 제어할 경우 시력이 좋지 않은 보안감시 관리자에게 보다 편리함을 줄 수 있어 비상상황 발생시 보다 빠르게 대차할 수 있는 효과를 기대할 수 있다. 

음성인식 기술 상용화를 위한 필요조건

현재의 음성인식 기술은 어휘수에 구애받지 않고 음성의 발성패턴 및 발음변이 등 음성의 변화가 심한 음성을 정확히 인식하지 못하고 있다. 이에 무제한 어휘나 대화체 음성같은 자연스러운 발성, 잡음환경에서의 인식, 화자독립 및 화자인식 등을 중심으로 개선 연구가 이뤄지고 있다.

인간의 음성 중 고립단어의 인식능력은 실험에 의하면 약 99% 정도가 된다고 한다. 즉, 이 정도의 인식성능을 가진 음성인식 기술이라면 CCTV 시스템에도 충분히 적용할 수 있을 것으로 보는 것이다. 아울러 모든 사람의 어휘는 일정한 범주 안에서 변화하기 때문에 음성인식 CCTV 시스템 상용화에 있어서 중요한 것은 현재의 음성인식 기술이 화자독립, 무제한 어휘, 발성패턴 등을 완전하게 해결하지 않아도 된다는 것이다. 즉, 응용분야에 따른 제약조건을 적절히 이용한다면 음성인식형 CCTV 관제시스템의 개발이 가능할 것으로 전망하고 있다. 실제 범죄발생 가능성이 높은 음영지역 현장에서 제품이 설치되고 서비스되기 위해서는 다음과 같은 조건이 만족돼야 한다. 

- CCTV 관제시스템 응용제품은 사용자의 편리성, 기계와 인간 사이의 편리한 인터페이스 플랫폼 등이 구비돼야 한다.

- CCTV 관제시스템 음성인식에 대한 최적의 인식률과 무엇보다 실시간적인 인식성능을 나타낼 수 있어야 한다. 이벤트 검출시점에서 약 1/4초 이내에 경보를 발생할 수 있어야 한다.

- CCTV 관제시스템 운용상의 편리성을 제공할 수 있어야 한다. 아울러 오인식의 경우 실시간으로 적절한 수정을 가해 불필요한 경보발생을 예방할 수 있는 지능적인 인식기능이 필요하다.

- 기슬 상용화된 음성인식 CCTV 제품의 긴 수명을 보장하고 개발된 음성인식 알고리즘의 성능을 검증해 일회성 제품개발이 아닌 어느 곳에서나 적용할 수 있어야 한다. 

음성인식 CCTV 시스템의 성능 이슈 

성능 평가

음성인식형 CCTV의 성능을 효과적으로 평가하기 위해서는 다음과 같은 사항을 고려할 필요가 있다. 

- CCTV 관제시스템 주변의 이벤트를 탐지한 음성의 인식률 향상을 위해 인식률 평가에 이용된 음성 데이터의 특성을 파악하는 것이 필요하다. 즉, 조용한 사무실 내에서 채집한 음성인가, 달리는 자동차 안에서 채집한 음성인가 등에 따라 음성의 특성을 구분할 수 있어야 한다. 이는 곧 오인식률을 최소화 할 수 있는 기반이 될 것이다.

- 이벤트 발생시 1회에 탐지 가능한 단어의 수가 몇 단어나 되는지도 매우 중요한 요인이다. 이는 탐지 단어(언어)들의 구성이 얼마나 유사한가를 판단하는 지표가 될 수 있어 비상상황 판단에 단서를 제공할 수 있기 때문이다. 

음성인식 칩(IC-chip)

CCTV 관제시스템 주변의 이벤트를 탐지한 음성인식이 가능한 음성인식 칩의 개발현황은 <표 1>과 같다.

표 1. 음성인식 칩의 개발 현황

 ※ IWR : Isolated Word Recognition(고립단어인식) ※ CSR : Continuous Speech Recognition(연속어 음성인식)

※ SD : Speaker Dependent(화자종속) ※ SI : Speaker Independent(화자독립)

<자료 : 음성인식 기술의 응용, 네트워크서치, 2012. 6.> 

음성인식 소프트웨어

현재까지의 음성인식용 소프트웨어는 대부분 음성으로 텍스트를 입력하거나 간단한 명령어를 처리하는 것이 주를 이루고 있으나 점차 보다 구체적인 기술 분야에 응용되고 있는 추세다. 아울러 음성인식은 물론 화상인식 및 문자인식 나아가 CCTV 관제시스템에서 인식한 음성을 합성하는 이른바 음성합성(SP : Speech Synthesis) 등 관련 기술이 융복합되면서 획기적인 기능을 구현한 제품들이 출시되고 있다.

현재의 음성인식 소프트웨어 기술수준은 고립단어(Isolated word)와 연속어 음성(Continuous speech) 형태의 인식이 모두 가능한 기술이 출시되고 있다. 연속어 음성인식 기술은 고립단어 인식기술에 비해 많은 계산량과 이에 따른 메모리가 필요하기 때문에 하드웨어 리소스 비용이 많이 소요된다.

미국 포닉스는 1분당 120단어를 화자독립 방식으로 인식하는 음성인식 시스템을 개발한 바 있다. 이는 1당 2단어를 인식한다고 볼 수 있으며 이러한 인식속도는 인간의 발성속도에 거의 제약을 받지 않아 어떠한 상황에서 발성되는 음성도 모두 인식할 수 있을 것으로 평가받고 있다. 

통신용 음성인식 기술

유·무선 통신 분야에 음성인식 기술이 사용되면서 CCTV 관제시스템의 음성인식 신호를 ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 및 세미 커스텀(Semi-Custom) IC 등과 같은 집적회로로 설계된 원 칩(one cjip) 마이크로 형태의 음성인식 칩이 개발되고 있다. 이는 지능형 마이크로 컨트롤러로 구성된 프로세서모듈을 장착한 구조적 플랫폼 형태로서 음성인식 신호를 프로세서모듈에서 사운드 패킷으로 변환하기 위해 음성 인코더를 이용해 IB(In-Band) 트랜시버 모듈을 통해 신호를 변조한 후 OoB(Out-of-Band) 트랜시버 모듈을 통해 이를 다시 원래의 사운드로 복조해 메모리에 저장한다. 이러한 음성인식 신호를 처리·저장·변복조·전송하는 방법을 다음과 같이 다양하게 구축할 수 있을 것이다. 

- 스마트 미디어기기를 통해 보안관리자에게 직접 전송하는 방법이 있다

- 와이파이 등의 무선 네트워크를 통한 펨토셀(femto-cell) 형태로 네트워크를 구축할 수 있다.

- 교환기를 통해 보다 넓은 영역에 경보를 전파하는 방법이 있다. 

어떠한 방식으로 음성인식 신호를 전송하든 간에 검출된 이벤트에 맞는 최적의 서비스 종류 및 성능과 아울러 구현 가능한 하드웨어 기술수준을 고려해야 할 것이다. 통신 분야에 적용되고 있는 음성인식 기술의 글로벌 사례를 요약하면 다음과 같다. 

- AT&T의 800SR 서비스는 기본적인 동작은 터치 톤(touch-tone)으로 하고 10개의 숫자음도 인식할 수 있다. 인식률은 99.5%이고 부적절한 거절 즉, 인식대상 어휘를 거절하는 경우 에러율은 8.4%다.

- AT&T의 VIP(Voice Interactive Phone) 시스템은 음성사서함, 재전송, 다이얼링 등의 서비스를 화자독립 및 핵심어 추출기술을 사용해 운용하고 있으며 인식률은 약 97.4%다. 아울러 1개월에 평균 5000만호를 처리하는 오퍼레이터 서비스는 핵심어 추출기술을 사용하며 약 80% 이상의 연결단어 인식률을 나타내고 있다.

- 벨코어(Bellcore)의 안내시스템은 연간 600만호를 처리하며 82.5%의 인식률을 나타내고 있다.

- 니넥스(Nynex)의 음성다이얼링 시스템은 화자종속형으로 인식 알고리즘은 DTW를 사용하며 인식률은 80.7%다. 

INTREPID(Intelligent Telephone Recognition and Personal Identification)은 음성다이얼링과 화자인식 기술이 결합된 기술을 개발해 약 90%의 인식률을 나타내고 있다. 특히 화자인식률의 경우 잘못된 승인의 경우 에러율이 1%로 매우 정밀한 편이다. 

- BNR의 빌링규얼 디렉토리 어씨스턴스(Bilingual Directory Assistance)는 사용 언어를 선택할 수 있고 핵심어 인식기술을 이용해 인식률은 89.1%를 나타내고 있다. 

특허로 본 음성인식 기술동향

1995년 이후의 국제공개특허를 주제별로 정리해 그 동향을 파악한다. 출원된 특허들을 주제별로 특허 출원 건수를 보면 음성인식의 성능 개선 방법과 음성인식기술의 적용에 대한 기술이 많이 차지하고 있다. 또한 음성인식기의 구성 및 타 기술과의 결합도 꾸준히 출원되고 있다. 이러한 특허조사 결과를 기반으로 음성인식 CCTV 기술 관련 전후방 기술 동향을 요약하면 다음과 같다. 

- CCTV 관제시스템 음성인식 모듈의 성능개선을 위한 기술력이 상당히 많은 부분을 차지하고 있다는 것을 알 수 있다. 이는 음성인식 기술이 향후에도 많은 개발 여지가 있다는 것을 시사하고 있다.

- 현재 가장 많은 상용화가 이뤄진 고립단어 인식기술의 문제점인 미등록어 처리에 대한 기술력이 많이 출원되고 있다. 이는 미등록어 및 미지어 처리에 대한 확실한 솔루션이 아직 개발되지 못하고 있다는 것을 알 수 있다.

- CCTV 관제시스템의 음성인식 기술 상용화에 있어서 가장 난관으로 여기는 주변의 잡음(noise) 환경에서의 성능개선을 위한 기술이 지속적으로 출원되고 있다. 

음성인식 기술의 적용분야는 날로 다양해지고 있어 그 성능에 대한 한계를 극복할 수 있는 기술력에 대한 출원이 증가할 것으로 예상된다. 특히 화상회의 시스템, 첨단 의료장비 및 무인 경비시스템 등에 적용된 것은 고도의 탐지 및 인식기술을 요구하기 때문에 최첨단 ICT 기술력과 융합된 신기술들이 출시될 것으로 전망된다. 이러한 융합 기술력을 구비한 지능형 음성인식 CCTV 관제시스템도 머지않아 구축될 수 있을 것으로 기대된다. 

결언 

이 연구에서는 지능형 CCTV 관제시스템 구축을 위한 다중 생체특징 방식으로 업계의 관심과 정부부처 및 각 지자체의 관심이 모아지고 있는 음성인식 CCTV 기술에 대해 설명했다.

이에 대한 파급효과와 아울러 음성인식 기술을 상용화하기 위한 필요조건은 무엇인지에 대해 설명했다. 이를 토대로 음성인식 CCTV 시스템의 성능을 결정짓는 하드웨어 및 소프트웨어 기술과 함께 특허출원을 통해서 본 음성인식 기술동향 등에 대해 설명했다.

치명적인 사건현장의 주변에 CCTV가 있다. 범인을 검거할 수 있다는 기대감에 CCTV 영상판독을 해보지만 해상도가 너무 낮아 누가 범인이고 누가 피해자인지 구분하기 어려울 때도 있다. 이처럼 현재의 방범용 CCTV 관제시스템은 성능이 너무 열화되고 노후돼 존재가치를 발휘하지 못하고 있는 것들이 많다. 하지만 지능형 음성인식 CCTV는 가해자의 협박소리나 피해자의 비명소리를 실시간으로 인식해 사건예방 효과를 발휘할 수 있을 것이다.

기하급수적으로 증가하고 있는 인터넷 트래픽 이른바 빅데이터(Big data) 등 대용량 무선 데이터의 수요 니즈는 CCTV 관제시스템에도 적용되고 있다.

무수히 많은 영상 데이터의 촬영에서부터 처리·저장·모니터링·유통·폐기에 이르기까지 전 라이프사이클을 지능적으로 관리할 필요성이 증대되고 있다.

이러한 요구에 따라 FMC(Fixed Mobile Convergence) 및 FMS(Fixed Mobile Substitute) 등 융합기술 발전을 촉진해 고품질의 CCTV 시스템 시장을 창출하고 있다. 이에 세계시장 선점을 위한 원천기술 개발 및 특허권 확보가 절실히 요구된다. 


참   고   문   헌
•k.daum.net/qna/view.html?qid=4X2um

•k.daum.net/qna/view.html?category_id=QFP&qid= 45BPS&q=CCTV%BD%C3%BD%BA%C5%DB

•장순석, HMM 음성인식 알고리즘의 분석, Journal of Advanced Engineering and Technology, Vol.3, No.3, 2010.

•조영임·장성순, CCTV 응급상황에 따른 지능형 음성인식 시스템 구현, 한국지능시스템학회 논문지, Vol.19, No.3, 2010. 6.

•음성인식 기술의 응용, 네트워크서치, 2012. 6.

•blog.daum.net/angelkissmail/15722040

•유기영 외, CCTV 기반 얼굴검출 및 인식시스템 보안 프레임워크에 관한 연구, 한국인터넷진흥원 최종연구보고서, 2010. 7.

•강력범죄 예방 종결자_지능형 CCTV, 파퓰러사이언스, 2013. 6. 4.


 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.