비전 기반 인간-로봇 상호 작용 기술
상태바
비전 기반 인간-로봇 상호 작용 기술
  • CCTV뉴스
  • 승인 2009.04.10 00:00
  • 댓글 0
이 기사를 공유합니다

글 : 노명철, 이성환 / 고려대학교 정보통신대학, 인공시각연구센터

초창기 로봇과의 상호 작용은 특수 장치기반 인터페이스를 이용했지만 음성 또는 행동 인식 등을 통한 상호 작용 방법이 인간에게 더 편리하고 매력적으로 느껴지게 되면서, 가장 자연스러운 상호 작용 방법으로 비전 기반의 인터페이스에 대한 많은 연구가 이루어지고 있다. 이번 기고에서는 비전 인터페이스를 위해 고려대학교 인공시각연구센터에서 연구하고 있는 인간 행동 분석 및 인식 기술에 대해 소개하고자 한다.

과거 공장에서의 제품 생산 등 산업용으로 사용되었던 로봇은 최근 인간에게 '서비스 제공자'로서의 역할을 수행하며 점차 발전해가고 있다. 서비스 제공자로서의 로봇이 인간에게 보다 양질의 서비스를 제공하기 위해서는 인간과의 상호 작용을 필요로 하게 되었으며, 이를 구현하기 위해 비전 인터페이스 기술이 주목받고 있다.

비전 인터페이스 기술
 
비전 인터페이스 기술은 스테레오 카메라, 웹 카메라 등을 이용해 기타 부착장치 없이 컴퓨터나 로봇과 상호작용할 수 있는 기술이다. 이 기술은 IT 기술 기반으로 제작되어 로봇 등의 플랫폼에 적용 가능하며 로봇의 인지, 사고 기능을 위한 핵심 기술 중 하나이다. 인간-로봇 상호 작용에서의 비전 인터페이스 기술은 그림 1에서 보는 것과 같이 다양한 측면에서 잠재력을 가지고 있다.

인간-로봇의 상호 작용을 위한 수단은 세 가지로 분류된다. 첫째, 인간이 로봇에게 임의 객체의 위치 또는 로봇의 이동 방향을 알려주는 지시형 제스처, 둘째, 인간과 로봇 간 의사소통 또는 명령 전달을 위한 대화형 제스처, 셋째, 사람의 전신 움직임을 이용한 행동 인식을 들 수 있다.

지시형 제스처


그림 2. 인간-로봇 상호작용을 위한 비전 인터페이스 연구 기술의 중요성형

지시형 제스처는 가장 자연스러운 인체 동작 중 하나로 객체 선택, 로봇 이동 등 다양한 기능을 수행하는데 사용할 수 있어 최근 널리 연구되고 있다. 지시형 제스처는 그림 2에서와 같이 객체 선택, 가상 마우스, 로봇의 이동 방향 지시에 활용 가능하다. 인간-로봇 상호 작용에서는 로봇에게 특정 객체의 위치를 알려주고 명령형 제스처를 같이 사용해 물건을 다른 곳으로 옮기거나 사용자에게 가져오도록 명령 할 수 있다.

지시형 제스처 인식 시스템에서의 인식 오류는 주로 손 추적 모듈의 낮은 성능에 기인한다. 손은 비교적 크기가 작고 지시형 제스처 수행 시 빠르게 움직이는 특성 때문에 위치를 정확히 추적하기 어려우므로 그 결과, 추적 오류와 지시 방향에 대한 인식 오류가 발생하게 된다.

지시 방향 인식은 팔을 최대로 뻗었을 때에만 지시 방향이 정확하게 인식되도록 구성되어서 손의 위치가 정확히 추적된다 하더라도 팔을 최대로 뻗지 않으면 지시 방향이 올바르게 인식되지 않는 단점도 있다. 이러한 단점들을 극복하기 위해 3차원 파티클 필터(3D Particle Filter)와 캐스케이드은닉 마르코프 모델(Cascade HMM)을 이용한 지시형 제스처 인식을 수행했다.

사람이 카메라의 시야에 들어오면 지시형 제스처 인식에 필요한 손과 얼굴의 위치를 자동으로 초기화하고, 이를 이동 환경과 복잡한 배경에서 좋은 추적 성능을 보이는 3차원 파티클 필터로 추적한다. 추적된 손의 위치 정보는 지시형 제스처 수행 시 인체의 동작 특성을 모델링한 1단계 은닉 마르코프 모델에서 사용자가 의도하는 지시 방향을 나타내도록 보정되고, 보정된 3차원 좌표는 2단계 은닉 마르코프 모델에서 지시형 제스처를 검출하고 지시 방향을 추정한다.


그림 3. 지시형 제스처의 실험 환경


그림 4. 실험 결과 영상: 입력 영상에 대한 손과 얼굴의 추적(왼쪽), 지시된 객체의 선택(가운데), 3차원 공간에서의 모델링 결과(왼쪽)

실험 환경은 그림 3과 같이 여러 개의 객체가 있는 방에서 스테레오 카메라 한 대를 사용해 구성하였다. 그림 4는 (a)스테레오 카메라에서의 입력 영상과 양손 및 얼굴 좌표, (b)지시형 제스처에 의해 선택된 객체, (c)지시방향을 3차원 공간에서 모델링한 결과를 각각 보여주고 있다.

대화형 제스처


최근 지능형 휴머노이드 로봇의 발전과 함께 사람과의 자연스러운 상호 작용 기술에 대한 연구가 각광받고 있다. 사람의 제스처 가운데 중요하면서 많은 의미를 포함할 수 있는 것을 대화형 제스처라고 한다. 본 연구기관에서는 대화형 제스처를 위한 명령형 제스처, 지화, 수화 인식을 연구했다.

명령형 제스처

명령형 제스처는 약속된 손 제스처를 취해 로봇이 해당되는 명령을 수행할 수 있는 제스처이다. 일반적으로 명령형 제스처는 손, 머리, 팔, 손가락, 어깨 등의 상반신 구성 요소를 이용한다. 상반신을 검출하고 얼굴로부터 피부색을 추출하고 색정보와 움직임 정보를 사용해 양손을 추적한다. 동적 프로그래밍(Dynamic Programming: DP) 기법을 이용해 모델 제스처의 특징 템플릿과 입력 제스처의 특징 템플릿 사이 최소 거리를 계산함으로써 제스처 인식을 수행한다.


그림 5. 명령형 제스처를 이용한 위도우 제어: (왼쪽) 인터넷 익스플로어 열기, (오른쪽) 아웃룩 열기

제스처 인식은 DP 테이블의 끝점으로부터 시작점으로 역추적을 통해 최적의 경로를 찾고, 최소 누적 합을 가지는 제스처로 인식하게 된다. 명령형 제스처에서의 주요 과제 중 하나는 연속된 영상에서 의미 있는 제스처를 검출하고 인식하는 것이다. 본 명령형 제스처에서는 두 손의 이동 에너지를 이용한 제스처의 시작과 끝을 인식하고 있다. 그림 5는 명령형 제스처를 이용해 윈도우 프로그램을 제어하는 예를 보여준다.

지화 인식


그림 6. 10가지 숫자 지화에 대한 인식 예


그림 7. 지화 인식을 이용한 가위-바위-보 게임

지화 인식 시스템에서의 인식 오류는 주로 손모양의 다양한 변화와 정확한 특징 추출의 어려움 때문에 발생한다. 같은 손모양이라 할지라도 사람의 신체 특성상 서로 다른 피부색과 손 모양을 가지고 있기 때문에, 많은 학습 데이터를 처리할 수 있어야 한다.

특히 지화는 다양한 각도에서 보여질 수 있으므로 3차원 모델을 이용한 방법이 필수적이며, 3차원 손 모델을 여러 각도에서 렌더링하고, 영상들을 사용해 손 모양을 인식하는 연구가 필요하다. 이번 연구에서는 많은 양의 데이터를 효율적으로 모델링하고 인식하기 위한 Lipschitz Embeddings를 사용해 계산 복잡도를 해결하고 노이즈에 강인한 매칭을 수행하는 Chamfer 거리 측정 방법을 활용하였다. 그림 6과 그림 7에서는 숫자 1부터 10까지의 지화에 대한 손 모양과 인식 결과를 가위-바위-보 게임에 활용한 예를 각각 보여주고 있다. 수화


그림 9. 연속된 비디오 영상에서의 수화 인식

수화는 눈, 얼굴, 머리와 같은 신체 부분들의 위치, 모양, 움직임으로 구성되며 농인들의 주요 의사소통 수단으로 사용된다. 수화를 이해하지 못하는 일반인과 농인들 간의 의사소통을 위해서는 통역자가 필요한데 이런 일들을 로봇이 대신할 수 있다면 공공기관과 같은 곳에서 효율적으로 활용될 수 있다.

수화 인식은 수화 동작 중 의미 없는 손동작과 의미 있는 수화 단어를 구분해 인식하는 것을 말한다. 그림 8은 수화 인식 시스템 처리 과정을 간략히 보여준다. 일반적으로 수화는 손의 동작과 형태 정보를 가지고 정의되기 때문에 손의 모양과 움직임을 동시에 고려해 특징으로 사용한다. 움직임 정보를 표현하기 위해 양손의 얼굴로부터의 상대적 위치와 각도 및 손의 움직임을 표현하는 방향코드를 사용하고, 손의 형태 정보를 분석하기 위해 수화가 끝나는 시점에서 손의 실루엣 영상을 사용했다.

수화 인식에 있어서 가장 중요한 문제는 의미 있는 동작과 의미 없는 동작을 구분하는 것이다. 의미 없는 손동작을 모델링하기 위해서는 무한대의 학습데이터가 필요하기 때문에 일반적인 방법으로 해결이 불가능하다. 따라서 본 연구기관에서는 의미 없는 동작과 의미 있는 수화 단어를 구분하기 위해 주어진 데이터에서 의미 없는 손동작부분에 대한 학습 및 인식이 가능한 Garbage Condi tional Random Fields(CRFs) 모델을 개발했다.

CRFs 모델에는 의미 없는 손동작의 표현이 가능한 Garbage State가 추가되어 의미 있는 수화단어와 의미 없는 손동작을 구분하기 위한 적응적 임계값의 역할을 수행할 수 있다. 그림 9에서는 연속된 비디오 영상에서 Garbage CRF를 이용한 수화 인식 결과를  보여주고 있다.

다양한 형태의 수화를 인식하기 위해 일상생활에서 직접 수화를 구사하는 청각 장애인을 대상으로 60가지 수화 단어와 11개 수화 문장에 대한 한국인 수화 데이터베이스를 구축하고, 수화 단어의 특징을 분석한 후 공통적으로 나타나는 특징을 분리해 모델을 생성하였다.

행동 분석 및 이벤트 추출

의료 기술의 발전으로 인한 인간 수명의 증가로 사회가 고령화 되어감에 따라 노인의 사회 복지에 대한 관심이 증가하고 있다. 하지만, 노인들의 보조 생활에 경제적인 투자가 지속적으로 이루어지고 있는 반면, 서비스 인력은 여전히 부족하므로 이를 대체할만한 시스템의 필요성이 증대되고 있다.

특히, 독거 노인들의 경우 갑작스러운 사고나 발병 시에도 주위에 도와줄 사람이 없어 사회적 문제로 떠오르고 있는데, 이 경우 로봇이 주위에 머무르며 특이하거나 비정상적인 행동을 인식하고 대처할 수 있다면 큰 도움이 될 것 이다. 따라서 평상시 인간 생활 패턴의 분석을 통해 이동 경로를 미리 예측하고 이에 대응하는 로봇 서비스에 대한 연구가 활발히 진행되고 있다.

인체 구성요소 추출

사람의 행동을 분석하기 위해서는 인체 구성 요소를 분석하는 것이 필요하고, 이를 위해 인체 구성요소 추출 기술이 필요하다. 인체 구성요소 추출이란 사람의 몸을 구성하고 있는 머리, 몸통, 팔, 다리와 같은 각 신체 부위를 인식하는 것이다. 비디오 영상에서 인체 구성 요소를 추출하기 위해서는 프레임마다 변화하는 각 부위의 외형을 모델링 하는 기술이 필요하다.

외형의 변화는 크게 두 가지 종류로 분류할 수 있는데 하나는 표정이나 조명의 변화이고, 다른 하나는 겹침 현상(인체 한 부위가 다른 부위나 주위의 사물에 의해 가려지는 경우)에 의해 발생하는 변화이다. 이번 실험에서는 다양한 변화를 효율적으로 흡수하기 위해 Wandering-Stable-Lost(WSL) 모델을 사용했다. 그림 10은 신체 각 부위에 대한 WSL 모델의 예를 보여준다.


그림 10. Wandering-Stable-Lost 모델의 예

사람의 신체 부위는 관절 구조로 연결되어 있는데 관절 구조는 그래프 구조로 모델링이 가능하며, 각 부위 사이의 관계를 학습시켜 정확한 위치 추정 및 추적을 할 수 있다. WSL 모델을 기반으로 각 인체 부위의 정확한 위치 추정 및 추적을 위해 그래프 상에서 Belief Propagation(BP) 기법을 이용하였다. BP의 추정 알고리즘에는 크게 3가지 확률 분포가 사용된다.

첫째, 전 프레임의 추정 결과로부터 얻는 사전 확률, 둘째, 현재 프레임의 영상에서 얻는 관측 확률, 마지막으로 각 신체 부위 사이의 관계를 학습해서 얻은 상호 관계 확률이다. 관측 확률은 스테레오 영상으로부터 얻을 수 있는 깊이 영상과 WSL 모델로부터 계산되어 보다 정확한 3차원 관절 좌표를 추정할 수 있게 한다. 그림 11은 각각 입력 칼라 영상, 깊이 영상, 재구성된 인체 구성 요소를 보여준다.


그림 11. 인체 구성 요소 추출: (왼쪽)입력 영상, (가운데)깊이 영상, (오른쪽)재구성된 인체 구성 요소의 3차원 모델 이벤트 인식

인체 구성요소 추출에서 추정된 각 손, 발, 머리의 위치와 움직임, 사람의 위치를 특징으로 한 행동분석 및 이벤트 인식이 가능하다. 이 시스템은 다양한 특징, 사전 지식, 복잡한 관측 값 등의 특징들을 직관적이고 효율적으로 모델링할 수 있는 동적 베이스망(Dynamic Bayesian Network: DBN)을 통해 모델링하고, 은닉 노드를 추가해 네트워크 표현력을 높였다. 은닉 노드의 추가는 표현력을 높이고 모델의 확장 가능성을 열어두는 역할을 수행한다.

맺음말

공장에서 제품 생산에만 사용되던 로봇은 최근 일반 가정 보급을 위한 수요가 늘어남에 따라 인간-로봇 상호작용에 대한 필요성이 대두되고 있다. 비전 인터페이스 기반 기술은 인간-로봇 상호 작용을 비롯해 주변 환경에 대한 상황 인지 및 사고 기능을 위한 핵심 기술이다. 이번 기고에서는 고려대학교 인공시각연구센터에서 연구 중인 지시형 제스처 인식, 명령형 제스처 인식, 이벤트 인식 기술들에 대해 살펴보았다.

본 연구는 다양한 환경 변화에서도 안정된 제스처, 행동 패턴, 이벤트 인식 성능을 보이는 고수준의 기술을 확보하고 선진 기술을 융합해 차세대 기반 기술을 형성하는 것을 목표로 하고 있으며, 경제·산업적으로 지능형 로봇 및 환경 개발의 직접적인 시장뿐만 아니라 기반 기술의 생체 인식, 통신 장비, 지능형·미래형 산업 등 응용 분야로의 적용을 통해 부가적인 파급 효과가 클 것으로 예상된다.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.