음성로봇, 카오디오 수요 증가로 ‘음성처리 칩’ 출시 활발

[CCTV뉴스=이나리 기자] 최근 인공지능(AI) 기반의 음성 처리 기술이 스마트홈, 음성비서 로봇, 자율주행차 등 다양한 산업에 빠르게 적용되고 있으며, 자동차에 최적화된 오디오 기술에 대한 수요도 급증하고 있다. 이런 시장의 니즈를 반영해 시스템 반도체 업계는 올해 상반기부터 음성인식, 노이징 처리 칩을 활발히 출시하며 시장 성장에 적극 지원하고 있다.

음성처리 기술은 2011년 아이폰의 ‘시리(Siri)’를 시작으로 구글의 나우, 마이크로소프트의 ‘코타나(Cotana)’, 아마존의 ‘알렉사(Alexa)’, 페이스북의 ‘M’을 통해 대중에게 알려지기 시작했다. 현재 이 기술은 사물인터넷(IoT)이 가전제품에 다양하게 적용되면서 빠르게 성장하는 사업 중 하나로 꼽힌다.

음성인식비서 또는 음성로봇 스마트 스피커라고 불리는 아마존의 ‘에코’가 대표적이며, 국내에서도 2016년 9월 SK텔레콤이 ‘누구’를 첫 선보였고, 올해 1월 KT도 ‘지니’를 공식 출시했다. 네이버도 AI 비서 솔루션인 ‘아미카’를 적용한 스피커를 2017년 상반기에 출시할 계획이다. 또 삼성전자도 2016년 10월 AI 기술 스타트업 비브랩스를 인수한 기술을 바탕으로 음성 비서 솔루션 ‘빅스비’를 가전기기 등 IoT와 연동 제품으로 올해 상반기 중으로 공개할 예정이다.

음성비서 솔루션을 구현하기 위해서는 인공지능 기술뿐 아니라 하드웨어적으로 음성처리와 오디오 반도체 기술이 밑바탕 돼야 한다. 이런 시장의 니즈에 따라 반도체 업체들은 음성인식과 오디오 관련 다양한 기술 및 제품들을 출시하면서 시장 성장을 적극 지원하고 있다.

ST마이크로일렉트로닉스(ST)는 지난 3월 컨버전스 통신용 무선 칩셋 기업인 DSP 그룹, 음성 인터페이스 기업인 센서리와 함께 키워드-인식 기능을 제공하는 음성 감지, 음성 처리 마이크를 공개했다.

일반적으로 웨이크-온-사운드(Wake-on-Sound) 마이크는 기기를 슬립 모드에서 활성화시키기 위해 사용자가 터치할 필요가 없지만, 처리 성능이 제한적이기 때문에 메인 시스템 프로세서를 동작시켜 수신된 명령을 인식하도록 해야 한다. ST 측의 설명에 따르면 이 마이크 솔루션은 메인 시스템을 활성화시키기 않고도 명령어를 감지하고 인식시킬 수 있기 때문에 음성으로 작동시키는 스마트 스피커, TV 리모콘, 스마트 홈 시스템 같은 가전기기에 활용될 수 있다고 설명했다.

인피니언은 XMOS와 제휴를 통해 음성 인식을 위한 새로운 감지 기술을 개발했다고 지난 3월 발표했다. 이 기술은 인피니언의 레이더 및 실리콘 마이크로폰 센서와 XMOS의 오디오 프로세서를 결합해 오디오 빔포밍(beamforming)을 사용한 원거리 음성 포착과 레이더 목표물 감지 기능을 제공한다.

노르딕 세미컨덕터는 2016년 하반기 블루투스 저에너지 SoC(System-on-Chip)를 기반으로 음성입력 성능을 갖춘 ‘nRF52 시리즈용 nRFready 스마트 리모트 3(nRFready Smart Remote 3 for nRF52 Series)’ 레퍼런스 디자인 공급을 시작했다. 이 제품은 에코 및 잡음 소거 기능을 갖춘 두 개의 PDM 마이크를 이용해 음성인식을 이용한 검색 과 제어 기능을 구현할 수 있는 음성입력 성능이 특징이다. 또한 디지털 마이크 입력 옵션 외에도 물리적인 제스처 제어를 위한 6축 모션 센서 등이 포함됐다.

인피니언과 노르딕이 공개한 기술 모두 스마트 홈, 스마트 TV와 셋톱박스, 보안 키리스 엔트리 시스템 등 여타 음성으로 제어되는 컨슈머 디바이스의 음성 인식에 활용될 수 있다.

음성인식 기술은 최근 자동차의 네비게이션과 오디오, 자율주행차 등에도 적용되고 있다. 소음 발생률이 높아 특수한 환경에서 음성을 듣고 인식해야야 하는 자동차는 노이즈를 최소화 시키는 기술이 중요하다.

로옴은 지난 2월 자동차 오디오의 음량 조정 및 음성 믹싱을 실행하는 사운드 프로세서 ‘BD34602FS-M’을 개발했다. 차량용 오디오의 코어인 오디오용 SoC는 제조 프로세스의 미세화에 따른 저전압화로 인해, 처리하는 오디오 신호가 작아져 상대적으로 플로어 노이즈가 증가하게 되는데, 이를 해결하기 위해서는 SoC의 후단에 저잡음 및 고음질의 아날로그 볼륨이 요구된다. 로옴의 설명에 따르면 BD34602FS-M은 차량용 오디오에 요구되는 특성을 추구하고, 고음질에 포커스를 맞추어 독자적인 음질 설계 기술을 도입한 제품이라고 설명했다.

TI(텍사스인스트루먼트)도 고성능 차량용 오디오 성능의 니즈에 따라 자동차 애플리케이션용으로 특별히 설계된2.1MHz 클래스 D 오디오 증폭기를 출시했다. 96kHz 고해상도 디지털 입력을 지원하는 소형의 TAS6424-Q1은 자동차 인포테인먼트 애플리케이션에서 왜곡이 낮은 고성능 오디오 품질을 구현한다.

이 외에도 음성인식은 음성 번역 기술, 스마트 공장, 서비스 로봇 등 다양하게 활용될 수 있기 때문에 IT 업계에서는 하드웨어와 소프트웨어 전 부분에서 지속적인 기술 개발이 요구되고 있다.

아네트 짐머맨 가트너 부사장은 “사람과 기기의 상호 작용 과정에서 터치스크린은 자취를 감추기 시작할 것이고 사람의 음성이나 주변 환경 인식 기술, 바이오메트릭스, 동작, 제스처를 사용하는 비중이 늘어날 것”이라며 IT 디바이스 시장의 변화를 예고했다.

이나리 기자 다른기사 보기