급증하는 모바일 악성코드, 기계학습 기반 차세대 탐지 필요하다

국내외 안드로이드 모바일 악성코드 대응 현황

2019-05-07     이승윤 기자

[CCTV뉴스=이승윤 기자] 최근 모바일 스마트 플랫폼 환경과 함께 사물 인터넷 환경이 급속하게 발전함에 따라 과거 PC 환경과 유사한 초기 형태 악성코드부터 각 환경에 특화된 다양한 악성코드들이 등장하고 있는 상황이다. 그러나, 현재 모바일 악성코드 대응 기술은 태생적인 환경 특성 때문에 과거 PC 대응 기술과 비교했을 때 여러모로 뒤쳐져 있는 상황이다.

글: 아이넷캅 유동훈 기술이사

유선 네트워크와 무선 네트워크 환경의 차이점은 다양한 악성코드 정보를 공유하고 분석 결과를 쉽게 받아볼 수 있는 PC 환경에 비해 어려운 점이 존재한다. 또한, 간섭을 최소화하기 위한 앱간 권한 독립의 문제는 단말에서 악성 앱을 동적으로 판정하기 어렵게 만들며 정반대로 높은 권한으로 상승한 악성 앱에 의해 분석 방해를 당하는 사례로도 잘 알려져 있다.

이렇게 모바일 스마트 플랫폼이 환경적 대응 한계점을 가지고 있는 만큼 악성코드에 대응할 수 있는 신규 보안 기술도 새로운 환경에 맞추어 나날이 발전하고 있다. 따라서 이번 리포트에서는 종래 모바일 환경에서 동작하는 악성코드에 대응할 수 있는 국내외 안티 바이러스 업계 기술 현황에 대해서 다루고 나아가 사용자 기기를 안전하게 보호하기 위해 제조사 차원에서 제공하는 기술 사례를 소개하고자 한다.

종래 모바일 악성코드 대응 현황

과거부터 전통적으로 이어져 왔던 대표적인 악성코드 대응 방법은 이미 유포된 코드에 대해 분석한 결과를 데이터베이스에 반영해 탐지하는 시그니처 패턴 데이터베이스(DB) 기반 검사 방식이다. 이러한 패턴 DB 방식은 클라이언트가 서버로부터 공급받은 정보를 통해 악성코드 여부를 검사하는 구조로 구성돼 있다. 하지만, 최근 유행의 변화로 클라이언트에 설치된 애플리케이션 정보를 클라우드 서버 측에 보내 악성 여부를 판단하는 중앙 집중 검사 방식을 택하고 있다. 이러한 클라우드 기반 검사 방식은 매번 클라이언트가 서버로부터 DB를 공급받지 않아도 된다는 점과 분석된 결과를 실시간에 가깝게 반영할 수 있다는 이점 때문에 최근 악성코드 대응 제품들에 활발 하게 적용되고 있다.

시그니처 패턴 DB 기반 탐지 기술

안티 바이러스 제품군을 제공하는 대부분의 보안 회사들은 샘플에 대한 수집, 유형별 분류, 분석, 대응 등의 순서로 악성코드에 대응할 수 있는 체계를 기본으로 갖추고 있다. 과거 윈도우 운영체제부터 최근 안드로이드 모바일 운영체제까지 큰 차이 없이 유사하게 대응하고 있는 편이며 탐지해야 하는 앱 내의 고유 정보 값을 선정해 악성여부를 신속하게 탐지하고 제거할 수 있도록 데이터베이스화 하고 있다.

클라우드 서버 기반 탐지 기술

최근 데이터베이스 정보를 제공하는 전통적인 시그니처 패턴 DB 기반 검사 방식과 달리 중앙 집중 검사 형태로 클라이언트로 부터 전송된 빅-데이터 정보를 기반으로악성 여부를 판별하는 클라우드 서버 기반검사 방식이 늘고 있다. 검사 방식은 크게 두 가지로 나뉘는데 먼저 안티 바이러스 회사들이 제품 서비스 운영을 위해 앱의 일부정보를 추출해 서버로 전송하고 판정 결과를 응답해주는 운영 방식과 앱 전체를 업로드 해 보다 정확한 결과를 제공하는 바이러스 토탈 서비스와 같은 운영 방식으로 구분된다. 각 클라우드 서버 기반 분석 서비스의 특징은 [표 2]와 같다.

종래 악성 코드 대응 기술의 한계점

종래 시그니처 패턴 DB 기반의 안티 바이러스 제품은 신종과 변종 악성 앱에 대한 신속한 탐지가 어렵다는 한계점이 있으며각 앱 사이에 권한을 제어하기 힘든 문제가 있다. 때문에 권한 상승 행위를 수행하는 악성 앱이 제품의 정상 동작을 방해하거나 제거해버릴 위험성이 항시 존재한다. 클라우드 서버 기반의 분석 기술의 경우 동적분석 이후부터 악성 여부를 정확하게 판정하기 때문에 비동기적인 결과 반영으로 인한 신속한 대응이 어려울 수 있다. 또한 모바일 네트워크 통신의 특성으로 인해 클라이언트가 서버의 분석 결과를 올바르게 응답받지 못하는 경우, 기기가 위험해질 수 있으며 시스템을 구축하기 위한 초기 인프라 투자비용이 높은 편이고 운영비용이 지속적으로 투입될 수밖에 없는 구조를 가지고 있다.

기계 학습 기반의 차세대 휴리스틱 탐지 기술 동향

클라우드 기반으로 수집된 빅데이터를 기반으로 분석과 분류가 완료된 데이터에 대해 기계가 학습하는 과정을 거쳐서 종래 휴리스틱 탐지 기술보다 더 많은 신·변종 악성코드를 탐지할 수 있는 기술이다. 악성 앱에 대응하기 위한 기계 학습은 크게 두 가지 방법으로 구분되는데, 하나는 악성에 대한 라벨링이 주어진 상태에서 학습하는 지도 학습 방법, 라벨링 되지 않고 비슷한 유형을 분류하도록 만드는 비지도 학습 방법이 있다.

이렇게 기계 학습 탐지 기술이 악성 앱을 더 잘 탐지하는 이유는 모바일 환경에서 동작하는 악성 앱의 경우 수행하는 행위가 지극히 단순하고 자료 탈취 시 접근하는 정보 범위가 한정돼 있기 때문으로 시그니처 패턴 DB 기반 탐지 기술이나 종래 휴리스틱 탐지 기술보다 더 탁월한 탐지 효과를 보인다.

국내외 AV 업체 기계 학습 탐지 사례

신·변종 악성코드에 대한 높은 탐지율로 유명한 비트디펜더의 경우 2009년부터 기계 학습 알고리즘 개발과 연구를 진행했으며 기계 학습을 서명 기반 시스템보다 더 선호하는 편인데 사용자 행동을 예측하기 어려운 경우에는 과탐지(False positive) 문제를 해결하기 위해 기계 학습 알고리즘을 활용하며 예측 가능한 동작의 경우 이상 탐지 방법을 사용한다고 알려져 있다.

또한 악성 탐지를 위해 기계 학습 기술에만 의존하지 않고 계층화된 방법들을 선택적으로 활용해 위협을 사전에 정확하게 파악하는데 주력하고 있다. 또한, 시만텍 노턴 제품의 경우 전 세계에 널리 보급돼 있기 때문에 1억 7500만 개 이상의 엔드 포인트와 5700만 개 이상의 공격센서를 통해 보안 위협 정보를 수집하고 3조 7000억 행에 달하는 보안 관련 빅데이터를 가지고 클라우드 기반 기계 학습을 진행하며 비트디펜더와 마찬가지로 다계층 보안 기능을 제공하는 것으로 알려져 있다.

국내의 경우 클라우드 형태의 악성코드 분석 서비스인 멀웨어스닷컴을 통해 수집되는 방대한 위협 정보 데이터를 바탕으로 기계 학습을 수행해 높은 탐지율을 보이는 세인트시큐리티의 MAX와 같은 제품이 있다.

매일 하루 평균 100만 개 이상의 파일을 자동 수집하며 보유한 악성코드 샘플 개수는 8억 개 이상, 프로파일링 된 악성코드 연관정보 수는 총 20여억 개이다. 모바일용 악성 앱에 대응하기 위해 기계 학습을 수행하는 제품으로는 아이넷캅에서 개발한 온백신 모바일이 있는데 한 번 학습할 때 약 40만 개 데이터를 활용하고 연간 2회 정기 모델링 과정을 거치고 있으며 과탐지를 방지하기 위해 기계 학습을 통해 탐지된 휴리스틱 결과를 서명 기반의 평판 검증 시스템을 거친 후 사용자에게 제공하고 있다.

정적 기반 기계 학습 기술을 통한 악성 행위 탐지 과정

일반적으로 정적 기반 기계 학습 기술을 통한 악성 앱 탐지 방법은 탐지 대상이 되는 샘플 데이터의 분류와 선정 과정을 거치고 특징 추출과 학습 과정을 거쳐 모델링을 완료하게 된다. 이후 여러 번의 시험을 거쳐서 가장 좋은 결과를 보인 예측 모델을 선정하게 되며 이렇게 선정된 예측 모델을 기반으로 각종 신변종 악성 앱을 탐지하게 된다. 각 그림의 단계별로 수행하는 과정은 다음과 같다.

제조사별 악성 행위 대응 기술 동향과 사례

제조사의 경우 타사보다 더 높은 보안성을 갖춘 기기를 개발해 안전한 기기를 원하는 소비자의 욕구를 충족시킴으로써 더 많은 기기 판매량을 달성하고 점유율을 높일 수 있다. 따라서 제조사는 안티바이러스 회사와는 전혀 다른 관점에서 기기를 보호할 수 있는 다양한 기술을 지속적으로 개발해 탑재하고 있다.

퀄컴은 모바일 기기의 악성코드를 감지하고 제거해주는 기술인 ‘스마트 프로텍트’를 개발해 모바일 스냅 드래곤 SoC(시스템 온 칩)에 내장했다. 스마트 프로텍트는 2015년 모바일 기기의 악성코드를 탐지해주는 동적 행위 기반 기계 학습 기술로 제로데이 악성코드를 탐지하기 위한 목적과 시그니처 패턴 DB 기반 안티 바이러스 제품의 한계를 극복하기 위해 개발된 기술이다.

퀄컴은 이 기술에 zeroth(제로스)라 불리우는 학습 능력에 기반을 두는 인지 컴퓨팅 기술을 활용했는데, 스스로 학습 가능한 행동 분석 기술을 통해 알려지지 않은 위협을 감지할 수 있다. 기술의 핵심은 시스템 성능에 영향을 주지 않는 저전력 온디바이스 방식으로 동작한다는 점과 ARM의 TZ(트러스트 존) 플랫폼을 활용해 보호 대상 기능에 접근을 방지하면서 앱을 개별적으로 실행할 수 있다는 점이다. 해당 기술이 활용될 경우 스마트폰 사용자가 기기를 조작하지 않고도 SMS를 보내거나 화면이 꺼진 상태에서 사진을 찍는 등의 비정상적인 행위를 탐지하는데 도움이 된다.

해당 기술은 서버 판단 없이 기기에서 사용자 상호 작용 추적과 동적 앱 행위를 학습 훈련하는 방식으로 신·변종 악성 앱에 대한 탐지가 가능하다. 먼저 학습 단계 이전에 실제 앱을 해당 칩이 탑재된 기기에서 동작시켜 미리 정해놓은 행위 정보를 얻는다. 이후 각 악성과 정상으로 라벨링 된 앱 별로 기능에 대한 모니터링을 수행하면 앱이 동작하면서 남긴 행위 정보를 기반으로 실행된 특징과 값을 얻게 된다. 마지막으로 외부 학습 도구를 통해 모델을 생성하고 나면 생성된 예측 모델을 기반으로 수행되는 악성 행위를 실시간으로 탐지하고 각 행위별 위험도 정보에 따라 차단이 가능하다.