머신러닝 기반 안티 바이러스 기술 동향

2018-05-02     이승윤 기자

안티 바이러스는 PC가 대중화되면서 일반 대중들에게 ‘보안’이 중요하다는 인식을 심어준 가장 기본적이고 대표적인 보안 솔루션이다. 엔드포인트 분야의 대표주자로 자리잡고 있는 안티 바이러스 시장에 최근 새로운 바람이 불고 있다.

기존 안티 바이러스 솔루션 대부분은 시그니처 진단 방식을 이용해 악성코드를 탐지한다. 시그니처 방식이란 안티 바이러스 제조사가 데이터베이스에서 정의한 코드들을 이용해 악성코드에서 찾아내는 방식이다.

악성코드 내부의 특정 코드를 수집한 뒤, 코드 목록을 데이터베이스로 만들어 배포하면, PC에 설치된 안티 바이러스 솔루션은 이를 기반으로 악성코드를 탐지한다.

이러한 이유로 시그니처 진단 방식은 과거 출현했던 악성코드에 대한 탐지와 치료에 뛰어난 반면 신종 악성코드를 대응하는데 한계가 있다. 이러한 한계를 극복하기 위해 발전돼 나온 기술이 휴리스틱 탐지 기술이다.

휴리스틱 탐지는 일반 악성 코드가 가지고 있는 특정 폴더에 파일 쓰기나 특정 레지스트리 부분에 키를 생성하는 명령어를 엔진에서 시그니처화해 파일 검사시 이를 활용한다. 검사 대상 파일이 일반적으로 알려진 악성 코드와 얼마나 높은 유사도를 가지고 있는지 휴리스틱 시그니처와 비교해 신종 악성코드를 탐지하는 기법이다.

휴리스틱 탐지 기법 또한 내부의 특정 코드 또는 휴리스틱 시그니처로 탐지하기 때문에 정상 파일이라도 악성코드와 유사한 코드를 가진 경우 이를 악성으로 판단하는 오탐이 가장 큰 단점으로 작용한다.

안티 바이러스 제조사는 신종 악성코드에 대한 탐지와 대응력을 제고하기 위해 새로운 기법을 꾸준히 개발해왔다. 대표적 기법으로 평판 분석과 클라우드 분석이 있다.

평판 분석은 사용자가 자신의 PC에서 특정 파일에 대한 악성 여부를 판정한 정보를 수집하고, 제조사가 사용자에게 수집한 정보와 자사가 분석한 정보를 통합해 사용자에게 다시 피드백하는 기법이다. 시만텍 노턴의 인사이트 기능이 대표적이며 다양한 사용자의 평판 정보를 종합해 파일의 악성 유무를 판단한다.

클라우드 분석은 PC에서 수집된 파일 정보를 서버로 보내 악성 파일에 대한 시그니처 DB를 구축한 뒤 네트워크를 통해 실시간으로 PC에게 파일에 대한 악성 여부를 전송해 악성코드를 탐지하는 방식이다. PC에 별도 시그니처 DB 없이 네트워크에 연결돼 있으면 제조사 클라우드 시그니처 DB로 악성코드를 바로 진단할 수 있다. McAfee가 이러한 클라우드 분석을 Artemis 기능으로 최초 도입했다.

지능화된 악성코드 위협

해커들은 더욱 첨예화되고 지능화된 공격을 실시하고 있다. 불특정 다수를 대상으로 무차별적 공격을 퍼붓고 있으며, 특정 기업을 대상으로 한 정교하고 계산된 악성코드 공격으로 금적적 이득을 취하고 있다.

글로벌 기업인 파이어아이(FireEye)에 따르면, 우리나라의 지능형 사이버 공격 노출율이 2015년 기준 38%에 달한다고 한다. 이는 전 세계 평균의 두 배이며, 미국 평균 세 배에 육박하는 수치이다. 지난 2017년은 일반인까지 랜섬웨어가 무엇인지 알 수 있을 정도로 이슈가 된 해이다.

카스퍼스키 랩은 매일 32만 3,000개의 악성 파일을, AV-TEST는 매일 39만개 이상의 새로운 악성 프로그램을 발견한다. 악성코드 전체 수는 최근 4년간 약 4배정도 증가했다. [그림 3]을 보면 악성코드가 얼마나 기하급수적으로 증가되고 있는지를 알 수 있다.

신•변종 악성코드의 새로운 대응 방안 중 하나인 AI 성능

매일 다량으로 생겨나고 있는 신•변종 악성코드를 일일이 대응하는 것은 현실적으로 불가능하다. 이러한 문제를 해결하고자 나온 대안이 인공지능(AI)를 이용한 안티 바이러스이다. 최근 새로 나오는 안티 바이러스와 업데이트되는 기존 안티 바이러스 추세를 보면, 머신러닝 기반의 악성코드 탐지 기술이 활발하게 개발되는 것을 확인할 수 있다.

그렇다면 인공지능 기반 안티 바이러스 성능은 어떠할까? 최근 삼성 SDS가 시그니처 기반 안티 바이러스와 인공지능 기반 안티 바이러스의 탐지율 테스트를 진행했다. 악성 실행파일 전체와 랜섬웨어, 변종 악성코드로 구분해 테스트를 진행한 결과 시그니처 기반 안티 바이러스는 10% 이상의 미탐율을 보였다. 변종 악성코드에 대해서는 93% 이상의 미탐율을 기록했다.

인공지능 안티 바이러스는 문서파일 외에는 1% 미만의 미탐율을 기록했다. 기존 시그니처 안티 바이러스와 인공지능 기반 안티바이러스를 결합해 테스트한 경우, 문서파일 외에는 0.5% 미만, 문서파일은 3% 미만이라는 최상의 탐지율을 기록했다.

해외 AI 기반 안티 바이러스 동향

해외 인공지능을 기반으로 한 안티 바이러스 개발이 활발하다.

2012년에 설립된 사일런스(Cylance)는 머신러닝 기반의 차세대 안티 바이러스 ‘CylancePROTECT’를 개발한 회사이다. 수학적 모델링 기반 머신러닝 기술을 적용시킨 CylancePROTECT는 파일이 악성 여부를 판단하기 위해 600만개 이상의 특징을 파일로부터 추출하고 각 벡터를 분석하는 기술을 보유하고 있다. 현재는 약 10페타바이트 상당의 실제 파일로부터 600만개 이상의 벡터 및 특징을 추출, 분석 및 학습하는 과정을 거쳐서 악성파일을 구분해 내는 머신러닝 기술을 적용하고 있다.

CylancePROTECT 차별점은 수학 모델링 기반의 인공지능 추출, 분석 및 학습하는 기술 프로세스이다. 또한 신규 파일 발견시 600만개 이상의 벡터 및 특징을 추출하고 분석해 악성 및 정상 파일을 구분해낼 수 있는 기반을 제공한다는 점이다.

크라우드스트라이크(CrowdStrike)는 2011년에 설립된 회사로 머신러닝 기반의 차세대 안티 바이러스를 개발했다. 크라우드스트라이크 는 파일에서 악성여부를 파악하기 위해 수백만 개의 파일 특성을 실시간으로 분석해 악성여부를 판단한다. 크라우드스트라이크 안티 바이러스는 국제 공인 안티 바이러스 테스트 기관인 SE Labs에서 100% 탐지율을 기록했다. 또한 AV-Comparative에서는 98~99.2% 의 탐지율과 0%의 오탐율을 보여줬다.

크라우드스트라이크 안티 바이러스의 차별점은 설치 패키지 파일 크기가 20MB밖에 되지 않으며, 안티 바이러스 동작 후 사용량이 많은 시기에도 CPU는 1%이하, RAM는 2MB밖에 사용하지 않는다는 점이다.

이렇듯 외국 보안업체들은 안티 바이러스에 머신러닝 기술을 탑재한 제품들을 출시하고 있으며, 이외에도 많은 보안업체들이 머신러닝 기술을 긍정적으로 검토하고 있다.

AI 기반 안티 바이러스가 해결해야 할 숙제

인공지능 안티 바이러스는 기존 안티바이러스가 가진 한계점을 보완해 성장할 것으로 예측된다. 그러나 아직까지 기술적인 한계도 있다. 악성코드 탐지율은 뛰어난 반면, 오탐이 많다는 점이다. 전문가들은 기존 안티 바이러스와 함께 인공지능 안티 바이러스를 병행해 사용해 볼 것을 권하기도 한다.

인공지능 안티 바이러스는 학습에 사용되는 트레이닝 데이터 샘플이 미흡할 경우 나쁜 결과가 나올 수 있다. 인공지능의 품질은 입력하는 정보의 품질이 결정한다. 그렇기에 인공지능 안티 바이러스에서 트레이닝 데이터 샘플은 중요하다.

AI 보안 기술은 사용자 실수에 의한 오류를 줄여주고 물리적으로 제한된 시간을 잘 활용할 수 있도록 지원해줄 것이다. 또한 위협 모니터링 측면에 있어 기업과 기관의 비즈니스 연속성을 보장하기 위한 좋은 도구로 사용될 것이다.

창이 강력해지면 더 강력한 방패로 대응해야 한다. 인공지능 안티 바이러스의 트레이닝 데이터 샘플에 대한 추출과 오탐 이슈는 개발사가 지속적 연구와 개발을 통해 해결해 나가야 할 숙제이다.

김태훈 | 세인트시큐리티 보안기술팀 연구원