스파이스웨어, GPT-3 활용해 ‘개인정보 노출 탐지 엔진’  개발   
상태바
스파이스웨어, GPT-3 활용해 ‘개인정보 노출 탐지 엔진’  개발   
  • 곽중희 기자
  • 승인 2023.03.07 10:36
  • 댓글 0
이 기사를 공유합니다

스파이스웨어가 챗GPT에 사용되는 인공지능(AI) 모델 GPT-3를 활용해 개인정보 노출 탐지 엔진을 개발했다. 이 엔진은 웹에 유·노출된 개인정보를 찾아낸다.  

웹에 게시된 개인정보가 노출돼 있는 경우 정보통신서비스 제공자는 해당 개인정보를 즉시 삭제하거나 접근을 제한하고 보호 조치를 취해야 하는 개인정보의 안전성 확보 조치 법규로 인해 보안 담당자는 지속적으로 확인해야 하는 업무이다. 이벤트 당첨자 명단을 공지 게시판에 실수로 올리거나, 학교 게시판에는 수험생 정보가 실수로 첨부되어 노출되는 등 개인정보 노출 사고가 끊이질 않고 있다.

스파이스웨어의 ‘개인정보 노출 탐지 엔진’은 로그인 정보 없이 열람 가능한 공간에 게시되거나 첨부된 데이터 내 개인정보를 사전에 찾아내서 노출된 개인정보가 유출로 이어지는 것을 사전  예방하고, 클라우드에서 운영되는 탐지 엔진을 통해 지속 반복 감시로 인력적인 한계를 극복하고 보안 업무를 자동화 하는데 도움을 주는 기술이다. 

특히 개인정보 노출 탐지 엔진에 스파이스웨어가 개발한 개인정보 비식별화 솔루션에서 사용되는 형태 보존 익명화 기술과 GPT-3 기술을 접목해 탐지된 노출 개인정보를 무단 수집하지 않고, 유형으로만 식별해 안전하게 개인정보 탐지 결과를 기록하고, 노출된 개인정보를 정확하게 탐지 할 수 있도록 오탐율을 줄였다.

GPT-3는 오픈AI에서 개발한 대규모 언어 모델로, 전세계적으로 인기 있는 챗GPT에서 사용되는 모델이다. 175억 개의 파라미터로 이루어져 있다. 자연어 처리 분야에서 다양한 작업을 수행할 수 있으며, 대화 생성, 기계 번역, 요약, 질의 응답 등에 사용할 수 있다. 

하지만, GPT-3를 이용해 개인정보 관련 생성을 요청하거나, 한글 개인정보 식별은 만족할 만한 결과를 기대 할 수 없어 탐지 엔진의 개발에는 사용할 수 없다. 대안으로 스파이스웨어는 지난해 개발에 성공한 ‘개인정보 의미 문맥 식별 인공지능’의 오탐율을 줄이는데 GPT-3의 생성 기능을 접목하는 방법을 택했다. 

미리 준비된 학습용 재현 개인정보를 이용해 GPT-3로 라벨링 작업을 생성시켰다. 사람이 직접 하는 것보다 GPT-3에게 정해진 라벨링 생성 패턴을 알려주고, 일관적인 라벨링 결과물을 빠르게 생성 했다. 이를 개인정보 의미 문맥 인공지능에 학습시키고 선순환 학습 모델로 인공지능 학습을 자동화하고 이전보다 오탐율을 크게 줄일수 있게 되었다. GPT-3의 생성 기능을 이용해서 새로 개발되는 인공지능 모델의 능력을 향상 시킬 수 있는 학습 아이디어를 현실화 한 것이다.

김근진 스파이스웨어 대표는 “휴대 전화 번호만 해도 010이나 공일공, 영1영 등 변형 개인정보가 많아 개인정보 노출 탐지를 한다는 것은 너무나 어려운 일이다. 하지만, 당사가 보유한 개인정보 의미·문맥 기반 개인정보 식별 인공지능은 GPT-3을 이용한 추가 학습으로 변형 개인정보까지 찾아 낼 수 있어 개인정보 유통 차단에 큰 도움이 될 것으로 기대한다. 이번에 개발된 엔진을 고도화해 기관, 기업, 개인이 모두 노출된 개인정보를 빠르게 찾아 유출 방지 할 수 있는 개인정보 노출 탐지 서비스를 선보일 것이다”라고 말했다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.