스파이스웨어, 개인정보 의미·문맥 기반 AI 식별 기술 개발
상태바
스파이스웨어, 개인정보 의미·문맥 기반 AI 식별 기술 개발
  • 곽중희 기자
  • 승인 2022.12.22 13:09
  • 댓글 0
이 기사를 공유합니다

스파이스웨어가 다양한 웹서비스(게시판, 채팅 등)에서 AI를 기반으로 개인정보를 식별하는 기술을 개발했다.

스파이스웨어는 이번에 개발한 개인정보 식별 기술을 공공 클라우드 스파이스웨어 원(Spiceware One) 서비스에 적용, 개인정보 무단 업로드 차단 기능을 강화했다.

스파이스웨어 원(Spiceware One)은 개인정보 보호 분야에서는 최초로 클라우드 서비스 보안 인증 ‘CSAP 표준 등급’을 받은 서비스이다.

그동안 다양한 웹서비스의 게시판, 댓글은 개인정보 보호의 사각지대였다. 챌린지에서 우수상을 수상한 ‘다양한 웹서비스(게시판, 채팅 등)에서 AI 기반 개인정보 식별 기술’은 게시판, 댓글에 개인정보 업로드로 인한 개인정보 무단 유출을 차단하고 게시글, 채팅 등에 남겨진 데이터가 빅데이터, 인공지능 학습 데이터 등으로 쓰일 때 개인정보가 학습되는 것을 원천 방지하기 위한 기술이다.

시중에 여러가지 자연어 처리 인공지능 기술들이 개발되고 있지만, 한글 개인정보 식별에 특화한 자연어 처리 인공지능을 상용화 제품에 적용한 경우는 스파이스웨어가 최초이다.

엑셀처럼 형태가 있는 정형 데이터의 경우는 데이터의 헤더 정보를 보면 의미 파악이 가능해 암호화 기술 등으로 일괄 보호가 가능하지만, 일반 글과 개인정보가 섞여 있는 게시판, 댓글, 채팅, 상담 메모 등 사전 정의된 형태가 없는 말뭉치나 문서에서 개인정보를 특정해서 식별·보호하는 일은 어려운 일이다.

기존 개인정보 탐지 기능은 문서나 말뭉치에서 정규식을 기반으로 주민번호, 전화번호, 계좌번호, 카드번호, 이메일처럼 일정한 패턴을 지닌 정보를 찾아 보호하는데 그쳤고, 이름, 질병명, 주소처럼 규칙이 없는 개인정보 식별자나 다른 정보와 결합했을 때 식별이 가능한 개인정보 준식별자는 찾아내지 못했다.

이번에 스파이스웨어가 개발 성공한 기술은 정규식 패턴 기반으로 탐지한 결과물을 보완해 인공지능이 문장 속 의미를 한번 더 인지함으로써 기존 방식으로는 발견이 어려웠던 다양한 개인정보 준식별자와 민감 개인정보를 보다 정밀하게 찾아내고, 문맥 인지를 통해 또 한번 판단해 의미 상 개인정보가 아닌 것들을 추가 제거해 오탐율을 줄이고 정확도를 높인 것이 특징이다.

스파이스웨어 원(Spiceware One) 서비스는 이 기술을 활용해 웹서비스 게시판에 업로드 되는 문서에서 다양한 형태의 개인정보가 포함됐는지 찾아내고 자동으로 업로드를 차단하거나 비식별화를 수행한다.

스파이스웨어는 이번 개발에 성공한 인공지능 개인정보 보호 활용 기술을 고도화해 채팅창 등에서도 실시간으로 사용할 수 있는 인공지능 기반 비정형 데이터 개인정보 보호 식별 API 기술 개발 연구로 이어나갈 계획이다.
 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.