[이슈분석] 챗GPT, 개인정보 침해 우려 확산

개인정보위-국회, 챗GPT 정보 침해 여부 검토

2023-03-06 곽중희 기자

출시 두 달 만에 챗GPT의 이용자가 1억 명을 돌파하면서 서비스를 개발한 오픈AI의 기업 가치만 38조 원에 달한다는 평가가 나왔다. 하지만 챗GPT의 고공행진 속에서도 부작용에 대한 우려는 계속 나오고 있다.

챗GPT에서 우려되는 큰 문제 중 하나가 바로 개인정보 침해다. 챗GPT는 수집한 수많은 데이터를 바탕으로 서비스를 제공한다. 물론 챗GPT가 직접 개인정보를 수집하지는 않지만, 챗GPT를 학습시키기 위해 수집하는 방대한 데이터 중에 개인정보가 포함될 수 있다는 것이 문제다.

전문가들은 챗GPT가 학습한 정보에는 출판물, 보도 기사 등 공신력을 가진 정보 외에도 사실 여부가 확인되지 않은 SNS와 블로그의 게시글, 댓글 등 개인정보가 포함된 내용이 다수 포함돼 있다고 지적한다.

실제로 지난 2021년에는 스캐터랩이 개발한 AI 챗봇 이루다에서 사용자들의 카카오톡 데이터 1700건이 외부에 유출되는 사고가 발생하기도 했다. 물론 2022년 이루다는 개인정보 보호 조치를 정비한 후 다시 서비스를 재개하긴 했지만, 이루다 외에도 여전히 새로운 AI 서비스가 우후죽순 나오고 있어 개인정보 유출에 대한 우려를 지워버릴 수 없는 상황이다.

이에 국내외 정부 기관과 학계 등에서는 챗GPT 등 AI의 개인정보 침해와 관련된 규제안을 마련해야 한다는 목소리가 계속해서 나오고 있다.

해외 기업, 개인정보 침해 소지로 챗GPT 금지령 내려

기자가 챗GPT에게 챗GPT의 데이터 학습 과정에서 ’개인정보 침해’가 발생할 수 있냐고 질문했다. 그러자 챗GPT는 “챗GPT는 개인으로부터 직접 데이터를 수집하지 않지만, 학습에 사용되는 일부 자료에는 제3자 기관이나 개인이 연구 목적으로 수집한 문자메시지, SNS 게시물, 이메일 등 개인정보가 포함될 수도 있는 것이 사실이다. 데이터 학습 과정에서 개인정보를 사용할 경우 문제가 발생할 수 있다. 이에 개인정보를 보호하기 위해 해결해야 윤리적 문제가 제기된다”라고 말헀다. 챗GPT도 자신의 학습 과정에서 개인정보 침해가 발생할 수 있다는 사실을 인정한 것이다.

일부 해외 기업들은 실제로 챗GPT 사용이 개인정보나 기업의 고객 정보를 침해·유출할 수도 있다는 우려로 사용 금지령을 내렸다.

미국의 은행인 JP모건체이스는 2월 22일 사내 IT 기기에서 챗GPT 사용을 금지한다고 발표했다. 특별한 문제가 발생한 것은 아니지만 정보 유출 등 혹시 모를 사고를 예방하기 위한 차원에서라고 JP모건체이스는 밝혔다.

미국의 이동통신사 버라이즌도 2월 사내 챗GPT 사용을 금지시켰다. 고객의 개인정보가 유출될 수 있다는 우려 때문이다. 이외에도 골드만삭스와 씨티그룹도 서드파티 소프트웨어 자동 제한 규정에 따라 직원들의 챗GPT 사용을 제한했다.

금융, IT, 통신사 등 기업들은 신상·재무 정보 등 많은 고객의 민감 정보를 다루고 있어 만약 정보가 유출될 경우 큰 문제가 발생할 수 있다. 전문가들은 챗GPT의 개인정보 침해 우려가 커질수록 사용을 꺼리는 기업과 기관들은 더 많아질 수 밖에 없어, 챗GPT와 관련한 개인정보 보호 논의가 빠르게 이뤄져야 한다고 강조한다.

AI 챗봇 기업, 개인정보 보호 기술로 피해 최소화

한편, 챗GPT와 같이 AI 챗봇을 운영하는 기업들은 개인정보 보호 기술을 통해 AI로 인한 개인정보 침해 문제를 해결할 수 있다고 말한다.

2021년 AI 챗봇 서비스 이루다의 차별·혐오 발언, 개인정보 유출 사태로 곤혹을 치른 스캐터랩은 새롭게 출시한 ‘이루다 2.0’에 가명 처리, 개인정보 필터링 기술을 적용했다. 스캐터랩에 따르면, 이루다 2.0은 새로 생성한 문장만을 활용해 얘기하며 대화 문장을 답변에 그대로 사용하지 않는다.

이루다 공식 홈페이지에 공지돼 있는 개인정보처리방침에 따르면, 이루다에서 이용자 간 주고받은 대화는 엄격한 비식별조치(가명처리, 익명처리 등)를 거친 경우에 한해 이용되며, 이용 과정의 처음부터 마지막까지 개인정보 보호법의 기준에 따른 고도의 기술적, 관리적 보호 조치를 적용 받는다.

AI 챗봇 스타트업 튜닙은 자체적으로 개인정보를 탐지하는 ‘AI 세인트 패트릭’이라는 모델을 개발, 모든 서비스에 적용하고 있다. AI 세인트 패트릭은 개인정보 탐지 모듈을 기반으로 사용자의 이름과 주소, 주민등록번호 등 14개의 개인정보 항목을 감지한다. 기존의 규칙 기반의 탐지 모델 뿐 아니라 문장의 문맥을 고려해 개인정보를 탐지하는 기술도 적용됐다.

박규병 튜닙 대표는 “챗GPT도 서비스 과정에서 비식별화 등 자체적으로 개인정보 보호 조치를 하겠지만, 완벽하다고 볼 수는 없다. 특히 수집한 데이터 중에서 오픈소스나 웹에서 가져온 데이터에는 개인정보가 포함돼 있을 가능성이 있다. 또한 데이터 수집을 할 때 오픈AI가 개인정보 보호 조치를 했는지는 아무도 알 수 없다. AI의 개인정보 문제를 줄이기 위해 할 수 있는 건 이중, 삼중으로 관련 기술을 구현해 보호 조치를 계속 강화하는 것이다”라고 설명했다.

개인정보위-국회, 챗GPT 관련 대책 검토 돌입

국내에서는 챗GPT의 개인정보 침해 문제와 관련된 본격적인 논의가 시작됐다.

지난 2월 21일 더불어민주당 김영배 의원은 챗GPT 등 AI의 알고리즘 결함으로 개인정보가 유출될 수 있다며, 개인정보보호위원회(개인정보위)가 AI 기업들의 알고리즘을 제출받아 개인정보 침해 여부와 시정 사항을 검토할 수 있게 하는 개인정보 보호법 개정안을 대표 발의했다.

김 의원은 AI 알고리즘을 통해 개인정보가 수집·활용되는 경우는 앞으로 더욱 늘어날 수 밖에 없다며 이에 AI 기업에서 개인정보 유출 사고가 발생할 것을 대비해 대책을 마련해야 한다고 강조했다. 이 법안은 챗GPT에게 직접 AI의 개인정보 문제에 대해 물어 대답한 해결책을 바탕으로 만들어져 ‘AI 셀프법’이라는 이름이 붙여졌다.

관련 논의가 심화되자, 개인정보위는 최근 챗GPT 데이터의 개인정보 침해 여부에 대한 검토를 시작하겠다고 밝혔다. 이르면 상반기까지 AI 관련 개인정보 대책을 수립하겠다는 계획이다.

개인정보위는 챗GPT 등 AI 엔진의 학습 과정에서 개인정보 침해 문제가 발생할 수 있는지 검토에 착수했다고 밝혔다. 개인정보위는 크게 2가지 방향으로 AI 부작용에 대한 대책을 강구할 예정이다. ▲개발 과정에서의 개인정보 침해 가능/불가능 여부 ▲AI의 부작용을 어떻게 컨트롤할지 등이다.

또한 AI에 대한 규제안에 있어서는 ‘원칙 중심 규율’ 체계를 제시했다. 개인정보 침해 행위가 가능한지 일일이 규정하기 보다는 폭넓은 원칙을 세워 각 사례마다 개인정보위가 개인정보 보호 위반 여부를 판단하겠다는 것이다.

개인정보위 관계자는 “챗GPT에 대한 관심이 높아지면서 AI의 개인정보 침해 우려를 조사하기 위해 TF팀이 꾸려졌다. 이제 시작 단계이고, 구체적인 규제 논의가 이뤄지지 않았기 때문에 지켜봐야 한다”라고 말했다.

한편, 기자가 챗GPT에게 ‘국내에서 AI의 개인정보 침해 문제 해결을 위한 방안’을 질문하자, 챗GPT는 ▲개인정보 보호법 강화 ▲AI 기업의 데이터 투명성 및 책임감 강화 ▲개인정보 보호 기술 개발·적용 ▲AI 관련 교육 및 인식 증진 등의 답변을 내놓았다.

그동안 과학 기술이 발전함에 따라 수집하는 데이터가 많아지면서 개인정보 침해 문제는 계속해서 주목받아 왔지만, 챗GPT와 같은 생성 AI는 엄청난 양의 데이터를 수집·가공한다는 측면에서 개인정보 침해에 대한 우려는 더 커질 것으로 예상된다. 이에 추후 AI 분야에 특화된 개인정보 보호 대책을 마련하는 등 관련 논의가 빠르게 이뤄질 필요가 있어 보인다.