[단독] 데이터댐 ‘AI허브’서 21개월 간 개인정보 유출
[단독] 데이터댐 ‘AI허브’서 21개월 간 개인정보 유출
  • 김윤진 기자
  • 승인 2021.02.24 16:38
  • 댓글 0
이 기사를 공유합니다

[뉴스로드] AI허브에서 개인정보가 유출된 것으로 <뉴스로드> 취재 결과 확인됐다. AI허브는 과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 운영하는 AI데이터 플랫폼이다.

AI허브는 정부가 추진하는 디지털뉴딜 핵심인 ‘데이터댐’ 구축사업 등에서 확보한 한국어 대화·한국어 음성·감성대화 등 각종 AI 학습용 데이터를 망라하고 있다. 정부는 2017년부터 AI 학습용 데이터 구축사업을 진행해 오고 있다.

◇한국어 대화 데이터, KISTI 구축·NIA 관리

AI허브에서는 2019년부터 ‘한국어 대화’ 데이터를 개인·기업들에 개방했다. 이 데이터에는 크라우드 소싱이나 미스터리 쇼퍼의 현장 음성 녹취 등을 통해 수집한 대화 내용이 일부 포함돼 있다.

개방 중인 한국어 대화 데이터는 소상공인·공공민원 분야에 특화됐다. 여기에는 공공기관·식당·학원·숙박업소 등에서 공무원-민원인이나 점원-고객 간 실제 대화 내용이나 가상의 상황이 담겨 있다.

개인·기업들은 이 데이터를 내려 받아 ‘AI 챗봇 서비스’ 고도화에 활용할 수 있다. AI 챗봇에 1만 건이 넘는 방대한 한국어 대화 데이터를 학습시켜 상담 업무에 투입하는 것이다.

한국어 대화 데이터 예시. / 표=뉴스로드

한국어 대화 데이터 구축 담당은 국책연구기관 한국과학기술정보연구원(KISTI)이다. KISTI는 2019년 1월 8억 원 규모의 ‘AI 서비스를 위한 한국어 대화 데이터 구축’ 용역을 발주했고, A사를 중심으로 한 컨소시엄이 수행기관으로 선정됐다.

◇한국어 대화 데이터, ‘4중 보안체계’ 뚫려

<뉴스로드>는 AI허브 한국어 대화 데이터를 입수해 전수조사했다. 그 결과 일부 국민들의 이름·생년월일·주소·전화번호 등 개인정보가 비식별화된 채로 노출된 것을 확인했다. 과학기술정보통신부에 따르면, 유출된 개인정보들의 주체는 해당 AI 학습용 데이터 구축 사업과 관련이 없는 국민이었다. 크라우드 워커·미스터리 쇼퍼들이 이름과 전화번호 등을 임의로 만들어 냈는데, 실존하는 개인정보였다는 설명이다. 즉, 이들은 당사자 동의 없이 개인정보를 무단으로 도용한 셈이 됐다.

뉴스로드가 입수한 AI허브 한국어 대화 데이터 일부. 국민들의 이름·전화번호 등 개인정보가 드러나 있다. / 표=AI허브

AI 학습용 데이터를 구축할 때는 개인정보 비식별화가 필수다. 수행기관에 제공하는 대화 내용이 여러 AI챗봇 서비스 고도화에 활용될 수 있기 때문이다.

이에 크라우드 워커·미스터리 쇼퍼들은 스스로 개인정보 비식별화 작업을 해야 한다. 이 작업은 반드시 수행기관이나 KISTI·NIA가 마련한 매뉴얼에 따라야 한다.

예를 들어 대화에서 전화번호를 언급했다면 ‘#@전번#’처럼 수행기관이 정하는 비식별화 문구나, ‘1234-5678’ ‘0000-0000’과 같이 의미 없는 숫자를 나열해 대체해야 한다. 주소의 경우 시·군·구 단위 다음은 지워야 한다.

이렇게 1차 비식별화가 이뤄진 뒤에는, 2차로 데이터를 넘겨 받은 수행기관, 3차로 KISTI, 최종적으로 NIA가 개인정보 비식별화 여부를 검수한다. 개인정보 보호를 위해 총 4중 보안체계가 적용되는 셈이다.

문제는 이 모든 보안체계가 무색해졌다는 것이다. <뉴스로드>가 한국어 대화 데이터를 살펴보니, 크라우드 워커·미스터리 쇼퍼들이 실존하는 개인정보를 비식별화하지 않은 채로 수행기관에 전달한 것을 확인할 수 있었다.

NIA는 한국어 대화 데이터를 2019년 5월께부터 개방했다. NIA는 본지 취재 이후인 지난 23일 오후 5시께부터 해당 데이터에 대한 이용자들의 접근을 차단했다. 즉, 차단 전까지 AI허브 이용자가 국민들의 개인정보를 열람할 수 있었던 기간은 무려 약 ‘21개월’이었다.

NIA는 지난 23일 오후 5시께부터 한국어 대화 데이터에 대한 이용자들의 접근을 차단했다. / 사진=AI허브 웹사이트 캡처

NIA는 개인·기업들로부터 한국어 대화 데이터 활용신청이 얼마나 접수됐는지 밝히지 않았다. 이미 AI 챗봇 개발에 활용됐다면, 유출 경로는 더 늘어난다. 개인정보는 각종 범죄에 악용될 수 있어 사안이 심각하다.

KISTI 관계자는 ”한국어 대화 데이터는 대부분 소상공인이나 공공 민원을 토대로 구축했는데, 일부는 크라우드 워커·미스터리 쇼퍼를 통해 수집하다 보니 민감한 부분이 들어 있어 다시 전수조사했다”며 “앞으로 개인정보가 유출되지 않도록 NIA와 협의해 후속조치하겠다”고 밝혔다.

NIA 관계자는 “상황을 파악한 뒤 전수조사를 검토할 예정이고, KISTI가 정보 주체에게 개인정보 유출 사실을 통지하도록 상기시키겠다”고 말했다.

과학기술정보통신부도 개인정보 보호 체계를 강화하겠다는 방침이다. 과기정통부 관계자는 ”해당 데이터를 비롯, 모든 AI 학습용 데이터에서 이번과 같은 일이 발생하지 않도록 점검하겠다”고 입장을 표했다.

현재 AI허브에 등록된 KISTI 외 다른 기관이 구축한 데이터에서도 개인정보가 노출되고 있을 가능성이 있다. AI허브를 관리하는 NIA가 최종 검수 역할을 제대로 못하고 있기 때문이다.

AI 학습용 데이터는 전국민이 신청만 하면 접근할 수 있는 자료다. 과학기술정보통신부·NIA·KISTI 등 AI 학습용 데이터를 관리하거나 구축하는 공공기관은 재발 방지를 위한 보안체계 점검이 필요하다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.