본지 보도 후 점검 거쳐 재개방했으나 또 개인정보 유출

사진=AI허브 웹사이트

[뉴스로드] AI허브에서 개인정보가 재차 유출된 것으로 확인됐다. AI허브는 과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 운영하는 AI 학습용 데이터 플랫폼이다.

정부는 2017년부터 구축한 한국어 대화·음성 등 AI 학습용 데이터를 AI허브에 망라하고 있다. 공공사업으로 ‘데이터댐’을 쌓고 민간에 무료로 개방해 AI산업을 활성화시키겠다는 계획이다.

그런데 지난 10일 <한국경제TV>에 따르면 최근 AI허브 내 ‘한국어 대화’ 데이터 상에서 국민들의 이름·주소·차량번호 등 개인정보가 유출돼 파장이 일고 있다.

한국어 대화 데이터는 한국과학기술정보연구원(KISTI)이 2019년 1월 구축했다. 현재는 NIA가 관리 중이다. 여기에는 관공서·식당·학원·숙박업소 등 공공장소에서의 공무원-민원인 및 점원-고객 간 실제 대화 텍스트 약 1만 건이 담겨 있다.

개인정보 유출은 해당 대화에서 언급된 개인정보가 제대로 가명처리되지 않은 데서 비롯됐다. 예를 들어 차량번호 ‘000가 0000’과 같은 구체적인 정보는 ‘#@차량번호#’처럼 대중이 알아보지 못하도록 수정해야 하지만, 이 같은 비식별화가 전혀 이뤄지지 않은 것이다.

AI허브에서 개인정보가 유출된 것은 이번이 두 번째다. 한국어 대화 데이터는 2019년 5월부터 지난 2월까지 총 ‘21개월’ 간 가명처리 없이 개방된 바 있다. 당시에는 이름·주소·차량번호뿐 아니라 생년월일·전화번호 등도 포함돼 있었다.

정부는 첫 유출 사건을 다룬 본지 보도(2월 24일자 [단독] 데이터댐 'AI허브'서 21개월간 개인정보 유출) 이후, 한국어 대화 데이터를 점검하고 최근 재개방했다. 그럼에도 일부 개인정보를 다시 유출하면서 데이터 관리 체계의 허술함을 또다시 드러냈다.

뉴스로드가 입수한 AI허브 한국어 대화 데이터 일부. 국민들의 이름·전화번호 등 개인정보가 드러나 있다. / 표=AI허브
뉴스로드가 입수한 AI허브 한국어 대화 데이터 일부. 국민들의 이름·전화번호 등 개인정보가 드러나 있다.

AI허브에서 처음으로 유출됐던 개인정보는 명의도용이나 보이스피싱과 같은 범죄에 악용될 가능성도 있다. 한국어 대화 데이터 속 이름-전화번호나 이름-주소 등 정보를 결합해 주체가 누군지 알아볼 수 있기 때문이다.

2개 이상의 정보를 통해 개인을 특정할 수 있는 정보를 유출한 행위는 개인정보보호법 위반 소지도 있다. 주체의 동의를 구하지 않고 개인정보를 수집했다면 위법성이 더해진다.

실제로 개인정보보호위원회는 지난달 28일 AI챗봇 이루다 개발사 스캐터랩에 과징금과 과태료 총 1억330만 원을 부과했다. 개인정보를 당초 수집 목적 외에 활용하면서 당사자에게 동의를 구하지 않았고, 개발자 커뮤니티인 깃허브에 무단으로 개방한 혐의를 적용했다.

AI허브 개인정보 유출 사건은 정부판 ‘이루다 사건’으로 볼 수 있다. 공공 AI 학습용 데이터는 이루다 사건과 달리 전국민이 신청만 하면 접근할 수 있는 자료인 만큼, 개인정보 보호 책임이 더욱 강조된다. 이에 이번 사건에 대한 개인정보보호위원회의 진상규명이 시급해 보인다.

저작권자 © 뉴스로드 무단전재 및 재배포 금지