사진=AI허브

[뉴스로드] 개인정보보호위원회가 AI허브의 개인정보법 저촉 가능성을 살피고 준법을 지원했다.

AI허브는 과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 운영하는 AI 학습용 데이터 플랫폼이다. 정부는 2017년부터 구축한 한국어 대화·음성 등 AI 학습용 데이터를 AI허브에 망라하고 있다. 자료 수가 방대해 ‘데이터댐’이라는 별칭이 붙는다.

AI허브 내 AI 학습용 데이터는 신청만 하면 누구나 무료로 이용할 수 있다. 정부는 AI비서·챗봇·안면인식 등 관련 산업 활성화에 기여할 것으로 기대하고 있다.

개인정보위는 23일 “과기정통부와 NIA의 AI 학습용 데이터 구축사업이 개인정보 관련 법규를 준수할 수 있도록 지원 중”이라고 밝혔다.

개인정보위는 한국인터넷진흥원(KISA)을 통해 AI허브 내 AI 학습용 데이터 63종에 대해 개인정보 포함 여부 및 재식별 가능성 등을 검토했다. 그 결과 일부 인물 및 차량번호가 식별 가능한 이미지 영상 데이터와 일부 문자 데이터에서 가능성을 발견하고 비식별 조치를 요청했다.

예를 들어 AI 학습용 데이터 안에 국민들의 차량번호가 ‘000가 0000’처럼 구체적으로 드러나 있었고, 이를 ‘#@차량번호#’처럼 대중이 알아볼 수 없게 수정하도록 권한 것이다.

과기정통부와 NIA는 비식별 조치 전문기업과 함께 개인정보가 포함됐을 가능성이 있는 AI 학습용 데이터 1억8000여 건을 점검하고 가명처리를 추가 진행했다. 가명처리된 AI 학습용 데이터는 이달 말까지 순차적으로 개방할 방침이다.

앞서 AI허브에서는 개인정보 주체를 식별 가능한 데이터가 유출된 바 있다. 국민들의 이름·주소·생년월일·전화번호·차량번호 등이 고스란히 기업이나 개인에게 전달된 것이다.

뉴스로드가 입수한 AI허브 한국어 대화 데이터 일부. 국민들의 이름·전화번호 등 개인정보가 드러나 있다.

특히 AI 허브 내 한국어 대화 데이터는 2019년 5월부터 지난 2월까지 총 21개월 간 가명처리 없이 개방된 바 있다. 지난달에도 한 차례 더 유출됐다. 한국어 대화는 관공서·식당·학원·숙박업소 등 공공장소에서의 공무원-민원인 및 점원-고객 간 대화 텍스트 약 1만 건이 담긴 데이터다.

유출된 개인정보는 명의도용이나 보이스피싱과 같은 범죄에 악용될 가능성도 있다. 2개 이상의 정보를 조합해 개인을 특정할 수 있기 때문이다. 피해사례는 아직 보고되지 않지만, 올해 초 이슈였던 AI챗봇 ‘이루다’ 사태가 재현될 여지도 있는 셈이다.

다만 개인정보위와 KISA는 AI허브에서 유출된 개인정보가 실존인물의 것인지는 조사하지 않은 것으로 확인됐다. 개인정보위 관계자는 24일 <뉴스로드>와의 통화에서 “개인정보가 포함됐을 가능성을 보고 가명처리가 필요해보인다는 의견을 제시한 것일뿐, 제재나 경고 차원은 아니었다”고 밝혔다.

또한 과기정통부와 NIA는 유출된 개인정보가 ‘실존인물의 정보로 오해할 수 있는 가상정보’라고 부실 해명한 것으로 드러났다. 개인정보위는 해당 개인정보를 주체의 동의 하에 수집했는지, 유출로 인해 주체에게 피해가 발생했는지는 파악하지 않은 상황이다.

저작권자 © 뉴스로드 무단전재 및 재배포 금지