NIA, AI허브, 이용약관 개정, 유의할 점은?
NIA, AI허브, 이용약관 개정, 유의할 점은?
  • 김윤진 기자
  • 승인 2021.11.10 17:07
  • 댓글 0
이 기사를 공유합니다

AI허브 개정 이용약관. / 사진=AI허브

[뉴스로드] AI허브 이용약관이 개정됐다. 앞으로 회원들은 AI학습용데이터에서 개인정보를 발견하면 의무적으로 AI허브에 신고해야 한다.

◇NIA “데이터 내 개인정보 발견 시 신고·파기해야”

한국지능정보사회진흥원(NIA)은 AI허브의 새로운 이용약관을 9일 공지했다. AI허브는 사물인식·안면인식·챗봇·번역 등 AI 기반 서비스 개발에 활용 가능한 AI학습용데이터를 제공하는 플랫폼이다.

약관에는 개인정보 보호와 관련한 내용이 추가로 담겼다. 이번에 개정된 부분은 제13조 ‘사용자의 행동 규범 및 서비스의 이용 제한’ 항목이다.

앞으로 회원들은 내려받은 데이터에서 개인정보를 발견할 경우, 즉시 AI허브 운영자에게 신고하고 데이터셋을 파기해야 한다. 또한 개인정보 주체를 특정하기 위한 행위를 해서도 안된다.

NIA가 AI허브 이용약관을 개정한 이유는 무엇일까. 앞서 일부 AI학습용데이터에는 국민들의 개인정보가 비식별화되지 않은 채로 포함돼, 회원들에게 유출된 사례가 있었다. 향후 유사한 사건이 불거져도 개인정보 악용을 방지할 수 있는 항목을 더한 것으로 풀이된다.

정부는 2017년부터 용역을 통해 구축한 AI학습용데이터들을 AI허브에서 개방하고 있다. 올해 개인정보 유출 문제가 확인된 데이터는 자연어 분야의 ‘소상공인 고객 주문 질의-응답 텍스트’와 ‘한국어 대화’ 등 2종이다.

자연어 분야 AI학습용데이터는 주로 챗봇 개발에 활용한다. 소상공인 질의응답 텍스트와 한국어 대화 데이터에는 식당이나 온라인쇼핑몰 등에서의 직원-고객간 대화 문장 수만 건이 담겨 있다. 대화 시 개인정보를 주고받는 일이 흔하다 보니 발화자의 이름·생년월일·주소·전화번호·차량번호 등이 섞여 있던 것이다.

이런 데이터를 학습한 챗봇은 또다른 개인정보 유출 사건을 초래할 여지가 있다. 고객이 “쇼핑몰 전화번호를 알려달라”고 물을 때, 챗봇이 다른 번호를 알려줄 가능성도 배제할 수 없기 때문이다.

현재 NIA는 해당 데이터 구축업체들에게 개인정보 비식별화를 요청한 상태다. 이는 이름 ‘홍길동’이나 전화번호 ‘010-0000-0000’ 등을 ‘#이름#’ ‘#전화번호#’처럼 수정해 챗봇이 개인정보를 학습하지 못하게 하는 작업이다.

◇개발자, ‘자연어 데이터’ 안전하게 활용하려면?

뉴스로드가 입수한 AI허브 소상공인 질의응답 데이터(위)과 한국어 대화 데이터(아래). 국민들의 이름·전화번호 등 개인정보가 드러나 있다. 현재는 구축기업들이 비식별화 조치를 진행 중이다.
뉴스로드가 입수한 AI허브 소상공인 질의응답 텍스트(위)와 한국어 대화 데이터(아래). 국민들의 이름·전화번호 등 개인정보가 드러나 있다. 현재는 구축기업들이 비식별화 조치를 진행 중이다.

챗봇 빌더에 자연어 분야 AI학습용데이터를 업로드해 학습시키면, 개발자가 정규식(챗봇 구축 시 쓰는 문법)으로 대화 시나리오를 구성하는 시간을 획기적으로 단축할 수 있다. 챗봇에 있어 데이터 학습은 아이가 자라면서 언어를 깨치는 것과 같다.

챗봇 수요가 높은 업종들로는 온라인쇼핑몰과 은행 등이 있다. 여기에는 개발사가 자체 구축하거나 AI허브에서 다운로드한 AI학습용데이터가 활용되고 있다.

자연어 분야 AI학습용데이터는 용도가 다양하고 활용하기도 쉽다. 다만 개인정보 유출 문제에 취약하다. 데이터 구축인력과 발화자마다 문체와 맞춤법·띄어쓰기 등 문법 수준이 제각각인 탓에, 기술적으로 개인정보를 걸러내는 데 한계가 있기 때문이다. 전문적인 솔루션 개발업체들도 개인정보를 100% 비식별화하는 성능은 보장하지 않는다.

현재로서 가장 이상적인 유출 및 악용 예방책은 구축인력의 책임감과 전문성을 높여 데이터 내 개인정보 포함 가능성을 원천 차단하는 것이다. 하지만 정부와 기업들은 전문성이 떨어지지만 인건비가 저렴한 아르바이트 인력으로 데이터를 구축하는 기조를 고수하고 있어 기대하기 힘들다.

이에 챗봇 개발자 스스로가 데이터 내 개인정보 포함 가능성을 염두에 두는 것이 최선이다. 정부가 구축한 AI학습용데이터를 무조건 신뢰하거나 솔루션을 통한 비식별화에만 의존하지 않고, 내용을 직접 눈으로 점검하는 자세가 필요하다.

 

뉴스로드 김윤진 기자psnalism@gmail.com


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.