메신저 대화 내용을 제공하고 보수를 받는 '자연어 크라우드 워커' 모집공고. / 사진=한국지능정보사회진흥원 

[뉴스로드] 자연어 크라우드 워커가 해마다 늘면서 개인정보 보호의 중요성도 부각되고 있다. 최근 불거진 AI 챗봇 ‘이루다’ 논란도 채팅 내용을 기업에 제공하는 크라우드 워커들의 경각심을 일깨웠다. 크라우드 소싱에 관심이 있는 이들은 개인정보 비식별화 방법에 대해 반드시 숙지해야 한다.

크라우드 소싱은 대중이 참여하는 사업을 의미한다. 여기에 참여하는 이들을 크라우드 워커라고 부른다. 지난해부터 정부가 디지털뉴딜 일환으로 추진한 ‘AI 학습용 데이터 구축 사업’도 크라우드 소싱의 일례다.

자연어는 일상 회화·메신저 채팅 등에서 인간이 쓰는 모든 언어를 일컫는다. IT업계가 인공어 ‘프로그래밍 언어’와 구분하기 위해 만든 개념이다. 자연어 크라우드 워커는 본인의 통화나 메신저 대화 내용을 기업에 제공하고, 그 대가로 보수를 받는 직업이다.

자연어 크라우드 소싱은 지난해 정부가 AI 학습용 데이터 구축 사업을 시행하면서 주목받기 시작했다. 메신저 대화 내용을 사업수행 기업에 제공하면, 1건당 700원을 받을 수 있기 때문이다. 1인당 최대 1만 건(700만 원)까지 제공 가능해, 다른 분야 크라우드 소싱 대비 총 수입이 많은 편이다.

기업들은 수집한 대화 내용을 AI가 텍스트를 통해 감정을 인식하거나, 상황에 맞는 답변을 제시하는 등 지능 고도화에 활용한다.

자연어 크라우드 소싱이 비교적 고소득을 보장하는 까닭은 대화 내용에 ‘가명정보’가 포함돼 있어서다. 가명정보는 제공자를 식별할 수 없도록 처리한 개인정보다. 예를 들어 메신저 대화 내용에서 이름·주민등록번호·주소·직업 등 개인정보를 비식별화해 발화자가 누군지 특정할 수 없도록 하는 것이다.

여기서 크라우드 워커가 유의할 점은 개인정보 가명처리를 ‘직접’해야 한다는 것이다. 최종적으로 사업수행 기업이 대화 내용을 검수하지만, 가명처리 ‘초벌’은 크라우드 워커의 몫이다.

대화 내용을 기업에 제공할 때는 개인정보가 유출될 가능성을 간과해서는 안된다. AI 챗봇 ‘이루다’ 논란도 그 가능성에서 비롯됐다. 개발사 스캐터랩은 회원들의 메신저 대화 내용을 수집, 이루다의 성능을 고도화하는 과정에서 이름·주소·계좌번호 등 개인정보를 유출했다는 의혹을 받고 있다.

그렇다면 대화 내용 제공 시, 비식별화해야 하는 항목으로는 무엇이 있을까.

AI 학습용 대화 데이터 수집 매뉴얼에서 정하는 개인정보 비식별화 항목과 방법. / 사진=한국지능정보사회진흥원

국책사업을 주관하는 한국지능정보사회진흥원(NIA)이 마련한 ‘AI 학습용 대화 데이터 수집 매뉴얼’에서는 이름, 별명, 아이디, 비밀번호, 주소, 방문장소, 주민등록번호, 학번, 사번, 계좌·카드번호 등은 가명처리가 필요하다고 소개한다. 사업수행 기업별, 데이터 수집 목적별로 숨겨야 하는 개인정보가 추가될 수도 있다.

개인정보를 비식별화 하는 방법도 매뉴얼을 참고해야 한다. NIA 주관 사업의 경우 이름 ‘홍길동’은 ‘#@이름#’, 메일주소 ‘~@naver.com’은 ‘#@계정#’ 등 정해진 양식으로 수정해야 한다.

NIA에 따르면, 지난해 AI 학습용 데이터 구축 사업에서는 크라우드 워커 2만여 명이 배출됐다. 올해도 예산으로 지난해와 같은 2925억 원이 편성돼, 2만여 명이 크라우드 소싱에 참여할 전망이다.

더불어 지난해 데이터3법(개인정보보호법·정보통신망법·신용정보법) 개정으로 개인정보 활용처가 광범위해진 만큼, 네티즌들은 개인정보를 스스로 지킬 수 있어야 한다.

저작권자 © 뉴스로드 무단전재 및 재배포 금지