공공 AI학습용데이터 ‘310종’ 추가, 공모신청시 유의점은?

[뉴스로드] 정부의 올해 AI학습용데이터 구축사업 윤곽이 그려졌다. AI학습용데이터란 사물인식·안면인식·챗봇·번역 등 AI 기반 서비스에 활용하는 자원을 일컫는다.

한국지능정보사회진흥원은 2022년 AI학습용데이터 1차 구축사업 일정을 담은 공고를 10일 사전공개했다. 공모신청서는 오는 21일부터 접수한다. 2차, 3차 사업은 각각 2월, 3월 중 실시한다.

해당 공고에 따르면 정부는 올해 5381억6000만 원을 편성해 데이터 310종을 추가한다. 사업 일정별로는 1차 46개 분야 120종, 2차 99개 분야 135종, 3차 50개 분야 55종이다.

지원 규모로 보면 전년비 83% 증가한 수준이다. 지난해에는 150종 내외의 데이터를 구축하는 데 2925억 원을 배정했다.

1차 사업에서 데이터를 구축하는 영역은 비전·음성·자연어·컴퓨터그래픽스·헬스케어·자율주행 등 총 12개다. 지난해와 크게 다르지 않지만 세부 분야와 예산에는 차이가 컸다.

과제들 중 가장 많은 금액을 지원하는 영역은 ‘헬스케어’다. 만성질환·피부·치과 내시경 이미지 등 13개 분야 데이터 구축에 505억3600만 원을 지원한다. 지난해의 경우 사업 예산에서 비전·음성·자연어 비중이 높았다.

사업 수행을 희망하는 기업들이 공모신청 시 특별히 주의해야 할 부분은 ‘개인정보 보호’다. 올해는 평가 기준에 처음으로 AI학습용데이터 개인정보 보호 조치 방안의 적정성이 포함됐다. 개인정보 주체 권리를 확보했는지, 비식별화 기술이 우수한지 등을 들여다본다.

또 사업 수행기업들은 개인정보보호법 위반사항 발생 시 사업참여 제한 등 불이익을 받을 수 있다. 이 같은 개인정보 보호 관련 사항들은 지난해 일부 자연어 데이터에서 국민 개인정보가 비식별화되지 않은 채 발견돼 보완한 것이다.

‘크라우드 소싱’ 일자리 창출 규모가 큰 기업들도 우대한다. 크라우드 소싱은 대중이 참여하는 일자리로, AI학습용데이터 구축사업에서는 데이터를 분류하는 단순노동인 ‘데이터라벨링’ 인력들을 주로 가리킨다. 근무 난이도가 낮고 재택 등 근무 장소가 자유로워 청년·경력단절여성·장애인 등 고용취약계층의 참여 비중이 높다.

크라우드 소싱 인력 처우도 중요하다. 정규직·계약직 여부는 무관하지만 4대 사회보험 가입이 필수다. 또 월 60시간 이상 참여자에 대해서만 수행기관의 실적으로 인정한다. 일각에서 ‘단기 아르바이트’ 일자리라는 지적이 나오는 데 따라 고용 안정성을 높이기 위한 방편으로 풀이된다.

구축사업이 계획대로 완료되면 데이터 수는 현재까지 개방한 191종에 더해 500여 종으로 늘어난다. 정부는 2025년까지 구축사업에 누적 2조5000억 원을 투입해 1300종을 확보할 방침이다.

뉴스로드 김윤진 기자psnalism@gmail.com

김윤진 기자 psnalism@gmail.com

다른기사 보기

상단영역

본문영역

공공 AI학습용데이터 ‘310종’ 추가, 공모신청시 유의점은?

개의 댓글

댓글 정렬

내 댓글 모음