더불어민주당 변재일 의원이 8일 열린 국정감사에서 발언하는 모습. / 사진=국회인터넷의사중계시스템

[뉴스로드] 데이터댐 구축 예산의 수도권 편중 및 데이터 품질 개선이 시급하다는 주장이 나온다.

데이터댐이란 AI학습용데이터를 축적하는 국책사업을 일컫는다. 해당 데이터는 사물인식·안면인식·챗봇·번역 등 다양한 AI 기반 서비스 고도화에 활용된다. 데이터댐 구축 사업은 과학기술정보통신부 산하 한국지능정보사회진흥원(NIA)이 담당한다.

국회 과학기술정보방송통신위원회는 8일 NIA 등을 대상으로 국정감사를 실시했다. 이번 국정감사는 의원들은 국회에, 기관 증인들은 각자 사무실에서 원격으로 질의응답하는 영상 국감으로 진행됐다.

이날 의원들은 AI학습용데이터 구축 수행업체들의 수도권 편중 현상을 지적했다. 더불어민주당 변재일 의원은 “디지털뉴딜 핵심인 데이터댐 구축 사업 예산의 71%가 수도권에 몰려 있다”며 “사업 참여를 희망한 기업은 수도권과 그 외 지역 5대5 비율이지만, 결과적으로는 수도권 중심으로 사업이 진행되고 있다”고 말했다.

국민의힘 홍석준 의원 역시 “AI학습용데이터 사업 수행업체들을 지역별로 보면 수도권이 366곳으로 압도적으로 많고, 나머지 영남·호남 지역 등은 미비하다”며 “데이터라벨링 같은 단순 아르바이트 일자리조차 수도권에만 있으면 그 외 지역에서 허탈감이 클 것”이라고 비판했다.

데이터라벨링은 사물인식이나 챗봇 등 AI 고도화에 필요한 자원을 만드는 업무들을 아우른다. 데이터라벨링 일자리는 대체로 건당 보수를 받는 크라우드소싱(대중 참여) 형태다.

의원들의 질의에 NIA 문용식 원장은 “전문성을 갖춘 기업이 수도권에 많아 편중되는 현상이 생겼다”며 “지역 특화 과제를 발굴하는 등 참여를 늘리기 위해 노력하겠다”고 답했다.

홍 의원은 지난 1일 열린 과학기술정보통신부 대상 국정감사에서 AI학습용데이터의 품질을 문제 삼기도 했다. 당시 그는 “1~2시간에 불과한 교육을 받은 단기 아르바이트에 의해 AI학습용데이터가 구축되고 있어 품질을 신뢰할 수 없다”고 강조했다.

내용 자체는 유용해도 실제 활용이 어려운 파일 형태거나, 수요자가 없는 데이터가 많다는 지적도 나온다. 홍 의원은 “데이터댐의 질보다 양에 치중하다 보니 수요자 중심으로 구축되고 있지 않다”며 “오래된 데이터의 업데이트도 늦고, 오픈포맷이 아닌 PDF, HWP 확장자 파일이 많아 활용도가 낮다”고 설명했다.

데이터산업 컨트롤타워를 세워야 한다는 의견도 있었다. 홍 의원은 “데이터댐 유관부처간 연계 및 데이터 수집부터 활용까지 지휘할 데이터통합지원센터를 서둘러 설치해야 한다”고 촉구했다. 지능정보화기본법상 NIA는 데이터통합지원센터를 설치할 권한을 갖는다. 단 의무는 아닌 탓에 현재는 부서 단위에서 관련 역할을 맡고 있는 상황이다.

정부는 AI학습용데이터 구축 예산으로 올해와 지난해 총 5850억 원을 편성했다. 내년에는 6732억 원을 배정했다. 정부는 2025년까지 누적 2조5000억 원을 투입할 계획이다. 정부가 지난해 9월부터 올해 8월까지 창출한 데이터라벨링 일자리는 4만552개에 달한다.

 

뉴스로드 김윤진 기자psnalism@gmail.com

저작권자 © 뉴스로드 무단전재 및 재배포 금지