사진=AI허브 누리집

[뉴스로드] AI학습용데이터는 연구 및 학습 용도로 가장 많이 활용되는 것으로 나타났다. 해당 데이터를 제공하는 AI허브는 매년 고성장하며 연구자와 기업들이 자주 찾는 공간으로 자리매김하고 있다.

◇AI학습용데이터, ‘대학교’서 가장 많이 내려받아

한국지능정보사회진흥원은 AI학습용데이터 활용 우수사례집을 지난 11일 공개했다. AI허브 성과 및 활용기업 사례를 소개한 보고서다.

AI허브는 공공사업으로 구축한 AI학습용데이터들을 개방하는 플랫폼이다. AI학습용데이터란 사물인식·안면인식·챗봇·번역 등 AI기술 개발에 활용하는 자료다. 개인이나 기업인 누구나 무료로 활용 가능하고, 상업적 목적도 허용한다.

정부는 지난해까지 AI학습용데이터 구축사업에 약 7300억 원을 투입했다. 올해는 5797억 원, 내년부터 2025년까지는 1조1700억 원을 편성할 계획이다. 누적 2조5000억 원 규모에 달하는 정부 디지털뉴딜의 핵심 사업이다.

정부는 지난해까지 AI학습용데이터 381종을 구축했다. 이 가운데 191종은 현재 AI허브를 통해 개방했다. 나머지는 품질 검증을 거쳐 올해 상반기 내 추가할 예정이다.

AI허브는 대규모 개방을 시작한 지난해 6월 이후 빠르게 성장하고 있다.  신규 가입자 수는 2017~2019년 4439명에 그쳤지만, 2020년 8653명, 지난해 1만5503명으로 3배 이상 늘었다.

방문자 수도 마찬가지다. AI허브에 방문한 네티즌은 2017~2019년 5만3785명에서 2020년 24만569명, 지난해 68만9630명으로 폭증했다. AI허브 내 데이터에 관심을 갖는 네티즌이 그만큼 많아졌다는 의미로 풀이된다.

단순한 관심에 그치지 않고 목적을 가지고 이용하는 이들도 증가했다. AI학습용데이터 다운로드 수는 2017~2019년 1만7077회, 2020년 3만2008회, 지난해 8만1816회로 증가세다.

AI학습용데이터는 연구나 학습 용도로 활용하는 비중이 높았다. 누적 다운로드 수를 기관별로 보면 대학교 4만4306회, 중소기업 3만5925회, 개인 25997회 순이었다. 분야별로는 한국어 5만6085회, 영상·이미지 3만2551회 재난안전·환경 1만9224회 등이었다.

◇학술·경제적 가치 창출은 아직 ‘걸음마’ 단계

포티투마루가 개발한 국립중앙도서관 기계독해 기반 도서 검색 서비스. / 사진=국립중앙도서관 누리집
기계독해 기반 도서 검색 서비스에서는 문장 입력으로도 도서를 찾을 수 있다.  / 사진=국립중앙도서관 누리집

AI학습용데이터로 경제나 연구적 실적을 거둔 사례는 비교적 적었다. AI학습용데이터를 지난해까지 AI 서비스 출시에 활용한 사례는 143건, 관련 매출은 35억8900만 원에 불과했다. 예산 규모 대비 경제적 가치 창출 효과는 미미한 셈이다.

학술연구 실적은 79건이었다. AI학습용데이터로 기술을 개발하고 지식재산권을 등록한 사례는 65건이었다.

단, 정부가 발주한 AI학습용데이터 구축사업은 영세한 기업의 실적 개선에 도움이 됐다. 그간 사업을 수행한 기관 811곳 중 509곳은 중소기업이었다. 다음은 대학·병원 285곳, 중견기업 13곳, 대기업 4곳 순이었다.

AI학습용데이터가 국민들의 편의 증진에 기여하는 사례도 사회 곳곳에서 늘고 있다. AI 스타트업 포티투마루가 AI허브 내 한국어 텍스트를 활용해 개발한 기계독해 기술은 국립중앙도서관 도서 검색 서비스에 적용 중이다.

자율주행소프트웨어 스타트업 라이드플럭스는 차선·횡단보도·신호등·표지판 이미지 등을 자율주행 택시 소프트웨어 고도화에 활용했다. 한국알파시스템이 보행자 사진과 영상을 토대로 개발한 시스템은 어린이 사고 예방 목적으로 가동한다.

한편 정부는 2025년까지 AI허브 내 AI학습용데이터 종류를 1300종까지 늘릴 방침이다.

뉴스로드 김윤진 기자psnalism@gmail.com

저작권자 © 뉴스로드 무단전재 및 재배포 금지