[뉴스로드] 민간기관이 AI학습용데이터를 무료로 개방해 화제를 모은다. 이로 인해 IT스타트업들은 데이터 구축 비용을 대폭 절감할 수 있게 됐다. AI학습용데이터란 사물인식·안면인식·챗봇·번역 등 AI 기반 서비스에 활용하는 자원을 일컫는다.

커넥트재단은 29일 AI학습용데이터 2종을 개방했다. 커넥트재단은 네이버의 소프트웨어 교육사업을 시행하는 비영리 기관이다.

제공하는 AI학습용데이터는’재활용쓰레기’와 ‘수식 인식기’ 이미지다. 커넥트재단이 학습 커뮤니티 부스트캠프를 운영하며 축적한 데이터다.

해당 데이터들은 커넥트재단 사이트에서 신청서를 작성한 뒤 바로 활용할 수 있다. 저작물 라이선스는 ‘CC BY 4.0’이 적용된다. 출처 표시 의무를 지고, 2차 창작과 상업적 이용이 가능하다는 의미다.

재활용쓰레기 데이터는 사진 2만1818개 규모다. 사진 속에는 10만7935개의 쓰레기가 포함돼 있다. 일반쓰레기·플라스틱·유리·종이·옷 등 종류별로 구분돼 있어 바로 활용 가능하다.

재활용쓰레기 데이터 예시. / 사진=커넥트재단

기자가 해당 데이터를 살펴보니, 국내 이용자를 위한 서비스 개발에 적합해 보였다. 한국의 실내외 환경에서 촬영한 사진이다 보니, 해외 쓰레기와 크기나 형태가 다르기 때문이다.

수식 인식기 데이터에는 수학 공식 이미지가 수록됐다. 수식을 초·중·고·대학교 등 학업 수준별로 나눴고, 알파벳·숫자·특수기호도 구분했다.

키보드로 타이핑한 텍스트가 아닌, 손글씨나 인쇄된 수식을 촬영한 점도 특징이다. 메모지의 굴곡이나 실내 조명처럼 인식에 변수가 될 수 있는 요소들도 데이터에 반영해 완성도가 높다. 이 데이터는 수학 문제풀이 서비스 등의 고도화에 도움될 듯했다.

수식 인식기 데이터 예시. / 사진=커넥트재단

커넥트재단은 이날 연구용 교육 데이터 2종도 공개했다. 이용 대상은 대학 교수, 석·박사 과정 대학원생, 연구기관 전문가 등이다. 

해당 연구용 교육 데이터들은 커넥트재단 산하 코딩 교육 플랫폼 ‘엔트리’와 온라인 공개 수업 플랫폼 ‘에드위드’에서 수집했다. 이 데이터는 학술 연구 용도로만 허용된다.

커넥트재단은 향후 대화 시스템·검색 엔진 개발에 필요한 텍스트 AI학습용데이터 등 5종도 추가 개방할 예정이다. 일정은 아직 정해지지 않았다.

한편 커넥트재단은 부스트캠프·엔트리·에드위드 외에 소프트웨어 교육과정 ‘부스트코스’와 교육 사이트 ‘소프트웨어야 놀자’, 유아 코딩교육 서비스 ‘쥬니버스쿨’ 등도 운영하며 소프트웨어 무료 교육을 지원하고 있다.

뉴스로드 김윤진 기자psnalism@gmail.com

저작권자 © 뉴스로드 무단전재 및 재배포 금지