비투엔

2020년 인공지능 학습용 데이터 구축 사업 2차(한국어 방언, 동적 객체 인지, 드론 영상 3개 과제)

수행기간2020.09 ~ 2021.02

추진배경

과학기술정보통신부와 한국지능정보사회진흥원은 2017년부터 매년 ‘인공지능 학습용 데이터 구축사업’을 통해 약 21종 460만건의 인공지능 학습용 데이터를 구축하여 민간에 개방하는 등 가시적 성과를 확보하고 있으나, 이를 활용하는 수요자의 의견을 들어보면 인공지능 학습용 데이터의 품질이 낮다는 지적이 상존하고 있음. 그에 따라 한국지능정보사회진흥원은 인공지능 학습용 데이터 구축 컨소시엄 내 품질관리전담기관을 선정하고 구축 전 과정에서 인공지능 학습용 데이터 품질 관리가 이루어지도록 가이드 하고 있음. 이를 통하여 최종적으로 고품질의 인공지능 학습용 데이터를 확보하는 것을 목표로 함

사업범위

1. 인공지능 데이터 품질관리 실무 책임자 역할 수행

품질관리 계획 수립 및 품질관리 담당자 지정
품질관리 실무 수행 조직 운영 및 활동 수행
품질관리 실무협의회 구성 및 운영

2. 구문적 정확성 검사

원시·원천데이터 – 어노테이션 파일의 매치 여부 점검
어노테이션 파일의 구조적 완전성 검사
어노테이션 파일의 값의 유효성 검사

3. 통계적 다양성 검사

AI 학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스)
AI 학습용 데이터의 분포 분석 (property, value)

수행내용

1. 인공지능 학습용 데이터 품질 관리 체계 구축

수집, 정제, 가공, 라벨링, 검수, 납품 등 인공지능 학습용 데이터 구축 전 과정에 대한 데이터 품질 관리 체계 구축
각 단계별 품질 관리 기준을 체크리스트화 하여 4단계의 품질 관리 수행
어노테이션 파일 설계 기준 및 품질 검증 목표 정의
인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서 작성

2. 구문적 정확성 검사 및 통계적 다양성 검사 수행

인공지능 학습용 데이터 품질 관리 솔루션(SDQ for AI)를 활용한 지속적인 품질 검사 사이클 운영
어노테이션 파일의 파일의 완전성, 구조의 정확성, 값의 유효성 등 구문적 정확성 검사 수행
학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스) 및 분포 분석 (property, value)을 통한 구축 목표 검증

3. 외부 품질 검증 기관(TTA) 대응

인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서에 대한 품질 점검 대응 및 보완
구문적 정확성 검사, 의미적 정확성 검사, 통계적 다양성 검사를 위한 검사 데이터 제출 및 검사 환경 제공
품질 검사 결과에 대한 조율 및 최종 품질 결과서 획득

성과 및 기대효과

1. 인공지능 학습용 데이터 품질 검증 체계 구축 및 지속적 운영

2. 즉시 개방 가능한 고품질의 인공지능 학습용 데이터 구축(2개 분야 10종)

3. 대국민 인공지능 학습용 데이터 활용 촉진

사업문의

비즈니스 솔루션, 프로젝트 의뢰 등 궁금하신 사항이 있으시면 언제든 문의해 주세요.
비투엔 담당자가 신속하게 답변해드립니다.

문의하기