2020년 인공지능 학습용 데이터 구축 사업 2차(한국어 방언, 동적 객체 인지, 드론 영상 3개 과제)
수행기간2020.09 ~ 2021.02
추진배경
과학기술정보통신부와 한국지능정보사회진흥원은 2017년부터 매년 ‘인공지능 학습용 데이터 구축사업’을 통해 약 21종 460만건의 인공지능 학습용 데이터를 구축하여 민간에 개방하는 등 가시적 성과를 확보하고 있으나, 이를 활용하는 수요자의 의견을 들어보면 인공지능 학습용 데이터의 품질이 낮다는 지적이 상존하고 있음. 그에 따라 한국지능정보사회진흥원은 인공지능 학습용 데이터 구축 컨소시엄 내 품질관리전담기관을 선정하고 구축 전 과정에서 인공지능 학습용 데이터 품질 관리가 이루어지도록 가이드 하고 있음. 이를 통하여 최종적으로 고품질의 인공지능 학습용 데이터를 확보하는 것을 목표로 함
사업범위
1. 인공지능 데이터 품질관리 실무 책임자 역할 수행
- 품질관리 계획 수립 및 품질관리 담당자 지정
- 품질관리 실무 수행 조직 운영 및 활동 수행
- 품질관리 실무협의회 구성 및 운영
2. 구문적 정확성 검사
- 원시·원천데이터 – 어노테이션 파일의 매치 여부 점검
- 어노테이션 파일의 구조적 완전성 검사
- 어노테이션 파일의 값의 유효성 검사
3. 통계적 다양성 검사
- AI 학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스)
- AI 학습용 데이터의 분포 분석 (property, value)
수행내용
1. 인공지능 학습용 데이터 품질 관리 체계 구축
- 수집, 정제, 가공, 라벨링, 검수, 납품 등 인공지능 학습용 데이터 구축 전 과정에 대한 데이터 품질 관리 체계 구축
- 각 단계별 품질 관리 기준을 체크리스트화 하여 4단계의 품질 관리 수행
- 어노테이션 파일 설계 기준 및 품질 검증 목표 정의
- 인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서 작성
2. 구문적 정확성 검사 및 통계적 다양성 검사 수행
- 인공지능 학습용 데이터 품질 관리 솔루션(SDQ for AI)를 활용한 지속적인 품질 검사 사이클 운영
- 어노테이션 파일의 파일의 완전성, 구조의 정확성, 값의 유효성 등 구문적 정확성 검사 수행
- 학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스) 및 분포 분석 (property, value)을 통한 구축 목표 검증
3. 외부 품질 검증 기관(TTA) 대응
- 인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서에 대한 품질 점검 대응 및 보완
- 구문적 정확성 검사, 의미적 정확성 검사, 통계적 다양성 검사를 위한 검사 데이터 제출 및 검사 환경 제공
- 품질 검사 결과에 대한 조율 및 최종 품질 결과서 획득