2020년 인공지능 학습용 데이터 구축 사업 2차(한국어 방언, 동적 객체 인지, 드론 영상 3개 과제)

수행기간2020.09 ~ 2021.02

추진배경

과학기술정보통신부와 한국지능정보사회진흥원은 2017년부터 매년 ‘인공지능 학습용 데이터 구축사업’을 통해 약 21종 460만건의 인공지능 학습용 데이터를 구축하여 민간에 개방하는 등 가시적 성과를 확보하고 있으나, 이를 활용하는 수요자의 의견을 들어보면 인공지능 학습용 데이터의 품질이 낮다는 지적이 상존하고 있음. 그에 따라 한국지능정보사회진흥원은 인공지능 학습용 데이터 구축 컨소시엄 내 품질관리전담기관을 선정하고 구축 전 과정에서 인공지능 학습용 데이터 품질 관리가 이루어지도록 가이드 하고 있음. 이를 통하여 최종적으로 고품질의 인공지능 학습용 데이터를 확보하는 것을 목표로 함


사업범위

1. 인공지능 데이터 품질관리 실무 책임자 역할 수행

  • 품질관리 계획 수립 및 품질관리 담당자 지정
  • 품질관리 실무 수행 조직 운영 및 활동 수행
  • 품질관리 실무협의회 구성 및 운영


2. 구문적 정확성 검사

  • 원시·원천데이터 – 어노테이션 파일의 매치 여부 점검
  • 어노테이션 파일의 구조적 완전성 검사
  • 어노테이션 파일의 값의 유효성 검사


3. 통계적 다양성 검사

  • AI 학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스)
  • AI 학습용 데이터의 분포 분석 (property, value)

수행내용

1. 인공지능 학습용 데이터 품질 관리 체계 구축

  • 수집, 정제, 가공, 라벨링, 검수, 납품 등 인공지능 학습용 데이터 구축 전 과정에 대한 데이터 품질 관리 체계 구축
  • 각 단계별 품질 관리 기준을 체크리스트화 하여 4단계의 품질 관리 수행
  • 어노테이션 파일 설계 기준 및 품질 검증 목표 정의
  • 인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서 작성


2. 구문적 정확성 검사 및 통계적 다양성 검사 수행

  • 인공지능 학습용 데이터 품질 관리 솔루션(SDQ for AI)를 활용한 지속적인 품질 검사 사이클 운영
  • 어노테이션 파일의 파일의 완전성, 구조의 정확성, 값의 유효성 등 구문적 정확성 검사 수행
  • 학습용 데이터의 규모 분석 (파일, 클래스, 인스턴스) 및 분포 분석 (property, value)을 통한 구축 목표 검증


3. 외부 품질 검증 기관(TTA) 대응

  • 인공지능 학습용 데이터 구축 가이드라인, 품질 검증 계획서에 대한 품질 점검 대응 및 보완
  • 구문적 정확성 검사, 의미적 정확성 검사, 통계적 다양성 검사를 위한 검사 데이터 제출 및 검사 환경 제공
  • 품질 검사 결과에 대한 조율 및 최종 품질 결과서 획득

성과 및 기대효과

1. 인공지능 학습용 데이터 품질 검증 체계 구축 및 지속적 운영

2. 즉시 개방 가능한 고품질의 인공지능 학습용 데이터 구축(2개 분야 10종)

3. 대국민 인공지능 학습용 데이터 활용 촉진


사업문의

비즈니스 솔루션, 프로젝트 의뢰 등 궁금하신 사항이 있으시면 언제든 문의해 주세요.
비투엔 담당자가 신속하게 답변해드립니다.

문의하기