AI데이터의 어노테이션 구문적 정확성 검사 용역

수행기간2020.10 ~ 2021.04

추진배경

과학기술정보통신부와 한국지능정보사회진흥원은 2017년부터 매년 ‘인공지능 학습용 데이터 구축사업’을 통해 약 21종 460만건의 인공지능 학습용 데이터를 구축하여 민간에 개방하는 등 가시적 성과를 확보하고 있으나, 이를 활용하는 수요자의 의견을 들어보면 인공지능 학습용 데이터의 품질이 낮다는 지적이 상존하고 있음. 그에 따라 과기정통부와 NIA는 한국정보통신기술협회를 품질관리전담기관으로 선정하여 AI 학습용 데이터 구축 결과물에 대하여 구문적 정확성 검사, 통계적 다양성 검사, 의미적 정확성 검사를 실시하여 고품질의 데이터 확보를 위해 노력하고 있음. 


사업범위

1. 구문적 정확성 검사 및 분석 항목 도출

  • 세부과제별 AI데이터 구축 가이드라인, 품질 검증 계획서 분석
  • 세부과제별 구문적 정확성 검사 규칙 및 통계 분석 항목 도출
  • TTA 의견을 반영을 통한 구문적 정확성 검사 및 통계적 다양성 분석 항목 확정


2. 구문적 정확성 검사

  • 원시·원천데이터 - 어노테이션 파일의 매치 여부 점검
  • 어노테이션 파일의 구조적 완전성 검사
  • 어노테이션 파일의 값의 유효성 검사
  • 세부과제별 구문적 정확성 검사 결과 리포트 배포


3. 통계적 다양성 검사

  • AI 학습용 데이터의 규모 분석(파일, 클래스, 인스턴스)
  • AI 학습용 데이터의 분포 분석(property, value)
  • 세부과제별 통계적 다양성 검사 결과 리포트 배포

수행내용

1. 구문적 정확성 검사 및 분석 항목 도출

  • 2020년 1/2차 인공지능 학습용 데이터 구축 사업에서 구축된 총 170종의 학습데이터셋에 대한 AI데이터 구축 가이드라인, 품질 검증 계획서 분석을 통한 학습데이터별 구문적 정확성 검사 규칙 및 통계 분석 항목 도출


2. 구문적 정확성 검사 및 통계적 다양성 분석

  • 전체 250여개 학습데이터셋 구조별 구문적 정확성 검사를 통하여 파일 완전성 오류, 구조 정확성 오류, 값의 유효성 등 데이터 정확성 세부 지표에 대한 품질 진단 수행


3. 통계적 다양성 검사

  • AI 학습용 데이터의 규모 분석(파일, 클래스, 인스턴스) 및 분포 분석(property, value)을 통하여 학습데이터셋의 다양성, 충분성 등 데이터 적합성 세부 지표에 대한 품질 진단 수행


4. 대용량 학습용데이터 품질 일괄 검사를 위한 자동화 도구 커스터마이징

  • 구문적 정확성 검사 규칙 자동생성 프로그램(RuleMaker) 개발 및 구축기관을 대상으로 배포
  • 솔루션(SDQ for AI) 커스터마이징을 통한 개별 학습용 데이터 건수 3,000만건 이상에 대한 구문적 정확성 및 통계적 다양성 검사 성능 확보

성과 및 기대효과

1. 인공지능 학습용 데이터 품질 검증 체계 구축

2. 구축 기관의 지속적 품질관리 체계 운영 유도 

3. 공공 개방을 위한 고품질의 인공지능 학습용 데이터 확보 

4. 대국민 인공지능 학습용 데이터 활용 촉진


사업문의

비즈니스 솔루션, 프로젝트 의뢰 등 궁금하신 사항이 있으시면 언제든 문의해 주세요.
비투엔 담당자가 신속하게 답변해드립니다.

문의하기