빅데이터 구축 컨설팅

2019. 03. 25

사람들에게 ‘빅데이터’란 단어가 알려지고 이것이 우리의 미래 먹거리가 될 것이며 빅데이터를 통하여 무엇이든 할 수 있을 것이란 환상을 갖게 한지도 벌써 5~6년이 지나고 있다. 그러나, 초기 예상했던 빅데이터에 의한 각종 산업에서의 부가가치 창출은 예상만큼 크게 이루어 지지 않고 있는 것 같다. 물론, 개인정보보호라는 커다란 장애물이 우리의 빅데이터 활용을 가로 막는 부분도 있으나 오히려 그보다는 기업 내에서 생성되는 막대한 량의 정형, 비정형 데이터를 기존 정보계에 어떻게 접목하여 의사결정의 질적 향상을 도모하고 인공지능 또는 학습지능을 위한 재료로 활용할 것인가를 재고해봄으로써 빅데이터가 물과 공기와 같이 늘 우리들의 삶을 지탱해주는 필수불가결한 재료로서 인식하고 활용하는 것이 더 중요할 수 있다. 이에 기존 정보계가 빅데이터 구축 환경으로 진화해 가는 사례들을 살펴보고 그동안 빅데이터 구축을 위해 수행되었던 업무들을 정리해보며 향후 전망으로서 데이터레이크의 활용성을 증가를 통한 빅데이터 분석 경향 및 구축된 빅데이터의 활용을 극대화 하기 위한 빅데이터 데이터거버넌스 기능에 대하여 알아보고자 한다.




1. 기존 정보계의 진화

현재 많은 기업내에서 운영되고 있는 정보계가 본격적으로 구축된지 20여년이 넘으면서 그동안 내외부 정형 및 비정형을 포함한 분석하고자 하는 데이터의 량이나 종류는 기하급수적으로 늘어났으며 이러한 데이터 분석을 통한 의사결정 또는 고객 마케팅을 위한 처리속도는 거의 실시간으로 요구하는 수준에 이르게 되었다. 이와 더불어 그동안 하드웨어의 성능향상과 가격하락, 막대한 량의 데이터를 처리하기 위한 기반 기술 및 이를 뒷받침하는 다양한 오픈소스들의 발전에 의하여 값싸면서도 고성능의 대용량 데이터 처리 플랫폼을 온프래미스로 갖출 수 있는 환경이 되었고 이러한 환경 조차 빌려서 사용하는 퍼블릿 클라우드를 통한 플랫폼 구축도 큰 기업들을 중심으로 보편화돼가고 있는 추세이다.


이러한 기존 정보계 환경의 변화를 주도하는 요인은 두가지 측면에서 정리될 수 있다. IT 측면에서는 저렴한 비용으로 운용가능한 환경 구축, 비즈니스 측면에서는 다양한 분석요구사항을 어떻게 쉽고 빠르게 수용할 것이냐 하는 것이다.



가. IT 측면에서의 정보계 요구사항

그동안 빅데이터 기술 발전을 통하여 IT부서는 기존의 정보계 환경을 저렴하게 운용유지보수할 수 있는 기술들로 변화하기 위하여 노력해왔으며 대부분의 기업들은 저렴한 분산처리 환경의 하드웨어에 하둡(Hadoop)을 적용하면서 관련된 오픈소스 및 상용도구들을 사용함으로써 목적을 달성하는데 촛점을 맞추고 있다. 예를 들어 그동안 상용 데이터웨어하우스 용 RDBMS를 사용하여 정보계를 구축하였던 ‘OK Cashbag’의 경우에도 2014년 하둡으로의 전환을 위한 파일럿 시스템구축을 시작으로 2016년에 하둡을 중심으로 데이터 수집, 정제, 저장 등을 오픈소스를 활용하여 전체 정보계를 이관하여 사용하고 있으며 이와 같은 시도는 여러 회사에서 실행되고 있습니다.


또한, 오픈소스를 통하여 구축되는 정보계 환경에서는 기존의 정보계용 DBMS에서 실행가능한 특정 레코드의 삭제 및 업데이트를 할 수 없거나 HBase를 통하여 제한적인 환경으로만 구축가능하였으나 클라우데라가 쿠두(Kudu)라는 스토리지 솔루션을 제공함으로써 데이터의 빠른 삽입 및 업데이트까지 SQL을 통하여 가능하게 되어 기존의 정보계용 DBMS를 어느정도 대처할 수 있게 되었고 이러한 기술발전을 통하여 기존 정보계 환경의 변화는 가속화될 전망이다.



그림 1-1. ‘OK Cashbag 정보계 구성도’ - 출처:‘클라우데라 세션 2017’ 발표 자료 중에서



나. 비즈니스 측면에서의 정보계 요구사항

기존 기업내 발생하고 있으나 방대한 데이터 량으로 분석에서 제외되었던 로그성 데이터 및 고객상담(Voice of Data), 챗봇과 같은 비정형 데이터 등을 기존 정보계와 하나의 시스템으로 통합하여 분석하고자 하는 요구사항, 이러한 데이터를 실시간으로 분석하여 고객에게 선도적인 마케팅을 구현하거나 장비 및 서비스의 예측된 유지보수를 실현하는 등의 요구사항이 증대되고 있다. 이러한 요구사항을 만족시키기는 위해서는 관리 가능한 데이터레이크를 구축하여야하며 실시간 스트리밍 데이터 처리가 가능하여야 하고 실제 고객에게 온라인 오퍼를 제공하는 등의 실제 구현이 수행될 수 있도록 시스템이 구축되어야 한다.


이렇듯 이제 정보계는 단순한 배치작업에 의한 데이터 저장소와 이를 활용한 단순 분석시스템을 넘어 실시간으로 정형, 비정형 데이터를 수집하여 정제하고 알고리즘을 통하여 분석하고 학습하여 고객에게 실제 서비스를 제공하는 시스템으로 발전하고 있다. 아래의 예는 인도네시아의 거대 상거래 회사들을 운영하는 그룹에서 하루 3억명 고객으로부터 발생하는 구매 정보 및 SNS 정보를 실시간으로 추출하고 통합하여 판매 캠페인에 활용하고 있는 예이다.


그림 1-2. ‘Lippo Group’의 상거래 분석 시스템 - 출처: ‘Next Generation Analytics’ - Daniel Clake,Informatica




2. 빅데이터 정보화전략계획 수립

빅데이터 시스템을 구축하기 앞서 빅데이터로 무엇을 할 것인가를 먼저 정리하고 실제 구축방향을 설정하는 것은 매우 중요한 선행 업무이다. 이러한 빅데이터 정보화전략계획은 일반적인 정보화전략계획 수립 프로세스에 준하여 수행될 수 있으며 환경분석, 현황분석, 목표모델설계, 이행계획수립 프로세스로 나누어지고 빅데이터 구축을 원하는 조직의 특성에 맞추어 프로세스와 산출물을 결정하여 수행한다. 각 사의 특성에 맞춘 방법론의 테일러링이 필요하겠지만 일반적으로 다음과 같은 수행업무가 구성된다.


가. 환경분석: 사업추진 필요성 및 본 사업에 대한 정책, 경제, 사회 환경을 분석하고 현재 적용 가능한 빅데이터 기술을 제시하며 사업을 추진하기 위한 일반환경, 기술환경 선진사례를 분석하고 시사점을 도출한다.

나. 현황분석: 빅데이터 활용과제 업무 및 공통기반 도출을 위하여 전사적인 요구사항을 도출하고 관련 정보시스템 현황분석을 통하여 목표업무설계 및 정보화 방향성을 도출한다.

다. 목표모델설계: 빅데이터 구축을 통한 정보화 비전 및 전략을 수립하고 빅데이터 활용 과제에 대한 업무 프로세스를 설계하며 기술구조(인프라 아키텍처 포함)에 대한 미래모형을 설계한다.

라. 이행계획수립: 이행과제를 정의하고 우선순위를 도출하며 빅데이터 구축 단계별 로드맵을 정의하여 통합추진일정계획을 수립한다. 필요에 따라 구축 프로젝트를 실행하기 위한 구축제안요청서를 수립된 정보전략계획에 맞추어 작성하기도 한다.




3. 빅데이터 구축 컨설팅

빅데이터 시스템을 구축하는데 있어서 기존 정보계를 빅데이터 환경으로 전환하거나 미래에 사용될 분석의 재료가 되는 데이터들을 우선 모아서 데이터레이크를 구축한 후 분석 프로젝트를 별도로 진행하는 경우에는 일반적인 구축 프로젝트의 단계인 준비->분석->설계->이행->운영으로 수행할 수 있다. 그러나, 대부분의 빅데이터 구축 프로젝트에서는 목표하는 분석결과를 얻기위해 분석모델을 설계하고 이를 적용하고 결과가 만족될 때까지 분석모델을 변경수정하며 결과를 검증하는 과정이 반복되어야 한다. 그러므로, 일반적인 정보시스템 구축 프로젝트과 같이 정해진 일정하에서 수행하기는 매우 어려울 수 있으므로 프로젝트 계획 시 이를 감안하여야 하며 실제 고객사에서 직접 시스템 구축 작업에 직접 참여하고 운영까지 수행하지 않으면 계획된 프로젝트 종료가 어려울 수 있다는 점을 감안하여야 한다.


아래 예시는 빅데이터 분석 플랫폼을 구축하기 위한 프레임워크을 설명하고 있다. 본 프레임워크는 프로젝트 구성원에게 작업할 수 있는 지침 및 틀을 제공하며 모든 단계는 필요에 따라 반복 수행될 수 있으며 특히‘데이터 취득 및 이해’와 ‘모델링 및 검증’ 과정은 목표 분석 결과가 도출될 때까지 단계를 반복하여 수행하여야 한다.


그림 3-1. 빅데이터 분석 플래폼 구축 프레임워크 - 출처: (주)비투엔



- 비즈니스 이해: 목표 정의 및 비즈니스 타켓 변수를 정의하고 해당되는 데이터 소스를 식별하여 구축할 시스템 규모를 산정한다.

- 분석 플랫폼 구축: 정보전략화계획이 사전 수행되어 기술아키텍처가 결정되어 있다면 이를 바탕으로 시스템 아키텍처를 구성하거나 프로젝트 제안단계에서 정의된 기술아키텍처와 전 단계에서 식별된 데이터 종류와 크기를 바탕으로 시스템 아키텍처를 정의하고 이를 도입 구축한다. 향후 배포단계에서 수행할 구축된 시스템의 성능테스트을 계획하며 향후 시스템 운영계획을 수립하고 변경관리한다.

- 데이터 취득 및 이해: 모델링을 하기 위해 타겟 변수와 관련된 고품질의 데이터 셋을 생성하고 구축된 분석 플랫폼에 배치한다. 데이터를 정기적으로 갱신하며 새롭게 스코어링하는 데이터 파이프 라인을 개발한다.

- 모델링 단계: 피처 엔지니어링, 모델 학습 과정을 통해 머신 러닝 모델을 위한 최적의 데이터 변수를 결정하고 대상을 가장 정확하게 예측하는 모델을 설정하여 프로덕션 환경에 적합한 머신 러닝 모델을 만든다.

- 배포: 구축된 데이터 파이프라인이 포함된 모델을 최종 승인하기 위하여 분석 플랫폼 환경에 대한 이행과 운영인수를 수행한다. 이 단계에서 구축된 플랫폼의 성능 및 운영정책을 최종 점검하고 시스템 이행을 실시한다.




4. 향후 전망

앞서 언급한바와 같이 많은 기업으로 확산 중인 정보계 진화는 앞으로도 계속 진행될 것이며 2017년 ‘컴퓨터월드 영국판’에서도 데이터레이크의 활용성을 증가를 통한 빅데이터 분석에 있어서 셀프 서비스 비즈니스인텔리전스의 증가와 스트리밍 분석 및 머신러닝 분야가 지속적으로 증가할 것이라는 전망을 내놓고 있다.


- 관리 가능한 데이터레이크: 수년동안 분산된 데이터를 데이터레이크로의 통합은 전략과 결합되어 신뢰할 수 있는 데이터 기반에서의 통찰력을 제공해줄 것이며 향후 ILM 기능을 수용한 확장된 데이터레이크의 구축이 보편화 될 것이다.

- 하둡, 그 너머의 움직임: 스팍과 하둡은 서로 장단점이 존재하나 클라우드 기반, 머신 러닝, 그리고 IoT 서비스에서의 스팍은 하둡의 대안으로 제공될 것이다.

- 머신 러닝 받아들이기: 예측 분석, 고객통찰력, 추천엔진, 사기 및 위협방지 등에서 폭넓게 활용될 것이다.

- 클라우드 기반의 분석: 기업들의 더 많은 핵심 데이터 저장소와 분석 워크플로우가 클라우드로 전환되고 클라우드 내에서 분석이 주류로 자리잡게 될 것이다.

- 스트리밍 분석: 기존 배치 분석 대신 기업내 스트리밍되는 데이터들의 모니터링에 유용하게 활용될 것이며 IoT 배포를 고려하는 많은 기업에서의 수용이 지속적으로 증가할 것이다.

- 기업들은 여전히 데이터과학자가 필요: 기업내에서 필요한 데이터 과학자들에 대한 수요는 계속 증가할 것이다. 이들의 셀프 분석을 위한 비즈니스 데이터 정의 및 관리가 중요해질 것이다.

- 더 많은 셀프 서비스 비즈니스 인텔리전스: 비즈니스 사용자가 분석 및 통찰력에 직접 접근할 수 있는 셀프 서비스를 통하여 분석 영역의 전환을 꾀할 것이다.


이와 같이 비즈니스 사용자들이 기업 내 데이터를 셀프 서비스로 분석하기 위해서는 데이터의 품질이 정확하게 유지되어야 하며 데이터에 대한 비즈니스적인 설명과 해석의 제공이 필수불가결하게 되었다. 이에따라 전세계적으로 빅데이터 영역의 데이터거버넌스에 대한 중요성이 강조되고 규모가 큰 기업을 중심으로 데이터레이크를 구축하고 이에 따른 데이터거버넌스 시스템을 구축하고 있다. 아래는 빅데이터 거버넌스 시스템이 갖추어야할 주요 기능입니다.


그림 4-1. 빅데이터 거버넌스 주요 기능과 리파지토리 구성 - 출처: 관리되는 셀프 서비스 전략 - 인포매티카와 타블로



결론적으로 지난 5~6년간 많은 기업들이 빅데이터 플랫폼 구축을 위하여 노력해왔으며 이러한 시도들이 온프레미스에서 클라우스 환경으로 서서히 이동하기 시작하고 있다. 이제 기업 내 수많은 데이터 및 분석 결과물들이 통합되고 이를 비즈니즈 사용자들이 어떻게 하면 쉽고 정확하게 획득하여 업무에 활용할 수 있을 것인가에 관심이 모아지고 있어 향후 빅데이터 거버넌스 구축에 대한 요구가 점점 더 강해질 것으로 전망된다. 


김형태 고문

출처: 2018 데이터산업 백서