쉽게 만들고 관리하는 데이터 분석모델 Lumada Pentaho

2022.11.17 관리자 (쉐어드아이티) 24개의 댓글

지난 10월 26일(수) 오후 2시부터 5시 40분까지 진행된 쉐어드IT 데이터 분석 컨퍼런스, 많이 참여하셨나요? 이번 컨퍼런스에서는 기업들이 데이터를 어떻게 수집, 분석해서 활용할 수 있는지에 대한 다양한 솔루션들을 소개해 드렸었는데요. 그 중 데이터 분석 모델을 쉽게 만들고 지속적으로 발전시켜나갈 수 있는 솔루션이 있었습니다. 바로 효성인포메이션시스템에서 공급하는 Lumada Pentaho입니다.

<이미지 출처 : Medim Data series, What Does a Data Scientist do?>

데이터 분석에 AI를 활용한다는 것은 보통 데이터 사이언티스트들의 고유 영역으로 여겨져 왔습니다. 하지만 데이터 사이언티스트는 대기업에서 운영하는 별도의 데이터 분석 연구소 정도 되어야 접할 수 있을 정도로 시장에 인력이 매우 드문 것이 현실입니다. 그래서 더더욱 데이터 사이언티스트의 업무는 진입장벽이 높은, 매우 전문적인 분야라고 평가받는 것이 아닌가 싶고요. 기업이 이미 보유한 데이터 엔지니어, 데이터 분석가들의 역량을 강화해 데이터 사이언티스트로 키워내는 것도 쉽지 않죠. 이러한 상황이다보니 기업에서 데이터 분석에 AI를 활용하고 싶어도, 이것을 수행할 수 있는 인력이 없어 시도조차 하지 못하는 경우가 많은 것 같습니다.

하지만 지난 컨퍼런스의 세션을 통해 소개해 드린 Lumada Pentaho를 활용하면 이러한 기업들의 고민을 상당 부분 해결할 수 있습니다. 빅데이터 통합 분석 플랫폼을 표방하는 Lumada Pentaho를 활용하면 대량의 데이터들 중에서 분석에 활용할 만한 데이터만 선별해서 수집하고, 간편하게 AI 모델을 만들어 분석하고, 그 결과를 지속적으로 재학습 시키면서 예측도가 높은 모델을 유지해 나갈 수 있거든요.

그래서 이번 콘텐츠에서는, 기업들의 데이터 분석 및 활용을 위해 데이터 사이언티스트를 고용해야 하는 부담을 가진 기업들, 보다 쉽게 데이터를 분석하고 활용할 수 있는 방안을 고민하는 기업의 담당자 분들께 도움이 될 수 있는 Lumada Pentaho 세션 내용을 정리해 보고자 합니다. 주요 아젠다는 아래와 같습니다.

아젠다

1. 데이터 분석 트렌드

2. 빅데이터 통합 솔루션 Lumada Pentaho 개요

3. Lumada Pentaho 데모

4. Lumada Pentaho 국내 사례

※ 선착순 퀴즈 이벤트

●아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.
●마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다

이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.

1. 데이터 분석 트렌드

■기업이 보유한 데이터들의 분석이 어려운 이유

데이터를 분석하기 위해서는 당연하게도 데이터가 필요합니다. 그런데, IT 담당자 입장에서는 실시간으로 기업의 스토리지에 쌓여만 가는 데이터들이 너무도 많기에, 모든 데이터를 데이터 분석 시스템으로 넘기는 것이 맞는 것인지 고민이 될 수밖에 없습니다. 위와 같이 기업 내에 쌓여만 가는 데이터 중 고작 20% 정도만 비즈니스에 활용 가능한 데이터라는 통계도 있는데요. 이렇듯 데이터 분석에 활용되지 못하고 그저 저장 공간만 차지하는 데이터를 다크 데이터라고 부릅니다.

그렇다면 왜 이런 다크 데이터가 많은 것일까요? 가장 큰 이유는 지금까지의 데이터 분석은 주로 정형 데이터만 활용해왔기 때문입니다. 데이터 분석 도구 역시 정형 데이터 분석에 최적화 되어있었던 것도 한몫 했죠. 하지만 지금은 비정형 데이터가 폭증하는 데이터의 상당부분을 차지합니다. 따라서, 다크 데이터의 비중이 이렇게나 높은 이유는 분명 유의미한 데이터도 있을 것이나 그 데이터를 분석할 수 있는 도구가 없었던 것이 주요한 원인이라고 봐야 합니다. 결국 비정형 데이터를 제대로 분석해서 활용할 수 있는 솔루션이 있다면 다크 데이터도 상당부분 줄어들 수 있다는 이야기가 됩니다.

하지만 비정형 데이터는 종류도 다양하고 용량도 정형 데이터보다 큰 데이터들이 많습니다. 그래서 데이터 분석에 필요한 시간과 노력이 많이 드니 그만큼 비용도 많이 필요한 문제가 있는 것이라고 볼 수 있죠. 만약 대량의 이미지 데이터를 학습해야 한다면 고성능 GPU 서버가 필요하고, 이런 컴퓨팅 자원은 퍼블릭 클라우드 인프라를 활용하더라도 비용이 많이 필요할테니까요. 게다가 각 부서 별로 보유한 데이터들이 다르기 때문에, 이런 데이터를 어떻게 통합할 것인지에 대한 방안도 요구됩니다.

그래서 비정형 데이터 위주의 데이터 분석을 위해서는 다양한 애플리케이션에서 생성되는 데이터를 하나의 통합된 시스템으로 수집하고, 빠르게 데이터 전처리 및 모델의 개발과 학습을 통해 분석 결과를 도출해 낼 수 있는 솔루션이 필요합니다.

■데이터 분석 트렌드

앞서 언급한 비정형 위주의 데이터 분석이 어려운 이유를 해결하기 위해 시장에는 위와 같이 엄청난 수의 오픈소스 기반 데이터 분석 도구들이 존재합니다. 그리고 많은 데이터 분석 기업들이 유료 솔루션을 내놓고 있고요. 데이터 유형 별, 목적 별 분석 도구가 각기 다르고 종류도 너무 많다보니, 기업은 우리 환경에 알맞은 도구는 무엇인지 선택하는 것도 쉽지 않습니다. 그렇다면, 이렇게나 많은 데이터 분석 도구가 존재하는 이유는 무엇일까요?

이유는 어찌 보면 당연합니다. 돈이 되는 시장이고 전망이 무척 밝으니까요. IDC에서 발표한 국내 빅데이터 분석 시장 전망 차트를 보면, 2022년 기준 시장 규모가 2조 3천억원이 넘고 향후 5년간 연평균 성장률이 6.9%에 달해 2026년에는 3조 2천억원이 넘는 규모를 형성할 것으로 예상됩니다.

이렇게 시장이 쭉쭉 크는 이유는 데이터 분석 및 활용 수요가 확대되었기 때문입니다. 과거 금융 중심의 데이터 분석 수요가 제조업을 중심으로 유통산업군까지 확대되었고요. 고객으로부터 다양한 데이터를 수집해 데이터 기반 의사결정으로 비즈니스 경쟁력을 높이려는 기업들이 많아진 것이, 시장이 커지고 앞서 보신 분석 도구들이 계속 생겨나는 주요 요인으로 봐도 될 것입니다.

그럼 이제, 기업 내 많은 다크 데이터 중에서 유의미한 데이터들을 선별하고, 그 데이터를 분석하기 위한 모델을 보다 간편하게 만들어내 활용할 수 있도록 도와주는 Lumada Pentaho는 어떤 기능들을 제공하는지 알아보겠습니다.

2. 빅데이터 통합 솔루션 Lumada Pentaho 개요

Lumada Pentaho는 단일 제품으로 ETL(Extract Transform Load, 추출 변환 적재) + 분석(Python, R) + 시각화 및 분석 모델 학습 프로세스를 관리할 수 있는 통합 플랫폼입니다. Pentaho는 데이터 수집, 통합, 분석(Python, R), 시각화 및 스케쥴링 기능을 제공하는 오픈소스 소프트웨어로, 2004년에 창립되었고 2015년 7월 Hitachi에 인수되었습니다. 그리고 Pentaho의 창립 멤버 중 한명이자 현재 Pentaho의 CTO를 담당하고 있는 James Dixon은 비정형 데이터의 수집 및 분석의 표준으로 거론되는 데이터 레이크라는 용어를 만들어 낸 장본인이기도 합니다. Pentaho가 정형/반정형/비정형 데이터 통합에 얼마만큼 진심인 지 알 수 있는 대목이죠?

Lumada는 Hitachi에서 제공하는 IoT 플랫폼으로, 산업 현장에서 활용할 수 있는 IoT 솔루션, 다수의 IoT 기기에서 생성하는 데이터를 수집하고 처리해 분석할 수 있는 소프트웨어, 그리고 컨설팅 서비스를 제공합니다. 이 Lumada 플랫폼에서 데이터 수집 및 분석 영역을 담당하는 것이 Pentaho이고, Hitachi가 오픈소스인 Pentaho를 기업 환경에서 활용할 수 있도록 사전에 충분히 검증해서 내놓은, 기업을 위한 엔터프라이즈 데이터 통합 분석 솔루션이 Lumada Pentaho라고 보시면 됩니다.

Lumada Pentaho에서 제공하는 기능은 위와 같이 크게 5가지로 나눌 수 있습니다. 다양한 비즈니스 애플리케이션을 Pentaho에 연결해 데이터를 수집하고 ETL 기능을 통해 분석 가능한 데이터로 처리하고요. 대량의 데이터를 실시간으로 처리할 수 있는 Message Queue 연계 기능도 지원합니다. 그리고 데이터 분석의 경우 데이터 사이언티스트 분들이 주로 활용하는 Phython과 R 활용해 모델을 만들고 학습시키며, 이 모든 과정을 자동화해서 운영할 수 있습니다. 마지막으로, 분석 결과를 대시보드 형태로 시각화하거나 CSV, PDF로 추출해 보고할 수 있고요. 데이터 수집, 분석, 결과의 단계 별 완료 혹은 이슈 발생 시 알림을 받을 수 있는 기능도 제공합니다.

Lumada Pentaho의 특징을 나타낸 장표입니다. 앞서 보신 5가지 기능이 단순히 그냥 그 기능을 지원하는 차원이 아닌, 업계에서 활용되는 다양한 오픈소스와 클라우드 서비스들과 연계해서 폭넓게 지원하고 있습니다. 그리고 각 기능마다 최고의 오픈소스 소프트웨어들을 사용해 성능이 매우 뛰어나고요. 기업 환경에서 안심하고 사용할 수 있는 IAM(사용자 인증 및 관리)기능도 제공합니다. 그리고 데이터 분석 작업을 보다 간편하게 수행할 수 있는 자동화 기능에 더해, 시각화 역시 기업에서 이미 사용하고 있는 도구를 연계해 사용자들이 익숙한 환경에서 데이터 분석 결과를 시각화할 수 있도록 지원하고 있습니다.

Lumada Pentaho의 데이터 분석 프로세스 전체를 보여주는 장표입니다. 각 프로세스를 GUI 기반의 워크플로우로 구성하고요. 이를 통해 데이터 수집부터 분석 및 활용(예측 + 해석), 그리고 생성한 분석 모델을 백업하고 다시 재학습시키는 프로세스를 손쉽게 수행할 수 있습니다.

여기까지 Lumada Pentaho가 어떤 기능을 제공하는지, 어떤 특징을 가지고 있는지 간단히 알아봤고요. 이제 Lumada Pentaho가 제공하는 각각의 프로세스가 어떤식으로 작동하는지 데모를 통해 보다 자세히 살펴보겠습니다.

3. Lumada Pentaho 데모

먼저 Lumada Pentaho의 전체 워크플로우부터 보겠습니다. 제조사에서 Lumada Pentaho를 활용해 데이터 수집, 분석한 사례를 토대로 한 데모이고요. 위와 같이 데이터 수집 자동화 -> 변수 선택 -> 전처리 -> 모델 개발 및 평가 -> 모델 업데이트 -> 추론 총 6단계의 워크플로우를 거칩니다. 각 단계별로 진한 색상으로 표시한 키워드들이 주요 작업들이라고 보시면 됩니다.

이 워크플로우와 세부 작업들만 보면 되게 복잡해 보이는데, 실제 수행되는 프로세스는 생각보다 간편하게 진행됩니다. 각 단계별로 하는 작업들이 많은데, 이러한 작업들을 GUI에서 드래그 앤 드랍으로 워크플로우를 만들어 클릭 한번으로 수행할 수 있거든요. 그럼, 워크플로우 단계 별로 어떤 작업들이 진행되는지 좀 더 자세히 살펴보겠습니다.

먼저 데이터 수집 자동화 단계입니다. 이 단계에서는 어떤 데이터를 가져오면 되는지 가장 잘 알고 있는 현업분들과 데이터를 주로 다루는 데이터 엔지니어 분들이 협의해서 데이터 수집 기간을 먼저 설정하고요. Lumada Pentaho에 간단히 협의된 기간을 입력만 하면 됩니다. 그럼 애플리케이션으로부터 데이터가 수집되고, 이후 자동화된 스케쥴링을 통해서 새로 추가된 데이터만 계속 수집하는 형태로 작업이 수행됩니다.

그리고, 만약 데이터 중 일부가 수집되지 않을 경우 Lumada Pentaho에서는 즉시 관리자에게 알림을 보냅니다. 그럼 관리자는 데이터가 어디에서 제대로 수집되지 않은 것인지 빠르게 확인해서 조치할 수 있는데요. 예를 들어, 만약 공장의 설비에서 데이터를 수집하고 있었는데 갑자기 데이터가 수집되지 않았다면? 공장에 전화해서 데이터가 수집되지 않는지 물어볼 수 있겠죠. 그래서 확인 결과 공장의 설비가 유지보수 중이어서 데이터가 수집되지 않은 것이었다면, 해당 데이터는 제외하고 데이터 분석 모델을 학습시키거나 잠시 모델 학습을 중단하는 등의 조치를 취할 수 있습니다.

이런 기능이 없다면 데이터 분석가는 왜곡된 데이터로 모델을 학습시키는 바람에, 분석 결과가 이상하게 나올 수도 있겠죠? 아니면 모델 학습 과정에서 문제가 생겼을 때, 그 원인을 파악하는 데에 많은 시간을 허비해야 할 수도 있을 것입니다. 보통 데이터 분석 모델의 학습 과정에서 오류가 발생하는 90%는 필요한 데이터가 제대로 수집되지 않아서라고 하는데요. 이러한 알림 기능을 통해 현업 담당자가 데이터 사이언티스트 혹은 데이터 엔지니어에게 장애 원인 파악을 요청하지 않고, 직접 문제를 해결(공장에 전화하는 것)할 수 있습니다. 이렇게 Lumada Pentaho는 클릭 몇번 만으로 간편하게 데이터를 수집하고, 장애가 발생했을 때 빠르게 조치할 수 있도록 도와주는 기능을 제공합니다.

다음 단계는 X,Y 변수 선택입니다. 수집한 데이터들을 모두 분석에 활용할 수 있다면, 데이터가 많을 수록 분석 결과가 좋게 나오지 않을까라고 생각할 수 있는데요. 그렇지 않습니다. 분석에 활용할 데이터에 앞서 보셨던 다크 데이터와 같은 불필요한, 이상한 데이터들이 많이 포함되어 있다면 분석 결과가 왜곡될 수 있기 때문입니다. 게다가 데이터의 양이 많을 수록 분석 결과를 도출하는 데에 많은 시간이 소요되죠.

그래서 수집된 데이터 중 무엇을 분석에 활용할 지를 먼저 선택해야 합니다. 이 때 어느 데이터가 중요한지에 대해서는 그 데이터가 어떤 의미를 가지고 있는지에 대해 잘 아는, 현업 담당자들의 판단이 필요합니다. 그래서 현업과 데이터 엔지니어가 함께 데이터를 살펴보고, 각 데이터마다 가중치를 두어 분석에 활용할 데이터를 선별하는 작업, 즉 변수를 선택하는 작업이 이 바로 이 단계입니다. 그래야 빠른 시간내에 정확도 높은 결과를 얻을 수 있습니다.

하지만 이 작업이 꽤 어렵습니다. 실제 데이터 사이언티스트분들도 이 작업에 가장 많은 시간을 할애한다고 하는데요. Lumada Pentaho는 데이터들의 상관관계 분석을 통해 어떤 데이터가 유의미한 데이터인지를 선별할 수 있는 EDA(Exploratory Data Analysis), 탐색적 데이터 분석 기능을 제공합니다. 기존에 데이터 사이언티스트 분들이 R과 파이썬을 통해 작업했던 것을 Lumada Pentaho에서는 장표 우측과 같이 데이터 간의 상관관계를 차트로 보여줌으로써 어떤 변수가 중요한 것인지 쉽게 선택할 수 있도록 도와줍니다.

그 다음 단계는 전처리입니다. 앞서 선택한 변수들 중에서 최종적으로 무엇을 분석에 활용할 지 걸러내는 작업이 필요한데요. 이 과정에서 반드시 해당 데이터에 대한 지식, 즉 도메인 지식이 있는 현업분들의 도움이 필요합니다. 데이터 사이언티스트분들은 상관관계 분석을 통해 나온 결과, 통계 수치를 보고 그 데이터가 분석해 활용할 만 한지 아닌지를 판단합니다. 그런데 현업분들 입장에서는 다른 판단을 내릴 수 있습니다.

예를 들어, 특정 데이터들의 상관관계 분석에 따른 결과값 차이가 작을 경우, 데이터 사이언티스트는 이정도 차이는 별거 아니기 때문에 분석에 활용해도 된다고 판단할 수 있습니다. 하지만 도메인 지식이 있는 현업 담당자라면, 그 차이는 데이터들이 가진 의미를 감안했을 때 매우 큰 차이이기 때문에 간과해서는 안되고, 결과값 차이가 더 작은 데이터들을 선별해야 한다고 판단할 수 있습니다. 따라서 이 전처리 단계는 반드시 데이터 사이언티스트 혹은 데이터 엔지니어 혼자 하는 것이 아닌, 현업과 함께 TFT 구성을 해서 협업을 통해 수행해 나갈 것을 권합니다.

일반적으로 데이터 분석 과정 중 전처리 단계에서 70% 이상의 시간과 노력이 들어간다고 합니다. 따라서 이 작업을 위해 Lumada Pentaho는 SPOON(Pentaho Client Tool)을 통해 전처리 과정을 GUI방식으로 편리하게 할 수 있도록 지원합니다.

이러한 과정을 통해 데이터를 줄여야, 분석 모델을 학습시키는 데에 필요한 시간과 노력, 그리고 비용을 줄일 수 있습니다. Lumada Pentaho는 변수에 따른 데이터의 중요도를 파악하고, 해당 값을 필터로 걸어 다른 데이터들에 적용함으로써 전처리 과정을 단축시킨다고 보시면 됩니다.

이렇게 전처리 된 핵심 데이터들을 가지고 이제 모델을 개발할 차례입니다. 데이터 중 일부를 사용해 모델을 개발하고, 그 모델로 예측한 결과와 나머지 데이터를 비교해 봄으로써 생성한 모델의 예측력이 얼마나 좋은지를 평가할 수 있습니다. 이러한 작업을 작업을 체계적으로 수행하기 위해서는 트레이닝 데이터와 테스트 데이터를 정의하는 작업이 필요하고요. 그 작업을 Lumada Pentaho에서 간편하게 수행할 수 있습니다.

일반적으로 제조업에서는 활용되는 대표적인 알고리즘은 LightGBM, Random Forest, XGBoost 이 3가지입니다. Lumada Pentaho는 3가지 알고리즘을 통해 생성된 모델을 다각도로 평가해 볼 수 있는 기능을 제공하고요. 모델마다 9개의 결과값을 도표로 보여줍니다. 이렇게 각각의 모델별로 많은 평가지표를 제공하는 이유는 데이터의 특성에 따라 해당 결과값이 가진 중요도가 달라질 수 있기 때문인데요. 그래서, 이 결과를 토대로 어떤 모델이 적합한지를 평가하고 최종적으로 분석에 활용할 모델을 선정하기 위해, 도메인 지식을 가진 현업분들의 도움이 필요한 것이라고 보시면 됩니다.

앞선 과정에서 다양한 평가지표를 통해 적합한 모델을 선택했다고 해서 끝난게 아닙니다. 데이터는 시간이 지날 수록 계속 수집되기 때문에 모델 학습에 반영되는 데이터 역시 계속 증가하게 되죠. 그래서 앞선 과정을 반복해서 거쳐야 합니다. 일정기간 동안 수집된 데이터 중 변수를 통해 모델 학습에 적합한 데이터로 정제하고, 그 데이터를 기반으로 모델을 평가하고, 다시 시간이 지나 새롭게 수집된 데이터들을 정제하고 모델을 학습시키고 평가하는 과정이 자동화되어 수행되며, 이 단계에서 가장 적합한 모델을 선택하고 생성합니다.

이렇게 모델이 생성되면, 실제 데이터와 모델을 기반으로 예측한 데이터를 비교해서 차트로 보여줍니다.(우측 하단) 이 차트를 통해서 생성한 모델의 예측력이 얼마만큼 뛰어난지 확인할 수 있고요.

여기에 더해 Lumada Pentaho는 하나의 모델 성능을 평가한 9개의 지표를 추가로 보여줍니다. 앞 장표에서 보셨던 실측치와 예측치의 차이, 그리고 우측에 있는 이 9개의 지표를 통해 모델의 성능이 괜찮구나라는 것을 보다 구체적으로 판단할 수 있고요. 이 단계에 이르러서야 분석 모델 개발 작업이 끝나게 됩니다.(데이터 정제 -> 모델을 3개로 압축 -> 다양한 평가를 통해 최종 하나만 선택해서 생성)

이렇게 생성된 모델을 가지고 정제된 모든 데이터를 기반으로 분석을 수행합니다. 그래서 그 결과를 추론 시스템으로 넘기게 되는데요.

추론 시스템은 사용자가 원하는 값들을 입력하고 모델을 돌리면 결과를 위와 같이 출력합니다. 그리고 RestAPI 방식으로 웹서비스 호출 및 응답을 통해 다른 시스템과 쉽게 연동할 수 있습니다.

여기까지가 데이터 수집부터 분석 및 활용을 위해 Lumada Pentaho에서 수행하는 전체 워크플로우이고요. 다소 복잡하고 어려워보일 수 있는데 실제 데이터 분석을 위한 모델 생성 및 데이터 분석 과정은 사실 매우 어려운 것이 사실입니다. 하지만 어려운 작업을 데이터 사이언티스트 정도의 지식이 없더라도, Python과 R을 활용할 줄 몰라도, 방대한 데이터를 조금이라도 간편하게, 반복적인 적업은 자동화를 통해 최소화시켜서, 항상 최상의 결과를 도출할 수 있는 모델을 유지할 수 있도록 도와주는 것이 Lumada Pentaho의 역할이라고 보시면 되겠습니다.

이 작업은 짧게는 3개월 이상의 기간을 통해 수행합니다. 하지만 이 기간은 처음으로 데이터를 수집하고 정제해서 모델을 개발하는 과정에 대한 기간이고요. 모델을 생성한 다음 새로운, 또다른 데이터가 추가될 경우 이러한 작업을 다시 한번 처음부터 끝까지 거쳐야 한다면 매우 고된 작업일 것입니다.

하지만 Lumada Pentaho에서는 앞서 설명해드린 전체 워크플로우를 통해 통해 분석 모델을 생성한 이후, 위 장표의 남색으로 표시한 부분만 수행하면 됩니다. Lumada Pentaho가 스케쥴링을 통해 데이터를 자동으로 수집하고, 수집된 데이터는 이미 선택한 변수와 필터값을 통해 정제되고, 이미 만들어진 모델을 다시 평가합니다.

그리고 여기에 모니터링 기능이 더해졌는데요. 관리자는 모니터링 기능을 사용해 데이터가 제대로 수집되고 정제되는지, 추가된 데이터를 기반으로 모델을 평가했을 때 이전과 비교해 점수가 떨어지진 않았는지 살펴볼 수 있습니다. 만약 3개월 주기로 모델 재학습을 수행하고 있는 기업이라면 1주일에 한번 정도는 모니터링을 통해 모델 상태를 확인할 수 있고요. 점수가 예상보다 많이 떨어졌다면 3개월이 되기 전에 먼저 모델 재학습을 수행할 수 있습니다. 이렇게 Lumada Pentaho를 사용하면, 한번 고생해서 만든 모델을 지속적으로 평가하고 재학습해서 항상 최상의 성능을 유지할 수 있도록 관리할 수 있습니다.

여기까지 Lumada Pentaho가 데이터를 수집하고 정제한 뒤 모델을 생성하고 다시 재학습하는 전체 워크플로우를 보여드렸고요. 스크린샷이 다소 작아 각 과정별로 보다 상세한 내용을 보고 싶은 분들은 아래의, 제가 직접 체험한 Lumada Pentaho 콘텐츠를 참고해 보시기 바랍니다.

●쉐어드IT Lumada Pentaho 체험기 바로가기

이제 마지막으로, Lumada Pentaho를 도입한 다양한 업종 별 국내 사례를 살펴보겠습니다.

4. Lumada Pentaho 국내 사례

첫 번째 사례는 국내 유명 게임사입니다. 게임사는 경우 매우 많은 데이터들을 생성하는데요. 이 데이터들을 Lumada Pentaho가 설치된 하나의 서버만으로 빠르게 실시간으로 처리할 수 있는 시스템을 구축한 사례입니다. 덕분에 이 게임사는 기존에 실시간 데이터를 활용한 정보 확인까지 1시간이 걸리던 것을 5분으로 단축시켰다고 합니다.

다음은 보험사 사례입니다. 금융권의 경우 정보계 시스템으로 수집되는 데이터의 양은 매우 방대한데요. 그 데이터들을 Lumada Pentaho를 통해 빠르게 수집, 정제하고 이 과정을 자동화시켰음은 물론, 까다로운 금융권의 보안 감사 요건도 충족시킨 사례라고 보시면 됩니다.

공공기관의 경우 공공 클라우드로의 전환을 추진하고 있습니다. 그래서 하지만 모든 시스템을 클라우드로 전환할 수 없기에 먼저 하나의 프라이빗 클라우드 기반 데이터 중앙관리 시스템을 만들고 그 시스템으로 각 기관에서 데이터를 전달해 주는 형태로 구축이 되었습니다. 이 때 각 기관에서 중앙의 데이터 저장소로 데이터를 보내는 데에 사용한 애플리케이션이 안정적이지 못해 데이터가 제대로 전달되지 않는 문제가 있었다고 합니다.

이를 해결하기 위해 효성인포메이션시스템은 기관 별로 Lumada Pentaho의 좀 더 가벼운 버전을 설치했고요. 마치 엣지컴퓨팅처럼 다수의 기관에 설치된 Pentaho가 각 기관에서 생성된 데이터를 수집해 중앙의 데이터 저장소로 보내는 역할을 수행했다고 합니다.

이번에는 화학 제조사 사례입니다. 현장의 설비에서 생성되는 센서 데이터들을 Lumada Pentaho로 수집하고 정제한다음 모델을 개발해 공장의 주요 설비 예지 정비에 활용한 사례이고요. 이 작업을 데이터 사이언티스트가 아닌 현업에서 실제 장비를 다루고 유지보수 하는 분들이 수행할 수 있도록 지원했다고 합니다.

이번 사례도 제조업 사례입니다. 앞선 화학 공장 사례의 경우 설비의 센서 데이터를 수집해 예지 정비에 활용한 케이스이지만, 이번 타이어 제조사의 경우 현장에 적용하기 전에 미리 사내 연구소에서 모델을 개발해 점검해 볼 수 있는 시스템을 도입한 사례입니다. 이 연구소는 Lumada Pentaho로 분석 모델을 개발하고 실험 데이터를 적용해 결과를 예측한다음, 해당 모델을 활용해 품질예측 시뮬레이션을 수행했고요. 덕분에 시뮬레이션 결과 조회까지 1시간 이상 소요되었던 것을 바로 바로 확인할 수 있게 되었다고 합니다.

마지막 사례는 전라남도의 전략 산업인 세라믹 제조 산업 활성화를 위해 공공기관에서 AI 기반 예지보전과 공정분석 시스템을 구축한 사례입니다. 공공기관의 데이터 사이언티스트분들이 Python과 R을 활용해 생성한 모델을 Lumada Pentaho로 올리고, 새롭게 수집되는 데이터를 기반으로 다시 한번 해당 모델을 평가, 재학습 시켜서 모델의 성능을 높은 수준으로 유지할 수 있는 시스템을 갖춘 사례라고 보시면 되겠습니다.

<이미지 출처 : CIO, What is a data scientist?>

지금까지 기업에서 데이터 분석을 위한 모델을 개발하는 것이 왜 어려운지(다크데이터와 다양한 유형의 비정형 데이터, 그리고 데이터를 통합하고 분석할 수 있는 도구의 부재), 데이터 수집부터 전처리, 모델 개발 및 평가와 재학습 후 추론 시스템으로 모델을 활용하는 전체 워크플로우를 Lumada Pentaho를 통해 아주 쉽지는 않지만 꽤 수월하게 수행할 수 있다는 것을 보여드렸습니다. 그리고 데이터가 새롭게 추가되었다고 해서 이 전 과정을 일일이 반복하지 않고, 자동화 기능을 통해 수행함과 동시에 관리자는 모니터링을 통해 관리할 수 있다는 내용도 전해드렸고요.

제가 생각하는 Lumada Pentaho의 가치는 데이터 분석을 위한 데이터의 수집과 전처리, 그리고 분석 모델을 개발하고 지속적으로 유지보수할 수 있는 전 과정을 플래폼을 통해 자동화시켜 작업의 효율성을 향상시키는 것이라고 생각합니다. 데이터 사이언티스트분들이 가진 고급 지식이 없더라도 Lumada Pentaho에서 미리 만들어 둔 템플릿을 활용해 현업에 계신 분들도 간편하게 데이터 분석을 수행할 수 있도록 도와줄 수 있으니, 기업들의 AI 기반 데이터 분석 수요를 상당부분 해결해 줄 수 있지 않을까 싶습니다.

보다 자세한 내용은 이 세션의 전체 내용을 담은 위 영상을 통해 발표자의 생생하고 자세한 설명을 통해 확인하실 수 있고요. Lumada Pentaho의 도입 상담이 필요하신 분들은 아래의 링크를 통해 효성인포메이션시스템 전문가의 도움을 받아보시기 바랍니다.

●효성인포메이션시스템 전문가에게 문의하기

더불어 콘텐츠를 꼼꼼히 읽어주신 분들을 위해 선착순 퀴즈 이벤트를 진행합니다. 위 배너의 내용을 참고하셔서 아래의 2가지 퀴즈에 참여해 주세요. 힌트는 콘텐츠 내용 속에 있습니다. 정답자에게는 스타벅스 부드러운 디저트 세트 기프티콘이 제공되며, 정답자 5명이 모두 나오면 정답 공개와 함께 정답자 분들께 쪽지로 개인정보를 요청드릴 예정입니다.

퀴즈 1. 빅데이터 통합 분석 솔루션, Lumada Pentaho에 대한 특징으로 알맞지 않은 것은?

1) Pentaho만의 독자 기술로 기업이 보유한 비정형 데이터를 손쉽게 통합하고 분석

2) 기업 환경에서 안심하고 사용할 수 있도록 사용자 인증 및 SSO와 같은 보안 기능 제공

3) 기간만 설정하면 자동화된 스케쥴링을 통해 지속적으로 데이터를 수집하고, 문제가 생겼을 때 관리자에게 알려줌

4) 전처리 과정에서 데이터들의 상관관계 분석을 통해 어떤 데이터가 유의미한 지 판단할 수 있는 EDA 기능 제공

5) 데이터 분석 모델 개발에 데이터 사이언티스트가 보편적으로 사용하는 Python, R 활용

퀴즈 2. 다음 중, Lumada Pentaho의 데이터 분석 모델 개발 및 평가 단계에 대한 설명으로 알맞은 것은?

1) 일반적으로 제조업에서 많이 활용하는 알고리즘은 LightGBM, Random Forest, Gradient Boosting이다.

2) 분석 모델을 개발하기 위해서는 데이터 엔지니어가 아닌 데이터 사이언티스트가 Lumada Pentaho를 사용해야 한다

3) 알고리즘을 통해 생성된 모델을 평가하기 위해 6개의 평가지표를 보여준다.

4) 데이터 수집, 전처리, 변수 선택, 학습, 평가 전 과정 자동화되어, 한번 개발한 모델의 지속적인 재학습이 가능하다.

5) 생성된 모델의 예측력이 어느 정도인지 알아보기 위해, 가상의 데이터에 모델을 적용해 예측 결과를 비교한다.

※ 선착순 퀴즈 이벤트 종료되었습니다.

이 콘텐츠가 나는 데이터 사이언티스트가 아님에도 불구하고 빅데이터 분석 프로젝트, 분석 모델 개발 업무를 맡게 되어 막막하신 분들, 사내에 쌓이는 대량의 데이터들을 어떻게 효율적으로 수집하고 통합해서 정제한 다음 분석해서 비즈니스 의사결정에 활용할 수 있을까 고민하시는 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!

클라우드마켓

마켓플레이스

브랜드별 제품

쉽게 만들고 관리하는 데이터 분석모델 Lumada Pentaho

24개의 댓글이 있습니다.

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기

댓글 남기기