성공적인 데이터레이크 구축을 위해 HCSF를 검토해야 하는 이유

성공적인 데이터레이크 구축을 위해 HCSF를 검토해야 하는 이유

자사의 데이터센터에 저장된 데이터를 분석하고 이를 비즈니스에 활용하기 위해, 이미 오래전부터 많은 기업들은 데이터 분석 인프라를 구축해 활용해오고 있습니다. 이 당시에 활용되던, 데이터 분석을 위한 인프라는 이미 사전에 사용 목적이 명확하게 정의되어 있는 데이터, 즉 원천데이터를 한번 가공해 저장한 시스템인 DW(Data Warehouse)가 주류였었죠.

DW는 원천 데이터를 목적에 맞게 ETL 시스템을 통해 정제하고, 이미 정제된 데이터를 기반으로 분석하기 때문에 스키마 형태로(쿼리로 검색할 수 있는 형태) 저장합니다. 이렇게 저장된 정형 데이터의 용량은 크지 않기 때문에 스토리지 사이즈는 TB정도면 충분했습니다. 

하지만 비정형 데이터가 급증하면서 데이터 분석을 위해 과거의 DW를 고집하기에는 여러가지 한계점이 명확해졌습니다. 정형 데이터가 아닌 이미지, 영상, 음성 등의 비정형 데이터는 용량이 크고, 스키마 형태로 저장하게 되면 쿼리 기반의 보고서 작성 도구 및 시각화 도구를 통해서만 분석할 수 있는 한계가 있습니다. 시 말해서, 디지털 트랜스폼을 위해서는 형태와 상관없이 AI-ML 기술을 적용해서 의미를 추출해야 합니다. 하지만, 전통적인 DW 구성에서는 정형데이터만 분석이 가능하므로, 비즈니스에서 활용하기에는 큰 제약이 존재합니다.




<이미지 출처 : Towards Data Science, Implementing a Data Lake or Data Warehouse Architecture for Business Intelligence?>


그 한계점에 대한 기술 대안으로서 최근 각광받고 있는 것이 데이터레이크입니다. 원천데이터를 그대로 저장하는 데이터레이크는 비정형 데이터를 저장하기에 안성맞춤입니다. 그리고 이렇게 거대한 데이터 저장소에 모인 데이터들은 사전에 어떻게 분석하겠다고 정의되지 않았기 때문에 AI-ML 및 빅데이터 분석 도구를 사용해 다양한 형태로 분석할 수 있습니다. 

만약 과거의 DW와 같은 데이터 시각화 도구를 사용해야 한다면, 이렇게 활용할 데이터만 따로 ETL로 가공해 정형 데이터화 시켜서 분석할 수도 있고요. 따라서, 데이터레이크는 과거 오랫동안 데이터분석에 사용되어 왔던 DW가 가진, 비정형 데이터를 분석하기 어려운 한계를 극복할 수 있습니다.

하지만, 기존의 데이터레이크도 완벽한 것은 아닙니다. 2010년대 중반에 주목받았던 빅데이터 분석 시스템인 Hadoop과 같은 대용량 분산파일 시스템의 경우 구축 과정이 복잡하고, 데이터 용량이 늘어날수록 추가해야 하는 인프라 비용이 부담스러운 것이 큰 문제였습니다. 게다가 데이터가 많아질 수록 데이터 분석 성능이 떨어지기 마련인데, 이를 극복하기 위해 고성능의 스토리지를 추가할 때마다 성능이 투자한 만큼 확보되지 않는, 투자 효율이 떨어지는 문제도 안고 있었죠.


<이미지 출처 : lakeFS.io, Data Lakes: The Definitive Guide>


따라서, 원천 데이터를 그대로 저장해서 언제든 원하는 형태의 분석을 할 수 있음은 물론, 보다 비용 효율적으로 데이터레이크를 구축하고, 이전보다 높은 성능 뿐만 아니라 투자한 만큼 높은 성능과 용량을 확보할 수 있는 스케일아웃 기반의 새로운 데이터레이크가 필요하게 되었습니다. 최근, IT 테크기업 뿐만 아니라 일반 기업 및 공공, 기관 등 다양한 산업에서 활성화되고 있는 AI-ML 기반 분석 시스템이 이러한, 새로운 형태의 데이터레이크 기반하에 운영되고 있습니다. 

그래서 이번 콘텐츠에서는 AI-ML 분석을 위한 차세대 데이터레이크 구축 전문 기업인 효성인포메이션시스템의 데이터레이크 솔루션을 소개하고자 합니다. 이 내용을 담은 웨비나가 지난 5월 10일 전자신문 CIO 세미나라는 주제로 진행되었고요. 당시 발표된 효성인포메이션시스템의  '사례 위주로 살펴보는 데이터레이크 혁신 전략'이라는 제목의 세션 내용을 정리했습니다. 주요 아젠다는 아래와 같습니다.


1. 데이터 플랫폼 시장 트렌드

2. 효성의 데이터레이크 솔루션, HCSF

3. HCSF 구축 사례

4. 기업의 성공적인 데이터레이크 구축을 위한 효성의 제안


이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.






1. 데이터 플랫폼 시장 트렌드


본격적으로  솔루션에 대해 살펴보기 전에 먼저 데이터 플랫폼  시장 트렌드부터 살펴보겠습니다. 기업이 보유한 데이터를 분석하기 위해서는 많은 데이터를 한데 모을 수 있는 데이터 레이크와 같은 데이터 플랫폼이 필요합니다. 그래서 데이터 플랫폼 시장의 트렌드는 일단 보유한 데이터를 모아서 분석하는 것부터 출발해, 이제는 실시간으로 수집되는 데이터까지도 분석할 수 있도록 지원하고 있습니다. 자동차의 자율주행을 위해 실시간으로 주변 교통 상황을 수집해 분석하는 것이 한 예로 들 수 있겠네요.

하지만, 이러한 실시간으로 수집되는 데이터의 분석은 사람이 하기 어렵습니다. 데이터 수집 뿐만 아니라 분석된 결과까지도 실시간으로 내놔야 하기 때문이죠. 그래서 필요한 것이 AI-ML이며, 이를 위해 고속 병렬 처리에 용이한 GPU를 활용하는 것이 필수처럼 여겨지고 있습니다. 여기에 다양한 산업 별 IoT 기기에서 데이터를 수집해, 본사 데이터 센터 혹은 클라우드가 아닌, 보다 현장에서 가까운 곳에서 직접 데이터를 수집, 분석해 결과를 도출하는 엣지 컴퓨팅이 활성화 되고 있는 것이 최근의 데이터 플랫폼 시장 트렌드라고 할 수 있습니다.


그런데 이러한, 실시간으로 수집되는 데이터를 AI-ML을 활용해 분석하고, 엣지 컴퓨팅을 실현하는 데에는 넘어야 할 산이 여럿 존재합니다. 크게 위와 같이 3가지를 들 수 있는데요. 먼저 기존의 스토리지 인프라에서는 데이터 유형 별로 어떤 스토리지에 저장할 것인지에 대한 명확한 규정이나 정책이 없어 1차로 저장된 스토리지의 데이터를 분석 전용 스토리지로 다시 가져오는, 데이터 복제가 자주 발생하게 됩니다. 이 때문에 보유한 스토리지에 데이터가 중복 저장되어 스토리지 자원을 효율적으로 활용하지 못하고 있는 것이 현실입니다.

그리고, 데이터 사일로 현상도 해결해야 합니다. 여러 부서별로 각가 필요한 데이터만 수집, 분석한다면, 전사 차원의 통합 데이터 분석이 아닌 부서 별로 보고 싶은 부분만 바라보고 데이터를 분석하게 될것입니다. 이렇게 되면 각 부서 별 입장에서는 알맞은 결과를 도출해 낼 수 있겠으나 큰 그림을 놓치게 되는 결과를 초래할 수 있죠. 게다가 이렇게 데이터가 개별적으로 활용되는 환경에서 다시 데이터를 한데 모으려 할 경우, 각 부서 별 데이터 파이프라인에 대한 관리 포인트 역시 그대로 존재하기 때문에 전사 차원의 데이터 분석은 더더욱 복잡해지고 어려워집니다.

마지막으로, 비정형 데이터의 증가로 인해 스토리지 비용이 계속 증가하는 현상도 방지해야 합니다. 대용량 데이터를 무작정 보유한 스토리지에 저장하다보면 금새 용량이 가득 차겠죠. 하지만 이러한 유형의 데이터는 앞으로 줄어들기는 커녕 계속 늘어날 것이기 때문에 계속 스토리지를 늘려가기에는 비용 부담이 큽니다. 게다가 용량 증설을 위해 스토리지를 계속 추가한다 한 들, 성능도 함께 선형적으로 확장되는 것이 아닐 가능성이 높기 때문에 데이터가 늘어날 수록 스토리지 비용 증가 뿐만 아니라, 투자 대비 성능 효율도 점점 낮아지는 단점을 해결해야 합니다.

그래서 필요한 것이 차세대 데이터레이크입니다. 앞으로의 데이터 플랫폼은 앞서 언급한 한계를 극복하고 향후 늘어나는 실시간 데이터를 빠르게 분석함은 물론, 기존에 사용했던 애플리케이션에 더해 클라우드 네이티브 애플리케이션까지 모두 수용할 수 있어야 합니다. 여기에 대용량 데이터를 빠르게 처리할 수 있는 뛰어난 성능과 중요한 데이터는 HA 구성으로 안전하게 보호할 수 있는, 차세대 데이터레이크가 필요합니다.


그렇다면, 차세대 데이터레이크는 구체적으로 어떤 특징을 가져야 할까요? 지금까지의 데이터레이크는 위 장표 좌측과 같이 Hadoop 기반의 분산파일 시스템이었습니다. 하지만 Hadoop 시스템은 구축하는 데에 많은 시간과 노력이 필요한데, 앞서 언급한 것과 같이 부서 별로 대량의 데이터 분석을 위해 Hadoop 시스템을 갖추게 되어 데이터 사일로 현상이 심해지고 전사 데이터 통합이 어려워지는 한계를 노출했습니다. 그리고 더 많은 데이터를 더 빠르게 처리하고 분석해내기 위해 인프라를 확장해야 하나 이를 위한 투자 대비 효율이 낮은 단점이 있었죠.

그래서 차세대 레이크는 GPU 기반의 분석에 최적화된 아키텍처를 기반으로 다양한 유형의 데이터를 지원함은 물론, 데이터가 중복 저장을 최소화해 스토리지 자원 활용률을 높이고, 사일로를 제거하여 데이터를 통합 관리할 수 있어야 합니다. 그리고 스케일아웃 기반 확장을 통해 투자한 만큼 용량과 성능을 확장해 나갈 수 있는 구조를 갖춰야 합니다.

이러한 요소를 모두 가진 차세대 데이터레이크가 무엇인지, 이어서 살펴보겠습니다.






2. 효성의 데이터레이크 솔루션, HCSF


효성인포메이션(이하 효성)의 차세대 데이터레이크 솔루션은 HCSF(Hitachi Content Software for File)입니다. Hadoop을 대체할 수 있는 초고성능 병렬 파일시스템에 대용량 데이터를 저장할 수 있는 오브젝트 스토리지를 더해 비용 효율성을 갖춘 데이터레이크인데요. NVMe SSD 기반의 높은 성능, 데이터 유형에 따라 자동으로 데이터를 알맞은 스토리지에 저장하고 처리하는 데이터 티어링 기반의 효율적인 운영, 다양한 프로토콜 호환성을 통해 유연한 애플리케이션 연동 환경을 지원할 수 있다는 것을 특징으로 요약할 수 있습니다.

이러한 HCSF의 특징을 좀 더 자세히 알아볼까요?


HCSF의 아키텍처는 위와 같습니다. AI-ML 분석과 같은 HPC(High Performance Computing)을 위한 초고성능 병렬 파일시스템에 대량의 데이터를 보다 저렴하고 안전하게 저장할 수 있는 오브젝트 스토리지가 결합된 패키지입니다. AI-ML을 활용한 빠른 분석이 필요한 데이터는 NVMe SSD에 저장하고, 당장 분석할 필요가 없는, 추후 분석에 활용할 대용량 데이터는 일단 저렴한 오브젝트 스토리지에 저장해 두었다가 필요할 때 가져와 분석할 수 있는 구조라고 보시면 됩니다. 

또한 데이터 유형에 따라 NVMe SSD 혹은 오브젝트 스토리지에 자동으로 저장되는 오토 티어링 정책을 기반으로 운영되며 이 비율은 위 장표 우측과 같이 10:90 혹은 20:80으로 기업 환경에 맞게 적용할 수 있습니다. 그리고 용량과 성능 확장이 필요할 때 둘 다 혹은 하나만 선택해서 필요에 따라 확장해 나갈 수 있는 스케일 아웃 구조를 갖추고 있습니다.


HCSF는 기업의 어떠한 환경에도 문제 없이 적용할 수 있도록 폭넓은 호환성을 자랑합니다. 가장 대중적인 S3 API부터 전통의 NFS(Network File System), 그리고 Microsoft Windows Server 환경을 위한 SMB(Server Message Block) 프로토콜을 지원하고요. HA구성을 통해 최소 2노드에서 최대 4노드까지 장애가 발생하더라도 성능 저하 현상이 없습니다.

그리고 NVMe SSD 기반의 높은 성능 뿐만 아니라 데이터 고속 처리를 위한 DPDK(Data Plane Development Kit)도 지원하고요. NVIDIA GPU Direct Storage를 지원하여 GPU 서버 인프라와 연계해 더욱 빠른 데이터 분석을 가능케 하며, CSI(Container Storage Interface) Pulg-in을 지원해 쿠버네티스를 비롯한 다양한 컨테이너 관리 플랫폼에서도 단일 스토리지 인프라로 활용할 수 있습니다.


지금까지 나열한 특징들을 바탕으로, HCSF는 위와 같이 3가지 영역에 걸쳐 경쟁 제품 대비 확실한 우위에 있음을 입증했는데요. 대용량 데이터 처리 성능에 있어 HCSF에 탑재된 NVMe SSD 스토리지 노드는 경쟁 제품 대비 절반의 노드 만으로 2배의 성능을 보였고, 특정 분석 애플리케이션을 운영함에 있어서 경쟁 제품 대비 650배 이상의 많은 파일을 성능저하 없이 처리할 수 있었습니다. 그리고 오브젝트 스토리지 노드 성능 역시 경쟁 제품대비 절반의 노드로 4배 이상 높은 성능을 보임으로써 HCSF의 뛰어난 제품 경쟁력을 검증받았습니다.

HCSF의 특징과 뛰어난 성능은 이정도면 충분히 말씀드린 것 같습니다. 이어서, HCSF가 실제 기업 환경에서 어떻게 구축되어 활용되고 있는지 국내외 다양한 사례를 통해 알아보겠습니다.







3. HCSF 구축 사례


첫 번째 사례는 영국의 헬스케어 연구기관입니다. 이미 데이터 분석 시스템을 갖추고 있었으나 계획보다 더 많은 데이터 분석이 필요한 상황이 되었고요. 기존의 인프라로는 향후 늘어날 데이터를 용량과 성능 측면에서 감당하기 어렵다는 것이 확인되어, HCSF를 통해 문제를 해결하고자 했습니다.

이 고객은 2.6PB의 NVMe SSD 48노드와 S3 오브젝트 스토리지 60PB로 데이터레이크를 구축해 늘어나는 데이터 요구사항을 해결했습니다. 나아가 동일한 HCSF를 좀 더 소규모로 추가 구축하여 백업과 소산 목적의 인프라로 활용했고, 별도의 오브젝트 스토리지로 DR 환경까지 구축해 이중 삼중으로 안전한 데이터 보호 체계를 구현한 사례라고 볼 수 있겠습니다.


두 번째 사례는 국내의 대표적인 제조기업입니다. 이 기업 역시 자사의 방대한 데이터 분석을 위한 DW와 Hadoop 시스템을 갖추고 있었으나 전사 차원의 분석 업무로 확장하기에는 한계가 있다는 것을 확인하여 아예 새로운, 전사 데이터 통합 분석환경을 마련하고자 했습니다.

이를 위해 1PB의 HCSF 19노드, 10PB의 오브젝트 스토리지로 HCSF를 구축해서 보다 향상된 성능과 더 많은 저장 공간을 확보했고요. 전사 차원의 데이터 분석 시스템으로 자리매김하기 위해 현업에서 쉽게 데이터에 접근하고 필요한 데이터를 추출, 분석에 활용할 수 있는 환경을 제공했습니다. 기존의 업무 시스템과 HCSF 기반의 분석 시스템을 통합했다고 보시면 되겠습니다.

무엇보다 고무적인 것은, 데이터 분석 인프라 구축과 운영에 필요한 비용을 절감할 수 있었다는 것입니다. 이 기업은 이미 데이터 분석 시스템을 운영했었죠. 그래서 HCSF를 활용한 통합 데이터레이크 구축 효과를 제대로 느낄 수 있었는데요. 이전보다 더 많은 성능을 확보함과 동시에 정책 기반의 오토 티어링과 오브젝트 스토리지를 활용해 운영 비용이 절감됐다는 효과를 충분히 경험한 이 제조기업은, 효성과 함께 다음 단계의, 데이터 분석 체계 고도화 사업을 준비하고 있습니다.


세 번째 사례는 국내의 모 R&D 기업입니다. AI 경쟁력은 제한된 시간 내에 얼마나 많은 데이터를 학습해서 높은 정확도를 확보할 수 있느냐에 달렸습니다. 때문에 이 기업은 이미 보유하고 있었던 AI의 자연어 처리 알고리즘 학습 성능을 개선하고자 했고요. 이를 위해 HCSF의 NVMe SSD 노드로 1.2PB 규모의 고성능 스토리지 노드를 확보했고요. 추가로 GPU 서버를 도입, HCSF와 GPU Direct Storage로 연결해 높은 성능을 확보함과 동시에 HCSF의 CSI Plug-In을 통해 컨테이너 환경도 고성능의 스토리지를 활용할 수 있게 되었습니다.

이를 통해 기존의 AI 알고리즘 학습 성능을 대폭 개선함은 물론, 이미 기존에 사용하고 있었던 S3 오브젝트 스토리지를 HCSF와 연계해 보다 비용 효율적인 데이터레이크를 구축할 수 있었습니다.


네 번째 사례는 국내 공공 AI 교육기관으로, AI를 개발하고 알고리즘을 학습할 수 있는 인프라를 구축해 다른 학교 및 기관, 기업들이 AI를 연구할 수 있는 서비스를 제공하기위해 HCSF를 도입했습니다. 600TB의 NVMe SSD 노드와 7PB의 오브젝트 스토리지로 HCSF 데이터레이크를 구축했고, NVIDIA GPU 서버를 함께 도입하여 다수의 연구원, 개발자, 데이터 분석가들이 각자의 AI 알고리즘을 학습시킬 수 있는 환경을 제공할 수 있었습니다.


마지막 사례는 국내 AI 서비스 기업입니다. 앞서 소개한 사례들과는 달리, 인프라 기획 초기 단계부터 초고속 병렬처리 시스템을 목표로 했기에 오브젝트 스토리지 없이 NVMe SSD 노드로만 데이터레이크를 구축했고요. 여기에 GPU Direct Storage로 응답성능을 높이고 CSI Plug-In으로 컨테이너 환경을 지원함으로써, AI 교육 서비스 제공 및 자사의 AI 학습 모델을 테스트할 수 있는 프라이빗 클라우드 환경을 구현할 수 있었습니다.

여기까지 효성의 HCSF 구축 사례를 살펴봤고요. 마지막으로 기업이 데이터레이크 구축을 위해 왜 효성을 고려해야 하는지에 대한 제안 사항을 소개하겠습니다.






4. 기업의 성공적인 데이터레이크 구축을 위한 효성의 제안


기업이 성공적으로 데이터레이크를 구축하기 위해서는 무엇보다 데이터레이크 구축 프로젝트에 대한 경험이 풍부한 파트너를 선정하는 것이 중요합니다. 이를 위해 효성은 기업들이 Action(실행력), Business Case(사례), Competency(구축 역량)을 통해 파트너를 검증해 볼 것을 제안하고 있고요. 

각 요소마다 효성은 HCSF와 NVIDIA GPU 서버를 활용한 자체 POC 시스템을 보유하고 있고, 구축사례도 다양한 업종에 보유하고 있으며, 성공적으로 다수의 프로젝트를 수행한 경험을 가지고 있다는 것을 HCSF 특징과 사례를 설명한 장표를 통해 소개해 드렸습니다.




만약 데이터레이크 구축을 검토하는 기업이 있다면, 효성이 제공하는 4가지 프로그램을 고려해 보시기 바랍니다. 기업 맞춤형 상세 워크샵을 통해 기업의 요구사항을 면밀히 분석할 수 있고요. 아키텍처 컨설팅으로 실제 구현 가능한, 기업만을 위한 데이터레이크 아키텍처를 그려나갈 수 있습니다.

그리고, 이렇게 준비한 사항을 토대로 효성의 인포메이션 DX센터에서 PoC를 통해 기업이 요구하는 사항을 충족할 수 있는지 검증할 수 있고요. 마지막으로, 실제 기업이 프로젝트를 성공적으로 수행할 수 있도록 사업계획 수립부터 RFP 준비, 이후 다양한 지원 서비스 제공합니다.  효성의 데이터레이크 검토 의사가 있는 분들은 아래의 링크를 통해 전문가의 상담을 받아보시기 바랍니다.


끝으로, 지금까지 정리한 내용은 아래의 웨비나 영상을 통해 발표자의 생생한 발표로 좀 더 자세히 내용을 확인하실 수 있습니다. 관심있는 분들의 많은 시청 부탁드립니다. 아래의 이미지를 클릭하시면 웨비나 영상으로 이동합니다.



<효성인포메이션시스템 데이터레이크 웨비나 시청하기>



이 콘텐츠가 기업의 통합 데이터레이크 구축 방안을 고민하고 있는 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!

2개의 댓글이 있습니다.

19일 전

정보 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

19일 전

자료 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입