지능화된 데이터 레이크로 비즈니스 인사이트 도출하기

지능화된 데이터 레이크로 비즈니스 인사이트 도출하기

인터넷과 디지털 기술의 발전, 모바일 기기의 보급 확대, 그리고 비대면의 일상화로 인해 보편화된 클라우드는 데이터 증가 속도를 가속화 시켰습니다. 최근 10년 새에 엄청난 속도로 증가하고 있는 데이터의 양은 이러한 기술의 발달 덕분에 더욱 빠르게 늘어나고 있죠. 2010년대에 접어들어 유행하기 시작했던 데이터 드리븐, 데이터 기반 의사 결정은 이렇게 늘어나고 있는 데이터 속에서 새로운 통찰력을 찾아내 기업 경쟁력을 향상시키기 위한, 어찌보면 당연한 흐름인 것처럼 보입니다.



<이미지 출처 : 데이터넷, 전 세계 데이터 생성 및 캡처, 복제, 소비량 변화(Statista)>


글로벌 시장 조사 기업 Statista에서 발표한 자료에 따르면 2025년까지 증가할 데이터의 양은 무려 181ZB에 이릅니다. 2020년부터 매년 증가속도가 그 전과 비교해 매우 가파르게 올라가고 있는데, 위 표를 자세히 보시면 2018년부터는 예측치라는 것을 알 수 있습니다. 즉, 위 자료는 코로나19 팬데믹 이전에 발표된 수치라는 것입니다.

코로나19 때문에 2년 넘게 이어진 비대면 생활로 인해 디지털 수요가 더욱 증가했다는 것은 우리 모두 잘 알고 있죠. 그리고 이로 인한 데이터 증가 속도 역시 더욱 빨라졌기 때문에 아마 조만간 발표될 글로벌 데이터의 양은 위 차트보다 훨씬 더 많을 것이라고 예상하는 것은 결코 이상하지 않습니다. 

따라서, 데이터는 코로나 이전보다 훨씬 더 많아졌고, 10년전부터 유행했던 데이터 기반 의사 결정의 흐름은 이제 기업 경영진에게 있어 유행이 아닌 필수 처럼 여겨지게 되었다고 해도 과언이 아닐 것입니다. 그렇다면, 이러한 상황속에서 기업들이 보다 빠르고 효과적인 통찰력을 데이터 속에서 얻어내기 위해서는 어떻게 해야 할까요?




<이미지 출처 : 전자신문, 2022 기업 데이터 인사이트 구축과 스마트 활용 전략 온라인 컨퍼런스 초청장>


지난 3월 23일(수) 오전 오후 종일 전자신문인터넷이 주관하고 국내외 14개 IT 기업들이 후원한 '2022 비즈니스 향상을 위한 기업 데이터 인사이트 구축과 스마트 활용 전략 온라인 컨퍼런스'가 진행되었습니다. 서두에서 언급한 고민을 가진 많은 기업의 담당자, 경영진들에게 후원사로 참여한 기업들이 보유한 솔루션으로 나름대로의 해결책을 제시하기 위한 컨퍼런스였는데요. 

이번 콘텐츠에서는 이날 컨퍼런스의 세션 중 가장 중요한 키노트 세션의 세 번째 순서로 발표된 효성인포메이션의 세션 내용을 정리했습니다. 주제는 'AI/ML시대, 데이터의 가치는 데이터 레이크로부터!'입니다.



기업은 데이터 분석이 중요하지만 분석해야 할 데이터를 어떻게 빠르게 분류하고 그 안에서 유의미한 결과물을 도출해 기업 경영에 활용할 수 있을지에 대한 고민이 많습니다. 이러한 고민을 해결하기 위해 효성인포메이션은 AI 기술에 클라우드에 최적화된 오브젝트 스토리지, 그리고 고성능 파일시스템을 더한 차세대 데이터 인텔리전스 솔루션을 소개했는데요. 총 3개의 아젠다로 나뉘어 소개된 세션의 내용을 발표자료와 텍스트로 상세히 정리했으니 미처 컨퍼런스를 놓치신 분들이 계시다면 지금부터 이어질 내용에 집중해 주시면 감사하겠습니다.

주요 아젠다는 아래와 같습니다.


1. AI/ML을 활용한 데이터 레이크 가시성 확보

2. 지능형 데이터 레이크 구축

3. AI/ML을 위한 데이터 레이크 성능 최적화


이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.







1. AI/ML을 활용한 데이터 레이크 가시성 확보




데이터 레이크(Data Lake)는 정형, 반 정형, 비정형으로 나눠진 모든 데이터 유형을 한데 모아 원본 그대로 저장할 수 있는 데이터 저장소를 의미합니다. 기업이 방대한 데이터를 수집해서 분석하기 위해서는 일단 데이터를 모아야 하죠? 그래서 필요한 것이 데이터 레이크라고 보시면 됩니다. 하지만 데이터 레이크에 쌓이는 데이터의 양은 매우 많기 때문이 이 안에서 어떤 데이터가 우리 회사의 비즈니스에 의미가 있는지 분석하기 위해서는 먼저 분류를 잘 해야 합니다.


첫 번째 주제인 'AI/ML을 활용한 데이터 레이크 가시성 확보'에서는 사람이 직접 하는 것이 아닌, AI의 힘을 빌려 효율적으로 데이터 레이크에서 가시성을 확보하는 방안에 대해 살펴보겠습니다.










먼저 데이터 마찰이라는 용어에 대해 짚고 넘어가겠습니다. 데이터 마찰이란 기업의 경영진 혹은 데이터 분석가들이 뭔가 의미있는 분석 결과를 도출해내기 위해 제대로 된 데이터를 기다리는 시간을 의미합니다. 과거에는 ERP와 같은 경영정보시스템이 가지고 있는, 매우 잘 분류된 데이터, 매주 혹은 매월 매년 등 동일한 포맷으로 제공되는 정기 보고서를 얻기 위해 데이터를 기다리는 데이터 마찰은 크게 문제가 되지 않았죠. 이 시간이 어느 정도 걸려야 제대로 된 데이터를 손에 얻을 수 있었으니까요.

하지만 지금은 다릅니다. 분석해야 할 데이터의 양이 너무도 많아진 빅데이터 시대에 이렇게 기다리는 시간은 데이터 분석을 통한 결과물 도출에 이르기까지의 시간 역시 늦어지게 만들 뿐입니다. 실제로 방대한 데이터 분석에 AI/ML을 활용하고자 시도하는 프로젝트에서 겨우 20%의 ML 알고리즘 모델만 활용되고 있으며, 프로젝트 중 고작 15%만 성공한다고 합니다. 왜 그럴까요?

가장 큰 이유는 AI/ML을 활용한 빅데이터 분석 프로젝트에 투입되는 노력 중 80%가 데이터 통합에 소요되기 때문입니다. 분석 전 단계인 데이터 통합에 80%의 시간과 노력이 투입된다는 것은 낭비되는 자원이 많다는 의미죠. 이를 최소화하고 더 빨리 더 많은 데이터를 활용할 수 있어야 빅데이터 분석 프로젝트의 성공률을 높일 수 있을 것입니다.



이렇게 데이터 통합에 80%의 공수가 투입되는 원인을 따져볼 필요가 있겠습니다. 먼저 기업들은 자사의 비즈니스에 유의미한 데이터를 수집하는 데에 어려움을 겪고 있으며, 현재 보유하고 있는 데이터에 대한 신뢰도 역시 낮다는 것을 꼽을 수 있습니다. 게다가 각종 법규와 규제들이 늘어나면서 민감 데이터 관리에 대한 어려움이 가중되고 있죠. 만약 기업에 보관하고 있는 고객의 데이터가 어디에 분산되어 저장되어있는지 파악하기 어렵다면 규제 미준수에 의한 패널티 비용을 부담해야할 수도 있습니다.

그리고 데이터 저장 비용 증가 역시 문제입니다. 많은 데이터 중에 분명 중복되는 데이터도 있을 것이고 오래되어 활용 가치가 떨어지는 데이터들도 많을텐데, 이런 데이터들이 무엇인지 어디에 얼마나 저장되어 있는지 파악이 어렵기 때문에 무작정 저장하다보니 데이터 저장 비용 증가를 피할 수 없게 되었죠 .이러한 이유들 때문에 데이터에서 제대로 된 가치를 발견하는 것은 매우 어려운 일이고 관리 비용 역시 상당 부분 낭비되고 있는 것이 현실입니다.



이번에는 데이터를 다루는 두가지 유형의 담당자들, 현업 사용자와 데이터 관리자가 바라보는 데이터에 대한 관점의 차이를 살펴봅시다. 현업 사용자는 데이터를 그들이 사용하는 비즈니스 용어와 분류에 맞게 스스로 이리저리 분석하고 활용하기를 원합니다. 하지만 데이터 관리자는 데이터가 어디서 어떻게 관리되고 있는지에 대한 데이터 거버넌스와 데이터 보안 및 규제 준수에 대해 관심을 가질 뿐이죠. 현업 사용자는 데이터를 마음대로 다루고 싶어 하지만 데이터 관리자 입장에서는 각종 규제와 보안 규정에 위배된다며 쉽게 허락하지 않습니다. 때문에 이 둘의 관점의 차이는 좁히기 어려운 것이 현실입니다.

이 둘의 관점의 차이는 사내 업무 문화 개선을 통해 좁힐 수 있겠지만 더 큰 문제는 물리적으로 사람이 데이터를 직접 분석하기 너무 어려울 만큼 대량의 데이터가 쌓이고 있다는 것입니다. 예를 들어 한 기업이 40억개에 달하는 레코드가 있는 데이터를 1,000명의 분석가에게 분류를 맡긴다고 가정해 봅시다. 이 경우에도 1명이 40만개의 데이터를 분류하고 정제해야 합니다. 사람이 직접 처리하기에는 너무도 많은 수이기도 하지만 현실적으로 한 기업이 1,000명의 데이터 분석가를 보유하는 것도 매우 어려운 일입니다.


그래서 필요한 것이 AI 기반의 데이터 카탈로그 솔루션입니다. 아무리 많은 데이터라도 기업에서 사용하는 비즈니스 용어에 맞게 데이터들이 자동으로 태깅되면 현업 사용자는 자신들이 사용하는 용어를 기반으로 빠르게 검색해서 필요한 데이터를 활용할 수 있게 됩니다. 게다가 기업의 데이터 관리 규정에 의해 철저하게 관리되므로 데이터 거버넌스를 구현할 수 있어 데이터 관리자 입장에서도 문제 없습니다. 




AI 기반 검색 및 태깅이 어떻게 이루어지는지에 대해 간단히 정리한 장표입니다. 먼저 대량의 데이터를 ML 알고리즘을 사용해 수천개의 유사한 필드로 그룹화해서 해당 그룹만의 고유한 핑거프린트를 생성합니다. 이후 이렇게 생성된 데이터 그룹 별 핑거프린트를 분류하고 여기에 태그를 달고, 이 태깅 데이터를 사람이 검토하고 잘못된 부분은 교정합니다. 그럼 다시 ML 알고리즘이 학습해 정확도를 높이는 작업을 반복하는 과정을 거칩니다. 일차적인 분류 및 태깅 작업은 AI가, 정확도를 높이기 위한 세부적인 교정 작업만 사람이, 그리고 다시 AI가 학습하는 과정을 반복하는 것이 핵심입니다.



효성인포메이션 시스템이 제공하는 AI 기반 데이터 카탈로그 솔루션, '루마다 데이터 카탈로그(Lumada Data Catalog)'의 화면입니다. 위와 같이 특정 csv 파일 안에 NAME이라는 열의 ID 값에 Account ID라는 태그가 96%의 정확도로 매칭되어있는 것을 확인할 수 있습니다.(빨간색 박스) 만약 이 태깅이 정확하지 않다면 사람이 직접 개입해 Sample Value의 값을 확인하고(녹색 박스) 수정해서 AI의 태깅 정확도를 향상시킬 수 있습니다.

즉, 기본적인 태깅은 AI가 수행하나 사람이 해당 결과를 검토하고 AI의 제안을 수용할 지 말지를 평가할 수 있으며 주석 달기 및 공동 작업 등 동료들과의 협업을 통해 대량의 데이터를 분류하면서 그 정확도를 간편하게 높일 수 잇다는 것입니다.



루마다 데이터 카탈로그는 AI 기반 검색과 태깅 기능을 클라우드의 데이터와 하둡에 있는 온프레미스에 있는 데이터, 관계형 데이터베이스에 있는 기업 전체 데이터에 적용합니다. 페타바이트 이상의 데이터를 관리할 수 있는 데이터 레이크로써 현업에서 사용되는 비즈니스 용어로 지정해 태깅할 수 있고, 데이터를 분류하고 큐레이션하는 현업 사용자와 협업함으로써 AI의 태깅 정확도를 더욱 높일 수 있습니다.

게다가 루마다 데이터 카탈로그는 기존에 기업에서 사용하는 업무용 애플리케이션과 쉽게 통합이 가능합니다. 이는 데이터 카탈로그 작업이 기업에서 실제 수행되는 업무 기반으로 진행됨을 의미하며, 덕분에 기업은 업무 적합도가 높고 활용성이 뛰어난 데이터 카탈로그를 얻을 수 있습니다.



따라서 기업이 루마다 데이터 카탈로그 솔루션을 활용하면 AI 기반으로 빠르게 기업이 보유한 전체 데이터를 하나의 가장 데이터 레이크로 구성할 수 있습니다. 다수의 경로에서 수집되는 다양한 데이터 소스를 하나의 거대한 싱글뷰로 담아낼 수 있다는 것입니다.

그리고 이렇게 데이터를 한 곳에 담아낸다고 끝난 것이 아니라, 여기서 적절한 데이터를 찾아내 빠르게 인사이트를 얻어낼 수 있도록 도와주는 것이 AI 기반 솔루션의 가장 큰 장점입니다. 앞서 보셨던 AI 기반의 데이터 카탈로그 기능, 각종 규정과 법적 규제를 준수하는 데이터 거버넌스, 기존에 기업이 활용하는 다양한 BI 도구와 통합되어 운영할 수 있는 점 덕분에 현업 사용자들은 이미 익숙한 도구를 활용해 방대한 데이터 속에서 빠르게 인사이트를 도출해낼 수 있습니다.

적절한 인사이트를 적시에, 기업이 필요로 할 때 재빨리 얻어낼 수 있도록 도와줄 수 있다는 것이 AI 기반의 데이터 레이크 솔루션, 루마다 데이터 카탈로그의 핵심 역할입니다.






2. 지능형 데이터 레이크 구축



이번 주제는 '지능형 데이터 레이크 구축'입니다. 앞서 살펴본 루마다 데이터 카탈로그는 방대한 데이터를 빠르게 태깅해서 분류하고, 그 안에서 현업 사용자들이 데이터를 분석해 낼 수 있도록 도와주는 솔루션이었죠. 그렇다면 이렇게 데이터를 분류해 내기 위해서는 먼저 데이터를 한데 모을 필요가 있을 것입니다. 그래서 필요한 것이 데이터 레이크이고, 이번 주제에서는 클라우드 시대에 알맞은 지능형 데이터 레이크 구축 방안인 오브젝트 스토리지에 대해 다룹니다.



오브젝트 스토리지의 역사는 1995년으로 거슬러 올라갑니다. 공공, 금융 분야에서 전자문서와 이미지 데이터 장기보관용도의 WORM 스토리지로 활용되기 시작한 오브젝트 스토리지는 NAS나 SAN과 같은 표준 인터페이스 없이 스토리지 제조사 별로 자체 API를 사용했습니다. 때문에 만약 스토리지 제조사가 바뀔 경우 이미 사용하고 있던 애플리케이션의 코드를 수정해야 하는 문제가 있어 광범위하게 사용되지는 못했습니다.

2세대 오브젝트 스토리지는 2012년 AWS의 S3 API가 시발점이 되었습니다. AWS가 발표한 S3 API가 업계 표준 인터페이스로 자리잡으면서 많은 스토리지 제조사들이 S3 API를 차용하기 시작했고, 덕분에 애플리케이션 호환성 역시 증가되어 오브젝트 스토리지는 이 때부터 본격적으로 산업 전 분야에 걸쳐 널리 사용되기 시작했다고 봐도 됩니다. 2세대 오브젝트 스토리지에는 1세대가 가진 WORM 기능에 더해 파일을 덮어써도 이전 버전을 유지해 주는 기능이 추가되어 애플리케이션에 활용되기 적합한 매력적인 스토리지가 되었습니다. 

차세대 오브젝트 스토리지는 빅데이터 분석을 위한 하둡 최적화 혹은 이를 대체하기 위한 데이터 레이크 용도로 진화하고 있습니다. 최근에는 IoT와 같은 기기를 통해 엣지 단에서 수집되는 데이터를 데이터 센터에서 바로 처리하고 분석에 활용하기 위해 오브젝트 스토리지 활용이 증가되고 있고요. 콘텐츠에 사용자 정의 메타 데이터를 오브젝트 기반으로 추가한 오브젝트 스토리지 솔루션에서 직접 세분화된 데이터 관리 및 거버넌스 관리가 추가된 것이 차세대 오브젝트 스토리지의 특징입니다. 게다가 온프레미스와 클라우드 어디에 저장된 데이터라도 애플리케이션이 언제든지 접근할 수 있습니다.



앞서 간단히 언급했듯이 오브젝트 스토리지는 애초에 빅데이터 분석과 같은 업무를 위해 설계되지 않았고 데이터 장기 보관용으로 적합했던 스토리지였습니다. 게다가 대량의 데이터 속에서 메타데이터 관리와 캐싱은 읽기 성능 하락의 원인이 되어 더더욱 분석 업무에는 적합하지 않았죠. 하지만 비용이 저렴하고 클라우드 기반으로 어디서든 접근이 가능하다는 장점은 매우 매력적입니다.

때문에 지금과 같이 데이터의 양이 폭증하고 있고 분석해야 할 데이터가 많아지는 상황에서는 오브젝트 스토리지가 훌륭한 대안이 될 수 있습니다. 금융 및 생명과학 분야에서는 특히나 오브젝트 스토리지 기반의 데이터 레이크가 필요한데요. 이런 분야의 데이터 분석을 위한 오브젝트 스토리지는 대규모 확장이 가능해야 함과 동시에 하이브리드 클라우드 구현을 위한 S3 기반 스토리지 버킷이 필요하고 데이터 보호 및 규정 준수 요건을 갖춰야 합니다. 게다가 비용까지 낮으면 금상첨화겠죠.

앞서 언급한 금융 및 생명과학 분야는 엄격한 법적 규제때문에 대량의 데이터를 온프레미스에 저장해야 합니다. 그래서 HDFS(Hadoop Data File System)을 위해 값비싼 스토리지를 사용해 왔는데, HDFS에 저장된 데이터를 클라우드의 오브젝트 스토리지로 이관할 경우 비용 절감 뿐만 아니라 일관된 데이터 관리가 가능해집니다. S3 기반 오브젝트 스토리지의 경우 오브젝트 스토리지에 오프로딩되어 있는 데이터를 하나의 파일시스템에 저장되어있는 것처럼 보이게 할 수 있기 때문이죠. 게다가 오브젝트 스토리지는 컴퓨팅 노드와 함께 배치할 수 있어 기존의 비싼 전통적인 스토리지를 대체할 수 있는 효과가 있습니다.



효성인포메이션시스템의 HCP(Hitachi Content Platform)은 앞서 언급한, 현재의 빅데이터 분석 프로젝트에서 요구하는 다양한 사항들을 충족시킬 수 있는 차세대 클라우드 오브젝트 스토리지입니다. 클라우드 기반의 무한한 성능 및 용량 확장이 가능해 고성능, 대용량을 요구하는 HDFS를 대체할 수 있고 S3와 호환되어 하이브리드 클라우드 뿐만 아니라 멀티 클라우드 환경에서도 일원화된 데이터 레이크를 구축할 수 있는 오브젝트 스토리지라고 할 수 있습니다.




그렇다면 HCP를 어떻게 활용할 수 있는지 좀 더 자세히 살펴볼까요? 위와 같이 과거에는 오브젝트 스토리지에 저장된 정형 데이터를 검색하기 위해서는 DB로 데이터를 가져온 다음 검색해야 했습니다. 하지만 S3 오브젝트 스토리지에 저장하면 표준 SQL을 사용해 원하는 레코드 추출이 가능합니다.

만약 1.7GB parquet 파일에서 검색을 하기 위해서는 이 파일을 내려받아 DB에서 SQL 쿼리를 날려 결과값을 추출해야 했지만, HCP를 사용하면 위와 같이 바로 S3 오브젝트 스토리지에서 호환되는 SQL 쿼리를 통해 1KB 미만의 용량만 반환할 수 있습니다. 기존에 1.7GB 파일을 가져와 검색하는 것과 비교하면 훨씬 빠르게 원하는 데이터를 얻을 수 있다는 것을 의미합니다.



그리고 HCP는 클라우드의 S3 호환 오브젝트 스토리지와 1:N 동기화를 지원하는 하이브리드 클라우드 확장 기능을 제공합니다. 단일 트리거 기반으로 로컬 콘텐츠를 다수의 클라우드 기반 스토리지 버킷으로 동기화할 수 있고요. 반대로 다양한 엣지 클라우드에 저장된 데이터를 중앙의 오브젝트 스토리지 버킷으로 가져올 수도 있습니다. 이러한 작업은 HCP 정책 엔진에서 간단히 설정해서 활용할 수 있기 때문에 GDPR과 같은 규정을 준수하면서 데이터 저장소를 효율적으로 관리할 수 있습니다.



이번 케이스는 온프레미스와 퍼블릭 클라우드 모두에서 활용가능한 하이브리드 클라우드에서의 활용 사례입니다. 최근의 클라우드 네이티브 기반 애플리케이션은 데이터가 온프레미스가 아닌 클라우드에 있어야 유리하죠. 즉, 온프레미스 데이터를 클라우드로 마이그레이션해야 한다는 것을 의미합니다. 이 경우 S3 버킷 복제 기능을 통해 온프레미스 데이터를 S3 오브젝트 스토리지로 전달할 수 있습니다.

예를 들어 S3 오브젝트 스토리지를 사용하는 애플리케이션에서 음성 데이터를 저장할 경우, 이 음성 데이터는 AWS S3 오브젝트 스토리지로 동기화돕니다. 이후 AWS의 음성 -> 텍스트 변환 도구를 통해 텍스트로 변환되면 이 데이터는 다시 온프레미스 HCP로 동기화됩니다.(복제 전달) 그리고나서 이 데이터는 온프레미스의 HCP에 저장되어 검색되기 편한 형태로 분류되어 관리됩니다. 결과적으로, 클라우드 애플리케이션에서 저장된 음성 데이터의 효율적인 관리가 온프레미스 환경에서 가능해진다고 보시면 되겠습니다.







3. AI/ML을 위한 데이터 레이크 성능 최적화



마지막 주제는 'AI/ML을 위한 데이터 레이크 성능 최적화'입니다. 앞서 데이터 레이크 구축을 위해 차세대 오브젝트 스토리지를 활용하면 좋다고 말씀드렸는데요. 오브젝트 스토리지만으로 데이터 분석 용도로 활용하기에는 성능상의 아쉬움이 있는 것이 사실입니다. AI/ML 분석에는 GPU 가속이 필요한 워크로드나 HPC 워크로드도 있으니까요. 그래서 이번 주제에서는 본격적인 AI/ML 분석에 활용할 수 있는 데이터 레이크 성능 최적화 방안에 대해 살펴보겠습니다.



재까지의 데이터 레이크는 일반적으로 하둡을 의미했습니다. 대량의 데이터 = 빅데이터 = 데이터 레이크 = 하둡이라는 공식은 꽤 오랫동안 통용되어왔죠.  하지만 하둡, 즉 HDFS는 데이터의 양이 증가하고 더욱 빠른 성능이 필요할 경우 컴퓨팅 노드와 스토리지 노드를 함께 확장해야 합니다. 게다가 스토리지의 경우 3벌 복제가 기본이라 비용이 크게 증가하기 때문에 비효율적이죠. 그래서 하둡은 AI/ML 환경의 분석 환경에 적합하지 않고 GPU 기반의 분석에도 알맞지 않은 문제가 있습니다. 이는 분석 속도를 끌어올리는 데에 CPU만 활용해야 하기에 한계가 명확하다는 얘기가 됩니다.

때문에 AI/ML 분석에 알맞은 새로운, 차세대 데이터 레이크는 고성능 쿼리를 제공함과 동시에 GPU 기반 분석에 최적화된 아키텍처 기반이어야 합니다. 나아가 다양한 프로토콜 지원해서 애플리케이션 호환성이 높아야 함은 물론 데이터 중복 및 사일로 역시 제거할 수 있어야 하고요. 마지막으로 더 높은 성능이 필요할 때는 컴퓨팅 노드만, 더 많은 저장 공간이 필요할 때에는 스토리지 노드만 독립적으로 확장할 수 있어야 합니다.



효성인포메이션시스템의 HCSF(Hitachi Content Software for File) 솔루션은 AI/ML에 최적화된 데이터 레이크를 위한 차세대 고성능 파일서비스 솔루션입니다. NVME-oF 기반의 병렬 파일시스템으로 매우 빠른 성능을 제공하며 S3 기반의 오브젝트 스토리지가 통합된 패키지로 보시면 되는데요. 고성능 파일 시스템에서 오브젝트 스토리지가 가진 장점을 고스란히 누릴 수 있다는 것을 의미합니다.



그렇다면 HCSF를 어디에 활용하면 좋을까요? 가장 먼저 각종 금융공학 데이터를 기반으로 트레이딩, 실시간 분석, 위장 거래 감지 등을 위한 금융 서비스 분야에 활용될 수 있고요. 전자설계검증 및 인지 분석과 딥러닝 기술을 활용하는 첨단 제조설비 분야에 활용할 수 있습니다. 또한 대량의 유전자 데이터를 기반으로 한 생명공학 분야와 더불어 실시간 위치 기반 분석 등 다양한 HPC 워크로드에 활용하기 딱입니다.



HCSF의 기본 컨셉은 HPC 워크로드에 알맞다는 것으로 이해할 수 있겠는데, 어떤 아키텍처로 되어있길래 고성능을 발휘할 수 있는 것인지 살펴봅시다. 일반 기본적으로 NVMe 노드와 S3 오브젝트 스토리지, 네트워크로 구성되고요. NVMe 노드의 경우 병렬 파일 시스템으로 스케일 아웃 확장이 가능하며 각각의 NVMe 스토리지는 초고속 100/200GbE 이더넷 혹은 InfiniBand 네트워크로 연결되어 스토리지 병목 현상을 줄입니다. 그리고 대량의 데이터 저장을 위한 오브젝트 스토리지 네트워크는 10/25GbE 이더넷으로 NVMe 노드와 연결되고요.

게다가 컴퓨팅 노드와 스토리지 노드가 분리되어있기 때문에 필요에 따라 이 둘을 선택적으로 확장할 수 있습니다. 보통의 경우는 이 둘이 통합되어 있기 때문에 확장이 필요하면 컴퓨팅 노드와 스토리지 노드를 함께 늘려야 하기 때문에 비용이 많이 필요하죠. 하지만 HCSF를 사용할 경우 나는 빠른 처리 속도가 필요한데? 그럼 컴퓨팅, 나는 현재의 속도에서 용량만 더 필요한데? 그럼 스토리지만 선택해서 확장할 수 있습니다.

그리고 NVMe와 오브젝트 스토리지는 단일 네임스페이스로 운영되는 Unified Namespace 구조입니다. 때문에 HCSF와 연결할 애플리케이션에 필요한 작업은 단순히 파일시스템만 마운트 하는 것으로 끝입니다. 여기에 더해 두 스토리지 간의 데이터 운영은 정책 기반의 티어링으로 애플리케이션 개입 없이 자동으로 동작하는 것도 HCSF만의 차별화된 특징입니다.



HPC 워크로드는 GPU 기반 분석이 반드시 필요합니다. 대용량 이미지 및 영상 데이터, 도면 데이터 등을 다루기 때문이죠. 그래서 차세대 데이터 레이크 시스템은 GPU 가속 기능을 지원해야 하는데, HCSF는 GPU 다이렉트 기능을 통해 고성능 HPC 워크로드에서 필연적으로 발생하던 스토리지 병목 현상을 제거합니다. 기존의 CPU에 의존한 분석에서 NVIDIA GPU 가속 기능을 더해 스토리지 I/O를 비약적으로 향상시켜 빠른 분석을 가능하게 합니다.

그리고 비정형 데이터 저장을 위한 S3 API를 지원함은 물론 데이터 분석가를 위한 사용자 레벨의 데이터 접근, 컨테이너 환경을 위한 스토리지 플러그인을 제공해야 클라우드 애플리케이션에 제대로 활용될 수 있습니다. 결국 기업은 HCSF를 통해 고성능 스토리지를 제공받음과 동시에, 다양한 클라이언트 애플리케이션의 요구사항에 따라 데이터 인터페이스를 수정하지 않아도 되기 때문에 기업의 효율적인 스토리지 인프라 운영이 가능해 집니다.



HCSF의 병렬 파일시스템을 좀 더 자세히 살펴봅시다. 스토리지로 들어오는 모든 데이터에 대해 설정에 따라 다수의 Chunk와 Parity로 분산 저장할 수 있는 완벽한 데이터 병렬 처리를 지원하고요. 위와 같이 필요에 따라 가변적으로 Chunk와 Parity를 설정할 수 있습니다. 이 가변 설정 범위는 최대 16개의 Chunk, 최대 4개의 Parity이며, 이를 통해 데이터를 전체 노드에 분산해서 저장하고 처리할 수 있다는 것이 HCSF의 경쟁 솔루션과는 차별화된 가장 큰 장점입니다. 경쟁 솔루션의 경우 보통 메타 데이터 전용 서버를 필요로 하지만 HCSF는 그렇지 않거든요.



HCSF는 전통적인 NAS도 지원하지만 최신 DPDK(Data Plane Development Kit) 기술이 적용되어 NAS 프로토콜의 오버헤드를 제거하고 리눅스 커널과의 직접적인 통신을 통해 애플리케이션의 빠른 I/O 처리를 가능하게 합니다. 이는 곧 더욱 빠른 응답 성능을 구현했다는 것을 의미하며, AI/ML 분석 성능 향상으로 이어지기 때문에 HCSF를 통해 보다 빠르게 데이터 분석 결과를 얻을 수 있다고 해석할 수 있습니다.



너무 HCSF의 기능 자랑만 한 것 같은데, 이제 HCSF의 구체적인 활용 사례 및 도입 효과에 대해 알아보겠습니다. 위와 같이 자율주행자동차 기업인 A사는 기존에 80시간이 걸리던 ML 훈련 시간이 HCSF를 적용해 단 4시간으로, 1/20 수준으로 ML 훈련 시간을 단축시켰습니다. 이는 1년치 분량의 작업을 1주일 미만으로 해결할 수 있다는 것을 의미하며 경쟁사 대비 더욱 많은 데이터를 학습시킬 수 있게 되었습니다.

AI 학습량 = AI 정확도라고 봐도 무방하죠. 정해진 시간에 더 많은 데이터를 학습시킬 수 있다면 AI 정확도는 당연히 더 높을 수 밖에 없을 것입니다. AI 업계에서 AI 정확도가 높다? 이는 곧 그 기업이 시장을 주도할 수 있다는 것으로 받아들여도 됩니다.



이번 사례는 대량의 DNA 및 의료 임상 정보를 토대로 난치병 치료 연구 목적으로 HPC를 도입한 기업의 사례입니다. 이 기업은 분석 데이터의 범위를 확대해 총 160PB까지 늘렸고요. 다루는 데이터의 중요도를 고려해 HCSF의 Snap to Object 스토리지 기능을 활용, 총 3개의 센터에 데이터를 3중 보호할 수 있는 시스템을 구축했습니다.

인상적인 것은 각 지역 마다 놓인 스토리지에 차이가 있는데요. 지역 2에서는 NVMe를 지역 1 대비 1/6 수준으로 구성했고 지역 3에서는 오브젝트 스토리지만 구성해 비용을 최적화해서 운영 중입니다. HCSF는 고성능 뿐만 아니라 데이터 백업 및 DR 환경 구축에 있어서도 적합하다는 것을 보여주는 사례라고 할 수 있겠습니다.



국내 B사의 경우 전사 데이터 분석 및 데이터 거버넌스 체계의 통합을 위한 데이터 레이크로 HCSF를 도입해 총 1PB의 데이터를, 앞서 두 번째 주제에서 다뤘던 오브젝트 스토리지 솔루션인 HCP에 10PB의 데이터를 저장했습니다. 총 11PB의 데이터 레이크라고 볼 수 있는데요. HCSF의 고성능을 활용해 데이터를 빠르게 조회/분석하는 용도로 사용 중이며, S3 호환 오브젝트 스토리지를 활용해 클라우드 애플리케이션 데이터까지 자사의 분석 포탈로 가져와 현업 사용자들에게 적시에 적합한 데이터를 제공하고 있습니다. 

이 고객의 경우 생성되는 데이터의 단위가 몇KB 수준으로 매우 작은 데이터가 대량으로 발생하는데 HCSF를 통해 480GB/s의 높은 성능을 제공받아 데이터 처리에 전혀 문제가 없었고, 대용량 데이터는 S3 오브젝트 스토리지에 저장함으로써 비용 절감효과까지 얻을 수 있어 매우 만족하고 있다고 합니다.



이제 드디어 마지막 장표까지 왔습니다. 앞서 보여드린 세 가지 솔루션을 모두 아우르는, 요약 장표라고 보시면 되고요. 첫 번째 주제인 'AI/ML을 활용한 데이터 레이크 가시성 확보'기에서는 업이 보유한, 기존의 산재된 데이터는 AI 기반 태깅이 가능한 데이터 카탈로그인 '루마다 데이터 카탈로그' 솔루션을 통해 가상 데이터 레이크를 구현할 수 있음을 확인했습니다.(왼쪽 이미지 참고)

그리고 두 번째 주제인 '지능형 데이터 레이크 구축'에서는 새로운 데이터 레이크 구축 시 차세대 지능형 오브젝트 스토리지를 활용해 폭증하는 데이터 증가량에 대비함과 동시에 S3 기반의 호환성을 바탕으로 기업의 다양한 애플리케이션에 오브젝트 스토리지를 타겟 스토리지로 활용할 수 있음을 확인했고요. 나아가 다수의 S3 클라우드 오브젝트 스토리지와 이기종 스토리지 기반의 멀티 데이터 레이크를 HCP(Hitachi Content Platform)으로 구현할 수 있음을 사례와 함께 알아봤습니다.(중간 이미지 참고)

마지막으로 세 번째 주제인 'AI/ML을 위한 데이터 레이크 성능 최적화'에서는, 일반적인 데이터 레이크의 경우 실시간 대용량 처리에 적합하지 않을 수 있으나 오브젝트 스토리지 앞단에 NVMe 기반 고성능 파일 시스템을 배치해 성능을 향상시켜서 AI/ML 보다 빠르게 수행할 수 있는 HCSF(Hitachi Content Software for File) 솔루션을 자세한 아키텍쳐, 그리고 사례와 함께 살펴봤습니다.(오른쪽 이미지 참고)





이번 세션의 내용을 간단히 요약하면, 기업이 가지고 있는 대량의 데이터를 분석해 인사이트를 도출하기 위해서는 데이터를 한데 모을 수 있는 데이터 레이크가 필요하며, 이 데이터 레이크는 사용자들이 빠르게 데이터를 찾을 수 있도록 AI/ML 기반의 태깅 기능을 지원해야 하고, 대량의 데이터 저장과 클라우드 애플리케이션과의 호환성을 위한 오브젝트 스토리지 기능을 제공함은 물론, HPC 워크로드에서도 활용할 수 있는 고성능 + 비용 최적화 방안이 마련되어야 한다는 것으로 정리할 수 있겠습니다. 

그리고 이러한 사항을 모두 충족하는 것이 앞서 소개한 효성인포메이션의 솔루션, '루마다 데이터 카탈로그', HCP(Hitachi Content Platform), HCSF(Hitachi Content Software for File)이고요.


지금까지 정리한 내용을 효성인포메이션 권필주 전문위원의 목소리를 통해 다시 한번 보고 싶으신 분은 아래의 웨비나 영상을 참고하시기 바랍니다.




더불어 위 영상과 이 콘텐츠 내용을 통해 AI/ML 기반의 지능형 데이터 레이크 구축을 검토하고 계신 분들은 아래의 링크를 통해 문의하시기 바랍니다.


이 콘텐츠가 AI/ML 시대에 알맞은 데이터 인사이트 도출 방안을 고민하고 계신 분들께 조금이나마 도움이 되었기를 바랍니다. 끝!

 

2개의 댓글이 있습니다.

4달 전

정보 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

4달 전

자료 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입