방대한 데이터 분석을 위한 효율적인 AI플랫폼 구현 방안

방대한 데이터 분석을 위한 효율적인 AI플랫폼 구현 방안

온갖 데이터가 넘쳐나는 시대에 접어든 지금, 기업의 경영진들이 가장 원하는 것은 아마도 데이터를 기반으로 빠르게, 그리고 효과적인 의사결정을 내리는 것이지 않을까 싶습니다. 기업이 다수의 경로를 통해 수집하는 다양한 유형의 데이터를 분석하고, 이 데이터로부터 의미있는 결과를 도출해내어 이를 적시에 비즈니스에 활용한다는 것이야말로, 데이터 기반 의사결정의 핵심이라고 할 수 있겠죠. 이것을 위해 많은 솔루변 벤더들은 저마다의 데이터 수집, 저장, 분석 솔루션을 내놓고 치열하게 경쟁하고 있습니다.

그런데 문제는, 의사결정에 활용할, 기업이 수집하는 데이터가 너무 많다는 것입니다. 그리고 데이터를 분석할 데이터 과학자도 많이 보유하기 어려운 것이 현실이죠. 그렇다면 어떻게 이 문제를 해결할 수 있을까요? 해결책은 바로 AI를 활용하는 것입니다.



IDC에 따르면 국내 AI 시장은 2022년 기준 1.1조원, 그리고 매년 20% 내외로 성장할 것으로 예측되고 있습니다. AI 활용분야는 무척이나 다양하겠지만, AI의 핵심 역할은 보다 많은 데이터를 분석하고, 정확도 높은 결과를 예측하는 것에 있습니다. 사람이 보고 판단해야 할 것을 AI가 대신 해주는 것이니까요. 위와 같이 AI 시장 전망은 매우 밝고, 관련 인력의 증가 뿐만 아니라 AI 기술도 나날이 발전하고 있습니다. 이제는 AI의 데이터 분석 결과가 사람보다 낫다고 공언해도 크게 이상하지 않는 시대가 된 것입니다.



그렇다면 기업 경영진 입장에서는 당연히 궁금증이 생길 수밖에 없습니다. 우리가 보유한 방대한 데이터를 AI를 활용해 분석하고, 그 결과를 비즈니스에 적용하려면 무엇이 필요하지? 라는 궁금증입니다. AI 학습을 위한 데이터셋은 어떻게 마련할 것이며, AI 알고리즘은 무엇을 선택해야 하는지에 대한 고민이 많아지지 않을까요? 게다가 몸담고 있는 업종 특성상 비정형 데이터가 많아 데이터의 용량이 매우 크다면, 일반적인 데이터 처리 방식보다 훨씬 더 빠른, 고성능의 솔루션이 필요할 것입니다.

그래서 이번 콘텐츠에서는 기업이 AI 플랫폼을 활용해 비즈니스 성과를 만들기 위해 고려해야 할 사항은 무엇인지, 지난 4월 20일에 진행된 웨비나 내용을 통해 알아보려고 합니다. AI 플랫폼의 구성 요소는 무엇이며 기업은 각 플랫폼 별로 어떤 솔루션을 사용하면 좋은지, 웨비나 발표 회사인 효성인포메이션은 어떤 솔루션을 제공하는지에 대해 다루려고 합니다. 내용이 다소 많이 2개의 콘텐츠로 나눴고요. 이번 1부의 아젠다는 아래와 같습니다.


1. NVIDIA 솔루션으로 구현하는 AI 플랫폼 인프라

2. 비즈니스 성과를 위해 AI플랫폼이 갖춰야 할 3가지 요소와 효성인포메이션의 통합 AI 플랫폼


이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.







1. NVIDIA 솔루션으로 구현하는 AI 플랫폼 인프라


AI 인프라에서 가장 중요한 것은 대량의 데이터 처리 속도를 높이는 것입니다. 그리고 이 과정에서 다루는 데이터는 고해상도 이미지, 영상, 음성과 같은 비정형 데이터 뿐만 아니라 기존에 다루지 않았던 엄청난 양의 빅데이터가 큰 비중을 차지합니다. 게다가 이러한 데이터를 AI에게 학습시키기 위해서는 자연어 처리 뿐만 아니라 SQL 쿼리도 사용해야 하기에 높은 연산 성능을 필요로 합니다.


<이미지 출처 : NVIDIA AI Blog, Enterprise AI with GPU Integrated Infrastructure>


텍스트로 이루어진 정형화된 데이터 처리라면 CPU만으로 충분하겠지만, 비정형 데이터와 같이 그래픽 연산이 필요한 데이터가 많아질 경우 CPU만으로 감당하기에는 한계가 명확합니다. 그래서 그래픽 연산만 담당하는 GPU의 도움을 받아 데이터 처리 속도를 향상시키기 위한 연구가 오랫동안 수행되어왔고, NVIDIA는 이 분야의 선두주자로 업계에서 인정받고 있죠. AI 연산 성능에 GPU의 위력이 얼마나 큰지는 위 차트를 참고하시면 됩니다. CPU 단독 사용과 비교해서 NVIDIA GPU를 사용하면 AI 학습에 걸리는 시간과 에너지 효율성이 엄청나게 상승한다는 것을 확인할 수 있습니다.



자사의 고성능 GPU Chipset에 AI에 특화된 Tensor Core를 추가해 AI 워크로드에서 독보적인 성능을 발휘하는 NVIDIA는 AI 인프라 구성에 있어 가장 앞서가는 기업입니다. AI 및 HPC 컴퓨팅을 위해 NVIDIA는 A100으로 대표되는 다수의 데이터센터 GPU를 제공하며, 자사의 데이터센터 GPU Chipset를 장착한 서버인 DGX와 더불어 다른 서버 제조사와 협력해 EGX, HGX라는 NVIDIA 인증 서버도 제공하고 있습니다. 

이처럼 AI 컴퓨팅을 위한 인프라를 제공하는 NVIDIA의 솔루션을 활용한 AI 데이터센터의 전체 구성은 위와 같습니다.그런데 각 요소들이 꽤 많아서 좀 복잡해 보이죠?



그래서 이 아키텍쳐를 좀 더 단순화시켰습니다. 가장 밑단에는 NVIDIA 자체 서버인 DGX, 그리고 HGX 서버와 같은 NVIDIA에서 인증한 서버를 비롯한 네트워크와 스토리지가 있고, 그 위에 Linux OS가 설치됩니다. OS 위에는 컨테이너를 위한 Docker 엔진과 딥러닝 라이브러리 및 각종 드라이버가 설치되는데, 이러한 요소들을 직접 설치하지 않고 PaaS 솔루션을 이용할 수도 있습니다.

그리고 이렇게 마련된 인프라에 AI 머신러닝을 위한 개발 툴을 설치해 데이터를 학습시키고요. 이후 분석된 결과를 비즈니스에 적용하는 것이 전체 AI 플랫폼의 구성 요소라고 보시면 됩니다. 그리고 이를 위한 개별적인 솔루션을 효성인포메이션에서 제공하고 있습니다. 이번 콘텐츠에서는 NVIDIA 인증 인프라에 대한 내용을 주로 다룹니다.





2. 비즈니스 성과를 위해 AI플랫폼이 갖춰야 할 3가지 요소와 효성인포메이션의 통합 AI 플랫폼


 1) 비즈니스 성과를 위해 AI 플랫폼이 갖춰야 할 3가지 요소



앞서 AI플랫폼을 도입하는 것은 하나의 솔루션을 도입하는 것이 아닌, AI만을 위한 거대한 인프라를 구축하고 그 위에 각종 소프트웨어와 라이브러리를 설치하는 꽤 큰 프로젝트임을 확인했습니다. 때문에 AI플랫폼 구축을 고려하는 기업 입장에서는 대규모 투자가 이루어져야 하기에 과연 투자 대비 비즈니스 효과를 얼마나 거둘 수 있을 것인지에 대한 면밀한 검토가 필요할텐데요. 

이를 위해 기업은 위와 같이 3가지 요소를 고려해야 합니다. 기존에 사용하던 인프라 대비 훨씬 더 나은 성능을 발휘할 수 있는지, 한정된 자원을 효율적으로 사용함과 동시에 늘어나는 데이터 저장 비용을 절감할 수 있는지, AI모델을 쉽게 개발하고 운영할 수 있는 환경을 제공받을 수 있는지에 대해 중점적으로 따져봐야 합니다.



효성인포메이션시스템은 성능, 비용, 관리 이 3가지 측면에서 위와 같이 개별적인 솔루션을 제공합니다. 강력한 성능을 위해 스토리지와 네트워크를 NVIDIA GPUDirect, 그리고 고성능 병렬파일 시스템인 HCSF(Hitachi Content Software for File, 자세한 내용은 여기서 확인하실 수 있습니다.)를 제공합니다.

그리고 비용 최적화를 위해 GPU 자원을 효율적으로 사용할 수 있는 기술인 GPU 가상화, MIG(Multi Instance GPU), 프라이빗 클라우드 기반의 효율적인 자원 배포, 마지막으로 관리 효율화를 위해 컨테이너 인프라는 Lablup Backend.AI, VM 인프라는 VMware를 통해 최적의 AI플랫폼 구축을 지원하고 있습니다.

그럼 지금부터 성능, 비용, 관리 3가지 측면의 보다 자세한 내용, 효성인포메이션이 어떤 솔루션을 제공하는지 자세히 알아보겠습니다.






 2) AI플랫폼의 고성능 확보를 위한 솔루션 - 성능 측면



먼저 고성능을 위해 효성인포메이션이 제공하는 솔루션은 무엇인지부터 보겠습니다. 성능을 위한 기본 조건은 크게 최적화, 연산, 저장 3가지로 구분할 수 있는데요. 최적화는 IO 성능 최적화를 위한 GPUDirect Storage, 연산은 NVIDIA NVLink와 NVSwitch를 지원하는 Supermicro HGX 서버, 저장은 AI 업무 전용 NVMe 기반의 고성능 병렬 파일 스토리지인 HCSF를 제공합니다.

각 요소 별로 좀 더 자세히 살펴보겠습니다.


  • 최적화



먼저 성능 최적화를 위해 효성인포메이션은 NVIDIA MAGNUM IO라고 명명된 GPUDirect 기술을 사용합니다. 대량의 데이터를 처리해야 하는 AI 워크로드 특성 상 높은 IO 성능은 필수로 요구되는 덕목일텐데요. NVIDIA는 MAGNUM IO를 통해 스토리지와 네트워크 단에서 발행하는 병목현상을 제거해 고성능을 발휘할 수 있도록 지원합니다.



GPUDirect 기술이 어떻게 동작하는지 나타내는 이미지입니다. 먼저 네트워크쪽부터 보겠습니다. 일반적으로 여러대의 서버로 구성된 인프라의 경우 높은 성능이 필요한 연산을 수행할 때에는 이 다수의 서버가 함께 일을 해야합니다. 각기 다른 서버가 서로 통신하기 위해서는 서버와 서버를 연결한 스위치를 통해 데이터를 주고받아야 하는데, 이 때 반드시 CPU와 Memory를 거쳐야 합니다. 연산 성능 가속을 위한 GPU가 있음에도 불구하고 데이터는 GPU -> PCIe Switch -> CPU -> Memory -> CPU -> PCIe Switch 이런 흐름을 거칠 수 밖에 없는 것입니다.

하지만 NVIDIA는 RDMA(Remote Direct Memory Access)라는 기술을 사용해 GPU에서 연산된 데이터가 CPU와 Memory를 거치지 않고 곧바로 PCIe Switch를 경유해 다른 서버의 PCIe Switch를 거쳐 GPU로 이동할 수 있도록 지원합니다. 결과적으로 CPU와 Memory 버퍼를 제거하는 효과를 가져와 10배의 성능 향상 효과를 기대할 수 있습니다.

우측의 스토리지도 원리는 비슷합니다. CPU와 Memory를 거치지 않고 스토리지와 GPU Memory를 직접 연결해 GPU의 강력한 연산 성능을 사용할 수 있도록 IO를 개선해서 높은 성능을 보장합니다.



NVIDIA GPUDirect 기술을 적용하면 데이터 연산 과정에서 CPU를 배제함으로서 기존보다 훨씬 빠르고 많은 대역폭의 IO 처리가 가능합니다. 여기에 NVMe 기반의 고성능 병렬 스토리지인 HCSF를 연결하면 더욱 빠른 성능을 확보할 수 있다는 것을 우측의 차트를 통해 확인할 수 있습니다.


  • 연산



이번에는 연산쪽을 살펴보겠습니다. 앞서 연산 성능을 끌어올리기 위해서는 GPU가 필요하다고 말씀드렸는데요. 하나의 GPU를 사용하는 것 보다 여러대의 GPU를 사용하는 것이 더 높은 연산 성능을 확보할 수 있는 지름길입니다. 그래서 NVIDIA는 다수의 GPU 카드를 서로 연결해 높은 대역폭을 확보할 수 있는 NVLink 기술을 제공합니다.

NVIDIA 인증 서버인 Supermicro HGX 서버는 이 기술을 활용해 NVIDIA A100 GPU 8개를 연결해 최대 600GB/s의 대역폭을 제공하고요. 우측의 표에서 기존의 일반적인 서버에 GPU 카드를 꽂아 사용하는 PCIe 방식보다 훨씬 높은 연산 성능을 확보할 수 있음을 알 수 있습니다.


  • 저장



앞서 GPUDirect 기술을 활용해 CPU와 Memory의 병목 현상을 제거할 수 있고, 다수의 GPU를 연결해 높은 연산 성능을 확보할 수 있음을 확인했는데요. 한 가지 간과하면 안되는 부분이 바로 스토리지 성능입니다. 4 GPU 탑재 서버의 경우 단일 서버에서 50GB/s의 데이터를 처리할 수 있어야 장착된 GPU의 연산 성능을 최대로 활용할 수 있는데, 안타깝게도 일반적인 NFS 기반 NAS 스토리지 데이터 처리 성능은 1.2GB/s에 그치고 있습니다. 때문에 스토리지에서 전체 AI플랫폼의 연산 성능을 저하시키는 성능 병목 현상이 벌어지게 됩니다.

그래서 효성인포메이션은 NVMe 기반의 고성능 병렬 스토리지인 HCSF를 통해 스토리지 병목 현상을 제거합니다. 최대 82GB/s의 성능을 제공해 4 GPU 탑재 서버에서 요구하는 50GB/s를 아득히 뛰어넘는다는 것을 왼쪽 차트에서 확인할 수 있고요. 덕분에 스토리지로 인한 성능 병목 현상 없이 GPU의 연산 성능을 최대치까지 끌어올릴 수 있습니다.



HCSF는 앞서 살펴본 Supermicro HGX와 같은 NVIDIA 인증 서버에 GPUDirect Storage/RDMA로 구성해서 AI플랫폼에서 요구하는 높은 성능을 충족시킬 수 있습니다. HCSF에 대한 보다 자세한 내용은 '지능화된 데이터 레이크로 비즈니스 인사이트 도출하기' 콘텐츠 후반부에서 확인하실 수 있습니다.



HCSF가 실제 어느 정도의 성능을 발휘하는지 알 수 있는 사례입니다. 위 장표 우측과 같이 NASA의 무인화물선 화성 착륙 프로젝트 시뮬레이션에도 활용되었는데, GPUDirect Storage를 활성했을 때 훨씬 원활하게 시뮬레이션을 수행할 수 있음이 확인되었습니다. 관련 내용은 아래의 Youtube 영상에서 보실 수 있습니다.








 3) AI플랫폼의 고성능 확보를 위한 솔루션 - 비용 측면


  • 효율적인 GPU 자원 활용



이제 비용 측면에서 NVIDIA GPU 기술을 활용하는 것이 어떤 이점을 가져올 수 있는지 알아보겠습니다. NVIDIA는 위와 같이 4가지 형태로 GPU 자원을 활용할 수 있는 방법을 제공하고 있는데요.

왼쪽부터 GPU와 VM이 직접 통신하는 DirectPath I/O, 하나의 물리적 GPU 자원을 다수의 가상 GPU 자원으로 나눠서 사용하는 vGPU, 마찬가지로 물리적 GPU 자원을 여러개로 나눠서 개별적으로 관리가 가능한 독립적인 GPU들로 구성할 수 있도록 지원하는 MIG, 마지막으로 다수의 GPU를 하나의 가상 GPU 자원으로 묶고, 이를 15%, 20%, 30% 등과 같이 유연하게 구성해 사용할 수 있도록 하는 Bitfusion이 있습니다.

이 4가지 구성 방법은 AI워크로드가 어떤 형태인지에 따라, 기업이 선호하는 방식 혹은 인프라 보유 현황에 따라 달라질 수 있습니다. 즉, 기업이 원하는 형태를 선택하면 되는 것이기 때문에 무엇이 가장 효과적이다라고 정의하기는 어려운 점 참고해 주세요.



NVIDIA MIG(Multi Instance GPU)는 위와 같이 하나의 물리적 GPU를 최대 7개까지 나누어 구성할 수 있습니다. NVIDIA A100, A30 GPU에서 제공되며 A100은 7개, A30은 4개까지 나눌 수 있습니다. A100-SCM4 80GB Memory 제품의 GPU 자원을 나눴을 때의 구성 예시는 위 장표의 아래쪽 이미지 참고하시면 됩니다. 

GPU 성능을 최대로 발휘하게 위해서는 물리적 GPU 1개를 하나의 단일 워크로드에 할당하는 것이 유리합니다. 하지만 다수의 워크로드를 운영할 경우 여러대의 물리적 GPU를 도입하는 것은 비용 낭비를 초래할 수 있죠. 게다가 물리 서버의 공간은 이미 정해져있기 때문에 추가 GPU를 설치할 수 있는 공간이 없을 경우 아예 새로운 서버를 도입해야 할 수도 있습니다. 즉, 여러 모로 비용 낭비 요소가 많다고 할 수 있죠.

이 경우 MIG를 사용하면 하나의 물리적 GPU를 독립적인 다수의 GPU로 나눌 수 있고, 이 GPU들을 개별 워크로드에 할당할 수 있기 때문에, 높은 성능을 확보함과 동시에 GPU 투자 비용 역시 최소화시킬 수 있습니다.



만약 워크로드를 운영하는 인프라가 VM이 아닌 컨테이너라면 GPU 자원을 더욱 세밀하게 쪼갤 수 있습니다. AI 머신러닝 분산처리 솔루션 기업 Lablup(래블업)의 Backend.AI를 사용하면 GPU를 위와 같이 0.1 단위로 쪼갤 수 있습니다. 1개의 GPU 자원을 최대 10개까지 나눠서 사용할 수 있다는 것입니다.

Lablup Backend.AI는 NVIDIA DGX-Ready Software로서, 위와 같이 컨테이너 기반 GPU 가상화 구성 뿐만 아니라 성공적인 AI 프로젝트를 위한 딥러닝 모델 개발 플랫폼도 제공합니다. 최근에 효성인포메이션과의 협력을 발표했고, 관련 기사는 여기서 확인하실 수 있습니다.


  • 오브젝트 스토리지 티어링



앞서 스토리지 병목 현상을 제거하여 GPU 연산 성능을 높이기 위해 HCSF를 사용한다고 말씀드렸는데, HCSF를 활용할 경우 성능 뿐만 아니라 비용 측면에서도 이점을 얻을 수 있습니다. HCSF는 NVMe 스토리지와 오브젝트 스토리지로 구성되는데, 실시간 처리가 필요하며 잦은 R/W가 발생하는 데이터는 NVMe SSD에 저장하고, 그렇지 않은 데이터, 그리고 대용량 데이터는 오브젝트 스토리지에 저장합니다. 그리고 이것을 관리자가 수동으로 분류하는 것이 아닌, 정책 기반 티어링으로 자동으로 수행할 수 있습니다.

게다가 NVMe SSD 사용량이 임계치에 도달하면 저장된 데이터 중 미사용 데이터와 같이 사용성이 낮은 데이터를 오브젝트 스토리지로 옮겨줍니다. 이러한 효율적인 데이터 저장 및 운영 방식을 통해, 기업은 NVMe SSD 용량이 부족하다고 해서 추가적으로 디스크를 도입하지 않고 필요한 용량을 확보할 수 있으며, 상대적으로 비용이 저렴한 오브젝트 스토리지를 활용해 스토리지 투자 비용을 절감할 수 있습니다.







 4) AI플랫폼의 고성능 확보를 위한 솔루션 - 관리 측면



AI인프라를 위한 높은 성능, 그리고 비용 최적화에 대한 내용을 살펴봤으니, 마지막으로 관리적인 부분도 짚고 넘어가야겠죠? 성공적으로 AI인프라를 구축했다 하더라도, 이 위에서 운영할 AI워크로드가 복잡하고 어려우면 인프라 활용율이 떨어질 것이고, 이것은 곧 자원 낭비, 비용 낭비로 이어질 수 있으니까요.

이와 같은 불상사를 막기 위해, 효성인포메이션시스템은 앞서 언급한 Lablup과의 전략적 제휴를 통해 기업에서 AI업무를 보다 쉽고 간편하게 수행할 수 있도록 지원합니다. Lablup의 Backend.AI는 아시아 태평양 소재 기업 중 최초로 NVIDIA DGX-Ready Software 인증을 받은 AI 연구 & 개발 플랫폼이고요. 컨테이너 기반의 GPU 분할 기술 뿐만 아니라 데이터 과학자와 실무를 담당하는 현업 담당자들이 보다 쉽게 AI 업무를 할 수 있도록 돕습니다.

가장 큰 특징은 AI업무를 기존의 일반적인 CLI 환경에서 하는 것이 아닌 GUI 환경에서 처리할 수 있다는 것입니다. 웹 UI와 데스크탑 앱을 모두 지원해 폐쇄망으로 구성된 환경에서도 문제없이 활용할 수 있습니다.



컨테이너 기반 클러스터를 활용하는 플랫폼은 이미 많이 나와있습니다. NVIDIA에서도 NVIDIA-Docker라는 자체 플랫폼을 제공하지만 가장 많이 활용되는 플랫폼은 Google이 오픈소스로 공개한 Kubernetes라고 할 수 있고, 업계 표준으로 자리잡았다고 해도 과언이 아닌데요. 하지만 컨테이너 클러스터에서 운영되는 워크로드 전체가 아닌 AI부문으로 한정지어보면 상황은 좀 다릅니다.

AI워크로드에서 가장 중요한 것은 GPU 자원을 얼마나 효율적으로 활용할 수 있느냐일텐데, 위와 같이 Lablup Backend.AI는 경쟁 플랫폼과 비교 시 GPU 자원 활용 측면에서 가장 많은 기능을 제공합니다. NVIDIA GPU가 아닌 이기종 GPU 가속기를 지원해 심지어 AMD GPU, Google의 AI 전용 유닛인 TPU(Tensor Processor Unit)에서도 GPU 가속을 활용할 수 있습니다. 게다가 특허받은 GPU 자원을 소수점 0.1 단위로 공유하는 기술은 앞서 설명드린 것 잊지 않으셨죠?






지금까지 말씀드린 내용은 서두에 언급했듯이 4월 20일에 진행된 'AI플랫폼으로 비즈니스 성과를 만들려면 고려사항은?' 웨비나를 정리한 것입니다. 효성인포메이션시스템 김형섭 차장님의 보다 생생한 발표가 궁금하신 분들은 아래 영상을 통해 확인해 보시기 바랍니다. 이미지를 클릭하시거나 링크로 이동하시면 됩니다.


효성인포메이션 AI플랫폼 웨비나 다시보기 >


효성인포메이션시스템의 AI플랫폼에 대한 보다 자세한 상담이 필요하신 분들은 아래 링크에서 문의를 남겨 보시기 바랍니다.


이번 1부의 내용은 여기까지입니다. 2부에서는 효성인포메이션시스템의 AI플랫폼 도입사례와 함께, AI플랫폼의 핵심 인프라인 NVIDIA DGX와 NVIDIA 인증 서버인 Supermicro HGX 서버에 대해 소개하겠습니다. 끝!

1개의 댓글이 있습니다.

하루 전

참고하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입