AI플랫폼을 위한 핵심 인프라와 효성의 AI플랫폼 적용 사례

AI플랫폼을 위한 핵심 인프라와 효성의 AI플랫폼 적용 사례

1부, '방대한 데이터 분석을 위한 효율적인 AI플랫폼 구현 방안' 콘텐츠에서는 효성인포메이션시스템에 제공하는 AI플랫폼의 구성 요소와 함께 어떤 솔루션을 제공하는지 알아봤습니다. 이번 2부, 'AI플랫폼을 위한 핵심 인프라와 효성의 AI플랫폼 적용 사례' 콘텐츠에서는 AI플랫폼의 핵심 인프라인 NVIDIA 자체 서버인 DGX, NVIDIA가 서버 제조사와 협력해 제공하는 NVIDIA 인증 서버인 Supermicro HGX, 그리고 AI플랫폼의 구축 사례에 대해 자세히 살펴보겠습니다.

2부의 아젠다는 아래와 같습니다.


1. AI플랫폼을 위한 핵심 인프라, Supermicro HGX GPU 서버

2. 효성인포메이션 통합 AI 플랫폼 적용 사례



이 콘텐츠는 효성인포메이션시스템의 지원으로 제작되었습니다.







1. AI플랫폼을 위한 핵심 인프라, Supermicro HGX GPU 서버


  • NVIDIA가 제공하는 강력한 GPU 서버, DGX



1부에서는 언급한 바와 같이, NVIDIA는 글로벌 GPU 업계를 선도하고 있고 컨슈머용 그래픽 뿐만 아니라 전문가용 그래픽과 데이터센터 그래픽 분야 역시 경쟁사를 멀찌감치 따돌리며 승승장구하고 있습니다. 그리고 AI의 활용도가 높아지면서 더욱 높은 연산 성능이 필요로 해졌고, 이에 따라 NVIDIA의 가치는 점점 더 상승하고 있죠. 이렇게 AI 업계를 선도하고 있는 NVIDIA가 자사의 GPU 관련 기술을 모두 쏟아부어 만든 자체 서버가 바로 이 DGX A100 서버입니다.

사양은 보시는 바와 같이 어마어마합니다. 데이터센터 GPU 최상급 카드인 A100이 8개가 장착되었고 총 메모리는 A100 80GB x 8 = 640GB에 이릅니다. 여기에 NVLink 기술이 더해져 GPU간의 양방향 대역폭은 600GB/s에 이르고요. NVSwitch 6개가를 통해 대역폭은 4.8TB/s까지 확장되며 이는 이전세대 대비 2배 증가한 수치입니다.

컴퓨팅 파워 역시 최대 128 Core의 CPU와 2TB의 Memory, 그리고 30TB의 NVMe SSD까지 지원해 성능은 정말이지 어마어마합니다. 국내 유명 포털사 및 제조사, 통신사에서 사용하기 있는, AI인프라를 위한 최상급 서버라고 할 수 있겠습니다.



그리고 지난 3월 23일, NVIDIA의 글로벌 컨퍼런스인 GTC 2022에서 앞서 살펴본 DGX A100의 성능을 훨씬 뛰어넘는 DGX H100이 발표되었습니다. A100보다 더 뛰어난 스펙을 자랑하는 H100이 8개 탑재되었는데 GPU와 NVLink 수량은 DGX A100과 동일합니다.

하지만 위 장표와 같이 GPU 간의 양방향 대역폭은 오히려 900GB/s로 증가했고, NVSwitch는 DGX A100보다 2개 적은 4개밖에 없음에도 불구하고 대역폭은 7.2TB/s로 1.5배 향상되었습니다. 여기에 최신의, 3세대 NVIDIA BlueField-3 DPU(Data Processing Unit)가 적용되어 최대 1TB/s의 양방향 네트워크 대역폭을 제공하고요. 딥러닝 연산 성능의 바로미터라고 할 수 있는 FP 부동소수점 연산역시 DGX A100 대비 크게 향상되어 AI인프라를 위한 현존 최고의 서버라고 할 수 있겠습니다.






  • NVIDIA가 인증한 Supermicro GPU 서버, HGX



NVIDIA DGX A100과 H100 서버가 매우 뛰어난 것은 잘 알았습니다. 하지만 NVIDIA DGX 서버들은 대규모 AI플랫폼 구축에 주로 사용되기에 도입하려면 많은 예산이 필요합니다. AI에 대한 기업들의 관심이 점점 늘어나면서 자체적으로 보유한 데이터를 AI를 통해 분석해 보려는, 즉 이제 막 이제 막 자체 AI플랫폼을 구축해 보려는 기업들은 이렇게까지 강력한 서버는 좀 과할 수 있습니다. AI하자고 사내에 슈퍼컴퓨터를 배치할 필요는 없으니까요.

따라서, AI인프라 구축이 처음인 기업들에게는 좀 더 적당한 성능과 합리적인 가격의, 그러면서도 AI워크로드를 수행하기에 부족함이 없는 서버가 필요합니다. NVIDIA DGX 서버 만큼의 강력한 성능이 필요하지 않고, 초기 예산도 넉넉하지 않은 기업들의 고민을 해결해 줄 수 있는 서버, Supermicro GPU 서버를 지금부터 소개하겠습니다.



Supermicro는 Dell, HPE, Lenovo와 같은 글로벌 TOP 3 서버 제조사보다 인지도는 조금 떨어지지만, 합리적인 가격으로 꽤 괜찮은 성능의 서버를 지속적으로 제공해 온, 가성비가 훌륭한 서버 제조사로 널리 알려져 있습니다. 1993년에 설립되어 30년 넘게 OEM 서버 제조사로 비즈니스를 해왔고, 자체 브랜드 서버도 제공하고 있으며, 글로벌 x86 서버 점유율은 2~3%를 꾸준하게 유지하고 있습니다.

효성인포메이션시스템은 Supermicro와 파트너쉽을 체결해 다양한 사양을 갖춘 GPU 서버를 시장에 공급하고 있습니다. 위 이미지에서 확인할 수 있는 서버들의 사양이 어느 정도인지 이어서 살펴보겠습니다.




Supermicro가 제공하는 GPU 서버에는 Intel CPU뿐만 아니라 AMD CPU도 탑재됩니다. 여전히 x86 서버 시장에서 주력 CPU로 자리매김하고 있는 Intel이지만, 경쟁사 AMD는 최근 몇년 사이에 컨슈머 시장에서 Ryzen 프로세서를 앞세워 점유율을 크게 끌어올렸죠. 서버 시장에서도 아직은 컨슈머 시장 만큼은 아니지만 차근차근 점유율을 높여가고 있고, 그 중심에 있는 것이 AMD EPYC 프로세서입니다.

Supermicro GPU 서버는 AMD EPYC 프로세서를 선택할 수 있어 Intel CPU를 장착한 서버 대비 가성비가 좋습니다. 여기에 NVIDIA의 강력한 GPU를 바탕으로 고객의 AI워크로드 요구사항에 맞는 GPU 서버를 공급할 수 있습니다. 효성인포메이션시스템은 Supermicro GPU 서버 중 위 장표와 같이 별표로 표시한 4가지 종류의 서버를 제공합니다. 각 서버 별로 사양이 어떻게 되는지 이어서 알아보겠습니다.




효성인포메이션이 제공하는 4개의 Supermicro GPU 서버는 위와 같이 GPU with NVLink 2개, PCIe GPU 2개로 나뉩니다. NVLink가 지원되는 2개 모델은 앞서 살펴본 NVIDIA DGX A100 서버와 같이 8개 혹은 4개의 A100 GPU가 장착된 서버로, 모두 AMD EPYC 프로세서를 듀얼로 장착했고 Memory는 최대 8TB까지 확장할 수 있습니다. GPU 연산 성능은 NVIDIA DGX A100 서버급이고 최대 확장 가능한 Memory는 오히려 더 높아(NVIDIA DGX A100 서버의 Memory는 최대 2TB) HPC 및 대규모 데이터를 바탕으로 한 AI 딥러닝 워크로드에 적합합니다.

위 장표 우측의 PCIe GPU 모델은 한 서버에 NVIDIA GPU를 1개부터 최대 10개까지 장착할 수 있고, 마찬가지로 AMD EPYC 프로세서가 듀얼로 제공됩니다. NVLink가 아닌 PCIe 방식이기에 GPU간의 대역폭, 즉 GPU 연산 성능은 NVLink 방식보다 낮지만 AI인프라를 이제 막 구축하려는 기업 입장에서는 합리적인 가격으로, 그리고 보다 유연하게 AI워크로드 전용 GPU 서버를 구축할 수 있다는 장점이 있습니다.








  • HPC, AI 딥러닝과 같은 초 고성능이 필요한 기업에 알맞은 Supermicro GPU 서버


먼저 NVLink를 지원하는 GPU 서버부터 보겠습니다. AS-4124GQ-NART+서버는 4U 랙서버로, NVIDIA DGX A100 서버와 동일하게 8개의 A100 GPU가 탑재되고 NVLink로 구성됩니다. 이는 곧 NVIDIA DGX A100 서버와 동일한 GPU 연산 성능을 발휘할 수 있다는 것이고요. 하지만 가격은 훨씬 저렴한 장점이 있습니다. 1부에서 소개했던 Lablup Backend.AI와 같은 소프트웨어를 함께 구매해도 NVIDIA DGX A100 서버보다 저렴하고요. 그래서 합리적인 가격으로 높은 GPU 연산 성능을 확보함과 동시에 GPU 자원을 0.1 소수점 단위로 쪼개어 사용할 수 있는 유연함까지 갖춘 서버라고 보시면 됩니다.

주 용도는 말슴드렸듯이 HPC와 AI/딥러닝이고요. 최대 Memory가 8TB까지 확장할 수 있어 DGX A100 서버보다 더욱 강력한 성능으로 구성할 수도 있습니다. 그리고 파워 서플라이가 3000W급의 티타늄 레벨이 4개 장착되어 안정적으로 전원을 공급함으로써 지속적으로 높은 성능을 유지할 수 있도록 합니다. 보다 상세한 서버 사양에 대한 내용은 아래 링크에서 확인하실 수 있습니다.



이번 제품은 AS-2124-GQ-NART+입니다. 앞서 살펴본 4124GQ와 앞자리가 다른데, 2U 랙 서버라는 의미입니다. 크기가 작다보니 장착 가능한 GPU가 절반인 4개로 줄었고요. 그래서 NVIDIA DGX Station A100 워크스테이션과 GPU 연산 성능은 동일하지만 랙마운트 형태로 제공되며, 추가로 PCIe 슬롯이 있어 GPU 클러스터 뿐만 아니라 여러대의 GPU 서버를 묶어 GPU Farm 구성도 가능한 장점이 있습니다.

앞서 보여드린 4U 제품과 마찬가지로 Memory 확장성이 뛰어나고(최대 8TB) CPU도 AMD EPYC 엔트리 프로세서부터 하이엔드 프로세서까지 선택할 수 있기 때문에 자사의 AI워크로드 요구사항에 맞춰 유연하게 AI인프라를 갖출 수 있습니다. 게다가 저렴한 가격 덕분에 NVIDIA DGX A100 서버 혹은 워크스테이션을 고민하시는 분들께 좋은 대안이 될 수 있는 서버입니다. 보다 상세한 서버 사양에 대한 내용은 아래 링크에서 확인하실 수 있습니다.







  • AI를 이제 막 시작하려는 기업에 알맞은 Supermicro GPU 서버


이번에는 PCIe 방식의 서버를 보겠습니다. 먼저 살펴볼 모델은 AS-4124GS-TNR 제품으로 4U 랙서버이며 GPU는 최소 1개부터 시작해 8개까지 장착할 수 있습니다. 스토리지의 경우 NVMe SSD를 사용하지 않는다면 추가로 2개를 더해 최대 10개까지 GPU 장착이 가능합니다. 지원하는 GPU는 NVIDIA 데이터센터 GPU인 A100, A40과 같은 A 시리즈, 그리고 NVIDIA 워크스테이션 GPU인 RTX A600, A400과 더불어, AI연산에 최적화된 GPU인 T4까지 사용할 수 있어 매우 폭넓은 GPU 선택이 가능합니다. 이는 곧 기업 요구사항과 예산에 맞추어 매우 유연하게 GPU를 구성할 수 있다는 것을 의미합니다.

AS-4124GS-TNR 서버는 장착 가능한 GPU 수도 많고 PCIe 슬롯도 넉넉하게 제공하기 때문에 초기 단계의 AI워크로드부터 고성능을 요구하는 AI/딥러닝 및 HPC 워크로드까지 폭넓게 소화할 수 있다는 장점이 있습니다. 기업 입장에서 초기에 소량의 GPU를 장착해 AI업무를 시작하고, 이후 추가적으로 확장해 나갈 수 있다는 것입니다. 시작 단계부터 많은 비용을 투자하지 않아도 되는 것이 가장 큰 장점입니다. 보다 상세한 서버 사양에 대한 내용은 아래 링크에서 확인하실 수 있습니다.



마지막으로 살펴볼 제품은 SYS-220GP-TNR 서버입니다. 제품명 앞의 문구가 AS에서 SYS로 변했는데요. CPU가 AMD가 아닌 Intel 프로세서를 사용한 제품입니다. 일반적인 2U 서버는 GPU 카드를 2개 혹은 3개까지만 장착할 수 있는 한계가 있는데요. 만약 3개를 장착할 겨우 여유 PCIe 슬롯이 없어 네트워크 카드 장착이 불가능해 기업의 네트워크 요구사항에 부합할 수 없다는 단점이 있었습니다. 하지만 이 서버는 6개의 GPU를 장착하면서도 PCIe 슬롯이 2개가 더 있어 네트워크 장비 혹은 스토리지와의 연결 용도로 사용할 수 있는 것이 가장 큰 특징입니다.

지원하는 GPU는 A100, A40, RTX A600이고요. GPU를 최소 2개부터 최대 6개까지 장착할 수 있습니다. A100 GPU 6개를 2U 서버에 장착해 안정적으로 구동할 수 있도록 2,600W 티타늄 레벨의 파워 서플라이 2개가 사용됩니다. 덕분에 헬스케어 및 생명공학과 같은 분야에서 대용량 이미지 및 영상 데이터를 기반으로한 시뮬레이션과 더불어 대규모 VDI 시스템 운영에도 적합하고, HPC와 AI 딥러닝 워크로드도 가능합니다. 보다 상세한 서버 사양에 대한 내용은 아래 링크에서 확인하실 수 있습니다.


여기까지 효성인포메이션시스템에서 Supermicro와 협력해 제공하는 주력 GPU 서버들을 살펴봤고요. 이제 효성인포메이션시스템의 AI플랫폼 구축 사례를 알아볼 차례입니다. 1부, 2부에 걸쳐서 소개한 제품들이 실제 구축되어 운영되고 있는지 여부는 새로운 시스템 도입을 고민하시는 분들께 매우 중요한 사항이니까요.





2. 효성인포메이션 통합 AI 플랫폼 적용 사례



첫 번째 사례는 국내 대표 제조기업의 전자 데이터 분석 체계 구축 사례입니다. 이 기업은 제조기업에서 운영하는 다수의 인프라에서 수집되는 데이터를 HSCF와 S3 오브젝트 스토리지에 저장하는데, 이 때 데이터 유형에 따라 정책 기반의 자동 티어링으로 데이터 처리 성능을 고성능으로 유지하면서 운영 비용을 절감할 수 있었습니다.

그리고 HSCF와 오브젝트 스토리지로 구성된 데이터 레이크에 저장된 데이터를 앞서 1부에서 보셨던 AI플랫폼 인프라로 가져와 데이터를 빠르게 분석하고 해당 결과를 현업에게 전달할 수 있게 되었고요. 덕분에 전사에 흩어져있는 데이터를 통합해서 분석할 수 있는 환경을 갖춤으로써 데이터 기반 의사결정이 가능해진 사례라고 할 수 있겠습니다.



두 번째 사례는 국내 스타트업들이 쉽게 AI서비스를 개발할 수 있도록 AI플랫폼을 제공하기 위한 공공기관의 통합 AI서비스 환경을 구현한 사례인데요. AI서비스 개발환경은 위와 같이 VM기반의 IaaS와 컨테이너 기반의 PaaS 플랫폼을 구축했고, 스타트업 종사자(개발자)들에게 VDI를 활용해 별도의 업무시스템을 제공할 수 있는 스마트 오피스 플랫폼도 구축했습니다. 그리고 NVIDIA GPU를 활용한 AI/ML 분석 환경까지 구축함과 동시에, 각각의 플랫폼에서 생성된 데이터를 저장할 수 있는 데이터 허브까지 구현한 사례입니다.

덕분에 이 공공기관은 다수의 스타트업들에게 AI서비스 개발을 위한 안정적인 개발 환경을 제공해 줄 수 있었고, 이를 중앙에서 모니터링하고 효율적으로 인프라 자원을 배포하고 관리할 수 있는 시스템도 갖출 수 있었습니다. 공공기관의 요구사항이 무엇인지를 면밀히 파악해 전체 아키텍쳐 설계부터 구축 및 테스트까지 프로젝트 전 과정을 처음부터 끝까지, 효성인포메이션이 주도적으로 수행한 사례라고 할 수 있겠습니다.



마지막 사례는 해외 연구기관으로 대용량의 의료영상과 코로나 증상 연구, 자율주행 및 로봇, 언어 모델 학습을 위해 고성능 AI플랫폼을 구축한 사례입니다. 연구기관측에서 요구한 데이터 분석을 위해서는 다수의 GPU를 활용한 연산 환경 구축이 필요했고, 이를 위해 2개의 AMD EPYC 프로세서와 8개의 NVIDIA A100 GPU를 장착한 Supermicro HGX GPU 서버가 제공되었습니다.

1부에서 말씀드렸듯이 NVIDIA는 NVLink와 NVSwitch라는 다수의 GPU를 연결해 마치 하나의 GPU처럼 사용할 수 있는 기술을 제공합니다. 이를 통해 연구기관은 8개의 GPU를 연결해 최대 600GB/s의 성능을 확보했고, 덕분에 이전 시스템에 비해 약 20배가 향상된 AI 알고리즘 연산 성능을 얻을 수 있었습니다. 그리고 이는 연구원들이 보다 신속하게 새로운 알고리즘을 구현할 수 있는 토대가 되었습니다.

결과적으로 이 연구기관은 이전보다 훨씬 빠르게 데이터를 분석할 수 있게 되었고요. 동시에 더 많은 AI 알고리즘을 개발해 데이터 분석에 따른 예측 결과의 정확도를 높여갈 수 있는 기반을 마련했다라고 볼 수 있겠습니다.




3. 결론 : AI인프라 구축을 고민 중이라면, 엔드 투 엔드 지원이 가능한 효성인포메이션 통합 AI플랫폼을 고려해야



효성인포메이션시스템은 NVIDIA DGX서버와 Supermicro HGX 서버 및 HCSF와 같은 데이터 레이크와 네트워크 인프라, 그리고 AI인프라 운영을 위한 Lablup Backen.AI, 앞서 살펴본 다양한 구축 사례로 다져진 GPU 인프라에 대한 성능 최적화 역량, AI워크로드를 위한 다양한 소프트웨어와 컨설팅 및 개발 서비스를 제공합니다. 즉, AI를 위한 인프라부터 환경 구축과 운영에 대한 노하우, 그리고 AI분석 및 결과 활용을 위한 소프트웨어까지 AI 전 과정에 걸친 모든 솔루션을 갖춘 AI플랫폼 기업입니다. 

인프라와 소프트웨어, 서비스 측면에서 효성인포메이션이 어떤 솔루션을 구비하고 있는지는 위 장표를 참고하시면 되고요. 이번 콘텐츠에서는 인프라 분야에서 청록색으로 표기된 부분을 중심으로 보여드렸다고 보시면 되겠습니다.



기업이 보유한 데이터를 AI를 활용해 분석할 수 있는 방법은 많습니다. 가장 간단하게 퍼블릭 클라우드에서 제공하는 AI서비스를 이용하는 것부터 자체 데이터센터에 AI플랫폼을 구축하는 것 까지, 기업은 원하는 수준에 따라 선택하면 됩니다. 하지만 기업이 보유한 AI에 대한 노하우는 천차만별이고 가용 가능한 예산 역시 차이가 있기 마련이죠. 보유하고 있는 데이터의 양을 비롯해 수집되는 경로가 얼마나 다양한지, 한 곳에 잘 모으고 있기는 한지 등등 AI를 시작하기 전에 고려해야 할 요소들은 참 많습니다.



때문에 효성인포메이션시스템과 같이 통합 AI플랫폼을 갖춘 기업의 도움이 필요합니다. 1부와 2부에 걸쳐 자세히 소개한, AI인프라를 위한 뛰어난 솔루션들을 갖추고 있고 AI플랫폼 초기 설계 단계부터 실제 운영까지 전 과정을 주도적으로 수행한 경험까지 보유했기에 기업이 가진 다양한 요건의 AI에 대한 고민을 해결해 줄 수 있는 적임자가 아닐까 싶네요.



AI를 업무에 적용하기 위해 필요한 다양한 요소를 한 기업에서 한번에 해결했으면 하는 고민이 있으시다면, 효성인포메이션의 전문가에게 도움을 요청해 보실 것을 추천드립니다. 아래 링크를 통해 상담요청 하실 수 있습니다.


끝으로, 이번 콘텐츠의 보다 자세한 내용이, 발표자들의 생생한 발표와 함께 웨비나 참석자들의 질의응답 내용이 궁금하신 분들은 아래의 이미지를 클릭하거나 링크로 이동해 웨비나 영상을 확인해 보시기 바랍니다.


효성인포메이션 AI플랫폼 웨비나 다시보기 >


이번 콘텐츠가 AI인프라 구축을 위해 적합한 솔루션을 찾고 있는 분들께 조금이나마 도움이 되셨기를 바랍니다. 끝!

1개의 댓글이 있습니다.

하루 전

자료 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입