AI 서비스 개발하려면 NVIDIA GPU는 필수지!

AI 서비스 개발하려면 NVIDIA GPU는 필수지!

2022년 11월 30일에 공개된 ChatGPT가 본격적인 글로벌 빅테크 기업들의 AI 전쟁에 불을 지핀 모양새입니다. Microsoft가 대규모로 투자한 OpenAI의 ChatGPT의 엄청난 성능이 공개된 이후 얼마 지나지 않아, 오랫동안 구글신으로 칭송받던 Google은 ChatGPT와 같은 형태의 생성 AI인 Bard(바드)를 2023년 2월에 공개했고 중국의 구글이라 불리는 바이두 역시 3월 초에 AI 챗봇, Ernie Bot(어니봇)을 공개했습니다. 하지만 둘 다 기대에 못미친 성능으로 두 회사의 주가는 급락했다는 소식이 주요 미디어를 통해 들려왔죠. 



그리고, 전 세계적으로 2,500만명 이상의 사용자들에게 사랑받는 협업툴 Notion(노션) 역시 글 작성에 도움을 주는 Notion AI를 2023년 2월에 출시해서 AI 전쟁에 참전했고요. 이외에 국내 빅테크 기업인 네이버는 한국어에 특화된 AI 챗봇 네이버 AI를 하반기에, 카카오 역시 생성 AI 다다음의 베타테스트를 시행하며 정식 출시일을 조율하고 있습니다. 가히 생성 AI의 전성시대가 열렸다고 할법한 상황이지 않나 생각됩니다.




<이미지 출처 : LG CNS Blog, ‘생성형 AI’ 창작자 세상이 온다…미술계의 미래는?>


이러한 생성 AI의 중심은 ChatGPT입니다. ChatGPT는 GPT-3.5 기반 언어 모델로 문자 생성, 번역, 요약, 질문 응답 등 자연어 처리 작업에서 높은 성능을 보여주고 있습니다. 그리고 이 ChatGPT를 결합해 자사의 서비스를 업그레이드한 다양한 서비스들이 공개되고 있는데요. 글로벌 No.1 메신저 Slack을 품은 Salesforce.com은 자사의 CRM용 AI인 Einstein(아인슈타인)에 ChatGPT를 결합한 Einstein GPT를 공개, 하반기에 출시할 예정이고 ChatGPT를 활용한 예약 관리 서비스, 자동 번역 서비스, 금융 챗봇, 문서 자동 요약 등 다양한 서비스들이 이미 공개가 되었거나 한창 개발 중입니다.

 


여기에 OpenAI는 ChatGPT의 유료 사용자들을 대상으로 GPT-4 기반의 한층 업그레이드 된 챗봇 모델을 출시했고, OpenAI의 주요 투자자 중 한 곳인 Microsoft는 자사의 검색엔진인 Bing에 ChatGPT를 탑재, Edge 브라우저에서 Bing으로 검색할 때 ChatGPT에게 물어보는 형태로 검색을 할 수 있게 되었습니다. 추가로 Microsoft는 LinkedIn에서 채용 공고와 프로필을 작성할 때 GPT 3.5와 GPT 4기반 AI 어시스턴스 기능을, 업무용 도구인 Microsoft 365에 AI 기능을 더해 Word, PPT, Excel 및 이메일 작성을 도와주는 Microsoft 365 Copilot을 발표하면서 AI 전쟁에서 Google을 앞서 나가는 모양새입니다.




<이미지 출처 : Swiss Cognitive, Everything You Need To Know About Generative AI>


2022년 11월 30일이후 채 5개월도 지나지 않았는데 IT 업계에 부는 AI 기반 변화의 바람이 꽤나 매섭습니다. 자율주행차, 인공지능 스피커, 문자를 읽어주고 전화를 걸어주는 AI 비서가 유행해던 과거 몇년 동안의 시간보다, 최근 5개월 새에 받은 충격이 훨씬 더 큰 것 같습니다. IT 업계에서도 극히 일부에서만 활용되던 AI가 이제는 산업 전반에 걸쳐 제대로 활용될 수 있는 길이 열리지 않았나 싶습니다. 



그래서 이번 콘텐츠에서는 바야흐로 AI 전성시대인 지금, 생성 AI와 같은 고성능의 AI 개발에 필수 요소인 AI 인프라의 핵심, GPU에 대해 알아보고자 합니다. 그 GPU 중에서도, 글로벌 GPU 시장 선도기업 NVIDIA의 가장 강력한 최신 데이터 센터 GPU인 H100에 대해 자세히 다뤄볼 예정입니다. 주요 아젠다는 아래와 같습니다.



그럼 지금부터, AI 인프라에 왜 GPU가 중요하고 NVIDIA의 최신 데이터 센터 GPU, H100은 어떤 특징을 가지고 있는지 하나씩 알아보겠습니다.





 아젠다

 1. 고성능 AI를 위해 GPU가 반드시 필요한 이유

 2. 데이터 센터 GPU 시장을 선도하는 NVIDIA의 최신 GPU, H100 특징

  1) NVIDIA Hopper 아키텍처

  2) NVIDIA H100 폼팩터 및 벤치마크 성능

  3) H100 AI 성능 벤치마크

  4) NVIDIA DGX H100

  5) NVIDIA GH100 슈퍼칩을 탑재한 HGX

 3NVIDIA 데이터 센터 GPU가 활용된 국내외 AI 서비스 구현 사례

 4. 결론 : AI 인프라 구성할 때 고려해야 할 사항들


 ※ 쉐어드IT 회원분들을 위한 퀴즈 & 설문 이벤트

  • 아젠다 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.

  • 마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다



이 콘텐츠는 한국인프라의 지원으로 제작되었습니다.









1. 고성능 AI를 위해 반드시 GPU가 필요한 이유



이미 잘 알고 계시겠지만, AI의 핵심은 방대한 데이터를 학습하는 데에 있습니다. 학습한 결과물을 토대로 다시 한번 재학습하면서 예측력을 높이고, 추론하는 과정을 반복하면서 AI는 계속 진화해 갑니다. 결국, ChatGPT와 같은 생성 AI의 핵심은 엄청나게 많은 데이터를 얼마나 빨리 학습해서 그 결과를 내놓느냐에 달려있다고 해도 과언이 아닙니다. 



물론 데이터 학습을 위한 모델의 알고리즘 경쟁력도 매우 중요하겠으나, 무엇보다 중요한 것은 데이터를 빠르게 학습하고 그 결과를 재빠르게 내놓을 수 있느냐입니다. ChatGPT가 승승장구하고 있는 이유도 대량의 데이터 학습 결과를 우리에게 바로 바로 내놓기 때문입니다. 만약 ChatGPT에게 질문했을 때 그 결과를 몇 시간 뒤, 혹은 며칠 뒤에 확인할 수 있다면 이렇게까지 큰 반향을 일으키지는 못했겠죠?



<이미지 출처 : NVIDIA Blog, What is a Virtual GPU?>


그래서 핵심은 '대량의 데이터를 빠르게 학습해서 결과물을 신속히 제공할 수 있는가'로 귀결됩니다. 데이터를 학습한다는 것은 컴퓨팅 연산이 수행된다는 것이고, 컴퓨터 부품 중 이 연산을 수행하는 역할은 줄곧 CPU가 도맡아 왔습니다. 하지만 CPU는 하나의 연산을 수행한 뒤 다음 연산으로 넘어가는 순차처리에 최적화되어있어 학습해야 할 데이터의 수가 많아질 수록 전체 학습 속도가 떨어지는 단점이 있죠. 그래서 이것을 해결하기 위해 활용되는 것이 GPU입니다.



GPU는 순차처리가 아닌 병렬처리가 가능합니다. 즉, 동시에 다수의 연산을 처리할 수 있다는 것입니다. 그래서 데이터의 수가 많더라도 그 많은 데이터를 동시에 학습할 수 있기 때문에 데이터 학습에 필요한 연산 능력이 CPU보다 월등하게 좋습니다. 만약 1만개의 데이터를 CPU로 학습한다면 1번부터 1만번까지 차례대로 연산을 하겠지만 GPU는 1번부터 1만번까지 동시에 연산을 수행할 수 있습니다. 이런 구조적인 차이때문에 대량의 데이터 학습 연산에 GPU가 주로 활용되는 것입니다.





<이미지 출처 : 개발자 LaLa Youtube 채널, NVIDIA의 과학시간 - GPU와 CPU의 차이>


이에 대한 차이를 쉽게 설명하고 있는 NVIDIA의 영상이 있어 핵심 부분만 캡쳐해서 가져와 봤습니다. 위 이미지는 로봇이 하얀 벽에 파란색 페인트 공을 쏴서 웃는 얼굴을 그리고 있는 장면입니다. CPU는 사전에 어떤 결과물을 만들어 낼지에 대해 알고 있으나 그 결과물을 만들어내는 과정은 위와 같이 원을 먼저 그리고(페인트를 차례대로 쏘고) 입, 그  다음 눈으로 넘어가는 형태로 작업하는 순차처리에 특화되어있습니다. 





<이미지 출처 : 개발자 LaLa Youtube 채널, NVIDIA의 과학시간 - GPU와 CPU의 차이>


하지만 GPU는 다릅니다. 모나리자라는 그림의 전체 모습을 이미 알고 있는 GPU는 모나리자를 그리기 위해 필요한 페인트볼 수백개를 동시에 벽에 쏴서 한번에 그려냅니다. 이게 병렬처리이고 CPU와 GPU의 차이라고 보시면 됩니다. 하나의 연산을 빠르게 수행하는 것 보다는 다수의 연산을 동시에 수행하는 것이 중요한 작업, AI를 위한 대량의 데이터 학습에는 CPU보다 GPU가 더욱 필요한 이유입니다. 





<이미지 출처 : STH, ChatGPT Hardware a Look at 8x NVIDIA A100 Powering the Tool>



게다가 ChatGPT도 방대한 데이터 학습을 위해 위와 같이 NVIDIA의 데이터 센터 GPU인 A100을 1만대 가량 사용하고 있다고 합니다. ChatGPT가 사람들에게 놀라움을 주는 이유는 모르는 것 없이 척척 대답해 주는 것도 있지만, 답변 내용의 자연스러움에 있는데요. 텍스트를 인식해 요약 정리하고, 번역하고, 코드를 짜서 상대방에게 적절한 말로써 답을 보여주는 LLM(Large Language Model, 대규모 언어 모델)의 뛰어난 성능 덕분입니다. 



LLM으로 인해 마치 사람이 말하는 것과 같은 자연스러움을 얻은 것이라고 할 수 있죠. 이 사람과 같은 어투는 엄청난 양의 데이터를 학습한 결과이고, 이것을 가능케 하는 핵심이 바로 GPU입니다. 따라서, 우리는 고성능의 AI에는 고성능의 GPU 서버가 필요하다는 결론에 쉽게 도달할 수 있는 것입니다.









2. 데이터 센터 GPU 시장을 선도하는 NVIDIA의 최신 GPU, H100


글로벌 외장형 GPU 시장을 오랫동안 선도해온 NVIDIA는 현존하는 가장 강력한 성능의 GPU를 제공하고 있습니다. AI 인프라, AI 서버는 곧 고성능 GPU 카드가 장착된 AI 서버를 의미하죠. 그래서 AI를 자체적으로 연구하는 기업들은 NVIDIA GPU가 장착된 GPU 서버를 도입하고 있고요. 대형 클라우드 서비스 사업자들도 자사의 다양한 AI 서비스를 위해 IDC에 NVIDIA GPU를 탑재해서 AI 관련 서비스들을 출시, 운영 중에 있습니다.



그렇다면 왜 많은 기업들이 AI 데이터 학습용 인프라로 NVIDIA GPU를 선택하고 있는 것일까요? 당연히 성능이 가장 뛰어나서겠죠. 그래서 지금부터는 이번 콘텐츠의 메인 주제이자 NVIDIA가 내놓은 가장 높은 성능의 데이터 센터 GPU인 H100에 대해 자세히 알아보겠습니다.





 1) NVIDIA Hopper 아키텍처



NVIDIA는 H100의 H는 Hopper라는 아키텍처 이름입니다. 이전 세대의 GPU인 A100의 A는 Ampere라는 아키텍처이고요. NVIDIA 데이터 센터 GPU는 2007년에 처음 출시된 Tesla 아키텍처 기반 GPU를 1세대로 볼 경우 2011년 2세대 Fermi S2070, 2014년 3세대 Kepler K80, 2015년 4세대 Maxwell M60, 2016년 5세대 Pascal P100, 2018년 6세대 Volta V100, 같은 해 9월에 발표된 7세대 Turing, 2020년 8세대 Ampere A100에 이어 2022년 9세대 H100으로 진화해 왔습니다.



<데이터 출처 : WIKIPEDIA, List of NVIDIA graphics processing units>


위 표는 NVIDIA 데이터 센터 GPU 모델 중 아키텍처 별 가장 고성능의 GPU만을 따로 정리한 것입니다. NVIDIA GPU의 연산성능에 큰 영향을 끼치는 지표만 가져왔고요. 1세대와 비교해 9세대 H100은 CUDA Core 수 14배, 메모리 대역폭 5배, Single Precision 성능은 20배나 향상되었습니다. 특히 이전 8세대인 A100과 비교해도 CUDA Core 수 2배, 메모리 대역폭 30%, Single Precision 성능은 1.6배 향상되었는데요. 다른 세대보다 특히 H100으로 진화하면서 이룬 성능 향상이 매우 큽니다.





특히 AI와 같은 높은 연산 성능이 필요한 워크로드를 위해, NVIDIA는 2018년 3월, Volta 아키텍처에서 처음으로 Tensor 코어를 새롭게 발표했습니다. Tensor 코어는 NVIDIA GPU에 추가된, 행렬 곱셈 프로세스 속도를 향상시키는 코어로,  V100에 총 640개의 Tensor 코어가 장착되어 AI 학습 및 추론, 딥러닝 연산에 활용됩니다.





위와 같이 Tensor 코어가 장착된 GPU만 따로 정리했습니다. 2018년 Volta 아키텍처에서 처음 채용된 1세대 이후 2세대 Turing, 3세대 Ampere를 거쳐 Hopper에서 4세대로 진화한 Tensor 코어는 진화할 때마다 성능이 향상되고 지원되는 정밀도 연산 종류도 증가하는 것을 보실 수 있습니다. 게다가 1세대에 비해서 오히려 코어 수가 줄었음에도 불구하고 성능이 대폭 향상된 것은 아키텍처 설계 기술이 그만큼 향상된 것으로 이해할 수 있습니다.



지금까지 간단히 NVIDIA 데이터 센터 GPU의 변천사를 간단히 정리했는데요. 그렇다면, 가장 최신의 NVIDIA Hopper 아키텍처는 어떤 특징이 있길래 이전 세대 대비 괄목할만한 성능 향상을 이뤄낸 것일까요? 위에 언급한 내용 외에 Hopper 아키텍처만의 주요 특징 5가지를 간단히 정리해 보겠습니다.



  • 트랜스포머 엔진





앞서 언급한 LLM이 학습해야 할 파라미터, 즉 AI 모델이 학습해야 하는 매개변수의 수는 수 천억개에서 수 조개에 이릅니다. 이렇게 많은 데이터 학습을 통해 자연스러운 자연어 모델을 개발하기 위해 사용되는 것이 딥러닝 모델 중 하나인 트랜스포머 모델이고요. 널리 사용되는 트랜스포머 모델로 Google의 BERT, OpenAI의 GPT가 있습니다.


그럼 트랜스포머 엔진은 무엇일까요? NVIDIA 데이터 센터 GPU에서 이러한 AI 학습 성능에 지대한 영향을 끼치는 것이 지난 2018년에 발표된 Volta 아키텍처 기반 GPU부터 추가된 Tensor 코어입니다. Tensor 코어는 TF32, FP64, FP16, INT8과 같은 부동 소수점 연산을 NVIDIA GPU의 CUDA Core보다 훨씬 더 빠르고 정확하게 처리할 수 있는데, 이 Tensor 코어가 Hopper 아키텍처에서 4세대로 진화하면서 성능이 대폭 향상되었습니다. 이를 바탕으로 NVIDIA는 트랜스포머 모델이 더욱 빠르게 데이터를 학습시킬 수 있도록 도와주는 자체 트랜스포머 엔진을 H100에 새롭게 추가했고요. 덕분에 H100은 LLM 모델 개발에 최적의 성능을 발휘할 수 있게 되었습니다.



  • NVLink, NVSwitch




NVLink는 NVIDIA GPU 여러개를 연결해 GPU들간의 데이터 전송 속도를 향상시켜 더욱 많은 병렬처리를 할 수 있도록 하는 기술입니다. 2016년에 발표된 Pascal 아키텍처부터 채용되기 시작한 NVLink는 아키텍처와 함께 진화하며 Hopper 아키텍처에서 4세대로 진화했고요. 그 성능 역시 세대를 거듭할 때마다 크게 향상되어 1세대 NVLink 대비 Hopper 아키텍처의 4세대 NVLink는 7배 이상의 높은 성능을 발휘합니다.


NVLink는 다수의 GPU를 직접 연결시켜주는 기술인데, 이 NVLink를 서로 연결할 수도 있습니다. 이 때 필요한 것이 NVSwitch고요. Hopper 아키텍처에서 3세대로 진화한 NVSwitch의 GPU 대역폭은 900GB/s로 1세대 300GB/s 대비 3배 향상되었습니다. NVSwtich는 최대 8개의 GPU 연결을 지원하기에 1개 서버 노드에 NVLink와 NVSwitch를 사용해 8개의 GPU를 장착할 수 있고요. 이 노드를 최대 32개까지 연결할 수 있어 총 256개의 GPU를 사용한 병렬처리 시스템을 구현할 수 있습니다.



  • 컨피덴셜 컴퓨팅




AI 모델 학습을 위해 많은 데이터를 확보하는 것만큼이나 중요한 것이 보안입니다. 열심히 학습시켜 추론한 결과물이 보안에 취약한 환경에 노출되어 유출되는 사태가 발생하면 큰일이겠죠. NVIDIA는 AI 서버의 CPU와 H100 GPU 사이의 데이터를 암호화해서 전송하며, 별도의 내장 방화벽을 통해 AI 워크로드를 완전히 격리되어 안전한하게 실행할 수 있는 환경인 TEE(Trusted Execution Environment)를 생성하는 컨피덴셜 컴퓨팅을 제공합니다.  


이 TEE에는 마치 제로 트러스트 보안 환경처럼 인증된 사용자만 접근할 수 있으며, AI 서버 노드 내의 단일 H100 GPU 또는 NVLink와 NVSwitch로 연결된 다중 H100 GPU에서 실행되는 AI 워크로드를 안전하게 보호합니다. 인가되지 않는 사용자가 함부로 우리의 AI 모델과 데이터에 접근할 수 없도록 함으로써 AI 훈련 및 추론에 대한 기밀성을 확보할 수 있다는 것이 핵심이며, 이 컨피덴셜 컴퓨팅은 온프레미스 뿐만 아니라 클라우드, 엣지 환경에서도 동일하게 적용되어 H100 GPU가 사용되는 어디에서든 AI 모델과 데이터를 보호합니다.



  • MIG(Multi-Instance GPU)




Hopper 아키텍처 기반의 강력한 성능을 자랑하는 H100 GPU가 여러대 연결된 단일 GPU 서버 노드를 데이터 과학자 혼자 독점하며 AI 모델 학습 및 추론에 활용할 수 있겠지만, 만약 기업 내에 데이터 과학자가 1명이 아닌 여러 명이라면, 그리고 이 여러 명의 데이터 과학자가 동시에 서로 다른 AI 프로젝트를 수행하고 있다면 어떨까요? 각 데이터 과학자 별로 개별적인 GPU 서버 노드를 마련해줘야 할까요?


이런 경우를 위해 NVIDIA는 MIG를 통해 GPU 리소스를 최대 7개로 분리해 사용할 수 있도록 합니다. Hopper 아키텍처에서 2세대로 진화한 MIG를 사용하면 기업에서 사용하는 GPU 자원을 완전히 격리된 가상화 환경으로 구성해서 동시에 여러 명의 데이터 과학하자 AI 모델 학습을 시킬 수 있습니다. 메인 AI 프로젝트에 대부분의 GPU 자원이 사용되고 있어서 이제 막 시작하는 파일럿 AI 프로젝트의 연구를 위해 클라우드 서비스의 AI 인스턴스를 사용할 필요가 없다는 것입니다. MIG로 GPU 자원을 나눠쓰면 되니까요.




<이미지 출처 : 쉐어드IT Insight, 방대한 데이터 분석을 위한 효율적인 AI플랫폼 구현 방안>


만약 GPU 자원을 더 잘게 쪼개어 사용하고 싶다면? NVIDIA의 MIG는 7개로 GPU를 분할할 수 있지만 국내 스타트업 Lablup(래블업)의 Backend.AI를 사용하면 0.1개 단위로 GPU 자원을 나눠서 사용할 수 있습니다. NVIDIA가 직접 만든 GPU 서버인 DGX 인증을 받은 기술로, 강력한 성능의 NVIDIA GPU 자원을 보다 효율적으로 사용할 수 있도록 돕습니다.



  • DPX 명령어




DPX는 Dynamic Programming X의 약자로, 여기서 Dynamic Programming은 동적 프로그래밍, 동적 계획법이라고 번역합니다. 동적 프로그래밍은 프로그램이 시간에 따라 동적으로 변하는 것을 의미하며, 하나의 큰 문제를 여러 개의 작은 문제로 나누어서 해결하려는 문제해결 방법이자 알고리즘 설계 기법이고요. 큰 문제를 작은 문제로 쪼개서 해결 방안을 찾고, 작은 문제 별 해결 방안을 저장(기억)해 둔 다음 재활용하면서, 거대한 하나의 문제를 해결해 나가는 형태라고 보시면 됩니다. 



동적 프로그래밍은 현재 생물학 및 질병 연구, 신약 개발 등 헬스케어에 널리 활용되며 물류 센터 내부를 바쁘게 오고 가는 자율 로봇의 경로 최적화 작업에도 활용되고 있으며, 다수의 데이터가 저장된 테이블을 서로 연결하는 조인 작업을 수행할 때 보다 빠르게 처리되도록 SQL 쿼리를 가속화 시켜 줍니다.



개발자들은 이러한 동적 프로그래밍을 주로 CPU나 FPGA에서 실행해 왔으나 이제 NVIDIA가 제공하는 DPX 명령어를 사용해 동적 프로그래밍 처리 속도를 향상시킬 수 있게 되었습니다. 특히 Hopper 아키텍처 기반의 DPX 명령어 집합은 이전 세대인 Ampere 아키텍처 대비 동적 프로그래밍 처리 속도가 최대 7배 향상되었고요. 덕분에 Hopper 아키텍처 기반의 H100은 LLM 이외에도 앞서 언급한 다양한 분야에서 AI 연구 목적으로 널리 활용될 수 있습니다.









 2) NVIDIA H100 폼팩터


  • H100 라인업




NVIDIA H100은 위와 같이 3가지 제품이 제공됩니다. 왼쪽부터 가장 서버 마더보드의 PCIe 슬롯에 장착하는 H100 PCIe Gen5, NVIDIA가 개발한 GPU 전용 슬롯에 장착하는 인터페이스인 SXM(Scalable Link Interface (SLI) for PCIe eXternal Module)방식이 적용된 H100 SXM5, 그리고 NVIDIA가 자체 개발한 ARM 기반 프로세서인 Grace CPU와 H100 GPU 칩이 하나의 모듈에 탑재된 GH100 SXM5입니다.






3가지 유형의 NVIDIA H100 스펙을 정리한 표입니다. H100 PCIe 대비 H100 SXM이 약 30%정도 성능이 높지만 요구 전력량, TDP는 2배입니다. 따라서, 충분한 전력을 공급받을 수 있는 IDC라면 H100 PCIe보다 H100 SXM을 선택하면 되고요. 단, PCIe Gen5를 지원하는 범용적인 서버를 사용 중이라면, H100 PCIe를 선택해 그 서버를 GPU 서버, AI 전용 서버로 탈바꿈시킬 수 있습니다.



그리고 GH100 SXM의 경우 녹색으로 표시한 부분을 주목해 주시기 바랍니다. GPU 메모리와 메모리 대역폭이 H100 SXM보다 20% 정도 높습니다. 그리고 가장 큰 특징이 NVIDIA가 자체 개발한, ARM 기반 프로세서인 Grace CPU가 장착되어 있다는 점인데요. 이 덕분에 H100 SXM이 탑재된, x86 기반 프로세서인 Intel이나 AMD CPU를 채용한 서버 대비 더 높은 AI 학습 및 추론 성능을 제공합니다. 이 부분은 뒤에서 좀 더 자세히 다루겠습니다.


아무튼, 여기서 기억해주셔야 할 것은 간단합니다. H100은 PCIe와 SXM 2가지 폼팩터로 제공되며, NVIDIA Grace CPU와 H100 GPU가 통합된 GH100 SXM이라는, 보다 AI와 HPC 용도에 최적화된 제품이 있다는 것을 기억해 주시기 바랍니다.



  • 새롭게 발표된 LLM 최적화 GPU, H100 NVL



<이미지 출처 : Anandtech, NVIDIA Announces H100 NVL - Max Memory Server Card for Large Language Models>


NVIDIA는 지난 3월 21일에 OpenAI의 GPT-4와 같은 최신 LLM에 최적화된, 새로운 모델인 H100 NVL을 공개했습니다. H100 PCIe 폼팩터 카드 2개를 NVLink로 연결해 구성했으며, ChatGPT같은 LLM을 자체적으로 개발하기 위한 AI 인프라인 GPU 서버에 장착되는 GPU 중 가장 강력한 AI 성능을 발휘한다고 알려졌는데요. 앞서 소개해 드린 H100 PCIe, SXM 폼팩터와 어떻게 다른지 스펙시트로 비교해 볼까요?




<이미지 출처 : VideoCards, NVIDIA introduces H100 NVL dual-GPU AI accelerator for Chat-GPT>


NVIDIA에서 공개한 스펙시트에 따르면, H100 NVL의 성능은 단순히 H100 PCIe 2개를 연결한 것을 뛰어넘는 성능을 보여주고 있습니다. 기본적으로 성능은 H100 PCIe가 아닌 H100 SXM5의 2배이며 GPU 메모리와 메모리 대역폭, 사용 가능한 MIG 역시 2배입니다. H100 SXM 폼팩터보다 떨어지는 성능은 딱 하나, H100 PCIe 폼팩터의 한계 상 NVLink 데이터 전송속도가 600GB/s로 H100 SXM5 대비 1/3 떨어집니다.



하지만, 주목할만한 것은 H100 NVL의 TDP인데요. H100 SXM이 H100 PCIe보다 단일 GPU 기준 성능은 약 30% 더 높지만 TDP는 2배에 달합니다. 그런데 H100 NVL의 TDP는 H100 PCIe보다 조금 더 높은 350-400W이고요. 한 서버에 장착할 수 있는 GPU 수는 H100 SXM는 최대 8개, H100 NVL은 최대 4개로, 서버의 최대 GPU 성능은 H100 NVL 4개를 장착한 서버가 더 높고 TDP는 3.5배나 낮습니다.(H100 SXM TDP 700W x 8 = 5,600W vs H100 NVL TDP 400W x 4 = 1,600W)



GPU의 소비 전력이 매우 높기때문에 AI 인프라 구성 시 IDC에서 이만큼의 전력을 공급할 수 있는지도 매우 중요합니다. H100 SXM 8개를 장착한 서버의 GPU TDP만 5,600W이고 CPU, 스토리지, 쿨링팬 등 다른 부품들의 TDP까지 고려하면 H100 SXM 8개를 장착한 서버가 요구하는 전략량은 거의 10,000W에 육박하죠. 단일 시스템에 이 정도 전력을 공급할 수 있는 IDC는 많지 않기에, 대규모 IDC를 운영하는 빅테크 기업이 아니고서는 H100 SXM5 GPU 8개를 탑재한 GPU 서버, AI 인프라를 도입하기 어렵습니다.




<이미지 출처 : Techlog360, NVIDIA Announces H100 NVL: A New GPU Variant for Large Language Models>


하지만 H100 NVL을 사용하면 H100 PCIe 4개 사용 전력으로 H100 SXM 8개 보다 더 높은 성능을 발휘할 수 있습니다. 이는 규모가 아주 크지 않은 IDC에서도 LLM을 위한 가장 뛰어난 성능 + 전력 효율성이 높은 GPU 서버를 운영할 수 있다는 것입니다. 그런데 한 가지 간과하면 안되는 것이 있는데요. 현재 시중에 나와있는 GPU 서버의 PCIe Gen5 슬롯이 커버할 수 있는 전력량은 300W 정도로, 기존에 사용하던 H100 PCIe가 장착된 서버의 PCIe5 슬롯에 바로 H100 NVL을 꽂아 사용할 수 없습니다. 최소 350-400W의 전력을 요구하는 H100 NVL을 사용하기 위해서는 PCIe 슬롯 역시 최대 400W까지 커버할 수 있는 마더보드 + 전원공급장치가 있는 서버가 필요합니다. 



그러나 실망하기엔 아직 이릅니다. H100 NVL은 올해 하반기에 정식 출시될 예정이거든요. 그때쯤이면 PCIe 5 슬롯에서 최대 400W까지 커버할 수 있는 마더보드가 출시되지 않을까 싶습니다. 그리고 프로세서는 아마도 그리고 Intel Sapphire Rapids, AMD EPYC 4세대 Genoa CPU일테니, H100 NVL 탑재 서버는 명실상부 현존하는 가장 성능이 뛰어난 GPU 서버가 되겠죠?



그리고, H100 NVL의 등장으로 인해 H100 SXM 폼팩터 위치가 다소 애매해지는 것이 아닌가 싶기도 합니다. 전력 공급만 충분하다면 H100 SXM 8개를 장착한 GPU 서버의 성능이 가장 뛰어났었으니까요. 왠지 조만간에 NVIDIA가 H100 PCIe를 개량한 H100 NVL처럼, 더욱 업그레이드 된 H100 SXM의 새로운 모델을 발표하지 않을까 싶습니다.










 3) H100 AI 성능 벤치마크



<이미지 출처 : VideoCardz.com>

H100의 AI 성능이 어느 정도인지 알아보기 전에 먼저 이전 세대 GPU와의 스펙을 먼저 비교해 보겠습니다. 2016년에 발표된 P100부터 V100, A100, H100으로 진화하면서 공정이 개선되고 트랜지스터 수가 증가했으며 GPU 클러스터 수, CUDA Core 수, L2 캐시 메모리, Tensor 코어 수, 최대 메모리 크기 등 당연하게도 증가하지 않은 항목이 없습니다. 특히 바로 직전 세대인 A100과 H100의 스펙을 비교해 보면, CUDA Core 수의 증가폭이 엄청난 것을 알 수 있는데요. P100 -> V100 43%, V100 -> A100은 35%인 반면 A100 -> H100은 무려 111%, 2배가 넘게 증가했습니다.


이러한 스펙 향상을 바탕으로 H100은 직전 세대인 A100 대비 주요 AI 벤치마크에서 어느 정도의 성능 향상을 이뤄냈는지 확인해 보시죠.




먼저 AI 훈련 성능입니다. H100은 앞서 언급했던 트랜스포머 엔진을 탑재해서 Moe(Mixture Of Experts) 전문가 혼합 모델 훈련에 있어 총 3,950억개의 매개변수 훈련 성능이 A100보다 9배나 빠릅니다. A100이 7주일 걸리던 것을 H100은 단 하루도 채 걸리지 않은 20시간 만에 완료했습니다. 단순이 CUDA Core 수 및 다른 스펙이 향상된 것보다 훨씬 더 큰 성능 향상 폭을 기록했는데, Hopper 아키텍처에 채용된 트랜스포머 엔진 덕분으로 봐도 좋을 듯 합니다.




NVIDIA는 2022년 7월, 자사가 제공하는 LLM 훈련 최적화 프레임워크인 NeMo Megatron의 업데이트를 발표했습니다. Nemo Megatron 프레임워크가 포함된 NVIDIA AI 플랫폼은 1,760억개의 매개변수를 가진 오픈 다국어 언어 모델인 BLOOM의 훈련을 담당하며, 현존하는 가장 강력한 언어 모델이자 Microsoft와 NVIDIA가 함께 협업하여 발표한, 자연어 생성 모델, Megatron-Turing NLG를 지원합니다. 


Megatron-Turing NLG 모델은 최대 5,300억개의 매개변수를 가지는데, 이 모델 학습 시 발행하는 GPU 지연 시간이 H100에서 전 세대인 A100대비 최대 30배까지 향상되어 더 빠른 LLM 모델 개발을 지원합니다. ChatGPT에 적용된 GPT 3.5와 같은 LLM 성능을 향상시키기 위해 필요한 언어 모델 학습 및 추론 성능에서 H100이 이전 세대 대비 엄청난 성능 향상을 이룬 것이라고 보시면 되겠습니다.





H100은 HPC 애플리케이션 성능에서도 A100 대비 엄청난 성능 향상을 이뤄냈습니다. 전자공학에서 소리나 진동, 파형 및 노이즈 분석뿐만 아니라 라이다 센서를 사용한 자율주행 자동차, 대기 분석 및 영상 분석에도 널리 활용되는 3D FFT (푸리에 변환) 성능이 6배 향상됐고요. DNA 염기서열 해독을 통해 개인 DNA 분석 및 질병학에 활용되는 Genome Sequencing 분석 성능이 7배 향상되어 헬스케어 업계의 연구 속도를 크게 개선할 수 있습니다.





이 외에도 신경망 네트워크를 활용한 딥러닝 모델 중 하나인 ResNet, RNN-T와 자연어 처리를 위한 BERT, 추천 시스템을 위한 딥러닝 모델 DLRM 등 다양한 AI 모델 학습에 있어서 이전 세대인 A100대비 적게는 2배에서 많게는 4.5배 가까이 성능이 향상된 것을 확인할 수 있습니다.







 4) NVIDIA DGX H100






NVIDIA는 지난 Pascal 아키텍처 시절부터 자사의 데이터 센터용 GPU 8개를 탑재한 자체 GPU 서버, DGX 서버를 시장에 공급하고 있습니다. DGX 서버 역시 GPU 아키텍처가 진화해 가면서 함께 성능이 향상되어 왔고요. 위 이미지는 H100 GPU를 탑재한 DGX-H100으로, 현존하는 가장 성능이 좋은 AI를 위한 단일 GPU 서버 노드라고 보시면 됩니다.




DGX-H100은 H100 SXM5 폼팩터의 GPU 8개를 NVSwitch 4개로 연결해서 640GB에 달하는 GPU 메모리가 장착되었고, 400Gb/s 인피니밴드 네트워크과 200Gb/s 이더넷 네트워크, 3.84TB NVMe 스토리지 8개에 Intel Platinum 8480C 프로세서 2개를 탑재한 8U 크기의 초고성능 서버입니다. 이전 세대인 DGX-A100 까지는 CPU가 AMD EPYC 프로세서였는데 이번 DGX-H100부터 Intel 프로세서로 바뀌었고, 최신 DGX-H100은 마찬가지로 Intel의 최신 CPU인 사파이어 래피즈 프로세서가 탑재됩니다.





앞서 Hopper 아키텍처 부분에서 NVSwitch를 설명하면서 최대 32노드까지 연결할 수 있다고 말씀드렸던것 기억하시죠? 위와 같이 DGX-H100 서버 노드를 1개 랙 당 4대 x 8개 랙 = 32개 노드를 연결하여 총 256개에 달하는 H100 GPU로 구성된 거대한 슈퍼컴퓨터 시스템을 구현할 수 있습니다. 이것을 NVIDIA는 DGX SuperPOD이라고 부릅니다. 그리고 조만간에 인프라 규모를 축소해 최소 DGX-H100 노드 2개부터 시작되는 DGX BasePOD을 출시할 예정이라고 합니다. 즉, 자체 AI 인프라를 시작하는 단계는 DGX-H100을, 이후 DGX BasePOD으로 규모를 조금씩 확장할 수 있으며, 그 규모를 32 노드가 연결된 SuerPOD까지 단계적으로 구축해 나갈 수 있다는 것입니다


더불어 DGX BasePOD, SuperPOD 아키텍처 모두 사전에 NVIDIA에서 최적화된 풀스택 플랫폼이라는 것이 가장 큰 특징입니다. 하드웨어 스택은 NVIDIA의 고성능 네트워킹 인프라와 DGX H100 GPU, 그리고 NVIDIA 인증 고성능 스토리지로 구성되며, 소프트웨어의 경우 NVIDIA가 특정 산업 및 용도에 맞게 최적화한 AI 애플리케이션 프레임워크를 제공합니다.





위와 같이 현재 NVIDIA가 제공하는 AI 애플리케이션 프레임워크 종류는 14개이고요. 왼쪽부터 제조업의 물리 모델 개발을 위한 MODULS, 헬스케어를 위한 의료 영상에 쓰이는 MONAI, 음성 - 텍스트 간의 변환 기술인 RIVA, 화상회의 및 스트리밍 콘텐츠 개발 가속화를 위한 MAXINE, 대화형 AI 모델 개발에 활용되는 NEMO, 쇼핑몰이나 OTT에서 쉽게 접할 수 있는 추천 시스템 개발을 위한 MERLIN, 물류 및 경로 최적화에 사용되는 CUOPT, 사이버 보안에 활용될 이상 징후 탐지 분석을 위한 MORPHEUS, 가상 세계에 디지털 인간, 캐릭터를 창조하는 TOKKIO, 자체 아바타 제작을 위한 AVATAR, 자율주행 자동차 개발에 활용되는 DRIVE, 로봇 공학 용 ISAAC, 다수의 비디오와 센서 데이터를 활용해 스마트 시티 구현을 돕는 METROPOLIS, 의료기기에서 수집하는 데이터의 실시간 처리를 위한 HOLOSCAN입니다.


각각의 AI 애플리케이션 프레임워크를 클릭하면 NVIDIA가 제공하는 설명 영상으로 이동하니 보다 자세한 정보가 궁금하신 분들은 확인해 보시기 바랍니다.




DGX-H100은 하드웨어부터 소프트웨어까지, AI 인프라를 위한 모든 것을 AI가 사전에 철저하게 검증해서 제공한다는 것이 가장 큰 특징입니다. AI 프로젝트를 시작하려는 기업의 가장 큰 고민은 가장 알맞은 AI 인프라 구축과 소프트웨어 설치 및 세팅에 대한 경험이 부족하다는 것인데요. 그들은 AI 모델을 다루는 데이터 과학 분야 전문가이지 AI 모델을 위한 인프라 구축 전문가는 아니기 때문입니다. 따라서, 이런 유형의 기업이라면 더욱더 NVIDIA가 이미 검증과 최적화를 끝낸 하드웨어 + 소프트웨어 풀스택 플랫폼인 DGX-H100이 제격이라고 할 수 있겠습니다.







 5) NVIDIA GH100 슈퍼칩을 탑재한 HGX




NVIDIA의 H100 폼팩터를 설명하면서 GH100 슈퍼칩을 언급했던 것, 기억하시죠? NVIDIA는 x86이 아닌 ARM 기반 NVIDIA 자체 CPU인 Grace CPU 슈퍼칩을 개발했고요. 여기에 H100 GPU를 추가한 GH100 슈퍼칩을 탑재한 서버를 다양한 OEM 서버 제조사들과 협력해, 빠르면 올해 상반기 중 출시할 예정입니다. 






NVIDIA GH100이 탑재된 HGX 서버는 위와 같이 Intel CPU와 같은 x86 프로세서를 탑재한 서버 대비 AI 학습 및 추론, DB, HPC 애플리케이션에서 최소 1.3배 ~ 최대 4.4배의 높은 성능을 보입니다. 이것이 가능한 이유는 기존의 H100에 아래와 같이 2가지 이 추가되었기 때문입니다.


  • NVIDIA NVLink-C2C : GPU를 연결하는 NVLink와 마찬가지로 C2C(Chip to Chip) 기술을 통해 Crace CPU 2개를 연결, 총 144개의 ARM V9 코어와 1TB/s 메모리 대역폭 지원

  • NVIDIA BlueField-3 DPU : 데이터 처리를 가속화하는 NVIDIA 전용 DPU(Data Processing Unit)인 BlueFiled 3세대가 네트워크로 연결된 AI 및 HPC 애플리케이션에 400Gb/s의 고속 네트워크로 데이터를 전송


즉, CPU와 GPU를 다이렉트로 연결해 둘 사이의 데이터 전송에 대한 병목현상을 제거함과 동시에, DPU를 통해 네트워크상에서 전송되는 데이터만을 전담해서 처리해 주는 하드웨어가 추가되어 위와 같이 기존 H100 탑재 서버 대비 더욱 높은 성능을 발휘할 수 있는 것입니다.



더불어 NVIDIA는 방금 말씀드린 GH100이 탑재된 HGX 외에 Grace CPU와 BlueField DPU, 그리고 H100이 아닌 다른 GPU를 장착한 서버들을 위와 같이 제공하고 있고요. 왼쪽부터 3가지를 차례대로 간단히 정리하면 아래와 같습니다.

  • CGX : 클라우드 그래픽 & 게이밍에 최적화된 서버, Grace CPU + NVIDIA A16 GPU 적용

  • OVX : 디지털 트윈 & 옴니버스(NVIDIA 메타버스 플랫폼)에 최적화된 서버, Grace CPU + NVIDIA GPU 적용

  • HGX-H100 :  HPC 애플리케이션과 같은 순차처리에 최적화된 서버, Graca CPU 적용


이처럼 NVIDIA는 자사의 가장 강력한 GPU인 H100에 ARM 기반 프로세서 Grace CPU를 더해 다양한 용도에 최적화된 하드웨어 인프라 + 소프트웨어까지, 풀스택 서비스를 제공하고 있습니다.








3. NVIDIA 데이터 센터 GPU가 활용된 국내외 AI 서비스 구현 사례


지금까지 소개한 NVIDIA 데이터 센터 GPU, H100의 특징과 뛰어난 성능에 대해 자세히 알아봤는데요. 이제, 실제 자사의 AI 서비스 출시에 NVIDIA GPU를 활용한 사례를 살펴볼 차례입니다. 해외 사례까지 포함하면 너무 많을 것 같아 가장 대표적인 해외 사례와 국내 사례 몇개만 소개하고 마무리 하겠습니다.


  • OpenAI ChatGPT



가장 대표적인 사례는 OpenAI의 ChatGPT입니다. 앞서 GPT 3.5 기반의 ChatGPT는 NVIDIA A100 1만대를 사용하고 있다고 말씀드렸는데요. ChatGPT에 물어보니 NVIDIA GPU를 사용한다고는 하지만 정확히 몇대를 사용하는지는 OpenAI가 공식적으로 공개한 정보가 없어서 정확한 답변을 드리기 어렵다고 하더군요.




그래서 추가적인 궁금증이 생겨 위와 같이 GPU가 아닌 CPU로 현재의 성능을 구현하는 데에 얼마나 시간이 오래 걸리는지 물었더니, CPU만으로 구현하는데에 훨씬 오래 걸리며 구체적인 수치를 제시하지는 않았습니다.



집요한 저는 다시 한번 물었습니다. 그랬더니 이번에는 예를 들어 설명해 주더군요. GPT-3 모델은 V100 GPU 1,024개를 사용해 3~4주의 학습 시간이 걸렸다며 만약 CPU만으로 같은 모델을 학습하면 몇 달이 걸릴 수도 있다는, 좀 더 구체적인 답변을 주었습니다. 아무튼 ChatGPT도 LLM과 같은 대규모 데이터 학습 모델에는 CPU가 아닌 GPU가 적합하다는 것을 잘 알고 있군요.


위와 같인 질의응답을 하는 데에 걸린 시간은 채 5분이 되지 않았습니다. 5분도 안되는 짧은 시간동안 궁금한 사항을 해결할 수 있으니 가히 구글이 충분히 두려워 할만 하겠다는 생각이 듭니다. 현재 서비스되고 있는 GPT-4는 GPT-3.5보다 더욱 자세하고 정확한, 자연스러운 답변을 제공한다고 알려져 있습니다.



  • 국내 주요 AI 서비스 기업 사례



국내에도 NVIDIA GPU를 활용해 자사만의 독특한 AI 서비스를 기업들이 많이 있습니다. 대표적인 기업들은 위와 같고요. 좌측 상단부터 업종 별로 ChatGPT와 같은 챗봇 서비스를 만들 수 있는 마음 챗봇과 자신만의 AI 서비스를 만들 수 있는 AI 서비스 빌더, 마음 오케스트라로 구성된 AI플랫폼, maum.ai를 서비스하고 있는 마인즈랩, 사운드 AI 서비스 코클(Cochl), 가정에서 쉽게 질병을 발견할 수 있도록 돕는 심전도 AI 서비스 메디컬에이아이(MedicalAI)가 있고요. 


그 아래에는 딥너링과 위성 관측을 통해 온실가스 배출량을 모니터링하고 측정할 수 있는 AI 기반 영상분석 서비스 에스아이에이(SIA), 간편하게 대화형 AI휴먼을 만들 수 있는 딥브레인AI(DEEPBRAIN AI), 디지털 트윈을 활용해 도시 데이터의 실시간 수집 및 분석으로 도로 처리량을 최적화하는 노타 ITS(Nota ITS)와 같은 다양한 스타트업들이 획기적인 AI 기술을 바탕으로 수백억의 투자를 유치해 NVIDIA GPU 기반에서 자사의 AI 서비스를 고도화하고 있습니다.

이밖에 SK하이닉스, 네이버, 삼성SDS, KT와 같은 대기업도 NVIDIA GPU 인프라 기반에서 자사의 비즈니스에 AI를 적용하려는 노력을 하고 있다는 점도 기억해 주시기 바랍니다.








4. 결론 : AI 인프라 구성할 때 고려해야 할 사항들



지금까지 AI 서비스를 구현함에 있어 왜 GPU가 필요한지, NVIDIA의 최신 데이터 센터 GPU, H100의 특징은 무엇이며 NVIDIA GPU가 적용된 AI 서비스 사례는 어떤 것들이 있는지 자세히 살펴봤습니다. 서두에서도 언급했지만 ChatGPT가 쏘아 올린 AI 공의 크기는 작은 공이 아닌 대포알보다 더 큰 영향력을 미치고 있기에, 기업 규모를 막론하고 전 세계의 수많은 기업들이 자신들만의 AI 서비스 개발에 박차를 가하고 있는 상황입니다. 그래서, 혹시 우리 회사도 AI 서비스 개발을 위해 AI를 위한 인프라 구성을 계획하고 계시다면, 아래 사항을 참고해 주셨으면 좋겠습니다.



  • 개발하려는 AI 모델 학습에 필요한 데이터를 어디에서 관리할 것인가



<이미지 출처 : Data Foundry, Is Your IT Infrastructure Ready for the AI Revolution?>


AI의 성능은 얼마나 많은 데이터를 학습할 수 있느냐, 즉 방대한 데이터 Set을 만들 수 있느냐가 관건입니다. 그런데 이 데이터를 자사의, 온프레미스 환경의 인프라에서 보관하고 관리하는지, 아니면 퍼블릭 클라우드에 올려두고 관리할 것인지에 따라 AI 인프라 구성이 달라질 수 있습니다.


만약, 학습에 사용할 데이터의 양이 많지 않고, 유출되면 절대 안되는 중요한 데이터가 아니어서 클라우드에 두고 관리해도 된다면, 퍼블릭 클라우드 서비스 회사들이 제공하는 AI 학습 서비스를 이용해도 됩니다. 이미 주요 퍼블릭 클라우드 사업자들이 자사의 AI 학습 서비스에 NVIDIA GPU를 적용한 상품을 출시해서 운영 중에 있습니다.


하지만 학습에 사용할 데이터의 양이 많고, 유출되면 큰일인 기밀 데이터가 포함되어 있어 온프레미스에서 데이터를 관리해야 한다면 자체 AI 인프라 구축이 알맞습니다. 이 때는 NVIDIA DGX 서버나 NVIDIA GPU가 탑재된 대형 서버 제조사들의 AI 서버, GPU 서버를 도입하셔야 합니다.



  • 데이터 과학자가 자주 데이터 학습 실험을 수행하는가


기업에서 보유하고 있는 데이터 과학자가 많지 않다면, 초기 AI 프로젝트 연구를 위해 클라우드 서비스를 활용해 가볍게 AI 모델 학습을 시도해볼 수 있습니다. 많은 투자 비용을 들이지 않고서 곧바로 AI 모델 연구를 시작할 수 있으니까요.




하지만 위와 같이 생각보다 클라우드에서 GPU가 탑재된 인스턴스를 사용하는 비용이 비싼 편입니다. 매월 AI 모델 학습에 넉넉한 비용이 할당되어 있는 것이 아니라면, 데이터 과학자가 이 클라우드 사용 비용이 부담되어 자주 모델 학습을 시험해보지 못할 것입니다. 이는 결국 데이터 과학자가 AI 모델 실험을 제대로 하지 못하게 되는 부작용을 초래할 수 있습니다.


따라서 데이터 과학자가 자주 데이터 학습 실험을 하고, 비용에 대한 고민은 잊은 채 오롯이 AI 모델 연구에만 몰두하기 위해서는 자체 AI 인프라 구축이 필요합니다. 물론 클라우드보다 초기 투자비용이 높긴 하겠으나, AI 모델 개발은 장기간 연구가 필요한 프로젝트이니만큼, 전체 프로젝트 기간을 놓고 따져보면 총비용 차이는 크지 않을 것입니다. 그렇다면? 학습을 할 때마다 비용에 대한 부담없이 마음 편히 AI 모델 실험을 할 수 있는 자체 AI 인프라 구축이 정답입니다.



  • AI 인프라 구성에 드는 시간과 노력이 부담스러운가



<이미지 출처 : Analytics Insight, What makes a Data Scientist successful?>


데이터 과학자는 데이터 셋을 만들고, 이를 바탕으로 AI 모델을 학습시키고, 최상의 결과물을 내놓을 수 있도록 연구하는 전문가이지, AI 인프라에 최적화된 하드웨어와 소프트웨어 스택을 설치하고 개발 환경을 세팅하는 AI 인프라 구성 전문가는 아닙니다. 물론 개발자 분들은 AI 관련 소프트웨어에 익숙하겠으나 하드웨어 인프라를 운영하는 IT 운영자들은 소프트웨어 전문 지식이 부족하죠. AI 인프라 구성 및 AI 모델 연구 양쪽 모두의 지식을 가진 데이터 과학자를 확보하는 것은 매우 어렵고, 만약 있다 하더라도 그 데이터 과학자는 AI 모델 연구에만 매진하는 것이 맞습니다.


자사가 개발하려는 AI 서비스의 성능에 알맞은 하드웨어 인프라 사양은 어느 정도인지 파악하고, 소프트웨어는 무엇을 활용해야 하는지 검증하고, 처음부터 알고리즘을 개발해야 한다면 AI 프로젝트의 시작은 그만큼 늦어질 수밖에 없습니다. 따라서, 기업은 데이터 과학자, AI 개발자들은 오롯이 주어진 AI 인프라 위에서 열심히 연구와 개발에만 몰두할 수 있는 환경을 조성해 주어야 합니다.



NVIDIA는 DGX라는, NVIDIA가 철저하게 검증한 하드웨어와 자체 개발한 소프트웨어 및 프레임워크, 그리고 AI 인프라의 핵심인 GPU를 모두 담은 풀스택 플랫폼을 제공합니다. 8U 사이즈의 DGX-H100 한대로 AI 프로젝트를 시작한다면 AI 인프라 구성에 들일 시관과 노력을 고스란히 AI 모델 연구에 쏟을 수 있으니 AI 서비스 출시 시기도 앞당길 수 있지 않을까요? 그리고, 서비스 출시 이후 보다 많은 사용자를 수용할 필요가 있다면 DGX 서버 노드를 늘려나가면 됩니다. 어차피 NVIDIA 기반 인프라이기에 규모를 확장한다고 해서 그 때마다 설정을 다시 하는 등의 추가적인 노력 역시 필요하지 않으니까요.








제가 IT업계에 몸담은 지도 이제 곧 20년이 되어갑니다. 과거의 기억을 더듬어보면, 가장 큰 충격을 주었던 것은 아이폰과 같은 스마트폰의 보급과 모바일 애플리케이션의 확산이지 않나 싶습니다. 이후 많은 새로운 기술들이 나타나고 사라지는 것을 봐오면서 기술의 발전이 참 빠르다고 느껴왔는데, 작년말 공개된 ChatGPT를 사용해보고, 그리고 이러한 생성 AI 서비스들이 출시되는 것을 보면서 지난 10년간의 변화보다 최근 6개월 간의 변화가 훨씬 더 충격적이지 않나 싶습니다.




아마 보신 분들도 계실 것 같은데, ChatGPT보다 더 큰 충격을 안겨준 것은 위의 Adobe Firefly라는 영상입니다. 3월 22일에 공개된 위 영상을 보고 진짜 혼잣말로 '우와~'를 몇 번을 내뱉었는지 모릅니다. 제가 하는 업무의 상당 부분이 너무도 쉽게, 그리고 창의적인 콘텐츠로 간편하게 AI가 해주는 것을 보고 놀라움을 숨기기 어려웠습니다. 그와 동시에 살짝 두려움까지 느껴졌습니다. 기술의 발전 속도가 너무나 빠른 것이 아닌가 하는 두려움 말이죠.


아마도 제 생각에는 ChatGPT 공개 이전부터 많은 글로벌 빅테크 기업들은 미래는 AI라고 생각하고 내부적으로 엄청난 투자를 하고 있었던 것이 아닐까 싶습니다. 그래서 이걸 언제 공개할까 벼르고 있다가 ChatGPT가 큰 화제를 불러오면서 그 동안 준비해왔던 것의 마무리 작업을 거치고 발빠르게 AI 서비스들을 출시하고 있는 모양새로 읽혀집니다. 




<이미지 출처 : DALL·E 2, "마치 신과 같은 모습의 AI를 바라보는 사람과 개를 디지털 아트로 그려줘"


Microsoft 업무 도구인 Office에도 Microsoft 365 Copilot이라는 AI가 붙어서 문서 작성을 도와주고, 원페이지 협업툴 Notion이 제공하는 Notion AI는 글의 퀄리티를 높이고 줄여쓰고 심지어 늘려써주고, ChatGPT는 모르는 것을 물어보기만 하면 척척 대답해 주고, Windows OS에 기본 탑재된 Microsoft Edge 브라우저에서 Bing 검색으로 ChatGPT에 물어보며 더 빠르게 원하는 검색결과를 얻을 수 있습니다. 심지어 Bing 검색에 탑재된 Bing Chat은 ChatGPT 3.5보다 더 똑똑한 GPT-4 기반입니다. 아무튼, 바야흐로 AI 전성시대가 제대로 열린 느낌이 드는 요즘입니다.


이러한 AI는 여러번 언급했듯이 대량의 데이터를 빠르게 학습할 수 있느냐가 관건입니다. 그래야 더 똑똑하고 더 재빠르게 결과물을 내놓을 수 있을테니까요. 그리고 이를 가능케 하는 핵심 인프라는 GPU라는 것, 이 GPU중에서도 현존하는 가장 강력한 데이터 센터 GPU는 NVIDIA H100이라는 것, NVIDIA는 기업의 AI 서비스 개발을 위해 필요한 하드웨어와 소프트웨어 모두를 단일 시스템으로 제공하는 유일한 기업이라는 것이 이번 콘텐츠의 핵심 내용임을 기억해 주시기 바랍니다.










더불어 이번 콘텐츠 내용을 토대로 간단한 퀴즈와 설문조사 이벤트를 진행합니다. 아래의 퀴즈와 설문 문항을 참고하시어 댓글로 남겨주세요. 퀴즈의 정답을 맞추신 분들 중 10명을 추첨해 스타벅스 카페 라떼 기프티콘을 드립니다. 콘텐츠 내용을 꼼꼼히 읽으신 분들은 쉽게 맞추실 수 있을겁니다. 퀴즈 정답을 선택하신 설문 문항과 함께 댓글로 남겨주세요!





퀴즈 : 다음 중 NVIDIA Hopper 아키텍처의 특징 중 틀린 것은? (1개 선택)


 1) A100의 아키텍처는 Ampere 이고 H100은 Hopper이다 


 2) MIG (Muliti-Instance GPU)는 GPU리소스를 최대 7개로 분리해서 사용할 수 있다 


 3) Hopper의 아키텍처 NVLink는 7배 이상의 높은 성능을 발휘하고 NVLink 연결에 필요한 NVSwitch는 

    최대 8개의 GPU를 연결한다 


 4) Tensor 코어가 Hopper 아키텍처에서 5세대로 진화하면서 성능이 대폭 향상되어 AI학습에 큰 영향을 끼쳤다.



설문 : 본문에 언급된 AI인프라를 구성할 때 고려해야하는 사항 중에서 가장 우선시 하는 것은 어떤 것인가요?

        (1개 선택) 

 1) 개발하려는 AI학습 모델에 필요한 데이터를 어디에서 관리방법

 2) 데이터 과학자가 자주 데이터학습실험을 수행하는지 여부

 3) AI인프라 구성에 드는 시간과 노력 (하드웨어와 사용할 소프트웨어, 투입입력)

 4) 사업 예산

 5) 기타 의견(간단히 기재 부탁드립니다.)



※ 선착순 퀴즈 이벤트 종료되었습니다.


※ 최초 계획된 선착순 퀴즈 이벤트 상품이 스타벅스 카페 아메리카노인데 카페 라떼로 잘못 공지되었습니다. 이에 배너 이미지를 수정했고 당첨자 분들께 개별적으로 쪽지 드릴 예정입니다. 혼선을 드려 대단히 죄송합니다.


마지막으로, NVIDIA H100을 탑재한 AI 서버 도입 상담이 필요하신 분들은 아래의 연락처로 문의하시면 전문가의 상담을 받으실 수 있으니 참고하시기 바랍니다.


이 콘텐츠가 자체 AI 인프라 구축을 위해 NVIDIA 데이터 센터 GPU에 대한 정보를 찾고 계셨던 분들께 도움이 되었기를 바랍니다. 끝!

21개의 댓글이 있습니다.

약 일 년 전

자료 감사합니다

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

약 일 년 전

자료 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전 | 쉐어드아이티 | 031-212-1710

퀴즈 & 설문 이벤트 여기서 마감합니다.

퀴즈 정답은 4번입니다. Hopper 아키텍처에서 Tensor 코어는 5세대가 아닌 4세대입니다.
Tensor 코어는 1세대 Volta -> 2세대 Turing -> 3세대 Ampere -> 4세대 Hopper로 진화했습니다.

정답을 맞춰주신 분들이 총 17분인데, 이 중 10명을 추첨해서 쪽지로 연락처를 여쭤볼테니 회신 부탁드립니다.

이벤트에 참여해 주셔서 감사합니다. :)

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈:4번, 설문: 3번

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전 | 엑스파트넷 | 01087499166

정답 : 4번 / 설문 :3번 입니다

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈, * 정답 : 4번, * 설문 : 3번

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 4번
설문 : 3번

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 4번 / 설문 : 3번 입니다.

유익한 정보 많은 도움이 됩니다..감사!!

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 4번 / 설문 4번 입니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 4번 / 설문 : 2번 입니다. 유익한 정보가 많네요~~ ^_____^

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 4번 / 설문 : 2번

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 4번 / 설문 : 1번 입니다.
유익한 정보 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전 | SKNS | 070-4755-9195

퀴즈 정답 : 4번 / 설문 : 3번 입니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

1st 5stars

일 년 이상 전

퀴즈 답: 4번 / 설문 : 1번

NVIDIA GPU 잘 정리해 주셔서 도움이 많이 되었습니다.
잘 읽었습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈 정답 : 4번 / 설문 : 3번 입니다.
좋은 이벤트 감사드립니다!^^

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 4번 / 설문 2번

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈답은 4번, 설문은 2번 입니다!!

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈 4번 / 설문 3번입니다

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈 4번 , 설문 4번 입니다

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

퀴즈답 4번 설문 3번입니다

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

일 년 이상 전

정답 : 3번 / 설문 : 4번 입니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입