본격적인 추론 AI 시대를 위한 NVIDIA의 AI 인프라

본격적인 추론 AI 시대를 위한 NVIDIA의 AI 인프라


AI의 패러다임이 바뀌고 있습니다. 이전엔 "얼마나 잘 만들어내느냐"가 중요했지만, 이제는 "얼마나 잘 추론하느냐"가 경쟁력입니다. ChatGPT가 등장하며 생성형 AI가 급부상했고, 초거대 기업들은 더 많은 데이터를 학습시키기 위해 GPU를 무한정 쏟아부었습니다. 그리고, NVIDIA는 그 중심에 있었죠. 하지만 최근, 이 흐름에 변화가 생겼습니다. 이제는 학습보다 추론, 다시 말해 AI가 더 똑똑한 답을 더 빠르고 효율적으로 내놓는 것이 핵심이 된 겁니다. 


AI 모델은 점차 경량화되고, 기업들은 OpenAI 같은 모델을 기반으로 API를 활용해 자신들만의 서비스를 구축합니다. 이 과정에서 '추론 최적화'가 가장 중요한 기술 요소로 떠올랐고, 글로벌 CSP들은 추론용 자체 칩 개발에 나섰습니다. 국내에서도 추론 특화 스타트업들이 주목받고 있죠. 그리고 또 하나, AI가 스스로 의도를 파악하고 문제를 해결하는 'Agentic AI'도 부상하고 있습니다. 이제 AI는 단순히 문장을 만들어내는 것을 넘어, 능동적으로 사고하고 행동하는 존재로 진화 중이거든요. 그렇다면 학습에 최적화된 H100으로 AI 시장을 지배해온 NVIDIA는 어떻게 대응할까요? 지난 3월 17일 열린 GTC 2025에서, 그 해답이 드디어 공개됐습니다.


그래서 이번 콘텐츠에서는 지난 GTC 2025의 키노트 세션에서 젠슨 황 CEO가 발표한 내용 중 몇 가지 내용을 정리하면서 '추론'의 시대로 접어들고 있는 AI 트렌드의 흐름속에서 NVIDIA가 내놓은 비장의 무기는 무엇인지 살펴봅시다. 총 2개의 글로 나눴고요. 첫 번째 글의 목차는 아래와 같습니다.



콘텐츠 목차

 1. Reasoning, 단순 생성에서 벗어나 '생각하고 판단하는' AI의 시작

 2. Hopper에서 Blackwell로, 추론 AI 시대를 위한 진화

 3. 기존의 AI 인프라 운영 방식을 탈피한 소프트웨어적 대격변, Dynamo

  • 목차 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.

  • 마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다







1. Reasoning, 단순 생성에서 벗어나 '생각하고 판단하는' AI의 시작


  • 기존의 AI vs Reasoning AI



<이미지 출처 : Geeky Gadgets>


"기존의 생성형 AI들은 어떻게 동작했던거야?"


예를 들어, 이런 문제가 주어졌다고 가정해볼게요. '결혼식에 300명을 어떻게 앉혀야 할까?' 꽤 복잡한 문제죠? 다양한 조건, 친분 관계, 결혼식장의 제약 사항이 모두 고려돼야 하니까요. 예전의 LLM(Large Language Model)은 이런 질문에 대해 학습한 방대한 데이터를 바탕으로 가장 확률이 높은 답변을 한 번에 생성했어요. 

간단한 질의에는 빠르게 답을 내놓으며 잘 작동하지만, 문제의 맥락을 깊이 이해하고 여러 시나리오를 검토해야 하는 상황에서는 딱히 인상적이지 않은, 뜬구름 잡는 듯한, 안하니만 못한 뻔한 말만 늘어놓았죠. 쉽게 말하면, 빠르지만 얕은 사고를 하는 셈입니다. 그래서 때로는 엉뚱하거나 현실성이 부족한 답이 나오기도 했죠. ChatGPT 초창기에 이런 경험 많이 해보셨을거예요.


"그럼 Reasoning AI는 어떻게 다른건데?"


그 동안 AI 업계에서 추론은 Inference라고 불러왔어요. Inference는 이미 알고 있거나 확인된 정보로부터 논리적인 결론을 도출하는 행위를 뜻합니다. 우리가 사용하는 ChatGPT와 같은 생성형 AI들이 이런 형태로 답을 내놨죠. 그런데, 이번 GTC 2025에서 NVIDIA는 인상적인 시연 장면을 보여줬습니다. 같은 문제를 올해 초 공개되어 세간을 놀라게 한, 중국의 Deepseek R1 모델에게 줬습니다. 그랬더니 놀라운 일이 벌어졌는데요.

  • R1은 문제를 받고

  • 다양한 시나리오를 직접 가정하고 검토하며

  • 스스로 “내가 제대로 풀었나?”를 질문하고 테스트한 뒤

  • 최종적으로 가장 납득할만한 답을 선택합니다.


즉, 단순 생성이 아닌 “이해하고 → 판단하고 → 검증하는” 일련의 ‘사고 과정’을 실제로 수행한 것이죠. 이게 바로 젠슨 황 CEO가 주장하는 Reasoning AI의 핵심입니다. Reasoning은 사고능력, 추리라는 뜻도 가지고 있는데요. DeepSeek R1은 이런 과정을 거치며 사용자가 훨씬 더 만족할 만한 대답을 도출해 했습니다. 단번에 대답을 내놓는 생성형 AI에서 한 단계 더 진화하여, AI가 마치 사람처럼 한번 더 검증한 다음 대답을 내놓는다는 것으로 이해하시면 됩니다.



  • 하지만, 이러한 변화에는 대가가 따르는 법



<이미지 출처 : NVIDIA, GTC 2025 keynote>


앞서 언급했던 "결혼식에 300명 하객을 어떻게 앉혀야 할까?"라는 질문에 예전 LLM은 이 문제를 439개의 토큰을 사용해서 빠르게 처리했지만, 정확도가 낮아 결과적으로 "439개의 낭비된 토큰"이 됐습니다. 반면 R1은 같은 문제를 풀기 위해 8,559개의 토큰을 사용했고, 연산량도 엄청났죠. 즉, 훨씬 똑똑하지만훨씬 더 많은 자원을 쓰는 AI라는 뜻이랍니다.


하지만 앞으로 기업이 AI에게 원하는 건 단순히 "빠른 응답"이 아니라, 진짜로 업무에 도움이 되는, 정교한 사고가 가능한 AI입니다. 그리고 그 변곡점에 지금 우리가 서 있는 거죠. 따라서,

  • 예전의 AI는 "빠르고 얕게" 답했다면,

  • 새로운 AI는 "느리지만 깊이 있게" 생각합니다.

  • 이 새로운 시대의 AI는 더 많은 연산 능력, 더 정교한 메모리 관리, 그리고 무엇보다도 ‘사고를 위한 시간’을 필요로 합니다.


그럼 이러한, 보다 정교해 진 추론 능력을 선보인 R1과 같은 Reasoning AI 중심의 시대를 위한 인프라는 어떻게 진화해야 할까요? 그에 대한 NVIDIA의 해답은 Blackwell입니다.









2. Hopper에서 Blackwell로, 추론 AI 시대를 위한 진화


  • Hopper vs Blackwell 아키텍처 간단 비교



<이미지 출처 : NVIDIA Blackwell Architecture클릭하면 커짐>


“Blackwell이 그렇게 좋다던데, 뭐가 얼마나 달라진 거야?”

네, 많이들 궁금해 하시죠? 기존 Hopper 아키텍처와 Blackwell 아키텍처의 차이는 생각보다 엄청나게 큽니다. 단순히 성능만 오른 게 아니고, 구조부터 연결 방식, 정밀도, 운영체제까지 거의 모든 요소가 추론 중심 시대에 맞게 재설계된 거예요. 아래의 표부터 볼까요?


구분

Hopper (H100 기준)

Blackwell (B200 기준)

성능

이전 세대 대비 최대 추론 성능 4배 향상

추론 성능 최대 30배 향상, 운영 비용 25배 절감

구조

GPU 1개 단독 구성

GPU 2개를 1패키지로 통합

연결 방식

NVLink 4세대 + NVSwitch 3세대

(대표 구성: 8개 GPU)

NVLink 5세대 + NVLink Switch

(최대 576개 GPU 연결)

클러스터 구성

H100 NVL (8개 GPU)

NVL72 (72개 Blackwell GPU를 연결한 클러스터)

연산 정밀도

FP64, FP32, TF32, BF16, FP16,

INT8 / INT4, FP8

Hopper에서 지원하는 연산 정밀도 

+ FP4 지원 (에너지 효율↑)


Blackwell 아키텍처에 대한 자세한 설명은 작년에 포스팅한 AI Factory로 가는 고속열차, NVIDIA Blackwell GPU 글에서 확인하실 수 있고요. 일단 위 표를 보면 추론 성능 30배 향상이 눈에 띄죠? 아키텍처 차원의 성능 향상도 있겠지만, GPU 2개를 1개의 패키지로 통합한 것이 크게 작용했습니다. 

나머지 내용은 뒤에서 다시 다룰거고요. 일단, 표 마지막 항목인 '연산 정밀도'에 주목해 주세요. Blackwell 아키텍처에서는 FP4를 지원하기 시작했는데요. 그럼, 기존의 Hopper에서도 지원했었던 다양한 연산 정밀도는 어떤 용도로 사용되는지도 살펴볼까요? 아래의 표를 봐주세요.



연산 정밀도

Hopper (H100)

Blackwell

(B100/B200/B300 등)

용도 및 특징

FP64

 지원

 지원

고정밀 과학 연산용

FP32

 지원

 지원

범용 연산

TF32

 지원

 지원

AI 학습용 고속 정밀도

BF16

 지원

 지원

AI 학습/추론

FP16

 지원

 지원

훈련 안전성에 초점을 맞춘 범용 용도

INT8/INT4

 지원

 지원

초경량 모델 추론용

FP8

 지원

 지

Hopper에서 처음 도입됨, 고속 학습/추론

FP4

미지원

 Blackwell부터 지원

성능/전력 효율 향상, 추론에만 활용


여기서 주목해야 할 것은 FP4입니다. 앞서 언급했던, 추론 시대로의 변화를 위해 Blackwell부터 적용된 FP4는 추론 속도와 전력 효율을 극단적으로 끌어올리는 데에 주안점을 두고 있어요. 그래서 NVIDIA는 FP4가 기존의 FP16 및 FP8 연산 정밀도 대비 최대 30배의 성능 향상을 이끌어냈다고 발표한 것으로 이해하면 됩니다. 여기서 말하는 성능은 Watt 대비 처리량을 뜻합니다.


※ 여기서 잠깐, 정밀도 = 정확도?

그런데, FP4의 정확도가 FP16과 FP8보다 다소 떨어지긴 하지만, 정밀도는 낮은 편입니다. 여기서 말하는 정밀도는 정확도가 아니에요. 즉, AI의 대답이 정확하지 않다는 것이 아니라는 겁니다. 숫자를 표현할 때 사용할 수 있는 비트 수가 4비트이기 때문에 표현할 수 있는 숫자의 종류가 FP16, FP8보다 적습니다. 그래서 아주 정밀한 수치 계산이 필요한 경우에는 부정확한 결과가 나올 수도 있어요. 

하지만 우리가 일상적으로 사용하는 AI 모델의 추론 결과에는 이 정도 정밀도로도 충분하며, 디코딩 단계처럼 AI 모델이 내부적으로 연산을 반복하지 않고 입력에 대한 결과만 빠르게 출력해야 할 경우에는 FP4로도 충분하기 때문에 NVIDIA는 FP4를 활용해 대량의 결과를 빠르게 출력하는 방법을 선택한겁니다. 그리고 정밀도를 줄이게 되면 처리 속도 향상에 더해 메모리 사용량도 줄어들어 에너지 효율이 획기적으로 향상됩니다.

이제, Blackwell에서 처음 적용된 FP4가 가지는 의미를 이해 하시겠죠?



  • 대규모 AI 클러스터에서 효율성을 챙기기 위한 NVIDIA의 포석, NVL72



“NVL72? NVLink 72개를 연결했다는 거야?”

그런 의미는 아니에요. 일단 NVLink가 뭔지부터 짚고 넘어가야겠군요. NVLink는 하나의 시스템에서 다수의 NVIDIA GPU를 연결하기 위해 NVIDIA가 만든, PCIe보다 더 빠른 고속 통신 인터커넥트 기술이에요. NVIDIA 고유의 인터페이스라고 보면 됩니다. GPU들이 서로 데이터를 주고 받음으로써 마치 거대한 하나의 GPU처럼 동작하게 만들어주죠. 여기에 NVLink Switch와 NVLink 도메인이라는 개념을 추가해 봅시다. 

  • NVLink : NVIDIA GPU 간 고속 데이터 전송을 위한 전용 인터페이스

  • NVLink Switch : GPU와 GPU를 NVLink로 연결하는 전용 칩

  • NVLink Domain : NVLink로 연결되어 마치 하나의 GPU 처럼 동작할 수 있는 GPU 범위




<이미지 출처 : NVIDIA BlogNVIDIA DGX H100 SuperPod>


이전 세대인 Hopper 아키텍처 기반의 서버(DGX H100 또는 HGX H100)는 한 보드에 8개의 H100 GPU가 NVLink로 연결되어 있어요. 이때 GPU 간 통신 대역폭은 900GB/s에 달하죠. 하지만 서버 간 GPU 통신은 다릅니다. 보드 바깥의 다른 서버와는 InfiniBand 네트워크를 통해 연결되는데, 이때 사용되는 NVIDIA ConnectX-7 어댑터의 최대 대역폭은 400GB/s에 불과합니다. 

즉, 같은 서버 내 GPU끼리는 빠르게(900GB/s) 통신할 수 있지만, 다른 서버의 GPU와 통신할 때는 절반 이하 속도(400GB/s)로 떨어지는 병목 현상이 발생하는 겁니다. 이게 바로 ‘서버 스케일’을 넘는 추론 작업에서 성능이 급격히 저하되는 이유 중 하나라고 볼 수 있어요.

그래서 NVIDIA는 Blackwell 아키텍처에서 NVLink Switch를 더욱 업그레이드해서 이러한 문제를 해결했습니다. 아래의 표를 봐주세요.


구분

Hopper (DGX H100, HGX H100)

Blackwell (GB200 NVL72)

GPU 구성

1 보드에 H100 8개

1 보드에 B200 2개 (총 4개 Blackwell GPU)

연결 구조

NVLink Switch 칩 4개로 내부 8개 GPU를

연결해서 1대 서버 구성

NVLink Switch 보드 9장으로 총 18장의

GB200 보드를 연결해서 1대 랙 시스템 구성

총 GPU 수

1 서버 = 8 GPU

1 랙 = 72 GPU (GB200 NVL72)

최대 연결 수

8개 GPU

576개 GPU (NVLink 도메인)

NVLink 대역폭

900GB/s

1,800GB/s


Blackwell 아키텍처에서 NVLink는 5세대로, NVLink Switch는 4세대로 발전합니다. 그 결과 위 표 오른쪽과 같이 NVL72, 총 72개의 Blackwell GPU를 NVLink로 연결할 수 있게 됐다는 것이 첫 번째 특징이에요. 좀 더 풀어서 설명하면,

  • B200은 2개의 Blackwell GPU 다이를 하나로 통합해 패키징한 GPU칩

  • GB200 슈퍼칩에는 Grace CPU 칩 1개와 B200 GPU 칩 2개가 장착됨

  • GB200 슈퍼칩 컴퓨트 트레이(1U)에는 GB200 슈퍼칩 2개가 장착됨 = 2x Grace CPU, 4x Blackwell GPU

  • NVLink Switch 트레이(1U)는1 Switch 칩 2개 장착, Switch 칩 1개 = GB200 슈퍼칩 1개 연결

  • NVLink Switch 트레이 1대가 2장의 GB200 보드 연결

  • 1개 랙에 GB200 슈퍼칩 컴퓨트 트레이 18대, NVLink Switch 트레이 9대가 장착되어 모든 GPU가 NVLink로 연결

  • GB200 슈퍼칩 컴퓨트 트레이 18대 = 4x GPU x 18 = 72x GPU → 그래서 NVL72



<이미지 출처 : NVIDIA Technical Blog, NVIDIA GB200 NVL72>

이전 세대인 Hopper에서는 1개의 보드에 8개의 H100 GPU, 4개의 NVLink Switch 칩이 장착되어 서로 NVLink로 연결해 줍니다. 이게 H100 HGX 보드이고요. NVIDIA DGX H100 혹은 서버 제조사들이 제공하는 H100 HGX 서버에 이런 보드가 1개 들어있어요. 그리고 보통 이런 서버의 크기는 8U정도 됩니다. 하나의 랙에 4대 정도의 서버가 장착됩니다. 그리고 이 서버들은 서로 NVIDIA ConnectX-7 Quantum-2 InfiniBand 네트워킹 어댑터를 거쳐 인피니밴드 네트워크로 연결됩니다.

여기서 문제가 발생합니다. Hopper 아키텍처의 NVLink 대역폭은 900GB/s이지만 인피니밴드 네트워킹 어댑터의 대역폭은 400GB/s거든요. 그래서 1대의 DGX H100 서버나 HGX H100 서버의 8개 H100 GPU들은 서로 900GB/s로 통신하지만, 다른 서버의 H100 GPU와는 최대 400GB/s로 통신해야 하는거죠.




<이미지 출처 : NVIDIA GTC 2024 Keynote>

그래서, NVIDIA는 하나의 랙만으로 Blackwell GPU 72개가 NVLink로 연결되어 서로 1,800GB/s로 통신하는 초고성능 단일 시스템을 완성했습니다. 그리고 위 표에서 최대 GPU 연결 수가 Blackwell 아키텍처의 4세대 NVLink Switch는 576개로 늘어난 것 보셨죠? GB200 NVL72 랙을 최대 8개까지 NVLink로 연결해서 총 576개의 GPU가 단일 NVLink 도메인 내에서 함께 동작할 수 있는 엄청난 성능의 AI 클러스터를 만들 수 있다는 겁니다. 이 정도 되면 정말 AI Factory라고 해도 손색이 없겠는데요?


“근데 왜 이렇게까지 하는 거야? 너무 과한것 아닌가?" 

아뇨. 절대 과하지 않습니다. 우리가 지금 말하고 있는 건 단순한 ‘글쓰기 AI’가 아니거든요. 이제 AI는 질문을 받으면 바로 답을 내는 게 아니라, 먼저 문제를 이해하고, 정보를 수집하고, 여러 가능성을 검토하고, 스스로 계획을 세운 뒤 답을 내는 단계까지 왔어요. 이걸 “Reasoning 중심의 추론 AI”라고 하는 겁니다. 

그러니까, AI가 예전처럼 단순하게 답을 ‘생성’만 해도 되는 시대가 아니에요. 이제는 ‘머리를 써야 하는 AI’, 다시 말해 진짜 똑똑한 AI가 필요한 거죠. 그리고 그런 AI가 똑똑하게 작동하려면, 기존보다 훨씬 많은 연산량을 빠르게 처리할 수 있는 인프라가 있어야 합니다. Blackwell은 바로 그걸 위한 아키텍처입니다. 

젠슨 황 CEO는 “추론 시대에 맞는 아키텍처는 Hopper가 아니라 Blackwell이다.” 라고 말했어요. 왜 이렇게 말한 것인지 이제 이해가 가죠? 게다가 NVIDIA는 Blackwell 아키텍처라는 하드웨어 차원의 발전 뿐만 아니라, 보다 AI 연산을 효율적으로 수행할 수 있는 소프트웨어 영역까지 영향력을 넓히고 있습니다. 그게 무엇인지, 이어서 살펴봅시다.








3. 기존의 AI 인프라 운영 방식을 탈피한 소프트웨어적 대격변, Dynamo



<이미지 출처 : Virtualization Review>


  • 기존의 AI 워크로드 운영 환경은 어땠을까?


"예전부터 데이터센터 인프라는 Linux, 그리고 가상화 아니었어?"

맞아요. AI 워크로드 역시 Linux에서 돌아갑니다. 단지 NVIDIA DGX 처럼 전용 인프라를 활용할 계획이라면 베어메탈 환경에서 Ubuntu를 올려 사용하겠지만, 좀 더 범용적인 용도, AI 추론도 하고 HPC 용도로도 사용할 목적으로 GPU 서버를 도입했다면 VMware같은 하이퍼바이저를 올려서 가상화 기반으로 운영할거예요.

그런데 문제가 생깁니다. AI 모델은 점점 더 거대해 지고, 추론 요청은 많아지고, 사용자 수는 기하급수적으로 늘어났죠. 이제는 수천 개의 GPU가 실시간으로 협력해야 하고, 사용자의 요청마다 GPU 자원을 ‘한땀 한땀’ 나눠줘야 합니다.



  • 그런데, Linux는 왜 GPU가 바쁘게 일해야 하는지 모른다


OS 입장에서는 GPU가 무슨 생각(Pre-fill)을 하고 있는지, 어떤 말(Decode)을 하고 있는지 모릅니다. 그냥 숫자 몇 개 왔다 갔다 하는 것만 볼 수 있을 뿐이죠. 결과적으로 “가상화 기반 Linux 운영 환경으로는 추론 중심의 AI 팩토리 운영이 어렵다”는 현실에 부딪히게 된 겁니다. 그래서 NVIDIA는 새로운 접근을 선택했습니다


“AI 팩토리는 기존 방식으로는 운영할 수 없다.”

이건 단순한 소프트웨어 이슈가 아닙니다. 이제는 AI 모델의 동작 흐름 자체를 이해하는 새로운 운영 체계가 필요해진거죠. 추론 AI 시대에서 AI 모델은 단순히 문장을 만드는 역할만 하는 것이 아니랍니다. 먼저 문제를 이해하고, 관련된 정보를 수집하고, 생각을 정리한 뒤에야 대답을 하죠. 이 과정을 Pre-fill이라 부릅니다. 그 다음, 그 생각을 ‘말’로 풀어내는 과정을 Decode라고 부르고요. 즉, 지금의 AI는 ‘읽고, 사고하고, 말하는’ 단계를 매 순간 반복하고 있는 거죠.


그런데 이 흐름은 너무 빠르고, 너무 세밀합니다. OS가 개입해서 조율하지 않으면 리소스가 낭비되고, 성능이 반 토막이 나죠. 이 문제를 해결하기 위해 NVIDIA가 만든 해답이 바로, 바로 이번 GTC 2025에서 처음 공개한 **분산 추론 최적화 프레임워크, ‘Dynamo’입니다.



  • AI 팩토리에 최적화된 분산 추론 프레임워크, Dynamo



<이미지 출처 : NVIDIA Technical Blog, Introducing NVIDIA Dynamo>

Dynamo는 단순한 스케줄러가 아닙니다. AI 모델이 어떤 타입인지, 어떤 단계에 있는지, 어떤 연산을 하는지까지 이해하고 그에 맞춰 GPU 자원을 실시간으로 재배치해서 분산 처리하는, 고도화된 추론 프레임워크입니다. 기존엔 GPU에 들어가는 데이터를 컨트롤하지 못했지만, 이제는 KV 캐시까지 직접 관리하면서, 각 GPU가 가장 효율적으로 일하도록 설계할 수 있게 됐답니다. 뿐만 아니라, Pre-fill과 Decode를 분리해 GPU마다 역할을 다르게 주는 방식도 가능해졌죠. 

이걸 간단히 정리해 볼까요? 아래의 표를 봐주세요.


기존 인프라 운영 방식

AI 팩토리 운영 방식 (Dynamo)

운영체제

Ubuntu, RHEL 등 리눅스

동일 (리눅스 위에 동작)

구조

하이퍼바이저 + 리눅스 + 컨테이너

리눅스 + Dynamo 프레임워크

GPU 자원 배분

수동 스케줄링, 고정 자원 할당

실시간 분산 조율, 유연한 자원 배분

모델 흐름 인식

불가능

Pre-fill / Decode 분리 및 분석

캐시 관리

기본 메모리 계층에 의존

KV 캐시까지 직접 관리


 여기서 잠깐, KV 캐시(KV Cache)란?

KV 캐시는 Large Language Model(LLM)이 토큰을 생성할 때 이전에 처리한 Key와 Value 값을 메모리에 저장해두는 캐시입니다. LLM은 토큰을 하나씩 순서대로 예측하는데요. 그때마다 이전에 계산했던 attention 결과를 매번 다시 계산하면 비효율적이겠죠? 그래서 Key와 Value (Transformer에서 Query, Key, Value 중의 Key/Value)를 캐시에 저장해두고, 다음 토큰 생성 시 이전 결과를 재사용해서 계산을 빠르게 하는 게 바로 KV 캐시입니다.

이걸 왜 NVIDIA가 강조하냐면요. 추론 작업을 수행할 때 토큰이 많아질수록 KV 캐시의 데이터도 커지기 때문에, 이 캐시를 GPU 간에 얼마나 효율적으로 실시간 공유하고 분산하느냐가 성능 핵심이기 때문입니다. 특히 NVLink를 통해 GPU 간 초고속 통신이 가능해지면서, 이 KV 캐시도 GPU들 사이에서 빠르게 주고받을 수 있게 된 것이랍니다.



  • Dynamo가 있고 없고에 따라 크게 달라지는 추론 성능



<이미지 출처 : NVIDIA Technical Blog, Introducing NVIDIA Dynamo>

그럼 Dynamo가 실제로 얼마나 효과가 있을까요? 위 이미지를 봐주세요. NVIDIA가 공개한 DeepSeek-R1 671B, 그리고 LlaMa 70B 시뮬레이션 결과에 따르면, 동일한 하드웨어 구성에서도 Dynamo를 적용한 환경은 그렇지 않은 환경 대비 최대 30배 이상의 토큰 처리량을 보여줬습니다. 

특히 GB200 NVL72 환경에서 이 차이는 극명하게 드러났고, 이전 세대인 H100 기반 HGX 시스템에서도 약 2.5배의 성능 향상이 관찰된 것이 놀라운데요. 이는 단순한 소프트웨어 최적화 수준을 넘어, 추론 처리 흐름 전체를 재설계한 수준의 변화라 할 수 있겠습니다. 프리필과 디코드 단계의 GPU 자원 활용을 분리하고, 실시간으로 작업을 스케줄링하며, 불필요한 GPU 부하를 최소화한 덕분이겠죠?


그리고, GB200 NVL72 혹은 DGX B200과 같이 NVIDIA Blackwell 아키텍처 기반의 GPU 서버 도입을 고민하시는 분들이 계시다면, 아래의 베이넥스 설문 이벤트에 참여하셔서 베이넥스 NVIDIA 전문가의 상담을 받아시기 바립니다.










지금까지 살펴본 것처럼, AI는 단순히 글을 잘 쓰는 도구가 아니라 ‘추론하고 판단하는 지능형 에이전트’로 진화하고 있습니다. 이러한 Agentic AI 시대에는 더 강력한 연산 성능과 유연한 데이터 처리 능력, 그리고 이를 효율적으로 운영할 전용 인프라와 그에 알맞은 프레임워크가 필요하다는 것, 이제 잘 아시겠죠? NVIDIA는 Blackwell 아키텍처를 중심으로 NVL72 구성, FP4 정밀도, KV 캐시 관리, 그리고 Dynamo라는 AI 팩토리를 위한 맞춤 프레임워크까지 아우르는 풀스택 전략을 통해 AI 팩토리의 새로운 기준을 제시하고 있는 것으로 보입니다.


그렇다면 다음 질문은 이겁니다.

“Blackwell 아키텍처 이후의 미래는 어떤 모습일까?”
“우리는 지금 어떤 기술을 준비해야 할까?”

다음 글에서는 NVIDIA가 그리는 AI 인프라의 미래, 더욱 진화한 Blackwell 아키텍처 기반 GPU, B300과 Blackwell 이후의 아키텍처인 Vera Rubin과 Rubin Ultra로 이어지는 차세대 AI 인프라의 청사진을 살펴보겠습니다. 추가로, 가상 세계를 넘어 현실로 성큼 다가온, 오픈소스로 공개된 로봇 AI 모델 Isaac GR00T’도 다룰거예요. 이 내용들도 꽤 흥미롭죠? 자세한 내용은 아래의 링크에서 확인해 보세요.


끝!

3개의 댓글이 있습니다.

8일 전

유익한 내용 참고하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

10일 전

좋은 내용 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

10일 전

내용 잘 봤습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입