추론을 넘어 행동으로, Physical AI의 시대가 온다

추론을 넘어 행동으로, Physical AI의 시대가 온다


“젠슨 황 CEO의 예견처럼, 정말 AI 팩토리 시대가 올까?”

사실 미래가 어떻게 될 지는 확언하기 어렵지만, 지금 당장 느껴지는 변화를 생각하면, 진짜 AI 팩토리 시대가 올 것 같긴 합니다. 지난 글에서 살펴봤던 추론 AI 시대로의 전환, 그리고 급증하는 연산 요구량을 충족하기 위한 Blackwell 아키텍처와 전용 OS Dynamo까지, 우리는 NVIDIA가 AI 팩토리 시대를 맞이하기 위해 하나씩 착착 준비해 나가고 있는 것을 확인했는데요. 이러한 AI 팩토리는

  • 수천 개의 GPU를 초고속 네트워크로 연결하고

  • 수십~수백만 개의 요청을 동시에 처리해야 하며

  • 초당 수백만 개의 토큰을 생성할 수 있어야 합니다.

이 모든 게 가능한 인프라가 바로 AI 팩토리고, 하나의 거대한 AI 생산 라인이라고 보면 됩니다.


“그럼 이제, 누가 더 빠르게, 더 많이, 더 효율적으로 AI를 돌릴 수 있느냐가 중요해 지겠는데?”

맞아요. 요즘 AI 서비스의 수익 구조는 토큰 단가 기준입니다. 예를 들어, ChatGPT도 GPT-4o 기준으로 출력 텍스트 100만 토큰당 $10로 API 가격을 책정했죠. 즉, 초당 더 많은 토큰을 처리할 수 있다면, 같은 전력으로 더 많은 수익을 낼 수 있다는 뜻입니다.

이런 관점에서 보면,

  • GPU를 얼마나 많이 연결할 수 있느냐

  • 연결된 GPU들이 얼마나 빠르게 협업하느냐

  • 운영체제 수준에서 이를 얼마나 똑똑하게 관리하느냐

이 모든 것이 AI 팩토리의 ‘생산성’을 결정짓는 핵심 요소가 됩니다.

그래서 요즘 AI 인프라는 그냥 서버 몇 대 붙여놓는 수준이 아닙니다. 고성능 GPU, 초고속 연결, 전용 OS, 효율적인 전력 설계까지, AI 팩토리는 말 그대로 미래의, 차세대 데이터센터의 모습이라고 볼 수 있지 않을까요? 그래서 이번 글에서는, 이러한 AI 팩토리를 구현하기 위해 NVIDIA가 새롭게 선보인 아키텍처와 하드웨어, 그리고 실제 구성 방식에 대해 소개해드릴게요. 목차는 아래와 같습니다.



콘텐츠 목차

 1. B300 : 추론 효율 향상을 위해 한번 더 진화한 Blackwell

 2. Vera Rubin과 Rubin Ultra: 초대형 AI 팩토리를 위한 궁극의 스케일업

 3. Isaac GR00T N1 : 오픈소스 휴머노이드 로봇의 등장

  • 목차 별 링크를 클릭하면 해당 내용의 첫 부분으로 이동합니다.

  • 마우스의 뒤로가기 버튼을 클릭하면 다시 아젠다로 돌아옵니다







1. B300 : 추론 효율 향상을 위해 한번 더 진화한 Blackwell


"왜 B300이 또 나온거지? B200으로 충분했던 것 아냐?

B200도 역대급 GPU이긴 했지만 NVIDIA는 그렇게 판단하지 않은 것 같아요. 사실 지난 GTC 2024에서 공개된 B200은 AI 인프라의 ‘왕의 귀환’이었습니다. 려 6800억 개의 파라미터를 처리하고, 두 개의 Blackwell GPU를 한 패키지에 담은 그 괴물 GPU는, AI 학습과 추론 모두에서 NVIDIA의 기술력을 재확인시켜줬죠.

그런데 말입니다. 앞서 첫 번째 글에서 여러 번 언급했던 것처럼, AI는 지금, 또 한 번의 변곡점을 지나고 있어요. 생성만 잘하는 AI는 이젠 부족합니다. 스스로 읽고, 생각하고, 판단하고, 결정하는 Reasoning AI, Agentic AI가 대세로 떠오르고 있거든요.

이건 단순한 연산력 싸움이 아닙니다. 더 빠른 추론더 낮은 지연시간더 높은 에너지 효율이라는, ‘운영 효율’이 성패를 가르는 싸움이라고 할 수 있죠. 그래서 NVIDIA는 B200보다 더 똑똑한 추론용 GPUBlackwell Ultra, 코드명 B300의 등장시킴으로써 한발 더 나아가려고 합니다.



  • B200 vs B300, 얼마나 성능이 향상됐을까?



<이미지 출처 : NVIDIA, NVIDIA GB300 슈퍼칩>


"B300이 나오게 된 배경은 알겠어. 그럼 B300은 얼마나 성능이 향상된거야?"

엄~청 많~이 향상됐어요, 라고 할 순 없겠죠? 거두절미하고 아래 표 부터 봅시다.


구분

B200

B300 (Blackwell Ultra)

아키텍처

Blackwell

Blackwell Ultra

GPU 구성

Blackwell GPU 2개

Blackwell Ultra GPU 2개

연산 성능

(FP4 기준)

10 PFLOPS

15 PFLOPS

HBM3E 메모리

192GB

288GB

TDP

HGX B200 1,000W / GB200 1,200W

HGX B300 1,200W / GB300 1,400W

운영체제

리눅스 기반 OS (Ubuntu 등)

NVIDIA Dynamo 포함

대상 시스템

GB200 NVL72 등

GB300 NVL16, 72 / DGX-B300 등


가장 큰 차이점은 GPU 아키텍처가 Blackwell에서 Blackwell Ultra로 진화했다는 것입니다. GPU 전력이 겨우 200W, 20% 늘어났지만 FP4 연산 성능 50% 향상된 것이 눈에 띄죠? 메모리도 96GB가 늘어났군요. 그리고 B200과 달리 GB300 NVL16 구성도 가능해 졌으며, 지난 글에서 자세히 소개한 전용 OS인 Dynamo를 사용하죠. B300은 B200보다 더 똑똑하고, 빠르며, 더 효율적인 추론을 위해 진화한 GPU라고 할 수 있겠습니다.



  • B300은 어떤 시스템에 사용될까?




<이미지 출처 : NVIDIA Kora Blog, 새로운 개인용 AI 슈퍼컴퓨터, 'DGX Spark'와 'DGX Station' 공개>


"B300이 사용된 라인업은 어떤 것들이 있어?"

NVIDIA는 자신들의 GPU를 서버 제조사에게 GPU 단품 혹은 HGX 보드에 GPU 8개씩 장착해서 보드 채로 납품하는 HGX 플랫폼도 제공하지만, 자체적으로 설계한 DGX 시스템이 주력입니다. 그리고 이번 GTC 2025에서 NVIDIA는 B300을 탑재한 다양한 DGX 시스템을 공개했는데요. 어떤 것들이 있는지 간단히 알아볼까요? 아래 표를 봐주세요.



품명

주요 용도

구성

특징 및 용도

DGX Spark

개인

개발자용

GB10 칩

1 x Grace CPU(20core)

+ Blackwell GPU

- 초소형 개발자 키트
- FP4 1 PFLOPS 추론 성능
- 저전력 (< 500W)

DGX Station

고급

워크스테이션

GB300 칩

1 x Grace CPU(72core)

+ 1 x Blackwell Ultra GPU

- 데스크탑형 AI 워크스테이션
- FP4 20 PFLOPS 추론 성능
- 강력한 연구용 장비

DGX B300

데이터센터

서버

2 x Intel Xeon CPU

+ 8 x B300 칩

- 본격 AI 학습 및 추론을 위한 서버

- FP4 144 PFLOPS 추론 성능
- DGX H100 대비 학습 4배, 추론 11배

GB300 NVL72

플래그십

AI 팩토리 랙

GB300 슈퍼칩 18개 = 

36 x Grace CPU + 72 x Blackwell Ultra GPU

- 단일 NVLink 도메인에 72 GPU
- 동기화된 슈퍼 GPU처럼 동작
- 초대형 추론/Agentic AI 클러스터

※ PFLOPS : petaFLOPS = 1초에 1,000 teraFLOPS(TFLOPS) 연산 수행


여기서 주목할 것은 DGX Spark와 DGX Station입니다. DGX Spark는 Apple Mac Mini 크기의, 성인 남성 손바닥에 올릴 수 있을 정도의 아담한 크기를 자랑하는 AI 개발자를 위한 제품이며, DGX Station은 개인 사무실이나 연구소에서 책상위에 두고 사용할 수 있는 워크스테이션이고요. DGX B300은 이미 잘 알고 계실 NVIDIA가 자체 설계한 DGX 서버이며 , GB300 NVL72는 본격적인 AI 팩토리를 위한 하나의 거대한 랙입니다.

그런데, 여기서 끝이 아니에요. 더 있습니다. Blackwell Ultra 다음 세대의 라인업이 GTC 2025에서 공개됐는데요. 그 내용을 이어서 살펴봅시다.








2. Vera Rubin과 Rubin Ultra: 초대형 AI 팩토리를 위한 궁극의 스케일업


“이렇게 AI가 빠르게 발전하면, 더 큰 AI 팩토리가 필요해 지는 것 아냐?"

맞아요. 사실 Hopper부터 Blackwell만 보더라도 3년 남짓한 시간에 엄청나게 발전했죠. 그만큼 AI의 발전 속도가 빠르기 때문에 NVIDIA도 이를 뒷받침할 수 있는 인프라 개발에 박차를 가하고 있는 것인데요. 그런데, 이 속도가 더 빨리지고 있어요. Reasoning AI, Agentic AI때문입니다. 

다행히 NVIDIA도 이를 잘 인지하고 있는 것 같아요. 그래서 젠슨 황 CEO는 Blackwell Ultra에 이어서 곧바로 차세대 인프라 로드맵을 공개했는데요. 바로 Vera Rubin과 Rubin Ultra입니다. 각각 어떤 특징을 가지고 있는지 살펴볼까요?



  • Vera Rubin = Grace Blackwell의 뒤를 잇는 차세대 아키텍처




<이미지 출처 : NVIDIA GTC 2025 Keynote>

Vera Rubin은 GB200, GB300으로 대표되는 Grace Blackwell을 잇는 차세대 AI 인프라 아키텍처입니다. Vera가 Grace 후속 CPU, Rubin이 Blackwell 후속 GPU고요. 2026년 하반기에 출시될 예정입니다.

NVIDIA는 이 두 아키텍처 이름을 천문학자인 베라 루빈(Vera Rubin)의 이름에서 따왔는데요. 그녀는 '우주를 보는 방식을 바꾼 사람’으로 유명합니다. NVIDIA도 자신들의 인프라 아키텍처를 명명하면서 AI 인프라의 우주를 새로 설계하겠다는 포부를 드러낸 것으로 볼 수 있어요.

그럼 종전 GB300과 비교해 Vera Rubin은 얼마나 진화했을까요? 아래의 표를 봅시다.



항목

GB300 NVL72

Vera Rubin NVL144

출시 시기

2025년 후반기

2026년 하반기 예정

GPU 아키텍처

Blackwell Ultra (B300)

Rubin (차세대 아키텍처)

CPU 아키텍처

Grace 72 Cores / 144 Threads

Vera (Grace 후속) 88 Cores / 176 Threads

GPU 수량

72개

144개(2배)

FP4 추론 성능

1.1 EF

3.6 EF(3.3배)

HBM 메모리

HBM3E 40TB

HBM4 75TB(1.6배)

NVLink 대역폭

NVLink 5 130TB/s

NVLink 6 260TB/s (2배)

NIC (네트워크)

NVIDIA CX8 14.4TB

NVIDIA CX9 28.8TB/s(2배)


올해 하반기에 출시될 GB300 NVL72도 어마어마한 성능인데 Vera Rubin NVL144는 성능 향상폭이 2배가 넘습니다. CPU, GPU 모두 큰 성능 향상을 이뤄냈는데요. 한 가지 참고할 것이, NVL144의 144는 Ruin GPU 수가 144개라는 것입니다. 그런데 Vera Rubin NVL144도 하나의 랙 시스템입니다. 앞서 보여드린 GB300 NVL72, 지난 글의 GB200 NVL72와 동일해요. 그럼 어떻게 GPU 수가 144개가 된 것일까요? 아래 표를 보시죠.


항목

구성 설명

GPU 계산 방식

1개 GB200 슈퍼칩 보드

 - Grace CPU 다이 : 1개
 - Blackwell GPU 칩 : 2개 (각각 2개의 GPU 다이 포함) 

   → 총 GPU 다이 4개

GPU 2개 (칩 기준)

1개 GB200 슈퍼칩 트레이
(보드 2개)

 - Grace CPU 다이 : 2개
 - Blackwell GPU 칩 : 4개
 - Blackwell GPU 다이 : 8개

GPU 4개 (칩 기준)

1대 GB200 NVL72 랙
(트레이 18개)

 - Grace CPU 다이 : 36개
 - Blackwell GPU 칩 : 72개
 - Blackwell GPU 다이 : 144개

GPU 72개 (칩 기준)


Rubin GPU 역시 Blackwell과 마찬가지로 2개의 GPU 다이가 하나로 패키징된 형태인데요. 젠슨 황 CEO는 그 동안 이렇게 2개의 GPU 다이를 하나의 GPU로 계산하면서 여러 착오가 발생했다며, 앞으로는 무조건 GPU 다이 수 만큼 총 GPU 수를 계산하겠다고 밝혔습니다.

즉, Vera Rubin NVL144 역시 GB300 NVL72와 같은 하나의 랙이고 구성은 동일하지만, 2개의 GPU 다이가 하나로 패키징 된 GPU 칩을 더 이상 1개의 GPU로 세지 않고 2개로 계산하겠다는 겁니다. 그래서 NVL72가 아닌 NVL144가 된 것이고요. Vera Rubin에서 뭔가 설계가 바뀌어서 GB300 NVL72보다 더 많은 GPU를 우겨 넣은 것이 아니니 오해는 금물입니다. 아셨죠?




  • Rubin Ultra : 하나의 랙 안에 576개의 GPU를 집적한 초 고밀도 AI 시스템




<이미지 출처 : NVIDIA GTC 2025 Keynote>

2024년 B200에서 2025년 B300으로 Blackwell 아키텍처가 Blackwell Ultra로 발전했다고 앞서 언급했는데요. Rubin 역시 Rubin Ultra로 진화합니다. 그럼 아마도 나중에 B300처럼 R300이 되겠죠? 가장 큰 특징은 기존의 Blackwell과 Rubin의 2개 GPU 다이를 하나로 패키징한 칩이 아닌, 4개의 GPU 다이를 하나로 패키징한 것입니다. 그래서 기존의 Vera Rubin 대비 GPU 칩 하나 당 다이 수는 2배가 된 4개가 된거죠.

그런데 숫자가 좀 이상합니다. GPU 다이 수가 2배가 됐으면 NVL288이 돼야 하는데 NVL576이죠? 힌트는 Rubin Ultra 랙에 있습니다. 아래 이미지를 봐주세요.





위와 같이, 왼쪽의 Vera Rubin NVL144의 랙은 종전의 GB200, GB300 NVL72와 같이 1U 크기의 컴퓨트 트레이가 가로로 랙에 꽂힌 형태입니다. 그런데 오른쪽의 Rubin Ultra NVL576은 컴퓨트 트레이가 세로로 훨씬 더 많이 꽂힌 것으로 보이죠? 아직 공식 자료가 나오진 않았지만, 추측컨데 블레이드 서버처럼 컴퓨트 트레이를 세로 형태로 랙에 장착하면서 기존보다 2배 더 많은 컴퓨트 트레이를 랙에 꽂은 것이 아닐까 싶습니다. 그래서 아래와 같이 된거죠.

  • Vera Rubin NVl144 : 1대 트레이 = 4개 GPU 칩 -> 8개 GPU 다이 / 18대 트레이 = 8 x 18 = 144

  • Rubin Ultra NVL576 : 1대 트레이 = 4개 GPU 칩 -> 16개 GPU 다이 / 36대 트레이 = 16 x 36 = 576


그래서, 다시 GB300 NVL72와 비교해 보면 아래 표와 같습니다.


항목

GB300 NVL72

Rubin Ultra NVL576

출시 시기

2025년 하반기

2027년 하반기

GPU 아키텍처

Blackwell Ultra (B300)

Rubin Ultra (R300)

GPU 수량

72개(Rubin 계산식이면 144개)

576개

GPU 칩 당 GPU 다이 수

2개

4개(2배)

FP4 추론 성능

1.1 EF

15 EF(14배)

HBM 메모리

HBM3E 40TB

HBM4E 365TB(8배)

NVLink 대역폭

NVLink 5 130TB/s

NVLink 7 1.5PB/s (12배)

NIC (네트워크)

NVIDIA CX8 14.4TB

NVIDIA CX9 115.2TB/s(8배)

※ EF : exaFLOPS = 1초에 1,000 petaFLOPS 연산 수행


Rubin Ultra NVL576의 가장 큰 특징은 1개의 GPU 칩에 집적한 GPU 다이가 2개에서 4개로 늘어났고, 컴퓨트 트레이가 가로가 아닌 세로로, 블레이드 형태로 꽂히게 바뀌어 기존보다 2배 더 많은 트레이를 장착할 수 있는 랙이라는 것이 아닐까 싶네요. GB300 NVL72도 엄청났는데 Vera Rubin에 이어 Rubin Ultra까지, 1년 마다 성장 폭이 너무 큰 것 아닌가 라는 생각도 듭니다. 그런데, 이렇게 성장해야 하는 이유는, 다들 잘 아실겁니다. AI의 발전 속도가 너무도 빠르기 때문이죠. 그럼, 비용은 어떡하죠?




<이미지 출처 : NVIDIA GTC 2025 Keynote>

위 이미지를 보면 Hopper의 성능을 1로 봤을 때 Blackwell은 68, Rubin은 900입니다. 그런데 비용은? Hopper가 1일때 Blackwell은 0.13, Rubin은 0.03밖에 안됩니다. 더 높은 성능을 발휘하는 데에 들어가는 비용을 어마어마하게 아낀거죠. 이렇게 비용을 절약할 수 있는 요인은 효율화이고, 그 효율화를 NVIDIA는 스케일 업 방식에서 찾았습니다. 

생각해 봅시다. AI 인프라에 소요되는 전력량은 엄청나게 많습니다. 그리고 엄청난 열을 식히기 위해 많은 냉각 시설도 필요하겠죠. 인프라 규모가 거대해 질 수록 수냉도 필수가 될겁니다. 그런데, 인프라가 많아질 수록 차지하는 상면 공간도 늘어나니, 전력과 냉각 비용은 곱절로 계속 늘어날겁니다. AI 팩토리 운영 효율화에 스케일 아웃은 답이 아니라는 거죠.

그래서 NVIDIA는 먼저 스케일 업, 시스템을 더욱 고밀도로 효율화하는 방식을 택했습니다. 이렇게 스케일 업을 충분히 한 다음에 스케일 아웃을 하면 성능과 비용을 모두 잡을 수 있겠죠. 시스템 당 몇십억 짜리에 가성비를 논하는 것은 좀 웃기지만, Vera Rubin, Rubin Ultra로 진화하면서 실제로 가성비가 좋아지고 있는 것은 사실이니까요.




<이미지 출처 : NVIDIA GTC 2025 Keynote, Rubin 다음 세대인 Feynman까지 발표된 로드맵>

여기서 우리가 주목해야 할 것은, 단순히 AI의 발전에 따라 그에 따른 AI 인프라도 함께 발전해 나가고 있다는 사실 그 자체만은 아닙니다. 이런 인프라 발전의 더 큰 의미는 NVIDIA가 AI 인프라의 로드맵을 매년 예고형으로 발표하고 있다는 점이 아닐까요? 2022년 Hopper -> 2024년 Blackwell -> 2025년 Blackwell Ultra -> 2026년 Rubin -> 2027년 Rubin Ultra -> 2028년은 아직 공개하지 않은 Feyman입니다. 아마 내년 GTC 2026에서 자세히 발표하겠죠.?

이렇게 NVIDIA는 1년 단위의 로드맵 계획을 선제적으로 공표함으로써 이런 메시지를 내고 있는 겁니다. "AI가 얼마나 발전하든 다 우리 손 안에 있으니까, 인프라는 걱정하지 말고 AI 모델 고도화에만 힘써주렴" 덕분에 기업도 자신들의 AI 인프라 투자 계획을 세울 때 좀 더 확신을 가지고 과감하게 투자할 수 있을겁니다. 예측 가능한 로드맵이 있으니까요. 


그런데 말입니다. NVIDIA는 여기서 멈추지 않습니다. 이러한 거대한 AI 인프라를 실제 어떻게 써먹을 수 있는지도 제시했는데요. 바로, 가상 세계와 현실 세계를 유기적으로 연결하는 플랫폼에 대한 이야기입니다. 전 사실 NVIDIA가 진짜 하고 싶은 것은 이것인 것 같다고 지난 GTC 2024 리뷰 글에서도 밝혔는데요. 어떤 내용인지 살펴봅시다.









3. Isaac GR00T: 오픈소스 휴머노이드 로봇의 등장


“이젠 사람처럼 움직이는 로봇도 오픈소스라고?”

그렇습니다. NVIDIA가 DeepMind, Disney Research와 함께 만든 범용 휴머노이드 AI 모델, Isaac GR00T N1이 드디어 공개됐습니다. 기존에는 로봇마다 전용 AI 모델이 필요했죠. 하지만 GR00T는 인간처럼 다양한 동작과 상황에 대응할 수 있는 '범용 로봇 뇌’(Generalist Robot Brain) 목표로 개발된 모델입니다. 좀 더 자세히 살펴볼까요?


  • Issac GR00T N1은 단순한 로봇 모델이 아니다



<이미지 출처 : NVIDIA Developer Blog, NVIDIA Isaac GR00T>

Issac GR00T N1은 무작정 로봇을 학습시키는 모델이 아닙니다. 기획 단계부터 정교한 시뮬레이션 기반 학습 구조를 탑재하고 있죠. 크게 3가지 요소로 구성되는데요.

  • Omniverse : 로봇의 모든 환경과 센서를 사실적으로 재현

  • Cosmos : 다양한 상황을 생성해주는 생성형 시뮬레이션 모델

  • Newton : NVIDIA, DeepMind, Disney가 함께 만든 정밀 물리 엔진

이 3가지가 결합돼서 GR00T는 ‘가상의 세계에서 학습한 로봇 AI’로 현실에 배치되기 전부터 엄청난 양의 상황을 경험할 수 있게 됩니다.



  • Issac GR00T N1은 ‘생각하는 로봇’의 첫걸음



<이미지 출처 : NVIDIA Developer Blog, NVIDIA Isaac GR00T>

Issac GR00T N1은 ‘느리고 깊은 사고’와 ‘빠르고 정확한 반응’을 이중 아키텍처로 분리한 구조를 갖고 있어요. 이게 무슨 말이냐면,

  • 느린 사고(Slow Thinking) : 주변 환경과 지시를 이해하고, 계획을 수립

  • 빠른 반응(Fast Acting) " 계획을 정밀하고 연속적인 동작으로 실행


이러한 방식은 인간의 사고 구조를 본뜬 것으로, 실제로 로봇이 다단계 작업을 ‘이해하고 수행’할 수 있게 합니다. 덕분에 Issac GR00T N1은 여러 형태, 다양한 동작에 유연하게 대응할 수 있어서 '범용성'을 갖췄습니다. 특정 로봇 형태에 최적화된 모델이 아니라, 다양한 신체 구조와 작업 시나리오에 유연하게 대응하도록 설계됐다는 거죠. 그래서 어떻게 써먹을 수 있냐면요.

  • 다양한 기업에서 사용하는 로봇 형태에 맞게 후속 학습만 하면 OK

  • 택배를 옮기는 로봇, 공장 작업을 돕는 로봇, 안내하는 로봇 등 범용 휴머노이드 플랫폼으로 바로 확장 가능


더 놀라운 것은, 그리고 이 모든 게 오픈소스로 제공됩니다. 누구나 Issac GR00T N1 N1을 기반으로 자신만의 로봇을 개발할 수 있게 된 거예요.



  • 물리 기반 시뮬레이션 + 강화학습으로 빠르게 실전 투입


<이미지 출처 : NVIDIA Korea Blog, 세계 최초 개방형 휴머노이드 로봇 파운데이션 모델, 'NVIDIA Isaac GR00T N1' 공개>

Issac GR00T N1의 학습은 전통적인 강화학습을 넘어서 Newton 기반의 물리 시뮬레이션으로 진행됩니다. 다양한 물체의 무게, 마찰력, 충격 반응까지 정밀하게 계산해서 단순히 움직이는 로봇이 아니라 ‘물리를 이해하는 로봇’으로 진화한거죠. 그리고 시뮬레이션을 통해 수천 수만 번의 사전 훈련을 마치면, 현실에 배치되었을 때 짧은 시간 안에 안정적인 성능을 보장할 수 있어요.

전 이걸 Reasoning AI, Agentic AI에서 이어지게 될 또 다른 진화하고 생각합니다. 즉, 온라인, '가상 세계'에만 머물렀던 AI가 이제 우리와 함께 공존하는 물리적인 '현실 세계'로 내려온거죠. 지금까지의 AI는 디지털 데이터 안에서만 활동했습니다. 하지만 이제는 현실을 이해하고, 사람과 함께 움직이는 시대가 점점 다가오고 있는 것 같아요.

그런 의미에서 Issac GR00T N1은 단순히 로봇 하나의 기술이 아니라, AI가 현실로 나오는 통로이자, Agentic AI의 물리적 구현체라고 볼 수 있지 않을까요? 과거 SF 영화나 애니메이션에서만 보던 광경이 정말 실제로 현실화될 수 있다는 가능성이 점점 커지는 것 같아 두근두근 합니다. 아래 영상을 보시면 제가 오버하는 것이 아니라고 느끼실 거예요.












<이미지 출처 : NVIDIA Korea Blog, 새로운 소식이 넘치는 ‘GTC 2025’ 하이라이트>


지금까지 두 개의 글로 나누어 NVIDIA GTC 2025 Keynote의 주요 내용을 제 생각과 함께 정리해 봤습니다. 이번 NVIDIA GTC 2025 Keynote를 보면서, 앞으로도 NVIDIA의 아성은 쉽게 무너지지 않겠구나 라는 생각이 들었네요. 그런데 사실 제가 GTC 2025의 모든 내용을 다룬 것이 아니고, 순전히 제 입맛에 맞는 내용 위주로 다룬 것이기 때문에, 전체 내용이 궁금하신 분들은 NVIDIA Blog에서 GTC 2025 Keynote 요약 내용을 살펴보시기 바랍니다. 핵심 내용 위주로 간략히 정리되어있을 뿐만 아니라 관련 영상도 함께 들어있어서 편하게 보실 수 있을거예요.



  • 높아지는 AI 추론 비용, NVIDIA가 줄여줄 수 있지 않을까?


AI에 관심을 가지고 AI에 투자하려는 기업들은 계속 늘어나고 있습니다. 그리고, 그들은 자체 LLM을 개발한다기 보단, 이미 빅테크 기업들이 만든 LLM을 가져다가 추론하는 데에 중점을 두고 있죠. 하지만 그 추론을 클라우드에서 돌리기엔 비용 부담이 너무도 큽니다. 국내 모 이커머스 기업의 개발자는 코딩에 활용할 LLM을 테스트하는 데에 드는 AWS 비용이 1개월에 5억이나 소요되어 어떻게 하면 이 비용을 줄일 수 있을까 고민중이라고 합니다.

그럼, 이런 비용을 어떻게 줄여야 할까요? 일단은 LLM을 내놓는 다양한 빅테크 기업들이 보다 효율적인 AI 모델을 개발해야겠죠. 그리고 AWS와 같은 CSP들도 기업들에게 제공하는 GPU 서버 비용을 줄여줘야 합니다. 그러나, CSP들도 자선사업가는 아니닙니다. 그렇다고 계속 고객들에게 고비용을 부과하면, 기업들이 클라우드 서비스를 뒤로 하고 자체 인프라를 구축하려 들 지도 모릅니다. 실제 위에서 언급한 이커머스 기업도, 서울 모처에 자체 AI 인프라 구축을 알아보고 있다는군요.

이런 상황을 해결하는 데에 NVIDIA의 앞서 보신 AI 팩토리 운영 효율화 방안이 제격이지 않을까요? CSP들의 데이터센터 운영 비용이 절감되면 그들도 GPU 서버 자원을 좀 더 저렴하게 기업들에게 제공해줄 수 있겠죠. 자체 AI 인프라를 구축하려는 기업은 더 적은 공간에서 인프라를 운영함으로써 상면과 관리 비용을 절약할 수 있을겁니다. 게다가 Dynamo와 같은 프레임워크까지 결합되면 운영 효율성을 더욱 끌어올릴 수 있을테고요.

혹시 이렇게 AI 운영 비용 효율화에 관심이 많은 기업의 IT 담당자라면, 아래의 베이넥스 설문 이벤트에 참여하셔서 베이넥스 NVIDIA 전문가의 상담을 받아시기 바립니다.





  • AI 팩토리부터 GR00T까지, NVIDIA가 꿈꾸는 미래를 엿볼 수 있는 GTC 2025


그 동안 NVIDIA는 광산에 가서 AI라는 금을 잘 캘 수 있는 삽을 파는 데에 주력해 왔습니다. 그리고 그 삽의 성능이 점점 더 좋아져서 NVIDIA가 파는 삽을 사용하는 기업들은 더 많은 금을 더 빠른 시간에 캘 수 있게 됐죠. 그런데 NVIDIA가 이제 삽이 아닌 포크레인을 팔려고 준비하는 것이 아닌가 하는 생각이 들었습니다. 그리고 나중에는 광산에서 일하는 광부까지 제공할 기세입니다.

최근 3년 동안 연속으로 GTC Keynote 세션을 보면서, 가장 인상적인 것은 역시나 세션 시작 시 상영되는 비디오가 아닐가 싶군요. 거기에 NVIDIA가 그리는 미래가 다 들어있다고 생각하거든요. 3년 전에는 막연하게 '그래, 저렇게 되면 참 좋겠지만 아직 멀었어'였지만, 이번에는 '와, 이거 진짜 가능하겠는데?'라는 생각까지 이어졌습니다. 이게 비단 저만의 생각은 아닐겁니다. 그렇죠?

혹시라도 GTC 2025 Keynote 전체 내용이 궁금하신 분들은 아래의 영상을 통해 시청해 보세요.한글 자막도 달려있어서 보는 데에 불편하지 않으실거예요. 2시간이 넘는 영상이지만 시간 순식간에 지나갈겁니다. 



이것으로 NVIDIA GTC 2025 Keynote 정리를 마칩니다. NVIDIA가 전하는 최신 AI 트렌드가 궁금하셨던 분들, AI 인프라 운영 효율화 방법이 고민이셨던 IT 담당자 분들께 조금이나마 도움이 되었기를 바랍니다.

끝!


3개의 댓글이 있습니다.

7일 전

NVIDA의 GPU 가격에 AI 도입 비용이 결정 되겠네요.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

8일 전

유익한 내용 참고하겠습니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

10일 전

좋은 내용 감사합니다.

Reply

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입

댓글 남기기

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입