By Andy Patrizio

엔비디아, AI 추론·대규모 워크로드용 신규 GPU ‘루빈 CPX’ 공개

뉴스

2025.09.113분

엔비디아의 루빈(Rubin) CPX 칩은 베라(Vera) CPU와 루빈 GPU를 결합해 대규모 문맥 처리에 최적화됐다.

엔비디아는 대규모 문맥(Context) 처리와 토큰 기반 소프트웨어 코딩, 생성형 비디오에 특화된 차세대 플랫폼과 전용 GPU를 9일 공개했다.

루빈 CPX 칩은 블랙웰(Blackwell) GPU의 후속작인 차세대 루빈 GPU 아키텍처를 기반으로 한 파생 제품으로, 긴 문맥 추론에 최적화됐다. 실제 활용 면에서 루빈 CPX는 긴 문맥 처리에서 최고 성능을 발휘하며 토큰 기반 수익 극대화에 초점을 맞췄다.

챗GPT, 구글 제미나이, 퍼플렉서티 등 생성형 AI 서비스 제공업체는 토큰 단위로 서비스를 판매하고, 모델이 이를 처리한다. 단순 질의에는 100개 토큰이 필요하지만, 복잡한 추론 질의는 이보다 100배 이상 많은 토큰이 소모될 수 있다. 제공업체가 토큰을 더 빠르고 효율적으로 처리할수록 수익도 늘어난다.

엔비디아 데이터센터 그룹 제품 총괄 샤르 나라시만은 AI 추론이 흔히 단일 단계로 여겨지지만 실제로는 문맥(혹은 프리필(prefill)) 단계와 디코드 단계라는 두 가지 워크로드로 나뉜다고 설명했다. 문맥 단계는 연산 집약적이고, 디코드 단계는 메모리 집약적이지만, 지금까지 GPU는 두 작업을 동시에 담당해왔다는 것이다. 나라시만은 루빈 CPX가 특히 문맥 단계 연산 성능을 강화하도록 설계됐다고 전했다.

나라시만은 “AI 팩토리의 생산성과 성능을 획기적으로 높일 것”이라며 “대규모 토큰 생성 능력을 통해 더 많은 작업 단위를 처리하고, 그만큼 더 많은 수익을 창출할 수 있다”고 말했다.

루빈 GPU는 다이(die) 2개에 각각 25 페타플롭스 성능, NVLink 인터커넥트, 288GB HBM4 고대역폭 메모리를 제공한다. 반면 루빈 CPX는 단일 다이에 30 페타플롭스 성능, NVLink 미탑재, 128GB GDDR7 메모리를 지원한다. 이 때문에 루빈 CPX는 많은 메모리가 필요 없는 긴 문맥 처리에 최적화됐으며, 가격도 표준 루빈보다 저렴할 전망이다. 다만 엔비디아는 구체적인 가격은 공개하지 않았다.

비디오 처리의 경우 AI 모델이 1시간 분량 콘텐츠에 최대 100만 개 토큰을 필요로 하며, 생성에는 수 시간에서 수일이 걸릴 수 있다. 시스템이 더 많은 토큰을 생성할수록 대규모 처리에 유리하다.

루빈 CPX는 NVFP4 정밀도로 최대 30 페타플롭스 연산 성능을 제공한다. 또한 기존에 주로 사용되던 HBM 대신 128GB GDDR7 메모리를 탑재했다. GDDR7은 HBM보다 저렴하지만 성능은 충분하다는 게 엔비디아의 설명이다. 엔비디아는 루빈 CPX가 GB300 NVL72 시스템 대비 어텐션(Attention) 성능을 3배 빠르게 구현한다고 덧붙였다.

루빈 CPX는 여러 가지 구성으로 제공된다. 대표적으로 ‘베라 루빈 NVL144 CPX’는 퀀텀-X800 인피니밴드 확장형 패브릭이나 엔비디아 스펙트럼-XGS 이더넷 기술과 커넥트X-9 슈퍼NIC을 갖춘 스펙트럼-XTM 이더넷 네트워킹 플랫폼과 결합할 수 있다.

엔비디아는 새로운 ‘베라 루빈 NVL144 CPX’ 랙도 함께 발표했다. 샤르 나라시만은 이 시스템이 “AI 서비스 제공업체가 인프라에 1억 달러를 투자할 때 50억 달러의 매출을 창출할 수 있어 수익성을 획기적으로 높일 수 있다”고 말했다.

이 랙은 두 가지 구성으로 제공된다. 단일 랙 버전은 루빈 CPX GPU 144개, 루빈 GPU 144개, 베라 CPU 36개를 탑재해 NVFP4 기준 8 엑사플롭스 연산 성능, 100TB 고속 메모리, 초당 1.7PB 메모리 대역폭을 지원한다. 엔비디아는 해당 시스템이 현행 최고 사양인 GB300 NVL72보다 7.5배 빠르다고 밝혔다.

또 다른 구성은 이중 랙 시스템으로, 한 랙에는 베라 CPU와 루빈 GPU를, 다른 랙에는 루빈 CPX를 전용으로 배치해 문맥(프리필) 작업을 전담하도록 했다. 고객은 CPX 서버가 없는 랙, CPX 서버가 혼합된 랙, CPX 서버 전용의 별도 랙 등 다양한 조합을 선택할 수 있다.

엔비디아 루빈 CPX는 2026년 말 출시될 예정이다.
dl-ciokorea@foundryco.com

By Andy Patrizio

Andy Patrizio is a freelance journalist based in southern California who has covered the computer industry for 20 years and has built every x86 PC he’s ever owned, laptops not included.

Andy writes the Data Center Explorer blog for Network World. His work has appeared in a variety of publications, including Tom's Guide, Wired, Dr. Dobbs Journal, Tech Target, Business Insider, and Data Center Knowledge. Earlier in his career, he held editorial positions at IT publications like InternetNews, PC Week and InformationWeek.

Andy holds a BA in Journalism from the University of Rhode Island.

Africa

Americas

Asia

Europe

Oceania

토픽

About

정책

네트워크

자세히 보기

엔비디아, AI 추론·대규모 워크로드용 신규 GPU ‘루빈 CPX’ 공개

엔비디아의 루빈(Rubin) CPX 칩은 베라(Vera) CPU와 루빈 GPU를 결합해 대규모 문맥 처리에 최적화됐다.

이 저자의 추가 콘텐츠

구글, 온프레미스 클라우드에 제미나이 도입···데이터 보호 강화 나서

버티브, AI 데이터센터용 원데이 설치 모듈 플랫폼 ‘원코어’ 출시

북미 데이터센터 코로케이션 가용 용량 ‘제로’에 근접···JLL “1조 달러 신규 건설 필요”

‘美 연방정부 투자설 나오는 가운데…’ 인텔, 전현직 CEO 간 갈등은 심화

‘점유율 지켜낸 인텔’··· 2분기 서버 시장 동향은?

美 에너지부, 차세대 ‘맨해튼 프로젝트’ 시동···공공 부지 활용한 AI 인프라 본격 구축

인텔, 네트워크 사업 분사 결정···AI 존재감 회복엔 ‘역부족’ 평가

AI 반도체 스타트업 퓨리오사AI, 기업 고객 겨냥해 LG와 협력 체결

추천 콘텐츠

홍해 해저케이블 절단, 아시아·중동 클라우드 서비스 지연 초래