생성형 AI 시대의 급속한 성장과 함께 기업이 직면한 과제는 더욱 복잡해지고 있다. 모델 선택부터 인프라 구축, 보안 강화, 비용 최적화까지 다각도에서 AI 프로젝트를 전략적으로 검토해야 하는 상황이다.

신용환 한국레드햇 시니어 솔루션 아키텍트
레드햇은 이러한 흐름 속에서 AI 추론 인프라 관리가 기업의 핵심 과제가 될 것이라고 전망했다.
9월 3일 CIO코리아와 IT월드가 공동 주최한 AI&데이터 서밋에서 발표자로 나선 한국레드햇 신용환 시니어 솔루션 아키텍트는 vLLM(Virtual Large Language Model)을 중심으로 한 AI 추론 최적화 전략을 소개했다. 그는 “2022년 이전까지 AI 개발 기업들은 주로 모델의 정확도와 성능 향상에 집중했지만, 이후에는 AI 운영을 얼마나 효율적으로 관리할지가 주요 과제로 떠올랐다”라고 설명했다.
AI 추론계의 리눅스 ‘vLLM’이란?
vLLM은 대규모 언어모델(LLM)의 추론을 더 빠르고 효율적으로 실행하기 위해 UC버클리 연구팀이 2022년 말 개발해 오픈소스로 공개한 라이브러리이자 런타임이다. 이후 학계와 업계를 아우르는 기여를 통해 빠르게 확산되고 있다.
vLLM이 주목받는 배경에는 AI 모델 배포 방식의 변화가 있다. 보통 기업 내 AI 모델 개발은 데이터 수집과 준비, 모델 학습, 추론을 통한 서비스 배포, 모니터링이라는 4단계로 이어진다. 이 가운데 실제 서비스와 연결되는 단계는 추론이다. 사용자가 질문을 하거나 요청을 보내면 즉시 실행돼야 하기 때문에 가장 많은 인프라 자원과 비용이 소모된다. 이 때문에 학습보다 추론 시장이 훨씬 빠른 속도로 성장하고 있다.
신용환 아키텍트는 “학습은 방대한 자원과 시간이 요구돼 주기적으로만 이뤄지지만, 추론은 사용자 요청이 있을 때마다 즉각 실행돼야 한다. 이 차이로 인해 기업이 사용하는 AI 자원의 상당 부분은 추론 단계에서 발생한다”라며 “추론 시장이 확대되면서 GPU 사용량을 관리하고 비용을 최적화하기 위해 vLLM을 도입하는 기업이 늘고 있다”라고 설명했다. 메타, 딥시크 등 글로벌 기업도 vLLM을 활용한다고 밝혔다.
신용환 아키텍트는 vLLM이 추론 효율성을 높이는 핵심 기술로 자원 최적화와 성능 개선을 꼽았다. 세부적으로 살펴보면 CPU에는 직렬 연산을, GPU에는 대규모 병렬 연산을 각각 맡겨 두 프로세서의 장점을 극대화한다. 또한 프리필 단계에서는 입력 데이터를 빠르게 전처리하고, 반복 계산이 필요한 부분은 캐싱을 통해 재사용하며, 디코딩 과정은 경량화 알고리즘으로 최적화해 전체 추론 속도를 크게 끌어올린다. 이러한 접근은 단순한 연산 효율 향상을 넘어 대규모 모델을 다양한 환경에서 안정적으로 운영할 수 있는 토대를 제공한다.
특정 플랫폼이나 가속기에 종속되지 않고 다양한 환경에서 활용할 수 있다는 점도 vLLM의 핵심 장점이다. 신용환 아키텍트는 상용 추론 런타임과 비교해도 성능 저하가 크지 않으며, vLLM이 ‘AI 추론계의 리눅스’라 불릴 만큼 업계 표준으로 자리매김하고 있다고 강조했다.
글로벌 기업 사례로 본 vLLM 효율성
레드햇은 이러한 흐름 속에서 추론 기능 강화를 위한 투자를 이어가고 있다. 2025년 1월에는 vLLM의 핵심 기술 기여자들이 모여 만든 뉴럴 매직(Neural Magic)을 인수했다. 인수 당시 레드햇 맷 힉스 CEO는 “뉴럴 매직의 기술력을 레드햇에 통합해 워크로드 실행 환경부터 최적화, 학습 방식까지 고객 요구에 신속하게 대응하겠다”라고 밝혔다. 신용환 아키텍트는 “GPU만으로 AI를 해야 한다는 고정관념에서 벗어나, CPU 기반 추론 최적화라는 새로운 가능성을 제시한 것이 뉴럴 매직의 출발점”이라고 설명했다.
뉴럴 매직의 고객 사례를 보면 글로벌 기업이 vLLM을 통해 어떻게 추론 효율성을 높이고 있는지 알 수 있다. 한 대형 미디어 그룹은 생성형 AI 서비스를 사용자에게 배포하는 과정에서 H100과 MI300X 클러스터 환경에서 멀티모달 미스트랄(Mistral) 모델을 활용해야 했다. 신용환 아키텍트에 따르면, 이 기업은 뉴럴 매직의 vLLM 기반 엔터프라이즈 지원과 허깅페이스에 등록된 최적화 모델을 활용해 빠르게 가치를 실현했다.
또 다른 사례로 한 대형 리테일 그룹은 방대한 수요를 처리하기 위해 추론 성능 개선이 필요했다. 이 기업의 ML팀은 H100 시스템에서 매일 수백만 건의 분석 작업을 처리할 수 있는 고성능 런타임을 요구했고, 뉴럴 매직은 vLLM 엔터프라이즈 서비스와 LLM 압축 도구를 제공해 이를 지원했다. 그 결과 해당 기업은 모델 최적화 역량과 vLLM 전문성을 바탕으로 운영 효율성을 높일 수 있었다.

Redhat Korea
추론 인프라 투자 강화하는 레드햇
레드햇은 vLLM 외에도 자체적으로 LLM 압축 도구인 LLM 컴프레서(Compressor)를 개발해 오픈소스 프로젝트로 공개했다. LLM 컴프레서는 vLLM 연계 프로젝트로, 대형 언어모델의 정밀도를 낮춰 모델 크기를 줄이는 기술이다. FP16을 INT8이나 INT4 같은 저정밀 연산으로 변환해 성능 저하 없이 메모리 사용량과 추론 비용을 줄일 수 있다. 쉽게 말해 모델을 경량화해 vLLM이 효율적으로 작동하도록 돕는 보조 기술이다.
vLLM과는 별도의 프로젝트지만 레드햇은 추론 효율화라는 같은 맥락에서 탄생한 LLM-D(Large Language Model-Distributed) 프로젝트도 지원하고 있다. 레드햇이 주도하고 구글, AMD, 엔비디아, 허깅페이스 등이 함께 개발 중인 LLM-D는 대규모 추론 환경에서 분산·병렬 처리 효율을 높여주는 오픈소스 기술이다. 특히 ‘인퍼런스 게이트웨이(Inference Gateway)’라는 구성 요소를 두어 캐시 사용 현황을 파악하고, 들어오는 요청을 여러 서버와 노드에 고르게 분산 처리한다. 이를 통해 기업은 LLM-D를 활용해 대규모 추론 작업을 안정적이고 효율적으로 수행할 수 있다.
레드햇은 엔터프라이즈 환경에서 손쉽게 활용할 수 있도록 레드햇 AI 인퍼런스 서버라는 제품을 올해 5월 출시했다. 이 제품은 리눅스와 쿠버네티스 등 기존 플랫폼 어디서든 구동 가능하며, 기업이 자체 데이터센터나 클라우드 환경에서 AI 추론을 보다 쉽게 배포·운영·관리할 수 있도록 지원한다.
신용환 아키텍트는 “레드햇은 더 이상 리눅스와 쿠버네티스만 제공하는 회사가 아니라, 기업이 AI를 효과적으로 활용할 수 있도록 지원하는 플랫폼 기업으로 발전하고 있다”며 “특히 오픈소스만으로는 풀기 어려운 과제에 대해 레드햇은 안정성과 전문적인 지원을 제공해 기업이 AI를 보다 안정적이고 효율적으로 운영할 수 있게 돕겠다”라고 강조했다.
jihyun.lee@foundryco.com