마이크로소프트 MAI-보이스-1(MAI-Voice-1)과 MAI-1 프리뷰(preview) 모델은 앞으로 소비자용 애플리케이션을 구동하는 핵심 역할을 할 예정이다.

오픈AI 파운데이션 모델에 의존해 왔던 마이크로소프트(MS)가 자체 개발한 AI 모델을 공개하며 독자 노선을 강화하고 있다.
지난달 29일 MS AI 부문이 그간 업계의 추측을 모았던 자체 모델 MAI-보이스-1과 MAI-1 프리뷰를 공개했다. 두 모델은 사내에서 온전히 개발 및 훈련한 첫 모델로 알려졌다.
MS에 따르면 MAI-보이스-1은 자연스러운 음성을 생성하는 모델로, 단일 GPU에서 1초 이내에 1분 길이 오디오를 생성할 수 있다. MS는 현재 이 모델이 이미 코파일럿 데일리(Copilot Daily)의 AI 뉴스 요약 기능과, 프롬프트만으로 즉석에서 팟캐스트를 제작할 수 있는 코파일럿 팟캐스트(Copilot Podcasts) 기능에 활용되고 있다고 설명했다.
MS는 별도의 코파일럿 랩 시연을 통해 단일 화자와 다중 화자 환경 모두에서 고음질의 표현력 있는 오디오를 생성하는 MAI-보이스-1의 기능도 선보였다.
MS는 다양한 AI 모델을 상호 비교 평가할 수 있는 커뮤니티 사이트 LM아레나(LMArena)에서 MAI-1 프리뷰 테스트를 시작했다. 이 플랫폼은 중국 스타트업 딥시크(DeepSeek)가 지난 1월 주목을 끌었던 곳으로 알려져 있으며, 개발자들은 MS에 신청해 API를 직접 활용할 수 있다.
MS는 “앞으로 몇 주간 코파일럿 내 일부 텍스트 기반 기능에 MAI-1 프리뷰를 적용하고 사용자 피드백을 반영할 것”이라고 설명했다.
독립의 신호
MS에 따르면 MAI-1 프리뷰는 사내에서 개발한 MoE(Mixture-of-Experts) 모델로, 엔비디아(Nvidia) H100 GPU 1만 5,000대에서 사전 및 사후 훈련을 거쳤다. 일부 경쟁사의 10만 대 GPU 클러스터와 비교하면 상대적으로 소규모지만, MoE 아키텍처는 여러 개의 전문가 모듈 네트워크를 두고 입력마다 가장 적합한 모듈이 연산을 수행해 자원을 절약하면서도 성능을 유지하는 구조다. MS에 의하면 현재는 성능 향상을 위해 엔비디아 GB200 클러스터에서 운영되고 있다.
이번 발표는 MS와 AI 업계 전반에 중요한 전환점을 의미할 수 있다. 2019년부터 약 130억 달러가량 투자한 오픈AI 모델에 크게 의존해 왔던 MS가 본격적으로 독립하려는 신호일 수 있기 때문이다. MS와 오픈AI는 상호 보완적인 관계를 유지해 왔으며, 오픈AI는 MS의 애저(Azure) 클라우드를 통해 모델과 서비스를 운영해 왔다.
MS는 지난해 딥마인드(DeepMind) 설립자 무스타파 술레이만과 그의 인플렉션AI(Inflection AI) 팀을 영입해 자체 모델 개발을 추진했다. 인플렉션AI는 현재 새로운 CEO와 함께 자체 엔터프라이즈 AI를 개발 중이며, 술레이만과 핵심 인력은 MS의 코파일럿 제품군에 집중하고 있다.
MS와 술레이만은 오픈AI와의 관계 변화에 대해 구체적으로 언급하지 않고 있으며, 양사가 거리를 두고 있다는 해석은 여전히 추측에 가까운 상황이다. 그럼에도 불구하고 MS가 술레이만과 그의 팀을 영입한 데에는 분명한 이유가 있다. 특히 술레이만은 최근 세마포(Semafor)와의 인터뷰에서 “우리는 선택지를 확보하는 데 집중하고 있다. 타사 개발자의 모델을 활용할 수도 있고, 오픈AI 모델도 앞으로 오랫동안 계속 사용할 것이다. 또한 지금처럼 오픈소스 모델도 활용할 것”이라고 말했다.
술래이만은 질의 내용을 각 AI 모델의 역량에 따라 적합한 모델로 라우팅하는 중간 플랫폼인 ‘오케스트레이터’가 향후 MS의 AI 활용 전략에서 핵심적인 역할을 할 것이라고 설명했다. 이는 MS가 오픈AI에서 완전히 벗어나려는 것은 아니지만 자체 모델을 병행할 필요성을 인식하고 있음을 보여준다.
한편 이번 발표에서 드러난 또 다른 방향성은 자체 모델 개발이 단기적으로 기업용이 아닌 소비자용 코파일럿(Copilot) 서비스에 우선 집중되고 있다는 점이다.