새로운 API 기능은 기업이 원격 툴 접근, PBX 연동, 향상된 맥락 인식을 기반으로 자율적이고 멀티모달한 음성 에이전트를 구축할 수 있도록 지원한다.

오픈AI가 음성-텍스트 변환 대규모 언어 모델 ‘gpt-realtime’에 원격 MCP(Model Context Protocol) SIP(Server and session Initiation Protocol) 지원을 추가했다. 전용 API를 통해 제공되는 이번 업데이트는 기업이 더욱 자율적인 음성 기반 에이전트를 구축할 수 있도록 돕는 것을 목표로 한다.
포레스터 부사장이자 수석 애널리스트인 찰리 다이는 “실시간 API에서 원격 MCP 서버 지원은 개발자가 인터넷이나 별도의 서버에 등록된 MCP 서버를 통해 외부 기능과 도구에 접근할 수 있도록 설계됐다”고 설명했다. 원격 MCP 서버란 에이전트나 관련 애플리케이션이 실행되는 환경에 로컬로 등록되지 않은 MCP 서버를 의미한다.
오픈AI는 기업이 API 세션 구성에 원격 MCP 서버의 URL을 전달하면 MCP 지원을 활성화할 수 있다고 28일 블로그를 통해 밝혔다. 해당 블로그에서 오픈AI는 “연결이 완료되면 API가 자동으로 툴 호출을 처리하기 때문에 별도의 통합 작업이 필요 없다”라며 “이 방식은 에이전트의 기능을 새로운 역량으로 쉽게 확장할 수 있도록 한다”라고 전했다.
또한 SIP 지원도 더해졌다. SIP는 IP 네트워크 상에서 실시간 음성 통화를 개시하고 관리하기 위한 표준으로, 이를 통해 기업은 AI 음성 에이전트를 PBX 시스템과 전화망에 직접 연동할 수 있다. 다이는 “API의 SIP 지원은 자동 통화 처리, 일정 예약, 컨택센터에서의 다국어 고객 서비스 등 다양한 활용 사례를 가능하게 한다”고 덧붙였다.
이미지 입력 및 추가 기능
오픈AI는 gpt-realtime 모델이 음성 기반 활용 사례에 더 효과적으로 대응할 수 있도록 이미지 입력 기능도 추가했다. 사용자는 이제 사진, 스크린샷 등 시각 자료를 텍스트나 오디오와 함께 세션에 포함할 수 있으며, 모델은 이를 바탕으로 “이 이미지에서 무엇이 보이느냐” 혹은 “여기에 적힌 글자를 읽을 수 있느냐”와 같은 질문에도 답할 수 있다.
애널리스트들은 이미지 입력 기능을 기업에 유용한 개선으로 평가했다. 다이는 “이는 멀티모달 지원으로 볼 수 있으며, 시장에서 핵심 영역이 되고 있다”며 구글의 프로젝트 아스트라(Project Astra) 역시 멀티모달 실시간 지원에 주력하고 있다고 언급했다.
오픈AI는 이미지 입력 외에도 gpt-realtime 모델의 맥락 인식과 메모리 기능을 강화했다. 업데이트된 모델은 복잡한 지시를 따르는 능력, 정밀한 툴 호출, 더욱 자연스럽고 표현력 있는 음성 생성에서 성능이 향상됐다고 밝혔다.
다이는 “이러한 개선은 실시간 의료 기록 전사, 대화형 예약 비서, 은행·보험·통신업 고객 서비스, 주요 산업 분야 전반에서의 직원 지원 등 다양한 활용 사례에 걸쳐 저지연의 자연스러운 음성 상호작용을 구현할 수 있게 할 것”이라고 분석했다.
오픈AI는 또한 API를 통해 모델에 접근하는 기업이 새로운 두 가지 음성, 시더(Cedar)와 마린(Marin)을 활용할 수 있다고 밝혔다.
한편 오픈AI의 최대 투자자인 마이크로소프트(MS)도 이번 주 두 개의 텍스트-음성 변환 모델을 발표했다. MS는 이 모델들이 광범위한 엔터프라이즈 활용 사례를 뒷받침할 수 있을 것이라고 전했다.
dl-ciokorea@foundryco.com