By Paul Krill

Editor at Large

구글, 온디바이스 AI 위한 다국어 임베딩 모델 ‘임베딩젬마’ 공개

뉴스

2025.09.092분

인공지능생성형 AI모바일 개발

구글이 공개한 다국어 텍스트 임베딩 모델은 RAG(검색 증강 생성)과 시맨틱 검색에 적합하며, 양자화 처리 시 200MB 이하 RAM으로도 실행된다.

Credit: mundissima/Shutterstock.com

구글이 모바일 기반 생성형 AI를 위해 휴대폰, 노트북 및 기타 엣지 디바이스에서 직접 실행되도록 설계된 다국어 텍스트 임베딩 모델 ‘임베딩젬마(EmbeddingGemma)’를 지난 4일 공개했다.

구글에 따르면 임베딩젬마는 3억 800만 개 매개변수를 갖췄으며, 개발자들이 RAG와 시맨틱 검색 등의 기술을 활용해 온디바이스 환경에서 직접 실행되는 애플리케이션을 구축할 수 있도록 지원한다. 임베딩젬마는 경량 아키텍처인 젬마3(Gemma 3)를 기반으로 100개 이상 언어를 학습했으며 양자화(quantization) 처리 시 200MB 이하 RAM에서도 동작할 만큼 경량화됐다.

임베딩젬마는 출력 차원 역시 조정 가능하다. 마트료시카(Matryoshka) 표현 구조를 통해 출력 차원을 768차원에서 128차원까지 조정할 수 있으며 2K 토큰 컨텍스트 윈도우도 지원한다. 마트료시카 표현은 하나의 임베딩 안에 여러 단계의 정보를 담아 다운스트림 작업의 연산 자원에 맞게 유연하게 활용할 수 있도록 하는 방식이다.

구글은 임베딩젬마가 개발자들에게 온디바이스, 유연성 및 프라이버시 중심 애플리케이션을 구축할 수 있도록 지원한다고 설명했다. 모델 가중치는 허깅페이스(Hugging Face), 캐글(Kaggle), 버텍스 AI(Vertex AI)에서 다운로드할 수 있다.

또한 구글은 임베딩젬마가 젬마3n 모델과 함께 활용될 경우, 모바일 RAG 파이프라인과 시맨틱 검색 등 새로운 사용례를 열어줄 수 있다고 설명했다. 현재 이 모델은 센턴스 트랜스포머(sentence-transformers), 라마.cpp(llama.cpp), MLX, 올라마(Ollama), 라이트RT(LiteRT), 트랜스포머.js(transformers.js), LM스튜디오(LMStudio), 위아베이트(Weaviate), 클라우드플레어(Cloudflare), 라마인덱스(LlamaIndex), 랭체인(LangChain) 등 다양한 도구와 호환된다. 문서는 ‘ai.google.dev’에서 확인할 수 있다.
dl-ciokorea@foundryco.com

By Paul Krill

Editor at Large

Follow Paul Krill on X

Paul Krill is editor at large at InfoWorld. Paul has been covering computer technology as a news and feature reporter for more than 35 years, including 30 years at InfoWorld. He has specialized in coverage of software development tools and technologies since the 1990s, and he continues to lead InfoWorld’s news coverage of software development platforms including Java and .NET and programming languages including JavaScript, TypeScript, PHP, Python, Ruby, Rust, and Go. Long trusted as a reporter who prioritizes accuracy, integrity, and the best interests of readers, Paul is sought out by technology companies and industry organizations who want to reach InfoWorld’s audience of software developers and other information technology professionals. Paul has won a “Best Technology News Coverage” award from IDG.

Africa

Americas

Asia

Europe

Oceania

토픽

About

정책

네트워크

자세히 보기

구글, 온디바이스 AI 위한 다국어 임베딩 모델 ‘임베딩젬마’ 공개

구글이 공개한 다국어 텍스트 임베딩 모델은 RAG(검색 증강 생성)과 시맨틱 검색에 적합하며, 양자화 처리 시 200MB 이하 RAM으로도 실행된다.

이 저자의 추가 콘텐츠

러스트재단, ‘러스트 이노베이션 랩’ 출범··· “커뮤니티 중심 거버넌스 강화”

“시니어 개발자가 코딩 작업을 AI에 더 많이 맡긴다” 패스트리 조사

젯브레인, 코틀린 기반 AI 에이전트 개발 프레임워크 ‘쿠그 0.4.0’ 공개

구글 제미나이 CLI, 제드 코드 에디터와 통합··· AI 기반 개발 지원 강화

구글, 깃허브용 무료 AI 코딩 도구 ‘제미나이 CLI 깃허브 액션’ 공개

AI 코딩 도우미 덕에 파이썬 인기 고공 행진···펄도 깜짝 상승

깃허브, 자연어 기반 AI 앱 빌더 ‘스파크’ 퍼블릭 프리뷰 버전 공개

젯브레인 CEO “차세대 추상화 프로그래밍 언어 개발 중”

추천 콘텐츠