구글이 공개한 다국어 텍스트 임베딩 모델은 RAG(검색 증강 생성)과 시맨틱 검색에 적합하며, 양자화 처리 시 200MB 이하 RAM으로도 실행된다.

구글이 모바일 기반 생성형 AI를 위해 휴대폰, 노트북 및 기타 엣지 디바이스에서 직접 실행되도록 설계된 다국어 텍스트 임베딩 모델 ‘임베딩젬마(EmbeddingGemma)’를 지난 4일 공개했다.
구글에 따르면 임베딩젬마는 3억 800만 개 매개변수를 갖췄으며, 개발자들이 RAG와 시맨틱 검색 등의 기술을 활용해 온디바이스 환경에서 직접 실행되는 애플리케이션을 구축할 수 있도록 지원한다. 임베딩젬마는 경량 아키텍처인 젬마3(Gemma 3)를 기반으로 100개 이상 언어를 학습했으며 양자화(quantization) 처리 시 200MB 이하 RAM에서도 동작할 만큼 경량화됐다.
임베딩젬마는 출력 차원 역시 조정 가능하다. 마트료시카(Matryoshka) 표현 구조를 통해 출력 차원을 768차원에서 128차원까지 조정할 수 있으며 2K 토큰 컨텍스트 윈도우도 지원한다. 마트료시카 표현은 하나의 임베딩 안에 여러 단계의 정보를 담아 다운스트림 작업의 연산 자원에 맞게 유연하게 활용할 수 있도록 하는 방식이다.
구글은 임베딩젬마가 개발자들에게 온디바이스, 유연성 및 프라이버시 중심 애플리케이션을 구축할 수 있도록 지원한다고 설명했다. 모델 가중치는 허깅페이스(Hugging Face), 캐글(Kaggle), 버텍스 AI(Vertex AI)에서 다운로드할 수 있다.
또한 구글은 임베딩젬마가 젬마3n 모델과 함께 활용될 경우, 모바일 RAG 파이프라인과 시맨틱 검색 등 새로운 사용례를 열어줄 수 있다고 설명했다. 현재 이 모델은 센턴스 트랜스포머(sentence-transformers), 라마.cpp(llama.cpp), MLX, 올라마(Ollama), 라이트RT(LiteRT), 트랜스포머.js(transformers.js), LM스튜디오(LMStudio), 위아베이트(Weaviate), 클라우드플레어(Cloudflare), 라마인덱스(LlamaIndex), 랭체인(LangChain) 등 다양한 도구와 호환된다. 문서는 ‘ai.google.dev’에서 확인할 수 있다.
dl-ciokorea@foundryco.com