자세히 보기

스위스 학계, 빅테크 LLM에 맞선 ‘윤리적’ 대안 오픈소스 AI 모델 공개

뉴스
2025.09.054분

오픈소스 대규모 언어 모델(LLM) ‘아페르투스(Apertus)’는 개인정보 보호와 저작권 규제 요구에 대응하는 데 어려움을 겪는 기업들에게 매력적인 대안이 될 수 있다.

LLM, Large Language Model
Credit: BOY ANTHONY – shutterstock.com

지난 1월, 중국의 스타트업 딥시크가 등장해 AI에 대한 기존의 인식을 흔들었다. 이번 주에는 스위스가 새로운 파장을 일으켰다.

라틴어로 ‘열린(open)’을 뜻하는 이름을 가진 ‘아페르투스(Apertus)’는 스위스 대학들과 스위스 국립 슈퍼컴퓨팅센터(CSCS)가 공동으로 개발한 새로운 LLM이다. 개발진은 아페르투스가 지금까지 공개된 오픈소스 AI 플랫폼 가운데 강력한 수준이라고 표현했다.

아페르투스는 메타의 2024년 ‘라마 3’ 모델과 비슷한 성능으로 평가됐다. 가장 강력한 모델은 아니지만 여전히 상당한 경쟁력을 갖추고 있다. CSCS 알프스 슈퍼컴퓨터에 탑재된 엔비디아 H100 GPU 132대를 활용해 15조 토큰을 학습했으며, 현재 AI 오픈소스 커뮤니티 플랫폼 허깅페이스에 80억 파라미터 버전(소규모 활용용)과 700억 파라미터 버전(연구 및 상업적 활용 가능)이 공개됐다.

하지만 아페르투스는 단순히 크기만을 겨냥한 모델이 아니다. 개발진은 챗GPT 중심의 주류 AI와는 완전히 다른 모델을 만들고자 했으며, 특히 영어 외 다양한 언어를 학습시켜 글로벌 사용자층에 더 나은 경험을 제공하는 것을 목표로 했다.

‘완전 개방형’이 차별화 포인트

아페르투스의 첫 번째 특징은 바로 스위스산이라는 점이다. 언뜻 사소한 것처럼 보일 수 있지만, 미국과 중국이 지배하는 산업 환경에서 이는 오히려 중요한 차별점이 될 수 있다.

이 프로젝트는 ‘주권형 AI’라는 개념을 제시한다. 스위스가 실리콘밸리 상업용 AI 모델과 달리, 유럽 및 글로벌 사용자에게 독자적이고 차별화된 대안을 제공하겠다는 것이다.

핵심은 모델의 ‘개방성’과 ‘윤리적 성격’이다. 누구나 아페르투스를 활용하면서 학습 과정을 투명하게 확인할 수 있으며, 재현 가능한 방식으로 검증이 가능하다.

대규모 언어 모델에서 ‘개방성’은 논란의 대상이다. 예컨대 메타의 라마는 가중치만 공개해 모델이 데이터를 어떻게 처리하는지 확인할 수 있지만, 학습 데이터 자체는 공개하지 않는다. 반면 스위스 연구진은 학습 데이터와 15조 토큰 전체를 모두 공개하는 ‘완전 개방형(full openness)’을 선택했다.

취리히연방공대(ETH) AI센터 연구원 이마놀 슐라그는 “완전 개방형 모델은 고신뢰 AI 애플리케이션을 가능하게 하고, AI의 위험과 기회를 연구하는 데 필수적이다”라며 “투명한 절차는 규제 준수에도 도움이 된다”고 설명했다.

이러한 ‘완전 개방형’ 특성은 실제 기업 활용에서도 의미가 크다. 현재 많은 기업은 미국 기반 빅테크가 장악한 폐쇄형 모델을 사용하면서 윤리적·법적 경계가 무너질 수 있다는 위험을 우려하고 있다.

특히 EU에서는 ‘2024년 AI 법(EU AI Act)’과 ‘범용 AI 행동강령(General-Purpose AI Code of Practice)’에 따라 규제 준수가 필수 과제가 됐다. 이로 인해 기업은 규제 위반 위험에 대한 불안을 안고 있으며, 동시에 EU AI 법이 지나치게 엄격해 AI 혁신 속도를 늦출 수 있다는 우려도 제기되고 있다.

아페르투스 발표문은 “데이터 무결성과 윤리 기준에 특별히 주의를 기울였다. 학습 데이터셋은 공개적으로 이용 가능한 자료에만 기반하며, 웹사이트의 기계 판독 가능한 옵트아웃 요청을 사후적으로 반영하고, 개인 데이터와 원치 않는 콘텐츠를 학습 전에 제거했다”고 밝혔다.

이 과정에는 저작권 보호뿐만 아니라, 학습 데이터의 ‘암기(memorization)’로 인해 저작권이 있는 자료나 민감한 데이터가 그대로 재현되는 위험을 방지하는 기준도 포함됐다.

또한 기업은 아페르투스를 자체 서버에 내려받아 데이터를 직접 관리할 수 있다. 하지만 모든 오픈소스 모델과 마찬가지로, 이후 학습 데이터에서 저작권 자료나 개인정보가 삭제되더라도 이미 내려받은 버전에 이를 반영하기는 어렵다. 결국 기업이 원본 데이터의 변화를 모니터링해야 하며, 이로 인해 기업 AI 거버넌스에 규제 준수 책임이 추가로 부과될 수 있다.

속도의 필요성

아페르투스가 윤리적 가치로 주목받고 있지만, AI 추론 성능 측면에서는 여전히 경쟁 모델과 겨뤄야 한다. 스위스 LLM 공동 연구에 참여한 스위스 연방공과대학 로잔(EPFL) 앙투안 보셀뤼(Antoine Bosselut) 조교수는 “기업들이 고성능 추론을 위해 대형 폐쇄형 LLM 제공업체에 의존해야 한다는 인식은 잘못됐다”고 말했다.

보셀뤼는 홍보 영상에서 “지난 몇 년간 상업용 LLM 제공업체가 다른 누구도 따라올 수 없을 만큼 압도적으로 앞서 있다는 이야기를 많이 들어왔다”라며 “하지만 오늘 우리가 보여준 것은 그게 꼭 사실이 아니라는 점이며, 실제 격차는 우리가 생각했던 것보다 훨씬 좁다는 것”이라고 전했다.

그는 이어 “아페르투스는 생성형 AI가 강력하면서도 개방적일 수 있음을 입증한다”라며 “이번 공개는 끝이 아니라 시작이다. 전 세계 공공의 이익을 위한 개방적이고 신뢰할 수 있는 주권형 AI 기반을 장기적으로 구축해 나가는 여정의 출발점”이라고 설명했다.
dl-ciokorea@foundryco.com

John E. Dunn is a veteran cybersecurity reporter, specializing in crisis response, ransomware, data breaches, encryption, quantum computing and QKD, DevSecOps, managed services, cybersecurity in education, retail cybersecurity, vulnerability reporting, and cybersecurity ethics.

John is a former editor of the UK editions of Personal Computer Magazine, LAN Magazine, and Network World. In 2003 he co-founded Techworld, since when he has covered cybersecurity and business computing for a range of publications including Computerworld, Forbes, Naked Security, The Register, and The Times.

이 저자의 추가 콘텐츠