자세히 보기

Freelance writer, author

“믿을 수 있는 데이터가 핵심” AI를 위한 데이터 문화를 만드는 5가지 실천 방안

기획
2025.09.117분
CIO데이터 거버넌스생성형 AI

데이터에 대한 신뢰 없이는 AI를 확장할 수 없으며, 그 시작은 문화다.

AI-ready data culture
Credit: Rob Schultz / Shutterstock

AI가 주목을 받고 있지만, 성공적인 AI 도입의 이면에는 덜 화려하지만 훨씬 더 중요한 요소인 견고한 데이터 문화가 있다. 생성형 AI의 가치를 실현하려는 기업이라면, 단순히 데이터나 모델을 보유하는 것만으로는 부족하다. 핵심은 데이터를 어떻게 생성하고 관리하고 공유하고 신뢰받을 수 있도록 하느냐에 달려 있다.

다양한 조직 규모와 목적을 가진 4명의 리더가 조직의 데이터를 일관되게 AI에 적합한 상태로 유지하기 위한 경험을 공유했다. 이들은 데이터를 전략적 자산으로 인식하고, 서로 다른 배경에도 불구하고 데이터 문화를 강화하기 위한 핵심 실천 방안에 대한 의견을 모았다.

데이터를 부산물이 아니라 제품으로 취급한다

조직이 먼저 이뤄야 할 문화적 전환은 데이터를 운영의 부산물이 아닌 목적성과 사용성, 책임 관리를 고려해 설계된 독립적인 제품으로 인식하는 것이다.

데이터를 제품으로 본다는 것은 제품 관리 관점에서 사고하라는 의미다. 즉, 소유권을 정의하고 형식을 표준화하며, 버전 관리를 적용하고 전사적으로 예측 가능한 후속 사용례를 고려해야 한다.

DHL 서플라이체인 어메리카의 CIO 마이크 크레이더는 이 사고방식이 조직 내에 제도화되어 있다고 밝혔다. 크레이더는 “데이터 제품은 하나 이상의 시스템에서 나온 표준화된 데이터 세트로, 재사용이 쉽도록 형식을 구성한 것”이라고 설명했다. 예를 들어, 화물 데이터 제품은 운영, 물류, 사업 개발을 지원하며, DHL의 제안서 생성기 같은 생성형 AI 도구에도 활용된다.

크레이더는 “데이터 제품이 존재하지 않거나 정제되지 않으면 도구가 작동하지 않는다”라고 강조했다. 또 데이터 제품 정의는 단순한 기술적 과제가 아니라 비즈니스 정렬의 문제라고 지적했다. 모든 데이터 제품에는 명확한 비즈니스 소유자가 지정되며, 업데이트와 폐기를 포함한 수명 주기 계획이 수립된다. 크레이더는 “책임지는 사람이 없는 이른바 ‘고아 데이터’ 제품은 원치 않는다”라고 덧붙였다. 이 같은 소유권 의식이 AI 애플리케이션에서 데이터 제품을 신뢰할 수 있고 최신 상태로 유지하는 기반이 된다.

IBM도 데이터 제품을 중심으로 AI 준비 상태를 구축하고 있다. IBM 소프트웨어의 수석 부사장 디네시 니르말은 셀프서비스의 필요성을 강조했다. 니르말은 “팀이 적절한 데이터 세트를 쉽게 찾고 신뢰할 수 없다면 빠른 혁신은 불가능하다”라며, IBM의 잘 분류되고 제대로 통제되는 데이터 제품이 전사적으로 신뢰할 수 있는 데이터 세트를 제공해 AI 엔지니어가 입력 데이터를 찾는 대신 솔루션 구축에 집중할 수 있도록 한다고 설명했다.

관측 가능성과 추적 가능성을 신뢰의 핵심으로 삼는다

성숙한 데이터 문화는 고품질 데이터뿐만 아니라 그 데이터가 어디서 왔고 어떻게 변형됐으며, 어떻게 사용됐는지를 완전히 파악할 수 있어야 한다. 관측 가능성과 추적 가능성은 신뢰의 근간으로, 결과를 설명하거나 수정할 수 있는 맥락과 컴플라이언스 준수를 위한 감사 추적을 제공한다.

던앤브래드스트리트(Dun & Bradstreet)는 자체 개발한 도구인 데이터쉴드(DataShield)와 데이터워치(DataWatch)를 통해 850억 건 이상의 데이터 품질 관측 포인트를 모니터링하고 있다. 데이터쉴드는 입력 단계에서 기준을 강제하며, 데이터워치는 전체 데이터를 장기적으로 감시해 로컬 팀이 문제를 식별하고 개선 계획을 수립하며 수정 효과를 측정할 수 있도록 돕는다. 이로써 데이터 품질이 지속적으로 유지되고 개선되도록 한다.

또 다른 자체 개발 도구인 챗DQ(ChatDQ)는 메타데이터를 자연어로 질의할 수 있으며, 모든 응답에는 출처가 함께 제공된다. 던앤브래드스트리트 글로벌 데이터 전략 수석 부사장 앤디 크리스프는 “추적할 수 없다면 신뢰할 수 없다”라고 강조했다. 크리스프는 추적 가능성이 경쟁력을 유지하는 핵심이라고 강조했다. 3만 개 이상의 출처에서 수집된 6억 건 이상의 기업 데이터를 다루는 만큼, “고객이 인사이트를 요구할 때 그 결과를 책임질 수 있어야 한다”라고 설명했다.

이 방식은 폐쇄형 피드백 루프를 통해 더욱 강화된다. 로컬 데이터 소유자는 관측 결과를 현지 팀에 전달해 개선을 유도하고, 고객 인사이트팀은 고객 반응을 수집해 품질 개선이 실제로 의미가 있는지를 검증한다.

DHL 서플라이체인 역시 모든 생성형 AI 프로젝트에 관측 가능성을 내재화하고 있다. 크레이더는 “데이터가 어디서 왔고 어떻게 변경됐으며, 누가 다뤘는지를 추적한다”라고 말했다. 대시보드에는 데이터 품질 점수뿐만 아니라 시간에 따른 추세도 표시되어, 품질을 측정할 수 있고 동기를 부여하는 요소로 작용한다고 설명했다.

데이터 거버넌스를 기반부터 내재화한다

데이터 거버넌스는 컴플라이언스 이슈이기도 하지만, 동시에 원칙과 예측력, 올바른 방식의 실천 의지를 보여주는 조직 문화의 가치이기도 하다. AI 환경에서 거버넌스란 접근, 보존, 분류, 품질에 대한 정책을 일관되고 자동으로 적용할 수 있도록 수립하는 것을 의미한다.

유엔 세계식량계획(WFP)의 최고 데이터 책임자 마간 나이두는 데이터 거버넌스를 이사회 차원의 의제로 끌어올렸다. 나이두는 “우리의 데이터 전략과 AI 전략은 총괄 국장의 승인 아래 수립됐고, 이렇게 최고 경영진의 일이 되면서 모든 것을 바꿨다”라고 말했다.

이런 최고위층의 지지는 80개국 이상에서 활동하는 WFP가 지역별 자율성과 전사적 표준 간 균형을 맞추는 데 필요한 권한을 부여했다. 나이두는 많은 현지 사무소가 이미 높은 수준을 충족하고 있다고 생각했지만, 외부 전문가를 초청해 글로벌 기준에 따라 업무 관행을 벤치마킹한 결과 치명적인 격차가 드러났고 변화의 긴급성이 부각됐다.

또 인도주의적 맥락에서는 각국 사무소 책임자가 운영 압박 속에 단기간 재직하는 경우가 많아 장기 과제를 우선순위로 두기 어려웠다. 이에 따라 WFP는 거버넌스를 조직 전체의 공통된 로드맵으로 정립함으로써 단기적 임무와 데이터 전환을 위한 지속적 노력을 조율할 수 있었다. 여기에 지속적인 커뮤니케이션과 리더십의 개입이 더해져 거버넌스에 대한 인식을 ‘관료주의’에서 ‘실행의 촉진자’로 바꾸는 데 성공했다.

IBM은 메타데이터 플랫폼과 보존 정책을 통해 거버넌스를 운영 단계에 내재화하고 있다. IBM 소프트웨어 수석 부사장 디네시 니르말은 “데이터 거버넌스는 사후에 얹을 수 있는 기능이 아니다”라며, 그는 “데이터가 수집부터 접근, 삭제까지 전 과정에서 거버넌스를 구현하지 못하면 AI에 적합하지 않다”라고 설명했다. IBM은 분류 및 보존 규칙을 자동화함으로써 컴플라이언스가 일상 운영의 일부가 되도록 하고 있다.

데이터 리터러시는 모두의 과제다

성숙한 데이터 문화에서는 역할에 상관없이 모든 구성원이 데이터 개념, 품질 기준, 분석적 사고에 대한 기본 소양을 갖추고 있어야 한다. 데이터 리터러시는 인사이트의 민주화를 실현하고 AI를 책임감 있게 활용할 수 있게 한다.

WFP는 나이두가 주도해 데이터 리터러시 교육을 필수 프로그램으로 지정하고, 여섯 개 언어로 맞춤화해 온보딩 과정에 포함시켰다. 인사팀과 총괄 국장의 강력한 지지 아래 이수율은 거의 100%에 도달했으며, 이후 진행된 웨비나와 참여 세션은 업계 평균을 웃도는 높은 순추천지수(NPS)를 기록했다. 고품질 공개 콘텐츠를 활용한 선택형 AI 리터러시 프로그램도 필수 교육과 유사한 참여율을 보여 구성원의 높은 관심과 몰입도를 입증했다.

나이두는 데이터 리터러시가 단순한 기술 교육이 아니라, 다국어가 공존하는 글로벌 조직 내에서 공통된 언어를 형성하는 것이라고 강조했다. 이를 위해 WFP는 각국 사무소의 업무 현실을 반영한 콘텐츠를 설계하고, 현장 운영, 물류, 수혜자 관리 등에서 나온 실제 사례를 포함시켰다. 웨비나에는 실제 인도주의 과제를 해결하는 데 새로 익힌 기술을 활용한 사례 연구가 자주 포함돼 좋은 데이터 프랙티스가 미치는 직접적 영향이 강조된다. 나이두는 “데이터 품질이 향상돼 식량 배급이 빨라지고, 지원 대상이 더 정확하게 선정된다는 점을 이해하면 구성원은 이 과제의 진정한 옹호자가 된다”라고 말했다.

던앤브래드스트리트의 앤디 크리스프는 기술적 인프라만으로는 충분하지 않다고 강조했다. 크리스프는 “세상에서 가장 훌륭한 데이터 파이프라인을 구축했더라도, 구성원이 그 활용법을 이해하지 못하면 결국 그냥 파이프에 불과하다”라고 지적했다. 이와 함께, 성숙도를 판단하는 기준으로 구성원이 ‘데이터 품질의 8가지 차원’을 주저 없이 말할 수 있는지를 제시했다.

정형 데이터와 비정형 데이터를 통합하는 것을 표준 프랙티스로 삼는다

AI가 진정한 가치를 발휘하려면 시스템에 저장된 정형 데이터뿐만 아니라 문서, 이메일, 이미지 같은 비정형 데이터까지 모두 아우르는 전체 그림을 제공해야 한다. 성숙한 데이터 문화는 이 두 세계를 통합하는 파이프라인과 도구를 개발하고, 거버넌스와 성능을 모두 확보한다.

IBM은 새로 생성되는 엔터프라이즈 데이터의 90%가 정형 형태라고 추정한다. IBM 소프트웨어 니르말은 “청구 관련 질문에 제대로 답하려면 구조화된 결제 이력 데이터와 비정형 이메일 데이터 모두가 필요하다”고 설명했다. 니르말의 팀은 SQL-RAG 기법을 활용해 정형 및 비정형 데이터를 통합하고, 이를 통해 고객 서비스 정확도를 최대 98%까지 끌어올렸다.

SQL-RAG는 전통적인 SQL 데이터베이스 질의 방식과 RAG(Retrieval-Augmented Generation)를 결합해 AI 모델에 보다 풍부하고 정확한 맥락을 제공하는 접근법이다. 관계형 데이터베이스에서 SQL로 정형 데이터를 불러오고, 동시에 다른 출처에서 비정형 정보도 함께 조회해 통합한다. 그 결과물은 정형 기록의 정밀함과 비정형 콘텐츠의 뉘앙스를 모두 담고 있어, 더 완전하고 신뢰도 높은 결과를 제공한다.

던앤브래드스트리트는 정형 데이터와 비정형 데이터를 통합하는 또 다른 접근법을 제시한다. 크리스프는 고객 인사이트가 종종 기업 통계 정보 데이터와 고객 피드백(지원 티켓, 설문 응답 등) 같은 비정형 데이터를 결합해 얻어진다고 설명했다. 던앤브래드스트리트는 자동화된 개체 인식 기술을 활용해 이런 비정형 인사이트를 글로벌 데이터베이스의 정형 레코드와 연결함으로써, 품질 문제를 정확히 짚어내고 신흥 트렌드를 밝혀내며, 개선 사항을 다시 데이터 제품에 반영한다. 이는 AI의 정확도를 향상시킬 뿐 아니라 데이터가 실제 고객 경험을 더 정확히 반영하도록 만든다.

DHL 서플라이체인 역시 정형 물류 데이터에 더해 화물 이미지, 운전 기사 메모, 센서 데이터 같은 비정형 정보를 통합하고 있다. 크레이더는 이런 다양한 입력 데이터를 연계하면 운영 예측과 위험 탐지 정확도를 높일 수 있으며, 그 결과로 지연을 사전에 방지하고 최적의 운송 경로를 계획할 수 있다고 설명했다. 이 통합된 시야는 고립된 데이터 세트를 풍부한 AI 친화적 정보 생태계로 전환한다.

AI 모델이 진화하고 기술이 바뀌더라도 변하지 않는 것이 하나 있다. 바로 데이터 문화가 성공을 좌우한다는 사실이다. 모델은 재학습할 수 있고, 아키텍처는 다시 구축할 수 있다. 그러나 올바른 사고방식이 없다면 AI 관련 노력은 제자리에 머물거나 실패로 이어질 수밖에 없다. 니르말은 “모델은 오고 가지만, 데이터 전략은 지속돼야 한다. 그리고 그 전략은 실험실이나 대시보드가 아니라 문화에서 시작된다”라고 강조했다.
dl-ciokorea@foundryco.com

Freelance writer, author

Pat Brans is an affiliated professor at Grenoble Ècole de Management and author of the book "Master the Moment: Fifty CEOs Teach You the Secrets of Time Management."

Brans is a recognized expert on technology and productivity, and has held senior positions with Computer Sciences Corporation, HP and Sybase. Most of his corporate experience focused on applying technology to enhance workforce effectiveness. Now he brings those same ideas to a larger audience by writing and teaching. His work has appeared on TechTarget, EE Times, CMSwire, and Forbes, among other publications.

Brans has a Master’s Degree in Computer Science from Johns Hopkins University and a Bachelor’s Degree in Computer Science from Loyola University, New Orleans.

이 저자의 추가 콘텐츠