AI는 아이디어를 제시하는 데는 유용하지만, 소비재(Consumer Packaged Goods, CPG) 산업에서는 실제 실험을 통해서만 효과가 확인되며, 이 검증 과정이 경쟁력을 결정한다.

우리는 지금 생성형 AI가 복잡한 법률 계약서를 몇 분 만에 작성하고, 그럴듯한 마케팅 캠페인을 몇 초 만에 설계하며, 수십 개 언어를 필요할 때마다 번역할 수 있는 시대에 살고 있다. 초기 머신러닝 모델에서 오늘날의 대규모언어모델(LLM)인 GPT-4, 클로드, 제미나이 등으로 이어진 발전은 그야말로 눈부시다.
따라서 많은 경영진이 이런 의문을 제기하는 것은 당연하다. AI가 그럴듯한 연구 논문을 작성하고 기술적 대화를 시뮬레이션할 수 있다면, 왜 과학적 실험은 수행하지 못하는가? 일부에서는 과학자도 여행사 직원이나 영화 필름 기사처럼 머지않아 ‘사라질 직업’이 될 수 있다는 속삭임까지 돌고 있다.
그러나 20년 넘게 AI 혁신, 과학 연구개발, 그리고 엔터프라이즈 규모의 제품 개발 현장에서 활동해 온 입장에서 말하자면, 이러한 내러티브는 위험할 뿐 아니라 전략적으로도 잘못된 방향으로 이끈다.
맞다. LLM은 변혁적인 기술이다. 하지만 과학적 실험 과정을 대체할 수는 없다. 이 경계를 잘못 이해한다면 혁신 전략 자체가 무너질 수 있으며, 특히 CPG 산업처럼 실제 제품의 성공이 엄격하고 재현 가능한 실험 검증에 달려 있는 분야에서는 더욱 그렇다.
CPG 리더에게 중요한 이유
CPG 산업, 특히 식품·음료·개인용품 분야에서 경쟁 우위는 점점 더 빠른 혁신 주기, 새로운 제형 개발, 지속 가능한 제품 설계에서 나온다.
LLM에 크게 의존하고 싶은 유혹은 충분히 이해할 만하다. 인사이트를 빠르게 얻는 것이 곧 경쟁력이기 때문이다.
하지만 문제는 분명하다. 제형 개발은 과학이고, 과학은 언어 게임이 아니다.
LLM은 ‘완벽한 비유제품 아이스크림 베이스’를 묘사할 수는 있다. 하지만 그것이 9개월 유통기한 동안 질감을 유지하는지, 운송 과정에서 안정성을 확보하는지, 30개 시장의 규제 요건을 충족하는지는 입증할 수 없다.
그 입증은 오직 실험을 통해서만 가능하다.
LLM이 과학을 수행할 수 없는 5가지 근본적 이유
1. LLM은 인과관계에 기반하지 않는다
과학의 본질은 원인과 결과다. 연구자는 성분 농도, pH, 온도와 같은 입력 변수를 조정하고 결과가 어떻게 달라지는지 관찰한다. 이후 가설을 다듬고, 관계를 모델링하며, 다시 실험한다.
LLM은 물리적 세계의 인과 구조에 접근할 수 없다. LLM은 현실과 상호작용하는 대신 텍스트 속 통계적 패턴을 학습할 뿐이다. 새로운 유화제의 점도를 예측해 달라고 요청하면, 그럴듯한 답을 내놓을 수는 있다. 하지만 그것은 학습 데이터 속 패턴을 흉내 낸 결과일 뿐, 실제 분자 동역학에 대한 이해가 전혀 없다.
대표 사례가 있다. 최근 한 대규모 연구에서 연구자가 LLM이 생성한 수천 개의 연구 아이디어와 사람이 만든 아이디어를 비교 평가했다. 문서상으로는 AI가 만든 아이디어가 참신성과 흥미도에서 더 높은 점수를 받았다. 그러나 실제 실험에 적용했을 때는 성과가 훨씬 떨어졌다. “그럴듯하다”와 “실제로 작동한다” 사이에는 여전히 큰 간극이 존재한다.
CPG 연구개발에서 이런 근거 없는 예측을 신뢰하는 것은 단순한 기술적 결함을 넘어, 브랜드와 안전에 직접적인 위험을 초래한다.
2. LLM은 물리적 세계와 상호작용할 수 없다
과학은 접촉의 영역이다. 화학 물질을 섞고, 시제품을 굽고, 기계를 돌리며 결과를 관찰한다. 센서가 물성을 측정하고, 장비가 조건을 기록하며, 분석가가 결과를 검증한다.
LLM은 크로마토그래피 분석을 할 수 없다. 유통기한 안정성을 측정할 수도 없다. 제품을 맛보거나 미생물 성장을 감지하거나, 새 제형이 충전 라인에서 실패하는 장면을 목격할 수도 없다.
대신 LLM은 과거 다른 이가 측정한 것을 언어로 재현하는 ‘간접 지식’을 생산할 뿐이다. 영감과 기획 단계에서는 유용할 수 있으나, 경험적 피드백과 직접 연결되지 않는 한 과학적 검증 능력은 없다.
대표 사례로, 생명이 걸린 의료 분야에서는 상황이 더욱 엄격하다. 네이처 메디신(Nature Medicine)에 실린 분석에 따르면, LLM이 임상 의사결정에 안전하지 않다고 결론 내렸다. 지침을 자주 오해하고 입력 형식이 조금만 달라져도 민감하게 흔들리기 때문이다. 의학은 CPG 과학처럼 물리적 데이터에 기반해야 한다. 그렇지 않으면 모델은 단지 추측을 제공할 뿐이며, 추측만으로는 충분하지 않다.
3. LLM은 새로운 현상에 취약하다
과학에서 가장 가치 있는 발견은 알려진 영역의 경계에서 이루어진다. 이곳은 데이터가 희소하거나 전혀 존재하지 않는 곳이다.
CRISPR 유전자 편집 기술이 등장했을 때, 이는 기존 문헌 속에 떠다니던 아이디어가 아니었다. 과학자들이 실험실에서 박테리아 면역 체계를 조작하며 이끌어낸 실험적 돌파구였다.
LLM은 본질적으로 보간(interpolation) 엔진이다. 이미 존재하는 패턴을 재조합할 수는 있지만, 누구도 기록하지 않은 현상을 마주하면 근본적 진실을 만들어내지 못한다. 최선의 경우, 유사성을 근거로 대답을 지어내지만 그것은 설득력 있어 보일 뿐 경험적 근거가 없다.
대표 사례로, 역사처럼 문헌이 풍부한 분야에서도 LLM은 쉽게 한계를 드러낸다. 역사 데이터베이스인 세샤트 글로벌 역사 데이터뱅크(Seshat Global History Databank)를 기반으로 한 Hist-LLM 벤치마크에서 GPT-4 터보는 고급 역사 추론 과제에서 정확도 46%에 그쳤다. 사실상 찍기 수준이었고, 오류도 많았다. 알려진 역사적 사실조차 제대로 다루지 못하는 모델이 미지의 과학적 최전선을 다룰 수 있을까?
CPG에서 이는 곧 시장을 선도하는 혁신은 종종 문헌에 없는 새로운 제형에서 나온다는 뜻이다. 최초로 시장에 내놓는다면 LLM이 학습할 데이터셋 자체가 존재하지 않는다.
4. LLM은 재현성 테스트를 통과하지 못한다
과학에서 재현성은 금과옥조다. 동일한 결과가 반복되지 않는다면, 그 발견은 인정되지 않는다.
하지만 LLM의 출력은 같은 질문을 입력하더라도 실행할 때마다 달라질 수 있다. 때로는 출처도 없는 구체적이고 자신감 넘치는 주장을 ‘환각’처럼 만들어내기도 한다. 게다가 답변의 ‘출처’는 수십억 개의 학습 파라미터가 섞여 만들어낸 불투명한 결과물이다. 실험 노트, 메타데이터 기록, 조건 로그 같은 것은 존재하지 않는다.
대표 사례로, GSM-IC 벤치마크에서 단순한 초등학교 수준 수학 문제에 불필요한 정보를 추가했을 때 정확도가 급락했다. 입력 맥락의 작은 변화만으로 성능이 흔들린 것이다. 이는 재현성 원칙을 정면으로 위반한다.
규제가 엄격한 산업에서는 가설에서 최종 결과까지 추적 가능한 과정이 필요하다. 현재의 LLM은 이를 제공할 수 없다.
5. LLM은 상관관계를 인과관계로 혼동한다
LLM은 상관관계를 찾는 데는 뛰어나지만, 과학에서 인과 없는 상관은 함정이다. 여름에 아이스크림 판매와 상어 공격이 동시에 늘어난다고 해서 두 현상 간에 인과관계가 있는 것은 아니다.
CPG 혁신에서는 이 위험이 특히 크다. 예를 들어 LLM은 특정 유화제가 장기 보관이 가능한 식물성 유제품에서 자주 사용된다고 ‘발견’할 수 있다. 그러나 그것이 곧 해당 유화제를 추가하면 제품의 유통기한이 늘어난다는 의미는 아니다.
대표 사례로, 약 5,000개의 LLM 생성 과학 요약문을 원문 논문과 비교한 벤치마크에서 모델에 따라 26%~73%의 비율로 과잉 일반화가 발생했다. 임시적 상관관계를 확정적 주장으로 둔갑시키는 경우가 많았다. 이는 과학자가 철저히 피하도록 훈련받는 바로 그 오류다.
인과성을 밝혀내는 유일한 방법은 설계된 실험뿐이다.
CPG 연구개발을 위한 책임 있는 AI 활용 청사진
균형을 이루기 위해 CPG 리더가 따라야 할 체계적 프레임워크를 제안한다.
1. 아이디어 도출과 검증을 분리하라
- LLM을 아이디어, 가설, 설계 옵션을 만드는 데 활용한다.
- 실험적 주장은 반드시 실험실 검증을 거친 후 사용한다.
2. AI 출처 규칙을 마련하라
- 프롬프트와 사용 버전을 포함해 모든 AI 보조 작업을 기록한다.
- 제안에서 검증까지 명확한 추적 체계를 구축한다.
3. 연구개발 팀의 AI 활용 역량을 강화하라
- 과학자와 엔지니어에게 LLM의 강점과 한계를 모두 교육한다.
- 언어적 그럴듯함과 물리적 진실을 구분할 수 있도록 한다.
4. 디지털 R&D 플랫폼과 통합하라
- LLM 도구를 실험실 데이터 관리 시스템에 연결해 추적 가능성을 확보한다.
- 실험 기록과 단절된 독립형 ‘챗봇’ 사용은 피한다.
5. 영향을 책임 있게 측정하라
- LLM이 연구개발 속도, 비용, 품질에 어떤 영향을 주는지 추적한다. 단순 산출량에만 집중하지 않는다.
왜 경영진의 논의가 필요한가
LLM이 과학을 수행할 수 있는가라는 질문은 단순한 기술적 문제가 아니라 전략적 문제다.
앞으로 10년간 CPG 산업을 지배할 기업은 AI의 속도와 과학적 정직성을 결합한 곳이 될 것이다. 이를 위해서는 최고경영진의 리더십이 필수적이다. 경영진의 역할은 안전하고 효과적인 혁신을 가능하게 하는 가드레일을 설정하고, 올바른 인프라에 투자하며, 팀이 역량을 발휘하도록 지원하는 것이다.
결론
LLM은 탁월하다. 하지만 실험 과학자는 아니다. 이를 과학자처럼 다루는 것은 브랜드, 제품 파이프라인, 소비자 신뢰를 모두 위험에 빠뜨린다.
CPG 혁신의 미래는 AI가 뒷받침하는 인간의 실험에 달려 있다. LLM은 인간의 통찰을 확장할 수 있지만, 과학이 요구하는 실제 실험과 검증을 절대 대체할 수는 없다.
차세대 연구개발 전략을 수립한다면, 꼭 기억해야 한다. LLM은 과학을 대체하는 것이 아니라 가속화하는 도구다. 이 차이가 앞으로 10년간 경쟁 위치를 결정지을 수 있다.
dl-ciokorea@foundryco.com