KPMG, AI 환각 오류 문제로 AI 활용 보고서 전면 철회

KPMG는 2025년 10월 발표한 '에이전트 AI 시대의 우수성 재정의' 보고서를 전면 철회했다. 연구 firm GPTZero가 보고서 내 AI 생성 허위 내용이 다수 포함됐음을 지적했다. UBS, 영국 국립보건서비스(NHS), 스위스 연방철도, 런던교통국 등이 Financial Times에 보고서의 자사 AI 도입 관련 서술이 조작이거나 과도하게 과장됐다고 증언했다. 아이러니하게도 KPMG는 AI 관련 보고서를 작성하는 데 AI를 사용했을 가능성이 높다.

배경

2026년 6월 13일, 글로벌 4대 회계법인 중 하나인 KPMG는 2025년 10월 발표한 주요 산업 보고서인 '에이전트 AI 시대의 우수성 재정의'를 즉시 전면 철회한다고 발표했다. 이 결정은 단순한 데이터 수정이나 편집 업데이트가 아닌, 심각한 신뢰 위기에 따른 조치였다. AI 생성 콘텐츠 탐지 전문 연구 기업인 GPTZero가 보고서 심층 분석을 통해 다수의 '환각(Hallucinations)', 즉 대규모 언어 모델이 생성한 그럴듯해 보이지만 완전히 허구인 사실과 데이터가 포함되어 있음을 지적했기 때문이다. 이어 《파이낸셜 타임스》가 독립 조사를 시작하며 보고서에 사례 연구로 인용된 주요 기관들에 직접 연락했다. 대상에는 UBS, 영국 국립보건서비스(NHS), 스위스 연방철도, 런던교통국 등이 포함되었다.

이들 기관들의 반응은 일관되게 부정적이었다. 보고서에 기술된 AI 도입 전략, 규모, 파트너십 등에 대한 어떤 주장도 인정하지 않았으며, 오히려 해당 서술들이 완전히 조작되었거나 지나치게 과장되었다고 밝혔다. 일부 기관은 자신이 해당 연구에 포함되었는지 조차 알지 못한다고 답했다. 이러한 집단적인 부인은 보고서의 경험적 기반을 무너뜨렸고, KPMG는 품질 보증 프로세스에 심각한 결함이 있음을 인정하며 보고서 철회를 피할 수 없게 되었다. 특히 아이러니하게도, 비인간적인 문체 패턴과 사실 오류의 성격으로 볼 때, KPMG가 이 '에이전트 AI' 보고서 작성 자체에 생성형 AI를深度하게 활용했을 가능성이 높다는 지적이 제기되며 논란은 더욱 증폭되었다.

심층 분석

기술적 및 운영적 관점에서 이번 KPMG 보고서 철회 사건은 현재 기업급 AI 콘텐츠 생성 워크플로우의 치명적인 취약점을 드러냈다. 대형 컨설팅 기업들은 기술의 빠른 진화에 맞춰 통찰력 있는 콘텐츠와 시장 분석을 신속하게 생산해야 하는 막대한 압력을 받고 있다. 이러한 맥락에서 많은 팀들이 초안 작성 과정에 대규모 언어 모델을 통합하기 시작했으나, 이러한 모델의 기본 아키텍처는 확률적 예측에 기반한다. 즉, 신뢰할 수 있는 지식베이스에서 검증된 사실을 검색하는 것이 아니라 훈련 데이터 패턴을 기반으로 다음 토큰을 예측할 뿐이다. 구체적인 사례 연구나 산업 지표를 생성하라는 지시가 있을 때, 모델은 권위 있어 보이지만 사실적 근거가 없는 세부 사항을 합성하는 '창의적 채우기'를 수행하기 쉽다.

KPMG의 실패는 이러한 자동화된 생성에 대한 과도한 의존과 함께, 고객 명칭, 구체적인 도입 지표, 기술 스택 세부 사항과 같은 핵심 데이터 포인트에 대한 강력한 '인간-in-the-loop' 검증 메커니즘 부재에서 비롯된 것으로 보인다. 또한 이 사건은 '에이전트 AI' 개념에 대한 인식적, 운영적 격차를 부각시킨다. 에이전트 AI는 여러 단계에 걸쳐 복잡한 작업을 자율적으로 계획하고 실행할 수 있는 시스템을 의미한다. 보고서가 이 새로운 시대의 우수성을 정의하려는 목적을 가졌음에도 불구하고, 보고서 생산 과정 자체는 엄격한 안전장치 없이 이러한 자율성을 배포할 때의 위험성을 보여줬다. 콘텐츠 생산 파이프라인이 필요한 '생성-검증-게시' 워크플로우가 아닌 '생성-게시' 모델을 따랐을 가능성이 크다.

전문 서비스 분야에서 신뢰가 최우선 자산임을 고려할 때, AI를 공동 저자로 취급하면서도 그 출력을 철저한 사실 확인이 필요한 초안으로 취급하지 않는 것은 고위험 전략이다. 보고서에 존재하던 환각들은 사소한 오타가 아니라 기업 행동과 전략에 대한 중대한 조작이었으며, 이는 출판 전에 이러한 불일치를 잡아내야 했던 편집 검토 프로세스의 시스템적 붕괴를 나타낸다. 또한 현재 AI 탐지 및 검증 도구들의 한계를 부각시키는데, GPTZero와 같은 기업들은 사후에 AI 생성 가능성을 식별할 수 있지만, 초안 작성 단계에서 주장을 검증된 기업 발표 및 보도자료 데이터베이스와 교차 참조할 수 있는 실시간 콘텐츠 특화 검증 도구는 부재하다.

산업 영향

이번 사건의 여파는 KPMG를 넘어 델로이트, PwC, EY 등 더 넓은 전문 서비스 부문으로 파급되며 충격을 주고 있다. 이러한 기업들에게 이번 사건은 전략적 조언의 신뢰도가 출판된 연구의 정확성과 불가분하게 연결되어 있음을 보여주는 날카로운 경고다. 고객들은 고위급 의사 결정을 내리기 위해 이러한 보고서에 의존하는데, foundational 데이터가 의심스럽다면 그로부터 도출된 전략적 권장 사항도 신뢰할 수 없게 된다. 이로 인해 AI 생성 산업 인사이트 시장에 일시적인 위축이 발생할 수 있으며, 클라이언트들은 이러한 콘텐츠를 수용하기 전에 더 많은 투명성과 인간 검증 증거를 요구할 가능성이 크다.

UBS, NHS, 스위스 연방철도, 런던교통국 등 보고서에 허위로 인용된 기관들에게는 심각한 법적, 평판적 우려가 제기되었다. 이러한 기관들은 동의 없이 공론장에 끌려들어갔으며, 검증되지 않거나 과장된 기술 주장과의 연관성으로 인해 브랜드 평판이 손상될 위험에 처했다. 이는 AI 시대에 데이터 프라이버시, 초상권, 상업적 평판 보호와 관련된 새로운 논의를 촉발시켰다. 법률 전문가들은 출판된 보고서에 기업의 명칭과 alleged된 전략 방향이 무단으로 사용된 것이 명예훼손이나 정체성 오용에 해당하는지 분석하기 시작했다.

투자자와 일반 대중에게 KPMG의 철회는 디지털 시대의 정보 신뢰성에 대한 교훈적 사례로 작용한다. 이는 특히 신기술을 다루는 기업 보고서의 경우 정보 소비 시 더 엄격한 검증 메커니즘이 필요함을 강조한다. 또한 이 사건은 '검증 가능한 AI 콘텐츠'나 AI 생성 자료에 대한 제3자 사실 확인 서비스를 제공하는 기술과 서비스에 대한 관심을 높였다. 콘텐츠 생성 과정에서 사실적 정확성과 투명성을 보장할 수 있는 시장 참여자들은 경쟁 우위를 점할 가능성이 크다.

전망

앞으로 생성형 AI가 기업 워크플로우에 더 깊게 침투함에 따라, 업계 전반의 표준이 확립될 때까지 KPMG 보고서 철회와 유사한 사건들은 더 빈번하게 발생할 것으로 예상된다. 주요 컨설팅 기업과 미디어 플랫폼들은 곧 더 엄격한 AI 콘텐츠 라벨링 프로토콜을 도입할 것으로 예상된다. 이러한 프로토콜은 보고서의 어느 부분이 AI로 생성되었고, 어느 부분이 AI 보조를 받았으며, 어느 부분이 인간 전문가에 의해 독립적으로 검증되었는지를 명확히 표시해야 할 것이다. 이러한 투명성은 독자의 신뢰를 유지하고 추측성 분석과 사실적 보고를 구분하는 데 필수적이다.

또한 시장은 '사실 일관성' 검사를 위해 특별히 설계된 전문 AI 검증 도구의 출현을 목격할 수 있다. 이러한 도구들은 출판 전 또는 출판 후 체크포인트로서 역할을 하며, 생성된 텍스트의 주장을 검증된 데이터베이스와 자동으로 교차 참조하여 잠재적인 환각이 공개되기 전에 플래그를 지정할 것이다. 규제 기관들도 이번 사건에 주목할 가능성이 크다. 금융 및 전문 서비스 부문은 엄격하게 규제되며, 부정확한 정보의 출판은 중대한 법적 결과를 초래할 수 있다.

우리는 규제 기관들이 이러한 분야에서 AI 생성 콘텐츠에 대해 더 엄격한 준수 기준을 도입하고, 기업들이 콘텐츠 생산 프로세스의 감사 추적을 유지하며 강력한 인간 감독을 입증하도록 요구할 것으로 예상한다. KPMG에게 이 위기는 콘텐츠 거버넌스 프레임워크를 재건할 기회를 제공한다. 회복의 핵심은 '인간-in-the-loop' 검증에 대한 명확한 약속을 입증하는 데 있으며, AI가 효율성과 아이디어 발상을 위해 사용되되 인간이 사실적 정확성과 윤리 준수에 대한 최종 책임을 지도록 보장하는 것이다. 업계는 이 아이러니한 실패로부터 교훈을 얻어 AI의 속도와 인간의 전문성 엄격함이 균형을 이루는 지속 가능한 모델을 확립해야 한다.

Sources