OpenAI, AI 테스트 스타트업 Promptfoo 인수로 안전성 평가 내재화
2025년 3월, OpenAI는 AI 안전성 테스트 스타트업 Promptfoo 인수를 완료했다고 발표했다. Promptfoo는 LLM 평가 및 레드팀 테스트에 특화된 기업으로, 7만 명 이상의 개발자와 수백 개 기업이 AI 모델의 환각, 탈옥, 프롬프트 인젝션 등의 위험을 감지하는 데 활용하고 있다. 이번 인수는 OpenAI가 핵심 안전 평가 능력을 외부 의존에서 내재화로 전환하는 전략적 결정을 의미한다. 규제 압력이 높아지는 가운데 OpenAI는 Promptfoo를 Safety 팀에 통합함으로써 GPT-5 등 주력 모델에 대한 체계적이고 자동화된 안전 테스트 파이프라인 구축 의지를 드러냈다. 공동창업자 Ian Webster와 Brian Holt는 Facebook과 Google 출신의 보안 엔지니어로 업계에서 높은 평가를 받고 있다. 향후 AI 안전 평가 시장에서 내재화 트렌드가 가속화되면서 독립 AI 안전 평가 시장은 재편이 진행될 전망이다.
배경
2025년 3월 25일, 오픈에이아이(OpenAI)는 AI 안전성 테스트 스타트업 프롬프트푸(Promptfoo)의 인수 완료를 공식적으로 발표했다. 공개된 거래 금액은 없으나, 업계 관계자들은 이 거래가 수천만 달러 규모일 것으로 추정하고 있다. 프롬프트푸는 2023년 메타(Meta)와 구글(Google) 출신의 베테랑 엔지니어인 Ian Webster와 Brian Holt에 의해 설립되었으며, 대규모 언어 모델(LLM)의 안전성과 신뢰성을 체계적으로 평가하는 데 필요한 장기적인 과제를 해결하기 위해 탄생했다. 인수 당시 프롬프트푸의 핵심 제품은 오픈소스 LLM 테스트 프레임워크로, 개발자가 설정 파일을 통해 테스트 케이스를 정의하고 서로 다른 모델이나 버전 간의 출력을 자동으로 비교하며, 탈옥(jailbreak), 프롬프트 인젝션(prompt injection), 환각(hallucination) 등 보안 위험을 감지할 수 있도록 설계되었다. 이 도구는 7만 명 이상의 활성 사용자를 확보했으며, 깃허브(GitHub) 스타 수는 5,000개를 넘어섰고, 세일즈포스(Salesforce), 월마트(Walmart), 로빈후드(Robinhood) 등 주요 기업들이 AI 안전성 테스트의 표준 도구로 채택했다.
이번 인수는 오픈에이아이가 단순한 도구 사용자에서 도구 소유자로의 전략적 전환을 의미한다. 2025년 초, 유럽연합(EU)의 AI법이 의무 조항을 시행하기 시작했고, 미국 연방거래위원회(FTC)도 AI 시스템 보안 취약점에 대한 조사를 강화했다. 이러한 규제 압력 속에서 외부 안전성 평가에 의존하는 것은 더 이상 지속 가능한 옵션이 아니게 되었다. 만약 주요 보안 사고가 발생할 경우, "제3자 도구를 사용했다"는 것은 법적 책임을 면피할 방패가 될 수 없기 때문이다. 안전 테스트 능력을 완전히 내부화함으로써 오픈에이아이는 전체 테스트 프로세스에 대한 완전한 감사 추적(audit trail)을 확보할 수 있게 되었고, 이는 규제 준수를 위한 더 강력한 증거 기반을 제공한다.
또한 이번 인수는 GPT-5 출시를 앞둔 전략적 배치의 일환이다. 업계 소식에 따르면 GPT-5는 2025년 중순에 출시될 예정이며, GPT-4o에 비해 질적 도약을 이루게 된다. 더 강력한 모델일수록 잠재적인 보안 위험은 기하급수적으로 증가한다. GPT-5 출시 전에 프롬프트푸를 통합함으로써, 오픈에이아이는 성숙한 평가 프레임워크를 모델 훈련 및 배포의 전 생애주기에 매끄럽게 임베딩할 수 있게 되었다. 이는 RLHF(인간 피드백을 통한 강화 학습) 미세 조정부터 최종 프로덕션 배포에 이르기까지 엔드투엔드(end-to-end) 안전 검증을 가능하게 하는 결정적인 조치이다.
심층 분석
프롬프트푸의 기술 아키텍처가 단 2년 만에 거대한 사용자 기반을 형성할 수 있었던 이유는 높은 실용성에 있다. 첫째, 선언적 테스트 구성(Declarative Test Configuration)을 통해 개발자는 YAML 형식의 설정 파일만 작성하면 수백 가지의 테스트 시나리오를 정의할 수 있다. 이는 테스트 케이스 작성의 진입 장벽을 크게 낮추며, 깊은 프로그래밍 전문 지식이 없어도 포괄적인 테스트 스위트(test suite)를 생성할 수 있게 한다. 둘째, 다중 모델 병렬 평가(Multi-Model Parallel Evaluation) 기능을 지원한다. 프롬프트푸는 오픈에이아이, 앤트로픽(Anthropic), 구글, 메타 등 여러 벤더의 API에 동시에 연결하여 동일한 테스트 세트에서 서로 다른 모델을 가로로 비교할 수 있게 한다. 이는 가장 적합한 모델을 선택해야 하는 기업 사용자에게 매우 가치 있는 기능이다.
셋째, 자동화된 레드팀 테스트(Automated Red-Teaming)가 내장되어 있다. 기능적 테스트 외에도 LLM을 대상으로 한 공격적 테스트 모듈을 포함하고 있어, 다양한 탈옥 기법, 프롬프트 인젝션 변형, 적대적 입력을 자동으로 시도하여 개발자가 배포 전에 잠재적 취약점을 발견할 수 있도록 돕는다. 넷째, CI/CD 통합 친화성이다. 프롬프트푸는 깃허브 액션(GitHub Actions)이나 깃랩 CI(GitLab CI)와 같은 주요 지속적 통합 플랫폼에 매끄럽게 통합될 수 있어, 보안 테스트가 일회성 수동 검토가 아닌 모든 코드 커밋의 표준 체크포인트가 된다. 마지막으로 포괄적인 보고 및 지표(Comprehensive Reporting and Metrics)를 제공하여, 안전성 차원에서의 모델 성능에 대한 정량적 지표가 포함된 상세 보고서를 생성한다.
인재 전략 측면에서도 이번 인수는 깊은 의미를 지닌다. Ian Webster와 Brian Holt는 도구뿐만 아니라 AI 안전성 테스트 분야에서 수년간의 실무 경험을 축적한 핵심 팀을 오픈에이아이에 가져왔다. 현재 AI 인재가 극도로 부족한 시장 환경에서, M&A를 통해 고품질 전문 팀을 빠르게 확보하는 것은 기술 거대 기업들이 흔히 사용하는 '아퀴-하이어(acqui-hire)' 전략이다. 프롬프트푸 팀은 오픈에이아이의 Safety & Policy 팀에 합류하여 차세대 모델의 안전성 평가에 직접 참여하게 된다. 이는 오픈에이아이가 자체적인 안전성 평가 인프라를 강화하고, 규제 준수 및 모델 신뢰성 확보를 위한 핵심 역량을 내부화하려는 의지를 보여준다.
산업 영향
이번并购은 AI 안전성 평가 분야에서 독립적인 도구 시장의 분수령이 될 것으로 예상된다. 선도적인 AI 기업들이 평가 능력을 내부화하는 추세는 이미 명확히 자리 잡고 있다. 마이크로소프트는 Azure AI Studio에 평가 기능을 내장했고, 구글은 Vertex AI Evaluation Service를 통해 유사한 서비스를 제공한다. 그러나 독립적인 AI 안전성 평가 도구에 대한 강력한 수요는 여전히 존재한다. 먼저, 다른 모델 제공자를 사용하는 개발자들은 중립적인 제3자 평가 도구가 여전히 필요하다. 둘째, 규제 당국은 AI 기업의 자체 인증보다는 독립적인 제3자의 평가 보고서를 선호하는 경향이 있다. 셋째, 앤트로픽이나 구글과 같은 경쟁사들은 자신의 모델을 평가하는 데 오픈에이아이 소유의 도구를 사용하지 않을 것이다.
따라서 기스카드(Giskard), 랭스미스(LangSmith, LangChain 소속), 트루렌스(TruLens) 등 프롬프트푸의 경쟁사들이 직면하는 압박은 제한적일 수 있다. 오픈에이아이가 독립 시장에서 사실상 철수함으로써, 이들의 생존 공간은 오히려 확대될 가능성이 있다. 이는 AI 안전성 평가 시장이 단순한 도구 판매에서 '내부 인프라 구축'과 '중립적 제3자 서비스'로 양극화되는 과정을 보여준다. 오픈에이아이는 내부용으로는 강력한 통합 도구를 사용하고, 외부 시장에서는 중립성을 확보한 다른 솔루션들의 성장을 방치하거나 오히려 촉진하는 구조가 될 수 있다.
2024년부터 2025년 초까지 AI 안전성 분야의 M&A 활동이 가속화되고 있는 점도 주목할 만하다. 스케일 AI(Scale AI)는 여러 데이터 주석 보안 도구 팀을 인수했고, 코헤어(Cohere)는 기업용 AI 거버넌스 스타트업을 인수했으며, 데이터브릭스(Databricks)는 모자이크 ML(MosaicML)을 통해 모델 평가 능력을 통합했다. 이 추세 뒤의 논리는 일관되게 유지된다. AI 안전성은 아웃소싱 가능한 '선택적 기능'이 아니라 경쟁 우위의 핵심 구성 요소가 되었다. 가장 신뢰할 수 있는 안전성 평가 시스템을 장악한 기업은 규제가 강화되는 시장에서 더 유리한 준수 위치를 점하게 되며, 이는 기업 고객 입찰 결정에서 우위로 이어진다.
전망
통합이 완료되면 오픈에이아이의 Safety 팀은 내부 평가 도구부터 외부 서비스까지 완전한 사슬을 갖추게 된다. 업계 관찰자들은 오픈에이아이가 일부 프롬프트푸 오픈소스 버전을 유지하면서도 기업용 기능을 상용 API 서비스 체계에 통합하여 '안전성 평가 서비스(Safety-Evaluation-as-a-Service)'라는 새로운 비즈니스 모델을 형성할 것으로 예상한다. 이는 내부에서 검증된 안전성 인프라를 외부에 판매함으로써 새로운 수익원을 창출하면서도, 규제 준수에 대한 자신감을 외부에 과시하는 전략이 될 수 있다.
개발자 커뮤니티에서 가장 궁금해하는 질문은 프롬프트푸의 오픈소스 버전이 계속 유지될 것인가 하는 점이다. 오픈에이아이는 아직 명확한 답변을 내놓지 않았으나, 개발자 생태계에 대한 일관된 강조와 업계 표준 확립을 위한 오픈소스 도구의 전략적 가치를 고려할 때, 오픈소스 버전을 유지하고 지속적으로 투자할 가능성이 높다. 역사적으로 유사한 인수 사례를 보면, 대형 기술 기업들은 인수 후 최소 2~3년 동안 획득한 오픈소스 프로젝트를 계속 유지하는 경향이 있다. 이는 개발자 커뮤니티에서의 브랜드 평판을 손상시키지 않기 위한 조치이다. 더 가능성 있는 시나리오는 오픈에이아이가 오픈소스 버전을 계속 유지하면서, 고급 기능을 통합한 프리미엄 엔터프라이즈 티어를 만들어 상용 API 서비스에 포함시키는 것이다.
이번 인수는 AI 산업이 '무질서한 성장'에서 '책임감 있는 배포'라는 새로운 단계로 넘어가는 과정의 축소판이다. 안전과 상업적 이익이 점차 균형을 찾아가는 중요한 신호이기도 하다. 더 넓은 생태계 관점에서 볼 때, 이는 AI 안전성 평가가 사후 고려사항이 아닌 인프라로 자리 잡고 있음을 나타낸다. 정부와 기업이 전 세계적으로 AI 기술에 대한 투자를 계속 증가함에 따라, 동반되는 법적 및 규제 프레임워크도 빠르게 진화하고 있다. 규제 당국은 혁신 촉진과 사용자 보호 사이의 균형을 맞추는 지속적인 과제를 안고 있으며, 이러한 변화는 전통 산업과 AI 기술의 융합을 통해 새로운 비즈니스 모델과 가치 사슬을 창출하고 있다. 오픈에이아이의 이번 조치는 이러한 거시적 흐름 속에서 안전성을 경쟁력의 핵심 축으로 정의한 선례가 될 것이다.