TxBench-PP 벤치마크의 주요 목적은 무엇인가요?

TxBench-PP는 소분자 임상 전 약리학을 위한 검증 가능한 벤치마크로, 100개 과제로 구성됩니다. 이는 AI가 암기된 지식 대신 실제 실험 데이터에서 결론을 도출하는 능력을 평가하며, 작용 기전, 약력학 및 안전성 등 현실적인 신약 발견 시나리오에서의 의사결정 능력을 측정합니다.

최신 AI 모델들은 이 테스트에서 어떤 성과를 거두었나요?

어떤 시스템도 임상 전 약리학 결정을 신뢰성 있게 수행하지 못했습니다. 최고 성능인 Claude Opus 4.8/Pi는 59.3%의 통과율을 기록했고, GPT-5.5/Pi는 55.3%였습니다. 이는 현재 AI가 복잡한 과학적 추론과 실제 데이터 해석 분야에서 여전히 상당한 격차를 보이고 있음을 의미합니다.

이 결과가 제약 산업에 미치는 영향은 무엇인가요?

AI가 아직 인간 전문가의 엄격한 판단을 대체할 수 없다는 점이 드러났습니다. 업계는 '생성형'에서 '검증형' 평가로 전환해야 합니다. 기업은 AI를 보조 도구로 취급하고, 핵심 결정 단계에서 인간 검토와 다중 검증 메커니즘을 유지하여 개발 리스크를 관리해야 합니다.

TxBench-PP: 임상 전 약리학 결정에서 AI 에이전트의 실제 능력 평가

본 논문은 소분자 임상 전 약리학을 위한 검증 가능한 벤치마크 TxBench-PP를 소개합니다. 이 벤치마크는 현실적인 신약 발견 시나리오에서 AI 에이전트의 의사결정 능력을 평가하기 위해 설계되었습니다. 100개의 평가 과제로 구성되어 있으며, 작용 기전, 약력학, 화합물-표적 결합, 안전성 등 핵심 분야를 아우릅니다. AI가 암기된 지식 대신 실제 실험 데이터에서 결론을 도출하도록 요구합니다. 11개 모델 4,800개 추론 궤적에 대한 테스트 결과, 어떤 시스템도 임상 전 약리학 결정을 reliably 수행하지 못했습니다. 최고 성능인 Claude Opus 4.8 / Pi는 59.3%의 엔드포인트만 통과했고, GPT-5.5 / Pi는 55.3%였습니다. 이는 현재 AI의 복잡한 과학적 추론 능력에 상당한 격차가 있음을 보여줍니다.

배경

인공지능이 신약 발견 분야에서 빠르게 확산되면서, AI 에이전트가 가설 생성과 실험 검증의 반복적인 주기를 압축하여 신약 개발 프로세스를 가속화할 것이라는 기대가 높아졌습니다. 그러나 이러한 기술을 실제 연구 워크플로우에 본격적으로 도입하기 위해서는, 현실적인 실험실 의사결정의 복잡성을 반영하는 엄격하고 검증 가능한 평가 체계가 반드시 필요합니다. 이에 연구진은 TherapeuticsBench 계획의 첫 번째 구성 요소로서, 소분자 임상 전 약리학에 특화된 검증 가능한 벤치마크인 TxBench-PP(TherapeuticsBench Preclinical Pharmacology)를 공식적으로 출시했습니다. 기존 벤치마크들이 정적 지식 검색이나 객관식 질문에 의존했던 것과 달리, TxBench-PP는 모델이 암기된 지식이 아닌 실제 실험 데이터에서 결론을 도출하도록 요구함으로써, 인간 약리학자가 겪는 실제 인지 부하를 시뮬레이션합니다. 이는 AI의 '환각' 현상을 줄이고 과학적 추론의 신뢰성을 높이기 위한 필수적인 단계로 평가됩니다.

TxBench-PP의 핵심 과제는 AI가 단순한 정보 검색을 넘어, 실제 실험 기록, 통계 결과, 그래프 데이터 등 '작업 스냅샷'을 능동적으로 분석하여 정확한 결론을 이끌어내는 능력을 테스트하는 데 있습니다. 이 벤치마크는 작용 기전(MoA), 약력학(PD), 화합물-표적 결합 친화도, 인과적 표적 검증, 그리고 안전성 평가 등 임상 전 약리학의 핵심 영역을 아우르는 100개의 독립적인 평가 과제로 구성되어 있습니다. 각 과제는 프로젝트 단계와 실험 유형에 따라 세밀하게 인덱싱되어 있으며, AI 에이전트가 프로그래밍 또는 논리적 추론 도구를 사용하여 다변량 실험 데이터를 처리하고 구조화된 답을 반환해야 합니다. 이러한 설계는 AI가 언어 이해 능력을 넘어, 데이터 처리 기술과 도메인 특화된 약리학적 지식을 통합적으로 갖추어야 함을 강조합니다.

심층 분석

11개 주요 대형 언어 모델(LLM)과 4,800개의 추론 궤적을 대상으로 한 실험 결과는 현재 AI의 과학적 추론 능력이 임상 전 약리학 결정에 필요한 엄격한 기준에 미치지 못함을 명확히 보여줍니다. 테스트 결과, 어느 시스템도 임상 전 약리학 결정을 신뢰할 수 있게 수행하지 못했으며, 이는 현재 기술이 복잡하고 다중 모달인 과학적 데이터를 처리하는 데 상당한 한계가 있음을 시사합니다. 최고 성능을 기록한 Claude Opus 4.8에 Pi 전략을 결합한 구성은 300번의 시도 중 178번의 성공으로 59.3%의 엔드포인트 통과율을 기록했습니다(95% 신뢰 구간 51.1-67.6%). 이는 자율적인 의사결정 시스템이 요구되는 과학적 워크플로우에서 허용 가능한 오차율보다 훨씬 높은 수치로, 환자 안전과 연구 무결성을 보장하기에는 턱없이 부족합니다.

두 번째로 우수한 성능을 보인 GPT-5.5에 Pi 전략을 결합한 구성은 55.3%(166/300, 95% 신뢰 구간 47.0-63.6%)의 통과율을 기록했습니다. 이 수치는 가장 진보된 상용 모델조차도 실제 실험 데이터의 미묘한 뉘앙스를 해석하는 데 어려움을 겪고 있음을 드러냅니다. 아블레이션 연구(성분 제거 실험)를 통해 밝혀진 바에 따르면, 단순히 모델의 파라미터 수를 늘리거나 프롬프트 엔지니어링을 최적화하는 것만으로는 성능이 크게 향상되지 않았습니다. 오히려 핵심 변수는 모델이 실험 데이터의 맥락을 깊이 이해하고, 논리적으로 타당한 추론 사슬을 구축하는 능력에 있었습니다. 많은 모델이 약리학 개념을 설명하는 어휘력은 부족하지 않았으나, 흩어진 증거들을 논리적으로 연결하여 일관된 결론을 도출하는 데 실패했습니다.

또한, 연구는 현재 AI 시스템이 언어적 유창성을 논리적 타당성보다 우선시하는 경향이 있음을 지적합니다. 이는 과학적 응용 분야에서 정밀성이 가장 중요할 때 특히 위험한 특성입니다. Pi 전략과 같은 추론 향상 기법이 성능에 측정 가능한 향상을 가져왔으나, 모델들은 여전히 인과 추론과 다중 모달 데이터 통합(예: 그래프 데이터와 통계 표의 결합)에서 오류를 범했습니다. 이는 AI가 훈련 데이터에 없는 새로움이나 복잡한 데이터 구조를 마주했을 때 인과 관계를 환각하거나 통계적 유의성을 오해할 수 있음을 보여주며, 단순한 텍스트 기반 추론을 넘어 실험 증거를 통합적으로 이해할 수 있는 더 정교한 아키텍처의 필요성을 강조합니다.

산업 영향

TxBench-PP의 등장은 오픈소스 연구 커뮤니티와 제약 산업 모두에 지대한 영향을 미칠 것입니다. 오픈소스 커뮤니티에게 이 벤치마크는 특수한 과학적 도메인에서 AI 에이전트를 평가하기 위한 표준화된 재현 가능한 프레임워크를 제공합니다. 이는 연구자들 사이에 투명하고 공정한 경쟁을 촉진하며, 동일한 난이도의 과제에서 모델 성능을 직접 비교할 수 있게 합니다. TxBench-PP는 정확성과 신뢰성을 표면적인 유창성보다 우선시하는 알고리즘 개발을 장려하며, 인과 추론과 데이터 해석 영역의 격차를 해소하기 위한 미래 연구 방향을 제시합니다. 특히 '블랙박스' 평가에서 '화이트박스' 분석으로의 전환은 AI가 어디서, 어떻게 실패하는지에 대한 세밀한 통찰을 제공하여 모델 개선에 직접적으로 기여할 수 있습니다.

제약 회사와 생명공학 기업들에게 TxBench-PP의 결과는 신약 발견 과정에서 AI 에이전트를 자율적 의사결정자로 조기에 도입하는 것에 대한 경고입니다. 데이터는 현재 AI 시스템이 임상 전 약리학에서 요구되는 복잡하고 고위험한 결정을 신뢰할 수 있게 수행할 능력이 아직 부족함을 명확히 합니다. 이는 AI 지원 워크플로우에 인간의 감독과 다층적 검증 메커니즘이 필수적임을 강조합니다. AI는 인간 전문가를 대체하기보다는 데이터 처리와 가설 생성을 가속화하는 보조 도구로 여겨져야 하며, 그 출력물은 도메인 전문가에 의해 엄격하게 검증되어야 합니다. 이 벤치마크는 오류가 막대한 금전적 손실과 안전 문제로 이어질 수 있는 시나리오에서 AI에 과도하게 의존하는 위험성을 부각시킵니다.

더 나아가 TxBench-PP는 생명과학 분야의 AI 개발 전략을 생성적 능력에서 검증 가능한 추론으로 전환시키는 계기가 됩니다. 산업계는 AI가 그럴듯한 텍스트를 생성하는 능력보다는 복잡한 데이터에서 정확하고 실행 가능한 통찰력을 생산하는 능력을 평가하는 방향으로 나아갈 필요가 있습니다. 이는 실제 실험 데이터 통합과 추론 중 엄격한 논리적 제약 적용을 강조하는 모델 학습 전략의 재고를 요구합니다. 또한 규제 기관들이 AI 생성 데이터를 승인 결정에 고려하기 시작함에 따라, TxBench-PP는 과학적으로 엄격하고 실용적으로 관련성 있는 평가 프레임워크의 모델이 되어 규제 워크플로우로의 AI 통합을 촉진할 수 있습니다.

전망

앞으로 TxBench-PP의 도입은 AI 기반 신약 발견의 더 엄격한 시대의 서막을 알립니다. TherapeuticsBench 계획이 확장됨에 따라 임상 시험과 사후 시장 감시 등 신약 발견 파이프라인의 다른 단계를 커버하는 추가 벤치마크가 출시될 것으로 예상됩니다. 이러한 포괄적인 접근 방식은 AI 성능을 전체 신약 개발 수명 주기 전반에 걸쳐 평가하는 종합적인 평가 생태계 구축을 가능하게 합니다. 각 단계의 특정 과제를 해결함으로써, 이러한 벤치마크는 AI 능력과 한계에 대한 더 미묘한 이해를 제공하며,distinct한 과학적 작업에 맞춰진 전문화된 모델 개발을 안내할 것입니다.

TxBench-PP에서 얻은 통찰력은 모델 아키텍처와 학습 방법론의 상당한 진전을 이끌 것입니다. 미래의 모델은 다중 모달 데이터를 처리하고 복잡한 인과 사슬을 구축할 수 있는 더 정교한 추론 엔진을 통합해야 합니다. 이는 심층 학습의 패턴 인식 강점과 상징적 AI의 논리적 엄격함을 결합하기 위해 상징적 추론과 신경망을 통합하는 것을 포함할 수 있습니다. 또한 검증 가능한 추론에 대한 강조는 AI 에이전트가 신뢰할 수 있는 결정을 내리기 위한 충분한 정보가 부족할 때 이를 인식할 수 있도록 하는 자기 수정 메커니즘과 불확실성 정량화 도구 개발을 장려할 것입니다.

산업계에서는 인간과 AI의 협력 프레임워크에 대한 강조가 커질 것입니다. AI 에이전트는 데이터 집약적 작업을 처리하고 잠재적 가설을 식별함으로써 인간 전문가를 보조하도록 설계될 것이며, 인간은 최종 의사결정과 검증에 대한 책임을 유지할 것입니다. 이 협력 모델은 AI 기반 발견의 신뢰성을 향상시킬 뿐만 아니라, 수동 데이터 분석과 가설 생성에 소요되는 시간을 줄여 신약 개발 프로세스의 효율성을 높일 것입니다. 이 접근 방식의 성공은 인간 연구자와 AI 시스템 간의 원활한 상호 작용을 촉진하는 직관적인 인터페이스와 워크플로우 개발에 달려 있습니다. 마지막으로, TxBench-PP의 확립은 재료 과학, 화학, 생물학 등 다른 과학 분야에서의 AI 평가를 위한 선례를 남기며, AI 기술이 혁신적이고 책임감 있게 개발 및 배포되도록 보장하여 궁극적으로 새로운 치료법 발견을 가속화하고 인간 건강 결과를 개선하는 데 기여할 것입니다.

Sources

arXiv