TxBench-PP: 소분자 전임상 약리학에서 AI 에이전트의 실제 추론 능력 평가
이 논문은 작은 분자의 전임상 약리학에 중점을 둔 첫 번째 검증 가능한 벤치마크인 TxBench-PP를 소개합니다. 이 벤치마크는 의약품 발견 초기 단계에서 실제 실험 데이터를 다루는 AI 에이전트의 능력을 평가하기 위해 설계되었습니다. 문헌 지식을 암기하는 전통적인 테스트와는 달리 이 벤치마크는 에이전트가 실제 분석 데이터에서 정확한 결론을 도출하는 능력을 요구합니다. 본 연구는 작용 기전, 약동학, 화합물-표적 결합 등 5가지 주요 작업 카테고리를 다루며 16가지 모델 구성과 4,800개의 추론 궤적으로 광범위하게 평가되었습니다. 결과, 기존 시스템 중 어느 것도 전임상 약리학 결정을 신뢰적으로 수행할 수 없는 것으로 나타났습니다. 최상위 구성인 Claude Opus 4.8조차 엔드포인트 시도의 59.3%만 통과했으며, 이는 복잡한 과학적 추론에서 AI의 능력에 상당한 격차가 있음을 보여주며, 제약 산업에서 AI 채택을 촉진하기 위해 더 신뢰할 수 있는 평가 프레임워크의 긴급한 필요성을 강조합니다.
배경
신약 개발 파이프라인에 인공지능을 통합하는 것은 전통적인 신약 후보 물질 개발 기간을 획기적으로 단축할 잠재력을 지니고 있으나, 이론적 가능성에서 실제 배포로의 전환은 엄격하고 검증 가능한 평가 프레임워크의 부재로 인해 막혀 있다. 기존 벤치마킹 방법론은 대규모 언어 모델이 기존 문헌을 암기하고 검색하는 능력을 주로 평가하여, 전임상 약리학의 실제 현실과 거의 관련이 없는 테스트에 머물러 있었다. 현실에서 과학자들은 소음 많고 비정형이며 이질적인 실험 데이터를 탐색하여 실행 가능한 결론을 도출해야 한다. 이러한 격차를 해소하기 위해 연구자들은 TxBench-PP(TherapeuticsBench Preclinical Pharmacology)를 도입했으며, 이는 작은 분자 약물 발견 초기 단계에서 실제 실험 데이터를 다루는 AI 에이전트의 능력을 평가하도록 특별히 설계된 첫 번째 벤치마크이다. 이전의 암기식 테스트와 달리 TxBench-PP는 에이전트가 원시 분석 데이터에서 정확한 통찰력을 추출함으로써 진정한 과학적 추론을 수행하도록 요구하며, 이는 제약 연구에 내재된 복잡한 의사결정 과정을 시뮬레이션한다.
TxBench-PP의 설계는 생명 과학 분야에서 AI 능력을 측정하는 방식의 패러다임 전환을 나타낸다. 이 벤치마크는 전임상 약리학에 필수적인 다섯 가지 핵심 작업 범주인 작용 기전, 약동학, 화합물-표적 결합, 인과적 표적 검증, 그리고 개발 가능성 및 안전성에 초점을 맞춘다. 산업 워크플로우를 반영하는 테스트 환경을 구축함으로써, 이 연구는 현재 AI 시스템의 진정한 한계를 드러내는 것을 목표로 한다. 벤치마크는 프로젝트 단계, 분석 유형, 작업 구조에 따라 세밀하게 인덱싱된 100개의 독립적인 평가 사례로 구성되어 있다. 이러한 세분성은 집계 정확도 점수를 넘어 특정 인지 병목 현상을 식별할 수 있게 하여, 모델이 알려진 사실을 단순 반복하는 것이 아니라 약물 발견의 미묘함을 처리할 수 있도록 하는 미래 AI 에이전트 최적화를 위한 명확한 로드맵을 제공한다.
심층 분석
TxBench-PP의 기술 아키텍처는 과학자의 워크플로우를 높은 충실도로 시뮬레이션하도록 설계되었다. 에이전트는 실제 워크플로우 스냅샷을 받고 관련 파일과 데이터 세트를 독립적으로 찾아 검사해야 하는 프로그래밍과 유사한 인터페이스에 배치된다. 이 설정은 자연어 숙달 이상을 요구하며, 구조화된 데이터를 처리하고 정보를 추출하기 위해 코드를 작성하거나 해석하며, 구조화된 출력으로 발견을 종합하는 능력이 필요하다. 이러한 출력은 결정론적 알고리즘을 사용하여 채점되며, 이는 평가가 주관성을 배제하고 객관적이며 재현 가능하도록 보장한다. 이러한 방법론적 엄격성은 AI 기반 의사결정에 대한 신뢰를 확립하는 데 중요하며, 성능 측정의 모호성을 제거하고 다양한 모델 구성을 비교하기 위한 안정적인 기준선을 제공한다.
실험 평가는 11개의 서로 다른 기본 모델에 걸쳐 16가지 모델-도구 구성을 포괄적으로 테스트하여 총 4,800개의 추론 궤적을 생성했다. 결과는 stark한 현실을 드러냈다. 기존 시스템 중 어느 것도 산업 적용에 적합한 수준으로 전임상 약리학 결정을 신뢰적으로 수행할 수 없었다. 최고 성능을 기록한 구성은 Pi 도구와 결합된 Claude Opus 4.8으로, 엔드포인트 통과율은 단 59.3%(300회 시도 중 178회, 95% 신뢰 구간 51.1-67.6)에 불과했다. 두 번째로 우수한 구성은 Pi와 결합된 GPT-5.5로, 통과율은 55.3%(300회 시도 중 166회, 95% 신뢰 구간 47.0-63.6)였다. 이러한 수치는 가장 진보된 상용 모델조차 실제 실험 데이터의 복잡성에 직면하면 신뢰성을 유지하는 데 어려움을 겪음을 나타내어 경각심을 자아낸다.
용해 실험을 통한 추가 분석은 서로 다른 작업 유형 간 모델 성능의 상당한 변동을 강조한다. 인과적 표적 검증 및 번역적 효능 평가와 같은 작업은 특히 어려웠으며, 이는 실질적으로 더 높은 오류율을 초래했다. 이러한 작업은 깊은 논리적 추론과 흩어진 증거를 연결하는 능력을 요구하며, 인과적 추론보다는 패턴 매칭에 크게 의존하는 모델의 한계를 노출한다. 데이터는 과학적 추론 분야에서 AI 에이전트의 현재 성능 한계를 명확히 구분하며, 단순히 모델 매개변수를 늘리거나 프롬프트 엔지니어링 전략을 정제하는 것이 이러한 근본적 결핍을 극복하기에 불충분함을 입증한다.
산업 영향
TxBench-PP의 등장은 오픈 소스 연구 커뮤니티와 제약 산업 모두에 지대한 영향을 미친다. 오픈 소스 커뮤니티에게 이 벤치마크는 표면적 정확도 지표에서 복잡한 장기 추론 작업에서 모델의 견고성으로 초점을 전환시키는 표준화된 재현 가능한 플랫폼을 제공한다. 이는 연구자들이 더 정교한 평가 지표를 개발하고 과학적 맥락에서 AI 에이전트의 신뢰성을 우선시하도록 장려한다. 비교를 위한 공통 기반을 확립함으로써 TxBench-PP는 더 의미 있는 협력을 촉진하고 실제 적용에 더 적합한 차세대 모델 개발을 가속화한다. 이는 AI 기반 약물 발견에서 현재 가능한 것의 한계를 밀어붙이는 혁신의 촉매제 역할을 한다.
제약 산업에게 TxBench-PP의 결과는 중요한 현실 점검이다. 이 벤치마크는 특히 높은 위험을 수반하는 의사결정에서 약물 발견을 보조하는 데 있어 현재 AI 기술의 상당한 한계를 드러낸다. 이 통찰력은 기업들이 약물 개발 파이프라인의 중요한 단계에서 AI에 의존할 때 신중함을 유지하도록 촉구한다. AI를 인간 전문성의 대체품으로 보는 대신, 산업은 광범위한 검증과 감독이 필요한 도구로 간주해야 한다. 또한 벤치마크는 과학적 추론에 최적화된 전용 모델 개발을 위한 투자의 시급성을 강조한다. 제약 회사는 일반 목적 대형 언어 모델에만 의존하기보다는 데이터의 특정 미묘함을 처리할 수 있는 자체 AI 시스템 개발에 더 많은 자원을 할당해야 할 수 있다.
또한 TxBench-PP는 TherapeuticsBench 프로젝트의 시작을 알리며, 다른 치료 모드와 약물 발견 단계로의 미래 확장을 위한 토대를 마련한다. 이 확장은 AI 약물 발견 부문에서 신뢰할 수 있고 검증 가능한 평가 프레임워크를 확립하는 중요성을 더욱 공고히 할 것이다. 벤치마크는 AI 시스템에 대한 신뢰를 구축하는 것이 모델 자체를 개발하는 것과 마찬가지로 중요함을 강조한다. 산업이 앞으로 나아가면서 실제 실험 데이터에 대한 AI 결정을 검증하는 능력은 경쟁 우위를 활용하려는 기업들을 위한 주요 차별화 요소가 될 것이다.
전망
앞으로 신뢰할 수 있는 전임상 약리학 결정을 내릴 수 있는 AI 에이전트 개발은 TxBench-PP가 식별한 현재 한계를 해결하는 다각적인 접근이 필요하다. 미래 연구는 종종 지저분하고 불완전한 실제 실험 데이터를 처리할 때 모델의 소음 내성 향상에 집중해야 한다. 텍스트 데이터와 화학 구조 및 분석 결과를 결합하는 등 다중 모달 정보를 통합하는 에이전트의 능력을 개선하는 것은 생물학적 시스템에 대한 포괄적인 이해를 달성하는 데 필수적이다. 또한 관찰 데이터에서 인과 관계를 추론해야 하는 작업에 대해 인과적 추론 능력을 발전시키는 것은 약리학에서 일반적인 시나리오이므로 중요하다.
약물 발견 분야의 AI 궤적은 고품질 선별 데이터셋에 대해 미세 조정된 더 전문화된 도메인 특화 모델로의 이동을 볼 가능성이 높다. 이러한 모델은 TxBench-PP와 같은 실제 세계 벤치마크에 대한 성능을 지속적으로 테스트하는 견고한 검증 프레임워크 내에 내장되어야 한다. AI 연구자, 약리학자, 데이터 과학자 간의 협력이 이러한 모델이 기술적으로 정교할 뿐만 아니라 과학적으로 유효하도록 보장하는 데 필수적일 것이다. 산업은 또한 과학자들이 AI 에이전트의 추론 과정을 이해하고 신뢰할 수 있도록 하여 투명성과 해석 가능성을 높이는 도구 개발을 우선시해야 한다.
궁극적인 목표는 신약 발견 및 개발 가속화에서 AI의 혁명적 잠재력을 실현하는 것이다. 그러나 산업이 AI 시스템의 엄격한 평가와 지속적인 개선에 전념할 때만 이 비전을 달성할 수 있다. TxBench-PP는 이러한 여정에서 중요한 시작점을 제공하며, 메워야 할 격차와 충족해야 할 기준을 강조한다. 기술이 진화함에 따라 초점은 단순히 지능적인 것이 아니라 신뢰할 수 있고 견고하며 인간 건강의 발전에 의미 있게 기여할 수 있는 AI 에이전트를 구축하는 데 남아 있어야 한다.