Es ist der erste überprüfbare Benchmark für die präklinische Pharmakologie kleiner Moleküle, der die Fähigkeit von KI-Agenten bewertet, aus realen experimentellen Daten Schlussfolgerungen zu ziehen.

Welches Kernproblem zeigt es auf?

Selbst das beste Modell erreichte nur 59,3% Erfolgsrate, was zeigt, dass aktuelle KI noch nicht zuverlässig genug ist, um pharmakologische Entscheidungen im industriellen Maßstab eigenständig zu treffen.

Welche zukünftigen Entwicklungen sind zu erwarten?

Als erster Bestandteil des TherapeuticsBench-Projekts sind weitere Benchmarks für andere Phasen der Arzneimittelforschung in Kürze geplant.

TxBench-PP: Bewertung der echten Entscheidungsfähigkeit von KI-Agenten in der präklinischen Pharmakologie kleiner Moleküle

Dieser Artikel stellt TxBench-PP vor, einen überprüfbaren Benchmark für die präklinische Pharmakologie kleiner Moleküle, der die Entscheidungszuverlässigkeit von KI-Agenten in realen Arzneimittelfindungsszenarien bewerten soll. Im Gegensatz zu herkömmlichen Tests, die auf dem Auswendiglernen von Literatur basieren, erfordert dieser Benchmark, dass Agenten genaue Schlussfolgerungen aus echten experimentellen Daten ableiten. Die Studie testete 16 Konfigurationen aus 11 Modellen über 100 Bewertungsaufgaben hinweg, die fünf Dimensionen wie Wirkmechanismen und Pharmakokinetik abdecken, wobei insgesamt 4.800 Trajektorien erzeugt wurden. Die Ergebnisse zeigen, dass kein System präklinisch-pharmakologische Entscheidungen zuverlässig ausführen kann. Die leistungsstärkste Konfiguration, Claude Opus 4.8 / Pi, bestand nur 59,3 % der Endpunktversuche, was darauf hindeutet, dass aktuelle KI bei der Verarbeitung komplexer, unstrukturierter realer Experimentaldaten noch erhebliche Einschränkungen hat und einer zuverlässigen industriellen Anwendung noch fernsteht.

Hintergrund

Die Integration künstlicher Intelligenz in die Arzneimittelforschung verspricht seit Langem, den Zyklus der Interpretation und Entscheidungsfindung zu komprimieren und so den Weg von der molekularen Identifizierung zum klinischen Kandidaten zu beschleunigen. Der Übergang von diesem theoretischen Potenzial zur praktischen Implementierung in pharmazeutischen Arbeitsabläufen erfordert jedoch eine rigorose und vertrauenswürdige Bewertung der Agentenleistung in realen Szenarien. Historisch konzentrierten sich Benchmarks in diesem Bereich unverhältnismäßig stark auf die Fähigkeit von Agenten, bekannte Literaturfakten auswendig zu lernen und abzurufen. Solche Tests prüfen das Gedächtnis von Wissen, anstatt wissenschaftliches Reasoning zu testen. Dieser Ansatz erfasst die Komplexität der tatsächlichen Arzneimittelforschung nicht, da Daten dort oft verrauscht, unstrukturiert und aus neuartigen Experimenten stammen, anstatt aus kuratierten Lehrbüchern. Um diese kritische Lücke zu schließen, stellte das Forschungsteam TxBench-PP (TherapeuticsBench Preclinical Pharmacology) vor. Es handelt sich um den ersten überprüfbaren Benchmark, der speziell für die präklinische Pharmakologie kleiner Moleküle entwickelt wurde. Als erster Ausschnitt des breiteren TherapeuticsBench-Projekts repräsentiert er einen Paradigmenwechsel von der reinen "Wissensabfrage" hin zum "wissenschaftlichen Schlussfolgern". Er legt eine neue methodologische Grundlage für die Bewertung der Zuverlässigkeit automatisierter Entscheidungsfindung in kritischen Phasen der Arzneimittelentwicklung.

TxBench-PP ist darauf ausgelegt, die authentischen Arbeitsabläufe der pharmazeutischen Forschung mit hoher Treue zu simulieren. Der Benchmark umfasst hundert Bewertungsaufgaben, die nach Verfahrensstufe, Experimenttyp und Aufgabenstruktur indiziert sind. Diese Aufgaben decken fünf kritische Dimensionen ab: die Ableitung von Wirkmechanismen (MoA), die Ableitung von Pharmakodynamik (PD), die Bindung von Verbindungen an Zielstrukturen, die kausale Validierung von Zielstrukturen sowie Bewertungen zur Entwickelbarkeit und Sicherheit. Im Gegensatz zu traditionellen Tests, die vereinfachte Fragen stellen, erhalten Agenten in TxBench-PP Schnappschüsse echter Arbeitsabläufe. Sie werden in eine Codierumgebung platziert, in der sie verschiedene Datendateien eigenständig inspizieren und analysieren müssen. Dieses Design zwingt den Agenten dazu, die Fähigkeit unter Beweis zu stellen, unstrukturierte Daten zu verarbeiten, Schlüsselinformationen aus dem Rauschen zu identifizieren und logische Deduktionen durchzuführen. Die endgültigen Ausgaben sind strukturierte Antworten, die nach deterministischen Regeln bewertet werden. Dies stellt sicher, dass die Bewertungsergebnisse objektiv, reproduzierbar und ein Spiegel der ökologischen Validität in industriellen Umgebungen sind.

Tiefenanalyse

Das experimentelle Setup für TxBench-PP umfasste eine umfassende Bewertung von sechzehn Modell-Harness-Konfigurationen, die aus elf verschiedenen Grundmodellen stammten. Diese groß angelegte Testphase generierte insgesamt viertausendachthundert Schlussfolgerungstrajektorien, was die statistische Signifikanz und Repräsentativität der Ergebnisse sicherstellt. Die Erkenntnisse offenbaren eine harte Realität: Kein getestetes System war in der Lage, präklinisch-pharmakologische Entscheidungen zuverlässig auszuführen. Dieser universelle Engpass deutet darauf hin, dass aktuelle State-of-the-Art-KI-Modelle immer noch erhebliche Schwierigkeiten mit der Komplexität des wissenschaftlichen Reasonings in diesem Bereich haben. Die Ergebnisse widerlegen die Annahme, dass das bloße Skalieren der Modellparameter allein zu einer zuverlässigen wissenschaftlichen Agentur führt. Stattdessen wird die Notwendigkeit von Architekturen und Trainingsdaten hervorgehoben, die komplexes, mehrstufiges logisches Schlussfolgern in verrauschten Umgebungen besser unterstützen.

Die Leistungsmetriken liefern eine klare Quantifizierung dieser Einschränkungen. Die stärkste Konfiguration, Claude Opus 4.8 in Kombination mit dem Pi-Harness, erreichte eine Durchlaufquote von nur fünfundfünfzig Komma drei Prozent bei den Endpunktversuchen. Sie bestand einhundertachtundsiebzig von dreihundert Versuchen (95-Prozent-Konfidenzintervall: 51,1 bis 67,6 Prozent). Diese Zahl ist besonders aufschlussreich, da sie weit unter der Schwelle liegt, die für industrielle Zuverlässigkeit erforderlich ist, wo oft eine nahezu perfekte Genauigkeit notwendig ist, um kostspielige Fehler in der Arzneimittelentwicklung zu vermeiden. Die zweitbeste Konfiguration, GPT-5.5 / Pi, schnitt leicht schlechter ab, mit einer Durchlaufquote von fünfundfünfzig Komma drei Prozent (166 von 300, Konfidenzintervall 47,0 bis 63,6 Prozent). Diese Zahlen unterstreichen, dass selbst die fortschrittlichsten kommerziellen Modelle noch nicht in der Lage sind, in diesem spezifischen wissenschaftlichen Kontext autonome, zuverlässige Entscheidungen zu treffen. Die signifikanten Unterschiede zwischen den verschiedenen Konfigurationen deuten zudem darauf hin, dass Faktoren wie Modellarchitektur, Qualität der Trainingsdaten und Strategien des Prompt-Engineering eine entscheidende Rolle für die Leistung spielen. Dies zeigt, dass Optimierungen möglich sind, aber derzeit für eine vollständige Automatisierung nicht ausreichen.

Branchenwirkung

Die Veröffentlichung von TxBench-PP hat tiefgreifende Auswirkungen auf die Open-Source-Forschungsgemeinschaft und die pharmazeutische Industrie. Für Forscher bietet es einen standardisierten, realistischen Benchmark, der hilft, den Fortschritt von Modellen genau zu messen. Indem man sich von vereinfachten Datensätzen abwendet, die eine Illusion von "falschem Wohlstand" erzeugen könnten, zwingt TxBench-PP die Gemeinschaft dazu, sich den tatsächlichen Fähigkeiten von KI-Agenten zu stellen. Dieser Wandel ist entscheidend, um künftige Forschungsanstrengungen auf die Lösung echter wissenschaftlicher Probleme zu lenken, anstatt nur für Benchmark-Scores bei trivialen Aufgaben zu optimieren. Er etabliert eine neue Basislinie dafür, was einen "erfolgreichen" Agenten in der Arzneimittelforschung ausmacht: Ein Agent muss ein robustes Schlussfolgern über unstrukturierte Daten demonstrieren, nicht nur das bloße Abrufen von Fakten.

Für pharmazeutische Unternehmen dienen die Ergebnisse als kritische Risikowarnung. Die Erkenntnis, dass kein System präklinisch-pharmakologische Entscheidungen zuverlässig ausführen kann, legt nahe, dass KI-Agenten noch nicht bereit sind, diese Phase der Arzneimittelforschung eigenständig voranzutreiben. Diese Einsicht rät Unternehmen zu einem vorsichtigen Ansatz und zur Investition in hybride Intelligenz-Workflows, die die Effizienz der KI mit der Aufsicht menschlicher Experten kombinieren. Die hohen Fehlerquoten, die selbst bei den am besten performenden Modellen beobachtet wurden, unterstreichen die Notwendigkeit einer rigorosen manuellen Überprüfung, bevor irgendeine von einer KI generierte Entscheidung umgesetzt wird. Darüber hinaus signalisiert TxBench-PP als erster Ausschnitt des TherapeuticsBench-Projekts den Beginn eines granulareren Ansatzes für die KI-Bewertung in der Arzneimittelforschung. Zukünftige Benchmarks werden wahrscheinlich andere Phasen des Arzneimittelentwicklungsprozesses und verschiedene therapeutische Modalitäten abdecken. Dies fördert ein raffinierteres und praxisnäheres Bewertungssystem, das eng mit den Bedürfnissen der Industrie übereinstimmt.

Ausblick

Mit Blick auf die Zukunft besteht die Hauptherausforderung für das Feld darin, die Schlussfolgerungsfähigkeiten und die Entscheidungszuverlässigkeit von KI-Agenten zu verbessern, wenn sie mit komplexen, unstrukturierten Echtzeitdaten konfrontiert sind. TxBench-PP liefert einen klaren Messwert und eine Richtung für diese Verbesserung. Es betont die Notwendigkeit von Modellen, die mit dem inhärenten Rauschen und der Mehrdeutigkeit experimenteller Daten umgehen können. Künftige Forschung wird sich wahrscheinlich auf die Entwicklung spezialisierter Architekturen und Trainingsmethoden konzentrieren, die das mehrstufige wissenschaftliche Schlussfolgern besser unterstützen.

Der Erfolg von Konfigurationen wie Claude Opus 4.8 / Pi bietet eine Benchmark dafür, was derzeit möglich ist, doch die Lücke zur industriellen Zuverlässigkeit bleibt signifikant. Das Schließen dieser Lücke erfordert nicht nur Fortschritte bei großen Sprachmodellen, sondern auch Verbesserungen darin, wie Agenten mit experimentellen Daten und Laborarbeitsabläufen interagieren. Während das TherapeuticsBench-Projekt expandiert, wird es einen umfassenden Rahmen zur Verfolgung des Fortschritts über den gesamten Lebenszyklus der Arzneimittelforschung hinweg bieten. Dies wird letztlich die Entwicklung von KI-Systemen lenken, die menschliche Wissenschaftler bei der Suche nach neuen Therapien wirklich ergänzen können. Die Reise vom vielversprechenden Prototyp zum zuverlässigen industriellen Werkzeug ist noch im Gange, und TxBench-PP markiert einen entscheidenden Schritt bei der Definition des weiteren Weges.

Sources

arXiv