Wie schnitten die führenden KI-Modelle im Test ab?

Kein System konnte präklinische pharmakologische Entscheidungen zuverlässig treffen. Die beste Konfiguration, Claude Opus 4.8 mit Pi, erreichte nur eine Erfolgsrate von 59,3 %, während GPT-5.5 mit Pi bei 55,3 % lag. Dies zeigt erhebliche Defizite aktueller KI beim komplexen wissenschaftlichen Reasoning und der Interpretation realer Experimentaldaten.

Welche Auswirkungen hat dies auf die Pharmaindustrie?

Die Ergebnisse zeigen, dass KI das strenge Urteil menschlicher Experten noch nicht ersetzen kann. Die Industrie muss sich von einer „generativen“ hin zu einer „verifikationsbasierten“ Bewertung wandeln. Unternehmen sollten KI als Hilfsmittel betrachten und bei kritischen Entscheidungen menschliche Aufsicht sowie multiple Validierungsmechanismen beibehalten.

TxBench-PP: Die tatsächlichen Fähigkeiten von KI-Agenten bei präklinischen pharmakologischen Entscheidungen bewerten

Q: Was ist der Hauptzweck des TxBench-PP-Benchmarks?

TxBench-PP ist ein überprüfbarer Benchmark für die präklinische Pharmakologie kleiner Moleküle mit 100 Aufgaben. Er bewertet die Fähigkeit von KI-Agenten, Schlussfolgerungen aus echten experimentellen Daten zu ziehen, statt auf Auswendiglernen zu setzen, und deckt Wirkmechanismen, Pharmakodynamik und Sicherheit in realistischen Szenarien der Arzneimittelfindung ab.

Dieser Artikel stellt TxBench-PP vor, einen überprüfbaren Benchmark für die präklinische Pharmakologie kleiner Moleküle, der entwickelt wurde, um die Entscheidungsfähigkeiten von KI-Agenten in realistischen Arzneimittelfinding-Szenarien zu bewerten. Der Benchmark umfasst 100 Bewertungsaufgaben, die Kernbereiche wie Wirkmechanismen, Pharmakodynamik, Wirkstoff-Ziel-Bindung und Sicherheit abdecken und KI-Systeme dazu bringen, Schlussfolgerungen aus echten experimentellen Daten zu ziehen, anstatt sich auf gespeichertes Wissen zu verlassen. Tests mit 11 Modellen und 4.800 Reasoning-Trajektorien zeigen, dass kein aktuelles System präklinische pharmakologische Entscheidungen zuverlässig ausführen kann. Die beste Konfiguration, Claude Opus 4.8 mit Pi, erreichte nur 59,3% der Endpunkte, GPT-5.5 mit Pi erzielte 55,3%. Diese Ergebnisse zeigen erhebliche Lücken in den Fähigkeiten aktueller KI für komplexes wissenschaftliches Reasoning auf.

Hintergrund

Die Integration von künstlicher Intelligenz in die Arzneimittelfindung wird oft mit der Hoffnung verbunden, dass KI-Agenten durch die Komprimierung von Hypothesengenerierung und experimenteller Validierung den Entwicklungsprozess neuer Medikamente drastisch beschleunigen können. Doch um diese Technologien tatsächlich in reale Arbeitsabläufe zu integrieren, fehlt es der Branche an rigorosen, überprüfbaren Bewertungsrahmen, die der Komplexität echter Labor-Entscheidungen gerecht werden. Um diese Lücke zu schließen, wurde TxBench-PP (TherapeuticsBench Preclinical Pharmacology) eingeführt. Es handelt sich um den ersten Benchmark der breiteren TherapeuticsBench-Initiative, der speziell darauf ausgelegt ist, die Entscheidungsfähigkeiten von KI-Agenten im Kontext der präklinischen Pharmakologie kleiner Moleküle zu bewerten. In dieser Phase können Fehler im reasoning zu kostspieligen Misserfolgen in späteren Entwicklungsstadien führen. Im Gegensatz zu früheren Benchmarks, die auf statischer Wissensabfrage oder Multiple-Choice-Fragen basieren, verlangt TxBench-PP, dass Modelle Schlussfolgerungen aus rohen, unstrukturierten experimentellen Daten ableiten. Dies simuliert die tatsächliche kognitive Belastung, der menschliche Pharmakologen ausgesetzt sind, und stellt sicher, dass die KI nicht einfach Fakten aus ihrem Vorwissen abruft, sondern echte Daten interpretiert.

Die grundlegende Herausforderung von TxBench-PP besteht in der strikten Ablehnung von Leistung, die auf Auswendiglernen basiert. In traditionellen wissenschaftlichen KI-Bewertungen bestehen Modelle oft darin, Fakten aus ihren Trainingsdaten wiederzugeben, anstatt echtes Reasoning zu demonstrieren. TxBench-PP umgeht dieses Problem, indem es KI-Agenten mit „Work Snapshots“ echter experimenteller Aufzeichnungen, statistischer Ausgaben und grafischer Daten versorgt. Die Agenten müssen diese Datenquellen mithilfe von Programmier- oder logischen Reasoning-Tools navigieren, um spezifische Fragen zu Wirkmechanismen (MoA), Pharmakodynamik (PD), der Bindungsaffinität von Verbindungen zu Zielstrukturen sowie Sicherheitsprofilen zu beantworten. Diese Konfiguration zwingt die KI zu einer aktiven Dateninterpretation und legt Schwachstellen im wissenschaftlichen Schlussfolgern offen, die bei Modellen, die einfach bekannte Antworten aus ihren internen Wissensbasen abrufen, typischerweise verborgen bleiben. Durch den Fokus auf überprüfbare Ergebnisse statt auf plausibel klingenden Text etabliert der Benchmark einen neuen Standard für die Bewertung der Zuverlässigkeit von KI in hochriskanten wissenschaftlichen Umgebungen.

Der Umfang von TxBench-PP ist umfassend und umfasst 100 verschiedene Bewertungsaufgaben, die sorgfältig nach Projektphase, Experimenttyp und struktureller Komplexität indiziert sind. Diese Aufgaben decken die Kernpfeiler der präklinischen Pharmakologie ab, einschließlich der kausalen Zielvalidierung, der Bewertung des Arzneimittelentwicklungspotenzials und der translationalen Wirksamkeitsanalyse. Das Design des Benchmarks stellt sicher, dass die Bewertung deterministisch ist und die Punktzahl auf strengen, objektiven Regeln basiert, die Reproduzierbarkeit ermöglichen. Dieser Wandel von einer „Black-Box“-Bewertung, bei der nur die endgültige Antwort beurteilt wird, hin zu einer „White-Box“-Analyse, bei der die Reasoning-Trajektorie scrutinisiert wird, bietet Forschern detaillierte Einblicke darin, wo und wie KI-Modelle versagen. Es unterstreicht die Notwendigkeit, dass KI-Systeme nicht nur Sprache verstehen, sondern auch das domänenspezifische pharmakologische Wissen und die Datenverarbeitungskompetenzen besitzen müssen, um komplexe, multivariable experimentelle Datensätze zu navigieren.

Tiefenanalyse

Die empirischen Ergebnisse aus Tests von elf großen Sprachmodellen über 4.800 Reasoning-Trajektorien hinweg offenbaren eine harte Realität bezüglich des aktuellen Standes der KI im wissenschaftlichen Schlussfolgern. Kein einziges System zeigte die Fähigkeit, präklinische pharmakologische Entscheidungen zuverlässig auszuführen, was auf eine erhebliche Lücke zwischen den aktuellen KI-Fähigkeiten und den rigorosen Anforderungen der Arzneimittelfindung hinweist. Die leistungsstärkste Konfiguration, Claude Opus 4.8 in Kombination mit der Pi-Strategie, erreichte eine Durchlaufquote von nur 59,3 %. Dieser Wert resultierte aus 178 erfolgreichen Ergebnissen von 300 Versuchen, mit einem 95-%-Konfidenzintervall von 51,1 % bis 67,6 %. Obwohl dies die beste beobachtete Leistung darstellt, liegt sie weit unter der Schwelle, die für den autonomen Einsatz in kritischen wissenschaftlichen Arbeitsabläufen erforderlich ist, wo Fehlerquoten minimal sein müssen, um Patientensicherheit und Forschungsintegrität zu gewährleisten. Die zweitbeste Konfiguration, GPT-5.5 kombiniert mit der Pi-Strategie, schnitt noch schlechter ab und erzielte eine Durchlaufquote von 55,3 % (166 von 300 Versuchen, mit einem 95-%-Konfidenzintervall von 47,0 % bis 63,6 %). Diese Zahlen unterstreichen, dass selbst die fortschrittlichsten proprietären Modelle mit der nuancierten Interpretation realer experimenteller Daten kämpfen. Die Leistungsunterschiede zwischen diesen Top-Modellen und dem Rest des Feldes deuten darauf hin, dass architektonische Verbesserungen und größere Parameteranzahlen zwar marginale Gewinne bringen, aber nicht ausreichen, um die grundlegenden Herausforderungen des wissenschaftlichen Reasonings zu bewältigen. Die Daten legen nahe, dass aktuelle Modelle oft kausale Beziehungen hallucinieren oder die statistische Signifikanz falsch interpretieren, wenn sie mit neuen oder komplexen Datenstrukturen konfrontiert werden, die nicht in ihren Trainingskorpora enthalten sind. Ablationsstudien im Rahmen der TxBench-PP-Bewertung beleuchten weiter die spezifischen Limitierungen bestehender KI-Architekturen. Die Ergebnisse zeigen, dass das einfache Erhöhen der Modellgröße oder die Optimierung von Prompt-Engineering-Techniken keine signifikanten Leistungsverbesserungen bringt. Stattdessen ist der entscheidende Unterschied die Fähigkeit des Modells, genaue Reasoning-Chains zu konstruieren und den Kontext experimenteller Daten tiefgreifend zu verstehen. Viele Modelle scheiterten nicht daran, dass ihnen das Vokabular zur Beschreibung pharmakologischer Konzepte fehlte, sondern daran, dass sie disparate Beweise nicht logisch verbinden konnten, um eine kohärente Schlussfolgerung zu bilden. Dies hebt eine anhaltende Schwäche aktueller KI-Systeme hervor: ihre Tendenz, sprachliche Flüssigkeit der logischen Validität vorzuziehen, eine Eigenschaft, die in wissenschaftlichen Anwendungen, in denen Präzision von größter Bedeutung ist, besonders gefährlich ist.

Die Analyse zeigt auch, dass die Pi-Strategie, die wahrscheinlich spezifische Prompting- oder Inferenztechniken zur Verbesserung des Reasonings beinhaltet, einen messbaren, aber begrenzten Schub in der Leistung bot. Dennoch blieben die Modelle trotz dieser Verbesserungen anfällig für Fehler in der kausalen Inferenz und der multimodalen Datenintegration. Die in der Studie identifizierten Fehlermodi deuten darauf hin, dass KI-Agenten häufig mit Aufgaben kämpfen, die die Synthese von Informationen aus mehreren Datentypen erfordern, wie zum Beispiel die Kombination von grafischen Daten mit statistischen Tabellen. Diese Einschränkung weist auf die Notwendigkeit hin, dass anspruchsvollere Modellarchitekturen entwickelt werden, die die Heterogenität wissenschaftlicher Daten besser handhaben können, weg von rein textbasiertem Reasoning hin zu einem integrierten Verständnis experimenteller Evidenz.

Branchenwirkung

Die Veröffentlichung von TxBench-PP hat tiefgreifende Auswirkungen auf sowohl die Open-Source-Forschungsgemeinschaft als auch die Pharmaindustrie im Allgemeinen. Für die Open-Source-Community bietet der Benchmark einen standardisierten, reproduzierbaren Rahmen zur Bewertung von KI-Agenten in einem spezialisierten wissenschaftlichen Bereich. Diese Standardisierung ist entscheidend, um einen transparenten und fairen Wettbewerb unter Forschern zu fördern, der direkte Vergleiche der Modellleistung auf identischen, herausfordernden Aufgaben ermöglicht. Durch die Etablierung einer gemeinsamen Grundlage für die Bewertung ermutigt TxBench-PP zur Entwicklung von Algorithmen, die Genauigkeit und Zuverlässigkeit über oberflächliche Flüssigkeit stellen. Es dient auch als wertvolle Ressource zur Identifizierung spezifischer Fehlermodi und lenkt künftige Forschungsanstrengungen darauf, die identifizierten Lücken im kausalen Schlussfolgern und der Dateninterpretation zu schließen. Für Pharmazeutika- und Biotechnologieunternehmen dienen die Ergebnisse von TxBench-PP als kritische Warnung vor der voreiligen Einführung von KI-Agenten als autonome Entscheider in der Arzneimittelfindung. Die Daten zeigen eindeutig, dass aktuelle KI-Systeme noch nicht in der Lage sind, die komplexen, hochriskanten Entscheidungen zuverlässig auszuführen, die in der präklinischen Pharmakologie erforderlich sind. Dieses Ergebnis unterstreicht die Notwendigkeit menschlicher Aufsicht und mehrschichtiger Validierungsmechanismen in jedem KI-unterstützten Arbeitsablauf. Statt menschliche Experten zu ersetzen, sollten KI-Agenten als unterstützende Werkzeuge betrachtet werden, die die Datenverarbeitung und Hypothesengenerierung beschleunigen können, deren Ausgaben jedoch rigoros von Fachleuten des jeweiligen Bereichs verifiziert werden müssen. Der Benchmark hebt die Risiken einer zu starken Abhängigkeit von KI hervor, insbesondere in Szenarien, in denen Fehler erhebliche finanzielle und sicherheitsrelevante Konsequenzen haben können.

Darüber hinaus beeinflusst TxBench-PP die strategische Richtung der KI-Entwicklung in den Lebenswissenschaften, indem es den Fokus von generativen Fähigkeiten auf überprüfbares Reasoning verschiebt. Die Branche muss sich von der Bewertung von KI basierend auf ihrer Fähigkeit, plausiblen Text zu generieren, abwenden und hin zur Bewertung ihrer Kapazität übergehen, genaue, handlungsrelevante Erkenntnisse aus komplexen Daten zu gewinnen. Dies erfordert ein Umdenken bei den Modelltrainingsstrategien, mit einem größeren Schwerpunkt auf der Integration realer experimenteller Daten und der Durchsetzung strenger logischer Constraints während der Inferenz. Der Benchmark ermutigt auch zur Entwicklung neuer Bewertungsmetriken, die über einfache Genauigkeitswerte hinausgehen und Maßnahmen für Reasoning-Transparenz, Fehleranalyse und Robustheit über diverse Datentypen hinweg einbeziehen. Die breiteren Auswirkungen von TxBench-PP erstrecken sich auf die regulatorische Landschaft, wo die Validierung von KI-gesteuerten Arzneimittelfindungsprozessen zunehmend wichtig wird. Da Regulierungsbehörden beginnen, KI-generierte Daten für Genehmigungsentscheidungen zu berücksichtigen, wird die Notwendigkeit standardisierter, transparenter Bewertungsrahmen kritisch. TxBench-PP liefert ein Modell für solche Rahmenwerke und demonstriert, wie KI-Leistung auf eine Weise bewertet werden kann, die sowohl wissenschaftlich rigoros als auch praktisch relevant ist. Dies könnte die Integration von KI in regulierte Arbeitsabläufe erleichtern, indem es klare Beweise für Modellfähigkeiten und -grenzen liefert, wodurch Vertrauen bei den Stakeholdern aufgebaut und die verantwortungsvolle Einführung von KI-Technologien in der Arzneimittelentwicklung beschleunigt wird.

Ausblick

Mit Blick auf die Zukunft markiert die Einführung von TxBench-PP den Beginn einer rigoroseren Ära in der KI-gesteuerten Arzneimittelfindung. Während die TherapeuticsBench-Initiative expandiert, wird erwartet, dass sie zusätzliche Benchmarks veröffentlicht, die andere Phasen der Arzneimittelfindungs-Pipeline abdecken, einschließlich klinischer Studien und Überwachung nach der Markteinführung. Dieser umfassende Ansatz ermöglicht die Entwicklung eines ganzheitlichen Evaluierungs-Ökosystems, das die KI-Leistung über den gesamten Lebenszyklus der Arzneimittelentwicklung bewertet. Indem die spezifischen Herausforderungen jeder Phase angegangen werden, werden diese Benchmarks ein nuancierteres Verständnis der KI-Fähigkeiten und -Grenzen ermöglichen und die Entwicklung spezialisierter Modelle leiten, die auf unterschiedliche wissenschaftliche Aufgaben zugeschnitten sind. Die aus TxBench-PP gewonnenen Erkenntnisse werden wahrscheinlich zu erheblichen Fortschritten in der Modellarchitektur und Trainingsmethodik führen. Zukünftige Modelle müssen anspruchsvollere Reasoning-Engines integrieren, die multimodale Daten handhaben und komplexe kausale Ketten konstruieren können. Dies könnte die Integration von symbolischem Reasoning mit neuronalen Netzen beinhalten, wodurch Modelle die Mustererkennungsstärken des Deep Learning mit der logischen Strenge der symbolischen KI kombinieren können. Darüber hinaus wird der Schwerpunkt auf überprüfbares Reasoning die Entwicklung von Selbstkorrekturmechanismen und Werkzeugen zur Unsicherheitsquantifizierung fördern, die es KI-Agenten ermöglichen zu erkennen, wann ihnen nicht genügend Informationen für eine zuverlässige Entscheidung vorliegen. Die Branche wird auch einen wachsenden Schwerpunkt auf Rahmenwerke für die Mensch-KI-Zusammenarbeit sehen, die die Stärken beider Parteien nutzen. KI-Agenten werden so gestaltet sein, dass sie menschliche Experten unterstützen, indem sie datenintensive Aufgaben übernehmen und potenzielle Hypothesen identifizieren, während Menschen die letztendliche Verantwortung für Entscheidungsfindung und Validierung behalten. Dieses kollaborative Modell wird nicht nur die Zuverlässigkeit KI-gesteuerter Entdeckungen verbessern, sondern auch die Effizienz des Arzneimittelentwicklungsprozesses steigern, indem die Zeit für manuelle Datenanalyse und Hypothesengenerierung reduziert wird. Der Erfolg dieses Ansatzes wird von der Entwicklung intuitiver Schnittstellen und Arbeitsabläufe abhängen, die eine nahtlose Interaktion zwischen menschlichen Forschern und KI-Systemen erleichtern.

Schließlich setzt die Etablierung von TxBench-PP ein Präzedenzfall für die Bewertung von KI in anderen wissenschaftlichen Domänen wie Materialwissenschaft, Chemie und Biologie. Die Prinzipien des überprüfbaren Reasonings, der deterministischen Punktzahlvergabe und der Integration realer Daten können angepasst werden, um den einzigartigen Herausforderungen dieser Felder zu begegnen. Während KI die wissenschaftliche Forschung weiter durchdringt, wird die Notwendigkeit für robuste, transparente und wissenschaftlich fundierte Bewertungsrahmen nur zunehmen. TxBench-PP liefert einen Bauplan für solche Rahmenwerke und stellt sicher, dass KI-Technologien auf eine Weise entwickelt und eingesetzt werden, die sowohl innovativ als auch verantwortungsvoll ist, was letztlich die Entdeckung neuer Therapien beschleunigt und die menschlichen Gesundheitsergebnisse verbessert.

Sources

arXiv