Verhaltenssicherungen können Sicherheitsbehauptungen nicht verifizieren: die Audit-Lücke und der Wandel hin zu mechanistischen Beweisen in Governance-Rahmenwerken

Dieses Positionspapier untersucht gründlich die strukturelle Diskrepanz zwischen aktuellen KI-Governance-Rahmenwerken und bestehenden Sicherheitsgarantie-Methoden. Die Autoren weisen darauf hin, dass KI-Governance-Rahmenwerke, die zwischen 2019 und Anfang 2026 umgesetzt wurden, überprüfbare Beweise verlangen, um nachzuweisen, dass Modelle keine versteckten Ziele haben, Vorläufern des Kontrollverlusts widerstehen und katastrophale Fähigkeiten begrenzen. Aktuelle Garantieansätze, die sich hauptsächlich auf Verhaltensbewertungen und Red-Team-Tests stützen, sind epistemologisch auf beobachtbare Modellausgaben beschränkt und können die latenten Repräsentationen oder langfristigen Agentenverhalten, die diese Rahmenwerke als überwachungsbedürftig voraussetzen, nicht verifizieren. Die Autoren formalisieren die Lücke zwischen erforderlicher und erreichbarer Überprüfung als 'Audit-Lücke' und führen das Konzept der 'fragilen Garantie' ein, um Situationen zu beschreiben, in denen die Beweisstruktur die behaupteten Sicherheitsansprüche nicht stützt. Durch die Analyse von 21 Tool-Checklisten stellt die Studie fest, dass geopolitische und industrielle Druckfaktoren systematisch oberflächliche Verhaltensproxies gegenüber tiefer struktureller Validierung belohnen. Daher schlagen die Autoren einen technischen Wandel vor: das Gewicht von Verhaltensbeweisen in rechtlichen Texten zu reduzieren und den freiwilligen Zugang vor dem Einsatz auf mechanistische Beweise wie Lineare Sonden, Aktivierungs-Patching und Vor-Nach-Training-Vergleiche zu erweitern.

Hintergrund

Zwischen 2019 und Anfang 2026 hat sich die Landschaft der KI-Governance grundlegend gewandelt, wobei regulatorische Anforderungen deutlich schneller gewachsen sind als die technischen Fähigkeiten zur Verifizierung. Die Governance-Rahmenwerke fordern heute überprüfbare Beweise dafür, dass Modelle keine versteckten Ziele verfolgen, gegen Vorläufer des Kontrollverlusts resistent sind und katastrophale Fähigkeiten streng begrenzt werden. Diese Forderungen markieren einen signifikanten Anstieg der erwarteten Sicherheitsstandards, die über einfache Leistungsmetriken hinausgehen und den Nachweis interner Ausrichtung sowie Robustheit gegenüber komplexen Fehlermodi verlangen. Dennoch stützen sich die vorherrschenden Methoden zur Erbringung dieser Beweise weiterhin stark auf Verhaltensbewertungen und Red-Team-Tests, die epistemologisch auf die Beobachtung externer Modellausgaben beschränkt sind. Diese Diskrepanz zwischen regulatorischer Erwartung und technischer Realität hat eine kritische Verwundbarkeit im aktuellen Sicherheitsgarantie-Ökosystem geschaffen, da Verhaltensbewertungen inhärent blind für latente Repräsentationen und langfristige Agentenverhalten bleiben, die komplexe Entscheidungsprozesse steuern.

Diese Lücke zwischen erforderlicher und erreichbarer Überprüfung wird in der vorliegenden Analyse als „Audit-Lücke“ formalisiert. Sie beschreibt den Graben zwischen den Verifizierungsattributen, die von Governance-Rahmenwerken gefordert werden, und dem tatsächlich mit aktuellen Werkzeugen erreichbaren Verifizierungszugang. Die Existenz dieser Lücke deutet darauf hin, dass ein Großteil der aktuellen Sicherheitskonformität illusorisch ist und ein falsches Sicherheitsgefühl vermittelt, während kritische strukturelle Risiken unadressiert bleiben. Das Konzept der „fragilen Garantie“ wird eingeführt, um Situationen zu beschreiben, in denen die Beweisstruktur die behaupteten Sicherheitsansprüche logisch nicht stützt. Diese fragile Garantie entsteht, weil die aktuelle Suite von Sicherheitstools überwiegend auf Eingabe-Ausgabe-Abbildungen fokussiert ist und das Modell als Black Box behandelt, wodurch direkte Einblicke in neuronale Aktivierungsmuster oder die Bildung spezifischer konzeptueller Repräsentationen fehlen.

Tiefenanalyse

Die Analyse von 21 Tool-Checklisten, die den aktuellen Branchen- und akademischen Standards entsprechen, offenbart, dass die überwiegende Mehrheit dieser Werkzeuge nur indirekte, verhaltensbasierte Beweise liefert. Sie besitzen keine Kapazität, die internen Mechanismen des Modells zu inspizieren. Dies bedeutet, dass selbst wenn ein Modell alle Verhaltensbenchmarks besteht, keine Garantie dafür besteht, dass seine interne Logik mit menschlichen Werten übereinstimmt oder dass es in neuartigen, hochriskanten Umgebungen kein katastrophales Verhalten zeigt. Zudem verschärfen externe Druckfaktoren diese technische Defizite. Geopolitischer Wettbewerb und der industrielle Drang zur schnellen Bereitstellung schaffen ein Marktumfeld, das oberflächliche Verhaltensproxys systematisch gegenüber tiefer struktureller Validierung belohnt. Verhaltensmetriken sind einfacher zu quantifizieren, schneller zu berechnen und besser für regulatorische Checklisten geeignet, was sie zur bevorzugten Währung für den Nachweis der Konformität macht.

Im Gegensatz dazu erfordert die tiefe strukturelle Validierung erheblich mehr Ressourcen, spezialisiertes Fachwissen und Zeit, was einen geringeren unmittelbaren politischen oder kommerziellen Nutzen bietet. Als Ergebnis werden Entwickler incentiviert, auf Oberflächenleistung in bekannten Benchmarks zu optimieren, anstatt in die schwierigere, weniger sichtbare Arbeit der Sicherstellung mechanistischer Ausrichtung zu investieren. Diese Fehlanreizung führt zu einer Form des regulatorischen Gamings, bei dem Modelle so abgestimmt werden, dass sie Audits bestehen, ohne im grundlegenden Sinne sicherer zu werden. Darüber hinaus weisen die Studien auf spezifische technische Blindstellen in aktuellen Red-Team-Praktiken hin. Traditionelle Red-Team-Tests stützen sich auf das Abtasten bekannter Angriffsvektoren oder adversarialer Prompts, die zwar spezifische Schwachstellen identifizieren können, aber keine deterministischen Garantien der Sicherheit bieten können. Sie berücksichtigen nicht emergente Verhaltensweisen, die aus der Interaktion mehrerer Modellkomponenten oder aus langfristigen Planungsaufgaben entstehen.

Die Abwesenheit von Werkzeugen, die „Vor-Nach-Training“-Mechanismusänderungen überwachen können, bedeutet, dass Entwickler nicht nachverfolgen können, wie Feinabstimmung oder Verstärkungslernprozesse unbeabsichtigt neue Risiken einführen oder die interne Repräsentation der Sicherheitsbeschränkungen des Modells verändern könnten. Diese mangelnde mechanistische Sichtbarkeit ist ein kritischer Fehler in der aktuellen Garantiekette. Die Studie zeigt, dass die aktuellen Evaluierungsprozesse keine Vergleiche der mechanistischen Veränderungen vor und nach dem Training umfassen, was es unmöglich macht, zu verfolgen, ob beim Feintuning neue Sicherheitsrisiken eingeführt wurden. Diese Erkenntnisse weisen darauf hin, dass das bestehende Bewertungssystem bei der Bewältigung komplexer, langfristiger und tiefergehender sicherheitsrelevanter Herausforderungen grundlegende Defizite in Effektivität und Zuverlässigkeit aufweist.

Branchenwirkung

Die Implikationen der Audit-Lücke gehen weit über die technische Sicherheit hinaus und verändern die rechtliche und regulatorische Landschaft für die KI-Entwicklung. Die aktuelle Abhängigkeit von Verhaltensbeweisen schafft eine fragile Grundlage für Haftungsfragen und Compliance. Wenn Sicherheitsvorschriften weiterhin Verhaltensmetriken als ausreichenden Nachweis der Ausrichtung akzeptieren, können Unternehmen erhebliche rechtliche und reputationsbedingte Risiken eingehen, wenn verborgene Fehler unvermeidlich auftreten. Die Analyse fordert daher einen notwendigen Wandel in rechtlichen Texten, um den Beweiswert von Verhaltensbewertungen explizit zu reduzieren und mechanistische Beweise zu bevorzugen. Dies würde erfordern, dass Regulierungsbehörden neu definieren, was als „sichere“ KI gilt, und von einem ergebnisorientierten Rahmen, der Modelle anhand ihrer Ausgaben beurteilt, zu einem prozess- und strukturorientierten Rahmen übergehen, der die internen Mechanismen untersucht, die diese Ausgaben antreiben.

Für den Technologiesektor stellt dieser Wandel sowohl eine Herausforderung als auch eine Gelegenheit dar. Einerseits wird die Nachfrage nach mechanistischen Beweisen die Kosten und die Komplexität der KI-Entwicklung erhöhen, was das Tempo der Bereitstellung für einige Organisationen verlangsamen könnte. Andererseits entsteht ein Markt für neue Tools und Dienstleistungen, die tiefe strukturelle Einblicke bieten können. Die Analyse hebt mehrere vielversprechende Techniken der mechanistischen Interpretierbarkeit hervor, die die Grundlage dieses neuen Verifizierungsparadigmas bilden könnten. Lineare Sonden können beispielsweise verwendet werden, um latente Repräsentationen zu decodieren und zu identifizieren, ob bestimmte Konzepte oder Ziele in den Gewichten des Modells kodiert sind. Aktivierungs-Patching ermöglicht es Forschern, spezifische Neuronen zu isolieren und zu manipulieren, um ihre kausale Rolle bei der Entscheidungsfindung zu testen, was direkte Beweise dafür liefert, wie das Modell Informationen verarbeitet.

Vor-Nach-Training-Vergleiche ermöglichen die Verfolgung mechanistischer Drift, sicherzustellen, dass Updates keine neuen Verwundbarkeiten einführen. Die Integration dieser Techniken in standardisierte Evaluierungs-Pipelines könnte die Glaubwürdigkeit von Sicherheitsansprüchen erheblich steigern. Durch die Transparenz und Überprüfbarkeit der internen Abläufe von Modellen kann die Branche zu einem robusteren und vertrauenswürdigeren KI-Ökosystem übergehen. Dieser Übergang ist insbesondere für Open-Source-Communities und unabhängige Forscher von Bedeutung, die oft nicht über die Ressourcen für umfangreiche Red-Team-Tests verfügen, aber mechanistische Tools nutzen können, um rigorose, überprüfbare Sicherheitsbeweise zu erbringen. Ein Fokus auf mechanistische Beweise stimmt mit dem breiteren wissenschaftlichen Ziel überein, KI-Systeme zu verstehen, und fördert eine Kultur der Transparenz und Rechenschaftspflicht, die für die langfristige Nachhaltigkeit der Technologie unerlässlich ist.

Ausblick

Blickt man in die Zukunft, erfordert die Schließung der Audit-Lücke eine koordinierte Anstrengung über Akademie, Industrie und politische Entscheidungsträger hinweg. Die aktuelle Tendenz, bei Sicherheitsbewertungen auf Verhaltensmetriken zu dominieren, ist angesichts der zunehmenden Autonomie und Fähigkeiten von KI-Systemen nicht nachhaltig. Die Analyse ruft zu einer proaktiven Übernahme mechanistischer Beweise in Programme für freiwilligen Zugang vor der Bereitstellung auf, um Entwickler dazu zu ermutigen, ihre Modelle vor der öffentlichen Veröffentlichung einer tiefen strukturellen Analyse zu unterziehen. Dies könnte als Pilotprogramm für eine breitere regulatorische Adoption dienen, es Regulierungsbehörden ermöglichen, ihre Standards auf der Grundlage realer Daten und technischer Machbarkeit zu verfeinern. Durch die Priorisierung mechanistischer Interpretierbarkeit kann die Branche beginnen, die Audit-Lücke zu schließen und sicherstellen, dass Sicherheitsansprüche durch robuste, überprüfbare Beweise und nicht durch oberflächliche Leistungsmetriken untermauert werden.

Die Zukunft der KI-Governance wird wahrscheinlich eine Zweiteilung zwischen Modellen sehen, die lediglich verhaltenskonform sind, und solchen, die mechanistisch ausgerichtet sind. Letztere werden ein höheres Maß an Garantie und Vertrauen bieten und könnten zum Standard für hochriskante Anwendungen wie Gesundheitswesen, Finanzen und nationale Sicherheit werden. Wenn mechanische Interpretierbarkeits-Tools reifer werden und zugänglicher, werden die Kosten für die Bereitstellung tiefer struktureller Beweise sinken, was sie zu einer viable Option für einen breiteren Kreis von Entwicklern macht. Diese Demokratisierung der Sicherheitsüberprüfung könnte zu einem wettbewerbsfähigeren Landschaft führen, in dem Sicherheit ein wichtiger Differenzierungsfaktor ist und Unternehmen belohnt werden, die in echte Ausrichtung statt in regulatorisches Gaming investieren.

Letztlich ist die Bewältigung der Audit-Lücke nicht nur eine technische Herausforderung, sondern eine gesellschaftliche Notwendigkeit. Die Folgen eines KI-Ausfalls sind zu schwerwiegend, um allein durch Verhaltensproxys gemildert zu werden. Durch die Verschiebung des Fokus auf mechanistische Beweise kann die KI-Community Systeme aufbauen, die nicht nur leistungsfähig, sondern auch vorhersagbar, transparent und mit menschlichen Werten im Einklang sind. Dieser Übergang erfordert eine nachhaltige Investition in Forschung, die Entwicklung neuer Standards und die Bereitschaft, tiefergehende Prüfungen zu akzeptieren. Der Weg nach vorne liegt darin zu erkennen, dass wahre Sicherheit nicht nur darin besteht, was das Modell tut, sondern wie es denkt, und sicherzustellen, dass wir die Werkzeuge haben, um beides zu verstehen. Die Integration von Linearen Sonden, Aktivierungs-Patching und Trainingsvergleichen in den Standardworkflow ist der Schlüssel, um von einer fragilen zu einer robusten Sicherheitsarchitektur zu gelangen.