No-Code/Low-Code Mechanistic Interpretability für KI-Modelle

Moderne KI-Systeme, besonders komplexe Architekturen wie Sprachmodelle und multimodale Modelle auf Basis von Transformers oder Diffusion-Architekturen, zeigen eine bemerkenswerte Entwicklung: Sie werden immer leistungsfähiger und können zunehmend komplexe Aufgaben autonom bewältigen, während ihre internen Funktionsweisen gleichzeitig immer weniger durchschaubar werden. Diese mangelnde Transparenz macht es selbst für Fachexperten schwierig nachzuvollziehen und zu verstehen,wie genau diese Systeme zu ihren Entscheidungen und Ergebnissen gelangen, bzw. ihre emergenten Fähigkeiten einzuschätzen. Dies erschwert die Vertrauensbildung, Sicherheitsvalidierung und ethische Bewertung.

Das neue Forschungsgebiet Mechanistische Interpretierbarkeit (MI) versucht, diese Blackbox-Verfahren durch das Erforschen der internen Zusammenhänge mit Methoden wie Circuit Analysis, Activation Engineering, Parameter Decomposition und Repräsentationsanalyse transparent und nachvollziehbar zu machen. Die hier verwendeten Methoden erfordern jedoch profunde mathematische und informatische Expertise sowie tiefe Kenntnisse über das Feld Generative KI – ein signifikantes Zugangshindernis für Domänenexperten aus Psychologie, Ethik, Sozialwissenschaften und Recht. Deren Perspektiven wären jedoch für die Interpretation der MI-Ergebnisse essentiell, um robuste und sichere KI-Systeme zu entwickeln, die "Human Compatible" sind – also Systeme, die menschliche Präferenzen, Normen und Werte in den Mittelpunkt stellen und dadurch gesellschaftlich verantwortungsvolle KI-Anwendungen ermöglichen.Das Vorhaben erforscht und entwickelt innovative Methoden zur Integration komplexer MI-Techniken in benutzerfreundliche No-Code/Low-Code (NC/LC) Anwendungen.

Die Kerninnovation liegt in der neuartigen Synthese zweier disparater Forschungsfelder: der kausal-analytischen MI und der demokratisierenden NC/LC-Architektur. Besonders innovativ ist die Exploration multimodaler und Audio-Modelle – ein bislang unterrepräsentiertes Forschungsgebiet im MI-Kontext. Der Ansatz transformiert die hochkomplexe MI-Methodik durch NC/LC-Prinzipien und Human-Centered Design, um sie für interdisziplinäre Forschung zugänglich zu machen.

Das Projekt verfolgt fünf konkrete wissenschaftlich-technische Arbeitsziele:
(1) Systematische Analyse des Stands der Technik und Auswahl geeigneter MI-Methoden sowie Erweiterung bestehender Verfahren,
(2) Entwicklung von Abstraktionskonzepten und Visualisierungsparadigmen,
(3) prototypische Implementierung einer interaktiven web-basierten NC/LC-MI-Plattform,
(4) Human-Centered Evaluation mit Zielgruppenvertretern und
(5) Anwendung des Prototyps auf interdisziplinäre Fragestellungen.

Die Grundlagenforschung an der Schnittstelle von KI, Kognitionswissenschaft und Human Computer Interaction (HCI) hat hohe gesellschaftliche Relevanz: Die entwickelten Werkzeuge katalysieren einen evidenzbasierten gesellschaftlichen Diskurs, unterstützen die Formulierung wissenschaftlich fundierter KI-Richtlinien und fördern durch erhöhte Transparenz das kollektive Vertrauen in KI-Technologien. Die Demokratisierung der KI-Analyse für diverse Experten ohne KI-Expertise (z. B. Ethik und Recht) adressiert direkt die drängende gesellschaftliche Herausforderung der algorithmischen Undurchsichtigkeit und leistet einen wesentlichen Beitrag zur verantwortungsvollen KI-Entwicklung.

Verbundprojektleitung

Prof. Dr. Sigurd Schacht
sigurd.schacht[at]hs-ansbach.de

ORCID iD: 0000-0002-1161-4724

Projektleitung

Prof. Dr. Barbara Kühnlenz
T 015221866138
barbara.kuehnlenz[at]hs-ansbach.de

Projektbearbeitung

Marc Guggenberger
T 09814877-541
marc.guggenberger[at]hs-ansbach.de

Projektdauer

01.01.2027 - 31.12.2030

Projektpartner

Hochschule Heilbronn

Northeastern University

Projektförderung

Bundesministerium für Bildung und Forschung

Förderprogramm

HAW-ForschungsAkzente