Moderne KI-Systeme, besonders komplexe Architekturen wie Sprachmodelle und multimodale Modelle auf Basis von Transformers oder Diffusion-Architekturen, zeigen eine bemerkenswerte Entwicklung: Sie werden immer leistungsfähiger und können zunehmend komplexe Aufgaben autonom bewältigen, während ihre internen Funktionsweisen gleichzeitig immer weniger durchschaubar werden. Diese mangelnde Transparenz macht es selbst für Fachexperten schwierig nachzuvollziehen und zu verstehen,wie genau diese Systeme zu ihren Entscheidungen und Ergebnissen gelangen, bzw. ihre emergenten Fähigkeiten einzuschätzen. Dies erschwert die Vertrauensbildung, Sicherheitsvalidierung und ethische Bewertung.
Das neue Forschungsgebiet Mechanistische Interpretierbarkeit (MI) versucht, diese Blackbox-Verfahren durch das Erforschen der internen Zusammenhänge mit Methoden wie Circuit Analysis, Activation Engineering, Parameter Decomposition und Repräsentationsanalyse transparent und nachvollziehbar zu machen. Die hier verwendeten Methoden erfordern jedoch profunde mathematische und informatische Expertise sowie tiefe Kenntnisse über das Feld Generative KI – ein signifikantes Zugangshindernis für Domänenexperten aus Psychologie, Ethik, Sozialwissenschaften und Recht. Deren Perspektiven wären jedoch für die Interpretation der MI-Ergebnisse essentiell, um robuste und sichere KI-Systeme zu entwickeln, die "Human Compatible" sind – also Systeme, die menschliche Präferenzen, Normen und Werte in den Mittelpunkt stellen und dadurch gesellschaftlich verantwortungsvolle KI-Anwendungen ermöglichen.Das Vorhaben erforscht und entwickelt innovative Methoden zur Integration komplexer MI-Techniken in benutzerfreundliche No-Code/Low-Code (NC/LC) Anwendungen.
Die Kerninnovation liegt in der neuartigen Synthese zweier disparater Forschungsfelder: der kausal-analytischen MI und der demokratisierenden NC/LC-Architektur. Besonders innovativ ist die Exploration multimodaler und Audio-Modelle – ein bislang unterrepräsentiertes Forschungsgebiet im MI-Kontext. Der Ansatz transformiert die hochkomplexe MI-Methodik durch NC/LC-Prinzipien und Human-Centered Design, um sie für interdisziplinäre Forschung zugänglich zu machen.
Das Projekt verfolgt fünf konkrete wissenschaftlich-technische Arbeitsziele:
(1) Systematische Analyse des Stands der Technik und Auswahl geeigneter
MI-Methoden sowie Erweiterung bestehender Verfahren,
(2) Entwicklung von Abstraktionskonzepten und Visualisierungsparadigmen,
(3) prototypische Implementierung einer interaktiven web-basierten
NC/LC-MI-Plattform,
(4) Human-Centered Evaluation mit Zielgruppenvertretern und
(5) Anwendung des Prototyps auf interdisziplinäre Fragestellungen.
Die Grundlagenforschung an der Schnittstelle von KI, Kognitionswissenschaft und
Human Computer Interaction (HCI) hat hohe gesellschaftliche Relevanz: Die
entwickelten Werkzeuge katalysieren einen evidenzbasierten gesellschaftlichen
Diskurs, unterstützen die Formulierung wissenschaftlich fundierter
KI-Richtlinien und fördern durch erhöhte Transparenz das kollektive Vertrauen
in KI-Technologien. Die Demokratisierung der KI-Analyse für diverse Experten
ohne KI-Expertise (z. B. Ethik und Recht) adressiert direkt die drängende
gesellschaftliche Herausforderung der algorithmischen Undurchsichtigkeit und
leistet einen wesentlichen Beitrag zur verantwortungsvollen KI-Entwicklung.