Was ist XAI?

Gesina Schwalbe

Johannes Rabold

Viele maschinell gelernte Modelle sind undurchsichtig. Diesmal geht es um die Frage: Wie kann man dennoch einen Blick hinein werfen? Und warum braucht man das? Wir plaudern also ein wenig um unser Forschungsgebiet, die erklärbare künstliche Intelligenz (XAI von eXplainable Artificial Intelligence).

Zusammenfassung: Ganz kurz für Beepo

„Erklärbar“ ist nicht leicht zu definieren.
Unser Versuch: Erklärbar heißt (teilweise) auf eine Art und Weise darstellbar, dass ein Mensch es verstehen kann.
Modelle können selber schon transparent, d.h. verständlich, sein oder im Nachhinein (möglicherweise abschnittsweise) in ein verständliches Modell übersetzt werden.
Es ist wichtig, dass maschinell trainierte Modelle erklärbar sind, z.B. für Sicherheit, Fairness oder Debugging.
Erklärbar ist nicht gleich erklärbar: Es gibt viele verschiedene Gründe, weswegen man, viele Aspekte, die man, und viele Arten und Weisen, auf die man, erklären kann. Man sollte sich vorher überlegen, wer was wie erklärt haben möchte.
XAI ist ein weites (und interessantes ;-)) Forschungsfeld, das sich damit beschäftigt, Methoden zum Erstellen erklärbarer Modelle und zum nachträglichen erklären von Black-box Modellen zu finden.

Ein paar Überlegungen zu Erklärbarkeit

Was heißt „erklärbar„? Das ist erstmal schwer zu definieren, denn es kann ganz unterschiedliches sein.
- Erklären heißt, etwas intransparentes für einen Menschen transparent darstellen.
- Erklärbar heißt, (teilweise) auf eine Art und Weise darstellbar, dass ein Mensch es verstehen kann.
- Unterschiedliche Leute brauchen unterschiedliche Erklärungen, um etwas zu verstehen!
Was heißt transparent? Beispiele „durchsichtiger“ (transparenter) und „undurchsichtiger“ Modelle:
- Durchsichtig: z.B.
  - Entscheidungsregeln (z.B. erstellt mit Inductive Logic Programming)
  - Entscheidungsbäume
  - lineare Modelle
- Undurchsichtig: tiefe neuronale Netze, denn sie sind hochdimensional, vielschichtig und speichern Information verteilt (ein Neuron kodiert information über mehrere Konzepte)
Warum will man hineinschauen? Anwendungsbeispiele:
- Debugging: Was sind Stellen, an denen mein Modell besonders schlecht funktioniert? Warum? Wie kann ich das Verbessern?
- Wissensgewinn: Wie hat das Modell das Problem gelöst?
- Sicherheitsüberprüfung: Falls die Entscheidungen meines Modells gefährlich sein können, ist es zur genüge sicher(er)?
- Ethische Prüfung: Ist das Netz „fair“? (wobei fair oft schwer zu definieren ist)
- Externe Auditoren: z.B. Sicherheitsforscher
Was man sich vorher überlegen sollte:
- Wem soll etwas wozu erklärt werden?
  Beispiele unterschiedlicher Empfänger der Erklärung:
  - Entwickler des Modells
  - Endnutzer eines Systems, in dem ein maschinell trainiertes Modell verwendet wird (z.B. Ärtze im Falle eines medizinischen Assistenzsystems für Diagnosen);
    Experten oder Laien
  - Organe der Rechtsprechung
  - Externe Auditoren
- Intrinsisch erklärbar oder nachträgliches Öffnen einer Black-box?
  Beachte, dass bessere Erklärbarkeit oft mit schlechterer Performanz einhergeht! („Accuracy-Interpretability-Tradeoff“)
- Soll die Erklärung
  - lokal für eine Ausgabe (Warum reagiert mein Modell hier so?) oder
  - global für das gesamte Modell (Wie funktioniert mein Modell allgemein?) sein?
- Welcher Grad von Transparenz wird benötigt?
  - vollständig verständlich = ein Mensch könnte das gesamte Modell selber durchdenken
  - verständliche Bausteine = ein Mensch kann zwar nicht das gesamte Modell durchdenken, versteht aber jeden Schritt
  - mathematisch beschreibbar = formale Eigenschaften sind bekannt und mathematisch verstanden
- Was soll erklärt werden:
  - Worauf hat das Netz geachtet? (Attribution der Eingabe zur Ausgabe)
  - Was kodiert das Netz intern?
  - Wie arbeitet das Netz intern?
  - …
- Braucht die Erklärungsmethode nur Zugriff auf Ein- und Ausgaben des Modells (black-box) oder auch auf Zwischenaufgaben und Interna des Modells (white-box)?

Beispiele von Verfahren

Typische Verfahren, die nachträglich und lokal Attribution untersuchen:
- Nur anhand von Eingaben und Ausgaben:
  - LIME (Local Interpretable Model-agnostic Explanations): Untersuche den Effekt den es hat, einzelne Teile der Eingabe abzuschalten; abgeschaltet wird durch Schwärzen (Bildausschnitte) oder Weglassen (Textabschnitte/Wörter)
  - RISE (Randomized Input Sampling for Explanation): Wie LIME, nur hier werden Bildausschnitte durch Verwaschen abgeschaltet
  - SHAP (SHapley Additive exPlanations): Wie LIME, nur dass hier Bildausschnitte nicht abgeschaltet werden durch Schwärzen, sondern indem sie mit zufälligen Schnippseln aus anderen Bildern getauscht werden; verwendet Shapley Werte (ein Verfahren aus der Spieltheorie, um die Beiträge einzelner Spieler zum Gesamtgewinn zu ermitteln)
- Für neuronale Netze, anhand der inneren Struktur (bzw. des Informationsflusses):
  - LRP (Layer-wise Relevance Propagation): Verfolge das Ausgabesignal durch die Neuronenverbindungen zurück zur Eingabe, wobei (1) die Gewichte der Verknüpfungen beachtet werden (kleines Gewicht=weniger Durchfluss) und (2) davon ausgegangen wird, dass die Summe an Neuronensignalen in einer Schicht immer gleich bleibt.
  - Sensitivity Analysis (Empfindlichkeitsanalyse): Für jeden Teil der Eingabe, ermittele wie stark eine kleine Änderung dieses Teils auch eine Änderung in der Ausgabe verursachen würde (dafür wird der Gradient bzw. die Ableitung der Modellfunktion genutzt)
  - CAM (Class Activation Mapping) und Grad-CAM (Gradient Class Activation Mapping) für Faltungsnetze: Hier wird ausgenutzt, dass die Zwischenausgaben jeder Schicht eines Faltungsnetzes eine Sammlung von Schwarzweißbildern ist. Bei beiden Verfahren, werden die Schwarzweißbilder, die von der letzten Faltungsschicht ausgegeben werden, zu einem Schwarzweißbild zusammengefügt — der Attributionsmaske (weiß=wichtig, schwarz=unwichtig für die Entscheidung des Modells).
Beispiele für globale Verfahren, die nachträglich Informationen über die Kodierung eines neuronalen Netzes sammeln:
- Konzeptanalyse, z.B. Net2Vec oder TCAV (Testing with Concept Activation Vectors): Hier werden semantische Konzepte (z.B. „grün“, „Baum“, „hölzern“) mit bestimmten Zwischenausgaben von neuronalen Netzen assoziiert.
- Deep Dream: Hier werden Startbilder so verändert, dass sie ein Neuron maximal aktivieren und damit „zeigen“, für was das Neuron steht.

Weitere Links und Quellen

Paper zu XAI Methoden, in denen Probleme von einzelnen neuronalen Netzen entlarvt wurden:
- Ein Husky wird nur wegen Schnee erkannt: https://arxiv.org/abs/1602.04938 (s. Bild 11)
- Objekte werden nur anhand einer Bildsignatur erkannt: https://arxiv.org/abs/1902.10178 (s. Bild 1a)
Ein (englisches) Paper mit recht detaillierter und differenzierter Definition von Erklärbarkeit:
Arrieta, Alejandro Barredo, Natalia Díaz Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, et al. 2020. “Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI.” Information Fusion 58: 82–115. https://doi.org/10.1016/j.inffus.2019.12.012.
Ein Paper, in dem einige wichtige Motivationen für Erklärbarkeit gut zusammengefasst sind
(erklärbar )
Adadi, Amina, and Mohammed Berrada. 2018. “Peeking inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI).” In IEEE Access, 6:52138–60. https://doi.org/10.1109/ACCESS.2018.2870052.
Arbeit aus unserem Lehrstuhl zu der These, dass logische Regeln gut für Menschen verständlich sind: Muggleton, S. H., Schmid, U., Zeller, C., Tamaddoni-Nezhad, A., & Besold, T. (2018). Ultra-strong machine learning: comprehensibility of programs learned with ILP. Machine Learning, 107(7), 1119-1140.
Arbeit zur Mutagenizität während der Anfänge von ILP: King, R. D., Muggleton, S. H., Srinivasan, A., & Sternberg, M. J. (1996). Structure-activity relationships derived by machine learning: The use of atoms and their bond connectivities to predict mutagenicity by inductive logic programming. Proceedings of the National Academy of Sciences, 93(1), 438-442.
Unser Paper, das eine Methode vorstellt, um ein neuronales Netz durch erklärbare Regeln anzunähern: Rabold, Johannes, Gesina Schwalbe, and Ute Schmid. 2020. “Expressive Explanations of DNNs by Combining Concept Analysis with ILP.” In KI 2020: Advances in Artificial Intelligence. Lecture Notes in Computer Science. Springer International Publishing. https://doi.org/10.1007/978-3-030-58285-2_11 oder https://arxiv.org/abs/2105.07371.
Das Buch Deep Learning von Ian Goodfellow ist ein Standardwerk zu tiefen neuronalen Netzen und hat ein schönes Cover aus Deep Dream Ausgaben 🙂
Wer mehr über Fairness im und für maschinelles Lernen erfahren möchte, kann sich z.B. das Buch Fairness in Machine Learning von S. Barocas, M. Hardt und A. Narayanan anschauen.
Hier nochmal der Link zum Artikel, in dem die Urban Legend zur Geschichte „Panzererkenner, der auf schönen Himmel statt Panzerrohre achtete“ aufgerollt wird: https://www.gwern.net/Tanks
Google Scholar ist ein Suchdienst von Google, um wissenschaftliche Veröffentlichungen zu finden. Außerdem wird zu Suchergebnissen angegeben, wie oft diese schon in anderen (wissenschaftlichen) Veröffentlichungen erwähnt wurden.
Video eines Computers, der mit Wasser funktioniert: https://www.youtube.com/watch?v=IxXaizglscw

Neueste Episoden

Neueste Ankündigungen

Was ist XAI?

Zusammenfassung: Ganz kurz für Beepo

Ein paar Überlegungen zu Erklärbarkeit

Beispiele von Verfahren

Weitere Links und Quellen

Schreibe einen Kommentar Antworten abbrechen