Ein Podcast über KI
Johannes und Gesina, zwei Freunde aus der Forschung, unterhalten sich über Themen rund um künstliche Intelligenz.

Ist KI kreativ?

avatar
Johannes Rabold
avatar
Gesina Schwalbe

Wir beschäftigen uns heute mit der Frage, ob KI als kreativ bezeichnet werden kann. Nach einer Begriffsklärung zur Kreativität und dem Aufzählen von möglichen Techniken zur Datengenerierung betrachten wir Beispiele zur Bild-, Musik- und Textgenerierung.

Nochmal kurz für Beepo

  • Es gibt KI Algorithmen die auf Basis von vorhandenen Daten aus gegebenen (z.B. zufälligen) Eingaben neue, potentiell „kreative“ Daten erschaffen
  • KI kann eher als Assistentin für kreativ Schaffende dienen
  • Kreativität ist schwer zu definieren, da
    • das Kriterium „Originalität“ sehr subjektiv und schwer abzugrenzen ist; z.B.
      • Nicht alle Problemstellungen lassen originelle Lösungen zu => Eine Lösung kann nur so kreativ sein, wie es die Problemstellung zulässt!
      • Wenn die Eingaben nicht von einem Zufallsgenerator stammen, z.B. eine textuelle Bildbeschreibung oder ein vorgegebenes Foto, auf dem Style Transfer angewendet wird: Hier agiert die KI als eine Transformation der vorgegebenen Eingaben. Ab wann ist so eine Transformation (potentiell) kreativ und wann liegt die Kreativität noch rein in der Eingabe (= KI als besseres Bearbeitungstool)?
    • die Problemstellung an sich genügend Freiraum für kreative Lösungen geben muss

Was ist Kreativität?

  • Definition lt. Duden: „schöpferische Kraft, kreatives Vermögen“
  • Psychologie-Definition: Fähigkeit zu originellen (=nicht häufigen), produktiven (=schöpferischen) und nützlichen (= zweckdienlichen) Leistungen. (Stangl, 2022);
    Abgrenzung:
    • Intelligenz
      • Sucht eine richtige Lösung
    • Kreativität
      • Sucht alternative, nützliche, ästhetische Problemlösungen
      • Sehr subjektiv (insb. Originalität)
  • Nach Margaret A.Boden in „ Creativity and artificial intelligence“ (von 1998): KI-Techniken können auf 3 wegen kreative neue Ideen kreieren:
    • Neue Kombinationen bekannter Ideen
    • Durchsuchen eines Lösungsraums
    • Bereitstellen solcher Transformationen, die Generierung vorher unmöglicher Ideen ermöglichen

Techniken zur Datengenerierung

Wir brauchen generative, nicht diskriminative Prozesse.

  • Autoencoder
    • System, welches zur Aufgabe hat, Eingabedaten möglichst originalgetreu zu replizieren
    • Die Netzwerkarchitektur erzwingt, dass eine möglichst effizienten interne Codierung (Kompression) erlernt wird.
    • Für kreative neuartige Ausgaben: Die komprimierte Codierung kann gezielt oder zufällig verändert werden, um neue Ausgaben zu erhalten.
  • Generative Adversarial Networks (GANs)
    • Gegenseitiges Hochschaukeln von Generator (versucht, echt aussehende Ausgaben zu erzeugen) und Diskriminator (versucht, erzeugte von echten Beispielen zu unterscheiden)
    • Analogie: Geldfälscher (Generator) vs. Polizei (Diskriminator)
  • Transformer: Nehmen Sequenzen von Symbolen an und generieren Ausgabesequenzen
    • Abfolge von Encodern und Decodern
      • Encoder bringen die Eingabesymbole (z.B. Wörter) in eine interne Repräsentation (Vektoren); Position in der Sequenz beeinflusst die Repräsentation
      • Decoder bringen interne Repräsentation zurück in Symbole
    • Transformer lernen die interne Funktion zwischen Ein- und Ausgabesequenzen und beachten zusätzlich die Relationen zwischen Eingabesymbolen (z.B. Subjekt-Verb-Objekt-Beziehung in Text)

Anwendungsbeispiele

Bild: Style Transfer

  • Ziel von Style Transfer: Nehme ein Bild und lass es eine KI malen im Stil eines anderen Fotos / eines Künstlers
  • Unterschied zu anderen Aufgaben:
    • Traditionelle ML-Ansätze müssen aus vielen Paaren von Ein- und Ausgabebildern lernen; diese Paaren existieren hier nicht
    • Deshalb müssen die Eigenschaften vom Originalbild und der Stil-Referenz gelernt werden
  • Mögliche Modellarchitektur:
    • Zwei Netzwerke: Ein bereits trainierter „Feature Extractor“ und ein „Transfer-Netzwerk“
    • Feature Extractor kümmert sich um Extraktion von Content (spätere Ebenen) und Style (frühere Ebenen)
    • Transfer-Netzwerk kümmert sich um Generierung eines kombinierten Bildes
    • Loss-Funktion vergleicht Unterschiede zwischen Content/Style Outputs und generiertem Bild

Musik

Komponist Lucas Kantor nutzt KI um Franz Schuberts Symphonie Nr. 8, die „Unvollendete“ zu vollenden

  • Aufgabenformulierung:
    • Musik-Generierung nicht auf dem Level von Schallwellen, sondern auf dem Noten-Level (welche Noten kommen wo hin?)
    • KI spuckt Melodien aus und Cantor arrangiert diese
  • Daten-Grundlage: 2000 Schubert-Stücke
  • KI ist hier ein Tool, welches nichts ohne einen Menschen kann

Text: Textvervollständigung

  • Idee: Schreibe einen kurzen einleitenden Text und ein ML Modell schreibt den Text weiter
  • Kann live ausprobiert werden in Online-Demo basierend auf GPT-2, einem „Transformer-Netzwerk“

Links und sonstige schöne Quellen