Wir beschäftigen uns heute mit der Frage, ob KI als kreativ bezeichnet werden kann. Nach einer Begriffsklärung zur Kreativität und dem Aufzählen von möglichen Techniken zur Datengenerierung betrachten wir Beispiele zur Bild-, Musik- und Textgenerierung.
Nochmal kurz für Beepo
- Es gibt KI Algorithmen die auf Basis von vorhandenen Daten aus gegebenen (z.B. zufälligen) Eingaben neue, potentiell „kreative“ Daten erschaffen
- KI kann eher als Assistentin für kreativ Schaffende dienen
- Kreativität ist schwer zu definieren, da
- das Kriterium „Originalität“ sehr subjektiv und schwer abzugrenzen ist; z.B.
- Nicht alle Problemstellungen lassen originelle Lösungen zu => Eine Lösung kann nur so kreativ sein, wie es die Problemstellung zulässt!
- Wenn die Eingaben nicht von einem Zufallsgenerator stammen, z.B. eine textuelle Bildbeschreibung oder ein vorgegebenes Foto, auf dem Style Transfer angewendet wird: Hier agiert die KI als eine Transformation der vorgegebenen Eingaben. Ab wann ist so eine Transformation (potentiell) kreativ und wann liegt die Kreativität noch rein in der Eingabe (= KI als besseres Bearbeitungstool)?
- die Problemstellung an sich genügend Freiraum für kreative Lösungen geben muss
- das Kriterium „Originalität“ sehr subjektiv und schwer abzugrenzen ist; z.B.
Was ist Kreativität?
- Definition lt. Duden: „schöpferische Kraft, kreatives Vermögen“
- Psychologie-Definition: Fähigkeit zu originellen (=nicht häufigen), produktiven (=schöpferischen) und nützlichen (= zweckdienlichen) Leistungen. (Stangl, 2022);
Abgrenzung:- Intelligenz
- Sucht eine richtige Lösung
- Kreativität
- Sucht alternative, nützliche, ästhetische Problemlösungen
- Sehr subjektiv (insb. Originalität)
- Intelligenz
- Nach Margaret A.Boden in „ Creativity and artificial intelligence“ (von 1998): KI-Techniken können auf 3 wegen kreative neue Ideen kreieren:
- Neue Kombinationen bekannter Ideen
- Durchsuchen eines Lösungsraums
- Bereitstellen solcher Transformationen, die Generierung vorher unmöglicher Ideen ermöglichen
Techniken zur Datengenerierung
Wir brauchen generative, nicht diskriminative Prozesse.
- Autoencoder
- System, welches zur Aufgabe hat, Eingabedaten möglichst originalgetreu zu replizieren
- Die Netzwerkarchitektur erzwingt, dass eine möglichst effizienten interne Codierung (Kompression) erlernt wird.
- Für kreative neuartige Ausgaben: Die komprimierte Codierung kann gezielt oder zufällig verändert werden, um neue Ausgaben zu erhalten.
- Generative Adversarial Networks (GANs)
- Gegenseitiges Hochschaukeln von Generator (versucht, echt aussehende Ausgaben zu erzeugen) und Diskriminator (versucht, erzeugte von echten Beispielen zu unterscheiden)
- Analogie: Geldfälscher (Generator) vs. Polizei (Diskriminator)
- Transformer: Nehmen Sequenzen von Symbolen an und generieren Ausgabesequenzen
- Abfolge von Encodern und Decodern
- Encoder bringen die Eingabesymbole (z.B. Wörter) in eine interne Repräsentation (Vektoren); Position in der Sequenz beeinflusst die Repräsentation
- Decoder bringen interne Repräsentation zurück in Symbole
- Transformer lernen die interne Funktion zwischen Ein- und Ausgabesequenzen und beachten zusätzlich die Relationen zwischen Eingabesymbolen (z.B. Subjekt-Verb-Objekt-Beziehung in Text)
- Abfolge von Encodern und Decodern
Anwendungsbeispiele
Bild: Style Transfer
- Ziel von Style Transfer: Nehme ein Bild und lass es eine KI malen im Stil eines anderen Fotos / eines Künstlers
- Unterschied zu anderen Aufgaben:
- Traditionelle ML-Ansätze müssen aus vielen Paaren von Ein- und Ausgabebildern lernen; diese Paaren existieren hier nicht
- Deshalb müssen die Eigenschaften vom Originalbild und der Stil-Referenz gelernt werden
- Mögliche Modellarchitektur:
- Zwei Netzwerke: Ein bereits trainierter „Feature Extractor“ und ein „Transfer-Netzwerk“
- Feature Extractor kümmert sich um Extraktion von Content (spätere Ebenen) und Style (frühere Ebenen)
- Transfer-Netzwerk kümmert sich um Generierung eines kombinierten Bildes
- Loss-Funktion vergleicht Unterschiede zwischen Content/Style Outputs und generiertem Bild
Musik
Komponist Lucas Kantor nutzt KI um Franz Schuberts Symphonie Nr. 8, die „Unvollendete“ zu vollenden
- Aufgabenformulierung:
- Musik-Generierung nicht auf dem Level von Schallwellen, sondern auf dem Noten-Level (welche Noten kommen wo hin?)
- KI spuckt Melodien aus und Cantor arrangiert diese
- Daten-Grundlage: 2000 Schubert-Stücke
- KI ist hier ein Tool, welches nichts ohne einen Menschen kann
Text: Textvervollständigung
- Idee: Schreibe einen kurzen einleitenden Text und ein ML Modell schreibt den Text weiter
- Kann live ausprobiert werden in Online-Demo basierend auf GPT-2, einem „Transformer-Netzwerk“
Links und sonstige schöne Quellen
- Definition Kreativität:
- Definition Kreativität von Studierenden der California State University: http://www.csun.edu/\~vcpsy00h/creativity/survey.htm
- Definition Kreativität Duden: https://www.duden.de/rechtschreibung/Kreativitaet
- Definition Kreativität in der Psychologie: Stangl, W. (2022, 10. März). Kreativität . Online Lexikon für Psychologie und Pädagogik. (https://lexikon.stangl.eu/542/kreativitaet)
- IBM zu Kreativität von Maschinen: https://www.ibm.com/watson/advantage-reports/future-of-artificial-intelligence/ai-creativity.html
- Style Transfer Guide: https://www.fritz.ai/style-transfer/
- Online Style Transfer: https://reiinakano.com/arbitrary-image-stylization-tfjs/
- Nachrichten-Artikel zur Vervollständigung der „Unvollendeten“ Symphonie Schuberts: https://www.nbcnews.com/mach/science/ai-can-now-compose-pop-music-even-symphonies-here-s-ncna1010931
- Online-Demos:
- Text-Vervollständigung Online-Demo: https://deepai.org/machine-learning-model/text-generator
- Bildgenerierung Online-Demo: https://deepai.org/machine-learning-model/3d-objects-generator
- Transformer neuronale Netze: https://de.wikipedia.org/wiki/Transformer(MaschinellesLernen)
- Einführung in Autoencoder: https://www.mygreatlearning.com/blog/autoencoder/
- Einführung in GANs: https://machinelearningmastery.com/what-are-generative-adversarial-networks-gans/
- Paper und demo von GAN Dissect, einem Verfahren zum „Malen“ mithilfe von GANs: https://gandissect.csail.mit.edu
- Generierung von Vogelbildern aus Textbeschreibungen: https://www.youtube.com/watch?v=rAbhypxs1qQ
- Stimmengenerierung: https://www.youtube.com/watch?v=RknIx6XmffA
- Schöner Zeitschriftenartikel zum Thema (Englisch): https://www.forbes.com/sites/bernardmarr/2020/02/28/can-machines-and-artificial-intelligence-be-creative/?sh=607169f24580
- Zweibeiner lernen Laufen mit genetischen Algorithmen: https://www.youtube.com/watch?v=pgaEE27nsQw
- Video von Google DeepMind, wie kleine Figuren in einer Simulation selber Laufen gelernt haben (mit lustigen/kreativen Lösungen wie ständiges Mit-den-Armen-Fuchteln für Stabilisierung ;-)): https://www.youtube.com/watch?v=gn4nRCC9TwQ
- Post, in dem erklärt wird, wie die Firma Cloudflare eine Wand von Lavalampen für Zufallsgenerierung nutzt: https://blog.cloudflare.com/randomness-101-lavarand-in-production/
- 2 Minute Papers Youtube Kanal: https://www.youtube.com/@TwoMinutePapers/videos
- Ein Experiment von Coldmirror, in dem sie einen Textvervollständiger nutzt, um neue Harry Potter Geschichten zu generieren: https://www.youtube.com/watch?v=YaPzARFwPuA&list=PLDvBqWb1UAGeXy9QXbG0qhmX1BeMQShb0
- Ein Kapitel aus einem fiktiven Harry Potter Buch, das von einer AI generiert wurde: https://botnik.org/content/harry-potter.html
(kurzer Zeitungsartikel dazu: https://www.theverge.com/2017/12/12/16768582/harry-potter-ai-fanfiction) - Beispiel einer Anwendung eines GANs für die Restauration alter Wandgemälde: https://heritagesciencejournal.springeropen.com/articles/10.1186/s40494-020-0355-x
Neueste Ankündigungen