Ich habe mir vor kurzem mit nem Freund per Whatsapp eigene Songs und KI-generiertes Zeug hin und her geschickt. Fast immer wirkte das KI-Zeug technisch perfekter und maximal wahrscheinlich. Nicht unbedingt besser, weil wir halt beide wussten, dass es KI war. Dennoch: Im Grunde haben wir als Producer das musikalisch ein wenig herabgewürdigt, weil wir halt wussten, dass keine 2-3 Wochen Arbeit in dem Song steckten, sondern eben „nur“ das formulieren eines Prompts. Natürlich fragt man sich als Künstler da: Wofür brauchen die mich eigentlich noch?
Natürlich fragt man sich als Künstler da: Wofür brauchen die mich eigentlich noch?
Fotografie
Gehen wir mal in das Jahr 1800 zurück und betrachten dann mal die vielen Jahrzehnte vor circa. dem Jahr 1839. Wie entstanden da eigentlich Fotografien? Ich will gar nicht groß spoilern, aber tatsächlich wurde bis dahin weltweit nicht fotografiert. Wenn man ein Bild haben wollte, musste man jemanden beauftragen, der dieses Bild malt. Man wandte sich an Leute wie Jean-Auguste-Dominique Ingres, die in der Lage waren, relativ genaue Abbildungen von echten Menschen zu machen. Ich wählte genau diesen Maler, weil er parallel zu der Zeit der sogenannten Daguerreotypie gelebt hat. Das war die erste kommerzielle Verwertung von Fotografie im Jahr 1839. Jetzt könnte man ja davon ausgehen, dass die Malerei von Landschaften oder Portraits im Grunde damit obsolet wäre. Und tatsächlich ist es das auch: Ingres konnte mit seinen Gemälden die Realität abbilden. Das war geil, weil es sonst keine Möglichkeit gab, das zu machen. Wenn du jetzt als Maler noch immer gegen die Fotografie gewinnen willst, musst du Dinge malen können, die über die Realität hinausgehen. Erfasse in einem Portrait einer Person die Emotionen, die du über ein Gespräch oder eine Analyse der Person gewonnen hast. Das kannst du dann künstlerisch interpretieren. Die Person leidet zum Beispiel an Gefühlswallungen, wie Depressionen und das soll in dem Bild dargestellt werden? Als professioneller Maler könntest du die Gefühlswelt der Person in Form von abstrakten Objekten, wie schmilzenden Uhren oder einem Effekt, der sich durch das angucken des Bildes aus einem bestimmten Bildes ergibt, erreichen.
Und was ist jetzt mit Musik? Ein Song ist ein Song ist ein Song
Damals am Hofe des Grafen betrat ein junger Pianist und Komponist den Raum. Er blickte sich um und der Graf bat das junge Talent, das er extra aus Österreich hat einreisen lassen an das Cembalo. Dort spielte das junge Genie die erste Version seines neusten Stück dem Grafen vor und dieser klatschte begeistert in die Hände. „Möge der junge Herr dieses Stück doch um ein paar Violinen und Cellisten erweitern, zu unserer aller Freude!“
Und genau das tat das junge musikalische Genie dann auch. Er selbst konnte diese Instrumente zwar nicht spielen, aber er kannte Leute, die das konnten und lud sie bei Hofe ein. Sie übten das Stück, schrieben die Noten auf, verbesserten gemeinsam ein paar Passagen, übten weiter, erschufen neue Melodien speziell für die Fähigkeiten des Bassisten, der Flötistin und der Harfenspielerin. Natürlich durfte die Trommlerin und der Lautenspieler nicht zu kurz kommen. Das Arrangement wuchs und eine große Menge verschiedener Talente glänzten auf der Bühne und spielten diverse Interpretationen des originalen Stückes. Der Graf ist begeistert.
Sequencer?!
Ungefähr 300 Jahre später saßen eine Drummerin, ein Bassist, ein Typ mit einer E-Gitarre und jemand, der richtig gut im Takt auf eine Kuhglocke hämmern kann gemeinsam in einer abgeranzten Bude in einer US-Arbeiterstadt. Sie haben noch einen Keyboarder dabei, der kann zwar gut, aber nicht so schnell spielen. Deshalb sind die Songs alle ein wenig langsamer arrangiert, als eigentlich geplant. Der Keyboarder latscht nun zufällig an einem Computergeschäft vorbei. Dort sieht er im Schaufenster einen ATARI ST. Das Teil hat diese neue MIDI-Schnittstelle, die auch an dem alten Keyboard von ihm dran ist. Was wäre, wenn er seine Passagen nun in den ATARI einspeichert und dann einfach schneller wieder abspielt? Gesagt getan: Die Band kann die Songs nun endlich im vorgegebenen Tempo abspielen. In den letzten Jahrzehnten war das einfach nicht möglich. Dieses MIDI ist echt krass!
Einige Jahre vergehen: Die Band ist mit den MIDI-Noten des Keyboarders über viele Jahre erfolgreich gewesen. Doch Sex, Drugs and Rock and Roll haben den Sänger zu einer Farce gemacht. Tatsächlich hat der Keyboarder die letzten 3 Konzerte in Vertretung sogar selbst gesungen. Die Drummerin ist nur noch besoffen und hält die Takte kaum noch. Der Keyboarder hat sich aber vor kurzem ein Gerät namens „Sampler“ gekauft. Das Ding spielt das Schlagzeug ausreichend gut ab. Es kann sogar Bass-Töne, die man vorher gesamplet hat. Gut, Gitarre klingt extrem künstlich, aber alles andere ist ein total neuer Sound. Der Keyboarder beschließt, alles am Sequencer zu machen und tritt aus der Band aus. Er nennt seine Musik nun „elektronisch“, weil sie auf elektronischen Geräten sequenziert wird. Ha! Scheiss auf Bands. Der Keyboarder hat nun auch eine komplett andere Fanbasis, als die Band vorher und das beste ist: Alle Fans gehörem ihm allein.
Nach Entzug und ein paar gefloppten Alben kaufen sich die verbliebenen Bandmitglieder einen noch krasseren Computer, der den Keyboarder komplett ersetzen kann und sogar Echtzeit-Effekte auf die Gitarre legen kann. Der Sound wird noch brachialer und anders. Die Band ist auf einmal wieder da. Sie machen nun auch noch was mit gesampelten Schallplatten und nennen das neue Zeug „Nu Metal“.
Ach ja: Das Orchester lässt sich ein paar Jahre später auch komplett synthetisch erzeugen. Trotzdem gibt’s noch immer Leute, die sich echte Musiker in einem echten Konzertsaal angucken wollen.
AI-Kunst
Schreibe einen Hardstylebanger, der das Thema Drachen und Atombomben hat. Nustyle, Kickdrum, dunkle Strings
… bitte warte noch 10 sekunden… KI-System ist fertig. [Song anhören]
Oha, cool. Schreibe das noch um in den Style von Mozart und einer abgeranzten Rockband
… bitte warte noch 10 sekunden … KI hat deinen epischen Mozart-Song erstellt. [Song anhören]
Das Ergebnis heutiger Systeme wie Suno, Udio oder Producer.Ai kann teilweise selbst von Profis nicht mehr von „handgemachter“ oder meinetwegen auch am PC sequenzierter Musik nicht mehr unterschieden werden. Zumindest nicht ohne den Song nochmal in seine Bestandteile zu legen. Dazu später mehr.
Das ist ein Fakt. Es gibt noch Faktoren, an denen man ganz klar ein KI-Bild erkennt (und ich meine NICHT die falsche Anzahl von Fingern). Wenn du zum Beispiel ein Demonstrantenbild generierst, wo jemand Schilder hochhält, tauchen in der Menschenmasse überdurchschnittlich oft ähnliche Frisuren oder Haarfarben auf. Noch zumindest. Man erkennt KI-Videos in der Regel noch immer sehr gut an der sehr kurzen Länge und mangelnder Kontinuität. Außerdem sind aktuelle KI-Videos doch noch eher „random“, um es mal in Jugendsprache auszudrücken. Die Resultate der Prompts sind, je länger die Szene wird, noch immer nicht vorauszusehen.
Bis Anfang 2024 war es beim Erstellen von KI-Musik auch noch so, dass man im Grunde einen kurzen Clip bekommen hat, den man immer wieder erweitert hat. Das hat manchmal ganz gut geklappt, zwischendurch aber wurde aus dem Countrysong auf einmal eine K-Pop-Ballade, weil die KI sich auf einmal umentschieden hat. Diese Kinderkrankheiten gibt es nicht mehr. Bis zu 5 Minuten Musik ist von der Kontinuität her komplett okay, selbst die Lyrics sind nicht mehr ganz so hohl, wie noch vor 12 Monaten.
Rückreise durch die Zeit
Gehen wir nochmal zu dem Beispiel mit dem Knilch aus der Renaissance zurück, den Typen mit dem Kammerorchester. Er ist mittlerweile seit vielen Jahren tot, aber seine Musik wird noch immer von Orchestern gespielt. Oder auch von gesampleten Orchestern. Aber nicht von der AI. Die AI kann interpretieren, sie darf aber nicht komplett kopieren, das ist explizit ausprogrammiert worden. Gehen wir nun nochmal zu der Band zurück, damals noch mit Keyboarder. Diese Band tritt auch heute noch auf. Zwar „nur“ im ZDF-Fernsehgarten, aber die Fans wollen die Band noch immer sehen. Und die Fans gucken tatsächlich sogar neue Bands an. Sie kaufen deren Merch, die Stadien und Clubs sind ausverkauft. Gehen wir nun zu dem Keyboarder zurück. Der hat angefangen, ein kleines Setup aus dem Studio auf die Bühne zu nehmen. Er tritt Solo auf und macht dabei so Lichtshows. Auf den Leinwänden laufen sogar Animationen, die er direkt bei einem befreundeten CGI-Artist beauftragt hat.
Was genau macht den Song denn jetzt als Ereignis besser?
Warum treten diese Leute noch auf und wurden nicht von der KI ersetzt? Es liegt nicht an der Produktion des Songs an sich. Jede KI kann einen Song produzieren, Musik ist vermutlich die mathematischste Kunstform der Welt. Aber die Art, wie der Song an einer bestimmten Stelle klingt, das ist das kleine unscheinbare Detail, das dem Hörer in die Wirbelsäule kriecht und diese angenehme Gänsehaut verursacht. Wenn die Stimme des Sängers auf der Platte auf eine bestimmte Art und Weise kratzig klingt, ist das das Ergebnis einer echten, menschlichen Emotion und vermutlich hat der Sänger oder Produzent genau an dieser Songstelle an die verflossene Liebe gedacht. Beim Hörenden erinnert genau diese Stelle an den ersten großen Liebeskummer, einfach weil der Artist an dieser Stelle so klingt. Ein faktisches Beispiel: Smells like teen Spirit ist – nach allen bekannten Standards für Musikproduktion eigentlich ein miserabel aufgenommener Song. Es war aber eine bewusste Entscheidung von Cobain und Co, die ersten paar Töne am Limiter schrabbeln zu lassen, damit das Ergebnis genau so klang, wie es eben klang. Klar hat das im Nachhinein das Genre „Grunge“ irgendwo neu definiert, aber KI kann dieses Verfahren nur replizieren, nicht erfinden.
Fazit
Kunst ist nicht die Tatsache, dass man den perfekten Song macht oder das perfekte Foto. KI arbeitet maßgeblich auf Basis von Wahrscheinlichkeiten. Das sorgt dafür, dass ein KI-Song tatsächlich ‚besser‘ wirkt, als alles, was ein Mensch erschaffen könnte, denn er ist maximal sicher und erwartbar. Die KI kann uns perfekt imitieren, aber sie imitiert immer den Durchschnitt des Erlaubten.
Die KI kann den Stil von Hans Zimmer kopieren, aber sie wird niemals einen Akkord anders setzen, als es das erlernte Muster verlangt. Der Mensch hingegen hat den Willen zur Abweichung. Als ‚Marcel‘ kann ich mich bewusst gegen das ‚Bessere‘ entscheiden, weil ich einen Moment erschaffen will, der besser als perfekt ist – nämlich einzigartig. Ich kann den Limiter schrabbeln lassen, weil ich will, dass sich die emotionale Wut des Songs im physischen Klang ausdrückt.
Der Unterschied ist nicht die Perfektion, sondern die Absicht: KI liefert die bestmögliche Antwort. Der Künstler liefert die unwahrscheinlichste Frage. Unser Wert liegt nicht mehr in der Fähigkeit, die Regeln zu beherrschen, sondern in der Entschlossenheit, sie zu brechen.


Schreibe einen Kommentar