// 11.05.2026

KI-Musik oder watt?

11. May 2026
KI-Musik oder watt?

Kleiner Disclaimer am Anfang: Meine Frau und meine Kinder sind jetzt mein einziges Lebensziel und nichts ist wichtiger. Aber Musik war's eben vor meiner Beziehung mit meiner Frau und erst recht vor meinen Kindern.

Wenn mich jemand früher gefragt hat, was mir das allerwichtigste im Leben ist, war meine Antwort stets: Musik - die Musik, die mich mein Leben lang begleitet hat und dafür sorgt, dass in meinem Kopf immer und zu jeder Zeit ein Mixtape läuft. Mein Leben hat immer einen Soundtrack gehabt. Ich habe in Stress-Situationen immer die Melodie von „Psycho“ im Kopf, bei tiefster Entspannung ist es irgendwas von Alan Silvestri oder John Williams. Ich fühle Punk, wenn ich mich revolutionär fühle. Ich bin mit Leuten wie Jean Michel Jarre oder Carlos Santana groß geworden. Cat Stevens und Jethro Tull haben mich Ehrfurcht gelehrt.

Klar, ich wurde dann über Breakdance-Musik (Rocksteady Crew) irgendwann auf House und Techno aufmerksam. Damals nannte man das noch Computermusik und Bands fühlten sich davon bedroht, dass man jetzt mit einem Atari ST und Cubase angeblich keine Bands mehr braucht. Wir alle wissen, dass sich das massiv geändert hat. Heutige Produktionen kommen ohne Tonstudio und Musiksoftware nicht mehr aus. Der Mensch ist immer die letzte Instanz.

KI Musik stellt das auf den Kopf

Wie funktioniert KI-Musik überhaupt?

Die KI-Firmen haben alle möglichen Musikstücke und Sounds gespeichert. Aber tatsächlich nicht als „Song“, sondern statistische Daten, die genau wie Bilddaten aufbereitet sind. Der Screenshot hier vom Cubic Player zeigt das ziemlich deutlich:

Bild

Je heller ein Punkt ist, desto lauter ist der Ton, je weiter unten der Ton ist, desto tiefer ist er. Schwarz stellt Stille dar.

KI wurde angelernt, ursprünglich haben Menschen bestimmte Songs nach Genre, Stimmung, Tonart und so weiter in die KI-Systeme reingekippt. Statistisch gesehen sieht eine Kickdrum halt immer gleich aus, ein Sägezahnsynthesizer sieht auch in jedem Song gleich aus. Die KI weiß nicht, was ein A-Moll-Akkord ist, aber statistisch gesehen, sehen die Wellenformen immer gleich aus.

Es gibt mehrere Arten von Datensätzen, die eine erfolgreiche „Generierung“ von KI überhaupt erst möglich machen.

Öffentliche Archive, wie zum Beispiel Jamendo, die Creative Commons-Content hosten, wurden zuerst abgegrast. Dann wurden große Archive wie Youtube gescannt. Dank der Metadaten, die solchen Files immer beiliegen, kann die KI die Sprache überhaupt erst verstehen.

KI nimmt also als erstes ein Rauschen und filtert nach und nach die Frequenzen raus, die nicht zu einem Lied passen. Die Metadaten ergeben sich aus den ID3-Tags der MP3-Daten, mit denen die KI gefüttert werden. Oder aus den Dateinamen. Wenn du zur KI sagst, dass du einen Song im Stil von Joe Cocker haben willst, werden halt alle Datensätze, die irgendwie mit diesem Künstler zusammenhängen auf statistische Übereinstimmungen gesucht. Wenn Joe Cocker deutsch singen soll, werden die typischen Eigenschaften von deutschen Wellenform-Bildern übereinander gelegt.

Ein Klavier sieht statistisch auch immer gleich aus. Natürlich gibt es noch ein Modul in KI, das deinen Prompt so umformuliert, dass die Musiksynthese-KI versteht, was du eigentlich willst.

Eine KI hat also nicht gelernt, sie hat nur die größte Musiksammlung der Welt analysiert und in neuronalen Netzen die Wahrscheinlichkeiten gespeichert, welcher Akkord in der Regel auf einen anderen Akkord kommt oder wie ein gesungenes A klingt. Aus mehreren Petabytes an Daten entsteht so ein vergleichbar übersichtliches Gigabyte-Modell. Da Musik an sich relativ mathematisch ist, gibt's viele Zusammenhänge und statistische Daten, die immer gültig sind: 4/4-Takt, auf ein G-Dur folgt sehr oft ein C-Dur. F-Dur, G-Dur und A-Moll sind typisch für Eurodance der 90er-Jahre und so weiter.

Warum das für Musiker sehr frustrierend ist

Entwertung des handwerklichen Prozesses

Musik machen ist ein künstlerisches Handwerk. Man lernt Fingersatz auf dem Klavier. Man lernt Griffe auf der Gitarre. Das bedeutet Hornhaut auf den Fingerspitzen. Schlagzeug spielen verlangt Koordination von Armen und Beinen. Das Abmischen eines Songs setzt ein gutes Gehör voraus. Welche Klänge müssen per Equalizer entzerrt werden? Wie kriege ich mehr Bass? Wie stelle ich mein Tonstudio so ein, dass ich keine Verzögerungen beim Einspielen der Noten habe?

Blackbox-Effekt

Aufgrund der Art und Weise, wie KI Musik erstellt, hast du nicht wirklich viel Einfluss auf den Song. Du kannst nicht nachträglich mehr Reverb auf die Stimme legen oder die Kickdrum austauschen. Du kannst aus der Violine kein Cello machen. Das einzige, was du machen kannst, ist den Prompt anpassen und hoffen, dass die neue Version genau so gut klingt, wie die vorherige Version auch, aber mit den gewünschten Änderungen. Das klappt manchmal, aber tatsächlich viel öfter nicht. Außer, es ist dir total egal, dann klappt's immer

Enteignung

Machen wir uns nichts vor: Weder Google, noch Antrophic oder Suno hat irgend jemandem Geld dafür bezahlt, die Songs in KI-Daten umzuwandeln. KI-Modelle basieren auf der Arbeit von Millionen von Musikern, die über Jahrhunderte Lieder geschrieben haben. KI hat den Rhythmus, die Melodien, das Sounddesign analysiert. Sogar das Gefühl wurde analysiert und in mathematische Formeln gepackt. Aber kriegt ein normaler Dude, der vorher tausende von Euro für sein Heimstudio ausgegeben hat, einen Cent dafür? Nein. Die Kunst wird auf den Servern der großen Tech-Bros gespeichert und an die treudoofen Idioten, die Suno Premium bezahlen, verkauft.

Das Gefühl

Musiker leiden beim Schreiben eines Songs. Sie lachen. Sie sind wütend. Sie sind vielleicht sogar völlig drauf und schießen sich Cobain-mässig die Rübe weg. „Jeder, den Sie kennen, kämpft in einer Schlacht, von der Sie nichts wissen. Sei nett Immer.“ - das sagte Robin Williams einmal. Unsere Kunst macht uns zu dem Künstler der wir sind. Oder zu der Künstlerin. Ich finde es moralisch verwerflich, Gefühle in Checklisten zu speichern, um daraus ein emotionales Werk zu bauen. Eine KI weiß nicht, was Liebe, Verlust, Wut oder Trauer ist. Sie hat es nicht gefühlt, sondern lediglich irgendwo abgespeichert.

Was mich halt am meisten stört

Jemand, der promptet, macht keine Musik. Er geht in den Gemischtwarenladen und pickt sich das beste aus allen Waren heraus, mischt das ordentlich durch, durchsiebt es dann und kriegt am Ende einen Song, der leider wirklich gut sein kann. Und das in unter einer Minute. Das Ergebnis von KI-Musik ist halt wirklich nicht schlecht, aber als musikschaffende Person tut mir dieser Prozess wirklich weh. Ein KI-"Komponist" hat nicht komponiert. Er hat sich von einem Computer Zeug zusammensammeln lassen, für das jemand anders, der sich monatelang über den Sound eines Klaviers Gedanken gemacht hat nicht einmal Geld bekommt. Überflüssigerweise darf dieser „Prompt-Producer“ sein Lied auch noch bei Spotify hochladen und steht damit in direkter Konkurrenz mit dem Musiker, der vielleicht auch epische Orchesterstücke schreiben könnte, wenn er denn ein Zugriff auf ein komplettes Orchester hätte.

Als ob die Konkurrenz unter Musikern auf solchen Plattformen nicht eh schon groß genug wäre, kommen jetzt noch die „Nicht-Musiker“ dazu, die die Server zumüllen und in den Ohren von „normalen Menschen“ nicht von KI unterscheidbar sind.

Fazit

KI kann ein Hilfsmittel sein. Aber noch immer muss ich mein Klo selbst putzen. Ich muss mein Bett selbst beziehen. Musik und Malerei waren bisher mein Ausgleich und das kann die KI besser als ich es jemals könnte. Deshalb habe ich mein komplettes Portfolio an Musik bei Spotify und Soundcloud gelöscht. Ich kann nicht damit konkurrieren.

Image by Bruno from Pixabay

Cover