KI (Künstliche Intelligenz) oder AI (Artificial Intelligence) ist spätestens seit der Deepfake-Debatte um Hollywoodstars in aller Munde. Die technische Errungenschaft dieser Systeme besteht darin, dem Computer Arbeiten zu überlassen, die früher von Menschen manuell ausgeführt werden mussten. Bei einem Deepfake musste der Kopf eines Stars ausgeschnitten und in das Zielmaterial eingefügt werden, dann mussten Beleuchtung, Hautfarbe und so weiter angepasst werden, bis das Ergebnis perfekt gefälscht war. Natürlich braucht man dafür gute Photoshop-Kenntnisse, aber wenn man das einmal verstanden hat, ist es eigentlich nur noch Fleißarbeit. Und genau hier kommt die KI ins Spiel. Der Prozess der Bildbearbeitung für Deepfakes ist eine ständige Wiederholung und alles, was man wiederholen kann, kann man automatisieren.
Neben der Bildbearbeitung können KIs auch Texte „verstehen“ und in neue Bilder umwandeln. Ich kann der KI sagen, dass sie einen lilafarbenen Lamborghini auf eine grüne Wiese stellen soll:
Im Prinzip kommt da dann irgendwann so etwas dabei raus. Extremst(!) vereinfacht funktioniert Stable Diffusion so:
- Erzeuge Rauschen
- Verfeinere das Rauschen schrittweise, bis es dem Zielbild ähnlicher wird
- wiederhole den 2. Schritt, bis das Zielbild erreicht ist
Dabei greifen diese Modelle auf einen Pool aus Daten zurück. In diesem Bilderpool gibt es Katzen, Autos, Farben und so weiter. Das sind nicht wirklich „Bildinformationen“, wobei der Pool durchaus schon ein paar zig Gigabytes groß sein kann, sondern sogenannte KI-Modelle. Die heißen dann eben ganz einfach Stable-Diffusion V1.x oder superrealisticxyz.
Um diese Technik zu benutzen, braucht man einen Server, der sowohl die Sprache versteht, den sogenannten Prompt, als auch eben eine Bildgenerierungssoftware. Als ich begann, mich mit dem Thema auseinander zu setzen, ging alles nur über irgendwelche Websites. Midjourney, Dalle2 und wie sie alle heißen. Grundsätzlich ist das ein toller Einstieg, aber meistens kann man nur eine bestimmte Anzahl von Bildern generieren.
Daher war für mich von Anfang an klar, ich will das auf meinem PC. Der ist schnell genug für aktuelle Spiele, dann wird der auch Bilder und sogar Voices generieren können.
Anforderungen
Grafikkarte von Nvidia
KI-Generatoren brauchen jede Menge RAM und extremst schnelle Fließkommaberechnungen. RAM ist heute wohl nicht mehr wirklich ein Thema. 4 Gbyte RAM auf der Grafikkarte und 16 GByte RAM sollte heute wohl jeder besitzen. Fließkommaberechnungen gehen mit jeder normalen CPU, aber dauern 10x so lange, wie auf einer Grafikkarte. Und leider geht AMD nicht immer, es muss eine halbwegs aktuelle NVidia-Karte sein. Die muss nicht mal RTX können, aber KI-Operationen verwenden CUDA, um sehr komplexe parallele Berechnungen durchzuführen. Manche Skripte unterstützen bestimmte AMD-Befehlssätze, die im Grunde dasselbe machen, wie NVIDA, aber eben nicht alle. Ohne NVIDIA kannst du also eigentlich schon fast wieder aufhören.
Speicher, Speicher, Speicher
Modelle sind abstrakte Sammlungen von Bildinformationen oder Sprachinformationen oder Textinformationen. Die brauchen Platz. Ein Stable-Diffusion-Modell kann durchaus 1-11 Gbyte groß sein. Ich hab für Fotobearbeitung hier ein 15 Gbyte großes Modell gespeichert. Diese Modelle lassen sich sogar kombinieren.
Python
Fast alle KI-Systeme sind in Python geschrieben worden. Es hilft, wenn du es installiert hast, aber ich habe bewusst Systeme herausgesucht, die keine globale Python-Installation benötigen. Besser ist sogar Anaconda, das ist ein System, bei dem eine bestimmte Python-Umgebung bereit gestellt wird.
Grafiken erstellen
Mir persönlich waren zuerst die ganzen Bildgeneratoren bekannt. Daher fange ich damit mal an. Du kannst dir lokal eine Art „Midjourney“ installieren, wobei ich zugeben muss, dass das Midjourney-Modell wirklich verdammt gut ist und deshalb auch kommerziell. Es gibt Webseiten mit kostenlosen, sehr guten Modellen, die bestimmte Teilbereiche super abdecken. Für den Mac gibt’s DiffusionBee. Das installiert man sich einfach und bekommt eine Mac-typisch einfach zu bedienende Software, die dir Grafiken erstellt. Für eigentliche ALLE PC-Betriebssysteme gibt’s Easy-Diffusion, eine Skriptsammlung, die beliebig viele eigene Modelle erlaubt, sich bei jedem Start selbst updated und über eine Weboberfläche gesteuert wird.
Tote Synchronsprecher
Eigentlich hatte ich vor, hier einen Youtube-Clip einzubauen, in dem Tom Hanks in einem aktuellen Film mit der „alten“ Originalstimme spricht. Gescheitert bin ich, weil ich es nicht geschafft habe, ein adäquates Voice-Modell von Arne Elsholtz zu erstellen. Arne war, bis zu seinem Tod, die Hauptstimme von Bill Murray, Tom Hanks und Kevin Kline. Er hat eine fantastische, lustige, ernste Stimme gehabt, die ich persönlich insbesondere bei „Flug des Navigators“ gemocht habe. Prinzipiell ist es nämlich möglich, auf Webseiten wie www.voice.ai zum Beispiel eine kleine Software herunter zu laden, die allerdings dann doch wieder mit der Cloud verbunden ist.
Aber auch hier geht lokal einiges. Mit dem Skript vom RVC-Projekt kannst du dir lokal eine Voice-AI installieren, eigene Modelle hosten und sogar neue Voice-Modelle erstellen. Auch hier gilt: Du lädst dir das Repository herunter, startest ein Shellskript und das Programm macht den Rest. Hier gilt aber auch: Ohne Nvidia-Karte oder Apple Silicon-CPU geht erst mal nichts.
Das Trainieren eines Voice-Modells dauert wirklich sehr lange, das solltest du immer im Hinterkopf behalten. Und wenn das Ausgangsmaterial nicht gut oder nicht viel ist (das war mein Problem bei dem Arne-Modell, ich habe nur ein Interview ohne Hintergrundgeräusche gefunden, aber vermutlich werde ich Voice-Extraction mit Spleeter machen). So gut die neue Stimme von Hanks oder Murray auch ist: Ich bin ein 80er-Filmkind und für mich ist das nun mal die Stimme.
Beklopptes SEO mit künstlicher Intelligenz bzw. Sprachmodelle
Spätestens ChatGPT hat dafür gesorgt, dass sich auf einmal jeder für einen KI-Experten hält. Sätze wie „ChatGPT richtig prompten, um vernünftige Antworten zu bekommen“ habe ich tatsächlich bei LinkedIn schon gesehen. Und ja; ich bin Fan von ChatGPT oder auch Google Bard. Ich nehme deren Antworten nicht ernst, weil da bei meinen Fragestellungen grundsätzlich nur Quark bei raus kommt, aber ich mag den technischen Aspekt eines „Assistenten“ schon sehr gerne. ChatGPT und Google Bard laufen auf superteuren Cloudsystemen mit hunderten von Grafikkarten. Sprache verstehen und adäquat drauf antworten ist noch mal eine andere Liga, als Bilder zu generieren oder die Stimme zu modellieren. Pixelfehler oder Soundknackser können wir verzeihen. Komische Satzbildungen oder gar Lügen gehen aber gar nicht.
Wie gesagt: Eigentlich braucht man also seinen eigenen Serverpark. Aber mit Alpaca/Llama geht auch das lokal. Das offizielle Projekt der Uni Stanford ist zwar nicht mehr online, aber es gibt Leute, die sich die Codes geforked haben. Fairerweise muss ich zugeben, dass ich mich damit aber noch nicht selbst beschäftigt habe. Ich schreib nämlich schon selbst ganz okay 😉 – Spaß beiseite: Sprachmodelle interessieren mich nicht, weil sie stark lügen und sich nicht an Fakten halten.
Fazit
Künstliche Intelligenz (KI) wird immer ausgefeilter und wird jetzt verwendet, um Bilder und Stimmen zu generieren. Diese Technologie hat das Potenzial, die Art und Weise, wie wir mit Medien interagieren, grundlegend zu verändern. Eines der fortschrittlichsten KI-Systeme für die Bildgenerierung ist Stable Diffusion. Stable Diffusion arbeitet, indem es Rauschen erstellt und dann schrittweise verfeinert, bis es dem Zielbild ähnelt. Diese Technologie kann verwendet werden, um realistische Bilder von allem zu erstellen, von Personen und Orten bis hin zu Objekten und Lebewesen. KI wird auch verwendet, um Stimmen zu generieren. Eines der beliebtesten KI-Systeme für die Stimmgenerierung ist RVC. RVC kann verwendet werden, um realistische Stimmen von Personen zu erstellen, die nicht existieren. Diese Technologie kann für eine Vielzahl von Anwendungen verwendet werden, z. B. für Filme, Videospiele und Werbung. KI ist eine leistungsstarke Technologie, die das Potenzial hat, die Art und Weise, wie wir mit Medien interagieren, grundlegend zu verändern. Diese Technologie ist noch in der Entwicklung, aber sie hat das Potenzial, eine große Wirkung auf die Welt zu haben.