Banner st-gerner.de

Blog

Experimente mit KI-generierten Bildern

geschrieben von Stephan am 2023-02-09 20:38:59

In der Internet-Agentur, für die ich arbeite, experimentieren wir seit wenigen Wochen mit Künstlicher Intelligenz: Eine KI für Texterstellung könnte uns in Zukunft möglicherweise dabei helfen, SEO-Texte zu schreiben, während eine KI zur Bildgenerierung vielleicht Screen-Designs entwerfen könnte. Noch sind wir ganz klar in der Experimentierphase und probieren rum, was so alles möglich ist. Dennoch: Spätestens seit einem Projekttag Anfang Februar 2023 bin ich auch persönlich sehr von KI-Bilderstellung fasziniert! Daher habe ich mir auch einen privaten Account erstellt und angefangen, nach Feierabend in meiner Freizeit weiterzuspielen. Was dabei herausgekommen ist und ob die Ergebnisse meinen Vorstellungen entsprechen, das klären wir im folgenden Text.

Der Bildgenerator, den wir in der Firma nutzen und den ich jetzt auch privat verwende, nennt sich Midjourney. Die Registrierung und auch die Bedienung erfolgt hierbei über Discord. Eine kurze Testphase (ca. eine halbe Stunde aktive Arbeitszeit) ist kostenlos, danach ist ein kostenpflichtiges Abo notwendig: Der günstigste Preis beginnt bei 8 US-Dollar pro Monat und ist dann auf 200 Bilder pro Monat begrenzt - teurere Abos ermöglichen unendlich viele Bilder.

Midjourney bietet unterschiedliche Möglichkeiten. Für die ersten Tests habe ich einfach (auf Englisch) ein paar kurze Beschreibungen gemacht und nur mal geschaut, was rauskommt. Die Ergebnisse wissen zu gefallen: Eine japanische Winterlandschaft mit Tempel, eine Katze, die mit dem Weihnachtsbaum spielt, ein kleiner Junge, der mit einem Papagei schmust oder ein majestätisches Schloss in einer Vollmondnacht: Da hatte ich noch nicht allzu genaue Vorstellungen, aber die Ergebnisse gefallen mir sehr gut. Und ein zweites Schloss mit Gewitter und Drache ist richtig episch geworden - wow!!

Hinweis: Die meisten Bilder in diesem Artikel können durch Anklicken vergrößert werden. Die Vollansichten der meisten Bilder lagern bei Flickr. Dadurch verlassen Sie mein Webangebot. Die Datenschutzhinweise von Flickr finden Sie unter diesem Link.

 

KI-generiertes Bild: Japanischer Tempel im Winter

KI-generiertes Bild: Katze klettert im Weihnachtsbaum

 

 

KI-generiertes Bild: Junge mit Papagei

KI-generiertes Bild: Schloss bei Nacht

 

KI-generiertes Bild: Schloss bei Nacht mit Drache

Wenn ich nicht allzu genaue Vorgaben mache, können die Ergebnisse also durchaus gut werden. Wenn ich aber einfach irgendeine schöne japanische Winterlandschaft oder irgendein Schloss bei Nacht sehen will, dann kann ich genauso gut tausende Fotos in der Google-Bildersuche durchscrollen, dazu bräuchte ich keine KI. Sinn und Zweck der KI ist es ja eher, dass ich - selbst zeichnerisch völlig unbegabt - nun auch Bilder ganz nach meinen Vorstellungen erstellen lassen kann.

Um zu überprüfen, ob auch das klappt, war mein zweiter Gedanke: Könnte die KI auch die von mir geschriebenen Geschichten illustrieren? Mit der Kurzgeschichte Eine Welt ohne Weihnacht hat das tatsächlich ganz gut funktioniert: Mir gefällt besonders der verwirrte Kilian in der winterlichen, jedoch unweihnachtlichen Fußgängerzone, aber auch das Bild von Kilian und dem alten Mann in der Kirche ist sehr gut geworden.

 

KI-generiertes Bild: Eine Welt ohne Weihnacht - Kilian in der Fußgängerzone

KI-generiertes Bild: Eine Welt ohne Weihnacht - Kilian und der alte Mann in der Kirche

 

Eine Welt ohne Weihnacht ist aber auch noch eine relativ "normale" Geschichte. Nicht ganz so gut geklappt hat es dagegen mit meinem Fantasy-Kinderbuch Teufelstinte. Gut gelungen sind etwa der Besuch der Schneeeule Eulalius bei Florian sowie Florian und Kari beim Rätsellösen in der Höhle. Das Rätsel sollte zwar eigentlich am Boden stehen, nicht an der Wand, aber das hat die KI schon mal nicht hingekriegt. Macht nichts, damit kann ich noch leben!

 

KI-generiertes Bild: Teufelstinte - Eulalius bei Florian

KI-generiertes Bild: Teufelstinte - Florian und Kari in der Rätselhöhle

 

Überhaupt nicht hinhauen wollte dagegen eine Schlüsselszene aus Kapitel 3: Florian fliegt im Schlitten des Weihnachtsmanns über die Wüste, Eulalius fliegt nebenher. Die KI hat aber partout nicht kapiert, dass ich eine Eule neben einem Schlitten herfliegen lassen wollte. Stattdessen hat die KI versucht, die Eule mit dem Schlitten zu fusionieren: Heraus kamen durchaus interessante weiße Schlitten mit Flügeln in Form eines Eulenflügels - aber das passt eben nicht zur Geschichte! Doch auch als ich die Eule weggelassen habe, hat es immer noch nicht funktioniert, Florian in den Schlitten zu setzen. Letztlich ließ ich auch den Schlitten weg und setzte den Jungen einfach auf den Rücken des Rentiers. Das Bild, das dabei herausgekommen ist, sieht halbwegs brauchbar aus (auch, wenn dieses Huftier definitiv kein Rentier ist), aber es ist schon sehr weit von der Geschichte entfernt - und erst zu spät fiel mir auf, dass das merkwürdige Huftier dummerweise drei Hinterbeine hat!

KI-generiertes Bild: Teufelstinte - Florian fliegt auf Kari

Weitere Bilder zu anderen Szenen sind - mit ein paar Abstrichen - durchaus okay, es tut sich aber noch ein weiteres Problem auf: Der Junge, der Florian darstellen soll, ist nicht immer der gleiche, sondern sieht im Gegenteil auf manchen Bildern völlig anders aus! Das ist für eine durchgängige Geschichte mit gleichbleibenden Charakteren dann natürlich nicht so toll.

Hierzu fand ich allerdings eine Lösung im Internet: Es ist möglich, Midjourney die URL eines bereits vorhandenen Bildes mitzuliefern, das das Tool dann weiterverwurstet. Ich muss also zunächst einen Jungen ohne Hintergrund erstellen und das Bild abspeichern. Danach muss ich Midjourney genau dieses Bild wiedergeben, damit es genau diesen Jungen weiterverwenden kann. Meinen Test-Jungen habe ich Markus getauft (wobei dieser Name keine tiefere Bedeutung für mich hat) und es kamen auch durchaus gute Ergebnisse raus, als ich Markus in einen Wald oder an die Schultafel gestellt habe. Wenn es aber um andere Körperhaltungen ging, ist die KI sehr schnell gescheitert. Über einen Versuch, Markus über ein Fußballfeld rennen zu lassen, reden wir besser nicht weiter: Gliedmaßen, die anatomisch so niemals möglich wären, und auch ihre Anzahl hat teilweise nicht gepasst. Hier stößt die KI also doch an ihre Grenzen. Einen x-beliebigen 08/15-Jungen hätte ich dagegen problemlos über ein Fußballfeld laufen lassen können, er hätte dann aber eben womöglich ganz anders als Markus ausgesehen - Experiment in diesem Punkt gescheitert!

KI-generiertes Bild: Markus   KI-generiertes Bild: Markus im Wald   KI-generiertes Bild: Markus in der Schule

Aus der Möglichkeit, Midjourney eigene Bilder als Grundlage unterzujubeln, entwickelten sich in mir aber ganz schnell neue Ideen. Der erste Versuch war, einen Freund und mich selbst in Manga-Figuren zu verwandeln. Als Grundlage diente ein Selfie von uns beiden vor Stonehenge aus dem England-Urlaub letztes Jahr. Was Midjourney daraus mit der Vorgabe "Manga Style" gemacht hat, gefällt mir tatsächlich gut!

Foto von Stonehenge
Mit diesem Foto habe ich die KI gefüttert: Selfie vor Stonehenge

 

KI-generiertes Bild: Ein Freund und ich als Manga-Helden

KI-generiertes Bild: KI-generiertes Bild: Ein Freund und ich als Manga-Helden

 

Genauso schön wurde das Ergebnis auch, als ich ein paar befreundete Kinder in Comic-Superhelden verwandelt habe und als ich schließlich mein eigenes Passbild mit einem Wellensittich kombiniert habe: Es kann Einbildung sein, aber ich meine, dass der Piepmatz tatsächlich meine Gesichtszüge aufweist!

 

KI-generiertes Bild: Kinder als Comic-Superhelden

KI-generiertes Bild: Ich als Wellensittich

 

Nächste Idee: Kann man mit der KI vielleicht auch Phantasie-Charaktere "professionell" zum Leben erwecken? Es käme auf einen Versuch an!

Das Maskottchen des Radiosenders Kibo.FM, bei dem ich hobbymäßig mitmache, heißt Kibo und ist ein kleines Reisbällchen mit Augen. Was Midjourney mir da zu liefern versucht hat, hat aber mit dem "echten" Kibo herzlich wenig zu tun, so dass ich diesen Versuch irgendwann aufgegeben habe. Ich merke also: Phantasie-Figuren kann Midjourney zwar gestalten, ich darf aber echt keine eigenen Vorstellungen haben, denn es ist schwer bis unmöglich, diese der KI verständlich zu machen. Hätten wir dagegen bislang noch kein Maskottchen für den Radiosender, dann könnten wir eine dieser lustigen Kreaturen vielleicht tatsächlich als Grundlage verwenden.

Ebenfalls nicht funktioniert hat der Versuch, Midjourney einfach ein fertiges Artwork des echten Kibo mitzugeben. Die KI hat einfach nicht verstanden, dass das ein Reisbällchen mit Augen sein soll: Beim ersten Anlauf wurde daraus ein Hinkelstein, bei der Wiederholung eine Frau. Die Bilder sind für sich genommen zwar sehr schön, erfüllen aber beim besten Willen nicht den Zweck, den ich im Sinn hatte!

KI-generiertes Bild: Entwürfe für Kibo   KI-generiertes Bild: Kibo als Hinkelstein   KI-generiertes Bild: Kibo als Frau

Manche Stammbesucher dieser Webseite von vor 20 Jahren erinnern sich möglicherweise auch noch an Elsi und Hülzern, zwei Plüsch-Vögel, mit denen wir damals ein paar lustige Filmchen gedreht haben. Beim Versuch, eine "weiße Gans" und eine "gelbe Ente" zu generieren, kam dann allerdings zunächst nur eine Gans raus - in Weiß mit ein paar gelben Federn. Ein zweiter Versuch generierte zwar zwei Tiere, nur leider beides weiße Gänse - von der gelben Ente Hülzern nirgends eine Spur! Midjourney hat noch echte Probleme damit, wenn mehrere Lebewesen im Bild erscheinen sollen, oft werden diese dann miteinander verschmolzen. Tatsächlich wie erwartet funktioniert hat die KI dann aber, als ich heute für einen Kollegen ein Fusionswesen aus Krokodil, Katze und Schaf generiert habe: Hier sieht das Ergebnis so aus, wie ich es erwartet habe (na gut, etwas flauschiger könnte die Kroko-Katze schon noch sein) - aber hier wollte ich ja auch eine Fusion haben und nicht die drei Tiere nebeneinander!

Und auch der Versuch, der KI ein Foto des echten Hülzern-Plüschtiers mitzugeben, hat nicht zum gewünschten Ergebnis geführt. Das Bild ist an sich gut, keine Frage! Aber Hülzern sieht immer noch zu sehr nach einem Spielzeug aus, nicht nach einer echten Ente, was ich eigentlich erreichen wollte. Mehr noch: Auch die Umgebung passt sich dem Stil an und sieht aus wie Spielzeug. Wie gesagt: Das Bild an sich ist echt gut - es ist nur nicht das Ergebnis, das ich mir gewünscht hätte!

KI-generiertes Bild: Eine weiße Gans   KI-generiertes Bild: Zwei weiße Gänse   KI-generiertes Bild: Krokodil-Katzen-Schaf
KI-generiertes Bild: Hülzern in einer Spielzeugwelt

Zwischenfazit: Midjourney ist eine sehr spaßige Spielerei. Wenn man einfach offen für Überraschungen ist, dann wissen die meisten Ergebnisse wirklich zu überzeugen. Je genauer allerdings die eigenen Vorstellungen werden, desto engere Grenzen werden gesteckt. Wofür könnte ich die KI nun aber im Alltag gebrauchen? Tatsächlich vielleicht für Ankündigungen unserer Radiosendungen auf Social-Media-Plattformen!

Ich bin mit dafür verantwortlich, die Sendungen von Kibo.FM auf Facebook, Twitter, Instagram und Co. anzukündigen. Dazu brauche ich auch jedes Mal ein Bild als Blickfang. Bisher habe ich mich dafür meist in meinem eigenen Foto-Archiv bedient - und wenn dort kein passendes Foto zu finden war, dann habe ich eben eines unter einer freien Lizenz im Internet gesucht. Auch Midjourney bietet hier nun gute ergänzende Möglichkeiten. Die ersten Tests waren bereits erfolgreich, einige dieser Bilder finden sicher in den nächsten Wochen tatsächlich Verwendung!

Das erste Bild symbolisiert die Gaming-Show Pilze-Wunderland on air - der riesige Pilz im Wald wirkt richtig atmosphärisch! Die Bilder 2 und 3 stehen für die Klassik-Sendung Fumei no Symphony, entsprechend mit Live-Orchester: Einmal in einer Schneelandschaft für den Winter, einmal als Skelette in einem Spukhaus für die Zeit um Halloween. Und lustig ist auch Bild 4: Das ist die Eurobeat-Sendung Night of Fire - eigentlich hatte ich mit dem Auftrag "Salad Monster Dancing in Fire" ein Endivie (ein Pokémon und mein Maskottchen) im Hinterkopf, aber dieses rundliche Salat-Ungeheuer gefällt mir ebenfalls!

 

KI-generiertes Bild: Pilze-Wunderland on air

KI-generiertes Bild: Fumei no Symphony (Winter)

 

 

KI-generiertes Bild: Fumei no Symphony (Halloween)

KI-generiertes Bild: Night of Fire

 

Für die Sendung Disney Diamanten ließ ich schließlich eine Micky Maus mit Diamant in der Hand erstellen. Das Bild ist super geworden, doch als ich unten rechts eine kleine Signatur entdeckte, bin ich erstmal erschrocken. Hatte Midjourney hier etwa ein fremdes Bild kopiert?

Nach umfassender Internet-Recherche kann ich mich selbst beruhigen: Es ist keine echte Signatur eines echten Künstlers. Midjourney wurde jedoch mit Millionen von Bildern trainiert, die aus dem ganzen Internet zusammengetragen wurden. Nicht wenige dieser Bilder werden eine Künstler-Signatur gehabt haben, und so kam die Künstliche Intelligenz wohl zu dem Schluss, dass bei bestimmten Gemälde-Typen eine Signatur eingefügt werden muss. Diese steht aber, wie gesagt, für keine echte Person, sondern ist reine Phantasie.

Tatsächlich wurde - vor allem aus Künstlerkreisen - aber doch der Vorwurf laut, dieser und ähnliche KI-Bildgeneratoren wären nur eine riesengroße Copyright-Verletzung. Immerhin hätte ja niemand die Künstler gefragt, ob sie damit einverstanden sind, wenn die KI mit ihren Werken trainiert wird. Wer hier im Recht ist, die Künstler oder die Entwickler der KI, das ist aktuell noch nicht geklärt. Ich persönlich als juristischer Laie sehe hier aber keine Copyright-Verletzung, sondern eher eine Art Inspiration. Die KI übernimmt keinen einzigen Teil irgendeines Bildes 1:1 - das wäre auch technisch gar nicht möglich, da keine existierenden Bilder in der Datenbank hinterlegt sind. Jedes neue Bild wird von Grund auf neu erstellt - natürlich orientiert sich die KI dabei an den vielen Bildern, die sie gesehen hat, aber ganz ehrlich: Welcher echte Künstler aus Fleisch und Blut tut das nicht? Selbst wenn es nur unterbewusst geschieht: Alles, was ihr in eurem Leben seht, hat in gewissem Maße Einfluss auf eure Entwicklung und somit auch auf eure Bilder - oder etwa nicht?

KI-generiertes Bild: Micky Maus mit Diamant

Weitere Bilder auf Flickr: AI-generated Images

Ein weiterer Kritikpunkt, den ich aufgeschnappt habe, war die Befürchtung, die KI könne über kurz oder lang die echten Künstler ersetzen. Auch diese Gefahr sehe ich zum jetzigen Zeitpunkt nicht einmal ansatzweise. Vielleicht irgendwann einmal, ja, aber das kann noch 10 Jahre oder länger dauern. Denn zum jetzigen Zeitpunkt sind den Umsetzungsfähigkeiten der KI einfach noch viel zu enge Grenzen gesetzt und es ist noch lange nicht alles möglich. Ja, die KI kann echt coole Bilder erstellen und ist dabei auch richtig schnell - aber wie ich in diesem Artikel mehrfach gezeigt habe, muss man dabei möglichst alle eigenen Vorstellungen über Bord werfen. Wer das nicht will oder kann, dem bleibt es nur, selber zu zeichnen oder eben einen echten Künstler zu beauftragen.

Nachtrag am 11.02.2023

Na, inzwischen klappt es ja doch, die gleiche Figur in verschiedenen Szenen zu platzieren! Doch beginnen wir am Anfang: Die Entwickler von Midjourney geben jeden Tag ein so genanntes Daily Theme bekannt, zu dem die Community dann fleißig Bilder kreieren darf. Ich entdeckte die Daily Themes am Abend des 9. Februar, als gerade das Thema "Dinosaurier" aktiv war. Dazu ließ ich eine lustige Zeichnung von einem Yoshi-ähnlichen kleinen Dino entstehen, die Luftaufnahme eines Flugsauriers sowie einen Besuch des Doctors in der Urzeit.

Am Folgetag, dem 10. Februar, wurde dann das neue Thema "Nostalgie" bekanntgegeben. Da ich kurz vorher noch einmal ein Video-Tutorial zum Thema "Figuren wiederverwenden" angeschaut hatte, beschloss ich, es einfach noch einmal zu probieren. Ich hatte ohnehin schon mal - einfach nur zum Spaß - das Passfoto eines 8-jährigen Jungen generiert. Dieses Bild gab ich Midjourney mit - und tatsächlich erscheint genau dieser Junge sowohl in der Innenstadt von früher als auch an einem nostalgischen Weihnachtsabend! Juchu!!

Ebenfalls zum Nostalgie-Thema gehören außerdem eine Oldtimer-Fahrt durch ein Weizenfeld sowie ein altes verstaubtes Grammophon auf dem Dachboden.

KI-generiertes Bild: Daily Theme - Dinosaurier   KI-generiertes Bild: Daily Theme - Dinosaurier   KI-generiertes Bild: Daily Theme - Dinosaurier
KI-generiertes Bild: Passfoto eines 8-jährigen Jungen   KI-generiertes Bild: Daily Theme - Nostalgie

 

KI-generiertes Bild: Daily Theme - Nostalgie

KI-generiertes Bild: Daily Theme - Nostalgie

 

 

KI-generiertes Bild: Daily Theme - Nostalgie

KI-generiertes Bild: Daily Theme - Nostalgie

 

Weitere Bilder, die in den letzten beiden Tagen noch entstanden: Ein Bekannter hat jetzt mit KI-generierter Musik angefangen und ich habe mir erlaubt, sein erstes Plattencover zu gestalten - das orange Viech soll das Digimon Agumon sein! Gar nicht so weit vom Original entfernt, oder? Ein anderer Freund bat mich, einfach mal die Beschreibung "Gismo, die flauschige Kartoffel" zu benutzen (das ist ein interner Gag von uns): Midjourney interpretierte das als einen putzigen kleinen Eisbären. Zuletzt gibt es noch eine stolze Burg auf einem Hügel irgendwo in England sowie einen einsamen Leuchtturm im stürmischsten Mistwetter.

 

KI-generiertes Bild: Agumon am Klavier

KI-generiertes Bild: Gismo, die flauschige Kartoffel ... oder ein Eisbär?

 

KI-generiertes Bild: Burg in England
KI-generiertes Bild: Leuchtturm im Sturm

Weitere Bilder auf Flickr: AI-generated Images


Bildnachweis: Alle Bilder in diesem Artikel entstanden mit Midjourney, außer: Das Selfie vor Stonehenge ist ein echtes Foto! Das Copyright an urheberrechtlich geschützten Figuren liegt bei den jeweiligen Rechteinhabern.
Digimon: © Akiyoshi Hongo, Toei Animation, Doctor Who: © BBC Studios, Micky Maus: © Disney, Yoshi: © Nintendo

Nächster EintragAlle EinträgeVorheriger Eintrag


Erstellt am 11.01.2021 • Letzte Änderung: 29.09.2022 • ImpressumDatenschutzCookie-EinstellungenNach oben