[blog] Bilder-Ki midjourney stable diffusion dall-e

te36

Wo soll man denn den dritten Aufkleber anbringen ?

don

Da ich gerade auf dem Weg zum Briefkasten bin... überrasch uns

Commerzpunk

Darf ich
a) anmerken, dass man Fee mit zwei ee schreibt?

oder

b) mich maximal blamieren, weil ich ein Gag nicht kapiert habe?

beides ist möglich, ein Freund von mir würde sagen: überrascht mich!

don

Fuck. Fee mit h geschrieben. Oh man.
Naja ... nächste Runde wird besser

[edit]
warum schützt mich die Ki nicht vor solchen Fehlern?

KOorDInator

... künstlerische Freiheit ...

don

Nach dem ich meinen midjourney-account gekündigt habe (10$/Monat) mache ich langsam Fortschritte mit stable-Diffusion lokal auf dem PC.
Das dauert sehr viel länger und die Ergebnisse sind am Anfang auch sehr viel schlechter gewesen.

Aber ist alles eine Frage der Übung und Geduld. Wie immer.

So etwas war es heute morgen:

Das ist einfach unbrauchbarer Mist.

Jetzt bin ich ungefähr hier angekommen:

stable diffusion benötigt einfach mehr input um etwas brauchbares zu erstellen.
Da ist midjourney besser aufgestellt.
Auch dass midjounrey immer direkt vier Beispiele aufzeigt bringt einen schneller ans Ziel.

Der Upscaler von stable diffusion ist der gleiche, den ich auch in chainner verwende. Interessant.

Dennoch kann man auch mit stable diffusion gratis und komplett lokal Ki-Bilder generieren, die sich durchaus sehen lassen können.

Das wäre in midjourney vermutlich eine Beschreibung aus 10 Wörtern.
In stable diffusion sieht das dann so aus:

Code

professional portrait photograph of a gorgeous Norwegian girl in winter clothing with long wavy blonde hair, ((sultry flirty look)), freckles, beautiful symmetrical face, cute natural makeup, ((standing outside in snowy city street)), stunning modern urban upscale environment, ultra realistic, concept art, elegant, highly detailed, intricate, sharp focus, depth of field, f/1.8, 85mm, medium shot, mid shot, (centered image composition), (professionally color graded), ((bright soft diffused light)), volumetric fog, trending on instagram, trending on tumblr, hdr 4k, 8k


negative prompt:
Negative prompt: (bonnet), (hat), (beanie), cap, (((wide shot))), (cropped head), bad framing, out of frame, deformed, cripple, old, fat, ugly, poor, missing arm, additional arms, additional legs, additional head, additional face, multiple people, group of people, dyed hair, black and white, grayscale

Und vielleicht mit ordentlicher Grafikkarte sogar in einer annehmbaren Geschwindigkeit.
Meine nvidia1030 wird nichtmal als "brauchbar" erkannt und daher läuft das hier via cpu. Das ist schon schmerzhaft langsam.

Und generell gesagt kann midjourney Gesichter am besten von allen bisher probierten Varianten.
Bei stable diffusion kommt gerne mal so etwas heraus:

Das ist denen auch bewußt. Nach der Generierung kann man dann den "fix faces" Button drücken.
Bringt aber nicht immer eine Verbesserung mit sich.

Wer stable-diffusion lokal verwenden will, sollte diesen Weg gehen:
-> https://github.com/cmdr2/stable-d…t-the-installer

Ich mußte den Installer mehrmals starten, bis alles installiert war.
Aber mehr als "Doppelklick" ist es nicht gewesen.

Ein Vorteil (wenn man denn so will) ist, dass es lokal und damit unzensiert läuft.
Da können schon härtere Sachen bei rumkommen.
Gerade in meinem Bereich Horror und Psychodelic entstehen da Sachen, die bei midjourney einfach weggeschönt werden.

Wer da Interesse hat, kann zB bei Prompthero dazu etwas finden.
Uncanny Valley Erlebnisse nicht ausgeschlossen.

don

Den verrückten Hutmacher habe ich noch ein wenig optimiert:

don

Stable Diffusion ist ja eine Art Grundgerüst für weitere, Pre-Trained-Models.
Aber wo bekommt man die her?
Gerade am Anfang sehen die Stable-Diffusion Sachen echt nicht gut aus.
Und man kommt nur bis zu einem gewissen Punkt - sieht aber im Netz, dass es besser geht.

Das liegt an den verwendeten Modellen. Gedanklich eher als "Module" zu verstehen.
Diese kann man zb hier beziehen:

https://civitai.com/models/8775/rotting-zombies
Dort ist auch eine sehr gute Erklärung dazu:

Zitat

This model can zombify any person with ease. It can also be used to blend with animals with a bit of extra prompting.
Trained on a selection of the best 80 hd and in focus screen shots from "The Walking Dead" series and 2000 class images.
All training images taken from season 4-11 for more convincing and detailed zombies. Capable of producing shots at any range, including full body, long shots.

Da gibt es also Leute da draußen, die Screenshots aus Videos extrahieren und diese als Trainingsfutter für eine Ki verwenden und das Ergebnis zur freien Verfügung stellen.

Ich bleibe dran.

te36

erst mal danke fuer die pointer...

Puuh. Wenn ich vorstelle wie schwierig jetzt schon Gerichtsprozesse sind in denen es um Copyrightverletzungen geht und das Niveau von eigenstaendiger Veraenderung von existierender copyrighted Arbeit. Wie das mal wohl bei diesen AI Arbeiten weiter geht. Vielleicht waere es nicht falsch das da weniger und weniger abgeleitete Kreationen als eigenstaendig anerkannt wird, weil halt mit diesen Tools auch die Floehe deines Hundes abgeleitete Kunst ohne eigene kuenstlerische Leistung kreieren koennen. 50 Bilder in Software reinstecken, ein bissl text eingeben - fertig.

Vielleicht gibt es dann ja Hasser moderner Kunst, die einfach fuer neue moderne Kunst versuchen moeglichst billig eine AI anzulernen, die diese neue Arbeit aus aelterer Kunst erzeugt um dann Klagen gegen die neue Arbeit zu ermoeglichen. So wie die ganzen Leute, die nachweisen wollen das Politiker ihre Doktorarbeit "gefaelscht" haben.

Oder Kuenstler fangen an sich von Anwaelten ohne Computer/Netzwerkzugang einsperren zu lassen, so das sie dann rechtssicher die komplette Kreation nur ueber Gehirn und Haende belegen zu koennen.

Wie war dieser alte chinesische Fluch ? "May you live in interesting times!".

psychofaktory

Zitat von te36

Puuh. Wenn ich vorstelle wie schwierig jetzt schon Gerichtsprozesse sind in denen es um Copyrightverletzungen geht und das Niveau von eigenstaendiger Veraenderung von existierender copyrighted Arbeit. Wie das mal wohl bei diesen AI Arbeiten weiter geht.

Wenn ich jetzt mal versuche das anhand der teils verqueren Sichtweise der Lobbyisten aus der Unterhaltungsbranche nachzuvollziehen, ergibt sich da für mich eigentlich nur eine Option:
Derartige AI-Software darf nicht mehr frei zugänglich sein und nur unter Aufbringung einer pauschelen Urheberrechtsabgabe an den Mann*innen gebracht werden.
Also analog CDs, USB-Sticks oder Kopiergeräten...

don

Da stable Diffusion open source ist, dürfte das wohl nicht mehr erreichbar sein

psychofaktory

War jetzt auch mit einem kleinen Augenzwinkern gemeint.
Aber grundsätzlich würde ich den entsprechenden "Interessenvertretern" schon zutrauen auch hier eine "kreative Lösung" zu finden. Wäre zumindest nicht das erste mal.

te36

Jo, das wird auf jeden Fall unsinnige, verzweifelte Versuche geben, die vielleicht zu unsinnigen Gesetzen werden. Und natuerlich wird die neue Technik nicht nur gutes produzieren. Als wir das Internet in den 80'er 90'ern gebaut haben und vom global village gefaselt haben, da hat sich auch niemand vorgestellt, das das kaeseblatt des dorfes sowas wie facebook werden wuerde. Oder twitter.

Ob kunst und lebensunterhalt damit zu machen durch die technik profitiert finde ich steht in den sternen, bin da nicht so pessimistisch. Aber bei allem, was versucht die wirklichkeit nachzumachen, wo also mit bildern bewusst realitaet erlogen wird bin ich schon sehr pessimistisch.

Aber die ganzen armen politiker, die wegen dummheit und faulheit promotionen zusammenschwindeln, die sollten jetzt eigentlich kein problem mehr haben. Sollte ja moeglich sein, eine AI so zu trainieren, das der text so lange minimal modifizert wird, bis er gerade nicht von den similarity-checkern als geklaut eingestuft wird.

Jetzt mitmachen!