Posta era (och andras) AI-bilder här! (bilder och tips)

Troberg · 3 Aug 2023

CapnZapp said:
MidJourney framstår som den kreatives val. 90% av det man ser från Stable Diffusion saknar "energi" i kompositionerna, och då menar jag inte de oändliga bilderna på kvinnor i olika stadier av avklädning som bara står rätt upp och ner på bilden, ofta medan de ger märkliga handsignaler.

StableDiffusion är teknikernas val, för de kan köra den på egen hårdvara och den är open source.

CapnZapp · 5 Aug 2023

Troberg said:
StableDiffusion är teknikernas val, för de kan köra den på egen hårdvara och den är open source.

Jag vet.

Men jag är redo för nästa steg nu, där... allt blir lättare och enklare.

Det är alldeles för många steg för att skapa något riktigt bra.
* Jag vill kunna namnge en skapad karaktär så datorn kommer ihåg utseendet , så det är enkelt att skapa en serie bilder där åskådaren direkt ser det är SAMMA hjälte eller hjältinna i alla scener (utan att behöva använda en existerande kändis eller skådis utseende, eller klöddiga extra träningssteg)
* Jag vill kunna ha flera karaktärer i en och samma bild utan att behöva brottas med en ovillig AI
* Jag vill att gränsnittet blir mycket bättre, så att alla "tricks" (inpainting, outzooming osv osv) finns direkt i resultatbilden (utan att behöva byta tabb) och kan appliceras/återställas sömlöst
* Jag ser att olika internetbaserade generatorer lyckas få fram en konsekvent stil, och vill ha dessa förinstallerade i mitt lokala GUI
* Jag vill att NVidia börjar sälja grafikkort med minst 24 gigabyte videominne som instegsmodell

Och då har vi inte ens nämnt det vi egentligen pratade om, dvs hur MidJourney bilder har en mycket "fylligare komposition", med drama och energi i bilderna som ofta är helt frånvarande i SD.

Låt mig snabbt slumpgenerera någonting i en onlinegenerator (som använder SD)... okej, så här:

Ett taffligt men representativt exempel som saknar varje form av djup: dramatiskt, bakgrundsmässigt, tematiskt, personligt, konstnärligt etc etc. Baserat på vad jag ser av MidJourney här i tråden och online är det programmet väsentligt mer artistiskt.

Så jag är definitivt redo för Stable Diffusion version 3.. eller 30!

Troberg · 5 Aug 2023

Prova att lägga till "dramatic" eller "action" i Stable Diffusion. Det hjälper mycket.

CapnZapp · 6 Aug 2023

Troberg said:
Prova att lägga till "dramatic" eller "action" i Stable Diffusion. Det hjälper mycket.

Jag är övertygad om att det kommer bättre interface, där allt sånt här sköts "under huven".

Min poäng är ju precis att SD är i det primitiva stadiet där stela kompositioner överhuvudtaget genereras. Om något borde man behöva lägga till ord som "inert undramatic no background" för att få vad som idag är SDs default...

Plus, som sagt - jag hade betydligt fler punkter på min lista än bara den sista.

Troberg · 6 Aug 2023

Jag tror snarare att det beror på att StableDiffusion är gjort av tekniker, för tekniker. Tekniker vill ha det de frågar efter, inte mer, inte mindre. Det handlar inte så mycket om "primitivt", det handlar om kontroll, att man som användare får det man ber om, utan egna påhitt. Olika tankesätt, helt enkelt.

När det gäller dina övriga punkter så håller jag med.

Rickard · 8 Aug 2023

Troberg said:
Jag tror snarare att det beror på att StableDiffusion är gjort av tekniker, för tekniker.

Ja, och där får man trixa en hel del med saker som ControlNet, alla inställningar, vilka samplingsmetoder som är bäst för vilka omständigheter och hur man tränar egna modeller. Bra prompter, framförallt negativa prompter, är bra att kunna. Midjourney gör snygga saker, men efter 30-50 renderingar börjar man (åtminstone jag) se mönster i bilderna: komposition, färgval, ansikten, avvikande kladd, etc. Nu gör Stable Diffusion det också, men poängen är att man ska inte stirra sig blind på hur magiskt Midjourney är, för det är bara för tillfället.

Troberg · 8 Aug 2023

Rickard said:
Ja, och där får man trixa en hel del med saker som ControlNet, alla inställningar, vilka samplingsmetoder som är bäst för vilka omständigheter och hur man tränar egna modeller. Bra prompter, framförallt negativa prompter, är bra att kunna. Midjourney gör snygga saker, men efter 30-50 renderingar börjar man (åtminstone jag) se mönster i bilderna: komposition, färgval, ansikten, avvikande kladd, etc. Nu gör Stable Diffusion det också, men poängen är att man ska inte stirra sig blind på hur magiskt Midjourney är, för det är bara för tillfället.

Japp. Kapacitetsmässigt så hoppar de bock över varandra hela tiden. Det är bra, det driver utvecklingen.

Det är anledningen till att jag inte oroar mig så mycket för vilken som är bäst. Jag håller mig till den jag gillar bäst, och ibland kommer den att ge bäst resultat, sedan kommer någon annan att göra det, sedan kommer den att vara bäst igen ett tag osv. Jag har inget behov av att hoppa mellan dem för att jaga den där sista putsen.

Rickard · 13 Aug 2023

Mattias G · 17 Aug 2023

För ett tag sen använde jag midjourney för att generera flera olika bilder, som jag sen klippt ihop för att göra en splashscreen/logo till en gratis liten spelmotor jag håller på med (den är för att göra spel som är som typ soloäventyr på dator)

Tidigare hade jag en lite enklare bild med samma idé, men där jag använt public domain foton från pixabay

JohanL · 18 Aug 2023

Mattias G said:
För ett tag sen använde jag midjourney för att generera flera olika bilder, som jag sen klippt ihop för att göra en splashscreen/logo till en gratis liten spelmotor jag håller på med (den är för att göra spel som är som typ soloäventyr på dator)

View attachment 13523

Tidigare hade jag en lite enklare bild med samma idé, men där jag använt public domain foton från pixabay

View attachment 13524

Den övre är jättemycket bättre, verkligen.

Ondsint roBot · 27 Aug 2023

Jag vet att forumet inte gillar StabilityAI, men jag tycker att det går att få till rätt bra bilder i den. Det är mer jobb att få till en bra bild, men å andra sidan får man mer kontroll över resultatet. Lite råttor till Mutant,cyborger och en bonus för ~~gamla stofiler~~ erfarna spelare som började sin bana mer ett rollspel för 3 eller fler spelare från 11 år. (Om du bara ser en alvby i skogen, kisa kraftigt. Ta ett steg tillbaka eller zooma ut lite.)

Ondsint roBot · 27 Aug 2023

CapnZapp said:
Jag vet.

Men jag är redo för nästa steg nu, där... allt blir lättare och enklare.

Det är alldeles för många steg för att skapa något riktigt bra.
* Jag vill kunna namnge en skapad karaktär så datorn kommer ihåg utseendet , så det är enkelt att skapa en serie bilder där åskådaren direkt ser det är SAMMA hjälte eller hjältinna i alla scener (utan att behöva använda en existerande kändis eller skådis utseende, eller klöddiga extra träningssteg)
* Jag vill kunna ha flera karaktärer i en och samma bild utan att behöva brottas med en ovillig AI
* Jag vill att gränsnittet blir mycket bättre, så att alla "tricks" (inpainting, outzooming osv osv) finns direkt i resultatbilden (utan att behöva byta tabb) och kan appliceras/återställas sömlöst
* Jag ser att olika internetbaserade generatorer lyckas få fram en konsekvent stil, och vill ha dessa förinstallerade i mitt lokala GUI
* Jag vill att NVidia börjar sälja grafikkort med minst 24 gigabyte videominne som instegsmodell

Och då har vi inte ens nämnt det vi egentligen pratade om, dvs hur MidJourney bilder har en mycket "fylligare komposition", med drama och energi i bilderna som ofta är helt frånvarande i SD.

Låt mig snabbt slumpgenerera någonting i en onlinegenerator (som använder SD)... okej, så här:

View attachment 13402

Ett taffligt men representativt exempel som saknar varje form av djup: dramatiskt, bakgrundsmässigt, tematiskt, personligt, konstnärligt etc etc. Baserat på vad jag ser av MidJourney här i tråden och online är det programmet väsentligt mer artistiskt.

Så jag är definitivt redo för Stable Diffusion version 3.. eller 30!

Det här fick jag ihop i Stable Diffusion, på samma tema. Om du vill göra ett nytt försök, så har du lite info nedan, Jag brukar ta 20 steg tills jag hittar en prompt jag gillar, så går jag upp till 70. I den ena bilden är det en "oriental" stad istället.

Prompt: enki bilal,philippe druillet,moebius inspired euro fantasy art, "a warrior woman in armor leaning against a wall in a European fantasy city" the contrast in colors and textures should be distinct highly detailed,grainy texture,surreal, clean historic ,dramatic lighting

Negativ: minimalist,abstract,overly bright, helmet

Checkpoint: CrystalClearXL (den hittar du på Civitai)
Sampler: dpmpp 2s ancestral (kan heta "dmp2s a" eller liknande om du använder något annat än ComfyUI)
Scheduler: Karras
Steg: 20 medans jag testar, sedan 70 för att får bästa kvalitet
Latent: 896x1344 (bildstorlek)
Clip_skip: -1
CFG: 7

Jag använder Refiner, men man behöver egentligen inte.

Att få en konsekvent stil är inte så svårt. Att få samma karaktär mer än en gång är inte trivialt. Just nu är egentligen SD och andra AI generatorer bäst på porträtt, och dåliga på bilder där folk gör något. Professionella illustratörer behöver oroa sig för jobbet än på ett tag.

CapnZapp · 27 Aug 2023

Jag vet att prompten spelar jättestor roll. Och att en hel promptingkultur blommat upp.

Det är det jag finner superprimitivt och inte gillar. Men visst känns det kul* när man lägger till något synbarligen slumpvis vald term och helt plötsligt får märkbart mer relevanta resultat - så stark skillnad att man inte kan undvika att börja tänka i termer av exakt hur mycket av internätets fördomar, partiskhet och stereotyper har egentligen kokats ner i modellen...?

*) och med "kul" menar jag "smutsigt"...

Gamiel · 28 Aug 2023

CapnZapp said:
Det är det jag finner superprimitivt och inte gillar. Men visst känns det kul* när man lägger till något synbarligen slumpvis vald term och helt plötsligt får märkbart mer relevanta resultat - så stark skillnad att man inte kan undvika att börja tänka i termer av exakt hur mycket av internätets fördomar, partiskhet och stereotyper har egentligen kokats ner i modellen...?

Kan du ge exempel?

Ondsint roBot · 28 Aug 2023

CapnZapp said:
Jag vet att prompten spelar jättestor roll. Och att en hel promptingkultur blommat upp.

Det är det jag finner superprimitivt och inte gillar. Men visst känns det kul* när man lägger till något synbarligen slumpvis vald term och helt plötsligt får märkbart mer relevanta resultat - så stark skillnad att man inte kan undvika att börja tänka i termer av exakt hur mycket av internätets fördomar, partiskhet och stereotyper har egentligen kokats ner i modellen...?

*) och med "kul" menar jag "smutsigt"...

Jag ska försöka hålla mig till trådens ämne "Tips & trix", snarare än den allmänna diskusionen i den andra tråden.

AI modellerna består till 100% av internets fördomar och stereotyper, skulle jag vilja säga. Hur skulle det kunna bli något annat när bilderna som de bygger på kommer därifrån? Det är inte bara det uppenbara "skriver du in en man får du en man med europeiskt utseende". När jag gick in på forumet via mobilen såg jag något nytt med mina bilder på råttor ovan: De har alla exakt samma pose. Titta på hur de har armar och händer. Rimligtivs är det så, eftersom det är så de flesta bilder på någon som håller något i händerna ser ut.

Det är här promten kommer in.

När jag gjorde bilden på den "europeiska" krigaren, så la jag till "leaning against a wall" för att försöka ta mig förbi AI:ns fördomar om posering. Vill man ha ett afrikanskt utseende, lägger man till det. Då får man ett afro-amerikanskt utseende istället. Vill man ha ett nigerianskt utseende får man specifiera det.

Nästan alla delar av en bra promt handlar om att bli medveten om AI:ns fördomar och ta sig förbi dem. Annars får man en bild som ser ut som din ovan: Standard 1A för ämnet. I bästa fall kan det bli en övning i att bli medveten om sina fördomar.

Det är inte bara promten. Valet av checkpoint, dvs vilken samling av bilder som AI:n tränats på har extremt stor betydelse.

Dilemmat är att själva poängen med AI-ritandet är att låta AI:n hitta på efter egen förmåga, så man slipper ange alla detaljer. Har man låg CFG ritar den mer efter eget huvud snarare än din prompt. Hög CFG så följer den promten, men lägger inte till så mycket själv. Har man CFG på 100 eller så och promtpar "face", blir ett ansiktet bara en triangel. Det är den interna representationen av ett ansikte utan någonting tillagt alls.

Tips och Trix delen:

Googla efter konstnärer vars stil du vill ha och lägg till dem i promten, tillsammans med en beskriving på stilen.
Lägg till ljussättning, vinkel, och pose.
Lägg till någon form av beskriving av bakgrunden.

Testa några olika checkpoints. Byt sampler. Vill du ha mer stiliserat och mindre "foto", välj Clip_skip -2, eller -3, istället för -1.

Känns det som för mycket jobb, och du nöjer dig med en häftig bild och du ändå tycker att det mesta av den första delen av min post är onödigt trams?

Använd Midjourney istället. (Det är inte (bara) sarkasm. Midjourney gör snygga bilder.)

Bonusbild, det är i alla fall trådens ämne:

Rickard · 28 Aug 2023

Ondsint roBot said:
När jag gjorde bilden på den "europeiska" krigaren, så la jag till "leaning against a wall" för att försöka ta mig förbi AI:ns fördomar om posering. Vill man ha ett afrikanskt utseende, lägger man till det. Då får man ett afro-amerikanskt utseende istället. Vill man ha ett nigerianskt utseende får man specifiera det.

Blev impad så jag testade att tanka ned Crystal Clear XL men kände att variationen var rätt dålig. Ansiktet ser ut som Michelle Pfeiffer rent generellt. Använde samma prompter som dig. Charmigt hur en av bilderna har ett litet ärr på ett annars fotomodell-liknande porträtt.

Inte för att jag säger att Crystal Clear XL är dålig, utan mer att jag håller med dig om att man får vara bättre på att ge detaljer via prompterna.

Rickard · 28 Aug 2023

Samma prompt med Stable Diffusion-modellen (2-1_768-nonema-pruned). Valet av modell är superviktigt.

Genesis · 28 Aug 2023

Spelar det roll vilket språk man skriver på? Alla verkar skriva på engelska, men det behöver man ju inte i ChatGPT (fast folk i Sverige gör ju det ändå, såklart :gremsuck:

). När det gäller bild-AI, hur funkar det med olika språk? Om jag skriver in en prompt på spanska, får jag en bild som kommer från träningsdata som har spaskspråkiga taggar, eller översätter den det till engelska i alla fall? Eller funkar det inte alls på normala språk?

Ondsint roBot · 28 Aug 2023

Genesis said:
Spelar det roll vilket språk man skriver på? Alla verkar skriva på engelska, men det behöver man ju inte i ChatGPT (fast folk i Sverige gör ju det ändå, såklart ). När det gäller bild-AI, hur funkar det med olika språk? Om jag skriver in en prompt på spanska, får jag en bild som kommer från träningsdata som har spaskspråkiga taggar, eller översätter den det till engelska i alla fall? Eller funkar det inte alls på normala språk?

Det stora modellerna taggar bara på engelska. Det finns tillägg som översätter, men jag tror inte att Google translate förbättrar ens prompt. Jag har sett rapporter om att enstaka ord på franska och spanska ska fungera. Det lär i så fall bli ett urval från de bilder som blivit taggade på det språket.

Ondsint roBot · 28 Aug 2023

Rickard said:
Blev impad så jag testade att tanka ned Crystal Clear XL men kände att variationen var rätt dålig. Ansiktet ser ut som Michelle Pfeiffer rent generellt. Använde samma prompter som dig. Charmigt hur en av bilderna har ett litet ärr på ett annars fotomodell-liknande porträtt. Inte för att jag säger att Crystal Clear XL är dålig, utan mer att jag håller med dig om att man får vara bättre på att ge detaljer via prompterna.

Det finns ett hemligt trick för att bli av med Michelle Pfeiffer. Generellt så får man ungefär samma bild om man inte ändrar något i promt/inställningar.

Min nya prompt:

Positiv: enki bilal,philippe druillet,moebius inspired euro fantasy art, "a fierce short warrior woman in battle worn plain armor in a German fantasy city" the contrast in colors and textures should be distinct highly detailed,grainy texture,surreal, clean historic ,dramatic lighting

Negativ: minimalist,abstract,overly bright, helmet, cleavage, (Michelle Pfeiffer:0.2)

Har man svårt att få till en snygg bild utan Michelle (eller med), testa att byta checkpoint. Den första bilden är i CrystalClearXL, de två andra i BreakDomainXL.

Posta era (och andras) AI-bilder här! (bilder och tips)

Sinister eater

Myrmidon

Sinister eater

Myrmidon

Sinister eater

Urverk speldesign

Sinister eater

Urverk speldesign

Veteran

Champion

Veteran

Attachments

Veteran

Myrmidon

Myrmidon

Veteran

Urverk speldesign

Attachments

Urverk speldesign

Attachments

Ni dés ni maître

Veteran

Veteran