Diskussion om AI-genererade bilder

krank

Går ondskans ärenden
Joined
28 Dec 2002
Messages
35,563
Location
Rissne
Den skapar ju brus, som den sen förfinar tills det blir en bild. Jag tror att färre pixlar ger ett lågupplöst brus och därav färre variabler att jobba med.
Det här misstänker jag också. Mycket handlar om detaljer, och detaljerna kräver fler pixlar – den jobbar ju inte riktigt på pixelart-nivå liksom, utan det behövs utrymme för alla gradienter och övergångar och grejer.
 

zo0ok

Rollspelsamatör
Joined
13 Sep 2020
Messages
2,613
Den skapar ju brus, som den sen förfinar tills det blir en bild. Jag tror att färre pixlar ger ett lågupplöst brus och därav färre variabler att jobba med.
Det fanns tidigare i tråden en beskrivning av algoritmen som att den skapar en lågupplöst brusbild först, och sedan successivt ökar upplösningen. Jag tycker det verkar vara ett rimligt sätt att arbeta på. Men det kanske inte var Stable Diffusion.

De bilderna jag postat tidigare lider ju av onaturliga/starka färger, brus, och märkliga artefakter. De ser helt onaturliga ut.
Jag tycker det ser ut som att det är lite 2-steg-fram-och-1-steg-tillbaka.

Men det är ju enkelt för någon med ett premium-grafikkort som brukar göra högupplösta bilder att testa att göra en lågupplöst bild. Och samtidigt eventuellt notera hur mycket grafikminne som används under genereringen. Eventuellt även prova --medvram.

(noterar att jag kanske borde använda --optimized själv)
 

zo0ok

Rollspelsamatör
Joined
13 Sep 2020
Messages
2,613
För mig gick den från fyra iterationer per sekund till nästan fem när jag lade dit den parametern.
Min version (stable-diffusion-webui) verkar inte ens acceptera --optimized.

Provar att försöka ladda ner en low-memory-stable-diffusion, se om det går bättre.
 

Rickard

Superhero
Joined
15 Oct 2000
Messages
17,465
Location
Helsingborg
För mig gick den från fyra iterationer per sekund till nästan fem när jag lade dit den parametern.

Jag kör för övrigt 512x512-bilder.
Mindes parametern fel. I webui-user.bat har jag följande rad:

set COMMANDLINE_ARGS=--medvram --opt-split-attention
 

krank

Går ondskans ärenden
Joined
28 Dec 2002
Messages
35,563
Location
Rissne
Jag har ju ingen batfil, men jag kör "python webui.py" utan parametrar överhuvudtaget.

Jag installerade i enlighet med den här guiden, mer exakt den längst ner som är för WSL2 i Windows 11.
 

krank

Går ondskans ärenden
Joined
28 Dec 2002
Messages
35,563
Location
Rissne
Jag hade inget bättre för mig, så jag testade några prompter som ni haft problem med.

De här tog alla c:a 15 sekunder styck. 20 sampling steps, CFG Scale 7.

Seters "oil painting, steampunk, portrait, rembrandt":

1663705330571.png

zo0oks "Red cat on lawn":
1663705411552.png
Det här var andra försöket. Första blev en styggelse med ett huvud och två kroppar.

zo0oks "fantasy art warrior with sword":
1663705660143.png

Den fick så konstig kropp så jag testade igen:

1663705686930.png

Lite roligt att den lade till vita "band" på sidorna av bilden. Så som det kan vara ibland på inscannad fantasykonst.

zo0oks "drawing of evil tower on hill":
1663705806787.png

1663705829987.png

zo0oks "drawing of dnd monster encounter":
1663705870369.png

1663705895338.png

Jag kunde inte låta bli, det fick bli en till:

1663705921461.png

Min slutsats blir nog att det här är en materialsport, åtminstone just nu. Antingen får man fläska ut för ett rejält grafikkort (eventuellt externt, om man har laptop) eller så får man pröjsa för credits på DALL-E eller nåt.

En annan slutsats är att åtminstone ett par av de här hade jag inte plockat upp som AI-skapade i ett blindtest. De ser typ ut som helt vanliga rollspelsillustrationer typ.
 

krank

Går ondskans ärenden
Joined
28 Dec 2002
Messages
35,563
Location
Rissne
Jag ska för övrigt snacka om det här inför mina kollegor om ett par veckor, och kommer nog att använda ett par prompts från den här tråden som exempel. Är man lärare i, säg, Digitalt Skapande eller något annat konstnärligt så känns det här som info som är bra att ha. (Vi kommer också att visa upp och demo:a GPT-3 Davinci och Gothub Copilot, och fokusera på hur det här rent praktiskt påverkar oss som lärare – undervisning, bedömning etc)
 

zo0ok

Rollspelsamatör
Joined
13 Sep 2020
Messages
2,613
Min slutsats blir nog att det här är en materialsport, åtminstone just nu.
Jag tror du har rätt... jag installerade en annan low-memory-branch... och det blev precis lika dåligt.
Om några veckor, månader, kommer en massa problem vara lösta, och vanliga dödliga kommer kunna installera på vilken dator som helst och få hyggligt resultat. Just nu, inte riktigt.
 

Rickard

Superhero
Joined
15 Oct 2000
Messages
17,465
Location
Helsingborg
Här är mina resultat på min windows-dator:

De här tog alla 4-5 sekunder styck. 20 sampling steps, CFG Scale 7. Genererade två DnD-monster.

Ibland blir bilderna bara kassa, så det krävs en del tagningar. Stilen på warrior with sword är typ stilen jag får på de flesta bilder.
 

Attachments

Stämma

WC-zonmö i behov av IQ-hjälp
Joined
17 Jul 2020
Messages
352
Location
Södertälje/Uppsala
Hmm, en sak jag märkt är att AI:na verkar ganska genomgående ha svårt med svärd eller dylika tillhyggen. Det ser aldrig riktigt ut som man tycker det ska, antingen är klingan är överdrivet böjd eller så flyter den ihop med nåt annat.
 

JohanL

Myrmidon
Joined
23 Jan 2021
Messages
6,047
Hmm, en sak jag märkt är att AI:na verkar ganska genomgående ha svårt med svärd eller dylika tillhyggen. Det ser aldrig riktigt ut som man tycker det ska, antingen är klingan är överdrivet böjd eller så flyter den ihop med nåt annat.
Överlag har de väl problem med saker som behöver vara precisa och logiskt konstruerade? De är ofta usla på händer, och har inget intryck om hur ett svärd är tänkt att fungera, så att få en bild där en realistisk hand håller i ett funktionellt svärd på ett anatomiskt fungerande vis torde vara jättesvårt?

Jag har märkt att byggnader sällan har en koherent design heller.
 

Genesis

Ni dés ni maître
Joined
17 Aug 2000
Messages
14,718
Location
Göteborg
Det fanns tidigare i tråden en beskrivning av algoritmen som att den skapar en lågupplöst brusbild först, och sedan successivt ökar upplösningen. Jag tycker det verkar vara ett rimligt sätt att arbeta på. Men det kanske inte var Stable Diffusion.
Nej, det var StyleGAN, som används till thispersondoesnotexist. Stable Diffusion är, som namnet antyder, en diffusionsbaserad modell. Utgår ifrån brus i full upplösning och sedan förfinar.
 
Joined
28 Nov 2006
Messages
2,417
Location
Nirvana
Jag hade inget bättre för mig, så jag testade några prompter som ni haft problem med.

De här tog alla c:a 15 sekunder styck. 20 sampling steps, CFG Scale 7.

Seters "oil painting, steampunk, portrait, rembrandt":


zo0oks "Red cat on lawn":
View attachment 9933
Det här var andra försöket. Första blev en styggelse med ett huvud och två kroppar.

zo0oks "fantasy art warrior with sword":
View attachment 9934

Den fick så konstig kropp så jag testade igen:

View attachment 9935

Lite roligt att den lade till vita "band" på sidorna av bilden. Så som det kan vara ibland på inscannad fantasykonst.

zo0oks "drawing of evil tower on hill":

zo0oks "drawing of dnd monster encounter":
View attachment 9938

View attachment 9939

Jag kunde inte låta bli, det fick bli en till:

View attachment 9940

Min slutsats blir nog att det här är en materialsport, åtminstone just nu. Antingen får man fläska ut för ett rejält grafikkort (eventuellt externt, om man har laptop) eller så får man pröjsa för credits på DALL-E eller nåt.

En annan slutsats är att åtminstone ett par av de här hade jag inte plockat upp som AI-skapade i ett blindtest. De ser typ ut som helt vanliga rollspelsillustrationer typ.
Motsvarande och minst lika bra bilder hade numera också gått att göra på Wombo Dream, som har blivit påtagligt mycket bättre den senaste månaden. Delvis beror detta på de nya filtren. Där kan man dessutom göra ett obegränsat antal bilder. Jag påstår inte att Wombo Dream entydigt är bättre (man kan exempelvis inte enkelt jobba vidare med en bild eller välja en av fyra), men jag tror att de olika tjänsterna börjar bli mer lika i prestanda. I de flöden jag följer har det blivit svårare att se från vilken tjänst bilderna kommer. Det som fortfarande sticker ut är Midjourney-stilen, som ofta är spektakulär men på ett lite enahanda vis.
 
Last edited:

Troberg

Sinister eater
Joined
27 Jun 2001
Messages
17,578
En sak jag funderar över med Stable Diffusion är hur stor skillnad själva grafikkortet gör. Jag har testat att generera saker med min laptops inbyggda 3050-kort som har mindre VRAM, och förutom den klart sämre upplösningen tycker jag också att jag generellt får sämre bilder. Trots att det enda jag justerar är just bildstorleken, som jag alltid sätter precis under punkten där jag får felmeddelande. För det interna kortet brukar det bli 384×384, medan jag med min externa GPU (Laptop-3080 med 16gb videoram) kan pressa upp till 768×768.

Är det helt enkelt så att upplösningen i sig bidrar till bättre bilder?

(Jag kör Stable Diffusion WebUI i en WSL2-maskin för att slippa ha en massa bös drällande i Windowsinstallationen)
SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.

Får jag bara någon anv frontendarna som kan köra på CPU istället för GPU att fungera så ska jag testa lite med extrema upplösningar och se vad som händer.

Vi kommer nog se en turbulent tid framöver innan saker faller på plats. Jag tänker på den eldiga debatten som hölls om fildelning (var det tio år sen typ?) och sen kom Spotify och Netflix och nu är det ingen som pratar om fildelning länge. Tror vi kommer se samma utveckling för AI-bilder på sikt.
Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.
 

zo0ok

Rollspelsamatör
Joined
13 Sep 2020
Messages
2,613
SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.
YES! Precis det var mitt problem.
Först hade jag stable-diffusion-webui som jag inte kunde köra 512x512 på.
Sedan igår installerade jag en "optimized" version, för 4GB VRAM, men då hade jag "lärt" mig att bara köra 256x256, så då provade jag bara det.
Nu när jag kör 512x512 får jag också fina skarpa bilder.
 

Svarte Faraonen

Oenofil oikofob
Joined
12 Oct 2000
Messages
10,679
Location
Värnhem, Malmö
Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.
Å andra sidan har du ett survivorship bias där – den nya tekniken som faktiskt visade sig vara dålig finns ju inte kvar idag. Nymodigheter som kokainvin, lobotomi, neurosedyn, asbest i byggnader och liknande var ju faktiskt dåliga – det är därför vi inte har dem kvar, och den här typen av kritik är ett sätt att skilja agnarna från vetet och se till att det är de ofarliga uppfinningarna som blir kvar och de farliga som överges.
 
Joined
28 Nov 2006
Messages
2,417
Location
Nirvana
SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.

Får jag bara någon anv frontendarna som kan köra på CPU istället för GPU att fungera så ska jag testa lite med extrema upplösningar och se vad som händer.



Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.
Visst kan man säga att folk inte gillar nyheter. Det är säkert ofta så. Men det här är rimligen också en juridisk fråga. Hur mycket av en konstnärs verk kan en AI-bild innehålla innan det blir plagiat? Är exempelvis ett hus eller ett ansikte okej? Ska det betraktas som ett collage eller som något annat? Hur förhåller sig AI-konst till annan härmande konst?
 
Top