Diskussion om AI-genererade bilder

krank · 20 Sep 2022

Lemur said:
Den skapar ju brus, som den sen förfinar tills det blir en bild. Jag tror att färre pixlar ger ett lågupplöst brus och därav färre variabler att jobba med.

Det här misstänker jag också. Mycket handlar om detaljer, och detaljerna kräver fler pixlar – den jobbar ju inte riktigt på pixelart-nivå liksom, utan det behövs utrymme för alla gradienter och övergångar och grejer.

zo0ok · 20 Sep 2022

Lemur said:
Den skapar ju brus, som den sen förfinar tills det blir en bild. Jag tror att färre pixlar ger ett lågupplöst brus och därav färre variabler att jobba med.

Det fanns tidigare i tråden en beskrivning av algoritmen som att den skapar en lågupplöst brusbild först, och sedan successivt ökar upplösningen. Jag tycker det verkar vara ett rimligt sätt att arbeta på. Men det kanske inte var Stable Diffusion.

De bilderna jag postat tidigare lider ju av onaturliga/starka färger, brus, och märkliga artefakter. De ser helt onaturliga ut.
Jag tycker det ser ut som att det är lite 2-steg-fram-och-1-steg-tillbaka.

Men det är ju enkelt för någon med ett premium-grafikkort som brukar göra högupplösta bilder att testa att göra en lågupplöst bild. Och samtidigt eventuellt notera hur mycket grafikminne som används under genereringen. Eventuellt även prova --medvram.

(noterar att jag kanske borde använda --optimized själv)

Rickard · 20 Sep 2022

zo0ok said:
(noterar att jag kanske borde använda --optimized själv)

För mig gick den från fyra iterationer per sekund till nästan fem när jag lade dit den parametern.

Jag kör för övrigt 512x512-bilder.

zo0ok · 20 Sep 2022

Rickard said:
För mig gick den från fyra iterationer per sekund till nästan fem när jag lade dit den parametern.

Min version (stable-diffusion-webui) verkar inte ens acceptera --optimized.

Provar att försöka ladda ner en low-memory-stable-diffusion, se om det går bättre.

Rickard · 20 Sep 2022

Rickard said:
För mig gick den från fyra iterationer per sekund till nästan fem när jag lade dit den parametern.

Jag kör för övrigt 512x512-bilder.

Mindes parametern fel. I webui-user.bat har jag följande rad:

set COMMANDLINE_ARGS=--medvram --opt-split-attention

krank · 20 Sep 2022

Jag har ju ingen batfil, men jag kör "python webui.py" utan parametrar överhuvudtaget.

Jag installerade i enlighet med den här guiden, mer exakt den längst ner som är för WSL2 i Windows 11.

krank · 20 Sep 2022

Jag hade inget bättre för mig, så jag testade några prompter som ni haft problem med.

De här tog alla c:a 15 sekunder styck. 20 sampling steps, CFG Scale 7.

Seters "oil painting, steampunk, portrait, rembrandt":

zo0oks "Red cat on lawn":

Det här var andra försöket. Första blev en styggelse med ett huvud och två kroppar.

zo0oks "fantasy art warrior with sword":

Den fick så konstig kropp så jag testade igen:

Lite roligt att den lade till vita "band" på sidorna av bilden. Så som det kan vara ibland på inscannad fantasykonst.

zo0oks "drawing of evil tower on hill":

zo0oks "drawing of dnd monster encounter":

Jag kunde inte låta bli, det fick bli en till:

Min slutsats blir nog att det här är en materialsport, åtminstone just nu. Antingen får man fläska ut för ett rejält grafikkort (eventuellt externt, om man har laptop) eller så får man pröjsa för credits på DALL-E eller nåt.

En annan slutsats är att åtminstone ett par av de här hade jag inte plockat upp som AI-skapade i ett blindtest. De ser typ ut som helt vanliga rollspelsillustrationer typ.

krank · 20 Sep 2022

Jag ska för övrigt snacka om det här inför mina kollegor om ett par veckor, och kommer nog att använda ett par prompts från den här tråden som exempel. Är man lärare i, säg, Digitalt Skapande eller något annat konstnärligt så känns det här som info som är bra att ha. (Vi kommer också att visa upp och demo:a GPT-3 Davinci och Gothub Copilot, och fokusera på hur det här rent praktiskt påverkar oss som lärare – undervisning, bedömning etc)

zo0ok · 20 Sep 2022

krank said:
Min slutsats blir nog att det här är en materialsport, åtminstone just nu.

Jag tror du har rätt... jag installerade en annan low-memory-branch... och det blev precis lika dåligt.
Om några veckor, månader, kommer en massa problem vara lösta, och vanliga dödliga kommer kunna installera på vilken dator som helst och få hyggligt resultat. Just nu, inte riktigt.

Rickard · 20 Sep 2022

Här är mina resultat på min windows-dator:

De här tog alla 4-5 sekunder styck. 20 sampling steps, CFG Scale 7. Genererade två DnD-monster.

Ibland blir bilderna bara kassa, så det krävs en del tagningar. Stilen på warrior with sword är typ stilen jag får på de flesta bilder.

Lemur · 20 Sep 2022

Det går att köra Stable Diffusion gratis i Google Colab, funkar helt perfekt:

Get Started With Stable Diffusion (Free) in Google Colab for AI Generated Art

Stable Diffusion by Stability.ai is one of the best AI text-to-image generation software, as of writing this article. A few notable things about Stable

bytexd.com

Stämma · 20 Sep 2022

Hmm, en sak jag märkt är att AI:na verkar ganska genomgående ha svårt med svärd eller dylika tillhyggen. Det ser aldrig riktigt ut som man tycker det ska, antingen är klingan är överdrivet böjd eller så flyter den ihop med nåt annat.

JohanL · 21 Sep 2022

Stämma said:
Hmm, en sak jag märkt är att AI:na verkar ganska genomgående ha svårt med svärd eller dylika tillhyggen. Det ser aldrig riktigt ut som man tycker det ska, antingen är klingan är överdrivet böjd eller så flyter den ihop med nåt annat.

Överlag har de väl problem med saker som behöver vara precisa och logiskt konstruerade? De är ofta usla på händer, och har inget intryck om hur ett svärd är tänkt att fungera, så att få en bild där en realistisk hand håller i ett funktionellt svärd på ett anatomiskt fungerande vis torde vara jättesvårt?

Jag har märkt att byggnader sällan har en koherent design heller.

Rickard · 21 Sep 2022

JohanL said:
De är ofta usla på händer, och har inget intryck om hur ett svärd är tänkt att fungera, så att få en bild där en realistisk hand håller i ett funktionellt svärd på ett anatomiskt fungerande vis torde vara jättesvårt?

...och den här videon visar svårigheten i båda dessa saker.

Genesis · 21 Sep 2022

zo0ok said:
Det fanns tidigare i tråden en beskrivning av algoritmen som att den skapar en lågupplöst brusbild först, och sedan successivt ökar upplösningen. Jag tycker det verkar vara ett rimligt sätt att arbeta på. Men det kanske inte var Stable Diffusion.

Nej, det var StyleGAN, som används till thispersondoesnotexist. Stable Diffusion är, som namnet antyder, en diffusionsbaserad modell. Utgår ifrån brus i full upplösning och sedan förfinar.

Oscar Silferstjerna · 21 Sep 2022

krank said:
Jag hade inget bättre för mig, så jag testade några prompter som ni haft problem med.

De här tog alla c:a 15 sekunder styck. 20 sampling steps, CFG Scale 7.

Seters "oil painting, steampunk, portrait, rembrandt":

View attachment 9932

zo0oks "Red cat on lawn":

View attachment 9933
Det här var andra försöket. Första blev en styggelse med ett huvud och två kroppar.

zo0oks "fantasy art warrior with sword":

View attachment 9934

Den fick så konstig kropp så jag testade igen:

View attachment 9935

Lite roligt att den lade till vita "band" på sidorna av bilden. Så som det kan vara ibland på inscannad fantasykonst.

zo0oks "drawing of evil tower on hill":

View attachment 9936

View attachment 9937

zo0oks "drawing of dnd monster encounter":

View attachment 9938

View attachment 9939

Jag kunde inte låta bli, det fick bli en till:

View attachment 9940

Min slutsats blir nog att det här är en materialsport, åtminstone just nu. Antingen får man fläska ut för ett rejält grafikkort (eventuellt externt, om man har laptop) eller så får man pröjsa för credits på DALL-E eller nåt.

En annan slutsats är att åtminstone ett par av de här hade jag inte plockat upp som AI-skapade i ett blindtest. De ser typ ut som helt vanliga rollspelsillustrationer typ.

Motsvarande och minst lika bra bilder hade numera också gått att göra på Wombo Dream, som har blivit påtagligt mycket bättre den senaste månaden. Delvis beror detta på de nya filtren. Där kan man dessutom göra ett obegränsat antal bilder. Jag påstår inte att Wombo Dream entydigt är bättre (man kan exempelvis inte enkelt jobba vidare med en bild eller välja en av fyra), men jag tror att de olika tjänsterna börjar bli mer lika i prestanda. I de flöden jag följer har det blivit svårare att se från vilken tjänst bilderna kommer. Det som fortfarande sticker ut är Midjourney-stilen, som ofta är spektakulär men på ett lite enahanda vis.

Troberg · 21 Sep 2022

krank said:
En sak jag funderar över med Stable Diffusion är hur stor skillnad själva grafikkortet gör. Jag har testat att generera saker med min laptops inbyggda 3050-kort som har mindre VRAM, och förutom den klart sämre upplösningen tycker jag också att jag generellt får sämre bilder. Trots att det enda jag justerar är just bildstorleken, som jag alltid sätter precis under punkten där jag får felmeddelande. För det interna kortet brukar det bli 384×384, medan jag med min externa GPU (Laptop-3080 med 16gb videoram) kan pressa upp till 768×768.

Är det helt enkelt så att upplösningen i sig bidrar till bättre bilder?

(Jag kör Stable Diffusion WebUI i en WSL2-maskin för att slippa ha en massa bös drällande i Windowsinstallationen)

SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.

Får jag bara någon anv frontendarna som kan köra på CPU istället för GPU att fungera så ska jag testa lite med extrema upplösningar och se vad som händer.

Lemur said:
Vi kommer nog se en turbulent tid framöver innan saker faller på plats. Jag tänker på den eldiga debatten som hölls om fildelning (var det tio år sen typ?) och sen kom Spotify och Netflix och nu är det ingen som pratar om fildelning länge. Tror vi kommer se samma utveckling för AI-bilder på sikt.

Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.

zo0ok · 21 Sep 2022

Troberg said:
SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.

YES! Precis det var mitt problem.
Först hade jag stable-diffusion-webui som jag inte kunde köra 512x512 på.
Sedan igår installerade jag en "optimized" version, för 4GB VRAM, men då hade jag "lärt" mig att bara köra 256x256, så då provade jag bara det.
Nu när jag kör 512x512 får jag också fina skarpa bilder.

Svarte Faraonen · 21 Sep 2022

Troberg said:
Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.

Å andra sidan har du ett survivorship bias där – den nya tekniken som faktiskt visade sig vara dålig finns ju inte kvar idag. Nymodigheter som kokainvin, lobotomi, neurosedyn, asbest i byggnader och liknande var ju faktiskt dåliga – det är därför vi inte har dem kvar, och den här typen av kritik är ett sätt att skilja agnarna från vetet och se till att det är de ofarliga uppfinningarna som blir kvar och de farliga som överges.

Oscar Silferstjerna · 21 Sep 2022

Troberg said:
SatbleDiffusion gillar verkligen inte när man går under 512x512. Har för mig att det beror på att den tränades på den upplösningen, och inte gillar när man går lägre.

Får jag bara någon anv frontendarna som kan köra på CPU istället för GPU att fungera så ska jag testa lite med extrema upplösningar och se vad som händer.

Ny teknik får alltid folk att kissa på sig av upprördhet, sedan inser de att den inte var så farlig. Idag är fildelning accepterad, automatiska vävstolar är accepterade, blinkers som inte rör sig är accepterade, stålpennor är accepterade (utom på Sweden Rock...), tåg som går snabbare än 30 km/h är accepterade, pizza/kebab/makaroner/all ny mat är inte skräpmat längre och så vidare.

Folk gillar inte nyheter.

Visst kan man säga att folk inte gillar nyheter. Det är säkert ofta så. Men det här är rimligen också en juridisk fråga. Hur mycket av en konstnärs verk kan en AI-bild innehålla innan det blir plagiat? Är exempelvis ett hus eller ett ansikte okej? Ska det betraktas som ett collage eller som något annat? Hur förhåller sig AI-konst till annan härmande konst?

Diskussion om AI-genererade bilder

Lättkränkt cancelkultur-kommunist

Rollspelsamatör

Urverk speldesign

Rollspelsamatör

Urverk speldesign

Lättkränkt cancelkultur-kommunist

Lättkränkt cancelkultur-kommunist

Lättkränkt cancelkultur-kommunist

Rollspelsamatör

Urverk speldesign

Attachments

lemur i ur och skur

Guds tvångstanke

Champion

Urverk speldesign

Ni dés ni maître

Serafim Svensson

Sinister eater

Rollspelsamatör

Sumer is icumen in

Serafim Svensson