MidJourney vs. Stable Diffusion vs. Bing Image Creator

Proměna umění s pomocí umělé inteligence

Umělá inteligence přináší revoluční změny do světa umění. Jedním z nejzajímavějších příkladů je využití generátorů deskriptivního umění. Tyto sofistikované nástroje dokážou analyzovat a interpretovat vizuální podněty, a na základě toho vytvářet zcela nová a originální umělecká díla.

V tomto textu se zaměříme na tři takové generátory umění poháněné umělou inteligencí: MidJourney, Stable Diffusion a Microsoft Bing Image Creator. Prozkoumáme, jak si vedou při generování obrazů na základě textových výzev, a porovnáme jejich silné a slabé stránky.

MidJourney

MidJourney, za kterým stojí David Holz, je systém generující umění pomocí umělé inteligence. Využívá sofistikované metody strojového učení k rozpoznávání vzorů a motivů v existujících uměleckých dílech. Tyto naučené prvky pak používá k vytváření nových, zcela jedinečných obrazů.

MidJourney byl uveden do otevřené beta verze 12. července 2022. Předtím se Holz podílel na založení startupu Leap Motion, který se zabýval transformací uživatelských rozhraní skrze technologii snímání videa a gest rukou. V roce 2019 prodal Leap Motion společnosti Ultrahaptics.

S rostoucí popularitou MidJourney se Holz podělil o své pohledy na tuto technologii a její dopad na umění a celou společnost. Umělce považuje za klienty MidJourney, nikoli za konkurenci. Věří, že platforma dokáže posílit kreativitu a podpořit experimentování ve fázi tvorby nápadů.

Nicméně, vyvstávají i obavy ohledně potenciálního porušení autorských práv. Tréninková data MidJourney totiž mohou obsahovat díla chráněná autorským právem.

Holz zdůrazňuje, že MidJourney je nástroj určený k posílení lidských schopností, nikoli k jejich nahrazení. Přirovnává to k automobilům a říká, že jen proto, že jsou rychlejší než my, si nebudeme odřezávat nohy.

Díky generování obrazu pomocí AI od MidJourney mohou umělci prozkoumat nové možnosti a generovat různé koncepty dříve, než se pustí do tvorby finálních děl.

Stable Diffusion

Stable Diffusion je model strojového učení s otevřeným zdrojovým kódem. Je schopen generovat obrázky z textového zadání, upravovat již existující obrázky na základě textových pokynů, nebo doplňovat detaily v obrazech s nižším rozlišením. Tento systém byl trénován na miliardách obrázků a dosahuje srovnatelných výsledků s modely jako DALL-E 2 nebo MidJourney.

Společnost Stability AI, založená Emadem Mostaquem, je zodpovědná za vývoj Stable Diffusion. Tento model latentní difúze byl vyvinut týmem CompVis na LMU Mnichov pod vedením Patricka Essera a Robina Rombacha, kteří předtím vytvořili architekturu modelu latentní difúze, kterou Stable Diffusion využívá.

Spolupráce mezi Stability AI, CompVis LMU, Runway, EleutherAI a LAION umožnila zpřístupnit Stable Diffusion široké veřejnosti.

Stable Diffusion je možné provozovat na různých platformách, včetně zařízení s Windows i Apple. Díky tomu, že běží přímo na zařízení uživatele, je zajištěna ochrana soukromí, což je výhodnější než přístup přes vzdálený server.

Microsoft Bing Image Creator

Microsoft představil nástroj Bing Image Creator, který umožňuje uživatelům generovat obrázky přímo v prohlížeči Microsoft Edge. Společnost nabízí celou sadu nástrojů pro tvůrce, které podporují kreativitu a sebevyjádření. Tento nástroj umožňuje vytvářet personalizované obrázky pro různé účely, ať už jde o sdílení aktuálních informací nebo cokoliv jiného.

Uživatelé mohou snadno přistupovat k Image Creatoru z postranního panelu Microsoft Edge. Společnost Microsoft klade velký důraz na zodpovědné používání nástroje a prevenci šíření urážlivého obsahu.

Byla zavedena obsahová politika, která zakazuje používání Image Creatoru v určitých situacích. Uživatelé mohou hlásit jakákoli porušení těchto zásad. Microsoft navíc implementoval technologie, které mají za cíl řešit potenciální zkreslení, která se mohou objevit v generativních obrázcích.

V následující části porovnáme výsledky, kterých dosáhly jednotlivé generátory, při zadání identických textových výzev.

Výzvy pro generátory obrázků

Následuje seznam 13 textových výzev, na které jednotlivé generátory vytvořily obrazy:

Výzva 1: Moderní Santa Claus na saních tažených soby za teplého jasného slunečného dne na dálnici
Výzva 2: Detailní záběr zvířete s velkýma očima, zachycující jeho nevinnost a roztomilost
Výzva 3: Lidský astronaut hrající při přistání na nové planetě je vítán nepřátelskými mimozemskými tvory tasícími své zbraně
Výzva 4: Moderní abstraktní umění knižní obálky románu založeného v New Yorku ve výrazných jasných barvách
Výzva 5: Muž se rozhoduje mezi dvěma talíři – jedním s pizzou a druhým s cheeseburgerem
Výzva 6: Zraněný válečník jedoucí na koni na zasněžené hoře s mečem v ruce
Výzva 7: Abstraktní obrázek s různými odstíny, který ukazuje pohyb a proudění vody
Výzva 8: Losos v řece se svěže zelenými stromy v pozadí
Výzva 9: Sklenice vody na stole, do které je rukou vymačkán citron
Výzva 10: Pohled na obzor v poušti z pohledu lidí, kteří v ní jedou na slonovi
Výzva 11: Les, kde na stromech rostou papírové peníze a ptáci jsou vyrobeni z mincí
Výzva 12: Mísa ramen, stínování cel, večerní osvětlení, fotorealistické
Výzva 13: Elon Musk je chudý a nezaměstnaný

Závěr

Po porovnání výstupů generátorů MidJourney, Stable Diffusion a Bing Image Creator je zřejmé, že nemůžeme jednoznačně určit vítěze.

Každý z generátorů interpretuje výzvy odlišným způsobem. Podobnosti lze najít ve výstupech Bing Image Creator a MidJourney. Stable Diffusion se osvědčil, pokud jsou výzvy jasně popsané, ale často bere slova příliš doslovně. I když MidJourney a Bing Image Creator obvykle dosahují dobrých výsledků, občas se stane, že jejich výstupy úplně nesplňují zadání.

Je pozoruhodné, že Bing Image Creator je velmi opatrný při generování potencionálně urážlivých výstupů. V případě požadavku na vytvoření obrazu chudého a nezaměstnaného Elona Muska vygeneruje varovnou zprávu. Tato bezpečnostní opatření společnosti Microsoft jsou chvályhodná.

Na druhou stranu, MidJourney vygeneroval obraz strádajícího a opuštěného Elona Muska, který naplno využívá potenciál neuronové sítě. Z tohoto porovnání je jasné, že každý generátor dokáže uspokojit potřeby odlišné uživatelské základny.