MidJourney vs. Stable Diffusion vs. Bing Image Creator
Umělá inteligence pozoruhodným způsobem mění svět umění. Jednou z fascinujících aplikací umělé inteligence v uměleckém segmentu je využití generátorů deskriptivního umění. Tyto generátory mají schopnost zkoumat a interpretovat obrázky a na základě jejich analýzy vytvářet zcela nová umělecká díla.
V tomto článku diskutujeme o třech takových generátorech umění AI: MidJourney, Stable Diffusion a Microsoft Bing Image Creator, které z těchto tří vycházejí nejlépe v generování nejlepších výsledků na základě výzev.
MidJourney
MidJourney, kterou založil David Holz, je generátor umění AI, který využívá strojové učení k identifikaci vzorů a prvků ve stávajících uměleckých dílech, které lze následně využít k vytvoření nových kusů.
MidJourney vstoupil do otevřené beta verze 12. července 2022. Před spuštěním MidJourney Holz spoluzaložil Leap Motion, startup, který transformoval uživatelská rozhraní využitím snímání videa a gest rukou. V roce 2019 prodal Leap Motion společnosti Ultrahaptics.
S tím, jak MidJourney získává popularitu, Holz se podělil o své poznatky o technologii a jejím vlivu na umění a společnost. Holz považuje umělce za zákazníky MidJourney, nikoli za konkurenty, a věří, že platforma může umožnit větší kreativitu a experimentování ve fázi nápadů.
Existují však obavy z možného porušení autorských práv z tréninkové sady MidJourney, která může zahrnovat díla jiných umělců chráněná autorským právem.
Holz zdůrazňuje, že MidJourney je navržen tak, aby posiloval lidské schopnosti spíše než je nahrazoval. Přirovnává to k autům a vysvětluje, že jen proto, že auta jsou rychlejší než lidé, neznamená to, že bychom si měli usekávat nohy.
Pomocí generování obrazu AI společnosti MidJourney mohou umělci prozkoumat nové možnosti a vytvořit řadu nápadů, než vytvoří svá vlastní díla.
Stabilní difúze
Stable Diffusion je model strojového učení s otevřeným zdrojovým kódem, který dokáže generovat obrázky z textu, upravovat obrázky na základě textu nebo vyplňovat detaily na obrázcích s nízkým rozlišením nebo s nízkými detaily. Byl trénován na miliardách obrázků a dokáže produkovat výsledky, které jsou srovnatelné s těmi, které byste získali z DALL-E 2 a MidJourney.
Emad Mostaque, zakladatel a CEO společnosti Stability AI, je společnost odpovědná za Stable Diffusion. Stable Diffusion je model latentní difúze vyvinutý skupinou CompVis na LMU Mnichov a byl navržen Patrickem Esserem a Robinem Rombachem, kteří dříve vytvořili architekturu modelu latentní difúze používanou Stable Diffusion.
Spolupráce mezi Stability AI, CompVis LMU, Runway, EleutherAI a LAION zpřístupnila Stable Diffusion veřejnosti.
Stabilní šíření lze nasadit na různé platformy, včetně zařízení Windows a Apple. Využití nasazení na zařízení v aplikaci může chránit soukromí uživatelů, což je vhodnější než serverový přístup.
Microsoft Bing Image Creator
Microsoft představil nový nástroj nazvaný Bing Image Creator, který uživatelům umožňuje vytvářet vlastní obrázky přímo v Microsoft Edge. Společnost vydala sadu nástrojů pro tvůrce, které mají podnítit kreativitu a sebevyjádření. Tento nástroj umožňuje uživatelům vytvářet personalizované obrázky, aby mohli sdílet své životní aktualizace nebo pro jakýkoli jiný účel, který mohou potřebovat.
Uživatelé mohou snadno přistupovat k Image Creatoru z postranního panelu Microsoft Edge. Společnost Microsoft přijala proaktivní opatření, aby zajistila, že nástroj bude používán zodpovědně a nebude napomáhat šíření urážlivého obsahu.
Společnost nastavila obsahovou politiku, která v určitých případech zakazuje používání Image Creatoru a uživatelé mohou nahlásit jakékoli porušení těchto zásad. Společnost Microsoft navíc implementovala technologii, která řeší potenciální předsudky, které by mohly vzniknout v technologii generativních obrázků.
V tomto článku se vydáme na cestu k vyhodnocení výsledků každého popisného generátoru obrázků AI, když se zobrazí výzva s identickými textovými výzvami.
Výzva 1: Moderní Santa Claus na saních tažených soby za teplého jasného slunečného dne na dálnici
Výzva 2: Detailní záběr zvířete s velkýma očima, zachycující jeho nevinnost a roztomilost
Výzva 3: Lidský astronaut hrající při přistání na nové planetě je vítán nepřátelskými mimozemskými tvory tasícími své zbraně
Výzva 4: Moderní abstraktní umění knižní obálky románu založeného v New Yorku ve výrazných jasných barvách
Výzva 5: Muž se rozhoduje mezi dvěma talíři – jedním s pizzou a druhým s cheeseburgerem
Výzva 6: Zraněný válečník jedoucí na koni na zasněžené hoře s mečem v ruce
Výzva 7: Abstraktní obrázek s různými odstíny, který ukazuje pohyb a proudění vody
Výzva 8: Losos v řece se svěže zelenými stromy v pozadí
Výzva 9: Sklenice vody na stole, do které je rukou vymačkán citron
Výzva 10: Pohled na obzor v poušti z pohledu lidí, kteří v ní jedou na slonovi
Výzva 11: Les, kde na stromech rostou papírové peníze a ptáci jsou vyrobeni z mincí
Výzva 12: Mísa ramen, stínování cel, večerní osvětlení, fotorealistické
Výzva 13: Elon Musk je chudý a nezaměstnaný
Výrok
Po vyhodnocení výstupů MidJourney, Stable Diffusion a Bing Image Creator je zřejmé, že neexistuje žádný definitivní vítěz.
Každý generátor interpretuje výzvy odlišným způsobem, přičemž podobnosti lze nalézt ve výstupech Bing Image Creator a MidJourney. Stable Diffusion je efektivní, když výzvy mají jasné popisy, ale často berou slova příliš doslovně. Zatímco MidJourney a Bing Image Creator jsou obecně úspěšné, občas produkují výsledky, které neodpovídají výzvám.
Je pozoruhodné, že Bing Image Creator využívá opatrnost při generování jakýchkoli urážlivých nebo podněcujících výstupů a vydává varovnou zprávu, když je vyzván k vytvoření obrazu chudého a nezaměstnaného Elona Muska. Přijetí takových ochranných opatření ze strany společnosti Microsoft je chvályhodné.
Mezitím odborné znalosti neuronové sítě MidJourney vytvořily obraz strádajícího a opuštěného Elona Muska. Z toho lze usoudit, že každý generátor bude uspokojovat svou příslušnou uživatelskou základnu.