MidJourney vs. Stable Diffusion vs. Bing Image Creator

Umělá inteligence pozoruhodným způsobem mění svět umění. Jednou z fascinujících aplikací umělé inteligence v uměleckém segmentu je využití generátorů deskriptivního umění. Tyto generátory mají schopnost zkoumat a interpretovat obrázky a na základě jejich analýzy vytvářet zcela nová umělecká díla.

V tomto článku diskutujeme o třech takových generátorech umění AI: MidJourney, Stable Diffusion a Microsoft Bing Image Creator, které z těchto tří vycházejí nejlépe v generování nejlepších výsledků na základě výzev.

MidJourney

MidJourney, kterou založil David Holz, je generátor umění AI, který využívá strojové učení k identifikaci vzorů a prvků ve stávajících uměleckých dílech, které lze následně využít k vytvoření nových kusů.

  Ovládněte Javu pomocí těchto 18 online kurzů

MidJourney vstoupil do otevřené beta verze 12. července 2022. Před spuštěním MidJourney Holz spoluzaložil Leap Motion, startup, který transformoval uživatelská rozhraní využitím snímání videa a gest rukou. V roce 2019 prodal Leap Motion společnosti Ultrahaptics.

S tím, jak MidJourney získává popularitu, Holz se podělil o své poznatky o technologii a jejím vlivu na umění a společnost. Holz považuje umělce za zákazníky MidJourney, nikoli za konkurenty, a věří, že platforma může umožnit větší kreativitu a experimentování ve fázi nápadů.

Existují však obavy z možného porušení autorských práv z tréninkové sady MidJourney, která může zahrnovat díla jiných umělců chráněná autorským právem.

Holz zdůrazňuje, že MidJourney je navržen tak, aby posiloval lidské schopnosti spíše než je nahrazoval. Přirovnává to k autům a vysvětluje, že jen proto, že auta jsou rychlejší než lidé, neznamená to, že bychom si měli usekávat nohy.

Pomocí generování obrazu AI společnosti MidJourney mohou umělci prozkoumat nové možnosti a vytvořit řadu nápadů, než vytvoří svá vlastní díla.

  Jak integrovat ásanu se slackem

Stabilní difúze

Stable Diffusion je model strojového učení s otevřeným zdrojovým kódem, který dokáže generovat obrázky z textu, upravovat obrázky na základě textu nebo vyplňovat detaily na obrázcích s nízkým rozlišením nebo s nízkými detaily. Byl trénován na miliardách obrázků a dokáže produkovat výsledky, které jsou srovnatelné s těmi, které byste získali z DALL-E 2 a MidJourney.

Emad Mostaque, zakladatel a CEO společnosti Stability AI, je společnost odpovědná za Stable Diffusion. Stable Diffusion je model latentní difúze vyvinutý skupinou CompVis na LMU Mnichov a byl navržen Patrickem Esserem a Robinem Rombachem, kteří dříve vytvořili architekturu modelu latentní difúze používanou Stable Diffusion.

Spolupráce mezi Stability AI, CompVis LMU, Runway, EleutherAI a LAION zpřístupnila Stable Diffusion veřejnosti.

Stabilní šíření lze nasadit na různé platformy, včetně zařízení Windows a Apple. Využití nasazení na zařízení v aplikaci může chránit soukromí uživatelů, což je vhodnější než serverový přístup.

Microsoft Bing Image Creator

Microsoft představil nový nástroj nazvaný Bing Image Creator, který uživatelům umožňuje vytvářet vlastní obrázky přímo v Microsoft Edge. Společnost vydala sadu nástrojů pro tvůrce, které mají podnítit kreativitu a sebevyjádření. Tento nástroj umožňuje uživatelům vytvářet personalizované obrázky, aby mohli sdílet své životní aktualizace nebo pro jakýkoli jiný účel, který mohou potřebovat.

Uživatelé mohou snadno přistupovat k Image Creatoru z postranního panelu Microsoft Edge. Společnost Microsoft přijala proaktivní opatření, aby zajistila, že nástroj bude používán zodpovědně a nebude napomáhat šíření urážlivého obsahu.

  Jak otevřít umístění v Mapách Apple v Mapách Google

Společnost nastavila obsahovou politiku, která v určitých případech zakazuje používání Image Creatoru a uživatelé mohou nahlásit jakékoli porušení těchto zásad. Společnost Microsoft navíc implementovala technologii, která řeší potenciální předsudky, které by mohly vzniknout v technologii generativních obrázků.

V tomto článku se vydáme na cestu k vyhodnocení výsledků každého popisného generátoru obrázků AI, když se zobrazí výzva s identickými textovými výzvami.

Výzva 1: Moderní Santa Claus na saních tažených soby za teplého jasného slunečného dne na dálnici

Výzva 2: Detailní záběr zvířete s velkýma očima, zachycující jeho nevinnost a roztomilost

Výzva 3: Lidský astronaut hrající při přistání na nové planetě je vítán nepřátelskými mimozemskými tvory tasícími své zbraně

Výzva 4: Moderní abstraktní umění knižní obálky románu založeného v New Yorku ve výrazných jasných barvách

Výzva 5: Muž se rozhoduje mezi dvěma talíři – jedním s pizzou a druhým s cheeseburgerem

Výzva 6: Zraněný válečník jedoucí na koni na zasněžené hoře s mečem v ruce

Výzva 7: Abstraktní obrázek s různými odstíny, který ukazuje pohyb a proudění vody

Výzva 8: Losos v řece se svěže zelenými stromy v pozadí

Výzva 9: ​​Sklenice vody na stole, do které je rukou vymačkán citron

Výzva 10: Pohled na obzor v poušti z pohledu lidí, kteří v ní jedou na slonovi

Výzva 11: Les, kde na stromech rostou papírové peníze a ptáci jsou vyrobeni z mincí

Výzva 12: Mísa ramen, stínování cel, večerní osvětlení, fotorealistické

Výzva 13: Elon Musk je chudý a nezaměstnaný

Výrok

Po vyhodnocení výstupů MidJourney, Stable Diffusion a Bing Image Creator je zřejmé, že neexistuje žádný definitivní vítěz.

Každý generátor interpretuje výzvy odlišným způsobem, přičemž podobnosti lze nalézt ve výstupech Bing Image Creator a MidJourney. Stable Diffusion je efektivní, když výzvy mají jasné popisy, ale často berou slova příliš doslovně. Zatímco MidJourney a Bing Image Creator jsou obecně úspěšné, občas produkují výsledky, které neodpovídají výzvám.

Je pozoruhodné, že Bing Image Creator využívá opatrnost při generování jakýchkoli urážlivých nebo podněcujících výstupů a vydává varovnou zprávu, když je vyzván k vytvoření obrazu chudého a nezaměstnaného Elona Muska. Přijetí takových ochranných opatření ze strany společnosti Microsoft je chvályhodné.

Mezitím odborné znalosti neuronové sítě MidJourney vytvořily obraz strádajícího a opuštěného Elona Muska. Z toho lze usoudit, že každý generátor bude uspokojovat svou příslušnou uživatelskou základnu.

x