Kompletní průvodce k odhalení plagiátorství AI Chatbota

Odhalování textů generovaných umělou inteligencí: Průvodce

Umělá inteligence, jako je ChatGPT, už dávno nepředstavuje jen nástroj pro odpovídání na dotazy. Dokáže s lehkostí vytvářet e-maily, motivační dopisy, eseje, básně, blogové příspěvky a mnoho dalších textů, které se na první pohled nerozeznají od těch, které napsal člověk.

Psaní s pomocí AI je pozoruhodně adaptabilní – dokáže napodobit různé styly psaní natolik přesvědčivě, že je nesmírně obtížné rozlišit, zda text vytvořila umělá inteligence nebo lidská bytost.

Toto umění napodobování však přináší problém – stává se extrémně náročným odhalit, kdy byl text vytvořen umělou inteligencí, a ne člověkem. I když bychom se mohli spolehnout na logiku Sherlocka Holmese a "vyloučit nemožné", v každodenním životě na to málokdo má čas.

Možná vás překvapí, ale předchozí odstavec vygenerovala umělá inteligence. Konkrétně jsem požádal nástroj YouWrite, aby vytvořil rychlý úvod k tomuto článku. Výsledek je docela přesvědčivý, že? Právě v tom spočívá problém – tato přesvědčivost umožňuje prezentovat text vygenerovaný AI jako vlastní práci a těžit z toho.

Umělá inteligence není jen o přeformulování obsahu; učí se dané téma a prezentuje ho přirozeným jazykem díky RLHF (posilování učení s lidskou zpětnou vazbou). To znamená, že text vygenerovaný umělou inteligencí nepůsobí roboticky a není ho možné snadno porovnat s online daty za účelem odhalení plagiátu.

Odhalení textů vygenerovaných umělou inteligencí není jednoduché a nemůžeme slíbit stoprocentní úspěšnost. S trochou detektivní práce a pomocí specializovaných nástrojů pro detekci psaní AI je však možné většinu textů vytvořených umělou inteligencí odhalit.

Níže najdete jak manuální způsoby, jak odhalit plagiát vytvořený umělou inteligencí, tak i automatizované nástroje, které vám s tím pomohou.

Manuální odhalování plagiátů vytvořených AI 🕵️

ChatGPT není jediným problémem, pokud jde o plagiátorství AI. Existuje mnoho dalších nástrojů založených na stejné technologii GPT-3, které jsou speciálně navrženy pro psaní textů. Tyto nástroje jsou velmi pokročilé a dokáží vytvářet texty podobné lidským, které je obzvláště těžké odhalit.

Automatizované detekční nástroje jsou, v závislosti na typu obsahu, jeho délce a složitosti, někdy spolehlivé, jindy ne. Proto je v současné době nejlepší kombinovat automatizované nástroje s manuální kontrolou, abychom zjistili, zda byl text generován umělou inteligencí.

Níže uvádím několik běžných vodítek, na které se můžete zaměřit při odhalování textů vytvořených umělou inteligencí.

#1. Zastaralé informace

Znalosti ChatGPT a dalších AI založených na GPT-3 jsou omezeny na data do konce roku 2021. I když některé AI chatboty mají vestavěné vyhledávače, které jim umožňují vyhledávat nejnovější informace, stále se spoléhají na stará data při vytváření delších textů, jako jsou eseje nebo blogové příspěvky.

Pokud si všimnete, že text se neustále odvolává na zastaralé informace, zejména ty před rokem 2021, je pravděpodobné, že byl vygenerován AI.

Na níže uvedeném snímku obrazovky jsem požádal YouWrite, aby mi sdělil informace o nedávném mistrovství světa ve fotbale, a toto je výsledek:

Nástroj mluví o mistrovství světa ve fotbale 2018, namísto toho, které se konalo nedávno v roce 2022. I když se nástroje průběžně aktualizují, aby dokázaly referovat i o aktuálních událostech, při tvorbě dlouhých textů stále využívají starší data, na kterých byly vycvičeny.

#2. Opakující se struktura vět v popisech

Při generování popisů více produktů nebo aplikací umělá inteligence často používá stejnou strukturu vět, kterou upravuje, aby vyhovovala danému produktu. Popisy obvykle začínají stejným slovem, například „The“, „It“, „A“ nebo názvem produktu. Také je patrné opakování v zaměření popisů.

Jako příklad jsem požádal ChatGPT, aby mi sdělil informace o „webech pro zadávání dat“. Můžete si všimnout, že všechny popisy začínají na „A“ a mají podobné zaměření.

Stejnou otázku jsem položil i YouChat, který postupoval podobně – na začátku zopakoval název každého webu a samotné popisy vypadají jako přeformulované verze těch ostatních.

Pokud text, který analyzujete, obsahuje podobné popisy, je to silný indikátor toho, že byl napsán umělou inteligencí.

#3. Krátké věty

Umělá inteligence ve většině případů používá jednořádkové věty, maximálně s jednou čárkou. Zřejmě se snaží minimalizovat možnost chyb, vyhýbá se tedy dlouhým větám, které by vyžadovaly použití dvojteček, středníků nebo pomlček.

I když toto není stoprocentní indikátor, stojí za zvážení jako další důkaz, který podpoří vaše podezření.

#4. Nesprávné informace

V případě složitějších otázek, které vyžadují nějaký návod, může umělá inteligence špatně pochopit záměr a poskytnout nesprávné informace. Nejde o zastaralé informace, ale o situace, kdy AI s jistotou sdělí nesprávnou informaci, protože nerozumí tématu.

Například jsem požádal YouWrite o návod, „jak rootnout telefon Android bez počítače“. Nástroj mi stále navrhoval postupy, které v určité fázi vyžadují použití PC.

#5. Chybí osobní názor

Když umělá inteligence o něčem mluví, drží se pouze známých faktů. Na rozdíl od lidí se nebude dělit o své osobní zkušenosti. I když lze AI instruovat, aby vytvořila praktický text, obvykle se tomu v základu vyhýbá.

Pokud si všimnete, že text obsahuje jen obecně známá fakta, je velká šance, že ho vytvořila umělá inteligence. Například, pokud mluví o aplikaci, bude mluvit o jejích funkcích, ale ne o tom, jak snadná je navigace nebo jak aplikaci skutečně používat.

#6. Stručné vysvětlení

Protože jsou znalosti umělé inteligence omezeny na aktuálně dostupné informace, má tendenci psát stručná vysvětlení a popisy. Pokud mluví o konkrétním tématu, jako je například rootování Androidu, vysvětlení se obvykle vejde do 2-3 odstavců. V případě aplikací nebo produktů popis obvykle nepřekročí 1 odstavec.

Lidé mají tendenci psát o tématech do hloubky, včetně funkcí, omezení, osobních zkušeností, cen atd. Umělá inteligence se obvykle zaměřuje na hlavní vlastnosti nebo výhody, takže popis je krátký. Pokud požádáte o další podrobnosti, zvyšuje se riziko, že AI poskytne nesprávné informace.

#7. Kontrola historie autora

Pokud máte jako učitel nebo správce webu přístup k předchozím pracím nebo úkolům autora, doporučuje se je porovnat s podezřelým textem. Je velmi nepravděpodobné, že by měl autor styl psaní podobný umělé inteligenci. I když umělá inteligence dokáže měnit tón, styly, které volí, jsou spíše obecné a nedokáže dokonale napodobit váš specifický styl.

Vezměme si jako příklad odstavec vygenerovaný AI v úvodu tohoto článku. Každý, kdo četl mé předchozí příspěvky, snadno pozná, že můj styl psaní je úplně jiný.

Stačí si přečíst 2-3 předchozí práce autora, abyste zjistili, zda odpovídají stylu psaní podezřelého textu.

Nástroje pro detekci plagiátů AI

Na trhu je k dispozici mnoho nástrojů, které dokáží detekovat obsah napsaný umělou inteligencí. Jejich přesnost se však liší a může se měnit v závislosti na typu obsahu a jeho délce.

Testoval jsem tyto nástroje s různými typy obsahu generovaného pomocí ChatGPT, GPT-3 Playground, WriteSonic, Rytr a YouWrite. Dokázaly detekovat obsah generovaný pomocí ChatGPT a GPT-3 Playground.

Výsledky pro specializované nástroje pro psaní byly smíšené a zajímavé je, že žádný z nástrojů nedokázal detekovat YouWrite. Domnívám se, že je to proto, že YouWrite se při generování textů dopouští chyb, které jsou podobné lidským, aby se vyhnul detekci.

Doporučuji používat tyto nástroje v kombinaci s manuální kontrolou. Nejprve analyzujte obsah pomocí některého z těchto nástrojů a poté ručně vyhledejte případné stopy, které dále potvrdí vaše podezření.

Níže uvádím nástroje, které nabízejí nejlepší výsledky a jsou snadno použitelné:

Poznámka: Pro demonstraci použiji vygenerovaný text z WriteSonic na téma „Výhody manga“.

#1. Content At Scale

Zjistil jsem, že detektor obsahu AI od Content At Scale je nejpřesnější v většině testů, které jsem provedl. Umožňuje skenovat až 2500 znaků na sken a vygeneruje procentuální předpověď, která ukazuje, jak moc je text generován umělou inteligencí.

Pokud je více než 60 % obsahu označeno jako vygenerováno AI, můžete s vysokou pravděpodobností usuzovat, že tomu tak skutečně je. Na níže uvedeném snímku obrazovky vidíte, že 96 % obsahu je vygenerováno umělou inteligencí.

#2. GPTZero

Pokud chcete přesně vidět, který obsah generovala umělá inteligence, je GPTZero dobrou volbou. GPTZero nehodnotí obsah, ale zvýrazňuje přesný obsah, který je s největší pravděpodobností generován umělou inteligencí.

I když zobrazuje skóre zmatenosti a variability, které pomáhají získat představu o náhodnosti textu, co je důležitější, umožňuje skenování až 5000 znaků na sken a také nahrávání souborů. Skenování velkého množství obsahu výrazně zlepšuje přesnost.

#3. Detektor GPT-2

Tvůrci ChatGPT také nabízejí nástroj pro detekci své vlastní práce. Vzhledem k tomu, že GPT-2 a GPT-3 se liší pouze v celkových datech použitých pro trénink, funguje tento detektor GPT-2 dobře i pro AI založené na GPT-3.

Neexistuje žádné omezení ohledně množství obsahu, které dokáže skenovat, takže je ideální pro detekci velmi dlouhých textů vytvořených umělou inteligencí. Také jsem zjistil, že jeho přesnost je slušná, zejména u obsahu generovaného ChatGPT. V předpovědích se ale trochu ztrácí, takže berte jeho výsledky v úvahu jen v případě, kdy ukáže, že více než 50 % obsahu je vygenerováno AI.

#4. Writer AI Content Detector

Výsledky nástroje Writer AI Content Detector jsou při detekci obsahu z nástrojů pro psaní AI nejednoznačné, ale funguje skvěle pro obsah generovaný ChatGPT. Umožňuje skenovat 1500 znaků na jeden sken a také zadat URL adresu obsahu, pokud je již publikován.

Můj testovací text generovaný umělou inteligencí byl označen jako z 94 % vytvořený člověkem, což je v porovnání s jinými nástroji značný odklon. Přesto se stále vyplatí ho používat k detekci obsahu ChatGPT, zvláště pokud je již publikován.

#5. Draft & Goal

Jednoduchý, ale účinný nástroj pro detekci psaní AI. Dle mých zkušeností nabízí Draft & Goal podobné výsledky jako Content At Scale, ale nemá omezený počet slov, takže můžete skenovat i dlouhé texty. Doba skenování se však prodlužuje s tím, jak se skenovaný obsah zvětšuje.

Můj vzorový text byl označen jako z 94 % vygenerovaný umělou inteligencí.

Moje myšlenky 💭

Osobně si myslím, že pomoc umělé inteligence je skvělý způsob, jak překonat spisovatelský blok, získat všechny informace na jednom místě a najít inspiraci. Neměla by však nikdy nahradit lidské psaní, protože je omezena na již známé informace.

Doporučuji také prozkoumat některé z nejlepších nástrojů pro kontrolu plagiátorství, abyste zabránili kopírování.