Jak blokovat prohledávače OpenAI, aby škrábaly váš web

Zatímco uživatelé milují ChatGPT pro obrovské množství informací, které v současné době obsahuje, totéž nelze říci o majitelích webových stránek.

ChatGPT od OpenAI používá prohledávače ke škrábání webů, ale pokud jste vlastníkem webu a nechcete, aby prohledávač OpenAI přistupoval na váš web, zde je několik věcí, které můžete udělat, abyste tomu zabránili.

Jak funguje procházení OpenAI?

Webový prohledávač (také známý jako pavouk nebo robot vyhledávače) je automatizovaný program, který prohledává internet a hledá informace. Tyto informace pak sestaví tak, aby k nim váš vyhledávač snadno získal přístup.

  Pochopení rozdílu mezi URL, URI a URN

Webové prohledávače indexují každou stránku každé relevantní adresy URL a obvykle se zaměřují na webové stránky, které jsou relevantnější pro vaše vyhledávací dotazy. Předpokládejme například, že googlujete konkrétní chybu systému Windows. Webový prohledávač ve vašem vyhledávači prohledá všechny adresy URL z webových stránek, které považuje za směrodatnější k tématu chyb Windows.

Webový prohledávač OpenAI se nazývá GPTBot a podle Dokumentace OpenAIposkytnutí přístupu GPTBot na váš web může pomoci vytrénovat model AI, aby se stal bezpečnější a přesnější, a může dokonce pomoci rozšířit možnosti modelu AI.

Jak zabránit OpenAI v procházení vašeho webu

Stejně jako většina ostatních webových prohledávačů může být GPTBot zablokován v přístupu na váš web úpravou protokolu robots.txt na webu (známého také jako protokol pro vyloučení robotů). Tento soubor .txt je umístěn na serveru webové stránky a řídí chování webových prohledávačů a dalších automatických programů na vašem webu.

  Vytvářejte kurzy založené na kohortách na těchto 11 platformách

Zde je krátký seznam toho, co soubor robot.txt umí:

  • Může zcela zablokovat přístup GPTBot na web.
  • Může blokovat přístup GPTBot pouze k určitým stránkám z adresy URL.
  • Může říct GPTBot, které odkazy může sledovat a které ne.

Zde je návod, jak ovládat, co může GPTBot na vašem webu dělat:

Zcela zablokujte přístup GPTBot na váš web

  • Nastavte soubor robot.txt a poté jej upravte pomocí libovolného nástroje pro úpravu textu.
  • Přidejte GPTBot do souboru robots.txt svého webu následovně:
  •  User-agent: GPTBot
    Disallow: /

    Blokovat přístup GPTBot pouze na určité stránky

  • Nastavte soubor robot.txt a poté jej upravte pomocí preferovaného nástroje pro úpravu textu.
  • Přidejte GPTBot do souboru robots.txt svého webu následovně:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Mějte však na paměti, že změna souboru robot.txt není retroaktivním řešením a jakékoli informace, které již GPTBot shromáždil z vašeho webu, nebude možné obnovit.

      Sbírejte mince při manévrování s lodí kolem klonů [Game Review]

    OpenAI umožňuje vlastníkům webových stránek odhlásit se z procházení

    Od doby, kdy se prohledávače používají k trénování modelů umělé inteligence, majitelé webových stránek hledají způsoby, jak udržet svá data v soukromí.

    Někteří se obávají, že modely AI v podstatě kradou jejich práci, a dokonce připisují méně návštěv webových stránek skutečnosti, že nyní uživatelé získávají jejich informace, aniž by museli jejich webové stránky navštívit.

    Celkově vzato, zda chcete zcela zablokovat chatboty AI ve skenování vašich webových stránek, je zcela na vás.