2023-08-13 06:07 Doba čtení: 5 min

Jak blokovat prohledávače OpenAI, aby škrábaly váš web

Zatímco uživatelé si oblíbili ChatGPT pro jeho rozsáhlou databázi informací, majitelé webových stránek mohou mít k tomuto nástroji poněkud odlišný postoj.

ChatGPT, vyvíjený společností OpenAI, využívá prohledávací roboty ke shromažďování dat z webu. Pokud si ale jako vlastník webu nepřejete, aby robot společnosti OpenAI navštěvoval vaše stránky, existuje několik způsobů, jak tomu zabránit.

Jak funguje procházení webu od OpenAI?

Webový prohledávač (označovaný také jako crawler, spider nebo bot) je automatizovaný software, který systematicky prochází webové stránky a shromažďuje z nich data. Získané informace se následně indexují a ukládají, aby je vyhledávače mohly snadno zpřístupnit uživatelům.

Prohledávače indexují každou stránku, která je relevantní k dané URL adrese, přičemž se obvykle zaměřují na webové stránky s největší relevancí pro vyhledávací dotazy uživatelů. Například, pokud vyhledáváte konkrétní chybu v systému Windows, webový prohledávač vašeho vyhledávače prozkoumá adresy URL webových stránek, které považuje za nejvíce relevantní pro téma chyb v systému Windows.

Webový prohledávač společnosti OpenAI se nazývá GPTBot. Podle dokumentace OpenAI, poskytnutí přístupu GPTBot na web může přispět k tréninku umělé inteligence, aby byla bezpečnější a přesnější, a dokonce může rozšířit její možnosti.

Jak zabránit OpenAI v prohledávání vašeho webu

Stejně jako většina ostatních webových prohledávačů, i GPTBot může být zablokován v přístupu na váš web prostřednictvím úpravy souboru robots.txt (známého také jako protokol pro vyloučení robotů). Tento soubor .txt je umístěn na serveru webové stránky a určuje, jak se webové prohledávače a další automatické programy mohou chovat na vašich stránkách.

Soubor robot.txt umožňuje:

  • Zcela zakázat GPTBot přístup k webu.
  • Zablokovat GPTBot přístup pouze k určitým stránkám na webu.
  • Specifikovat, které odkazy smí a nesmí GPTBot sledovat.

Následuje postup, jak řídit chování GPTBot na vašem webu:

Zablokování přístupu GPTBot na web

  • Vytvořte soubor robot.txt nebo upravte existující pomocí textového editoru.
  • Přidejte následující řádky do souboru robots.txt vašeho webu:
User-agent: GPTBot
Disallow: /

Zablokování přístupu GPTBot pouze k vybraným stránkám

  • Vytvořte nebo upravte soubor robot.txt pomocí textového editoru.
  • Přidejte do souboru robots.txt vašeho webu následující pravidla:
User-agent: GPTBot
Allow: /adresar-1/
Disallow: /adresar-2/

Důležité je si uvědomit, že změna v souboru robot.txt se neprojeví zpětně, a nelze tak obnovit data, která již GPTBot z vašeho webu shromáždil.

OpenAI umožňuje vlastníkům webů odhlásit se z prohledávání

Od té doby, co se prohledávače začaly používat k trénování modelů umělé inteligence, majitelé webů hledají způsoby, jak zajistit ochranu svých dat.

Někteří se obávají, že umělá inteligence prakticky "kráde" jejich obsah, a dokonce připisují nižší návštěvnost webu skutečnosti, že uživatelé získávají potřebné informace, aniž by museli jejich stránky navštívit.

Zda se rozhodnete zablokovat umělou inteligenci, aby prohledávala vaše webové stránky, je zcela na vašem uvážení.

Jan Novák
Autor
Czechia

Redaktor zaměřený na Windows, produktivitu a cloudové nástroje.

Předchozí článek
Jak používat funkci DROP v Excelu
Další článek
Jak chránit své soukromí při používání ChatGPT pro práci