Podrobný průvodce webovým scrapingem pomocí ChatGPT Code Interpreter a jeho pluginů.
Pokud nechcete vytvářet nějaké novinky, je pravděpodobné, že pro začátek potřebujete nějaké nezbytné informace. Nebo se možná budete chtít podívat do soutěže o hodnotný příspěvek. Kromě toho může existovat nespočet důvodů, proč se někdo zajímá o obsah konkrétního webu.
Web scraping je proces, který slouží takovým případům použití.
A existuje několik způsobů, jak toho dosáhnout. Existují těžké nástroje, které si můžete předplatit pro profesionální seškrabování velkých webových stránek. Případně můžete vyžadovat specifické nastavení pro zpracování na místě.
V každém případě je tento přístup drahý, časově náročný a zdlouhavý pro začátečníky, zejména pokud jde o seškrabování několika webových stránek.
Table of Contents
Přehled ChatGPT pro Web Scraping
Nemám vám představovat ChatGPT. jsem?
Stručně řečeno, ChatGPT je generativní AI, která reaguje jako lidé. Získáte rozhraní chatu, ve kterém jej požádáte o dokončení různých úkolů, jako je dotazování se na historické události, psaní esejí, shrnutí, překládání, kódování atd.
ChatGPT odpovídá v textu. Existují však zásuvné moduly ChatGPT, které v mnoha ohledech vylepšují jeho možnosti. A jeden takový plugin budeme používat. Kromě toho použijeme jeho Code Interpreter pro scraping webových stránek se složitou strukturou webových stránek nebo s aktivními anti-scraping protokoly.
Vezměte prosím na vědomí, že ChatGPT má bezplatné a placené verze. Budete však potřebovat placené předplatné (v současné době 20 USD měsíčně) pro používání pluginu webového škrabáku nebo jeho modulu Code Interpreter.
V dalších částech ilustruji proces krok za krokem.
Zřeknutí se odpovědnosti: Než budete pokračovat sami, potvrďte, že předmětná webová stránka umožňuje škrábání jejich obsahu. Pokud ne, můžete kontaktovat jejich správce a zjistit, zda vám to povolují, abyste se vyhnuli případným právním problémům.
Web Scraping pomocí pluginu ChatGPT
Přihlaste se do svého OpenAI účetnajeďte myší na GPT-4 (její aktuální placená verze) a klikněte na Pluginy.
Dále klikněte na možnost No plugins enabled, přejděte dolů a klikněte na Plugin Store.
Vezměte prosím na vědomí, že místo možnosti Nejsou povoleny žádné pluginy budete mít ikonu pluginu, pokud je aktivní. V takovém případě musíte kliknutím na tuto ikonu otevřít rozevírací nabídku a ve spodní části kliknout na úložiště pluginů.
Tím se otevře obchod s pluginy. Vyhledejte Scraper a stiskněte Instalovat.
Vyberte tento plugin v rozhraní ChatGPT.
Jakmile je toto vybráno, je třeba vyžádat ChatGPT a uvést adresu URL předmětu a obsah pro seškrabování.
Udělal jsem to pro několik webů. Koukej na tohle.
Seškrábání publikace
Jsme publikace zaměřená na technologie a pro tuto ilustraci jsem si vybral naši domovskou stránku etechblog.cz.com/.
Zde je výzva:
check this webpage: https://etechblog.cz.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.
Lze také znovu vyzvat k převodu dat do formátu CSV, vložit je do textového souboru s příponou .csv a otevřít v tabulkové aplikaci, jako je MS Excel.
Smazání webové stránky s nabídkou nebo kupónem
Sekce nabídek etechblog.cz je místo, kde jsme ručně vybrali některé nabídky na špičkové projekty. Co takhle načíst každou nabídku v tabulkovém formátu?
Prepare a list of deals from this webpage: https://etechblog.cz.com/deals/. present the result in a tabular format.
Seškrábání Wikipedie
Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page
Sešrotování e-shopů
Nakonec jsem zkusil odstranit Amazon.com pro notebooky použitím několika filtrů a vložením adresy URL do ChatGPT. Toto jsem dostal:
Problém je, že to není jediný případ. Najdete mnoho takových případů, kdy mají webové stránky opatření proti škrábání. V této situaci budete muset najít alternativu pro získání dat, pokud není možné předplatit standardní škrabky.
Následující části obsahují jedno takové řešení.
Web seškrabování pomocí ChatGPT Code Interpreter
Code Interpreter je nově spuštěný engine ChatGPT, který zajišťuje úkoly související s programováním. Zatímco výchozí engine silně spoléhá na textové odpovědi, Code Interpreter může pomoci vizualizovat výstupy, analyzovat, ladit a spouštět kód, integrovat se s binárními soubory softwaru a dělat mnohem více věcí zaměřených na programování.
V tomto procesu stáhneme zdrojové HTML, nahrajeme jej do ChatGPT Code Interpreter a pokračujeme ve scrapingu.
Vzal jsem tuto stránku pro extrakci:
Začneme uložením webové stránky jako HTML. Chcete-li to provést, přejděte na webovou stránku a stiskněte Ctrl+S.
Nyní máme soubor na seškrabování. Pojďme zjistit výzvu.
Kromě textové výzvy můžete vidět, že jsem jí dal ukázkové prvky pro rychlé sledování škrábání. Vzhledem k tomu, že struktury webových stránek Amazonu jsou složité, bez těchto vzorků by pokus o seškrabování mohl selhat nebo vést k ničemu.
A získat tyto prvky je poměrně snadné. Klikněte pravým tlačítkem kamkoli na webovou stránku předmětu a v rozbalovacím okně klikněte na Prozkoumat.
Nejprve klikněte na nejvyšší ikonu (označenou jako 1). Tím se zvýrazní podrobnosti při výběru prvků ze stránky. Dále vyberte prvek kontejneru pro jakýkoli konkrétní produkt.
Ujistěte se, že jste vybrali nejvnitřnější nádobu. Můžete na ni najet a bude se stále zvýrazňovat. Ve chvíli, kdy získáte poslední shell pokrývající tento blok, můžete kliknout a přejít na pravou stranu a zkopírovat třídu div prvku.
Podobně vyberte vzorky pro další prvky.
Nakonec nahrajte HTML a výzvu podobnou této:
check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download. div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border" sample title element: span class="a-size-medium a-color-base a-text-normal" sample price element: span class="a-price-whole" sample ratings element: span class="a-size-base puis-bold-weight-text"
Chvíli to potrvá, než bude ChatGPT Code Interpreter pracovat. Budete mít několik podrobností, zatímco vše bude ve vloženém souboru CSV.
Můžete si všimnout, že tabulka obsahuje několik položek, které nejsou na původní webové stránce, zejména na začátku. V takových případech musíte znovu zkontrolovat a vyčistit data, zda nejsou nadbytečná.
Pokud nějaké existují, můžete znovu vyzvat ChatGPT k získání čistého CSV.
Závěrečné myšlenky
ChatGPT dělá mnoho věcí a základní web scraping je jednou z nich. Souhlasím, nemusí to být vhodné pro někoho, kdo škrábe stovky stránek. Přesto vás to nastartuje správným směrem a je ideální pro krátké škrábání.
V této příručce jsme použili jeden z jeho scrapingových pluginů a Code Interpreter. Zatímco pluginy fungují na mnoha standardních webech, druhý způsob je pro vlastní struktury webových stránek nebo pokud má stránka dynamické prvky (nekonečné posouvání, číst více atd.).
A pro zopakování si před seškrabováním projděte podmínky webových stránek předmětu.
PS: Podívejte se na tato řešení cloudového škrabání a naše vlastní etechblog.cz scraping API.