Průvodce krok za krokem pro datové vědce

Anaconda je distribuce Pythonu používaná pro strojové učení, datovou vědu a integrované vývojové prostředí. Jeho nabídka se však neomezuje pouze na Python.

Podporuje open-source knihovny jako TensorFlow, PyTorch, SciPy, scikit-learn atd., které se používají pro datovou vědu a strojové učení.

Pojďme si projít některé open-source nástroje podporované Anacondou a používané pro vědecké výpočty:

  • OpenCV – Jedná se o knihovnu počítačového vidění a strojového učení pro C++, Java a Python s podporou všech hlavních operačních systémů.
  • Tensorflow – End-to-end platforma pro strojové učení pro trénování ML modelů s API pro Java, C++, Javascript a Python.
  • Bokeh – Jde o knihovnu vizualizace dat pro webové prohlížeče, která poskytuje nástroje a widgety pro lepší vizualizaci specifik vašich dat.
  • Spyder – IDE, které je dodáváno s Anacondou a poskytuje kompletní vývojový ekosystém pro datové vědce a lidi z oblasti strojového učení.
  • Conda – Poskytuje také správce balíčků s názvem conda, který se používá ke správě a instalaci balíčků pro různé programovací jazyky, jako je Python, R a Julia. Python, pokud je nainstalován nezávisle, obsahuje správce balíčků s názvem pip, který je alternativou k conda. Správce balíčků pip stahuje balíčky z indexu balíčků Pythonu – je to jako npm, ale pro Python.

Případy použití pro Anaconda

To, co dělá Anacondu bohatou, je její podpora pro různé balíčky, které lze použít pro následující domény:

  Spravujte svá hesla a zjednodušte zabezpečení pomocí Dashlane

Zpracování obrazu

Díky podpoře knihoven, jako je OpenCV a scikit-image, se anaconda ukazuje jako efektivní balíček pro zpracování obrazu a projekty počítačového vidění. Pomocí těchto knihoven s otevřeným zdrojovým kódem lze provádět manipulaci s obrázky, analýzu, zpracování, čištění, restaurování a mnoho dalšího.

Analýza dat

Robustní ekosystém knihoven a nástrojů Anaconda lze použít pro manipulaci s daty, předběžné zpracování a poskytování užitečných náhledů na data.

Knihovny jako Pandas a Numpy umožňují datovým vědcům analyzovat, čistit a manipulovat s daty strukturovaným a kontrolovaným způsobem.

Vizualizace dat

Projekt Anaconda s názvem Holoviz je nástroj pro vizualizaci dat založený na Pythonu, který obsahuje balíčky Panel, hvPlot, Datashader a mnoho dalších balíčků Python, aby byla vizualizace dat výkonnější a přesnější.

Vizualizace dat je opravdu užitečná pro vizuální komunikaci nápadů a konceptů prostřednictvím dat. Efektivní vizualizace pomáhají při lepším rozhodování tím, že sdělují vzory v datech.

Strojové učení

Tensorflow, Pytorch a scikit-learn jsou knihovny, které Anaconda nabízí pro projekty související se strojovým učením.

Zpracování přirozeného jazyka

Pro akademiky a vývojáře NLP nabízí Anaconda vhodné prostředí pro experimentování s různými algoritmy a strategiemi. Knihovny NLP podporované Anacondou jsou NTLK, gensim a spaCy.

Abychom to shrnuli, Anaconda je balíček nebo distribuce obsahující nástroje a knihovny, které jsou užitečné v datové vědě a strojovém učení.

S tím, co bylo řečeno, se podívejme na proces instalace Anacondy.

Instalace Anacondy

Předpoklady

Minimálně 5 GB místa na disku

  8 Online skenery portů pro vyhledání otevřených portů na serveru a IP

Anacondu lze nainstalovat stažením instalačního programu, což je technicky bash skript, ověřením hash a jeho spuštěním.

#1. Stahování skriptu

Instalační program si můžete stáhnout z oficiálních stránek Anacondy a spustit jej. Pokud si však chcete stáhnout starší verzi, můžete to udělat pomocí ‚curl‘. Bash skripty pro všechna vydání Anacondy najdete zde.

curl https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

#2. Ověření hash sha256

Jakmile to uděláte, musíte ověřit hash souboru oproti zde uvedenému hash. Ověření hash je opravdu důležité, abyste se ujistili, že se souborem nebylo manipulováno, a abyste zabránili spuštění škodlivého skriptu ve vašem systému.

K tomu potřebujete název souboru bash skriptu. Název souboru skriptu můžete získat pomocí příkazu ls.

Získejte hash pomocí následujícího příkazu:

sha256sum your_bash_script_filename

Ověřte hash, který jste obdrželi, pomocí hashe uvedeného na webu Anaconda pro váš konkrétní typ instalace. Pokud se shodují, můžete vyrazit!

#3. Provádění bash skriptu

Dále spusťte bash skript pomocí následujícího příkazu:

bash bash_script_name.sh

Poté budete vyzváni, abyste souhlasili s jejich licencemi a dohodou. Chcete-li pokračovat, zadejte „ano“. Poté vás požádá o ověření umístění instalace.

Nyní bude zahájena instalace. Jakmile bude úspěšná, obdržíte zprávu pro inicializaci anakondy pomocí conda init. Chcete-li tak učinit, zadejte „ano“.

#4. Aktivace Anacondy

Pokud budete chtít anakondu aktivovat později, můžete použít následující příkaz:

source <conda installation path>/bin/activate

A pak běž, conda init. Poté musíte restartovat terminál.

#5. Přidání PATH k instalaci anakondy

Také přidejte cestu k instalaci Anaconda ručně, pokud jste se rozhodli neinicializovat conda v době instalace. Můžete tak učinit přidáním následujícího řádku do vašeho souboru ~/.bashrc. Stačí nahradit skutečnou instalační cestou.

export PATH=<anaconda installation path>/bin:$PATH

A je to; úspěšně jste nainstalovali Anacondu na Ubuntu! Instalaci můžete ověřit pomocí následujících kroků.

  Co je tisk MSLA? Výhody a nevýhody

#6. Ověřování instalace

Restartujte terminál a zadejte conda list. Tento příkaz zobrazí seznam všech balíků, které jsou aktuálně nainstalovány ve vašem systému.

conda list

Nebo si můžete ověřit verzi Pythonu nainstalovanou Anacondou.

python --version

Nastavení prostředí

Prostředí v Anacondě jsou skvělým způsobem, jak izolovat různé instalace Pythonu a dalších balíčků konkrétně požadovaných pro konkrétní projekt. Každé prostředí je jako izolovaný box, který má svou vlastní verzi Pythonu a sadu příslušných balíčků.

#1. Vytváření prostředí

Když Anacondu aktivujete poprvé, nacházíte se v základním prostředí, které je označeno klíčovým slovem (base) přímo před vaší cestou k terminálu.

Chcete-li vytvořit nové prostředí, použijte následující příkaz a nahraďte <> názvem, pod kterým chcete, aby bylo toto prostředí rozpoznáno:

conda create --name <<env_name>>

V době procesu vytváření prostředí uvidíte následující výstup.

Abyste mohli používat specifické prostředí, musíte spustit conda activate <>, přičemž < je název prostředí.

Přímo před cestou k terminálu byste měli vidět název prostředí.

#2. Vytváření prostředí s balíčky

Při vytváření prostředí můžete také určit verzi Pythonu, která bude v daném prostředí použita.

conda create --name <<env_name>> python=<<python_version>>

Pokud chcete používat nejnovější verzi Pythonu, pak stačí:

conda create --name <<env_name>> python

#3. Výpis všech prostředí

Chcete-li vypsat všechna prostředí, zadejte v terminálu následující příkaz:

conda env list

Závěrečná slova

Anaconda se ukázala být prospěšná pro vědecké výpočty, protože poskytuje environmentální management, předinstalované balíčky a kompletní vývojářský ekosystém.

Datoví vědci a výzkumníci z toho těží tím, že se zaměřují pouze na analýzu a výzkum dat, místo aby se starali o softwarové technické záležitosti.

Chcete proniknout do kariéry datové vědy a strojového učení? Zde jsou zdroje pro datovou vědu a strojové učení, které vám pomohou nastartovat vaši cestu.