Analýza rozptylu (ANOVA) vysvětlená za méně než 5 minut

Analýza rozptylu je jednou z metod používaných při testování hypotéz. Tato metoda je nápomocná při rozhodování na základě dat v podnikání.

Nicméně, stejně jako většina pojmů v matematice, je často zahalen žargonem a matematickým zápisem, které se mohou zpočátku zdát zastrašující. Cílem tohoto článku je vysvětlit vám analýzu rozptylu. Takže, pojďme začít.

Úvod do analýzy rozptylu (ANOVA)

Než začneme diskutovat o ANOVA, je důležité definovat a vysvětlit několik termínů, abychom si vytvořili určitou slovní zásobu. Začněme tedy některými velmi klíčovými pojmy: populace, vzorek, rozptyl a hypotéza.

Populace

Ve statistice je populace celá množina, ze které lze provádět pozorování. Pokud bychom například chtěli vypočítat průměrnou velikost listu určitého druhu stromu, populace by zahrnovala všechny listy stromů tohoto druhu. To by však bylo nákladné, ne-li nemožné. Místo toho tedy použijeme vzorek.

Vzorek

Vzorek je podmnožina populace, která je reprezentativní pro populaci. Proto je třeba náhodně vybrat vzorek z různých částí populace. Vzorek je výhodnější než populace, protože bude provedeno méně pozorování.

Rozptyl

Rozptyl měří, jak jsou hodnoty v sadě dat rozloženy od průměru. Nízký rozptyl znamená, že hodnoty se blíží průměru, zatímco vysoký znamená, že jsou daleko od průměru.

Hypotéza

Hypotéza je tvrzení učiněné za účelem vysvětlení něčeho. Neexistují žádné domněnky o tom, zda je to pravda nebo ne. Místo toho jsou experimenty navrženy tak, aby dokázaly, že není známo, že je nepravdivá.

V ANOVA se zabýváme dvěma druhy hypotéz – nulovou a alternativní. Nulová hypotéza vyjadřuje, že mezi skupinami není žádný rozdíl, zatímco alternativa říká, že existuje. Po testu přijmeme jeden z nich jako pravdivý.

Analýza rozptylu (ANOVA) je statistická metoda používaná ke kontrole, zda změna v nezávislé proměnné vedla ke změně v závislé proměnné. Jednoduše řečeno, určuje, zda existují významné rozdíly mezi výsledky různých nezávislých skupin.

Například test ANOVA může určit, zda různé vstupní stránky přiměly návštěvníky webu trávit více času čtením vašeho webu. V tomto případě byste různým uživatelům svého webu ukázali různé návrhy vstupní stránky.

Pro každou relaci zaznamenáte čas, který uživatel stráví. Nakonec provedete test ANOVA, abyste zjistili, zda se výsledky každého vzorku výrazně liší od ostatních.

ANOVA je jednou z mnoha metod používaných při testování hypotéz. Mezi další oblíbené metody patří t-testy, z-testy a testy chí-kvadrát. Hlavní rozdíl mezi těmito testy je v tom, kde a kdy se používají.

Typy Anova

Existují různé typy testů ANOVA. Existuje jednosměrný test a dvoucestný test ANOVA.

  • Jednosměrný test – V jednosměrném testu existuje pouze jedna nezávislá proměnná a my se snažíme zjistit, zda změny této proměnné vedly ke změnám v závislé proměnné, které jsou statisticky významné.
  • Obousměrný test – Ve dvoucestném testu existuje více nezávislých proměnných. Tento test se často nazývá MANOVA, kde M znamená Multiple.

V další části vysvětlím vzorec testu ANOVA.

Vzorec testu ANOVA

Test ANOVA určuje, zda existují významné rozdíly mezi hodnotami z různých skupin nebo vzorků. Jako všechny testy hypotéz musíme nejprve stanovit nulové a alternativní hypotézy.

Pro test ANOVA by nulovou hypotézou pro tento test bylo, že mezi různými skupinami hodnot neexistují žádné významné rozdíly.

Alternativní hypotézou by bylo, že mezi alespoň jednou dvojicí skupin v souboru dat existují významné rozdíly.

Vzorec ANOVA vypočítá f-hodnotu. Tato hodnota je poměrem průměrného součtu čtverců v důsledku léčby (MST) a průměrného součtu čtverců v důsledku chyby (MSE).

F=MST/MSE

MST v podstatě představuje rozptyl mezi průměry vzorků. Jde o rozdíly mezi skupinami. MSE představuje rozptyl ve vzorcích. Je to rozptyl v rámci skupin.

Abych to zachoval jako jednoduchý anglický úvod, nebudu dále zacházet do vzorce. To je také zbytečné, protože existuje software, který za vás spočítá ANOVA.

Nakonec, pokud je výsledek této hodnoty F blízký 1, pak neexistuje žádný významný rozdíl; proto bude přijata nulová hypotéza. V opačném případě bude nulová hypotéza zamítnuta.

ANOVA vs. jiné testy

Jak již bylo zmíněno dříve, ANOVA je jednou z metod používaných při testování hypotéz. Existují další metody, jako jsou t-testy a z-testy. Výběr testu pro použití v daném scénáři závisí na situaci.

  • T-test porovnává průměr vzorku se známým průměrem populace, když není standardní odchylka známa.
  • Z-test je jako t-test v tom, že porovnává průměr vzorku se známým průměrem populace. U z-testu je však standardní odchylka známa.
  • K určení nezávislosti mezi dvěma nezávislými proměnnými se používá Chí-kvadrát test.

Dále probereme důležitost analýzy rozptylů.

Význam analýzy rozptylů

ANOVA nám umožňuje porovnávat průměry napříč více skupinami nebo podmínkami, což umožňuje určit, zda jsou pozorované rozdíly statisticky významné, nebo jsou jednoduše způsobeny náhodnou náhodou. To je zásadní v mnoha oblastech, jako je statistika, výzkum a experimentální design, protože nám to pomáhá porozumět zdrojům variací v souborech dat.

Analýza rozptylů vám pomůže určit kauzalitu mezi různými faktory. To je důležité při rozhodování na základě dat a také při měření pokroku. ANOVA vám pomůže porovnávat více skupin.

Rozložením celkového rozptylu na různé složky přiřaditelné různým faktorům nám ANOVA umožňuje identifikovat, které faktory významně ovlivňují pozorované rozdíly.

Některé z nejčastějších případů použití ANOVA jsou uvedeny v další části.

Případy použití ANOVA

Analýza rozptylu je v podnikání neuvěřitelně užitečná. Pomáhá vám dělat lepší a informovanější rozhodnutí. Některé z běžných případů použití pro ANOVA zahrnují:

❇️ Testování různých verzí produktu, abyste zjistili, která verze se zákazníkům líbí lépe a je pravděpodobnější, že si ji koupí.

❇️ Nalezení nejúčinnější reklamy pro vaše reklamní kampaně, která povede k nejvyšším konverzním poměrům.

❇️ Při provádění průzkumu trhu se snažíte zjistit, které faktory nejvíce ovlivňují chování zákazníků.

❇️ Vyzkoušejte různé strategie udržení zákazníků, abyste zjistili, která vede k nejnižší míře odchodu zákazníků.

❇️ Určení faktorů, které přispívají a způsobují pohyby cen na akciovém trhu.

Závěrečná slova

Tento článek sloužil jako stručný úvod do ANOVA. Popsali jsme, co to je, jeho význam a případy, ve kterých by byl test užitečný.

Dále se podívejte na analytické a výzkumné nástroje pro datové vědce.