Co, jak a proč [+ 5 Learning Resources]

Testování hypotéz je metoda, kterou používá mnoho analytiků v soukromém a vládním sektoru k vytváření pravděpodobných tvrzení nebo předpokladů o údajích o populaci.

Pokud jste se zabývali nebo studovali populační data, museli jste narazit na tento zásadní nástroj testování hypotéz.

K vytvoření předpokladů lze použít mnoho metod, ale ne všechny poskytují vyšší přesnost.

A pokud si svými daty nejste jisti, ale přesto je chcete používat, může to být pro vaši organizaci riskantní.

Testování hypotéz je dobrá strategie k dosažení vyšší úrovně přesnosti. To bylo užitečné v populační analýze.

V tomto článku se budu zabývat tím, co je testování hypotéz, jak funguje, jeho výhody a případy jeho použití.

Takže bez dalších řečí začneme!

Co je testování hypotéz?

Testování hypotéz je metoda statistického vyvozování, kterou analytici používají k testování, zda dostupná populační data dostatečně podporují danou hypotézu a vytvářejí z ní předpoklady.

Prostřednictvím této metody mohou analytici snadno posoudit hypotézu a určit, jak přesný je předpoklad na základě dostupných dat.

Jednoduše řečeno, je to testovací proces založený na odvozených statistikách, který vám umožňuje dospět k verdiktu o populačních datech na základě shromážděných vzorových dat.

Obecně je pro analytiky téměř nemožné najít vlastnosti nebo jakýkoli konkrétní parametr celé populace. Ale prostřednictvím testování hypotéz můžete učinit informovanou předpověď a rozhodnutí na základě vzorových dat a jejich přesnosti.

Typy testování hypotéz

Různé typy testování hypotéz jsou:

  • Nulová hypotéza: Statistiky ukazují, že výběrová data jsou náhlá a mezi těmito dvěma proměnnými v daných vzorových datech neexistuje žádná korelace.
  • Alternativní hypotéza: Demonstruje primární tezi a oponuje nulové hypotéze. Je to hlavní hnací síla v procesu testování, protože ukazuje korelaci mezi dvěma proměnnými ve vzorových datech.
  • Nesměrová hypotéza: Tento typ testování hypotéz slouží jako dvoustranná hypotéza. Znázorňuje, že mezi dvěma proměnnými ve vzorových datech neexistuje žádný směr a že skutečná hodnota není stejná jako předpokládaná hodnota.
  • Směrová hypotéza: Směrová hypotéza zobrazuje nějaký vztah mezi dvěma proměnnými. Zde může jedna proměnná ve vzorových datech ovlivnit ostatní proměnné.
  • Statistická hypotéza: Pomáhá analytikům vyhodnotit, zda data a hodnota splňují určitou hypotézu. Je velmi užitečný při vytváření prohlášení a předpokladů ohledně výsledku parametru vzorku populace.

Dále si proberme metody testování hypotéz.

Metody testování hypotéz

Aby bylo možné posoudit, zda je konkrétní hypotéza pravdivá nebo ne, budete jako analytik potřebovat mnoho věrohodných důkazů, abyste mohli učinit závěr. V tomto testovacím procesu se před zahájením hodnocení stanoví nulová a alternativní hypotéza.

Testování hypotéz nezahrnuje pouze jednu metodu, ale mnoho metod k posouzení, zda jsou vzorová data příznivá. Jako analytik musíte zvážit data a velikost vzorku a vybrat si, která metoda testování hypotéz vám vyhovuje.

Testování normality

Je to standardní metoda testování hypotéz pro analýzu pravidelné distribuce ve vzorových datech. Během procesu testování se kontroluje, zda seskupené datové body kolem průměru jsou pod nebo nad průměrem.

V tomto statistickém testování je pravděpodobnost bodů nad nebo pod průměr stejně pravděpodobná. Vytvoří se zvonovitá křivka, která je rovnoměrně rozložena na obou stranách střední hodnoty.

Z-test testování

Je to další typ testování hypotéz, který se používá, když jsou data populace normálně distribuována. Testuje, že průměr dvou samostatných populačních parametrů je odlišný, pokud je vám znám rozptyl dat.

Při analýze populačních dat je vysoce pravděpodobné, že tento typ využijete, když je velikost vzorku dat větší než třicet. Centrální limitní teorém je navíc dalším důvodem, proč je Z-test vhodný, protože teorém uvádí, že když se zvětší velikost vzorků, vzorky jsou normálně rozděleny.

T-test testování

Testování hypotéz T-Test použijete, když je velikost vzorku omezená a je obvykle distribuována. Obecně platí, že když je velikost vzorku nižší než 30 a standardní odchylka parametru vám není známa, použije se hlavně.

Když provádíte T-test, provádíte jej pro výpočet intervalů spolehlivosti dat konkrétní populace.

Chí-kvadrát test

Chí-kvadrát test je oblíbený proces testování hypotéz, který se často používá k posouzení vhodnosti a integrity distribuce dat.

Zdroj: wikipedia.org

Hlavním důvodem, proč použijete tento typ hypotézy, je však situace, kdy chcete testovat rozptyl populace proti rozptylu populace předpokládané nebo známé hodnoty. Provádějí se různé Chí-kvadrát testy, ale nejběžnějším typem je Chí-kvadrát test rozptylu a nezávislosti.

Testování ANOVA

Zkráceně jako analýza rozptylu jde o statistickou testovací metodu, která pomáhá porovnávat soubory dat dvou vzorků. Umožňuje však porovnávat více než dva prostředky najednou.

Vysvětluje také závisle proměnnou a nezávislou proměnnou výběrových dat. Použití ANOVA je docela podobné použití Z-testu a T-testu, ale poslední dva jsou omezeny pouze na dva prostředky.

Jak funguje testování hypotéz?

Každý analytik, který využívá testování hypotéz, využívá k analýze a měření data náhodného vzorku. Během testování jsou data náhodného vzorku využívána pro testování nulové hypotézy a alternativní hypotézy.

Jak jsme již diskutovali dříve, nulová hypotéza a alternativní hypotéza se navzájem zcela vylučují a během výsledku testování může být pravdivá pouze jedna.

Existují však případy, kdy je nulová hypotéza zamítnuta; alternativní hypotéza není vždy pravdivá.

Zdroj: Analytics Steps

p-hodnota: Zatímco proces testování začíná, je zahrnuta p-hodnota nebo pravděpodobnostní hodnota, která ukazuje, zda je výsledek významný nebo ne. Nejen to, ale p-hodnota také ukazuje pravděpodobnost výskytu chyby při zamítnutí nebo nezamítnutí nulové hypotézy během testování. Výsledná p-hodnota je buď 0 nebo 1, která se pak porovnává s hladinou významnosti nebo hladinou alfa.

Hladina významnosti zde definuje přijatelné riziko při zamítání nulové hypotézy během testování. Je důležité si uvědomit, že výsledek testu hypotéz může vést ke dvěma typům chyb:

  • Chyba typu 1 nastane, když výsledek testu zamítne nulovou hypotézu, i když je pravdivá.
  • Chyba typu 2 se objeví, když výsledek vzorku přijme nulovou hypotézu, přestože je nepravdivá.

Všechny hodnoty, které způsobí zamítnutí nulové hypotézy, jsou uloženy v kritické oblasti. A právě kritická hodnota odděluje kritické regiony od ostatních.

Kroky k provedení testování hypotéz

Zdroj: Medium

Testování hypotéz se skládá převážně ze čtyř kroků:

  • Definujte hypotézy: V prvním kroku je vaším úkolem jako analytika definovat dvě hypotézy, aby mohla být pravdivá pouze jedna. Nulová hypotéza bude indikovat, že neexistuje žádný rozdíl v průměrném BMI, zatímco alternativní hypotéza bude uvádět, že existuje významný rozdíl v průměrném BMI.
  • Plán: V dalším kroku budete muset navrhnout plán analýzy, jak můžete analyzovat vzorová data. Je důležité, abyste provedli vzorkování a shromáždili vzorová data, abyste se ujistili, že jsou navrženy pro testování vaší hypotézy.
  • Analýza ukázkových dat: Poté, co se rozhodnete, jak budete data vyhodnocovat, je čas začít s procesem. Vzorová data budete muset fyzicky analyzovat, aby nedocházelo k nadbytečnosti. Při analýze dat byste měli zkontrolovat, zda jsou vzorky na sobě nezávislé a zda jsou obě velikosti vzorků dostatečně velké.
  • Vypočítat statistiku testu: V této fázi budete muset vypočítat statistiku testu a najít p-hodnotu. P-hodnota bude určena za předpokladu, že nulová hypotéza je pravdivá.
  • Posouzení výsledku: V posledním kroku budete muset posoudit výsledek testu hypotéz. Zde se rozhodnete, zda zamítnete nulovou hypotézu, nebo prohlásíte její věrohodnost na základě vzorových dat.

Nyní prozkoumáme výhody testování hypotéz.

Výhody testování hypotéz

Výhody testování hypotéz jsou:

  • Pomáhá vám analyzovat sílu vašeho nároku na rozhodnutí o datech.
  • Jako analytikovi vám umožňuje vytvořit spolehlivé prostředí pro rozhodování o vzorových datech.
  • Umožňuje vám určit, zda jsou vzorová data použitá při testování hypotéz statisticky významná.
  • Je to přínosné pro hodnocení spolehlivosti a platnosti výsledků testů v jakémkoli systematickém testovacím procesu.

Pomáhá vám extrapolovat data z fáze vzorku na větší populaci v závislosti na požadavku.

Případy použití testování hypotéz

Testování hypotéz se používá v různých sektorech k odhadu přesnosti vzorových dat. Některé příklady testování hypotéz v reálném světě:

#1. Klinické testy

Testování hypotéz je široce využíváno během klinických studií, protože pomáhá lékařským odborníkům rozhodnout, zda nový lék, léčba nebo postup bude nebo nebude na základě údajů ze vzorku účinné.

Lékař si může myslet, že léčba může u některých pacientů zmírnit hladiny draslíku. Lékař může před zahájením léčby změřit hladinu draslíku u skupiny pacientů a znovu ji zkontrolovat.

Dále lékař provede testování hypotéz, kde H0: Uafter = Ubefore, a to znamená, že hladina draslíku je stejná jako předtím po aplikaci léčby. Další hypotéza naznačuje Ha: Uafter < Ubefore, což znamená, že hladina draslíku se po aplikaci léčby snížila.

Pokud je tedy p-hodnota nižší než hladina významnosti, lékař může dojít k závěru, že léčba může snížit hladinu draslíku.

#2. Výrobní

Testování hypotéz se používá ve výrobních závodech, aby pomohlo vedoucím rozhodnout, zda je nová metoda nebo technika účinná či nikoli.

Některé výrobní jednotky mohou například používat testování hypotéz, aby zjistily, zda jim nová metoda pomáhá snížit počet vadných výrobků na šarži. Předpokládejme, že počet vadných produktů je 300 na šarži.

Výrobce musí určit průměr celkového počtu vadných výrobků vyrobených před a po použití metody. Mohou provádět testování hypotéz a používat hypotézy H0: Uafter = Ubefore, kde průměr vadných výrobků vyrobených po aplikaci nové metody je stejný jako dříve.

Další hypotéza ukazuje, že HA: Uafter se nerovná Ubefore, což znamená, že celkový počet vadných produktů vyrobených po aplikaci nové metody není stejný.

Po testu, kdy je p-hodnota nižší než hladina významnosti, může výrobní jednotka dojít k závěru, že se změnil počet vyrobených vadných produktů.

#3. Zemědělství

Testování hypotéz se často používá ke zjištění, zda hnojivo nebo pesticidy způsobují růst a imunitu rostlin. Biologové mohou testování použít k prokázání, že určitá rostlina může po aplikaci nového hnojiva vyrůst více než 15 palců.

Biolog může aplikovat hnojivo po dobu jednoho měsíce, aby shromáždil údaje o vzorku. Když biolog provede test, jedna hypotéza je H0 U=15 palců, což naznačuje, že hnojivo nezpůsobuje žádné zlepšení průměrného růstu rostliny.

Další hypotéza ukazuje HA: U> 15 palců, což znamená, že hnojiva způsobují zvýšení průměrného růstu rostliny. Po testování, kdy je p-hodnota nižší než hladina významnosti, může nyní biolog prokázat, že hnojiva způsobují větší růst než dříve.

Výukové zdroje

#1. Statistika: Úvod od Udemy krok za krokem

Udemy nabízí kurz statistiky, ve kterém se naučíte krok za krokem úvod do statistiky zahrnující testování hypotéz. Tento kurz obsahuje příklady a lekce od bývalého datového vědce společnosti Google, které vám pomohou zvládnout intervaly spolehlivosti, testy hypotéz a další.

#2. Základní statistiky pro analýzu dat od Udemy

Tento kurz Udemy o základních statistikách pro analýzu dat vám pomůže naučit se statistiky s projekty v reálném světě, zábavnými aktivitami, testy hypotéz, rozdělením pravděpodobnosti, regresní analýzou a dalšími.

#3. Statistika pro datovou vědu a obchodní analýzu

Tento kurz statistiky pro datovou vědu a obchodní analýzu nabízí Udemy, který vám pomůže naučit se testování hypotéz. Pokrývá různá témata statistiky a umožňuje datovým vědcům a obchodním analytikům se je naučit a zvládnout. Pokrývá inferenční a popisné statistiky spolu s regresní analýzou.

#4. Testování hypotéz od ​​Jima Frosta

Tato kniha je k dispozici na Amazonu a je intuitivním průvodcem, který pomůže analytikům činit rozhodnutí na základě dat.

Pokrývá fungování testů hypotéz, proč je potřebujete, jak efektivně používat intervaly spolehlivosti, p-hodnoty, hladiny významnosti a mnoho dalších témat.

#5. Testování hypotéz Scottem Hartshornem

Tato kniha je jedinečná svými vizuálními příklady a je nejlepší pro začátečníky, kteří hledají rychlý průvodce testováním hypotéz.

Seznámí vás s významem statistik, typů a jejich fungování. Nevyžaduje předchozí hluboké znalosti statistiky, ale vše vysvětluje intuitivně.

Závěrečné slovo

Testování hypotéz pomáhá ověřit předpoklad a následně vyvinout statistická data na základě posouzení. Používá se v mnoha odvětvích, od výroby a zemědělství až po klinické studie a IT. Tato metoda je nejen přesná, ale také vám pomáhá činit rozhodnutí na základě dat pro vaši organizaci.

Dále si prohlédněte výukové zdroje, abyste se stali obchodním analytikem.