2022-11-17 03:14 Doba čtení: 23 min

Úvodní příručka k datům časových řad

Klíčovým faktorem při shromažďování dat je "čas". V analýze časových řad je čas zásadním prvkem informací.

Co jsou to časové řady?

Časové řady představují posloupnost datových bodů, které jsou uspořádány v časovém sledu. Mezi jednotlivými pozorováními existuje závislost na pořadí. V dnešním světě, který se opírá o data, jsou časové řady všudypřítomné. Protože veškeré události směřují v čase, neustále přicházíme do styku s různými druhy časových řad.

Obvykle se předpokládá, že časové řady jsou vytvářeny v pravidelných časových intervalech a nazývají se pravidelné časové řady. Nicméně data v rámci časové řady nemusí být vždy generována s pravidelnými intervaly. Takové případy zahrnují nepravidelné časové řady, kde data následují časově rozfázovanou sekvenci. To znamená, že měření nemusí probíhat v rovnoměrných intervalech, ale mohou být generována v diskrétních časových intervalech nebo nárazově. Výběry z bankomatu či vklady na účet jsou příkladem nepravidelných časových řad.

Z technického hlediska se v časové řadě jedna nebo více proměnných mění v daném časovém úseku. Pokud se v čase mění pouze jedna proměnná, mluvíme o jednorozměrné časové řadě. Například senzor, který každou sekundu měří teplotu v místnosti, generuje jednorozměrnou hodnotu teploty. Naopak, pokud se v čase mění více proměnných, jedná se o vícerozměrnou časovou řadu. V bankovním sektoru se vícerozměrné časové řady používají k pochopení, jak změny jedné politické proměnné, jako je repo sazba, ovlivňují jiné proměnné, například poskytování úvěrů komerčním bankám.

Data časových řad nacházejí využití v mnoha oborech, od financí přes geologii, meteorologii, výrobu, výpočetní techniku, IoT, fyziku až po společenské vědy. Používají se ke sledování změn počasí, porodnosti, úmrtnosti, tržních výkyvů, výkonu sítě a v mnoha dalších aplikacích. Mezi hlavní případy použití patří monitorování, predikce a detekce anomálií. Například předpovídání časových řad hraje zásadní roli při určování oblíbenosti systémů pro správu databází. Následující graf ukazuje rostoucí oblibu DBMS v průběhu let (2019–2021) pomocí časové řady.

https://www.influxdata.com/time-series-database/

Klíčové komponenty časových řad

Faktory, které ovlivňují sledované hodnoty v časové řadě, jsou považovány za její klíčové komponenty. Mezi tyto komponenty patří:

  • Trend neboli dlouhodobé pohyby
  • Krátkodobé pohyby
  • Sezónní variace
  • Cyklické variace
  • Náhodné neboli nepravidelné pohyby

Trend

Trendem se rozumí tendence dat k dlouhodobému růstu či poklesu. Je však důležité si uvědomit, že tento pohyb nahoru nebo dolů nemusí být nutně ve stejném směru v daném časovém úseku.

Trendy mohou stoupat, klesat nebo zůstávat stabilní v různých časových úsecích. Nicméně celkový trend musí vždy odpovídat vzestupnému, sestupnému nebo stabilnímu vzoru. Takové tendence jsou patrné například u zemědělské produkce, úmrtnosti, výroby zařízení, počtu továren apod.

Lineární a nelineární trend

Grafické znázornění hodnot časové řady proti času odhalí typ trendu na základě shlukování dat. Pokud se shluk dat nachází přibližně kolem přímky, jedná se o lineární trend. V opačném případě, pokud shluk dat vykazuje nelineární trend, poměr změn mezi dvěma proměnnými není stabilní nebo konstantní. Tyto trendy se proto také nazývají křivočaré korelace.

Krátkodobé pohyby

Tyto komponenty se v časové řadě po určité době opakují. Mají nepravidelné krátkodobé projevy a ovlivňují zkoumané proměnné. Dva typy kategorií krátkodobých pohybů jsou:

Sezónní variace

Tyto variace fungují pravidelně a opakují se v časovém horizontu kratším než jeden rok. V průběhu 12 měsíců mají tendenci vykazovat podobný nebo téměř totožný vzorec. Tyto odchylky se stávají součástí časové řady, pokud jsou data zaznamenávána pravidelně, například v hodinových, denních, týdenních, měsíčních nebo čtvrtletních intervalech.

Sezónní variace mohou být uměle vytvořené nebo přirozeně se vyskytující. Různá roční období či klimatické podmínky hrají v těchto variacích zásadní roli. Například rostlinná produkce je zcela závislá na ročních obdobích. Stejně tak trh s deštníky či pláštěnkami je závislý na období dešťů, zatímco prodej chladičů a klimatizací vrcholí v letní sezóně.

Mezi uměle vytvořené události patří festivaly, oslavy a příležitosti, jako jsou svatby. Tyto krátkodobé události se opakují každý rok.

Cyklické variace

Variace časových řad, které se projevují po dobu delší než jeden rok, se nazývají cyklické variace. V kontextu podniku je celé jedno období považováno za „hospodářský cyklus“. Růst nebo pokles výkonnosti podniku závisí na různých faktorech, jako je ekonomická struktura, řízení podniku a další vzájemně působící vlivy. Tyto cyklické obchodní změny mohou být pravidelné, ale nejsou periodické. Obecně platí, že podniky procházejí čtyřfázovým cyklickým procesem zahrnujícím prosperitu, recesi, depresi a oživení.

Takové cyklické variace jsou nedílnou součástí vzoru časových řad, protože rozvoj podnikání je silně závislý na generovaných „sekvenčních datových bodech“.

Náhodné neboli nepravidelné pohyby

Náhodné komponenty způsobují významnou variaci sledované proměnné. Jedná se o čistě nepravidelné výkyvy bez jakéhokoli nastaveného vzoru. Tyto síly jsou nepředvídatelné a nevyzpytatelné, například zemětřesení, povodně, hladomory a další katastrofy.

Náhodné události jsou analyzovány pomocí zdrojových časových řad, aby bylo možné lépe řešit podobné reálné situace, které mohou nastat v budoucnosti.

Typy časových řad

Data časových řad lze rozdělit do čtyř typů: deterministické, nedeterministické, stacionární a nestacionární. Pojďme se na jednotlivé typy podívat podrobněji.

#1. Deterministické časové řady

Deterministickou časovou řadu lze popsat analytickým výrazem. Neobsahuje žádné náhodné ani pravděpodobnostní aspekty. Matematicky ji lze přesně vyjádřit pro všechny časové intervaly pomocí rozvoje Taylorovy řady. To je možné, pokud jsou známy všechny její deriváty v nějakém libovolném časovém bodě. Tyto deriváty explicitně určují minulost a budoucnost v daném okamžiku. Pokud jsou splněny všechny podmínky, je možné přesně předvídat její budoucí chování a analyzovat, jak se chovala v minulosti.

#2. Nedeterministické časové řady

Nedeterministická časová řada je spojena s náhodným aspektem, který znemožňuje její explicitní popis. Analytické výrazy proto nejsou vhodným řešením pro vyjádření takové časové řady. Časová řada může být nedeterministická z následujících důvodů:

  • Informace potřebné k jejímu popisu nejsou dostupné v plném rozsahu. Přestože data mohou být v zásadě přítomná, nelze je považovat za explicitně kvantifikovatelná.
  • Proces generování dat má náhodný charakter.

Z důvodu náhodného faktoru se nedeterministická časová řada řídí pravděpodobnostními zákony. Data jsou proto zpracovávána statisticky – implikovaná data jsou definována rozdělením pravděpodobnosti a průměry různých forem, včetně průměrů a mír rozptylu, jako jsou variance.

#3. Stacionární časové řady

Ve stacionární časové řadě se statistické vlastnosti, jako je průměr, rozptyl a další, nemění s časem. Stacionární časovou řadu je snazší předpovídat, protože lze s jistotou říci, že její statistické vlastnosti zůstanou stejné, jako byly pozorovány v minulosti. Různé statistické metody předpovídání jsou proto založeny na argumentu, že časová řada je téměř stacionární. To znamená, že časové řady lze v aproximaci považovat za stacionární pomocí jednoduchých matematických transformací.

#4. Nestacionární časové řady

V nestacionární časové řadě se statistické vlastnosti mění s časem. Časové řady s trendy neboli sezónností tedy patří do nestacionární kategorie, protože trend a sezónnost mohou ovlivňovat hodnotu časové řady v různých časových intervalech. Nestacionární časové řady popisují nepředvídatelná data, což brání jejich modelování nebo předpovídání.

https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

Analýza a prognóza časových řad

Analýza a předpovídání časových řad jsou užitečné nástroje pro pozorování, analýzu a studium vývoje a dynamiky důležitých procesů a objektů různého druhu. Podívejme se na každý z nich podrobněji.

Analýza časových řad

Analýza časových řad je definována jako proces analyzování dat shromážděných za určité časové období. Datoví analytici zaznamenávají data v konstantních intervalech po pevně stanovenou dobu. Rychlost pozorování dat, tedy časový interval, se může lišit od sekund po roky.

Data časových řad popisují kontrolované proměnné, protože poskytují detailní analýzu fluktuací v určitém časovém období. Parametry nezbytné pro analýzu se mohou v různých oblastech lišit. Některé příklady mohou zahrnovat:

  • Vědecké přístroje – Data zaznamenaná za den
  • Komerční web – Návštěvnost zákazníků za den
  • Akciový trh – Hodnoty akcií za týden
  • Sezóna – Deštivé dny v roce

Pro zajištění konzistence a spolehlivosti pracuje analýza časových řad s velkým množstvím datových bodů. Dobrá velikost vzorku je jemným vyjádřením pravosti objeveného trendu nebo vzoru.

Kromě toho je analýza časových řad také vhodná pro předpovídání budoucích událostí na základě údajů zaznamenaných v minulosti.

Prognóza časových řad

Analýza časových řad umožňuje organizacím identifikovat hlavní příčinu kolísání trendů v čase. S daty v ruce mohou podniky dále studovat a zkoumat, aby lépe pochopily, jak se vypořádat s neznámými trendy a předpovídat nadcházející události. Společnosti obvykle používají techniky vizualizace dat k odhalení anomálií v datech.

Prognózy časových řad se točí kolem dvou základních faktorů:

  • Předvídat budoucí události na základě chování minulých dat.
  • Předpokládat, že budoucí trendy budou podobné minulým vzorům dat.

Při prognózování je primárním cílem předpovědět, jak se budou datové body v budoucnu chovat – zda zůstanou stejné, nebo se budou lišit. Následuje několik příkladů z různých průmyslových odvětví pro lepší pochopení nuancí analýzy a prognóz časových řad:

  • Akciový trh – Předpovídání závěrečné ceny akcií každý den.
  • Prodej – Předpovídání prodeje produktů pro obchod každý den.
  • Ceny – Předpovídání průměrné ceny paliva každý den.

Mezi běžné statistické techniky používané pro prognózování časových řad patří jednoduchý klouzavý průměr (SMA), exponenciální vyhlazování (SES), autoregresivní integrovaný klouzavý průměr (ARIMA) a neuronové sítě (NN).

Data časových řad v cloudu

Aby podniky mohly využít potenciál dat časových řad, musí být schopny rychle data ukládat a dotazovat se na ně. Společnosti kapitálového trhu se spoléhají na velké objemy historických a streamovaných dat, aby mohly provádět analýzy dat v reálném čase a přijímat důležitá obchodní rozhodnutí. To může zahrnovat předpovídání rizik cen akcií, stanovování čistých kapitálových požadavků nebo předpovídání směnných kurzů. Pro zajištění flexibility a bezproblémové zpracování dat se mnoho firem rozhodlo pro migraci svých databází časových řad do cloudu.

Díky migraci databází časových řad do cloudu mohou organizace získat přístup k neomezeným zdrojům na vyžádání. Firmy tak mohou využívat stovky procesorových jader k plnění svých úkolů a maximalizovat propustnost sítě bez problémů s latencí.

Databáze časových řad v cloudové infrastruktuře jsou vhodné pro výpočetně náročné úkoly, jako je provádění rizikových výpočtů v reakci na tržní trendy v reálném čase. Finanční firmy mohou díky tomu omezit režii spojenou s datovými centry a soustředit se na využívání zdrojů ke zvýšení produktivity své práce.

Poskytovatelé cloudových služeb, jako je AWS s Amazon Timestream, nabízejí databázovou službu pro časové řady, která umožňuje snadné načítání, ukládání a analýzu datových sad časových řad. Tyto služby poskytují úložiště pro správu transakčně náročných pracovních zátěží, nástroje pro analýzu v reálném čase a funkce streamování dat pro zobrazování událostí, jakmile k nim dojde.

Cloudová infrastruktura tedy zesiluje a rozšiřuje výhody dat časových řad.

Aplikace časových řad

Modely časových řad slouží dvěma účelům:

  • Pochopení základních faktorů, které vytvořily daný vzor dat.
  • Na základě analýzy přizpůsobení modelu pro prognózu a monitorování.

Podívejme se na některé případy použití dat časových řad.

#1. Časové řady ve finanční a obchodní oblasti

Všechna finanční, obchodní a investiční rozhodnutí jsou přijímána na základě aktuálních tržních trendů a prognóz poptávky. Data časových řad se používají k vysvětlení, korelaci a predikci dynamického finančního trhu. Finanční odborníci mohou analyzovat finanční data a poskytovat předpovědi pro aplikace, které pomáhají zmírňovat rizika, stabilizovat ceny a obchodování.

Analýza časových řad hraje ve finanční analýze klíčovou roli. Používá se při předpovídání úrokových sazeb, volatility na akciových trzích a v mnoha dalších oblastech. Obchodní partneři a politici mohou činit informovaná rozhodnutí o výrobě, nákupech, alokaci zdrojů a optimalizovat své obchodní operace.

Tato analýza je efektivně využívána v investičním sektoru pro sledování kurzů cenných papírů a jejich kolísání v čase. Cenu cenného papíru lze sledovat jak krátkodobě (záznam dat v hodinových nebo denních intervalech), tak dlouhodobě (sledování v průběhu měsíců nebo let). Analýza časových řad je užitečným nástrojem pro sledování výkonnosti cenného papíru, aktiva nebo ekonomické proměnné v delším časovém období.

#2. Časové řady v lékařské oblasti

Zdravotnictví se rychle stává oborem řízeným daty. Kromě finanční a obchodní analýzy se v lékařské oblasti výrazně využívá analýza časových řad.

Uvažujme scénář, který vyžaduje synergii dat časových řad, lékařsky podložených postupů a technik dolování dat při léčbě pacientů s rakovinou. Takový hybridní rámec lze využít k extrahování rysů ze shromážděných dat časových řad (např. rentgenových snímků pacienta) pro sledování jeho pokroku a reakce na léčbu.

V lékařství má vyvozování závěrů z neustále se měnících časových řad klíčovou hodnotu. Pokročilá lékařská praxe navíc vyžaduje, aby byly záznamy o pacientech v průběhu času propojovány, aby se dosáhlo lepšího přehledu o zdravotním stavu pacienta. Je také nutné pravidelně přesně zaznamenávat zdravotní parametry pacienta, abychom měli jasnější představu o jeho zdravotním stavu.

S pokročilými lékařskými nástroji se analýza časových řad stává stále důležitější v oblasti zdravotnictví. Následují příklady:

  • EKG zařízení: Záznam elektrických impulzů srdce pro monitorování srdečních stavů.
  • EEG zařízení: Měření elektrické aktivity v mozku.

Tato zařízení umožňují lékařům provádět analýzu časových řad pro rychlejší, efektivnější a přesnější lékařskou diagnostiku.

S příchodem IoT zařízení, jako jsou nositelné senzory a přenosná zdravotnická zařízení, mohou lidé nyní pravidelně měřit své zdravotní proměnné v průběhu času s minimální námahou. To vede k soustavnému shromažďování časově závislých lékařských dat jak pro nemocné, tak pro zdravé jedince.

#3. Časové řady v astronomii

Astronomie a astrofyzika jsou dvě moderní disciplíny, kde se významně využívají data časových řad.

Astronomie se v zásadě zabývá zakreslováním trajektorií vesmírných objektů a nebeských těles a prováděním přesných měření pro lepší pochopení vesmíru mimo zemskou atmosféru. Z tohoto důvodu jsou astronomové zkušení v práci s daty časových řad při kalibraci a konfiguraci složitých přístrojů a studiu astronomických objektů zájmu.

Data časových řad jsou s astronomií spjata odedávna. Již v roce 800 př. n. l. byla v pravidelných intervalech shromažďována data o slunečních skvrnách. Od té doby se analýza časových řad používá k:

  • Objevování vzdálených hvězd na základě hvězdných vzdáleností.
  • Pozorování vesmírných událostí, jako jsou supernovy, pro lepší pochopení původu našeho vesmíru.

Data časových řad v tomto případě představují vlnové délky a intenzitu světla vyzařovaného hvězdami, nebeskými tělesy nebo objekty. Astronomové neustále sledují taková data z živých přenosů, aby mohli detekovat kosmické události v reálném čase.

V nedávné době se objevily výzkumné oblasti jako astroinformatika a astrostatistika, které propojují různé disciplíny, jako je dolování dat, strojové učení, výpočetní inteligence a statistika. V těchto nových oblastech výzkumu je úkolem časových řad dat rychlá a efektivní detekce a klasifikace astronomických objektů.

#4. Časové řady v předpovědi počasí

Aristoteles se v dávných dobách rozsáhle zabýval studiem povětrnostních vzorců, aby lépe porozuměl příčinám a následkům pozorovaných změn počasí. Postupem času začali vědci zaznamenávat data související s počasím pomocí přístrojů, jako je „barometr“, pro výpočet atmosférických proměnných. Data byla sbírána v pravidelných intervalech a ukládána na různých místech.

Časem se v novinách začaly objevovat předpovědi počasí. Dnes jsou předpovědní stanice počasí instalovány v různých geografických oblastech po celém světě a shromažďují přesné údaje o počasí.

Tyto stanice mají pokročilá funkční zařízení, která jsou vzájemně propojena pro shromažďování a korelaci údajů o počasí z různých míst. Korelovaná data se používají k předpovídání povětrnostních podmínek v jakémkoli okamžiku v závislosti na potřebách.

#5. Časové řady v rozvoji podnikání

Data časových řad umožňují podnikům přijímat obchodní rozhodnutí. To se děje analýzou minulých dat, aby se odvodily budoucí události a osvětlily pravděpodobné možnosti. Vzor minulých dat se používá k odvození následujících parametrů:

  • Obchodní růst: Data časových řad jsou nejvhodnějším a nejspolehlivějším aktivem pro hodnocení celkové finanční a obchodní výkonnosti a měření růstu.
  • Odhad trendu: K odhadu vznikajících trendů lze použít různé metody časových řad. Tyto metody například analyzují pozorování dat za určité časové období, aby bylo možné posoudit, zda se zvýší nebo sníží prodej konkrétního elektronického zařízení.
  • Odhalení sezónních vzorů: Zaznamenané datové body mohou odhalit výkyvy a sezónní vzorce, které mohou pomoci při prognózování. Získané datové informace hrají klíčovou roli pro trhy, kde ceny produktů sezónně kolísají. Tato data mohou podnikům pomoci lépe plánovat a vyvíjet produkty.

Závěr 👨‍🏫

Shrnuto, data časových řad lze považovat za charakteristiku komplexních datových bodů shromážděných v konstantním časovém období. Analýza časových řad, modelování a prognózy se staly nedílnou součástí našeho každodenního života s příchodem IoT zařízení, chytrých domácích spotřebičů a přenosných zařízení. Kromě toho data časových řad nacházejí uplatnění v různých oblastech, včetně zdravotnictví, astrofyziky, ekonomie, strojírenství, obchodu a mnoha dalších.

Jan Novák
Autor
Czechia

Redaktor zaměřený na Windows, produktivitu a cloudové nástroje.

Předchozí článek
Jak zůstat v bezpečí před škodlivými reklamami ve vyhledávání
Další článek
Jak používat nástroj pro výběr barvy Google Chrome?