Úvodní příručka k datům časových řad

„Čas“ je klíčovou proměnnou, pokud jde o akumulaci dat. V analýze časových řad je čas důležitým prvkem dat.

Co jsou data časových řad?

Data časové řady se týkají řady datových bodů, které jsou seřazeny v čase. Zavádí závislost na pořadí mezi sadou pozorování. Časové řady jsou v dnešním světě založeném na datech všudypřítomné. Protože každá událost sleduje šipku času, jsme v neustálé interakci s různými daty časových řad.

Obecně se předpokládá, že časové řady jsou generovány v pravidelných časových intervalech a jsou označovány jako pravidelné časové řady. Data v rámci této časové řady však nemusí být generována v pravidelných intervalech. Takové případy zahrnují nepravidelné časové řady, kde data sledují časově rozfázovanou sekvenci. To znamená, že měření nemusí probíhat v pravidelných intervalech. Data však mohou být generována v diskrétních časových intervalech nebo jako burst. Výběry z bankomatu nebo vklady na účet jsou příklady nepravidelných časových řad.

Technicky vzato, v časové řadě se jedna nebo více proměnných mění za dané časové období. Pokud se jedna proměnná v čase mění, nazývá se jednorozměrná časová řada. Zvažte například senzor, který každou sekundu měří teplotu místnosti. Zde je v každém okamžiku (tj. sekundě) generována pouze jednorozměrná hodnota teploty. Naopak, když se v čase mění více než jedna proměnná, nazývá se to vícerozměrná časová řada. Vezměme si například bankovní ekonomiku. V takových případech se používají vícerozměrné časové řady k pochopení toho, jak mohou změny politiky jedné proměnné, jako je repo sazba, ovlivnit jiné proměnné (tj. vyplácení úvěrů komerčním bankám).

Data časových řad nacházejí uplatnění v každé disciplíně, od financí, geologie, meteorologie, výroby až po výpočetní techniku, IoT, fyzikální a společenské vědy. Používá se ke sledování změn počasí, porodnosti, úmrtnosti, výkyvů trhu, výkonu sítě a mnoha dalších aplikací. Některé z jeho hlavních případů použití zahrnují monitorování, prognózování a detekci anomálií. Například předpovídání časových řad hraje klíčovou roli při určování popularity systémů správy databází. Obrázek níže ukazuje rostoucí popularitu DBMS v průběhu let (2019-2021) v grafu časové řady.

https://www.influxdata.com/time-series-database/

Klíčové složky časových řad

Faktory, které ovlivňují hodnoty sledování v časové řadě, jsou považovány za jejich klíčové složky. Mezi tři kategorie součástí patří:

  • Trend nebo dlouhodobé pohyby
  • Krátkodobé pohyby
  • Sezónní variace
  • Cyklické variace
  • Náhodné nebo nepravidelné pohyby
  • Trend

    Tendence dat k dlouhodobému růstu nebo poklesu se označuje jako trend nebo dlouhodobá složka. Je však důležité poznamenat, že pohyb nahoru nebo dolů nemusí být nutně ve stejném směru v daném časovém úseku.

    Tendence mohou buď stoupat, klesat nebo zůstat stabilní po různé časové úseky. Celkový trend se však vždy musí rovnat vzestupnému, sestupnému nebo stabilnímu vzoru. Takové tendence k pohybu jsou patrné na příkladech, jako je zemědělská produktivita, úmrtnost, vyrobená zařízení, počet továren atd.

    Lineární a nelineární trend

    Vynesení hodnot časové řady proti času do grafu odhalí typ trendu na základě vzoru shlukování dat. Pokud je shluk dat víceméně kolem přímky, pak se trend nazývá lineární trend. Jinak vzor datového shluku vykazuje nelineární trend, protože poměr změn mezi dvěma proměnnými není stabilní nebo konstantní. Proto se takové trendy také nazývají křivočaré korelace.

    Krátkodobé pohyby

    V časové řadě mají tyto složky tendenci se po určitou dobu opakovat. Mají nepravidelné krátké vzplanutí a ovlivňují zkoumané proměnné. Mezi dva typy kategorií krátkodobého pohybu patří:

    Sezónní variace

    Tyto verze fungují pravidelně a pravidelně po dobu kratší než jeden rok. Mají tendenci mít podobný nebo téměř stejný vzorec během 12 měsíců. Tyto odchylky se stávají součástí časové řady, pokud jsou data zaznamenávána pravidelně, tj. hodinově, denně, týdně, měsíčně nebo čtvrtletně.

      13 aplikací/nástrojů pro zvýšení prodeje v obchodě Shopify

    Sezónní variace jsou buď umělé, nebo přirozeně se vyskytující. Různá roční období nebo klimatické podmínky hrají v takových variacích rozhodující roli. Například rostlinná produkce závisí výhradně na ročních obdobích. Podobně i trh s deštníkem nebo pláštěnkou závisí na období dešťů, zatímco prodej chladičů a klimatizačních jednotek vrcholí v letní sezóně.

    Mezi uměle vytvořené konvence patří festivaly, večírky a příležitosti, jako jsou svatby. Takové krátkodobé události se opakují rok co rok.

    Cyklické variace

    Variace časových řad, které mají tendenci působit po dobu delší než jeden rok, se označují jako cyklické variace. U podniku se jedno celé období považuje za „obchodní cyklus“. Nárůst nebo pokles výkonnosti podniku závisí na různých faktorech, jako je ekonomická struktura, řízení podniku a další vzájemně působící síly. Tyto cyklické obchodní změny mohou být pravidelné, ale ne periodické. Obecně platí, že podniky procházejí čtyřfázovým cyklickým procesem zahrnujícím prosperitu, recesi, depresi a oživení.

    Takové cyklické variace jsou nedílnou součástí vzoru časových řad, protože rozvoj podnikání silně závisí na generovaných „sekvenčních datových bodech“.

    Náhodné nebo nepravidelné pohyby

    Náhodné složky způsobují významnou variaci sledované proměnné. Jedná se o čistě nepravidelné výkyvy bez jakéhokoli nastaveného vzoru. Síly jsou nepředvídatelné, nepředvídatelné a nevyzpytatelné povahy – například zemětřesení, záplavy, hladomory a další katastrofy.

    Náhodné události popsané výše jsou analyzovány pomocí zdrojových časových řad, aby bylo možné lépe řešit takové reálné scénáře, které mohou nastat v budoucnosti.

    Typy časových řad

    Data časových řad lze rozdělit do čtyř typů, deterministická, nedeterministická, stacionární a nestacionární. Pojďme se na jednotlivé typy podívat podrobně.

    #1. Deterministické časové řady

    Deterministickou časovou řadu lze popsat analytickým výrazem. Nezahrnuje náhodné nebo pravděpodobnostní aspekty. Matematicky ji lze přesně vyjádřit pro všechny časové intervaly pomocí rozvoje Taylorovy řady. To je možné, pokud jsou všechny jeho deriváty známy v nějakém libovolném časovém okamžiku. Tyto deriváty výslovně specifikují minulost a budoucnost v té době. Pokud jsou splněny všechny podmínky, je možné přesně předvídat jeho budoucí chování a analyzovat, jak se choval v minulosti.

    #2. Nedeterministické časové řady

    Nedeterministická časová řada má s sebou spojený náhodný aspekt, který brání jejímu explicitnímu popisu. Analytické výrazy proto nejsou dostatečně proveditelná řešení pro vyjádření takové časové řady. Časová řada může být nedeterministická z následujících důvodů:

  • Informace potřebné k jeho popisu nejsou k dispozici v plném rozsahu. Přestože údaje mohou být v zásadě přítomny, nelze je považovat za explicitně kvantifikovatelné.
  • Proces generování dat má náhodný charakter.
  • Kvůli náhodnému faktoru se nedeterministická časová řada řídí pravděpodobnostními zákony. Data jsou proto řešena statisticky – implikovaná data jsou definována rozdělením pravděpodobnosti a průměry různých forem. To zahrnuje prostředky a míry rozptylu, tj. rozptyly.

    #3. Stacionární časové řady

    Ve stacionární časové řadě se statistické vlastnosti, jako je průměr, rozptyl a další, nespoléhají na časový aspekt. Stacionární časovou řadu je snazší předpovědět, protože lze s jistotou prohlásit, že její statistické vlastnosti zůstanou stejné, jako byly pozorovány v minulosti. Různé statistické předpovědní metody jsou tedy založeny na argumentu, že časová řada je téměř stacionární. To znamená, že časové řady lze v aproximaci považovat za stacionární pomocí jednoduchých matematických transformací.

    #4. Nestacionární časové řady

    V nestacionární řadě se statistické vlastnosti mění s časem. Časové řady s trendy neboli sezónností tedy spadají do nestacionární kategorie, protože trend a sezónnost mohou ovlivňovat hodnotu časové řady v různých časových intervalech. Nestacionární časové řady popisují nepředvídatelná data, což brání jejich modelování nebo prognózování.

    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Analýza a prognóza časových řad

    Analýza a předpovídání časových řad jsou užitečné nástroje pro pozorování, analýzu a studium vývoje a dynamiky životně důležitých procesů a objektů různého druhu. Podívejme se na každý z nich do větší hloubky.

    Analýza časových řad

    Analýza časových řad je definována jako proces analýzy dat shromážděných za určité časové období. Zde datoví analytici zaznamenávají data v konstantních intervalech po pevně stanovené časové období. Rychlost pozorování dat, tj. časový interval, se může lišit od sekund po roky.

    Data časových řad popisují kontrolované proměnné, protože poskytují podrobnou analýzu fluktuačního vzoru v určitém časovém období. Parametry nezbytné pro analýzu se mohou v různých doménách a oborech lišit. Některé z příkladů mohou zahrnovat:

    • Vědecké přístroje – Data zaznamenaná za den
    • Komerční web – návštěvnost zákazníků za den
    • Akciový trh – hodnoty akcií za týden
    • Sezóna – deštivé dny v roce
      Co dělat, když je účet Roblox smazán?

    Pro zajištění konzistence a spolehlivosti pracuje analýza časových řad na velkém množství datových bodů. Dobrá velikost vzorku je jemným vyjádřením pravosti objeveného trendu nebo vzoru.

    Kromě toho je analýza časových řad také vhodná pro předpovídání budoucích událostí na základě údajů zaznamenaných v minulosti.

    Prognóza časových řad

    Analýza časových řad umožňuje organizacím identifikovat hlavní příčinu kolísání trendů v čase. S daty v ruce mohou podniky dále studovat a zkoumat, aby lépe pochopily, jak se vypořádat s neznámými trendy a předpovídat nadcházející události. Společnosti obecně používají techniky vizualizace dat k určení takových anomálií v datech.

    Prognózy časových řad se točí kolem dvou základních faktorů:

  • Předvídat budoucí události na základě chování minulých dat.
  • Předpokládejme, že nadcházející trendy budou mít podobnost s minulým vzorem dat.
  • Při prognózování je primárním cílem v podstatě předpovědět, jak budou datové body v budoucnu i nadále zůstat stejné nebo se budou lišit. Zde je několik příkladů z různých průmyslových odvětví, abyste lépe porozuměli nuancím analýzy časových řad a prognóz.

    • Akciový trh – předpovídání závěrečné ceny akcií každý den.
    • Prodej – předvídejte prodeje produktů pro obchod každý den.
    • Ceny – předpovídání průměrné ceny paliva každý den.

    Některé z běžných statistických technik používaných pro prognózování časových řad zahrnují jednoduchý klouzavý průměr (SMA), exponenciální vyhlazování (SES), autoregresivní integrovaný klouzavý průměr (ARIMA) a neuronovou síť (NN).

    Data časových řad v cloudu

    Aby podniky odhalily hodnotu dat časových řad, měly by být schopny rychle ukládat a dotazovat se na data. Společnosti kapitálového trhu se spoléhají na velké objemy historických a streamovaných dat, aby mohly využívat analýzu dat v reálném čase a přijímat působivá obchodní rozhodnutí. To může zahrnovat předvídání zranitelnosti cen akcií, stanovení čistých kapitálových požadavků nebo předpovídání směnných kurzů. Pro zajištění flexibility a bezproblémového zpracování dat se mnoho firem rozhodlo pro migraci svých databází časových řad do cloudu.

    Díky migraci databází časových řad do cloudů mohou organizace získat přístup k neomezeným zdrojům na vyžádání. Umožňuje firmám využívat stovky jader k plnění svých úkolů, což maximalizuje propustnost sítě bez problémů s latencí.

    Databáze časových řad v cloudové infrastruktuře jsou vhodné pro výpočetně náročné úlohy. To zahrnuje provádění rizikových výpočtů v reakci na trendy trhu v reálném čase. Finanční firmy mohou skoncovat s režií datových center a soustředit se na využívání zdrojů ke zvýšení produktivity své pracovní zátěže.

    Poskytují cloudoví prodejci, jako je AWS Amazon Timestream, databázová služba časových řad, která umožňuje snadné načítání, ukládání a analýzu datových sad časových řad. Nabízejí úložiště pro správu transakčně náročných pracovních zátěží, nástroje pro analýzu v reálném čase a funkce streamování dat pro zobrazování událostí, když nastanou.

    Cloudová infrastruktura tedy zesiluje a škáluje výhody dat časových řad.

    Aplikace časových řad

    Modely časových řad slouží dvěma účelům,

  • Pochopte základní faktory, které vytvořily určitý vzor dat.
  • Na základě analýzy přizpůsobte model pro prognózu a monitorování.
  • Podívejme se na některé případy použití dat časových řad aplikací.

    #1. Časové řady ve finanční a obchodní oblasti

    Všechna finanční, obchodní a investiční rozhodnutí jsou přijímána na základě aktuálních tržních trendů a prognóz poptávky. Data časových řad se používají k vysvětlení, korelaci a predikci dynamického finančního trhu. Finanční experti mohou zkoumat finanční data a poskytovat předpovědi pro aplikace, které pomáhají zmírňovat rizika, stabilizovat ceny a obchodování.

    Analýza časových řad hraje ve finanční analýze klíčovou roli. Používá se při predikci úrokových sazeb, předpovídání volatility na akciových trzích a mnoha dalších. Obchodní partneři a politici mohou činit informovaná rozhodnutí o výrobě, nákupech, alokaci zdrojů a optimalizovat své obchodní operace.

    Tato analýza se efektivně využívá v investičním sektoru ke sledování kurzů cenných papírů a jejich kolísání v čase. Cenu cenného papíru lze také sledovat krátkodobě (tj. záznam dat za hodinu nebo den) nebo dlouhodobě (tj. sledování v průběhu měsíců nebo let). Analýza časových řad je užitečným nástrojem ke sledování výkonu cenného papíru, aktiva nebo ekonomické proměnné po delší časové období.

      Jak zkontrolovat, zda je popis práce diskriminační [Chrome]

    #2. Časové řady v lékařské oblasti

    Zdravotnictví se rychle objevuje jako obor řízený daty. Kromě finanční a obchodní analýzy se v lékařské oblasti výrazně využívá analýza časových řad.

    Zvažte scénář, který vyžaduje synergii dat časových řad, lékařsky sladěných postupů a technik dolování dat při léčbě pacientů s rakovinou. Takový hybridní rámec může být použit pro využití funkcí extrakce rysů ze shromážděných časových řad dat (tj. rentgenových snímků pacienta) pro sledování pokroku pacienta a odezvy na léčbu poskytovanou lékařským bratrstvem.

    Ve zdravotnictví má odvozování závěrů z neustále se měnících časových řad kritickou hodnotu. Pokročilá lékařská praxe navíc vyžaduje, aby byly záznamy o pacientech v průběhu času propojeny pro lepší viditelnost zdravotního stavu pacienta. Rovněž je nutné v pravidelných intervalech přesně zaznamenávat zdravotní parametry pacienta, abychom měli jasnější obraz o zdravotním stavu pacienta.

    S pokročilými lékařskými nástroji přicházejícími do popředí se analýza časových řad etablovala v oblasti zdravotnictví. Zvažte níže uvedené příklady,

    • Zařízení EKG: Zařízení vynalezená pro monitorování srdečních stavů zaznamenáváním elektrických pulzů srdce.
    • Zařízení EEG: Zařízení používaná pro kvantifikaci elektrické aktivity v mozku.

    Taková zařízení umožnila lékařům provádět analýzu časových řad pro rychlejší, efektivní a přesnou lékařskou diagnózu.

    Navíc s příchodem zařízení IoT, jako jsou nositelné senzory a přenosná zdravotnická zařízení, mohou nyní lidé pravidelně měřit své zdravotní proměnné v průběhu času s minimálními vstupy. To vede k konzistentnímu sběru dat časově závislých lékařských dat pro nemocné i zdravé jedince.

    #3. Časové řady v astronomii

    Astronomie a astrofyzika jsou dvě moderní disciplíny, kde se významně využívají data časových řad.

    Astronomie v zásadě zahrnuje vykreslování trajektorií kosmických objektů a nebeských těles a provádění přesných měření pro lepší pochopení vesmíru mimo zemskou atmosféru. Díky tomuto požadavku jsou astronomičtí odborníci zběhlí v zacházení s daty časových řad při kalibraci a konfiguraci složitých přístrojů a studiu astronomických objektů zájmu.

    Údaje z časových řad jsou odpradávna spojeny s oblastí astronomie. V roce 800 př. n. l. byla v pravidelných intervalech sbírána data časových řad slunečních skvrn. Od té doby se používá analýza časových řad

    • Objevte vzdálené hvězdy na základě hvězdných vzdáleností,
    • Pozorujte vesmírné události, jako jsou supernovy, abyste lépe pochopili původ našeho vesmíru.

    Data časových řad se v tomto případě týkají vlnových délek a intenzit světla vydávaného hvězdami, nebeskými tělesy nebo objekty. Astronomové neustále sledují taková data z živého vysílání, aby detekovali kosmické události v reálném čase, jakmile k nim dojde.

    V nedávné době se objevily výzkumné oblasti jako astroinformatika a astrostatistika, které prolínají různé disciplíny, jako je dolování dat, strojové učení, výpočetní inteligence a statistika. V těchto nových oblastech výzkumu je úlohou časových řad dat rychle a efektivně detekovat a klasifikovat astronomické objekty.

    #4. Časové řady v předpovědi počasí

    Aristoteles rozsáhle studoval vzorce počasí, aby lépe porozuměl příčinám a účinkům pozorovaným při změnách počasí v dávných dobách. Jak dny postupovaly, vědci začali zaznamenávat data související s počasím na přístrojích, jako je „barometr“, aby vypočítali atmosférické proměnné. Data byla sbírána v pravidelných intervalech a uchovávána na různých místech.

    Časem se nakonec v novinách začaly objevovat předpovědi počasí. Rychle vpřed do dnešní doby jsou všudypřítomné předpovědní stanice počasí instalovány v různých geografických oblastech po celém světě, aby shromažďovaly přesné proměnné počasí.

    Takové stanice mají pokročilá funkční zařízení, která jsou vzájemně propojena, aby shromažďovala a korelovala data o počasí z různých míst. Korelovaná data se používají k předpovídání povětrnostních podmínek v každém okamžiku v závislosti na požadavcích.

    #5. Časové řady v rozvoji podnikání

    Data časových řad umožňují podnikům činit obchodní rozhodnutí. Toho je dosaženo tím, že proces analyzuje minulá data, aby odvodil budoucí události a vrhl světlo na pravděpodobné možnosti. Vzor minulých dat se používá k odvození následujících parametrů:

    • Obchodní růst: Pro vyhodnocení celkové finanční a obchodní výkonnosti a měření růstu jsou nejvhodnějším a nejspolehlivějším aktivem údaje z časových řad.
    • Odhad trendu: K odhadu vznikajících trendů lze použít různé metody časových řad. Uvažujme například, že tyto metody analyzují pozorování dat za určité časové období, aby se zamysleli nad zvýšením nebo snížením prodeje konkrétního elektronického zařízení.
    • Odhalte sezónní vzorce: Zaznamenané datové body by mohly odhalit výkyvy a sezónní vzorce, které by mohly pomoci při prognózování dat. Získané datové informace hrají klíčovou roli pro trhy, kde ceny produktů sezónně kolísají. Tyto údaje mohou podnikům pomoci při lepším plánování a vývoji produktů.

    Závěr 👨‍🏫

    V souhrnu lze na data časových řad pohlížet jako na charakteristiky komplexních datových bodů shromážděných za konstantní časové období. Analýza časových řad, modelování a prognózy se staly nedílnou součástí našeho každodenního života s příchodem IoT gadgetů, chytrých domácích spotřebičů a přenosných zařízení. Kromě toho data časových řad nacházejí uplatnění v různých oblastech, včetně zdravotnictví, astrofyziky, ekonomie, strojírenství, obchodu a mnoha dalších.