2022-08-12 06:21 Doba čtení: 17 min

26 úžasných otevřených datových sad pro vaše projekty Data Science/ML

Nalezení vhodných datových sad může být náročné, obzvláště pokud je potřebujete pro strojové učení (ML) a projekty v oblasti datové vědy. Usnadníme vám hledání tím, že poskytneme komplexní seznam bezplatných datových souborů.

Datové sady jsou jednoduše soubory s daty. Mohou obsahovat finanční informace, údaje o zdravotním stavu komunit, data z akciového trhu, bankovní údaje, geografické informace, výsledky výzkumu částic, hodnocení produktů na e-shopech a mnoho dalšího.

Tyto sady dat obsahují informace shromážděné na základě vědeckých metod a jsou klíčové pro další vizualizaci, analýzu, prognózování a podobné činnosti. Vzhledem k tomu, že data jsou v digitálním světě považována za ekvivalent ropy, stávají se datové sady komerčním zbožím a jsou stále cennější.

Čtěte dále a seznamte se se základními principy datových sad. Objevíte také některé open-source datové sady, které jsou zcela zdarma pro vaše projekty v oblasti strojového učení (ML) nebo datové vědy.

Co jsou datové sady?

Datové sady představují souhrn dat ve strukturovaném a uspořádaném formátu. Výzkumní pracovníci obvykle spojují datové soubory s určitým subjektem, jako je například Open Data Světové banky.

Sběratelé dat také vytvářejí datové sady specifické pro konkrétní téma, jako jsou například údaje ze sčítání lidu v USA z roku 2020, které zveřejnil Úřad pro sčítání lidu Spojených států.

Existuje mnoho datových sad týkajících se globálních i lokálních problémů. Většina z nich obsahuje vzájemně propojené datové body. Například, data o populaci země a jak obezita souvisí s různými vrstvami obyvatelstva.

Odborníci na data mohou potřebovat takové datové sady vyčistit, restrukturalizovat a zpracovat pomocí nástrojů pro velké objemy dat, aby dospěli k užitečným závěrům. Například snížení plastového odpadu analýzou dat o spotřebě plastů, řešení problémů na trhu práce pomocí analýzy dat o mzdách, trénování umělé inteligence (AI) a mnoho dalšího.

Typy datových sad

V závislosti na zdroji se datové sady dělí na veřejné a soukromé. Veřejné datové soubory jsou přístupné všem a mají významný přínos pro výzkum a vývoj.

Dále, datové sady mohou být rozděleny podle typu informací, které obsahují:

  • Vícerozměrné: Obsahují více proměnných.
  • Kategorické: Zobrazují různá zařazení osob.
  • Numerické: Obsahují číselné údaje, jako je věk, výška atd.
  • Korelační: Datové body jsou vzájemně propojeny.
  • Souborové: Data jsou uložena v souborech.
  • Bivariantní: Obsahují dvě proměnné a vztah mezi nimi.
  • Webové: Data jsou shromážděna z jednoho nebo více webových portálů.
  • Databázové: Data jsou uložena v tabulkách, sloupcích a řádcích.

Open-source datové sady pro projekty v oblasti datové vědy

Bezplatné datové sady jsou klíčové pro vaši vášeň v oblasti datové vědy. Zejména pokud jste na začátku své kariéry, můžete chtít pracovat na osobních a nekomerčních projektech pro získání sebedůvěry nebo budování portfolia.

Můžete si snadno vyzkoušet své nově nabyté dovednosti tím, že použijete nástroje a techniky na reálné problémy s datovými sadami.

Například existují volně dostupné údaje o výzkumu rakoviny, data o Covid-19, údaje z trestních rejstříků FBI, data z analýzy částic z CERN atd. Tato data můžete využít a vytvořit model datové vědy k zodpovězení zásadních sociálních, finančních a zdravotních problémů.

Takové projekty také poslouží jako vylepšení vašeho portfolia. Pokud dokážete vytvořit úspěšný model analýzy dat, který nabídne užitečné statistiky, můžete tyto modely prezentovat online vytvořením portfoliových webů. Zaměstnavatelé dávají přednost projektům před pouhými prohlášeními o záměru.

Bezplatné sady dat pro projekty strojového učení

Stejně jako odborník na datovou vědu, i odborník na strojové učení (ML) musí pracovat na projektech, aby ověřil své dovednosti. Úspěšný projekt se stane ideální součástí vašeho online nebo offline portfolia projektů ML.

Nyní je tedy jasné, že rozvoj datové vědy a ML je závislý na strukturovaných datových souborech. Pokud by tyto soubory byly příliš komercionalizovány, výzkum a vývoj v oblasti datové vědy by se zaměřil pouze na komerční využití.

Aby byl výzkum ML v oblasti datové vědy přístupný všem, následující agentury, instituce a platformy nabízejí bezplatné datové soubory:

Data.gov

Zde najdete veškerá otevřená data shromážděná a zpracovaná vládou USA. Platforma také nabízí zdroje a nástroje pro provádění výzkumu, návrh vizualizací dat, vývoj mobilních a webových aplikací a další.

Mezi významné datové sady patří údaje o udržitelném využívání půdy, informace o bydlení ve venkovských oblastech a vnitrozemské elektronické navigační mapy.

Otevřené datové sady: Kaggle

Kaggle nabízí obrovské množství veřejných dat a počítačových kódů pro projekty v oblasti datové vědy. Můžete si vybrat datové sady pro nezpracovaná data a kód pro programovací kódy. Mezi trendy datové sady na Kaggle patří data AMEX, sledovanost Simpsonových a tréninková data chatbotů.

Segmentové datové sady: YouTube 8-M

Segmentové datové sady z YouTube 8-M nabízejí segmentové anotace ověřené lidskými auditory. Na stejném portálu můžete také získat přístup k datové sadě YouTube-8M. Tato sada obsahuje 6,1 milionu ID videí, 350 000 hodin videa, 2,6 miliardy audio/vizuálních funkcí, 3863 kategorií videí a průměrně 3,0 štítků na video.

Registr otevřených dat na AWS

ROD na AWS pomáhá odborníkům na data sdílet a objevovat datové sady hostované na zdrojích AWS. Mezi zajímavé datové sady patří The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl a další.

Úložiště strojového učení: UCI

UCI Machine Learning Repository v současné době spravuje 622 datových sad vhodných pro odborníky na data a inženýry ML, aby mohli trénovat své modely AI. K dispozici je také prohledávatelné rozhraní pro průzkum databází. Mezi oblíbené datové sady patří Accelerometer Dataset, Synchronous Machine Dataset, Wikipedia Math Essentials a Turkish Headlines Dataset.

Veřejné datové sady BigQuery: Google Cloud

V BigQuery je uloženo velké množství veřejných datových sad. Google zpřístupňuje datové sady zdarma prostřednictvím programu Google Cloud Public Dataset Program. Bezplatný dotaz má však limit 1 TB za měsíc. Můžete provádět standardní i starší SQL dotazy.

Úžasné veřejné datové sady: GitHub

Awesome Public Datasets je open-source datová sada, která obsahuje veřejná data zaměřená na různá témata. Shromažďuje a třídí data z různých blogů, odpovědí a zpětné vazby od uživatelů. Kombinuje bezplatné i placené datové sady z oblastí jako fyzika, sport, software, zpracování přirozeného jazyka a strojové učení.

Údaje Světové banky

Otevřená data Světové banky jsou platformou, kde získáte bezplatný přístup k údajům o globálním rozvoji. Nabízí také další cenné zdroje, jako jsou předformátované tabulky a sestavy. Potřebný soubor dat můžete snadno najít podle země nebo ukazatele.

FiveThirtyEight: Data

FiveThirtyEight je americký web, který se zabývá analýzou průzkumů veřejného mínění, politikou, ekonomikou a sportem. K těmto průzkumům a prognózám máte přístup prostřednictvím datových sad z této platformy. Soubory dat si můžete stáhnout jedním kliknutím.

ImageNet

ImageNet je databáze obrázků, ze které mohou výzkumníci po celém světě získat open-source datové sady pro své nekomerční projekty. Obrázky jsou zde uspořádány podle hierarchie WordNet. Tento projekt má zásadní roli v pokročilém výzkumu hlubokého učení.

Archiv datových sad: UNICEF DATA

Pomocí archivů datových sad můžete získat data shromážděná UNICEF po celém světě. K dispozici jsou údaje o migraci, vysídlení, stravě, konektivitě, vzdělání, zdraví, učení, úmrtnosti, násilí, vývoji dětství, dětských sňatcích, dětské práci a další statistiky.

Najít otevřená data: Vláda Spojeného království

Pokud váš projekt vyžaduje data zveřejněná místními orgány a ústřední vládou Spojeného království, Find Open Data je portál, který byste měli navštívit. Zahrnuje datové sady o vládních výdajích, obchodu, zdravotnictví, vzdělávání, obraně a dalších oblastech.

Údaje: Úřad pro sčítání lidu Spojených států

Potřebujete údaje ze sčítání lidu v USA pro váš projekt? Můžete využít USCB Data. Zde můžete prozkoumat údaje ze sčítání lidu do roku 2020, tabulky, mapy a datové profily při vizualizaci dat a používání datových nástrojů.

Data a statistiky: CDC

Federální agentura Spojených států amerických Centers for Disease Control and Prevention také poskytuje veřejnosti bezplatné datové soubory pro přístup k datům a statistikám. Mezi témata datových souborů patří zdraví životního prostředí, chronická onemocnění, narození a porodnost, úmrtí a úmrtnost, délka života, zranění a násilí, reprodukční zdraví, nemoci podléhající hlášení na národní úrovni a další.

Datové sady: MIT

Tato sada dat se zaměřuje na údaje o vibracích vyvolaných vírem. Centrum pro oceánské inženýrství na MIT hostí některé veřejně dostupné datové sady pro srovnávání počítačového kódu. Datové soubory jsou otevřené všem, aby mohli přicházet s novými teoriemi a synchronizovat výzkumníky pracující ve stejné oblasti.

Katalog dat Světové banky

Katalog dat shromažďuje bezplatné datové soubory, které usnadňují přístup k datům Světové banky týkajícím se rozvoje. Použití v různých projektech je snadné, protože můžete jednoduše vyhledat a stáhnout požadované informace. Obsahuje více než 5000 datových souborů pokrývajících mikrodata Světové banky, finance a energetické platformy.

Data vesmírné vědy NASA

NASA nabízí přístup ke svým archivním datům na Space Science Data Coordinated Archive. Tato platforma je velmi užitečná pro širokou veřejnost, zejména pro lidi pracující ve vzdělávání a kosmickém výzkumu. Obsahuje 400 TB digitálních dat s informacemi o 550 vesmírných vědách.

Získejte data: Inside Airbnb

Airbnb je celosvětově uznávaná platforma pro krátkodobé ubytování a pronájmy. Nabízí také sběr dat o různých městech po celém světě z Get the Data. Můžete si vybrat město a rychle získat data. Na tomto portálu si také můžete vyžádat potřebná data a přečíst si datové specifikace.

Webová data: Recenze Amazonu

Zájemci o průzkum trhu a recenze produktů by měli využít datové sady poskytované Snap Web Data. Obsahuje více než 34 milionů uživatelských recenzí na Amazonu od června 1995 do března 2013. Datová sada zahrnuje prostý text, informace o produktu, uživatelské jméno, hodnocení a recenze.

Údaje MMF

Portál IMF Data je cenný pro všechny druhy ekonomických a finančních dat. Ať už hledáte finanční údaje MMF, statistiky externích sektorů, stěžejní publikace nebo makroekonomická data, najdete je zde. Navíc můžete použít filtr pro získání údajů o konkrétní zemi.

Google Books Ngrams

Pokud pracujete s jazykem a jeho strukturou, Google Books Ngrams vám může výrazně pomoci. Tato open-source datová sada vám dá představu o používání konkrétního slova nebo fráze v historii nebo v určitém časovém období. Zdrojem této datové sady jsou digitální dokumenty indexované společností Google.

Údaje o trzích: The Financial Times

Pokud chcete získat spolehlivá a přesná globální a regionální data o akciových trzích, Markets Data od The Financial Times vám pomohou. Umožňují vám pracovat s tržními daty z Ameriky, Asie a Tichomoří, Evropy, Afriky a globálního trhu.

Údaje o Zemi: NASA

NASA poskytuje úplný a otevřený přístup ke svým vědeckým datům prostřednictvím programu Earth Data. Pomáhá porozumět naší planetě a realizovat s ní projekty. Najdete zde bezplatné datové soubory o atmosféře, biosféře, kryosféře, lidské činnosti, zemském povrchu, oceánu, pevné zemi, interakci Slunce-Země a hydrosféře.

Vyhledávání datové sady: Google

Pokud jste student, výzkumník nebo odborník na data a hledáte datové sady pro svůj projekt, můžete využít portál Dataset Search. Je to vyhledávač datových sad, který vám umožňuje objevovat datové sady hostované na různých platformách pomocí vyhledávání klíčových slov.

Otevřená data: CERN

Evropská výzkumná organizace CERN má portál Open Data, který můžete použít pro přístup k datům generovaným výzkumem v CERN. Tento portál datových souborů obsahuje dva petabajty dat souvisejících s fyzikou částic. Obsahuje také aplikace a dokumentaci potřebnou pro analýzu dat.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) je open-source datová sada od FBI, která usnadňuje přístup ke sdílení dat v oblasti trestné a nekriminální činnosti a vymáhání práva. Kromě objevování potřebných dat prostřednictvím vizualizace a filtrování kategorií vám tato platforma umožňuje stahovat data ve formátu CSV.

Závěrečná slova

Prošli jste skutečně vyčerpávajícím seznamem vysoce kvalitních datových sad. Článek představuje data z různých oblastí, jako je fyzikální věda, lékařské záznamy, vesmírný výzkum, trestní rejstříky, hodnocení produktů a další.

V závislosti na vašem projektu v oblasti datové vědy nebo strojového učení si můžete vybrat vhodnou datovou sadu. Téměř všechny datové sady také obsahují správné pokyny, které vám pomohou s vaším projektem.

Mohly by vás také zajímat tyto zdroje pro výuku datové vědy a ML.

Petra Kovářová
Autor
Czechia

Sleduje mobilní technologie, Android/iOS a praktické návody pro uživatele.

Předchozí článek
14 nejlepších ovladačů Google Stadia ke koupi
Další článek
Jak získat filtr na barvu vlasů na Instagramu