26 úžasných otevřených datových sad pro vaše projekty Data Science/ML

Hledání správných datových sad může být skličující, zvláště když je potřebujete pro strojové učení (ML) a projekty datové vědy. Snížíme vaše výzkumné úsilí tím, že poskytneme konečný seznam bezplatných datových souborů.

Datové sady jsou jednoduše soubory dat. Mohou to být finanční údaje, údaje o zdraví komunity, údaje o akciovém trhu, bankovní údaje, geografické údaje, údaje z výzkumu částic, hodnocení produktů na webu elektronického obchodu atd.

Datové sady obsahují data shromážděná prostřednictvím standardu vědeckého průzkumu a jsou důležitá pro další vizualizaci, těžbu, prognózování atd. Vzhledem k tomu, že data jsou ekvivalentem ropy v digitálním vesmíru, stávají se datové sady komerční a vzácné.

Pokračujte ve čtení a zjistěte základy o datových sadách. Objevíte také některé open source datové sady, které jsou skutečně zdarma pro vaše projekty strojového učení (ML) nebo datové vědy.

Co jsou datové sady?

Datové sady jsou shromažďováním dat ve strukturovaném a organizovaném kontejneru. Inspektoři obvykle spojují datové soubory s jedinečným subjektem, například Open Data Světové banky.

Sběrači dat opět uchovávají datové sady specifické pro téma, jako jsou údaje ze sčítání lidu v roce 2020 ve Spojených státech amerických zveřejněné Úřadem pro sčítání lidu Spojených států.

Najdete zde mnoho datových sad o globálních i lokálních problémech. Většina datových sad obsahuje vzájemně související datové body. Například populace země a jak obezita souvisí s různými třídami této populace.

Datoví vědci mohou potřebovat vyčistit, restrukturalizovat a zpracovat takové datové sady pomocí nástrojů velkých dat, aby dospěli k cenným závěrům, jako je snížení plastového odpadu analýzou dat o používání plastů, náprava problémů s pracovní silou pomocí analýzy mzdových dat, školení umělé inteligence (AI) atd. na.

Typy datových sad

V závislosti na zdroji datových sad mohou být veřejné nebo soukromé. Veřejné datové soubory jsou otevřené všem a významně přispívají k výzkumu a vývoji.

Opět platí, že datové sady mohou být následujících typů v závislosti na informacích v nich obsažených:

  • Vícerozměrné: Taková data obsahují více proměnných.
  • Kategorický: Zobrazuje mnoho kategorií lidí.
  • Numerický: Tyto datové sady měří data v číslech, jako je věk, výška atd.
  • Korelace: U tohoto typu jsou datové body vzájemně propojeny.
  • File Based: Zde jsou datové sady uloženy v souborech.
  • Bivariate: Soubor dat se dvěma proměnnými a vztahem mezi nimi.
  • Web Dataset: Data shromážděná z jednoho nebo více podobných internetových portálů.
  • Databáze: Tyto datové sady ukládají data v tabulkách, sloupcích a řádcích.
  Opravte kód chyby Netflix UI3012

Open Source datové sady pro projekty Data Science Projects

Bezplatné datové sady jsou palivem pro vaši vášeň pro kariéru v oblasti datové vědy. Protože pokud jste v rané fázi své kariéry v oblasti datové vědy, možná budete chtít přijmout osobní a nekomerční projekty pro sebevědomí nebo budování portfolia.

Za prvé, můžete snadno otestovat své nově naučené dovednosti použitím nástrojů a technik na problémy s datovými sadami v reálném světě.

Existují například volně dostupné údaje o výzkumu rakoviny, údaje o Covid-19, údaje z trestních rejstříků FBI, údaje o analýze částic z CERN atd. Tato data můžete použít a vytvořit model datové vědy k zodpovězení zásadních sociálních, finančních a zdravotních problémů. .

Za druhé, takové projekty fungují jako vylepšení portfolia pro vaši kariéru. Pokud dokážete vytvořit úspěšný model analýzy dat, který může nabídnout užitečné statistiky, můžete tyto modely předvést online vytvořením portfoliových webů. Zaměstnavatelé upřednostňují projekty před prohlášeními o účelu.

Bezplatné sady dat pro projekty strojového učení

Stejně jako profesionál datové vědy musí profesionál ML také pracovat na samostatně řízených projektech, aby prověřil své dovednosti. Pokud bude projekt úspěšný, stane se také ideální komponentou pro vaše online nebo offline portfolio projektů ML.

Proto nyní můžete pochopit, že datová věda a růst ML závisí na strukturovaných souborech dat. Pokud by takové datové soubory byly příliš komercializovány, výzkum a vývoj v oblasti datové vědy by se stal plně zaměřen na společnost.

Aby byl výzkum ML v oblasti datové vědy otevřený všem, nabízejí následující agentury, instituce a platformy bezplatné soubory dat:

Data.gov

Najdete zde všechna otevřená data shromážděná a zpracovaná vládou USA. na Data.gov. Platforma také nabízí zdroje a nástroje pro provádění výzkumu, navrhování vizualizací dat, vývoj mobilních/webových aplikací atd.

Jeho pozoruhodné datové soubory zahrnují údaje o udržitelném využívání půdy, údaje o venkovském bydlení, vnitrozemské elektronické navigační mapy atd.

Otevřít datové sady: Kaggle

Kaggle nabízí oceán veřejných dat a počítačových kódů pro projekty datové vědy. Můžete vybrat Datové sady pro nezpracovaná data a Kód pro programovací kódy. Trendy datové sady na Kaggle jsou data AMEX, sledovanost Simpsonů, tréninková data Chatbota atd.

Datové sady segmentů: YouTube 8-M

Segmentové datové sady z YouTube 8-M vám nabízejí segmentové anotace ověřené lidskými auditory. Ze stejného portálu můžete také přistupovat k datové sadě YouTube-8M. Soubor dat obsahuje 6,1 milionu ID videa, 350 000 hodin videa, 2,6 miliardy audio/vizuálních funkcí, 3863 tříd videí a v průměru 3,0 štítků na video.

Registr otevřených dat na AWS

ROD na AWS pomáhá datovým vědcům sdílet a objevovat datové sady hostované na zdrojích AWS. Některé zajímavé datové sady, které zde můžete najít, jsou The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl atd.

Úložiště strojového učení: UCI

UCI Machine Learning Repository v současné době spravuje 622 datových sad vhodných pro datové vědce a inženýry ML, aby mohli trénovat své modely AI. K dispozici je také prohledávatelné rozhraní pro průzkum databází. Populárními atrakcemi jsou datová sada Accelerometer, datová sada Synchronous Machine, Wikipedia Math Essentials, datová sada Turkish Headlines atd.

  Jak zahájit konverzaci s Firefoxem Dobrý den

Veřejné datové sady BigQuery: Google Cloud

V BigQuery je uloženo mnoho veřejných datových sad. Google zpřístupňuje datovou sadu zdarma prostřednictvím programu Google Cloud Public Dataset Program. Bezplatný dotaz má však limit 1 TB měsíčně. Můžete provádět standardní SQL a starší SQL dotazy.

Úžasné veřejné datové sady: GitHub

Awesome Public Datasets je open source datová sada, která obsahuje tematicky zaměřená veřejná data. Shromažďuje a třídí se z různých blogů, odpovědí a zpětné vazby od uživatelů a kombinuje bezplatné a placené datové sady o fyzice, sportu, softwaru, přirozeném jazyce a strojovém učení.

Údaje Světové banky

Otevřená data Světové banky jsou platformou, kde získáte bezplatný přístup k údajům o globálním rozvoji. Nabízí také další cenné zdroje, jako jsou předformátované tabulky a sestavy. Požadovaný soubor dat můžete snadno procházet podle země nebo ukazatele.

FiveThirtyEight: Data

FiveThirtyEight je americký web, který se zabývá analýzou průzkumů veřejného mínění, politikou, ekonomikou a sportem. K těmto průzkumům a prognózám máte přístup prostřednictvím datových sad z její platformy. Soubory dat si můžete stáhnout jedním kliknutím.

ImageNet

ImageNet je obrazová databáze, ze které mohou výzkumníci po celém světě získat open source datové sady pro své nekomerční projekty. Zde jsou obrázky uspořádány na základě hierarchie WordNet. Projekt hraje zásadní roli v pokročilém výzkumu hlubokého učení.

Archiv datových sad: UNICEF DATA

Pomocí archivů datových sad můžete získat datové sady shromážděné UNICEF po celém světě. Zde jsou k dispozici údaje o migraci, vysídlení, stravě, konektivitě, vzdělání, zdraví, učení, úmrtnosti, násilí, vývoji dětství, sňatcích dětí, dětské práci a různé statistiky.

Najít otevřená data: Govt. Spojeného království

Pokud váš projekt potřebuje data zveřejněná místními orgány a ústřední vládou Spojeného království, Find Open Data je portál, který byste měli navštívit. Zahrnuje vládní výdaje, obchod, zdravotnictví, vzdělávání, obranu a další datové sady.

Údaje: Úřad pro sčítání lidu Spojených států

Potřebujete údaje ze sčítání lidu v USA pro relevantní projekt? Můžete využít pomoc od USCB Data. Zde můžete prozkoumat data ze sčítání lidu do roku 2020, tabulky, mapy a datové profily při vizualizaci dat a používání datových nástrojů.

Data a statistiky: CDC

Federální agentura Spojených států amerických Centers for Disease Control and Prevention také poskytuje veřejnosti bezplatné soubory dat pro přístup k datům a statistikám z tohoto portálu. Témata souboru dat jsou Environmentální zdraví, Chronická onemocnění, Narození a porodnost, Úmrtí a úmrtnost, Očekávaná délka života, Zranění a násilí, Reprodukční zdraví, Nemoci podléhající hlášení na národní úrovni atd.

Datové sady: MIT

Tento soubor dat se zaměřuje na údaje o vibracích vyvolaných vírem. Centrum pro oceánské inženýrství na MIT hostí některé veřejně dostupné datové sady pro srovnávání počítačového kódu. Soubory dat jsou otevřené pro všechny, aby mohli zvát nové teorie od výzkumníků dat a synchronizovat výzkumníky pracující ve stejné oblasti.

  Jak zobrazit karty v režimu celé obrazovky v prohlížeči Chrome

Katalog dat Světové banky

Katalog dat shromažďuje bezplatné soubory dat, díky nimž jsou data Světové banky související s rozvojem snadno dostupná. Použití v různých projektech je hračka, protože můžete snadno najít a stáhnout své preferované informace. Obsahuje více než 5000 datových souborů pokrývajících mikrodata Světové banky, finance a energetické platformy.

Data vesmírné vědy NASA

NASA nabízí přístup ke svým archivním datům na Space Science Data Coordinated Archive. Tato platforma je velkým pomocníkem pro širokou veřejnost, zejména pro lidi pracující ve vzdělávání a kosmickém výzkumu. Má 400 TB digitálních dat obsahujících informace o 550 vesmírných vědách.

Získejte data: Uvnitř Airbnb

Airbnb je celosvětově uznávané online tržiště pro ubytování v rodině a prázdninové pronájmy. Nabízí také sběr dat o různých městech po celém světě z Get the Data. Můžete procházet městem a rychle získat data. Dále si na tomto portálu můžete vyžádat požadovaná data a číst datové předpoklady.

Webová data: recenze Amazonu

Zájemci o průzkum trhu a recenze produktů by měli používat datové sady poskytované Snap Web Data. Obsahuje více než 34 milionů uživatelských recenzí na Amazonu od června 1995 do března 2013. Dataset obsahuje prostý text, informace o produktu, uživatelské jméno, hodnocení a recenze.

Údaje MMF

Portál IMF Data je cenný pro všechny typy ekonomických a finančních dat. Ať už hledáte finanční údaje MMF, statistiky externích sektorů, stěžejní publikace nebo mikroekonomická data, zde je můžete najít. Kromě toho můžete použít filtr k získání údajů o zemi.

Google Books Ngrams

Pokud pracujete na částech řeči a jazyka, Google Books Ngrams vám může výrazně pomoci. Tato datová sada s otevřeným zdrojovým kódem vám dává představu o používání konkrétního slova a fráze v historii nebo v určitém časovém období. Zdrojem tohoto souboru dat jsou digitální dokumenty indexované společností Google.

Údaje o trzích: The Financial Times

Pokud chcete získat spolehlivá a přesná globální a regionální data o akciových trzích, Markets Data od The Financial Times jsou tu, aby vám pomohli. Umožňuje vám pracovat s tržními daty z Ameriky, Asie a Tichomoří, Evropy, Afriky a globálního trhu.

Údaje o Zemi: NASA

NASA poskytuje úplný a otevřený přístup ke svým vědeckým datům prostřednictvím programu Earth Data, který vám pomůže pochopit naši domovskou planetu a dělat s ní projekty. Můžete najít bezplatné soubory dat o atmosféře, biosféře, kryosféře, lidských rozměrech, povrchu země, oceánu, pevné zemi, interakci Slunce-Země a pozemské hydrosféře.

Vyhledávání datové sady: Google

Pokud jste student, výzkumník nebo datový vědec a hledáte datové sady pro podporu svého projektu, můžete využít pomoc portálu Dataset Search. Můžete to nazvat vyhledávačem datových sad, protože vám umožňuje objevovat datové sady hostované v různých sestavách po celém webu prostřednictvím vyhledávání klíčových slov.

Otevřená data: CERN

Evropská výzkumná organizace CERN má portál Open Data, který můžete použít pro přístup k datům generovaným výzkumem v CERN. Tento portál datových souborů obsahuje dva petabajty dat souvisejících s částicovou fyzikou. Navíc přichází s aplikacemi a dokumentací potřebnou pro analýzu dat.

Crime Data Explorer: FBI

Crime Data Explorer (CDE) je soubor dat s otevřeným zdrojovým kódem od FBI, jehož cílem je poskytnout snazší přístup ke sdílení dat v trestním a nekriminálním prostředí a v oblasti vymáhání práva. Kromě toho, že vám tato platforma umožňuje objevovat potřebná data prostřednictvím vizualizace a filtrování kategorií, umožňuje vám stahovat data ve formátu CSV.

Závěrečná slova

Doposud jste prošli skutečně vyčerpávajícím seznamem vysoce kvalitních datových sad. Článek představuje data z různých oblastí, jako je fyzikální věda, lékařské záznamy, vesmírný výzkum, trestní rejstříky, hodnocení produktů atd.

V závislosti na projektu datové vědy nebo strojového učení, který máte v plánu, si můžete vybrat. Téměř všechny datové sady mají také správné pokyny, které vám pomohou s vaším projektem.

Také by vás mohly zajímat tyto zdroje pro výuku datové vědy a ML.