Data science ( anglicky data science ; někdy datalogy - datalogy [1] ) je část informatiky , která studuje problémy analýzy , zpracování a prezentace dat v digitální podobě. Kombinuje metody pro zpracování dat v podmínkách velkých objemů a vysoké úrovně paralelismu, statistické metody , metody data miningu a aplikace umělé inteligence pro práci s daty a také metody pro návrh a vývoj databází .
Považován za akademickou disciplínu [2] a od počátku 2010, především díky popularizaci konceptu „ big data “ [3] , - a jako praktický mezioborový obor činnosti navíc specializace datových vědců dat [4] [5] .
Za počátek formování specializované disciplíny je považován rok 1966 , kdy byl založen Výbor pro data pro vědu a techniku (CODATA) [6] a první zavedení termínu datová věda odkazuje na knihu Petera Naura v r. 1974, ve kterém výslovně definoval datovou vědu jako disciplínu, studující životní cyklus digitálních dat – od vzhledu po transformaci pro prezentaci v jiných oblastech poznání [7] (existuje názor, že Naur použil termín „data science“ v koncem 60. let [8] ).
Teprve v 90. letech se však termín označující disciplínu stal široce používaným [9] [6] , a teprve na počátku 20. století se stal obecně akceptovaným, především díky článku statistika Bell Labs Williama Clevelanda (od roku 2012 profesor statistiky na Purdue University ), ve kterém publikoval plán rozvoje technických aspektů statistického výzkumu a označil datovou vědu za samostatnou akademickou disciplínu, v níž by se tyto technické aspekty měly soustředit [10] [11] .
V roce 2002 zahájil Výbor pro data pro vědu a technologii vydávání časopisu CODATA Data Science Journal, který v názvu obsahuje název oboru, a v lednu 2003 vyšlo první číslo časopisu The Journal of Data Science of Columbia University . zveřejněno .
Další nárůst širokého zájmu o datovou vědu se týká vzniku paradigmatu „ velkých dat “, které se zaměřuje na nové technologické možnosti pro zpracování velkých objemů a různorodosti dat, mimo jiné prostřednictvím aplikace metod vyvinutých v datové vědě po 21. století. Od roku 2011 pořádá O'Reilly řadu velkých data science konferencí - Strata [12] , EMC pořádá od roku 2011 každoroční data science summit [13] . McKinsey v roce 2011 předpovídal poptávku ve Spojených státech po 440–490 tisících nových specialistů s „hlubokými analytickými dovednostmi v práci s velkými daty“ do roku 2018 a s nedostatkem 50–60 % takových specialistů při zachování vzdělávacích trendů [14] , v roce V souvislosti s touto prognózou byl do značné míry podpořen zájem o tvorbu kurikula [15] .
V roce 2012 je profese datového vědce opakovaně označována jako jedna z nejatraktivnějších ( anglicky sexy ) a slibných v moderním světě, tvrdí se, že takoví specialisté budou hrát klíčovou roli v organizacích kvůli příležitostem získat konkurenční výhody prostřednictvím analýzy, rychlého zpracování a extrakce vzorů v datech, především v technologických odvětvích [16] [5] .
Od akademického roku 2013 zahájily magisterské programy v oblasti datové vědy University of Dundee , University of Auckland , University of Southern California a obchodní škola Imperial College London zahájila program pro přípravu „Masters of Science in Data Science and Management“ ( angl. MSc Data Science & Management ) [17] . Ve stejném roce získaly University of Washington , University of California v Berkeley a New York University grant ve výši 37,8 milionů dolarů na rozvoj datové vědy, který během pěti let mimo jiné vytvoří učební osnovy a vytvoří příležitosti pro akademické kariéra v oboru [18] .
Hlavním praktickým cílem profesionální činnosti v datové vědě je objevování vzorců v datech [19] , získávání znalostí z dat v zobecněné podobě [20] . Pro vysvětlení dovedností potřebných pro činnosti v této oblasti se často používá Vennův diagram [21] , ve kterém se dovednosti požadované specialistou odrážejí na průsečíku oblastí obecných oborových zkušeností ( anglická substantivní odbornost ), praktických zkušeností s informacemi technologie ( hacking skills ) a znalostní matematické statistiky [22] .
Jako epistemologický rys disciplíny je naznačena priorita praktické použitelnosti výsledků, tedy úspěšnosti predikcí, před jejich kauzalitou, zatímco v tradičních oblastech výzkumu je zásadní vysvětlit podstatu jevu [23]. . Ve srovnání s klasickou statistikou , na jejíchž metodách je datová věda z velké části založena, předpokládá studium supervelkých heterogenních polí digitálních informací a nerozlučné spojení s informačními technologiemi, které zajišťují jejich zpracování [24] . V porovnání s činnostmi v oblasti návrhu a práce s databázemi, kde se předpokládá, že předběžný návrh datového modelu , který reflektuje vztah předmětné oblasti a následné studium načtených dat relativně jednoduchými (aritmetickými) metodami, je v porovnání s činnostmi v oblasti návrhu a práce s databázemi předpokládáno. datová věda předpokládá spoléhání se na aparát matematické statistiky, umělé inteligence, strojového učení, často bez předchozího načtení dat do modelu. Ve srovnání s profesí analytika, jejímž hlavním cílem je popisovat jevy na základě nashromážděných dat pomocí relativně jednoduchých uživatelských nástrojů (jako jsou tabulkové procesory nebo nástroje třídy Business Intelligence ), profil datového vědce vyžaduje menší zaměření na obsah tematických oblastí, ale vyžaduje hlubší znalosti v matematické statistice, strojovém učení, programování a obecně vyšší úroveň vzdělání ( magistři , kandidáti věd , Ph.D ve srovnání s bakaláři a specialisty ) [25] .
Kurz Úvod do datové vědy na University of Washington , publikovaný na Coursera , má následující sekce [26] :
Blok Data Science magisterského programu Data Science and Management na Imperial College London zahrnuje přípravný kurz pro Advanced Statistics . Následující disciplíny jsou přímo zahrnuty do kurzu datové vědy:
Po kurzech datové vědy a základů managementu poskytuje program aplikovaný kurz, rozdělený do dvou proudů, řízení rizik , správa aktiv a derivátové finanční nástroje jsou zahrnuty do finančního a technologického proudu a zpracování velkých datových sad je zahrnuto do poradenství . stream , síťová analýza, ekonometrická analýza, aplikace ve službách a poradenství, energetika , zdravotnictví , politika . [17]
Program University of Dundee klade důraz na „ velká data “, primárně na rozdíl od „tabulkového zpracování“, a zaměřuje se na dolování dat , modelování databází a úložišť , statistiku a jazyky SQL , MDX , R , Erlang , Java , které jsou studovány v rámci program , nástroje Hadoop a NoSQL [27] .