Ar jau seniai norėjote išsiaiškinti, kaip tapti duomenų analitiku, studijuoti duomenų mokslą, bet nežinojote, nuo ko pradėti? Tada šis straipsnis skirtas jums.
Kas iš mūsų nėra girdėjęs apie „didžiuosius duomenis“? Mažai tikėtina, kad bus bent vienas. IN pastaraisiais metais Susidomėjimas darbu su duomenimis labai išaugo, nes didelėms IT įmonėms reikia pateikti vis daugiau naujų sprendimų analizuoti, apdoroti ir vėliau naudoti duomenis. Kai kurie net paleidžia mokymosi programas kartu su universitetais. Tačiau dauguma žmonių nesupranta, kokie žmonės yra duomenų analitikai. Jei esate vienas iš tokių žmonių ir norite tapti duomenų analitiku, šis straipsnis skirtas jums. Mes pasirinkome tik nemokamas mokymo priemones, kurias galite naudoti nepriklausomai nuo jūsų buvimo vietos.
Vadinamieji duomenų analitikai užsiima jos informacija ir analize, kad gautų vaizdinius, žmogaus suvokiamus rezultatus. Tokie žmonės dažniausiai yra didelių duomenų, duomenų gavybos, mašininio mokymosi, sistemų analizės specialistai ir verslo analitikai.
SHAD – duomenų analizės kursai iš Yandex darbuotojų. Įeiti ten gana sunku, stojantiesiems minimalus reikalavimas yra pagrindinės aukštesnės algebros dalys,matematinė analizė, kombinatorika, tikimybių teorija, taip pat programavimo pagrindai. Laimei, kursai yra įrašyti, kad visi galėtų mokytis iš vaizdo paskaitų.
Kurse mokoma taikyti tikimybių teoriją ir statistiką, kalbama apie mašininio mokymosi pagrindus, mokoma kurti algoritmus.
Paskaitos apima algoritmus ieškant ir rūšiuojant didelius duomenų kiekius, algoritmus ir manipuliavimą eilutėmis, grafų teorinius algoritmus, duomenų struktūrų konstravimą ir analizę.
Tiems, kurie jau seniai norėjo susipažinti su kelių gijų ir lygiagrečiu programavimu, taip pat MapReduce.
Kurso metu nagrinėjamos pagrindinės kombinatorinės, diskretinės ir asimptotinės analizės, tikimybių teorijos, statistikos sąvokos ir metodai, taip pat demonstruojamas jų pritaikymas.
Peržiūrėję kursą sužinosite apie tikimybinio sudėtingumo klases ir pagrindinius duomenų analizės ir konstravimo būdus.
Kursų programos skirtos kelių Maskvos universitetų studentams, tačiau yra prieinamos visiems. Būsimiems analitikams rekomenduojame šiuos paskaitų rinkinius:
Big Data University yra internetinis kursas, sukurtas kartu su IBM pradedantiesiems ir žmonėms, neturintiems matematinio išsilavinimo. Paskaitos, padedančios susipažinti su darbo su duomenimis pagrindais, įrašomos aiškia anglų kalba.
Šiame kanale yra paskaitos apie matematiką, informatiką, programavimą ir mašininį mokymąsi. Proceso metu pateikiami tiriamų dalykų taikymo pavyzdžiai Tikras gyvenimas. Paskaitos vyksta anglų kalba, tačiau yra puikūs rusiški subtitrai.
Kursas yra orientuotas į nuodugnų įvadą į teoriją ir vieno iš populiariausių šiandienos tokių problemų sprendimo metodų – diskrečių tikimybinių grafinių modelių – taikymą. Kursų kalba – anglų.
Kanalas yra visiškai skirtas darbui su duomenimis. Be to, naudingų dalykų sau ras ne tik tie, kurie domisi matematika. Yra vaizdo įrašų apie analizę ir programavimą, skirtą finansų analitikams ir robotams naudojant Rasperri Pi.
Vaikinas kalba apie šiuolaikinės technologijos ir kaip su jais dirbti. Gilaus mokymosi, duomenų mokslo ir mašininio mokymosi kursai padės išmokti dirbti su duomenimis.
Jei ką nors girdėjote apie mašininį mokymąsi, bet jau domitės, šis kanalas kaip tik jums. Autorius suprantamai pateikdamas pavyzdžius paaiškins, kas tai yra, kaip tai veikia ir kur naudojama.
Tiems, kurie nėra tikri, kad yra pasirengę mokytis visiškai savarankiškai, žiūrėdami paskaitas, yra internetiniai kursai su užduotimis su patikrinimu.
Nereikia aiškinti, kokia tai platforma. Reikia pasirinkti kursą ir pradėti studijuoti.
Pirmoje dalyje aprašomi visi pagrindiniai R statistinės analizės žingsniai, duomenų skaitymas, išankstinis duomenų apdorojimas, pagrindinių statistinių metodų taikymas ir rezultatų vizualizavimas. Mokiniai išmoks pagrindinius programavimo elementus R kalba, kurie leis greitai ir efektyviai išspręsti įvairiausias problemas, kylančias apdorojant duomenis.
Antroji dalis apima keletą išplėstinių temų, kurios nebuvo aptartos pirmojoje: išankstinis duomenų apdorojimas naudojant data.table ir dplyr paketus, pažangūs vizualizacijos metodai, darbas R Markdown.
Kursas skirtas tiems, kurie turi patirties su reliacinių DBVS ir nori daugiau sužinoti, kaip jos veikia. Kursas apima:
Kursas skirtas didelių duomenų kiekių apdorojimo metodams naudojant Hadoop sistemą. Baigę kursą įgysite pagrindinių didelių duomenų saugojimo ir apdorojimo metodų, suprasite paskirstytų sistemų principus Hadoop karkaso kontekste bei įgysite praktinių programų kūrimo įgūdžių naudodami MapReduce programavimo modelį.
IT pasaulyje yra įvairių krypčių. Vieni dalyvauja administravime, kiti – kūrime ar testavimuose. Kuriami kursai, skirti ruošti sistemų administratorius, programuotojus, testuotojus. Šiame straipsnyje bus nagrinėjama speciali programa „Data Scientist“, skirta specialiai kūrėjams, analitikams ir produktų vadybininkams.
Yra daug mitų, susijusių su duomenų mokslininko profesija, ir daugelis žmonių nelabai supranta, kas tai yra. Kai kas mano, kad duomenų mokslininkas ar duomenų analitikas yra kažkas panašaus į programuotoją (pagal principą: jei moki programuoti, vadinasi, moki dirbti su duomenimis), kai kas šią profesiją laiko panašia į duomenų bazės administratorių, o kai kurie net nežino, kas tai yra.
Žvelgiant į ateitį, iš karto reikia pastebėti, kad duomenų analitikas nėra programuotojas ir tikrai ne duomenų bazės administratorius, nors iš jo reikalaujama turėti programavimo įgūdžių.
Duomenų mokslininkas yra specialistas, turintis tris įgūdžių grupes:
Atviros darbo vietos ne visada vadinamos „Data Scientist“. Labai dažnai yra pasirinkimų: programuotojas-analitikas, Big Data analitikas, sistemų analizės vadovas, Big Data architektas, verslo analitikas ir kt.
Kai kurios duomenų mokslininko pareigos apima:
Duomenų specialistas turi suprasti savo organizacijos verslo poreikius ir įvaldyti analizės įrankius: mašininį mokymąsi ir teksto analizę.
Konsultacijų bendrovės „McKinsey Global Institute“ duomenimis, jau m kitais metais JAV (tik JAV, ne visame pasaulyje!) reikės visos armijos duomenų specialistų - nuo 140 iki 190 tūkst.
JAV vidutinis duomenų mokslininko atlyginimas viršija 138 000 USD per metus. Rusijoje galite gauti 120 tūkstančių rublių atlyginimą per mėnesį (daugiau nei 26 tūkstančius dolerių per metus).
Jei lygintume su paprasto programuotojo profesija, tai JAV vidutinis programuotojo atlyginimas siekia 65–80 tūkstančių dolerių per metus, o Rusijoje – 60 tūkstančių rublių per mėnesį arba 13 tūkstančių dolerių per metus.
Bet kokiu atveju, tapęs duomenų mokslininku, gali uždirbti daugiau nei programuotojas.
Kaip matote, duomenų mokslininkas yra labai perspektyvi profesija. Pirma, jo atlyginimas yra didesnis nei paprasto programuotojo. Antra, duomenų specialistų nėra daug ir rinkoje jaučiamas specialistų trūkumas ne tik Rusijoje, bet ir visame pasaulyje.
Universitete galite įgyti duomenų mokslininko profesiją, skirtą specialistų ruošimui ir papildomam mokymui ".
Studentai turi mokėti bent vieną programavimo kalbą pradiniu lygiu (pageidautina Python).
Mokiniai turėtų išmanyti aukštosios mokyklos matematiką: funkcijas, išvestines, vektorinę ir matricinę algebrą, trigonometriją.
Jei neturite reikiamų žinių, tuomet specialiai jums yra skirtas nemokamas parengiamieji kursai, kurie atsidarys iškart sumokėjus už pagrindinį patiekalą. Kursą sudaro 11 paskaitų vaizdo įrašų ir joms skirtų namų darbų. Jis kalbės apie kilpas, duomenų tipus, funkcijas, išmokys dirbti su HTTP užklausomis, skirtingus duomenų formatus ir dar daugiau.
Bazinė kaina yra 180 000 rublių, tačiau iki birželio 15 d. mokymų kaina sumažinta iki 165 000 rublių. Šiuo atveju 6 mėnesiams suteikiamos įmokos be palūkanų, tai yra, mokymo kaina yra 27 500 rublių per mėnesį.
Studentui išduodamas valstybinis profesinio perkvalifikavimo diplomas pagal specialybę „Duomenų analitikas / mašininio mokymosi specialistas“. Su juo galite pretenduoti į „Duomenų analitiko“, „Big Data Developer“ pareigas, kurių atlyginimas yra 120 tūkstančių rublių per mėnesį.
Atkreipkite dėmesį, kad baigus mokymus jums išduodamas ne koks „pažymėjimas“, o valstybės išduotas diplomas.
Duomenų mokslas, mašininis mokymasis – tikriausiai girdėjote šiuos didelius žodžius, tačiau ar jie buvo jums aiškūs? Kai kuriems tai gražūs masalai. Kai kurie žmonės mano, kad duomenų mokslas yra magija, kuri privers mašiną padaryti viską, kas užsakyta nemokamai. Kiti netgi tiki, kad taip yra lengvas kelias uždirbti didžiulius pinigus. Nikita Nikitinsky, IRELA tyrimų ir plėtros vadovas, ir Polina Kazakova, duomenų mokslininkė, paprasta ir suprantama kalba paaiškina, kas tai yra.
Dirbu su automatiniu natūralios kalbos apdorojimu, duomenų mokslo taikymu, ir dažnai matau, kad žmonės neteisingai vartoja šiuos terminus, todėl norėjau šiek tiek patikslinti. Šis straipsnis skirtas tiems, kurie mažai supranta, kas yra duomenų mokslas, ir nori suprasti sąvokas.
Pradėkime nuo to, kad niekas tiksliai nežino, kas yra duomenų mokslas, o griežto apibrėžimo nėra – tai labai plati ir tarpdisciplininė sąvoka. Todėl čia pasidalinsiu savo vizija, kuri nebūtinai sutampa su kitų nuomone.
Terminas duomenų mokslas į rusų kalbą išverstas kaip „duomenų mokslas“, o profesinėje aplinkoje jis dažnai tiesiog transliteruojamas kaip „duomenų mokslas“. Formaliai tai yra kai kurių tarpusavyje susijusių disciplinų ir metodų rinkinys iš kompiuterių mokslo ir matematikos srities. Skamba per daug abstrakčiai, tiesa? Išsiaiškinkime.
Pirmasis duomenų mokslo komponentas, be kurio neįmanomas visas tolesnis procesas, iš tikrųjų yra patys duomenys: kaip juos rinkti, saugoti ir apdoroti, taip pat kaip iš bendro duomenų masyvo išgauti naudingą informaciją. Tai yra duomenų išvalymas ir pateikimas tinkamas tipas specialistai skiria iki 80% savo darbo laiko.
Svarbi šio punkto dalis yra tai, kaip tvarkyti duomenis, kuriems standartiniai saugojimo ir apdorojimo metodai netinka dėl didžiulės apimties ir (arba) įvairovės – vadinamieji dideli duomenys. Beje, nesileiskite supainioti: dideli duomenys ir duomenų mokslas nėra sinonimai: greičiau pirmasis yra antrojo poskyris. Tuo pačiu metu duomenų analitikai praktiškai ne visada turi dirbti su dideliais duomenimis – smulkūs duomenys taip pat gali būti naudingi.
Įsivaizduokite, kad mus domina, ar yra koks nors ryšys tarp to, kiek kavos išgeria jūsų kolegos per dieną ir kiek miegojo prieš tai. Užsirašykite mums turimą informaciją: tarkime, jūsų kolega Gregory šiandien miegojo 4 valandas, todėl turėjo išgerti 3 puodelius kavos; Ellina miegojo 9 valandas ir visiškai negėrė kavos; o Polina miegojo visas 10 valandų, bet išgėrė 2,5 puodelio kavos – ir t.t.
Gautus duomenis parodykime grafike (vizualizacija taip pat yra svarbus bet kurio duomenų mokslo projekto elementas). X ašyje pavaizduokime laiką valandomis, o Y ašyje kavą mililitrais. Gausime kažką panašaus:
Turime duomenų, ką dabar su jais daryti? Teisingai, analizuokite, ištraukite naudingus modelius ir kažkaip juos naudokite. Čia mums padės tokios disciplinos kaip statistika, mašininis mokymasis ir optimizavimas.
Jie sudaro kitą ir bene svarbiausią duomenų mokslo komponentą – duomenų analizę. Mašininis mokymasis leidžia rasti esamų duomenų šablonus, kad galėtumėte numatyti atitinkamą informaciją naujiems objektams.
Grįžkime prie mūsų pavyzdžio. Akiai atrodo, kad du parametrai yra kažkaip tarpusavyje susiję: ką mažiau žmonių miegojo, tuo daugiau kavos išgers kitą dieną. Tuo pačiu turime ir iš šios tendencijos išsiskiriantį pavyzdį – Poliną, kuri mėgsta miegoti ir gerti kavą. Nepaisant to, galite pabandyti apytiksliai apytiksliai apskaičiuoti gautą modelį naudodami bendrą tiesią liniją, kad ji kuo arčiau priartėtų prie visų taškų:
Žalia linija yra mūsų mašininio mokymosi modelis, ji apibendrina duomenis ir gali būti aprašyta matematiškai. Dabar jo pagalba galime nustatyti vertes naujiems objektams: kai norime nuspėti, kiek kavos šiandien išgers į biurą įėjęs Nikita, paklausime, kiek miegojo. Kaip atsakymą gavę 7,5 valandos reikšmę, ją pakeičiame į modelį - tai atitinka kiek mažesnio nei 300 ml tūrio kavos kiekį. Raudonas taškas reiškia mūsų prognozę.
Maždaug taip veikia mašininis mokymasis, kurio idėja labai paprasta: suraskite modelį ir išplėskite jį į naujus duomenis. Tiesą sakant, mašininiame mokyme yra kita užduočių klasė, kai nereikia numatyti kai kurių reikšmių, kaip mūsų pavyzdyje, o suskirstyti duomenis į tam tikras grupes. Bet apie tai plačiau pakalbėsime kitą kartą.
Tačiau, mano nuomone, duomenų mokslas nesibaigia duomenų modelių nustatymu. Bet koks duomenų mokslo projektas yra taikomasis tyrimas, kuriame svarbu nepamiršti tokių dalykų kaip hipotezės iškėlimas, eksperimento planavimas ir, žinoma, rezultato bei jo tinkamumo konkrečiam atvejui spręsti įvertinimas.
Pastarasis yra labai svarbus realiose verslo problemose, kai reikia suprasti, ar duomenų mokslo rastas sprendimas bus naudingas jūsų projektui, ar ne. Kuo būtų naudingas mūsų pavyzdyje sukonstruotas modelis? Galbūt su jo pagalba galėtume optimizuoti kavos pristatymą į biurą. Kartu turime įvertinti rizikas ir nustatyti, ar mūsų modelis su tuo susidorotų geriau nei esamas sprendimas – biuro vadovas Michailas, atsakingas už produkto įsigijimą.
Žinoma, mūsų pavyzdys yra kiek įmanoma supaprastintas. Realiai būtų galima sukurti sudėtingesnį modelį, kuriame būtų atsižvelgta į kai kuriuos kitus veiksnius, pavyzdžiui, ar žmogui iš principo patinka kava. Arba modelis gali rasti ryšius, kurie yra sudėtingesni nei tie, kurie pavaizduoti tiesia linija.
Pirmiausia galėtume ieškoti savo duomenų nukrypimų – objektų, kurie, kaip ir Polina, labai skiriasi nuo daugelio kitų. Faktas yra tas, kad realiame darbe tokie pavyzdžiai gali turėti neigiamos įtakos modelio kūrimo procesui ir jo kokybei, todėl tikslinga juos apdoroti kitaip. Ir kartais tokie objektai yra ypač svarbūs, pavyzdžiui, siekiant aptikti neįprastas banko operacijas, kad būtų išvengta sukčiavimo.
Be to, Polina mums parodo dar vieną svarbią idėją – mašininio mokymosi algoritmų netobulumą. Mūsų modelis žmogui, kuris miegojo 10 valandų, prognozuoja tik 100 ml kavos, o iš tikrųjų Polina išgėrė net 500. Duomenų mokslo sprendimų klientai tuo niekada nepatikės, tačiau išmokyti aparato tobulai viską numatyti vis tiek neįmanoma. pasaulyje : Kad ir kaip gerai identifikuotume duomenų šablonus, visada bus nenuspėjamų elementų.
Taigi duomenų mokslas yra duomenų apdorojimo ir analizės metodų rinkinys bei jų pritaikymas sprendžiant praktines problemas. Tuo pačiu metu jūs turite suprasti, kad kiekvienas specialistas turi savo požiūrį į šią sritį ir nuomonės gali skirtis.
Duomenų mokslas remiasi gana paprastomis idėjomis, tačiau praktikoje dažnai atrandama daug neakivaizdžių subtilybių. Kaip duomenų mokslas mus supa Kasdienybė, kokie duomenų analizės metodai egzistuoja, iš ko susideda duomenų mokslo komanda ir kokie sunkumai gali kilti tyrimo procese – apie tai kalbėsime tolesniuose straipsniuose.
Tęsiame eilę analitinių įgūdžių paklausos darbo rinkoje tyrimų. Šį kartą Pavelo Surmenoko sharky dėka pažvelgsime į naują profesiją – duomenų mokslininką.
Pastaraisiais metais terminas duomenų mokslas pradėjo populiarėti. Apie tai jie daug rašo ir kalba konferencijose. Kai kurios įmonės netgi samdo žmones į pareigas skambiu duomenų mokslininko pavadinimu. Kas yra duomenų mokslas? O kas yra duomenų mokslininkai?
Robertas Changas, duomenų mokslininkas iš Twitter, savo profesijos atstovus suskirsto į 2 grupes: A tipo duomenų mokslininkas v.s. B tipo duomenų mokslininkas.
A tipas, kur A yra analizė. Šie žmonės dažniausiai užsiima prasmės ištraukimu iš statinių duomenų. Jie labai panašūs į statistiką, netgi gali būti statistais ir tiesiog pakeisti pareigų pavadinimą į duomenų mokslininką, o, kaip žinome, vien tik pareigų pavadinimo pakeitimas gali gerokai padidinti atlyginimą, taip pat garbę ir pagarbą. Tačiau be statistikos jie išmano ir praktinius aspektus: kaip išvalyti duomenis, kaip dirbti su dideliais duomenų rinkiniais, kaip vizualizuoti duomenis ir aprašyti savo darbo rezultatus.
B tipas, kur B – pastatas. Jie taip pat turi žinių apie statistiką, tačiau taip pat yra stiprūs ir patyrę programuotojai. Jie labiau domisi duomenų pritaikymu realioms sistemoms. Dažnai kuriami modeliai, veikiantys sąveikaujant su vartotojais, pavyzdžiui, produktų, filmų ir reklamos rekomendacijų sistemos.
Duomenų mokslas taip pat šiek tiek persidengia su tokiomis veiklos sritimis kaip mašininis mokymasis ir dirbtinis intelektas, šios srities atstovai artimi B tipo duomenų mokslui.
Ką turėtų studijuoti norintys tapti duomenų mokslininku, kokių įgūdžių reikia? Pažiūrėkime, kokius reikalavimus Amerikos darbdaviai kėlė kandidatams į pareigas duomenų mokslo ir mašininio mokymosi srityse.
Kaip matote iš reitingo, populiariausios yra pagrindinės matematikos, statistikos, kompiuterių mokslo ir mašininio mokymosi žinios. Be teorinių žinių, duomenų mokslininkas turi mokėti išgauti, išvalyti, modeliuoti ir vizualizuoti duomenis. Taip pat svarbi tobulėjimo patirtis programinė įranga ir kokybės valdymas.
R yra specializuota programavimo kalba, skirta statistiniam skaičiavimui, todėl ją taip mėgsta statistikai ir duomenų mokslininkai. Tai leidžia greitai įkelti duomenų rinkinį, apskaičiuoti pagrindines statistines charakteristikas, vizualizuoti duomenis ir kurti duomenų modelius.
„Python“, nors ir yra bendrosios paskirties programavimo kalba, turi daugybę kokybiškų duomenų mokslo ir mašininio mokymosi bibliotekų ir sistemų.
Pažymėtina tai, kad 39% laisvų darbo vietų reikalauja R ir Python žinių tuo pačiu metu, todėl geriau mokytis abiejų kalbų iš karto, o ne bandyti pasirinkti vieną iš jų.
Norėdami dirbti su dideliais duomenimis, darbdaviai nori naudoti „Hadoop“ ir „Spark“. Populiarios duomenų bazės apima MySQL ir MongoDB.
Tačiau iš minėtų įgūdžių, su kuriais susiduriama, svarbiausi yra šie: gebėjimas bendrauti, vizualizuoti duomenis, rengti pristatymus, efektyviai rašyti ir kalbėti. Taip pat praverčia komandinio darbo, valdymo ir problemų sprendimo įgūdžiai.
Nors kai kurie modeliai atrodo įdomūs. Pavyzdžiui, jei laisvai darbo vietai reikia Python arba C++ žinių, tai mažai tikėtina, kad tam prireiks bendravimo ir valdymo įgūdžių, ir atvirkščiai.
Jei esate labiau linkęs į duomenų analizę, tada geras variantas yra duomenų mokslo specializacijos kursai „Coursera: Launch Your Career in Data Science“. Specializacija nėra nemokama, tačiau jei sertifikato jums nereikia, visus šiuos kursus galite lankyti nemokamai: tiesiog pažiūrėkite kurso pavadinimą ir kursą rasite naudodami paiešką.
Tiems, kurie domisi mašininiu mokymusi, rekomenduojame Andrew Ng, Baidu tyrimų vyriausiojo mokslininko, kuris yra neakivaizdinis dėstytojas Stanforde ir Coursera: Computer Learning įkūrėjas, kursą.
Duomenų mokslininkas- didelių duomenų, vadinamųjų „didžiųjų duomenų“ apdorojimo, analizės ir saugojimo specialistas. Profesija tinka tiems, kurie domisi fizika, matematika ir informatika (žr. Profesijos pasirinkimas pagal domėjimąsi mokykliniais dalykais).
Duomenų mokslas – duomenų mokslas skirtingų disciplinų sankirtoje: matematika ir statistika; Informatika ir informatika; verslas ir ekonomika.
(S. Maltseva, V. Kornilovo nacionalinis mokslo universitetas „Aukštoji ekonomikos mokykla“)
Profesija nauja, aktuali ir... Pats terminas „Big Data“ pasirodė 2008 m. O Duomenų mokslininko profesija – „Duomenų mokslininkas“ buvo oficialiai įregistruota kaip akademinė ir tarpdisciplininė disciplina 2010 m. pradžioje. Nors pirmą kartą terminas „duomenų mokslas“ buvo paminėtas Peterio Nauro knygoje 1974 m., tačiau kitoje. kontekste.
Tokios profesijos atsiradimo poreikį lėmė tai, kad kalbant apie Ultra Big Data duomenų masyvai pasirodo per dideli, kad juos būtų galima apdoroti standartinėmis matematinės statistikos priemonėmis. Kasdien tūkstančiai petabaitų (10 15 baitų = 1024 terabaitai) informacijos praeina per viso pasaulio įmonių serverius. Be tokio duomenų kiekio, problemą apsunkina jų nevienalytiškumas ir didelis atnaujinimo greitis.
Duomenų masyvai skirstomi į 3 tipus:
struktūrizuota (pavyzdžiui, kasos aparatų duomenys prekyboje);
pusiau struktūrizuotas (El. pašto žinutės);
nestruktūruoti (vaizdo failai, vaizdai, nuotraukos).
Dauguma didelių duomenų yra nestruktūrizuoti, todėl juos apdoroti daug sunkiau.
Individualiai statistikas, sistemų analitikas ar verslo analitikas negali išspręsti problemų su tokiais duomenų kiekiais. Tam reikalingas tarpdalykinį išsilavinimą turintis žmogus, kompetentingas matematikos ir statistikos, ekonomikos ir verslo, informatikos ir kompiuterių technologijų srityse.
Pagrindinė Duomenų mokslininko užduotis – gebėjimas išgauti reikiamą informaciją iš įvairiausių šaltinių, naudojant informacijos srautus realiu laiku; nustatyti paslėptus šablonus duomenų rinkiniuose ir statistiškai juos analizuoti, kad galėtumėte priimti protingus verslo sprendimus. Tokio specialisto darbo vieta yra ne 1 kompiuteris ar net 1 serveris, o serverių klasteris.
Dirbdamas su duomenimis duomenų mokslininkas naudoja įvairius metodus:
Duomenų mokslininko darbo pareigos priklauso nuo jo veiklos srities, tačiau bendras funkcijų sąrašas yra toks:
Duomenų mokslininkas, kaip ir tikras mokslininkas, ne tik renka ir analizuoja duomenis, bet ir tiria juos įvairiais kontekstais bei skirtingais požiūriais, kvestionuodamas bet kokias prielaidas. Svarbiausia duomenų mokslininko savybė – gebėjimas įžvelgti loginius ryšius surinktos informacijos sistemoje ir, remiantis kiekybine analize, kurti efektyvius verslo sprendimus. Šiandieniniame konkurencingame ir greitai kintančiame pasaulyje, nuolat augančiame informacijos sraute, duomenų mokslininkas yra būtinas vadovybei priimant teisingus verslo sprendimus.
privalumus
Minusai
Duomenų mokslininkai užima pagrindines pareigas:
Profesinės žinios ir įgūdžiai:
Kaip ir bet kurioje profesijoje, čia svarbi saviugda, kuriai neabejotinai bus naudingi tokie ištekliai kaip:
Rusija 50 000–200 000 ₽
Maskva 60 000–300 000 ₽
Duomenų mokslininko profesija yra viena geriausiai apmokamų. Informacija iš interneto svetainės hh.ru – mėnesinis atlyginimas svyruoja nuo 8,5 iki 9 tūkstančių JAV dolerių per metus tokio specialisto atlyginimas siekia 110 tūkstančių – 140 tūkstančių dolerių.
Tyrimų centro „Superjob“ apklausos duomenimis, „Data Scientist“ specialistų atlyginimas priklauso nuo darbo patirties, pareigų apimties ir regiono. Naujokas specialistas gali tikėtis 70 tūkstančių rublių. Maskvoje ir 57 tūkst. Sankt Peterburge. Turint iki 3 metų darbo patirtį, atlyginimas padidėja iki 110 tūkstančių rublių. Maskvoje ir 90 tūkstančių rublių. Sankt Peterburge. Patyrusiems specialistams, turintiems mokslines publikacijas, atlyginimas gali siekti 220 tūkstančių rublių. Maskvoje ir 180 tūkstančių rublių. Sankt Peterburge.
Duomenų mokslininko profesija savaime yra aukštas pasiekimas, reikalaujantis rimtų teorinių žinių ir kelių profesijų praktinės patirties. Bet kurioje organizacijoje toks specialistas yra pagrindinė figūra. Norint pasiekti šį aukštį, reikia daug ir kryptingai dirbti bei nuolat tobulėti visose srityse, kurios sudaro profesijos pagrindą.
Yra pokštas apie duomenų mokslininką: jis yra generalistas, kuris programuoja geriau nei bet kuris statistas ir išmano statistiką geriau nei bet kuris programuotojas. O verslo procesus jis supranta geriau nei įmonės vadovas.
KAS NUTIKO "DIDELIS DUOMENYS„realiais skaičiais?
Nepaisant tokių teigiamų augimo rodiklių, prognozėse pasitaiko ir klaidų. Pavyzdžiui, viena žinomiausių 2016 metų klaidų: prognozės dėl JAV prezidento rinkimų nepasitvirtino. Prognozes Hillary Clinton naudai pateikė garsūs JAV duomenų mokslininkai Nate'as Silveris, Kirkas Bourne'as ir Billas Schmarzo. Ankstesnėse rinkimų kampanijose jie teikė tikslias prognozes ir niekada neklydo.
Pavyzdžiui, šiemet Nate'as Silveris davė tiksli prognozė 41 valstijai, tačiau 9 valstijose jis klydo, o tai lėmė D. Trumpo pergalę. Išanalizavę 2016 m. klaidų priežastis, jie padarė išvadą, kad:
Apskritai prognozė pasirodė klaidinga dėl nedidelio atotrūkio tarp kandidatų. Esant dideliam atotrūkiui, šios klaidos nebūtų tokios lemiamos.