namai » Mokslas » Duomenų mokslininkas (didelių duomenų apdorojimo, analizės ir saugojimo specialistas). Kas yra duomenų mokslas ir kaip jis veikia?  Kas yra duomenų mokslas

Duomenų mokslininkas (didelių duomenų apdorojimo, analizės ir saugojimo specialistas). Kas yra duomenų mokslas ir kaip jis veikia?  Kas yra duomenų mokslas

Ar jau seniai norėjote išsiaiškinti, kaip tapti duomenų analitiku, studijuoti duomenų mokslą, bet nežinojote, nuo ko pradėti? Tada šis straipsnis skirtas jums.

Kas iš mūsų nėra girdėjęs apie „didžiuosius duomenis“? Mažai tikėtina, kad bus bent vienas. IN pastaraisiais metais Susidomėjimas darbu su duomenimis labai išaugo, nes didelėms IT įmonėms reikia pateikti vis daugiau naujų sprendimų analizuoti, apdoroti ir vėliau naudoti duomenis. Kai kurie net paleidžia mokymosi programas kartu su universitetais. Tačiau dauguma žmonių nesupranta, kokie žmonės yra duomenų analitikai. Jei esate vienas iš tokių žmonių ir norite tapti duomenų analitiku, šis straipsnis skirtas jums. Mes pasirinkome tik nemokamas mokymo priemones, kurias galite naudoti nepriklausomai nuo jūsų buvimo vietos.

Ką daro duomenų analitikai?

Vadinamieji duomenų analitikai užsiima jos informacija ir analize, kad gautų vaizdinius, žmogaus suvokiamus rezultatus. Tokie žmonės dažniausiai yra didelių duomenų, duomenų gavybos, mašininio mokymosi, sistemų analizės specialistai ir verslo analitikai.

Ką žiūrėti

Paskaitos „Duomenų analizės mokykla“ iš „Yandex

SHAD – duomenų analizės kursai iš Yandex darbuotojų. Įeiti ten gana sunku, stojantiesiems minimalus reikalavimas yra pagrindinės aukštesnės algebros dalys,matematinė analizė, kombinatorika, tikimybių teorija, taip pat programavimo pagrindai. Laimei, kursai yra įrašyti, kad visi galėtų mokytis iš vaizdo paskaitų.

Mašininio mokymosi kursas

Kurse mokoma taikyti tikimybių teoriją ir statistiką, kalbama apie mašininio mokymosi pagrindus, mokoma kurti algoritmus.

Kursas „Paieškos duomenų algoritmai ir struktūros“

Paskaitos apima algoritmus ieškant ir rūšiuojant didelius duomenų kiekius, algoritmus ir manipuliavimą eilutėmis, grafų teorinius algoritmus, duomenų struktūrų konstravimą ir analizę.

Kursas "Lygiagretusis ir paskirstytasis skaičiavimas"

Tiems, kurie jau seniai norėjo susipažinti su kelių gijų ir lygiagrečiu programavimu, taip pat MapReduce.

Kursas „Diskretinė analizė ir tikimybių teorija“

Kurso metu nagrinėjamos pagrindinės kombinatorinės, diskretinės ir asimptotinės analizės, tikimybių teorijos, statistikos sąvokos ir metodai, taip pat demonstruojamas jų pritaikymas.

Kursas „Skaičiavimo sudėtingumas“

Peržiūrėję kursą sužinosite apie tikimybinio sudėtingumo klases ir pagrindinius duomenų analizės ir konstravimo būdus.

Paskaitos Technostream Mail.ru Group

Kursų programos skirtos kelių Maskvos universitetų studentams, tačiau yra prieinamos visiems. Būsimiems analitikams rekomenduojame šiuos paskaitų rinkinius:

Paskaitos Big Data universitete

Big Data University yra internetinis kursas, sukurtas kartu su IBM pradedantiesiems ir žmonėms, neturintiems matematinio išsilavinimo. Paskaitos, padedančios susipažinti su darbo su duomenimis pagrindais, įrašomos aiškia anglų kalba.

Welch laboratorijos

Šiame kanale yra paskaitos apie matematiką, informatiką, programavimą ir mašininį mokymąsi. Proceso metu pateikiami tiriamų dalykų taikymo pavyzdžiai Tikras gyvenimas. Paskaitos vyksta anglų kalba, tačiau yra puikūs rusiški subtitrai.

gerai" Mokymasis iš struktūrinių duomenų: įvadas į tikimybinius grafinius modeliusNacionalinio mokslo universiteto Aukštosios ekonomikos mokyklos Informatikos fakultetas

Kursas yra orientuotas į nuodugnų įvadą į teoriją ir vieno iš populiariausių šiandienos tokių problemų sprendimo metodų – diskrečių tikimybinių grafinių modelių – taikymą. Kursų kalba – anglų.

Kanalo siuntimas

Kanalas yra visiškai skirtas darbui su duomenimis. Be to, naudingų dalykų sau ras ne tik tie, kurie domisi matematika. Yra vaizdo įrašų apie analizę ir programavimą, skirtą finansų analitikams ir robotams naudojant Rasperri Pi.

Siraj Raval kanalas

Vaikinas kalba apie šiuolaikinės technologijos ir kaip su jais dirbti. Gilaus mokymosi, duomenų mokslo ir mašininio mokymosi kursai padės išmokti dirbti su duomenimis.

Duomenų mokyklos kanalas

Jei ką nors girdėjote apie mašininį mokymąsi, bet jau domitės, šis kanalas kaip tik jums. Autorius suprantamai pateikdamas pavyzdžius paaiškins, kas tai yra, kaip tai veikia ir kur naudojama.

Kur praktikuotis

Tiems, kurie nėra tikri, kad yra pasirengę mokytis visiškai savarankiškai, žiūrėdami paskaitas, yra internetiniai kursai su užduotimis su patikrinimu.

Duomenų mokslo kursai „Coursera“.

Nereikia aiškinti, kokia tai platforma. Reikia pasirinkti kursą ir pradėti studijuoti.

Stepik.org

Duomenų analizė R

Pirmoje dalyje aprašomi visi pagrindiniai R statistinės analizės žingsniai, duomenų skaitymas, išankstinis duomenų apdorojimas, pagrindinių statistinių metodų taikymas ir rezultatų vizualizavimas. Mokiniai išmoks pagrindinius programavimo elementus R kalba, kurie leis greitai ir efektyviai išspręsti įvairiausias problemas, kylančias apdorojant duomenis.

Antroji dalis apima keletą išplėstinių temų, kurios nebuvo aptartos pirmojoje: išankstinis duomenų apdorojimas naudojant data.table ir dplyr paketus, pažangūs vizualizacijos metodai, darbas R Markdown.

Įvadas į duomenų bazes

Pasinerkite į DBVS

Kursas skirtas tiems, kurie turi patirties su reliacinių DBVS ir nori daugiau sužinoti, kaip jos veikia. Kursas apima:

  • duomenų bazės schemos projektavimas;
  • Sandorių valdymas;
  • užklausų optimizavimas;
  • naujos reliacinės DBVS funkcijos

Hadoop. Sistema, skirta apdoroti didelius duomenų kiekius

Kursas skirtas didelių duomenų kiekių apdorojimo metodams naudojant Hadoop sistemą. Baigę kursą įgysite pagrindinių didelių duomenų saugojimo ir apdorojimo metodų, suprasite paskirstytų sistemų principus Hadoop karkaso kontekste bei įgysite praktinių programų kūrimo įgūdžių naudodami MapReduce programavimo modelį.

IT pasaulyje yra įvairių krypčių. Vieni dalyvauja administravime, kiti – kūrime ar testavimuose. Kuriami kursai, skirti ruošti sistemų administratorius, programuotojus, testuotojus. Šiame straipsnyje bus nagrinėjama speciali programa „Data Scientist“, skirta specialiai kūrėjams, analitikams ir produktų vadybininkams.

Kas yra duomenų mokslininkas ar duomenų specialistas?

Yra daug mitų, susijusių su duomenų mokslininko profesija, ir daugelis žmonių nelabai supranta, kas tai yra. Kai kas mano, kad duomenų mokslininkas ar duomenų analitikas yra kažkas panašaus į programuotoją (pagal principą: jei moki programuoti, vadinasi, moki dirbti su duomenimis), kai kas šią profesiją laiko panašia į duomenų bazės administratorių, o kai kurie net nežino, kas tai yra.

Žvelgiant į ateitį, iš karto reikia pastebėti, kad duomenų analitikas nėra programuotojas ir tikrai ne duomenų bazės administratorius, nors iš jo reikalaujama turėti programavimo įgūdžių.

Duomenų mokslininkas yra specialistas, turintis tris įgūdžių grupes:

  • matematika ir statistika;
  • IT įgūdžiai, įskaitant programavimą;
  • verslo procesų tam tikroje srityje supratimas.

Atviros darbo vietos ne visada vadinamos „Data Scientist“. Labai dažnai yra pasirinkimų: programuotojas-analitikas, Big Data analitikas, sistemų analizės vadovas, Big Data architektas, verslo analitikas ir kt.
Kai kurios duomenų mokslininko pareigos apima:

  • rinkti didelius duomenų kiekius ir perkelti juos į patogų formatą;
  • programavimas Python, R, SAS kalbomis;
  • verslo problemų sprendimas naudojant duomenų apdorojimo metodus;
  • paslėptų ryšių ir šablonų paieška duomenyse;
  • atliekant statistinius testus.

Duomenų specialistas turi suprasti savo organizacijos verslo poreikius ir įvaldyti analizės įrankius: mašininį mokymąsi ir teksto analizę.
Konsultacijų bendrovės „McKinsey Global Institute“ duomenimis, jau m kitais metais JAV (tik JAV, ne visame pasaulyje!) reikės visos armijos duomenų specialistų - nuo 140 iki 190 tūkst.

Kiek uždirba duomenų mokslininkas?

JAV vidutinis duomenų mokslininko atlyginimas viršija 138 000 USD per metus. Rusijoje galite gauti 120 tūkstančių rublių atlyginimą per mėnesį (daugiau nei 26 tūkstančius dolerių per metus).

Jei lygintume su paprasto programuotojo profesija, tai JAV vidutinis programuotojo atlyginimas siekia 65–80 tūkstančių dolerių per metus, o Rusijoje – 60 tūkstančių rublių per mėnesį arba 13 tūkstančių dolerių per metus.

Bet kokiu atveju, tapęs duomenų mokslininku, gali uždirbti daugiau nei programuotojas.

Kaip matote, duomenų mokslininkas yra labai perspektyvi profesija. Pirma, jo atlyginimas yra didesnis nei paprasto programuotojo. Antra, duomenų specialistų nėra daug ir rinkoje jaučiamas specialistų trūkumas ne tik Rusijoje, bet ir visame pasaulyje.

Universitete galite įgyti duomenų mokslininko profesiją, skirtą specialistų ruošimui ir papildomam mokymui ".

Ką suteikia duomenų mokslininko mokymo kursas?

INFORMACIJA

  • Mokymosi mėnesiai: 5
  • Valandos per savaitę: 9
  • Ekspertai: 13
  • Praktikos valandos: 100+

Reikalavimai studentams

Studentai turi mokėti bent vieną programavimo kalbą pradiniu lygiu (pageidautina Python).
Mokiniai turėtų išmanyti aukštosios mokyklos matematiką: funkcijas, išvestines, vektorinę ir matricinę algebrą, trigonometriją.

Mokymo kursai

Jei neturite reikiamų žinių, tuomet specialiai jums yra skirtas nemokamas parengiamieji kursai, kurie atsidarys iškart sumokėjus už pagrindinį patiekalą. Kursą sudaro 11 paskaitų vaizdo įrašų ir joms skirtų namų darbų. Jis kalbės apie kilpas, duomenų tipus, funkcijas, išmokys dirbti su HTTP užklausomis, skirtingus duomenų formatus ir dar daugiau.

Kokia kaina

Bazinė kaina yra 180 000 rublių, tačiau iki birželio 15 d. mokymų kaina sumažinta iki 165 000 rublių. Šiuo atveju 6 mėnesiams suteikiamos įmokos be palūkanų, tai yra, mokymo kaina yra 27 500 rublių per mėnesį.

Koks rezultatas?

Studentui išduodamas valstybinis profesinio perkvalifikavimo diplomas pagal specialybę „Duomenų analitikas / mašininio mokymosi specialistas“. Su juo galite pretenduoti į „Duomenų analitiko“, „Big Data Developer“ pareigas, kurių atlyginimas yra 120 tūkstančių rublių per mėnesį.

Atkreipkite dėmesį, kad baigus mokymus jums išduodamas ne koks „pažymėjimas“, o valstybės išduotas diplomas.


Duomenų mokslas, mašininis mokymasis – tikriausiai girdėjote šiuos didelius žodžius, tačiau ar jie buvo jums aiškūs? Kai kuriems tai gražūs masalai. Kai kurie žmonės mano, kad duomenų mokslas yra magija, kuri privers mašiną padaryti viską, kas užsakyta nemokamai. Kiti netgi tiki, kad taip yra lengvas kelias uždirbti didžiulius pinigus. Nikita Nikitinsky, IRELA tyrimų ir plėtros vadovas, ir Polina Kazakova, duomenų mokslininkė, paprasta ir suprantama kalba paaiškina, kas tai yra.

Dirbu su automatiniu natūralios kalbos apdorojimu, duomenų mokslo taikymu, ir dažnai matau, kad žmonės neteisingai vartoja šiuos terminus, todėl norėjau šiek tiek patikslinti. Šis straipsnis skirtas tiems, kurie mažai supranta, kas yra duomenų mokslas, ir nori suprasti sąvokas.

Apibrėžkime terminologiją

Pradėkime nuo to, kad niekas tiksliai nežino, kas yra duomenų mokslas, o griežto apibrėžimo nėra – tai labai plati ir tarpdisciplininė sąvoka. Todėl čia pasidalinsiu savo vizija, kuri nebūtinai sutampa su kitų nuomone.

Terminas duomenų mokslas į rusų kalbą išverstas kaip „duomenų mokslas“, o profesinėje aplinkoje jis dažnai tiesiog transliteruojamas kaip „duomenų mokslas“. Formaliai tai yra kai kurių tarpusavyje susijusių disciplinų ir metodų rinkinys iš kompiuterių mokslo ir matematikos srities. Skamba per daug abstrakčiai, tiesa? Išsiaiškinkime.

Pirma dalis: duomenys

Pirmasis duomenų mokslo komponentas, be kurio neįmanomas visas tolesnis procesas, iš tikrųjų yra patys duomenys: kaip juos rinkti, saugoti ir apdoroti, taip pat kaip iš bendro duomenų masyvo išgauti naudingą informaciją. Tai yra duomenų išvalymas ir pateikimas tinkamas tipas specialistai skiria iki 80% savo darbo laiko.

Svarbi šio punkto dalis yra tai, kaip tvarkyti duomenis, kuriems standartiniai saugojimo ir apdorojimo metodai netinka dėl didžiulės apimties ir (arba) įvairovės – vadinamieji dideli duomenys. Beje, nesileiskite supainioti: dideli duomenys ir duomenų mokslas nėra sinonimai: greičiau pirmasis yra antrojo poskyris. Tuo pačiu metu duomenų analitikai praktiškai ne visada turi dirbti su dideliais duomenimis – smulkūs duomenys taip pat gali būti naudingi.

Surinkime duomenis

Įsivaizduokite, kad mus domina, ar yra koks nors ryšys tarp to, kiek kavos išgeria jūsų kolegos per dieną ir kiek miegojo prieš tai. Užsirašykite mums turimą informaciją: tarkime, jūsų kolega Gregory šiandien miegojo 4 valandas, todėl turėjo išgerti 3 puodelius kavos; Ellina miegojo 9 valandas ir visiškai negėrė kavos; o Polina miegojo visas 10 valandų, bet išgėrė 2,5 puodelio kavos – ir t.t.

Gautus duomenis parodykime grafike (vizualizacija taip pat yra svarbus bet kurio duomenų mokslo projekto elementas). X ašyje pavaizduokime laiką valandomis, o Y ašyje kavą mililitrais. Gausime kažką panašaus:

Antroji dalis: mokslas

Turime duomenų, ką dabar su jais daryti? Teisingai, analizuokite, ištraukite naudingus modelius ir kažkaip juos naudokite. Čia mums padės tokios disciplinos kaip statistika, mašininis mokymasis ir optimizavimas.

Jie sudaro kitą ir bene svarbiausią duomenų mokslo komponentą – duomenų analizę. Mašininis mokymasis leidžia rasti esamų duomenų šablonus, kad galėtumėte numatyti atitinkamą informaciją naujiems objektams.

Išanalizuokime duomenis

Grįžkime prie mūsų pavyzdžio. Akiai atrodo, kad du parametrai yra kažkaip tarpusavyje susiję: ką mažiau žmonių miegojo, tuo daugiau kavos išgers kitą dieną. Tuo pačiu turime ir iš šios tendencijos išsiskiriantį pavyzdį – Poliną, kuri mėgsta miegoti ir gerti kavą. Nepaisant to, galite pabandyti apytiksliai apytiksliai apskaičiuoti gautą modelį naudodami bendrą tiesią liniją, kad ji kuo arčiau priartėtų prie visų taškų:

Žalia linija yra mūsų mašininio mokymosi modelis, ji apibendrina duomenis ir gali būti aprašyta matematiškai. Dabar jo pagalba galime nustatyti vertes naujiems objektams: kai norime nuspėti, kiek kavos šiandien išgers į biurą įėjęs Nikita, paklausime, kiek miegojo. Kaip atsakymą gavę 7,5 valandos reikšmę, ją pakeičiame į modelį - tai atitinka kiek mažesnio nei 300 ml tūrio kavos kiekį. Raudonas taškas reiškia mūsų prognozę.

Maždaug taip veikia mašininis mokymasis, kurio idėja labai paprasta: suraskite modelį ir išplėskite jį į naujus duomenis. Tiesą sakant, mašininiame mokyme yra kita užduočių klasė, kai nereikia numatyti kai kurių reikšmių, kaip mūsų pavyzdyje, o suskirstyti duomenis į tam tikras grupes. Bet apie tai plačiau pakalbėsime kitą kartą.

Taikykime rezultatą

Tačiau, mano nuomone, duomenų mokslas nesibaigia duomenų modelių nustatymu. Bet koks duomenų mokslo projektas yra taikomasis tyrimas, kuriame svarbu nepamiršti tokių dalykų kaip hipotezės iškėlimas, eksperimento planavimas ir, žinoma, rezultato bei jo tinkamumo konkrečiam atvejui spręsti įvertinimas.

Pastarasis yra labai svarbus realiose verslo problemose, kai reikia suprasti, ar duomenų mokslo rastas sprendimas bus naudingas jūsų projektui, ar ne. Kuo būtų naudingas mūsų pavyzdyje sukonstruotas modelis? Galbūt su jo pagalba galėtume optimizuoti kavos pristatymą į biurą. Kartu turime įvertinti rizikas ir nustatyti, ar mūsų modelis su tuo susidorotų geriau nei esamas sprendimas – biuro vadovas Michailas, atsakingas už produkto įsigijimą.

Raskime išimčių

Žinoma, mūsų pavyzdys yra kiek įmanoma supaprastintas. Realiai būtų galima sukurti sudėtingesnį modelį, kuriame būtų atsižvelgta į kai kuriuos kitus veiksnius, pavyzdžiui, ar žmogui iš principo patinka kava. Arba modelis gali rasti ryšius, kurie yra sudėtingesni nei tie, kurie pavaizduoti tiesia linija.

Pirmiausia galėtume ieškoti savo duomenų nukrypimų – objektų, kurie, kaip ir Polina, labai skiriasi nuo daugelio kitų. Faktas yra tas, kad realiame darbe tokie pavyzdžiai gali turėti neigiamos įtakos modelio kūrimo procesui ir jo kokybei, todėl tikslinga juos apdoroti kitaip. Ir kartais tokie objektai yra ypač svarbūs, pavyzdžiui, siekiant aptikti neįprastas banko operacijas, kad būtų išvengta sukčiavimo.

Be to, Polina mums parodo dar vieną svarbią idėją – mašininio mokymosi algoritmų netobulumą. Mūsų modelis žmogui, kuris miegojo 10 valandų, prognozuoja tik 100 ml kavos, o iš tikrųjų Polina išgėrė net 500. Duomenų mokslo sprendimų klientai tuo niekada nepatikės, tačiau išmokyti aparato tobulai viską numatyti vis tiek neįmanoma. pasaulyje : Kad ir kaip gerai identifikuotume duomenų šablonus, visada bus nenuspėjamų elementų.

Tęskime pasakojimą

Taigi duomenų mokslas yra duomenų apdorojimo ir analizės metodų rinkinys bei jų pritaikymas sprendžiant praktines problemas. Tuo pačiu metu jūs turite suprasti, kad kiekvienas specialistas turi savo požiūrį į šią sritį ir nuomonės gali skirtis.

Duomenų mokslas remiasi gana paprastomis idėjomis, tačiau praktikoje dažnai atrandama daug neakivaizdžių subtilybių. Kaip duomenų mokslas mus supa Kasdienybė, kokie duomenų analizės metodai egzistuoja, iš ko susideda duomenų mokslo komanda ir kokie sunkumai gali kilti tyrimo procese – apie tai kalbėsime tolesniuose straipsniuose.

Tęsiame eilę analitinių įgūdžių paklausos darbo rinkoje tyrimų. Šį kartą Pavelo Surmenoko sharky dėka pažvelgsime į naują profesiją – duomenų mokslininką.

Pastaraisiais metais terminas duomenų mokslas pradėjo populiarėti. Apie tai jie daug rašo ir kalba konferencijose. Kai kurios įmonės netgi samdo žmones į pareigas skambiu duomenų mokslininko pavadinimu. Kas yra duomenų mokslas? O kas yra duomenų mokslininkai?

Kas yra duomenų mokslininkai?

Jei užduosite šį klausimą San Francisko gyventojui, galite gauti atsakymą, kad duomenų mokslininkas yra statistikas, gyvenantis San Franciske. Juokinga, nors ir nelabai džiuginanti tiems, kurie negyvena San Franciske, tiesa? Gerai, tada kitas apibrėžimas: duomenų mokslininkas yra tas, kuris statistiką supranta geriau nei bet kuris programuotojas, o programavimą supranta geriau nei bet kuris statistikas. Bet šis variantas jau artimas esmei. Data Scientist, duomenų mokslininkas, yra savotiškas statistiko ir programuotojo hibridas. Be to, tiek statistikos specialistai, tiek programuotojai gali būti labai skirtingi, todėl šią profesiją geriau vertinti kaip platų spektrą nuo grynų statistikų iki grynų programuotojų.

Robertas Changas, duomenų mokslininkas iš Twitter, savo profesijos atstovus suskirsto į 2 grupes: A tipo duomenų mokslininkas v.s. B tipo duomenų mokslininkas.

A tipas, kur A yra analizė. Šie žmonės dažniausiai užsiima prasmės ištraukimu iš statinių duomenų. Jie labai panašūs į statistiką, netgi gali būti statistais ir tiesiog pakeisti pareigų pavadinimą į duomenų mokslininką, o, kaip žinome, vien tik pareigų pavadinimo pakeitimas gali gerokai padidinti atlyginimą, taip pat garbę ir pagarbą. Tačiau be statistikos jie išmano ir praktinius aspektus: kaip išvalyti duomenis, kaip dirbti su dideliais duomenų rinkiniais, kaip vizualizuoti duomenis ir aprašyti savo darbo rezultatus.

B tipas, kur B – pastatas. Jie taip pat turi žinių apie statistiką, tačiau taip pat yra stiprūs ir patyrę programuotojai. Jie labiau domisi duomenų pritaikymu realioms sistemoms. Dažnai kuriami modeliai, veikiantys sąveikaujant su vartotojais, pavyzdžiui, produktų, filmų ir reklamos rekomendacijų sistemos.

Duomenų mokslas taip pat šiek tiek persidengia su tokiomis veiklos sritimis kaip mašininis mokymasis ir dirbtinis intelektas, šios srities atstovai artimi B tipo duomenų mokslui.

Ką turėtų studijuoti norintys tapti duomenų mokslininku, kokių įgūdžių reikia? Pažiūrėkime, kokius reikalavimus Amerikos darbdaviai kėlė kandidatams į pareigas duomenų mokslo ir mašininio mokymosi srityse.

Duomenų mokslininko sunkūs įgūdžiai

Pradėkime nuo reikalavimų turėti profesinius įgūdžius (kietus įgūdžius) analizės.

Kaip matote iš reitingo, populiariausios yra pagrindinės matematikos, statistikos, kompiuterių mokslo ir mašininio mokymosi žinios. Be teorinių žinių, duomenų mokslininkas turi mokėti išgauti, išvalyti, modeliuoti ir vizualizuoti duomenis. Taip pat svarbi tobulėjimo patirtis programinė įranga ir kokybės valdymas.

Duomenų mokslo įrankiai ir technologijos

Pagrindiniai duomenų mokslininko įrankiai yra Python ir R programavimo kalbos.

R yra specializuota programavimo kalba, skirta statistiniam skaičiavimui, todėl ją taip mėgsta statistikai ir duomenų mokslininkai. Tai leidžia greitai įkelti duomenų rinkinį, apskaičiuoti pagrindines statistines charakteristikas, vizualizuoti duomenis ir kurti duomenų modelius.

„Python“, nors ir yra bendrosios paskirties programavimo kalba, turi daugybę kokybiškų duomenų mokslo ir mašininio mokymosi bibliotekų ir sistemų.

Pažymėtina tai, kad 39% laisvų darbo vietų reikalauja R ir Python žinių tuo pačiu metu, todėl geriau mokytis abiejų kalbų iš karto, o ne bandyti pasirinkti vieną iš jų.

Norėdami dirbti su dideliais duomenimis, darbdaviai nori naudoti „Hadoop“ ir „Spark“. Populiarios duomenų bazės apima MySQL ir MongoDB.

„Data Scientist“ minkštieji įgūdžiai

Bendrosios kompetencijos (minkštieji įgūdžiai) yra mažiau paklausios, palyginti su profesiniais įgūdžiais, nes jos minimos laisvose darbo vietose mažiau nei perpus rečiau. Vidutinis atlyginimas už laisvas darbo vietas, kuriose reikalingi minkštieji įgūdžiai, taip pat yra žymiai, maždaug 20 %, mažesnis nei tų, kuriose reikalingi kieti įgūdžiai ir technologijų žinios.

Tačiau iš minėtų įgūdžių, su kuriais susiduriama, svarbiausi yra šie: gebėjimas bendrauti, vizualizuoti duomenis, rengti pristatymus, efektyviai rašyti ir kalbėti. Taip pat praverčia komandinio darbo, valdymo ir problemų sprendimo įgūdžiai.

Duomenų mokslininko srities žinios

Kai kuriems darbams reikalingos dalykinės žinios – nuo ​​fizikos ir biologijos iki nekilnojamojo turto ir svetingumo. Čia lyderiai yra ekonomika, rinkodara ir medicina.

Duomenų mokslininkų specializacijos

Prieš pradėdami tyrimą ketinome nustatyti duomenų mokslininko profesijos subspecializacijas. Pavyzdžiui, atskirkite tuos, kurie pirmiausia užsiima duomenų analize ir vizualizavimu, nuo tų, kurie kuria nuspėjamuosius analizės modelius arba mašininio mokymosi algoritmus. Bet, kaip paaiškėjo duomenų analizės metu, daugumos laisvų darbo vietų reikalavimai yra gana homogeniški, nėra aiškaus skirstymo į specialybes.

Nors kai kurie modeliai atrodo įdomūs. Pavyzdžiui, jei laisvai darbo vietai reikia Python arba C++ žinių, tai mažai tikėtina, kad tam prireiks bendravimo ir valdymo įgūdžių, ir atvirkščiai.

Technologijų įtaka darbo užmokesčiui

„O'Reilly 2015“ duomenų mokslo atlyginimų tyrimas suteikia mums kitokį požiūrį į darbo rinką. Šis tyrimas pagrįstas 600 duomenų mokslininkų apklausa, o surinkti duomenys apima atlyginimų lygius, demografinę informaciją ir laiką, kurį duomenų mokslininkai skiria užduotims. įvairių tipų. Pagrindinės šio tyrimo išvados yra šios:
  • SQL, Excel, R, Python yra pagrindiniai įrankiai, ir šis sąrašas nesikeičia jau 3 metus.
  • Spark ir Scala populiarėja.
  • Tų, kurie anksčiau naudojo specializuotas komercines priemones, dėmesys perkeliamas į R.
  • Tačiau tie, kurie anksčiau naudojo R, pereina prie Python, Python pirmauja.
  • Iš visų pramonės šakų atlyginimai programinės įrangos kūrimo srityje yra didžiausi.
  • Debesų kompiuterija ir toliau yra paklausi.
Rekomenduojame perskaityti visą ataskaitą. Be kita ko, jis aprašo matematinį duomenų mokslininko atlyginimo priklausomybės modelį nuo to, kur jis gyvena, kokį išsilavinimą turi ir kokias užduotis dirba. Pavyzdžiui, duomenų mokslininkai, daugiau laiko praleidžiantys susitikimuose, uždirba daugiau. O tie, kurie duomenims tirti skiria daugiau nei 4 valandas per dieną, uždirba mažiau.

Kaip studijuoti duomenų mokslą?

Pastaraisiais metais atsirado daug internetinių kursų šia tema. Ir tai labai geras būdas pradėti!

Jei esate labiau linkęs į duomenų analizę, tada geras variantas yra duomenų mokslo specializacijos kursai „Coursera: Launch Your Career in Data Science“. Specializacija nėra nemokama, tačiau jei sertifikato jums nereikia, visus šiuos kursus galite lankyti nemokamai: tiesiog pažiūrėkite kurso pavadinimą ir kursą rasite naudodami paiešką.

Tiems, kurie domisi mašininiu mokymusi, rekomenduojame Andrew Ng, Baidu tyrimų vyriausiojo mokslininko, kuris yra neakivaizdinis dėstytojas Stanforde ir Coursera: Computer Learning įkūrėjas, kursą.

Kas yra duomenų mokslas?

Duomenų mokslas yra nauja veiklos sritis, todėl reikalavimai Duomenų mokslininkams dar nėra iki galo suformuoti. Atsižvelgiant į mūsų laikų dinamiškumą, gali būti, kad duomenų mokslas niekada netaps savarankiška profesija, kuri bus dėstoma universitetuose, o išliks praktikos ir įgūdžių visuma. Tačiau būtent tokios praktikos ir įgūdžiai bus labai paklausūs ateinančiais metais.

Duomenų mokslininkas- didelių duomenų, vadinamųjų „didžiųjų duomenų“ apdorojimo, analizės ir saugojimo specialistas. Profesija tinka tiems, kurie domisi fizika, matematika ir informatika (žr. Profesijos pasirinkimas pagal domėjimąsi mokykliniais dalykais).

Duomenų mokslas – duomenų mokslas skirtingų disciplinų sankirtoje: matematika ir statistika; Informatika ir informatika; verslas ir ekonomika.

(S. Maltseva, V. Kornilovo nacionalinis mokslo universitetas „Aukštoji ekonomikos mokykla“)

Profesija nauja, aktuali ir... Pats terminas „Big Data“ pasirodė 2008 m. O Duomenų mokslininko profesija – „Duomenų mokslininkas“ buvo oficialiai įregistruota kaip akademinė ir tarpdisciplininė disciplina 2010 m. pradžioje. Nors pirmą kartą terminas „duomenų mokslas“ buvo paminėtas Peterio Nauro knygoje 1974 m., tačiau kitoje. kontekste.

Tokios profesijos atsiradimo poreikį lėmė tai, kad kalbant apie Ultra Big Data duomenų masyvai pasirodo per dideli, kad juos būtų galima apdoroti standartinėmis matematinės statistikos priemonėmis. Kasdien tūkstančiai petabaitų (10 15 baitų = 1024 terabaitai) informacijos praeina per viso pasaulio įmonių serverius. Be tokio duomenų kiekio, problemą apsunkina jų nevienalytiškumas ir didelis atnaujinimo greitis.

Duomenų masyvai skirstomi į 3 tipus:

struktūrizuota (pavyzdžiui, kasos aparatų duomenys prekyboje);

pusiau struktūrizuotas (El. pašto žinutės);

nestruktūruoti (vaizdo failai, vaizdai, nuotraukos).

Dauguma didelių duomenų yra nestruktūrizuoti, todėl juos apdoroti daug sunkiau.

Individualiai statistikas, sistemų analitikas ar verslo analitikas negali išspręsti problemų su tokiais duomenų kiekiais. Tam reikalingas tarpdalykinį išsilavinimą turintis žmogus, kompetentingas matematikos ir statistikos, ekonomikos ir verslo, informatikos ir kompiuterių technologijų srityse.

Pagrindinė Duomenų mokslininko užduotis – gebėjimas išgauti reikiamą informaciją iš įvairiausių šaltinių, naudojant informacijos srautus realiu laiku; nustatyti paslėptus šablonus duomenų rinkiniuose ir statistiškai juos analizuoti, kad galėtumėte priimti protingus verslo sprendimus. Tokio specialisto darbo vieta yra ne 1 kompiuteris ar net 1 serveris, o serverių klasteris.

Profesijos bruožai

Dirbdamas su duomenimis duomenų mokslininkas naudoja įvairius metodus:

  • statistiniai metodai;
  • duomenų bazių modeliavimas;
  • kasybos metodai;
  • programos dirbtinis intelektas darbui su duomenimis;
  • duomenų bazių projektavimo ir tobulinimo metodai.

Duomenų mokslininko darbo pareigos priklauso nuo jo veiklos srities, tačiau bendras funkcijų sąrašas yra toks:

  • duomenų rinkimas iš įvairių šaltinių tolesniam operatyviniam apdorojimui;
  • vartotojų elgsenos analizė;
  • klientų bazės modeliavimas ir produkto personalizavimas;
  • bazės vidinių procesų efektyvumo analizė;
  • įvairių rizikų analizė;
  • galimo sukčiavimo nustatymas tiriant abejotinus sandorius;
  • periodinių ataskaitų su prognozėmis ir duomenų pateikimu rengimas.

Duomenų mokslininkas, kaip ir tikras mokslininkas, ne tik renka ir analizuoja duomenis, bet ir tiria juos įvairiais kontekstais bei skirtingais požiūriais, kvestionuodamas bet kokias prielaidas. Svarbiausia duomenų mokslininko savybė – gebėjimas įžvelgti loginius ryšius surinktos informacijos sistemoje ir, remiantis kiekybine analize, kurti efektyvius verslo sprendimus. Šiandieniniame konkurencingame ir greitai kintančiame pasaulyje, nuolat augančiame informacijos sraute, duomenų mokslininkas yra būtinas vadovybei priimant teisingus verslo sprendimus.

Profesijos pliusai ir minusai

privalumus

  • Profesija ne tik itin paklausi, bet ir labai trūksta tokio lygio specialistų. „McKinsey Global Institute“ duomenimis, iki 2018 metų vien Jungtinėse Valstijose reikės daugiau nei 190 tūkstančių duomenų mokslininkų. Štai kodėl prestižiškiausių universitetų fakultetai, skirti rengti duomenų mokslininkus, yra taip greitai ir plačiai finansuojami ir plėtojami. Duomenų mokslininkų paklausa auga ir Rusijoje.
  • Labai apmokama profesija.
  • Poreikis nuolat tobulėti, neatsilikti nuo IT technologijų plėtros, kurti naujus duomenų apdorojimo, analizės ir saugojimo metodus.

Minusai

  • Ne kiekvienas žmogus gali įvaldyti šią profesiją, tam reikia ypatingo mąstymo.
  • Darbo procese gerai žinomi metodai ir daugiau nei 60% idėjų gali neveikti. Daugelis sprendimų nepavyks, todėl norint pasiekti patenkinamų rezultatų reikia turėti daug kantrybės. Mokslininkas neturi teisės sakyti: „NE! problema. Jis turi rasti būdą, kuris padėtų išspręsti problemą.

Darbo vieta

Duomenų mokslininkai užima pagrindines pareigas:

  • technologinės pramonės šakos (automobilių navigacijos sistemos, vaistų gamyba ir kt.);
  • IT sfera (paieškos sistemų optimizavimas, šiukšlių filtras, naujienų sisteminimas, automatiniai tekstų vertimai ir daug daugiau);
  • medicina (automatinė ligų diagnostika);
  • finansinės struktūros (sprendimų dėl paskolų išdavimo priėmimas) ir kt.;
  • televizijos kompanijos;
  • dideli mažmeninės prekybos tinklai;
  • rinkimų kampanijos.

Svarbios savybės

  • Analitinis protas;
  • sunkus darbas;
  • atkaklumas;
  • skrupulingumas, tikslumas, dėmesingumas;
  • gebėjimas užbaigti tyrimą nepaisant nesėkmingų tarpinių rezultatų;
  • bendravimo įgūdžiai;
  • gebėjimas paprastais žodžiais paaiškinti sudėtingus dalykus;
  • verslo intuicija.

Profesinės žinios ir įgūdžiai:

  • matematikos, matematinės analizės, matematinės statistikos, tikimybių teorijos žinios;
  • anglų kalbos žinios;
  • pagrindinių programavimo kalbų, turinčių komponentų darbui su dideliais duomenų rinkiniais, žinios: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • statistinių priemonių išmanymas - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • išsamios pramonės, kurioje dirba duomenų mokslininkas, išmanymas; jei tai farmacijos pramonė, tuomet būtinos pagrindinių gamybos procesų ir vaistų komponentų išmanymas;
  • Pagrindinis bazinis duomenų mokslininko įgūdis yra didelio duomenų kiekio klasterių saugojimo sistemų organizavimas ir administravimas;
  • verslo plėtros įstatymų išmanymas;
  • ekonominių žinių.

Universitetai

  • Maskvos valstybinis universitetas pavadintas Lomonosovas, Kompiuterinės matematikos ir kibernetikos fakultetas, specialus edukacinė programa Mail.Ru grupė „Technosphere“, mokanti išmanios didelių duomenų kiekių analizės metodų, programuojant C++, daugiasriegiu programavimu ir informacijos paieškos sistemų kūrimo technologijomis.
  • MIPT, Duomenų analizės katedra.
  • Nacionalinio mokslo universiteto aukštosios ekonomikos mokyklos Verslo informatikos fakultete rengiami sistemų analitikai, projektuotojai ir komplekso diegėjai. Informacinės sistemos, įmonių informacinių sistemų valdymo organizatoriai.
  • „Yandex“ duomenų analizės mokykla.
  • Innopolio universitetas, Dandžio universitetas, Pietų Kalifornijos universitetas, Oklando universitetas, Vašingtono universitetas: didžiųjų duomenų magistrantūros programos.
  • Imperial College London Business School, duomenų mokslų ir vadybos magistras.

Kaip ir bet kurioje profesijoje, čia svarbi saviugda, kuriai neabejotinai bus naudingi tokie ištekliai kaip:

  • internetiniai kursai iš pirmaujančių pasaulio universitetų COURSERA;
  • mašininio mokymosi kanalas MASHIN LEARNING;
  • edX kursų pasirinkimas;
  • Udacity kursai;
  • Dataquest kursai, kuriuose galite tapti tikru duomenų mokslo profesionalu;
  • 6 žingsnių Datacamp kursai;
  • O'Reilly mokymo vaizdo įrašai;
  • ekrano transliacijos pradedantiesiems ir pažengusiems duomenų origami;
  • ketvirtinė specialistų konferencija „Moscow Data Scientists Meetup“;
  • duomenų analizės konkursai Kaggle.сcom

Atlyginimas

Atlyginimas 2019-04-07

Rusija 50 000–200 000 ₽

Maskva 60 000–300 000 ₽

Duomenų mokslininko profesija yra viena geriausiai apmokamų. Informacija iš interneto svetainės hh.ru – mėnesinis atlyginimas svyruoja nuo 8,5 iki 9 tūkstančių JAV dolerių per metus tokio specialisto atlyginimas siekia 110 tūkstančių – 140 tūkstančių dolerių.

Tyrimų centro „Superjob“ apklausos duomenimis, „Data Scientist“ specialistų atlyginimas priklauso nuo darbo patirties, pareigų apimties ir regiono. Naujokas specialistas gali tikėtis 70 tūkstančių rublių. Maskvoje ir 57 tūkst. Sankt Peterburge. Turint iki 3 metų darbo patirtį, atlyginimas padidėja iki 110 tūkstančių rublių. Maskvoje ir 90 tūkstančių rublių. Sankt Peterburge. Patyrusiems specialistams, turintiems mokslines publikacijas, atlyginimas gali siekti 220 tūkstančių rublių. Maskvoje ir 180 tūkstančių rublių. Sankt Peterburge.

Karjeros žingsniai ir perspektyvos

Duomenų mokslininko profesija savaime yra aukštas pasiekimas, reikalaujantis rimtų teorinių žinių ir kelių profesijų praktinės patirties. Bet kurioje organizacijoje toks specialistas yra pagrindinė figūra. Norint pasiekti šį aukštį, reikia daug ir kryptingai dirbti bei nuolat tobulėti visose srityse, kurios sudaro profesijos pagrindą.

Yra pokštas apie duomenų mokslininką: jis yra generalistas, kuris programuoja geriau nei bet kuris statistas ir išmano statistiką geriau nei bet kuris programuotojas. O verslo procesus jis supranta geriau nei įmonės vadovas.

KAS NUTIKO "DIDELIS DUOMENYS„realiais skaičiais?

  1. Kas 2 dienas duomenų apimtis didėja informacijos kiekiu, kurį žmonija sukūrė nuo Kristaus gimimo iki 2003 m.
  2. 90 % visų šiandien turimų duomenų atsirado per pastaruosius 2 metus.
  3. Iki 2020 m. informacijos apimtis padidės nuo 3,2 iki 40 zettabaitų. 1 zettabaitas = 10 21 baitas.
  4. Per 1 minutę į feisbuką įkeliama 200 tūkstančių nuotraukų, išsiunčiama 205 milijonai laiškų, patalpinta 1,8 milijono like.
  5. Per 1 sekundę Google apdoroja 40 tūkstančių paieškos užklausų.
  6. Kas 1,2 metų bendras duomenų kiekis kiekvienoje pramonės šakoje padvigubėja.
  7. Iki 2020 metų Hadoop paslaugų rinka išaugs iki 50 mlrd.
  8. Jungtinėse Valstijose 2015 metais buvo sukurta 1,9 mln. darbo vietų specialistams, dirbantiems su „Big Data“ projektais.
  9. „Big Data“ technologijos didina prekybos tinklų pelną 60% per metus.
  10. Remiantis prognozėmis, didžiųjų duomenų rinkos dydis 2020 m. padidės iki 68,7 mlrd. USD, palyginti su 28,5 mlrd. USD 2014 m.

Nepaisant tokių teigiamų augimo rodiklių, prognozėse pasitaiko ir klaidų. Pavyzdžiui, viena žinomiausių 2016 metų klaidų: prognozės dėl JAV prezidento rinkimų nepasitvirtino. Prognozes Hillary Clinton naudai pateikė garsūs JAV duomenų mokslininkai Nate'as Silveris, Kirkas Bourne'as ir Billas Schmarzo. Ankstesnėse rinkimų kampanijose jie teikė tikslias prognozes ir niekada neklydo.

Pavyzdžiui, šiemet Nate'as Silveris davė tiksli prognozė 41 valstijai, tačiau 9 valstijose jis klydo, o tai lėmė D. Trumpo pergalę. Išanalizavę 2016 m. klaidų priežastis, jie padarė išvadą, kad:

  1. Matematiniai modeliai objektyviai atspindi vaizdą jų kūrimo metu. Tačiau jie turi pusinės eliminacijos laiką, kurio pabaigoje situacija gali kardinaliai pasikeisti. Nuspėjamosios modelio savybės laikui bėgant blogėja. Pavyzdžiui, šiuo atveju tam įtakos turėjo piktnaudžiavimas, pajamų nelygybė ir kiti socialiniai sukrėtimai. Todėl modelis turi būti reguliariai koreguojamas, kad būtų atsižvelgta į naujus duomenis. Tai nebuvo padaryta.
  2. Būtina ieškoti ir apsvarstyti papildomų duomenų, kurie gali turėti didelės įtakos prognozėms. Taigi, žiūrint Clinton ir Trumpo rinkimų kampanijose vykstančių mitingų vaizdo įrašus, nebuvo atsižvelgta į bendrą mitingų dalyvių skaičių. Tai buvo apie šimtus žmonių. Paaiškėjo, kad kiekviename mitinge Trumpo naudai dalyvavo 400–600 žmonių, o Clinton naudai – tik 150–200 žmonių, o tai turėjo įtakos rezultatams.
  3. Matematiniai modeliai rinkimų kampanijose remiasi demografiniais duomenimis: amžius, rasė, lytis, pajamos, padėtis visuomenėje ir kt. Kiekvienos grupės svoris nustatomas pagal tai, kaip jie balsavo praėjusiuose rinkimuose. Ši prognozė turi 3-4% paklaidą ir patikimai veikia, kai tarp kandidatų yra didelis atotrūkis. Tačiau šiuo atveju atotrūkis tarp Clinton ir D. Trumpo buvo nedidelis, o ši klaida turėjo didelės įtakos rinkimų rezultatams.
  4. Nebuvo atsižvelgta į neracionalų žmonių elgesį. Atliko apklausas vieša nuomonė sukurti iliuziją, kad žmonės balsuos taip, kaip atsakė apklausose. Tačiau kartais jie elgiasi priešingai. Tokiu atveju reikėtų papildomai atlikti veido ir kalbos analitiką, siekiant nustatyti nesąžiningą požiūrį į balsavimą.

Apskritai prognozė pasirodė klaidinga dėl nedidelio atotrūkio tarp kandidatų. Esant dideliam atotrūkiui, šios klaidos nebūtų tokios lemiamos.

Vaizdo įrašas: nauja specializacija „Big Data“ – Michailas Levinas



Ankstesnis straipsnis: Kitas straipsnis:

© 2015 m .
Apie svetainę | Kontaktai
| Svetainės žemėlapis