Երկար ժամանակ ցանկացե՞լ եք պարզել, թե ինչպես դառնալ տվյալների վերլուծաբան, ուսումնասիրել տվյալների գիտությունը, բայց չգիտեիք, թե որտեղից սկսել: Ապա այս հոդվածը ձեզ համար է:

Մեզանից ո՞վ չի լսել «մեծ տվյալների» մասին։ Հազիվ թե մեկը լինի։ Վերջին տարիներին տվյալների հետ աշխատելու հետաքրքրությունը զգալիորեն աճել է, քանի որ խոշոր ՏՏ ընկերությունները պետք է ավելի ու ավելի շատ լուծումներ գտնեն տվյալների վերլուծության, մշակման և հետագա օգտագործման համար: Ոմանք նույնիսկ վազում են ուսումնական ծրագրերհամալսարանների հետ միասին։ Սակայն մեծամասնությունը չի հասկանում, թե ինչպիսի մարդիկ են՝ տվյալների վերլուծաբանները։ Եթե դուք այդ մարդկանցից եք և ցանկություն ունեք դառնալու տվյալների վերլուծաբան, ապա այս հոդվածը ձեզ համար է։ Մենք ընտրել ենք միայն անվճար ուսուցման գործիքներ, որոնք կարող եք օգտագործել որտեղ էլ որ լինեք:

Ինչ են անում տվյալների վերլուծաբանները

Այսպես կոչված տվյալների վերլուծաբանները զբաղվում են դրա տեղեկատվությամբ և վերլուծությամբ՝ տեսողական, մարդու համար ընթեռնելի արդյունքներ ստանալու համար: Այս մարդիկ սովորաբար դասվում են որպես մեծ տվյալների, տվյալների արդյունահանման, մեքենայական ուսուցման, համակարգերի վերլուծության, բիզնես վերլուծաբանների մասնագետներ:

Ինչ դիտել

Yandex School of Data Analysis դասախոսություններ

SHAD - տվյալների վերլուծության դասընթացներ Yandex-ի աշխատակիցներից: Այնտեղ մտնելը բավականին դժվար է, դիմորդների համար պահանջվող նվազագույնը բարձրագույն հանրահաշվի հիմնական բաժիններն են,մաթեմատիկական վերլուծություն, կոմբինատորիկա, հավանականությունների տեսություն, ինչպես նաև ծրագրավորման հիմունքներ։ Բարեբախտաբար, դասընթացները ձայնագրվում են, որպեսզի բոլորը կարողանան սովորել տեսադասախոսություններից:

Մեքենայի ուսուցման դասընթաց

Դասընթացը սովորեցնում է, թե ինչպես կիրառել հավանականության տեսությունը և վիճակագրությունը, խոսել մեքենայական ուսուցման հիմունքների մասին, սովորեցնել, թե ինչպես կառուցել ալգորիթմներ

Դասընթաց «Որոնման ալգորիթմներ և տվյալների կառուցվածքներ»

Դասախոսությունների ժամանակ պատմվում է մեծ քանակությամբ տվյալների որոնման և տեսակավորման ալգորիթմների, տողերով ալգորիթմների և մանիպուլյացիաների, գրաֆիկա-տեսական ալգորիթմների, տվյալների կառուցվածքների կառուցման և վերլուծության մասին։

Զուգահեռ և բաշխված հաշվողական դասընթաց

Նրանց համար, ովքեր վաղուց էին ցանկանում ծանոթանալ բազմաթելային և զուգահեռ ծրագրավորմանը, ինչպես նաև MapReduce-ին։

Դասընթաց «Դիսկրետ վերլուծություն և հավանականության տեսություն»

Դասընթացը ուսումնասիրում է կոմբինատոր, դիսկրետ և ասիմպտոտիկ վերլուծության, հավանականությունների տեսության, վիճակագրության հիմնական հասկացություններն ու մեթոդները, ինչպես նաև ցույց է տալիս դրանց կիրառությունը:

Հաշվողական բարդության դասընթաց

Դասընթացն ավարտելուց հետո դուք կսովորեք հավանական բարդության դասերի և տվյալների վերլուծության և կառուցման հիմնական տեխնիկայի մասին:

Դասախոսություններ Technostream Mail.ru Group

Դասընթացի ծրագրերը նախատեսված են Մոսկվայի մի քանի բուհերի ուսանողների համար, սակայն հասանելի են բոլորին: Ապագա վերլուծաբանների համար խորհուրդ ենք տալիս հետևյալ դասախոսությունների ժողովածուները.

Մեծ տվյալների համալսարանի դասախոսություններ

Big Data University-ը առցանց դասընթաց է, որը ստեղծված է IBM-ի հետ համատեղ սկսնակների և մաթեմատիկական կրթություն չունեցող մարդկանց համար: Դասախոսությունները գրված են պարզ անգլերենով, որոնք կօգնեն ձեզ ծանոթանալ տվյալների հետ աշխատելու հիմունքներին:

Welch Labs

Այս ալիքը պարունակում է դասախոսություններ մաթեմատիկայի, համակարգչային գիտության, ծրագրավորման և մեքենայական ուսուցման վերաբերյալ: Ընթացքում ուսումնասիրված իրերի կիրառման օրինակներ իրական կյանք... Դասախոսությունները անգլերեն են, բայց կան գերազանց ռուսերեն ենթագրեր։

Դե" Կառուցվածքային տվյալների ուսուցում. ներածություն հավանական գծագրման մոդելներին»Ազգային Հետազոտական Համալսարանի Տնտեսագիտության Բարձրագույն Դպրոցի Համակարգչային Գիտության ֆակուլտետ

Դասընթացը կենտրոնացած է այսօր նման խնդիրների լուծման ամենատարածված մոտեցումներից մեկի՝ դիսկրետ հավանականական գրաֆիկական մոդելների տեսության և կիրառությունների խորը ներածության վրա: Դասընթացի լեզուն անգլերենն է։

Sentdex ալիք

Ալիքն ամբողջությամբ նվիրված է տվյալների հետ աշխատելուն։ Ավելին, ոչ միայն մաթեմատիկայով հետաքրքրվողներն իրենց համար օգտակար բաներ կգտնեն։ Ֆինանսական վերլուծաբանների և ռոբոտաշինության համար Rasperri Pi-ի հետ կա վերլուծության և ծրագրավորման տեսանյութ:

Սիրաջ Ռավալ ալիք

Տղան խոսում է ժամանակակից տեխնոլոգիաներև ինչպես աշխատել նրանց հետ: Խորը ուսուցման, տվյալների գիտության, մեքենայական ուսուցման դասընթացները կօգնեն ձեզ սովորել, թե ինչպես աշխատել տվյալների հետ:

Data School Channel

Եթե նոր եք ինչ-որ բան լսել մեքենայական ուսուցման մասին, բայց արդեն հետաքրքրված եք, ապա այս ալիքը ձեզ համար է։ Հեղինակը հասկանալի մակարդակով, օրինակներով, կբացատրի, թե ինչ է այն, ինչպես է այն աշխատում և որտեղ է այն կիրառվում:

Որտեղ սովորել

Նրանց համար, ովքեր վստահ չեն, որ պատրաստ են ամբողջությամբ ինքնուրույն սովորել՝ դիտելով դասախոսությունները, կան առցանց դասընթացներ՝ ստուգման առաջադրանքներով։

Տվյալների գիտության դասընթացներ Coursera-ում

Թե ինչ հարթակի մասին է խոսքը, բացատրելու կարիք չկա։ Դուք պետք է ընտրեք դասընթաց և սկսեք սովորել:

Stepik.org

Տվյալների վերլուծություն Ռ

Առաջին մասը ներառում է R-ի վիճակագրական վերլուծության, տվյալների ընթերցման, տվյալների նախնական մշակման, հիմնական վիճակագրական մեթոդների կիրառման և արդյունքների վիզուալացման բոլոր հիմնական փուլերը: Ուսանողները կսովորեն ծրագրավորման հիմնական տարրերը R լեզվով, ինչը թույլ կտա արագ և արդյունավետ կերպով լուծել տվյալների մշակման ժամանակ առաջացող խնդիրների ամենալայն շրջանակը։

Երկրորդ մասը ներառում է մի քանի առաջադեմ թեմաներ, որոնք առաջինում չեն լուսաբանվել. տվյալների նախնական մշակում` օգտագործելով data.table և dplyr փաթեթները, առաջադեմ վիզուալիզացիայի տեխնիկա, աշխատել R Markdown-ում:

Ներածություն տվյալների բազաներին

Սուզվել DBMS-ի մեջ

Դասընթաց նրանց համար, ովքեր որոշակի փորձ ունեն հարաբերական DBMS-ի հետ և ցանկանում են ավելին իմանալ, թե ինչպես են նրանք աշխատում: Դասընթացը ներառում է.

տվյալների բազայի սխեմայի ձևավորում;
գործարքների կառավարում;
հարցումների օպտիմալացում;
հարաբերական DBMS-ի նոր առանձնահատկություններ

Hadoop. Մեծ քանակությամբ տվյալների մշակման համակարգ

Դասընթացը կենտրոնանում է Hadoop համակարգի միջոցով մեծ քանակությամբ տվյալների մշակման մեթոդների վրա: Դասընթացն ավարտելուց հետո դուք կստանաք գիտելիքներ մեծ քանակությամբ տվյալների մշակման հիմնական պահպանման մեթոդների և մեթոդների մասին, կհասկանաք բաշխված համակարգերի սկզբունքները Hadoop շրջանակի համատեքստում և ձեռք կբերեք կիրառական կիրառական մշակման հմտություններ՝ օգտագործելով MapReduce ծրագրավորման մոդելը:

ՏՏ աշխարհում տարբեր ուղղություններ կան. Ինչ-որ մեկը զբաղվում է վարչարարությամբ, ինչ-որ մեկը մշակման կամ փորձարկման մեջ է։ Ստեղծվում են դասընթացներ, որոնք պատրաստում են համակարգի ադմինիստրատորներ, ծրագրավորողներ, թեստավորողներ։ Այս հոդվածում կքննարկվի հատուկ ծրագիր՝ Data Scientist, հատկապես մշակողների, վերլուծաբանների և արտադրանքի մենեջերների համար:

Ով է տվյալների գիտնական կամ տվյալների գիտնական

Տվյալների գիտնականի մասնագիտության շուրջ բազմաթիվ առասպելներ կան, և շատերը իրականում չեն հասկանում, թե դա ինչ է: Ինչ-որ մեկը կարծում է, որ տվյալների գիտնականը կամ տվյալների վերլուծաբանը ծրագրավորողի պես մի բան է (ըստ սկզբունքի՝ գիտես ծրագրավորել, ուրեմն գիտես ինչպես աշխատել տվյալների հետ), ինչ-որ մեկը համարում է, որ այս մասնագիտությունը նման է տվյալների բազայի ադմինիստրատորին, և ով ընդհանրապես չգիտի, թե դա ինչ է։

Առաջ նայելով, անմիջապես պետք է նշել, որ տվյալների վերլուծաբանը ծրագրավորող չէ և, իհարկե, տվյալների բազայի ադմինիստրատոր չէ, չնայած նա պետք է ունենա ծրագրավորման հմտություններ:

Տվյալների գիտնականը երեք հմտություններ ունեցող մարդ է.

մաթեմատիկա և վիճակագրություն;
ՏՏ հմտություններ, ներառյալ ծրագրավորում;
որոշակի ոլորտում բիզնես գործընթացների իմացություն:

Աշխատանքները միշտ չէ, որ կոչվում են տվյալների գիտնական: Շատ հաճախ կան տարբերակներ՝ ծրագրավորող-վերլուծաբան, Big Data վերլուծաբան, համակարգի վերլուծության մենեջեր, Big Data ճարտարապետ, բիզնես վերլուծաբան և այլն:
Տվյալների գիտնականի պարտականությունները ներառում են հետևյալը.

մեծ քանակությամբ տվյալների հավաքում և դրանք հարմար ձևաչափի մեջ բերում.
ծրագրավորում Python, R, SAS լեզուներով;
բիզնես խնդիրների լուծում տվյալների մշակման մեթոդների կիրառմամբ;
տվյալների մեջ թաքնված հարաբերությունների և օրինաչափությունների որոնում.
վիճակագրական թեստերի անցկացում։

Տվյալների գիտնականը պետք է հասկանա իր կազմակերպության բիզնես կարիքները, տիրապետի վերլուծական գործիքներին՝ մեքենայական ուսուցում և տեքստային վերլուծություն:
McKinsey Global Institute-ի խորհրդատվական ընկերության տվյալներով՝ արդեն 2010թ հաջորդ տարիԱՄՆ-ում (միայն ԱՄՆ-ում, ոչ ամբողջ աշխարհում) տվյալների մասնագետների մի ամբողջ բանակ կպահանջվի՝ 140-ից 190 հազար։

Որքա՞ն է վաստակում տվյալների գիտնականը

ԱՄՆ-ում տվյալների գիտնականի միջին աշխատավարձը տարեկան ավելի քան 138,000 դոլար է: Ռուսաստանում կարող եք դիմել ամսական 120 հազար ռուբլի աշխատավարձի համար (տարեկան ավելի քան 26 հազար դոլար):

Եթե համեմատենք պարզ ծրագրավորողի մասնագիտության հետ, ապա ԱՄՆ-ում ծրագրավորողի միջին աշխատավարձը տարեկան 65-80 հազար դոլար է, իսկ Ռուսաստանում՝ ամսական 60 հազար ռուբլի կամ տարեկան 13 հազար դոլար։

Ամեն դեպքում, տվյալների գիտության ոլորտում գիտական աստիճան ստանալը կարող է օգնել ձեզ ավելի շատ վաստակել որպես ծրագրավորող:

Ինչպես տեսնում եք, տվյալների գիտնականը շատ խոստումնալից մասնագիտություն է: Նախ՝ նրա աշխատավարձն ավելի բարձր է, քան սովորական ծրագրավորողը։ Երկրորդ՝ տվյալների մասնագետներն այնքան էլ շատ չեն, և շուկան մասնագետների պակաս է զգում ոչ միայն Ռուսաստանում, այլ ամբողջ աշխարհում։

Համալսարանում կարող եք տիրապետել տվյալների գիտնականի մասնագիտությանը մասնագետների վերապատրաստման և լրացուցիչ վերապատրաստման համար:

Ինչ է անում տվյալների գիտնականների վերապատրաստման դասընթացը

ՏԵՂԵԿԱՏՎՈՒԹՅՈՒՆ

Վերապատրաստման ամիսներ. 5
Շաբաթական ժամեր. 9
Փորձագետներ: 13
Պրակտիկայի ժամեր. 100+

Պահանջներ ուսանողներին

Ուսանողները սկզբնական մակարդակում պետք է տիրապետեն ծրագրավորման առնվազն մեկ լեզվի (ավելի լավ է, եթե դա Python-ն է):
Աշակերտները պետք է իմանան մաթեմատիկա ավագ դպրոցի մակարդակում՝ ֆունկցիաներ, ածանցյալներ, վեկտորային և մատրիցային հանրահաշիվ, եռանկյունաչափություն:

Նախապատրաստական դասընթաց

Եթե չունեք անհրաժեշտ գիտելիքներ, ապա հատուկ ձեզ համար տրամադրվում է անվճար նախապատրաստական դասընթաց, որը կբացվի հիմնական դասընթացի վճարումից անմիջապես հետո։ Դասընթացը բաղկացած է 11 տեսանկարահանված դասախոսություններից և տնային առաջադրանքներից։ Նա կխոսի օղակների, տվյալների տեսակների, գործառույթների մասին, կսովորեցնի, թե ինչպես աշխատել HTTP հարցումների, տվյալների տարբեր ձևաչափերի և շատ ավելին:

Որքան է

Հիմնական արժեքը 180,000 ռուբլի է, սակայն մինչև հունիսի 15-ը վերապատրաստման արժեքը կրճատվել է մինչև 165,000 ռուբլի: Միաժամանակ տրամադրվում է 6 ամսվա անտոկոս ապառիկ, այսինքն՝ ուսուցման արժեքը ամսական 27500 ռուբլի է։

Ո՞րն է հիմնականը

Ուսանողին տրվում է «Տվյալների վերլուծաբան / մեքենայական ուսուցման մասնագետ» մասնագիտությամբ մասնագիտական վերապատրաստման պետական դիպլոմ: Նրա հետ կարող եք դիմել «Տվյալների վերլուծաբան», «Մեծ տվյալների մշակող» պաշտոնի համար՝ ամսական 120 հազար ռուբլի աշխատավարձով։

Խնդրում ենք նկատի ունենալ, որ վերապատրաստումն ավարտելուց հետո տրվում է ոչ թե ինչ-որ «վկայական», այլ պետական դիպլոմ։

Տվյալների գիտություն, մեքենայական ուսուցում. դուք հավանաբար լսել եք այս մեծ բառերը, բայց որքանո՞վ էր դրանց իմաստը ձեզ համար պարզ: Ոմանց համար դրանք գեղեցիկ խայծեր են։ Ինչ-որ մեկը կարծում է, որ տվյալների գիտությունը կախարդանք է, որը կստիպի մեքենային անել այնպես, ինչպես պատվիրված է անվճար: Մյուսները նույնիսկ հավատում են, որ սա հեշտ ճանապարհհսկայական գումար վաստակել. Նիկիտա Նիկիտինսկին, IRELA-ի R&D ղեկավարը և տվյալների գիտնական Պոլինա Կազակովան, պարզ և հասկանալի լեզվով բացատրում են, թե ինչ է դա:

Ես աշխատում եմ բնական լեզվի ավտոմատ մշակման ոլորտում՝ տվյալների գիտության հավելվածներից մեկում, և հաճախ տեսնում եմ, որ մարդիկ այնքան էլ ճիշտ չեն օգտագործում այս տերմինները, ուստի ուզում էի մի փոքր պարզաբանել: Այս հոդվածը նրանց համար է, ովքեր վատ պատկերացում ունեն, թե ինչ է տվյալների գիտությունը և ցանկանում են հասկանալ հասկացությունները:

Եկեք սահմանենք տերմինաբանությունը

Սկսենք նրանից, որ ոչ ոք իսկապես չգիտի, թե ինչ է տվյալների գիտությունը, և չկա խիստ սահմանում. սա շատ լայն և միջդիսցիպլինար հասկացություն է: Ուստի այստեղ ես կկիսվեմ իմ տեսլականով, որը պարտադիր չէ, որ համընկնի ուրիշների կարծիքների հետ։

Տվյալների գիտություն տերմինը ռուսերեն թարգմանվում է որպես «տվյալների գիտություն», իսկ մասնագիտական միջավայրում հաճախ պարզապես տառադարձվում է՝ «տվյալների գիտություն»։ Ֆորմալ առումով այն համակարգչային գիտության և մաթեմատիկայի բնագավառից որոշ փոխկապակցված առարկաների և մեթոդների հավաքածու է: Չափից դուրս վերացական է հնչում, չէ՞: Եկեք պարզենք այն:

Առաջին մաս. տվյալներ

Տվյալների գիտության առաջին բաղադրիչը, առանց որի անհնար է ողջ հետագա գործընթացը, իրականում հենց տվյալներն են. ինչպես դրանք հավաքել, պահել և մշակել, ինչպես նաև ընդհանուր տվյալների զանգվածից օգտակար տեղեկատվություն հանել: Դա տվյալների մաքրումն ու դրանք հասցնելն է ճիշտ տեսակմասնագետները հատկացնում են իրենց աշխատաժամանակի մինչև 80%-ը։

Այս կետի կարևոր մասն այն է, թե ինչպես վարվել այն տվյալների հետ, որոնց պահպանման և մշակման ստանդարտ մեթոդները հարմար չեն դրանց հսկայական ծավալի և/կամ բազմազանության պատճառով՝ այսպես կոչված, մեծ տվյալներ, մեծ տվյալներ: Ի դեպ, մի շփոթվեք. մեծ տվյալները և տվյալների գիտությունը հոմանիշներ չեն, ավելի շուտ, երկրորդի առաջին ենթաբաժինը: Միևնույն ժամանակ, տվյալների վերլուծաբանները միշտ չէ, որ պետք է գործնականում աշխատեն մեծ տվյալների հետ. փոքր տվյալները կարող են օգտակար լինել:

Եկեք հավաքենք տվյալները

Պատկերացրեք, որ մենք մտածում ենք, թե արդյոք կա որևէ կապ այն բանի միջև, թե որքան սուրճ են խմում ձեր աշխատակիցները օրական և որքան են նրանք քնել նախորդ գիշերը: Գրի առնենք մեզ հասանելի տեղեկատվությունը. ենթադրենք ձեր գործընկեր Գրիգորին այսօր քնել է 4 ժամ, ուստի ստիպված է եղել խմել 3 բաժակ սուրճ; Էլինան քնել է 9 ժամ և ընդհանրապես սուրճ չի խմել; և Պոլինան քնել է ամբողջ 10 ժամը, բայց խմել է 2,5 բաժակ սուրճ և այլն:

Ստացված տվյալները ցուցադրենք գրաֆիկի վրա (տեսողականացումը նույնպես կարևոր տարր է տվյալների գիտության ցանկացած նախագծի)։ Եկեք ժամերով հետաձգենք ժամանակը X առանցքի վրա, իսկ սուրճը միլիլիտրներով Y առանցքի վրա: Մենք ստանում ենք նման բան.

Երկրորդ մասը՝ գիտություն

Մենք ունենք տվյալներ, հիմա ի՞նչ կարող ենք անել դրանց հետ։ Ճիշտ վերլուծեք, հանեք օգտակար նախշեր և ինչ-որ կերպ օգտագործեք դրանք։ Այստեղ մեզ կօգնեն այնպիսի առարկաներ, ինչպիսիք են վիճակագրությունը, մեքենայական ուսուցումը, օպտիմալացումը:

Դրանք կազմում են տվյալների գիտության հաջորդ և գուցե ամենակարևոր մասը՝ տվյալների վերլուծությունը: Մեքենայի ուսուցումը թույլ է տալիս գտնել օրինաչափություններ գոյություն ունեցող տվյալների մեջ, որպեսզի այնուհետև կարողանաք գուշակել նոր օբյեկտների համար ձեզ անհրաժեշտ տեղեկատվությունը:

Եկեք վերլուծենք տվյալները

Վերադառնանք մեր օրինակին։ Աչքին թվում է, որ երկու պարամետրերը ինչ-որ կերպ փոխկապակցված են՝ ինչպես ավելի քիչ մարդքնել է, հաջորդ օրը այնքան սուրճ է խմելու։ Միաժամանակ մենք ունենք նաև այս միտումից առանձնացող օրինակ՝ Պոլինան, ով սիրում է քնել և սուրճ խմել։ Այնուամենայնիվ, դուք կարող եք փորձել մոտավորել ստացված օրինակը որոշ ընդհանուր ուղիղ գծով, որպեսզի այն հնարավորինս մոտ լինի բոլոր կետերին.

Կանաչ գիծը մեր մեքենայական ուսուցման մոդելն է, այն ամփոփում է տվյալները և կարելի է նկարագրել մաթեմատիկորեն: Այժմ դրա օգնությամբ մենք կարող ենք որոշել նոր օբյեկտների արժեքները. երբ ուզում ենք գուշակել, թե այսօր գրասենյակ մտած Նիկիտան որքան սուրճ կխմի, կհարցնենք, թե որքան է նա քնել։ Որպես պատասխան ստանալով 7,5 ժամ արժեքը՝ մենք այն փոխարինում ենք մոդելի մեջ՝ այն համապատասխանում է խմած սուրճի քանակին 300 մլ-ից մի փոքր պակաս ծավալով։ Կարմիր կետը ներկայացնում է մեր կանխատեսումը:

Ահա թե ինչպես է աշխատում մեքենայական ուսուցումը, որի գաղափարը շատ պարզ է՝ գտնել օրինաչափություն և տարածել այն նոր տվյալների վրա: Փաստորեն, մեքենայական ուսուցման մեջ առանձնանում է խնդիրների մեկ այլ դաս, երբ անհրաժեշտ է ոչ թե կանխատեսել որոշ արժեքներ, ինչպես մեր օրինակում, այլ տվյալները բաժանել որոշ խմբերի։ Բայց այս մասին ավելի մանրամասն կխոսենք մեկ այլ անգամ:

Եկեք կիրառենք արդյունքը

Այնուամենայնիվ, իմ կարծիքով, տվյալների գիտությունը չի ավարտվում տվյալների մեջ օրինաչափությունների նույնականացմամբ: Տվյալների գիտության ցանկացած նախագիծ կիրառական հետազոտություն է, որտեղ կարևոր է չմոռանալ այնպիսի բաների մասին, ինչպիսիք են վարկածի ձևակերպումը, փորձի պլանավորումը և, իհարկե, արդյունքի գնահատումը և դրա համապատասխանությունը կոնկրետ դեպքի լուծման համար:

Վերջինս շատ կարևոր է իրական բիզնեսի խնդիրներում, երբ անհրաժեշտ է հասկանալ՝ արդյո՞ք հայտնաբերված տվյալների գիտության լուծումը օգուտ կտա ձեր նախագծին, թե ոչ։ Ո՞րը կարող է լինել կառուցված մոդելի օգտակարությունը մեր օրինակում: Թերևս դրա օգնությամբ մենք կարող էինք օպտիմալացնել սուրճի առաքումը գրասենյակ։ Միևնույն ժամանակ, մենք պետք է գնահատենք ռիսկերը և որոշենք, թե արդյոք մեր մոդելն ավելի լավ կհաղթահարի դրան, քան գոյություն ունեցող լուծումը՝ գրասենյակի մենեջեր Միխայիլը, ով պատասխանատու է ապրանքի գնման համար:

Բացառություններ գտնելը

Իհարկե, մեր օրինակը հնարավորինս պարզեցված է։ Իրականում կարելի է կառուցել ավելի բարդ մոդել, որը հաշվի կառնի որոշ այլ գործոններ, օրինակ՝ արդյոք մարդը սկզբունքորեն սիրում է սուրճը։ Կամ մոդելը կարող է գտնել հարաբերություններ, որոնք ավելի բարդ են, քան ուղիղ գծով ներկայացվածները:

Սկզբում կարելի էր գտնել մեր տվյալների մեջ արտանետումներ՝ առարկաներ, որոնք, ինչպես Պոլինան, շատ տարբեր են մյուսներից շատերից: Փաստն այն է, որ իրական աշխատանքում նման օրինակները կարող են վատ ազդեցություն ունենալ մոդելի կառուցման գործընթացի և դրա որակի վրա, և իմաստ ունի դրանք ինչ-որ կերպ այլ կերպ մշակել: Եվ երբեմն նման օբյեկտները առաջնային հետաքրքրություն են ներկայացնում, օրինակ, բանկային աննորմալ գործարքների հայտնաբերման խնդիր՝ խարդախությունը կանխելու համար։

Բացի այդ, Պոլինան մեզ ցույց է տալիս ևս մեկ կարևոր գաղափար՝ մեքենայական ուսուցման ալգորիթմների անկատարությունը։ Մեր մոդելը կանխատեսում է ընդամենը 100 մլ սուրճ այն մարդու համար, ով քնած է 10 ժամ, մինչդեռ իրականում Պոլինան խմել է մինչև 500: Տվյալների գիտության լուծումների հաճախորդները երբեք չեն հավատա դրան, բայց դեռևս անհնար է մեքենային սովորեցնել ամեն ինչ գուշակել: աշխարհը կատարյալ կերպով. անկախ նրանից, թե որքան լավ ենք մենք կարող ենք մեկուսացնել օրինաչափությունները տվյալների մեջ, միշտ կան անկանխատեսելի տարրեր:

Շարունակենք պատմությունը

Այսպիսով, տվյալների գիտությունը տվյալների մշակման և վերլուծության մեթոդների մի շարք է և դրանք կիրառելու գործնական խնդիրներում: Պետք է հասկանալ, որ յուրաքանչյուր մասնագետ ունի իր տեսակետն այս ոլորտի վերաբերյալ, և կարծիքները կարող են տարբեր լինել:

Տվյալների գիտությունը հիմնված է բավականին պարզ գաղափարների վրա, սակայն գործնականում հաճախ հայտնաբերվում են բազմաթիվ ոչ ակնհայտ նրբություններ: Ինչպես է տվյալների գիտությունը մեզ շրջապատում առօրյա կյանքում, տվյալների վերլուծության ինչ մեթոդներ կան, ումից է բաղկացած տվյալների գիտության թիմը և ինչ դժվարություններ կարող են առաջանալ հետազոտության գործընթացում, մենք կխոսենք այս մասին հաջորդ հոդվածներում:

Մենք շարունակում ենք աշխատաշուկայում հմտությունների պահանջարկի վերլուծական ուսումնասիրությունների շարքը։ Այս անգամ Pavel Surmenk sharky-ի շնորհիվ մենք կդիտարկենք նոր մասնագիտություն՝ Data Scientist:

Վերջին տարիներին Data Science տերմինը սկսել է ժողովրդականություն ձեռք բերել: Այս մասին շատ են գրում, համաժողովներում խոսում։ Որոշ ընկերություններ նույնիսկ վարձում են մարդկանց տվյալների գիտնականի հնչեղ աշխատանքի համար: Ի՞նչ է տվյալների գիտությունը: Իսկ ովքեր են տվյալների գիտնականները:

Ովքե՞ր են տվյալների գիտնականները:

Եթե այս հարցը ուղղեք Սան Ֆրանցիսկոյի բնակչին, կարող եք պատասխան ստանալ, որ տվյալների գիտնականը Սան Ֆրանցիսկոյում բնակվող վիճակագիր է: Զվարճալի, թեև ոչ այնքան խրախուսելի նրանց համար, ովքեր չեն ապրում Սան Ֆրանցիսկոյում, այնպես չէ՞: Լավ, ապա ևս մեկ սահմանում. Տվյալների գիտնականը նա է, ով ավելի լավ է հասկանում վիճակագրությունը, քան ցանկացած ծրագրավորող և ավելի լավ է հասկանում ծրագրավորումը, քան ցանկացած վիճակագիր: Բայց այս տարբերակն արդեն մոտ է կետին։ Data Scientist-ը, տվյալների գիտնականը, վիճակագիրի և ծրագրավորողի հիբրիդ է: Ավելին, և՛ վիճակագիրները, և՛ ծրագրավորողները շատ տարբեր են, ուստի ավելի լավ է այս մասնագիտությունը դիտարկել որպես մաքուր վիճակագիրից մինչև մաքուր ծրագրավորող լայն շրջանակ:

Ռոբերտ Չանգը՝ Twitter-ի տվյալների գիտնականը, իր մասնագիտության ներկայացուցիչներին բաժանում է 2 խմբի՝ Type A Data Scientist v.s. Բ տիպի տվյալների գիտնական:

Տիպ A, որտեղ A-ն վերլուծություն է: Այս մարդիկ հիմնականում մտահոգված են ստատիկ տվյալներից իմաստ կորզելով: Նրանք շատ նման են վիճակագիրներին, նրանք նույնիսկ կարող են լինել վիճակագիր և պարզապես փոխել իրենց աշխատանքի կոչումը Data Scientist-ի, և, ինչպես գիտենք, աշխատանքի անվանման մեկ փոփոխությունը կարող է աշխատավարձի զգալի բարձրացում տալ, գումարած պատիվ և հարգանք: Բայց բացի վիճակագրությունից, նրանք գիտեն նաև գործնական ասպեկտներ՝ ինչպես մաքրել տվյալները, ինչպես աշխատել տվյալների մեծ հավաքածուների հետ, ինչպես պատկերացնել տվյալները և նկարագրել իրենց աշխատանքի արդյունքները:

Տիպ B, որտեղ B-ն շենք է: Նրանք նաև վիճակագրության իմացություն ունեն, բայց ուժեղ և փորձառու ծրագրավորողներ են։ Նրանք ավելի շատ հետաքրքրված են տվյալների կիրառմամբ իրական համակարգերում: Հաճախ կառուցվում են մոդելներ, որոնք աշխատում են օգտատերերի հետ փոխազդեցությամբ, օրինակ՝ արտադրանքի առաջարկությունների համակարգեր, ֆիլմեր, գովազդ:

Տվյալների գիտությունը նաև մի փոքր համընկնում է այնպիսի ոլորտների հետ, ինչպիսիք են մեքենայական ուսուցումը և արհեստական ինտելեկտը, որոնք մոտ են տիպի B տվյալների գիտությանը:

Ի՞նչ սովորել նրանց համար, ովքեր ցանկանում են դառնալ Data Scientist, ի՞նչ հմտություններ են անհրաժեշտ: Եկեք տեսնենք, թե ինչ պահանջներ են առաջադրել ամերիկացի գործատուները տվյալների գիտության և մեքենայական ուսուցման ոլորտներում պաշտոններ զբաղեցնելու թեկնածուների համար:

Data Scientist Hard Skills

Եկեք սկսենք վերլուծելով դժվար հմտությունների պահանջները:

Ինչպես երևում է վարկանիշից, ամենատարածվածը մաթեմատիկայի, վիճակագրության, համակարգչային գիտության և մեքենայական ուսուցման հիմնարար գիտելիքներն են: Բացի տեսական գիտելիքներից, Data Scientist-ը պետք է կարողանա «հանել», մաքրել, մոդելավորել և պատկերացնել տվյալները: Զարգացման փորձը նույնպես կարևոր է ծրագրային ապահովումև որակի կառավարում։

Տվյալների գիտության գործիքներ և տեխնոլոգիաներ

Data Scientist-ի հիմնական գործիքակազմը Python և R ծրագրավորման լեզուներն են:

R-ն մասնագիտացված ծրագրավորման լեզու է վիճակագրական հաշվարկների համար, այդ իսկ պատճառով այն այդքան սիրված է վիճակագիրների և տվյալների գիտնականների կողմից: Այն թույլ է տալիս արագ բեռնել տվյալների բազան, հաշվարկել հիմնական վիճակագրական բնութագրերը, պատկերացնել տվյալները և կառուցել տվյալների մոդելներ:

Python-ը, թեև այն ընդհանուր նշանակության ծրագրավորման լեզու է, ունի մեծ թվով որակյալ գրադարաններ և հարթակներ տվյալների գիտության և մեքենայական ուսուցման համար:

Հատկանշական է, որ թափուր աշխատատեղերի 39%-ը պահանջում է միաժամանակ և՛ R, և՛ Python-ի իմացություն, ուստի ավելի լավ է երկու լեզուներն էլ սովորել միանգամից, քան փորձել դրանցից մեկը ընտրել:

Մեծ տվյալների համար գործատուները նախընտրում են օգտագործել Hadoop-ը և Spark-ը: MySQL-ը և MongoDB-ն հայտնի են տվյալների բազաների մեջ:

Data Scientist Soft Skills

Ընդհանուր իրավասությունները (փափուկ հմտություններ) ավելի քիչ պահանջարկ ունեն, քան մասնագիտական հմտությունները, քանի որ դրանք կիսով չափ հաճախակի են նշվում թափուր աշխատատեղերում: Մեղմ հմտություններ պահանջող թափուր աշխատատեղերի միջին աշխատավարձերը նույնպես զգալի են՝ մոտ 20%-ով ավելի ցածր, քան նրանք, որոնք պահանջում են ծանր հմտություններ և տեխնոլոգիայի իմացություն:

Այնուամենայնիվ, հանդիպող փափուկ հմտություններից ամենակարևորը հետևյալն է. հաղորդակցման հմտություններ, տվյալների վիզուալիզացիա, ներկայացումներ, արդյունավետ գրել և խոսել: Օգտակար են նաև թիմային աշխատանքը, կառավարման և խնդիրների լուծման հմտությունները:

Data Scientist տիրույթի գիտելիքներ

Որոշ թափուր աշխատատեղեր պահանջում են առարկայական գիտելիքներ ֆիզիկայից և կենսաբանությունից մինչև անշարժ գույք և հյուրասիրություն: Այստեղ առաջատարներն են տնտեսագիտությունը, մարքեթինգը և բժշկությունը։

Տվյալների գիտնականների մասնագիտացումներ

Նախքան հետազոտությունը սկսելը մենք մտադիր էինք առանձնացնել Data Scientist մասնագիտության ենթամասնագիտությունները։ Օրինակ՝ առանձնացնել նրանց, ովքեր հիմնականում զբաղվում են տվյալների վերլուծությամբ և վիզուալիզացիայով, նրանցից, ովքեր մոդելներ են կառուցում կանխատեսող վերլուծության կամ մեքենայական ուսուցման ալգորիթմների համար: Բայց, ինչպես պարզվեց տվյալների վերլուծության ժամանակ, թափուր աշխատատեղերի մեծ մասի պահանջները բավականին միատեսակ են, և մասնագիտությունների հստակ բաժանում չկա։

Չնայած որոշ օրինաչափություններ հետաքրքիր են թվում: Օրինակ, եթե աշխատանքը պահանջում է Python-ի կամ C ++-ի իմացություն, ապա հաղորդակցման և կառավարման հմտությունների պահանջը քիչ հավանական է, և հակառակը:

Տեխնոլոգիաների ազդեցությունը աշխատավարձի վրա

O'Reilly 2015 Data Science աշխատավարձի հետազոտությունն օգնում է մեզ դիտարկել աշխատանքի շուկան հակառակ տեսանկյունից: Այս ուսումնասիրությունը հիմնված է 600 տվյալների գիտնականների հարցման վրա, և հավաքագրված տվյալները ներառում են աշխատավարձի մակարդակը, ժողովրդագրական տվյալները և այն ժամանակը, որը մասնագետները ծախսում են առաջադրանքների վրա: տարբեր տեսակներ... Այս ուսումնասիրության հիմնական արդյունքները հետևյալն են.

SQL-ը, Excel-ը, R-ը, Python-ը հիմնական գործիքներն են, և այս ցանկը չի փոխվել արդեն 3 տարի:
Spark-ը և Scala-ն աճում են ժողովրդականության մեջ:
Նախկինում մասնագիտացված առևտրային գործիքներ օգտագործողների ուշադրությունը տեղափոխվում է Ռ.
Բայց նրանք, ովքեր նախկինում օգտագործել են R-ը, տեղափոխվում են Python, Python-ը առաջատար է:
Արդյունաբերության բոլոր ոլորտներից ամենաբարձր աշխատավարձը ծրագրային ապահովման մշակումն է:
Cloud Computing-ը շարունակում է պահանջարկ ունենալ:

Խորհուրդ ենք տալիս կարդալ ամբողջ զեկույցը: Ի թիվս այլ բաների, նա նկարագրում է տվյալների գիտնականի աշխատավարձի կախվածության մաթեմատիկական մոդելը, թե որտեղ է նա ապրում, ինչ կրթություն ունի և ինչ խնդիրների վրա է աշխատում: Օրինակ, տվյալների գիտնականները, ովքեր ավելի շատ ժամանակ են անցկացնում հանդիպումներին, ավելի շատ են վաստակում: Իսկ նրանք, ովքեր ուսումնասիրում են տվյալներն օրական 4 ժամից ավելի, ավելի քիչ են վաստակում։

Ինչպե՞ս ուսումնասիրել տվյալների գիտությունը:

Վերջին տարիներին այս թեմայով բազմաթիվ առցանց դասընթացներ են հայտնվել։ Եվ սա շատ լավ միջոց է սկսելու համար:

Եթե դուք ավելի շատ հակված եք դեպի տվյալների վերլուծություն, ապա լավ տարբերակՏվյալների գիտության մասնագիտացման դասընթացներն են Coursera-ում. Սկսեք ձեր կարիերան տվյալների գիտության ոլորտում: Մասնագիտացում ստանալն անվճար չէ, բայց եթե վկայականի կարիք չունեք, ապա կարող եք անվճար անցնել այս բոլոր դասընթացները. պարզապես նայեք դասընթացի անվանումը և օգտագործեք որոնումը դասընթացը գտնելու համար:

Մեքենայական ուսուցմամբ հետաքրքրվողների համար մենք խորհուրդ ենք տալիս դասընթացը Էնդրյու Նգը՝ Baidu Research-ի գլխավոր գիտնական, ով նաև Սթենֆորդի պրոֆեսորադասախոսական կազմի անդամ է և Coursera: Computer Learning-ի հիմնադիրը:

Ի՞նչ է տվյալների գիտությունը:

Տվյալների գիտությունը նոր ոլորտ է, ուստի Data Scientists-ի պահանջները դեռ լիովին ձևավորված չեն: Հաշվի առնելով մեր ժամանակի դինամիզմը, հնարավոր է, որ Data Science-ը երբեք չդառնա համալսարաններում դասավանդվող անկախ մասնագիտություն, այլ մնա պրակտիկաների և հմտությունների մի շարք: Բայց սրանք հենց այն պրակտիկաներն ու հմտություններն են, որոնք մեծ պահանջարկ կունենան առաջիկա տարիներին։

Տվյալների գիտնական- մեծ քանակությամբ տվյալների մշակման, վերլուծության և պահպանման մասնագետ, այսպես կոչված, «Մեծ տվյալներ»: Մասնագիտությունը հարմար է նրանց համար, ովքեր հետաքրքրված են ֆիզիկայով, մաթեմատիկայով և համակարգչային գիտությամբ (տե՛ս մասնագիտության ընտրություն դպրոցական առարկաների նկատմամբ հետաքրքրության համար):

Տվյալների գիտություն - տվյալների գիտություն տարբեր առարկաների խաչմերուկում՝ մաթեմատիկա և վիճակագրություն; ինֆորմատիկա և համակարգչային գիտություն; բիզնես և տնտեսագիտություն։

(Ս. Մալցևա, Վ. Կորնիլով, Ազգային հետազոտական համալսարան «Տնտեսագիտության բարձրագույն դպրոց»)

Մասնագիտությունը նոր է, համապատասխան և. «Մեծ տվյալներ» տերմինն ինքնին հայտնվել է 2008թ. Իսկ Data Scientist-ի մասնագիտությունը՝ «Data Scientist»-ը պաշտոնապես գրանցվեց որպես ակադեմիական և միջոլորտային դիսցիպլին 2010 թվականի սկզբին։ .

Նման մասնագիտության առաջացման անհրաժեշտությունը թելադրված էր նրանով, որ երբ խոսքը վերաբերում է Ultra Big Data-ին, տվյալների հավաքածուները չափազանց մեծ են մաթեմատիկական վիճակագրության ստանդարտ միջոցներով մշակման համար: Ամեն օր հազարավոր փետաբայթ (10 15 բայթ = 1024 տերաբայթ) տեղեկատվություն անցնում է աշխարհի տարբեր երկրների ընկերությունների սերվերներով։ Բացի տվյալների նման ծավալներից, խնդիրը բարդանում է դրանց տարասեռությամբ և թարմացման բարձր արագությամբ:

Տվյալների զանգվածները բաժանված են 3 տեսակի.

կառուցվածքային (օրինակ՝ առևտրում ՀԴՄ-ների տվյալները);

կիսակառույց (էլեկտրոնային հաղորդագրություններ);

չկառուցված (վիդեո ֆայլեր, պատկերներ, լուսանկարներ):

Մեծ Տվյալների մեծ մասը անկառուցվածքային է, ինչը շատ ավելի դժվար է դարձնում դրանց մշակումը:

Առանձին-առանձին վիճակագիր, համակարգային վերլուծաբան կամ բիզնես վերլուծաբան չի կարող խնդիրներ լուծել տվյալների նման ծավալների հետ: Դրա համար անհրաժեշտ է միջդիսցիպլինար կրթություն ունեցող, մաթեմատիկայի և վիճակագրության, տնտեսագիտության և բիզնեսի, համակարգչային գիտության և համակարգչային տեխնիկայի իրավասու անձ:

Տվյալների գիտաշխատողի հիմնական խնդիրն է անհրաժեշտ տեղեկատվությունը տարբեր աղբյուրներից քաղելու ունակությունը՝ օգտագործելով տեղեկատվական հոսքերը իրական ժամանակում. բացահայտել թաքնված օրինաչափությունները տվյալների հավաքածուներում և վիճակագրականորեն վերլուծել դրանք՝ խելացի բիզնես որոշումներ կայացնելու համար: Նման մասնագետի աշխատավայրը ոչ թե 1 համակարգիչ է կամ նույնիսկ 1 սերվեր, այլ սերվերների կլաստեր։

Մասնագիտության առանձնահատկությունները

Տվյալների գիտնականը տվյալների հետ աշխատում է տարբեր ձևերով.

վիճակագրական մեթոդներ;
տվյալների բազայի մոդելավորում;
ինտելեկտուալ վերլուծության մեթոդներ;
արհեստական ինտելեկտի հավելվածներ տվյալների հետ աշխատելու համար;
տվյալների բազաների նախագծման և մշակման մեթոդներ.

Տվյալների գիտնականի պարտականությունները կախված են նրա գործունեության ոլորտից, սակայն գործառույթների ընդհանուր ցանկը հետևյալն է.

տվյալների հավաքագրում տարբեր աղբյուրներից հետագա գործառնական մշակման համար.
սպառողների վարքագծի վերլուծություն;
հաճախորդների բազայի մոդելավորում և արտադրանքի անհատականացում;
բազայի ներքին գործընթացների արդյունավետության վերլուծություն;
տարբեր ռիսկերի վերլուծություն;
կասկածելի գործարքների ուսումնասիրության ընթացքում հնարավոր խարդախության բացահայտում.
պարբերական հաշվետվությունների պատրաստում` կանխատեսումներով և տվյալների ներկայացմամբ:

Data Scientist-ը, ինչպես իրական գիտնականը, ոչ միայն հավաքում և վերլուծում է տվյալներ, այլև դրանք ուսումնասիրում է տարբեր համատեքստերում և տարբեր անկյուններից՝ կասկածի տակ դնելով ցանկացած ենթադրություն: Տվյալների գիտնականի ամենակարևոր որակը հավաքագրված տեղեկատվության համակարգում տրամաբանական կապեր տեսնելու և քանակական վերլուծության հիման վրա արդյունավետ բիզնես լուծումներ մշակելու կարողությունն է: Այսօրվա մրցակցային և արագ փոփոխվող աշխարհում, տեղեկատվության անընդհատ աճող հոսքի մեջ, Data Scientist-ն անփոխարինելի է ձեզ ճիշտ բիզնես որոշումներ կայացնելու հարցում:

Մասնագիտության դրական և բացասական կողմերը

կողմ

Մասնագիտությունը ոչ միայն չափազանց տարածված է, այլև այս մակարդակի մասնագետների սուր պակաս կա։ McKinsey Global Institute-ի տվյալներով՝ մինչև 2018 թվականը միայն Միացյալ Նահանգներին անհրաժեշտ կլինի ավելի քան 190,000 տվյալների գիտնական: Այդ իսկ պատճառով տվյալների մասնագետների պատրաստման ամենահեղինակավոր համալսարանների ֆակուլտետներն այդքան արագ և լայնորեն ֆինանսավորվում և զարգանում են: Ռուսաստանում նույնպես աճում է Data Scientist-ի պահանջարկը։
Բարձր վարձատրվող մասնագիտություն.
Մշտապես զարգանալու, ՏՏ տեխնոլոգիաների զարգացմանը համընթաց քայլելու, տվյալների մշակման, վերլուծության և պահպանման նոր մեթոդներ ստեղծելու անհրաժեշտությունը:

Մինուսներ

Ոչ բոլոր մարդիկ կկարողանան տիրապետել այս մասնագիտությանը, անհրաժեշտ է հատուկ մտածելակերպ:
Աշխատանքի ընթացքում հայտնի մեթոդները և գաղափարների 60%-ից ավելին կարող են չաշխատել։ Շատ լուծումներ կձախողվեն, և գոհացուցիչ արդյունքներ ստանալու համար մեծ համբերություն է պահանջվում: Գիտնականն իրավունք չունի ասելու. խնդիր. Նա պետք է ճանապարհ գտնի, որը կօգնի լուծել խնդիրը։

Աշխատանքի վայրը

Տվյալների գիտնականը առանցքային պաշտոններ է զբաղեցնում հետևյալում.

տեխնոլոգիական արդյունաբերություններ (մեքենաների նավիգացիոն համակարգեր, դեղերի արտադրություն և այլն);
ՏՏ ոլորտ (որոնողական համակարգի օպտիմիզացում, սպամի ֆիլտր, նորությունների համակարգում, տեքստի ավտոմատ թարգմանություններ և շատ ավելին);
բժշկություն (հիվանդությունների ավտոմատ ախտորոշում);
ֆինանսական կառույցներ (վարկերի տրամադրման վերաբերյալ որոշումներ կայացնելը) և այլն;
Հեռուստաընկերություններ;
խոշոր մանրածախ ցանցեր;
նախընտրական քարոզարշավներ.

Կարևոր որակներ

Վերլուծական միտք;
ծանր աշխատանք;
համառություն;
բծախնդիրություն, ճշգրտություն, ուշադրություն;
հետազոտությանը հետևելու կարողություն՝ չնայած անհաջող միջանկյալ արդյունքներին.
մարդամոտություն;
բարդ բաներ պարզ բառերով բացատրելու ունակություն;
բիզնես ինտուիցիա.

Մասնագիտական գիտելիքներ և հմտություններ.

մաթեմատիկայի, մաթեմատիկական վերլուծության, մաթեմատիկական վիճակագրության, հավանականությունների տեսության իմացություն;
անգլերենի իմացություն;
Հիմնական ծրագրավորման լեզուների իմացություն, որոնք ունեն տվյալների մեծ զանգվածների հետ աշխատելու բաղադրիչներ՝ Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
վիճակագրական գործիքների իմացություն՝ SPSS, R, MATLAB, SAS Data Miner, Tableau;
արդյունաբերության մանրակրկիտ իմացություն, որտեղ աշխատում է տվյալների գիտնականը. եթե դա դեղագործական արդյունաբերություն է, ապա անհրաժեշտ է հիմնական արտադրական գործընթացների, դեղամիջոցի բաղադրիչների իմացությունը.
Տվյալների գիտնականի հիմնական հիմնական հմտությունը մեծ տվյալների զանգվածների համար կլաստերային պահպանման համակարգերի կազմակերպումն ու կառավարումն է.
բիզնեսի զարգացման օրենքների իմացություն;
տնտեսական գիտելիքներ.

համալսարաններ

Մոսկվայի պետական համալսարան Լոմոնոսով, հաշվողական մաթեմատիկայի և կիբեռնետիկայի ֆակուլտետ, հատուկ կրթական ծրագիր Mail.Ru Group «Տեխնոսֆերա»՝ մեծ քանակությամբ տվյալների արդյունահանման մեթոդների, C ++ ծրագրավորման, բազմաթելային ծրագրավորման և տեղեկատվության որոնման համակարգերի կառուցման տեխնոլոգիաների ուսուցմամբ:
MIPT, տվյալների վերլուծության վարչություն:
Տնտեսագիտության բարձրագույն դպրոցի Բիզնես ինֆորմատիկայի ֆակուլտետը պատրաստում է համակարգային վերլուծաբաններ, նախագծողներ և համալիրների իրականացնողներ. տեղեկատվական համակարգեր, կորպորատիվ տեղեկատվական համակարգերի կառավարման կազմակերպիչներ.
Yandex տվյալների վերլուծության դպրոց.
Իննոպոլիսի համալսարան, Դանդիի համալսարան, Հարավային Կալիֆորնիայի համալսարան, Օքլենդի համալսարան, Վաշինգտոնի համալսարան. Մեծ տվյալների մագիստրոսներ:
Կայսերական քոլեջի Լոնդոնի բիզնես դպրոց, տվյալների գիտության և կառավարման մագիստրոս:

Ինչպես ցանկացած մասնագիտության մեջ, այստեղ նույնպես կարևոր է ինքնակրթությունը, որն անկասկած կշահի այնպիսի ռեսուրսներից, ինչպիսիք են.

առցանց դասընթացներ աշխարհի առաջատար համալսարաններից COURSERA;
մեքենայական ուսուցման ալիք MASHIN LEARNING;
edX դասընթացների ընտրություն;
Udacity դասընթացներ;
Dataquest դասընթացներ, որտեղ դուք կարող եք դառնալ իսկական մասնագետ Data Science-ում;
Datacamp 6-քայլ դասընթացներ;
O'Reilly կրթական տեսանյութեր;
էկրաններ սկսնակների և առաջադեմ Data Origami-ի համար;
Moskow Data Scients Meetup-ի մասնագետների եռամսյա համաժողով;
տվյալների վերլուծության մրցույթ Kaggle.com

Աշխատավարձ

Աշխատավարձը 04.07.2019թ

Ռուսաստան 50,000-200,000 ₽

Մոսկվա 60000-300000 ₽

Data Scientist մասնագիտությունը ամենաբարձր վարձատրվողներից է։ Տեղեկություններ hh.ru կայքից՝ ամսական աշխատավարձը տատանվում է 8,5 հազար դոլարից մինչև 9 հազար դոլար, ԱՄՆ-ում նման մասնագետի աշխատավարձը կազմում է 110 հազար դոլար՝ տարեկան 140 հազար դոլար։

Superjob հետազոտական կենտրոնի հարցման համաձայն՝ Data Scientist-ի աշխատավարձերը կախված են աշխատանքային փորձից, պարտականությունների շրջանակից և տարածաշրջանից: Սկսնակ մասնագետը կարող է հաշվել 70 հազար ռուբլի: Մոսկվայում եւ 57 հազար ռուբլի: Սանկտ Պետերբուրգում։ Մինչև 3 տարի աշխատանքային փորձով աշխատավարձը բարձրանում է մինչև 110 հազար ռուբլի: Մոսկվայում և 90 հազար ռուբլի: Սանկտ Պետերբուրգում։ Գիտական հրապարակումներով փորձառու մասնագետների համար աշխատավարձը կարող է հասնել 220 հազար ռուբլի: Մոսկվայում եւ 180 հազար ռուբլի: Պետերբուրգում.

Կարիերայի քայլեր և հեռանկարներ

Data Scientist մասնագիտությունն ինքնին մեծ ձեռքբերում է, որը պահանջում է տեսական զգալի գիտելիքներ և գործնական փորձ մի քանի մասնագիտությունների գծով: Ցանկացած կազմակերպությունում նման մասնագետը առանցքային գործիչ է։ Այս բարձունքին հասնելու համար պետք է աշխատել քրտնաջան ու նպատակասլաց և անընդհատ կատարելագործվել մասնագիտության հիմքը կազմող բոլոր ոլորտներում։

Նրանք կատակում են Data Scientist-ի մասին. սա գեներալիստ է, ով ավելի լավ է ծրագրավորում, քան ցանկացած վիճակագիր և ավելի լավ գիտի վիճակագրությունը, քան ցանկացած ծրագրավորող: Իսկ ընկերության ղեկավարն ավելի լավ է հասկանում բիզնես գործընթացները։

ԻՆՉ Է ՊԱՏԱՀԵԼ "ՄԵԾ ՏՎՅԱԼՆԵՐ«Իրական թվո՞վ.

Ամեն 2 օրը մեկ տվյալների ծավալն ավելանում է այն տեղեկատվության քանակով, որը մարդկությունը ստեղծել է Սուրբ Ծնունդից մինչև 2003 թվականը:
Այսօր գոյություն ունեցող բոլոր տվյալների 90%-ը հայտնվել է վերջին 2 տարում։
Մինչեւ 2020 թվականը տեղեկատվության ծավալը 3,2-ից կհասնի 40 զետաբայթի։ 1 զետաբայթ = 10 21 բայթ:
1 րոպեի ընթացքում Ֆեյսբուքում տեղադրվում է 200 հազար լուսանկար, ուղարկվում է 205 միլիոն նամակ, տեղադրվում է 1,8 միլիոն հավանում։
1 վայրկյանում Google-ը մշակում է 40 հազար որոնման հարցում։
Յուրաքանչյուր արդյունաբերության տվյալների ընդհանուր ծավալը կրկնապատկվում է 1,2 տարին մեկ:
Մինչև 2020 թվականը Hadoop-ի ծառայությունների շուկան կաճի մինչև 50 միլիարդ դոլար:
ԱՄՆ-ում 2015 թվականին 1,9 միլիոն աշխատատեղ է ստեղծվել Big Data նախագծերի վրա աշխատող մասնագետների համար։
Big Data տեխնոլոգիաները մեծացնում են մանրածախ ցանցերի շահույթը տարեկան 60%-ով։
Ըստ կանխատեսումների՝ Big Data-ի շուկայի չափը 2020 թվականին կաճի մինչև 68,7 միլիարդ դոլար՝ 2014 թվականի 28,5 միլիարդ դոլարի դիմաց:

Չնայած աճի նման դրական ցուցանիշներին, կանխատեսումների մեջ կան սխալներ։ Այսպես, օրինակ, 2016-ի ամենաաղմկահարույց սխալներից մեկը՝ ԱՄՆ-ում նախագահական ընտրությունների մասին կանխատեսումները չարդարացան։ Կանխատեսումները ներկայացրել են հայտնի ամերիկացի գիտնական Նեյթ Սիլվերը, Քըրք Բորնը և Բիլ Շմարզոն՝ հօգուտ Հիլարի Քլինթոնի։ Անցած նախընտրական քարոզարշավներում նրանք ճշգրիտ կանխատեսումներ էին անում և երբեք չէին սխալվում։

Այս տարի, օրինակ, Նեյթ Սիլվերը տվեց ճշգրիտ կանխատեսում 41 նահանգի համար, իսկ 9 նահանգի համար՝ նա սխալվել է, ինչը հանգեցրել է Թրամփի հաղթանակին։ 2016 թվականի սխալների պատճառները վերլուծելուց հետո եկել են այն եզրակացության, որ.

Մաթեմատիկական մոդելները օբյեկտիվորեն արտացոլում են իրենց ստեղծման պահին պատկերը: Բայց նրանք ունեն կիսամյակ, որի ավարտին իրավիճակը կարող է կտրուկ փոխվել։ Մոդելի կանխատեսող որակները ժամանակի ընթացքում վատանում են: Այս դեպքում, օրինակ, իրենց դերը խաղացին չարաշահումները, եկամուտների անհավասարությունը և սոցիալական այլ ցնցումները։ Հետևաբար, մոդելը պետք է պարբերաբար թարմացվի՝ նոր տվյալներ արտացոլելու համար: Սա չարվեց։
Պետք է փնտրել և հաշվի առնել լրացուցիչ տվյալներ, որոնք կարող են էական ազդեցություն ունենալ կանխատեսումների վրա։ Այսպիսով, Քլինթոնի ու Թրամփի նախընտրական քարոզարշավի հանրահավաքների տեսանյութը դիտելիս հաշվի չի առնվել հանրահավաքների մասնակիցների ընդհանուր թիվը։ Խոսքը հարյուրավոր մարդկանց մասին էր։ Պարզվել է, որ հօգուտ Թրամփի հանրահավաքին մասնակցել է 400-600 մարդ, իսկ Քլինթոնի օգտին՝ ընդամենը 150-200, ինչն արտացոլվել է արդյունքներում։
Նախընտրական քարոզարշավներում մաթեմատիկական մոդելները հիմնված են ժողովրդագրական տվյալների վրա՝ տարիք, ռասա, սեռ, եկամուտ, կարգավիճակ հասարակության մեջ և այլն: Յուրաքանչյուր խմբի կշիռը որոշվում է նրանով, թե ինչպես են նրանք քվեարկել վերջին ընտրություններում: Նման կանխատեսումն ունի 3-4% սխալ և հուսալիորեն աշխատում է, երբ թեկնածուների միջև մեծ տարբերություն կա։ Բայց այս դեպքում Քլինթոնի և Թրամփի միջև անջրպետը փոքր էր, և այս կողմնակալությունը էական ազդեցություն ունեցավ ընտրությունների արդյունքների վրա։
Մարդկանց իռացիոնալ պահվածքը հաշվի չի առնվել. Կատարված հարցումներ հանրային կարծիքստեղծել պատրանք, որ մարդիկ կքվեարկեն այնպես, ինչպես պատասխանել են հարցումներում։ Բայց երբեմն հակառակն են անում։ Այս դեպքում անհրաժեշտ կլինի լրացուցիչ իրականացնել դեմքի և խոսքի վերլուծություն՝ քվեարկության նկատմամբ անարդար վերաբերմունքը բացահայտելու համար։

Ընդհանրապես, սխալ կանխատեսումն այդպես է ստացվել թեկնածուների միջև փոքր անջրպետի պատճառով։ Մեծ բացի դեպքում այս սխալներն այնքան էլ կարևոր չէին լինի:

Տեսանյութ. Նոր մասնագիտացում «Մեծ տվյալներ» - Միխայիլ Լևին

Նախորդ հոդվածը. Վերապատրաստման դասընթացներ ֆիզիկայի և աստղագիտության ուսուցիչների համար Ֆիզիկայի վերապատրաստման դասընթացներ ուսուցիչների համար Հաջորդ հոդվածը. Մանկավարժական պրոֆիլի ուսանողների հաջող հարմարեցումը որպես մասնագիտական վերապատրաստման պայման