Երկար ժամանակ ցանկացե՞լ եք պարզել, թե ինչպես դառնալ տվյալների վերլուծաբան, ուսումնասիրել տվյալների գիտությունը, բայց չգիտեիք, թե որտեղից սկսել: Ապա այս հոդվածը ձեզ համար է:
Մեզանից ո՞վ չի լսել «մեծ տվյալների» մասին։ Հազիվ թե մեկը լինի։ Վերջին տարիներին տվյալների հետ աշխատելու հետաքրքրությունը զգալիորեն աճել է, քանի որ խոշոր ՏՏ ընկերությունները պետք է ավելի ու ավելի շատ լուծումներ գտնեն տվյալների վերլուծության, մշակման և հետագա օգտագործման համար: Ոմանք նույնիսկ վազում են ուսումնական ծրագրերհամալսարանների հետ միասին։ Սակայն մեծամասնությունը չի հասկանում, թե ինչպիսի մարդիկ են՝ տվյալների վերլուծաբանները։ Եթե դուք այդ մարդկանցից եք և ցանկություն ունեք դառնալու տվյալների վերլուծաբան, ապա այս հոդվածը ձեզ համար է։ Մենք ընտրել ենք միայն անվճար ուսուցման գործիքներ, որոնք կարող եք օգտագործել որտեղ էլ որ լինեք:
Այսպես կոչված տվյալների վերլուծաբանները զբաղվում են դրա տեղեկատվությամբ և վերլուծությամբ՝ տեսողական, մարդու համար ընթեռնելի արդյունքներ ստանալու համար: Այս մարդիկ սովորաբար դասվում են որպես մեծ տվյալների, տվյալների արդյունահանման, մեքենայական ուսուցման, համակարգերի վերլուծության, բիզնես վերլուծաբանների մասնագետներ:
SHAD - տվյալների վերլուծության դասընթացներ Yandex-ի աշխատակիցներից: Այնտեղ մտնելը բավականին դժվար է, դիմորդների համար պահանջվող նվազագույնը բարձրագույն հանրահաշվի հիմնական բաժիններն են,մաթեմատիկական վերլուծություն, կոմբինատորիկա, հավանականությունների տեսություն, ինչպես նաև ծրագրավորման հիմունքներ։ Բարեբախտաբար, դասընթացները ձայնագրվում են, որպեսզի բոլորը կարողանան սովորել տեսադասախոսություններից:
Դասընթացը սովորեցնում է, թե ինչպես կիրառել հավանականության տեսությունը և վիճակագրությունը, խոսել մեքենայական ուսուցման հիմունքների մասին, սովորեցնել, թե ինչպես կառուցել ալգորիթմներ
Դասախոսությունների ժամանակ պատմվում է մեծ քանակությամբ տվյալների որոնման և տեսակավորման ալգորիթմների, տողերով ալգորիթմների և մանիպուլյացիաների, գրաֆիկա-տեսական ալգորիթմների, տվյալների կառուցվածքների կառուցման և վերլուծության մասին։
Նրանց համար, ովքեր վաղուց էին ցանկանում ծանոթանալ բազմաթելային և զուգահեռ ծրագրավորմանը, ինչպես նաև MapReduce-ին։
Դասընթացը ուսումնասիրում է կոմբինատոր, դիսկրետ և ասիմպտոտիկ վերլուծության, հավանականությունների տեսության, վիճակագրության հիմնական հասկացություններն ու մեթոդները, ինչպես նաև ցույց է տալիս դրանց կիրառությունը:
Դասընթացն ավարտելուց հետո դուք կսովորեք հավանական բարդության դասերի և տվյալների վերլուծության և կառուցման հիմնական տեխնիկայի մասին:
Դասընթացի ծրագրերը նախատեսված են Մոսկվայի մի քանի բուհերի ուսանողների համար, սակայն հասանելի են բոլորին: Ապագա վերլուծաբանների համար խորհուրդ ենք տալիս հետևյալ դասախոսությունների ժողովածուները.
Big Data University-ը առցանց դասընթաց է, որը ստեղծված է IBM-ի հետ համատեղ սկսնակների և մաթեմատիկական կրթություն չունեցող մարդկանց համար: Դասախոսությունները գրված են պարզ անգլերենով, որոնք կօգնեն ձեզ ծանոթանալ տվյալների հետ աշխատելու հիմունքներին:
Այս ալիքը պարունակում է դասախոսություններ մաթեմատիկայի, համակարգչային գիտության, ծրագրավորման և մեքենայական ուսուցման վերաբերյալ: Ընթացքում ուսումնասիրված իրերի կիրառման օրինակներ իրական կյանք... Դասախոսությունները անգլերեն են, բայց կան գերազանց ռուսերեն ենթագրեր։
Դասընթացը կենտրոնացած է այսօր նման խնդիրների լուծման ամենատարածված մոտեցումներից մեկի՝ դիսկրետ հավանականական գրաֆիկական մոդելների տեսության և կիրառությունների խորը ներածության վրա: Դասընթացի լեզուն անգլերենն է։
Ալիքն ամբողջությամբ նվիրված է տվյալների հետ աշխատելուն։ Ավելին, ոչ միայն մաթեմատիկայով հետաքրքրվողներն իրենց համար օգտակար բաներ կգտնեն։ Ֆինանսական վերլուծաբանների և ռոբոտաշինության համար Rasperri Pi-ի հետ կա վերլուծության և ծրագրավորման տեսանյութ:
Տղան խոսում է ժամանակակից տեխնոլոգիաներև ինչպես աշխատել նրանց հետ: Խորը ուսուցման, տվյալների գիտության, մեքենայական ուսուցման դասընթացները կօգնեն ձեզ սովորել, թե ինչպես աշխատել տվյալների հետ:
Եթե նոր եք ինչ-որ բան լսել մեքենայական ուսուցման մասին, բայց արդեն հետաքրքրված եք, ապա այս ալիքը ձեզ համար է։ Հեղինակը հասկանալի մակարդակով, օրինակներով, կբացատրի, թե ինչ է այն, ինչպես է այն աշխատում և որտեղ է այն կիրառվում:
Նրանց համար, ովքեր վստահ չեն, որ պատրաստ են ամբողջությամբ ինքնուրույն սովորել՝ դիտելով դասախոսությունները, կան առցանց դասընթացներ՝ ստուգման առաջադրանքներով։
Թե ինչ հարթակի մասին է խոսքը, բացատրելու կարիք չկա։ Դուք պետք է ընտրեք դասընթաց և սկսեք սովորել:
Առաջին մասը ներառում է R-ի վիճակագրական վերլուծության, տվյալների ընթերցման, տվյալների նախնական մշակման, հիմնական վիճակագրական մեթոդների կիրառման և արդյունքների վիզուալացման բոլոր հիմնական փուլերը: Ուսանողները կսովորեն ծրագրավորման հիմնական տարրերը R լեզվով, ինչը թույլ կտա արագ և արդյունավետ կերպով լուծել տվյալների մշակման ժամանակ առաջացող խնդիրների ամենալայն շրջանակը։
Երկրորդ մասը ներառում է մի քանի առաջադեմ թեմաներ, որոնք առաջինում չեն լուսաբանվել. տվյալների նախնական մշակում` օգտագործելով data.table և dplyr փաթեթները, առաջադեմ վիզուալիզացիայի տեխնիկա, աշխատել R Markdown-ում:
Դասընթաց նրանց համար, ովքեր որոշակի փորձ ունեն հարաբերական DBMS-ի հետ և ցանկանում են ավելին իմանալ, թե ինչպես են նրանք աշխատում: Դասընթացը ներառում է.
Դասընթացը կենտրոնանում է Hadoop համակարգի միջոցով մեծ քանակությամբ տվյալների մշակման մեթոդների վրա: Դասընթացն ավարտելուց հետո դուք կստանաք գիտելիքներ մեծ քանակությամբ տվյալների մշակման հիմնական պահպանման մեթոդների և մեթոդների մասին, կհասկանաք բաշխված համակարգերի սկզբունքները Hadoop շրջանակի համատեքստում և ձեռք կբերեք կիրառական կիրառական մշակման հմտություններ՝ օգտագործելով MapReduce ծրագրավորման մոդելը:
ՏՏ աշխարհում տարբեր ուղղություններ կան. Ինչ-որ մեկը զբաղվում է վարչարարությամբ, ինչ-որ մեկը մշակման կամ փորձարկման մեջ է։ Ստեղծվում են դասընթացներ, որոնք պատրաստում են համակարգի ադմինիստրատորներ, ծրագրավորողներ, թեստավորողներ։ Այս հոդվածում կքննարկվի հատուկ ծրագիր՝ Data Scientist, հատկապես մշակողների, վերլուծաբանների և արտադրանքի մենեջերների համար:
Տվյալների գիտնականի մասնագիտության շուրջ բազմաթիվ առասպելներ կան, և շատերը իրականում չեն հասկանում, թե դա ինչ է: Ինչ-որ մեկը կարծում է, որ տվյալների գիտնականը կամ տվյալների վերլուծաբանը ծրագրավորողի պես մի բան է (ըստ սկզբունքի՝ գիտես ծրագրավորել, ուրեմն գիտես ինչպես աշխատել տվյալների հետ), ինչ-որ մեկը համարում է, որ այս մասնագիտությունը նման է տվյալների բազայի ադմինիստրատորին, և ով ընդհանրապես չգիտի, թե դա ինչ է։
Առաջ նայելով, անմիջապես պետք է նշել, որ տվյալների վերլուծաբանը ծրագրավորող չէ և, իհարկե, տվյալների բազայի ադմինիստրատոր չէ, չնայած նա պետք է ունենա ծրագրավորման հմտություններ:
Տվյալների գիտնականը երեք հմտություններ ունեցող մարդ է.
Աշխատանքները միշտ չէ, որ կոչվում են տվյալների գիտնական: Շատ հաճախ կան տարբերակներ՝ ծրագրավորող-վերլուծաբան, Big Data վերլուծաբան, համակարգի վերլուծության մենեջեր, Big Data ճարտարապետ, բիզնես վերլուծաբան և այլն:
Տվյալների գիտնականի պարտականությունները ներառում են հետևյալը.
Տվյալների գիտնականը պետք է հասկանա իր կազմակերպության բիզնես կարիքները, տիրապետի վերլուծական գործիքներին՝ մեքենայական ուսուցում և տեքստային վերլուծություն:
McKinsey Global Institute-ի խորհրդատվական ընկերության տվյալներով՝ արդեն 2010թ հաջորդ տարիԱՄՆ-ում (միայն ԱՄՆ-ում, ոչ ամբողջ աշխարհում) տվյալների մասնագետների մի ամբողջ բանակ կպահանջվի՝ 140-ից 190 հազար։
ԱՄՆ-ում տվյալների գիտնականի միջին աշխատավարձը տարեկան ավելի քան 138,000 դոլար է: Ռուսաստանում կարող եք դիմել ամսական 120 հազար ռուբլի աշխատավարձի համար (տարեկան ավելի քան 26 հազար դոլար):
Եթե համեմատենք պարզ ծրագրավորողի մասնագիտության հետ, ապա ԱՄՆ-ում ծրագրավորողի միջին աշխատավարձը տարեկան 65-80 հազար դոլար է, իսկ Ռուսաստանում՝ ամսական 60 հազար ռուբլի կամ տարեկան 13 հազար դոլար։
Ամեն դեպքում, տվյալների գիտության ոլորտում գիտական աստիճան ստանալը կարող է օգնել ձեզ ավելի շատ վաստակել որպես ծրագրավորող:
Ինչպես տեսնում եք, տվյալների գիտնականը շատ խոստումնալից մասնագիտություն է: Նախ՝ նրա աշխատավարձն ավելի բարձր է, քան սովորական ծրագրավորողը։ Երկրորդ՝ տվյալների մասնագետներն այնքան էլ շատ չեն, և շուկան մասնագետների պակաս է զգում ոչ միայն Ռուսաստանում, այլ ամբողջ աշխարհում։
Համալսարանում կարող եք տիրապետել տվյալների գիտնականի մասնագիտությանը մասնագետների վերապատրաստման և լրացուցիչ վերապատրաստման համար:
Ուսանողները սկզբնական մակարդակում պետք է տիրապետեն ծրագրավորման առնվազն մեկ լեզվի (ավելի լավ է, եթե դա Python-ն է):
Աշակերտները պետք է իմանան մաթեմատիկա ավագ դպրոցի մակարդակում՝ ֆունկցիաներ, ածանցյալներ, վեկտորային և մատրիցային հանրահաշիվ, եռանկյունաչափություն:
Եթե չունեք անհրաժեշտ գիտելիքներ, ապա հատուկ ձեզ համար տրամադրվում է անվճար նախապատրաստական դասընթաց, որը կբացվի հիմնական դասընթացի վճարումից անմիջապես հետո։ Դասընթացը բաղկացած է 11 տեսանկարահանված դասախոսություններից և տնային առաջադրանքներից։ Նա կխոսի օղակների, տվյալների տեսակների, գործառույթների մասին, կսովորեցնի, թե ինչպես աշխատել HTTP հարցումների, տվյալների տարբեր ձևաչափերի և շատ ավելին:
Հիմնական արժեքը 180,000 ռուբլի է, սակայն մինչև հունիսի 15-ը վերապատրաստման արժեքը կրճատվել է մինչև 165,000 ռուբլի: Միաժամանակ տրամադրվում է 6 ամսվա անտոկոս ապառիկ, այսինքն՝ ուսուցման արժեքը ամսական 27500 ռուբլի է։
Ուսանողին տրվում է «Տվյալների վերլուծաբան / մեքենայական ուսուցման մասնագետ» մասնագիտությամբ մասնագիտական վերապատրաստման պետական դիպլոմ: Նրա հետ կարող եք դիմել «Տվյալների վերլուծաբան», «Մեծ տվյալների մշակող» պաշտոնի համար՝ ամսական 120 հազար ռուբլի աշխատավարձով։
Խնդրում ենք նկատի ունենալ, որ վերապատրաստումն ավարտելուց հետո տրվում է ոչ թե ինչ-որ «վկայական», այլ պետական դիպլոմ։
Տվյալների գիտություն, մեքենայական ուսուցում. դուք հավանաբար լսել եք այս մեծ բառերը, բայց որքանո՞վ էր դրանց իմաստը ձեզ համար պարզ: Ոմանց համար դրանք գեղեցիկ խայծեր են։ Ինչ-որ մեկը կարծում է, որ տվյալների գիտությունը կախարդանք է, որը կստիպի մեքենային անել այնպես, ինչպես պատվիրված է անվճար: Մյուսները նույնիսկ հավատում են, որ սա հեշտ ճանապարհհսկայական գումար վաստակել. Նիկիտա Նիկիտինսկին, IRELA-ի R&D ղեկավարը և տվյալների գիտնական Պոլինա Կազակովան, պարզ և հասկանալի լեզվով բացատրում են, թե ինչ է դա:
Ես աշխատում եմ բնական լեզվի ավտոմատ մշակման ոլորտում՝ տվյալների գիտության հավելվածներից մեկում, և հաճախ տեսնում եմ, որ մարդիկ այնքան էլ ճիշտ չեն օգտագործում այս տերմինները, ուստի ուզում էի մի փոքր պարզաբանել: Այս հոդվածը նրանց համար է, ովքեր վատ պատկերացում ունեն, թե ինչ է տվյալների գիտությունը և ցանկանում են հասկանալ հասկացությունները:
Սկսենք նրանից, որ ոչ ոք իսկապես չգիտի, թե ինչ է տվյալների գիտությունը, և չկա խիստ սահմանում. սա շատ լայն և միջդիսցիպլինար հասկացություն է: Ուստի այստեղ ես կկիսվեմ իմ տեսլականով, որը պարտադիր չէ, որ համընկնի ուրիշների կարծիքների հետ։
Տվյալների գիտություն տերմինը ռուսերեն թարգմանվում է որպես «տվյալների գիտություն», իսկ մասնագիտական միջավայրում հաճախ պարզապես տառադարձվում է՝ «տվյալների գիտություն»։ Ֆորմալ առումով այն համակարգչային գիտության և մաթեմատիկայի բնագավառից որոշ փոխկապակցված առարկաների և մեթոդների հավաքածու է: Չափից դուրս վերացական է հնչում, չէ՞: Եկեք պարզենք այն:
Տվյալների գիտության առաջին բաղադրիչը, առանց որի անհնար է ողջ հետագա գործընթացը, իրականում հենց տվյալներն են. ինչպես դրանք հավաքել, պահել և մշակել, ինչպես նաև ընդհանուր տվյալների զանգվածից օգտակար տեղեկատվություն հանել: Դա տվյալների մաքրումն ու դրանք հասցնելն է ճիշտ տեսակմասնագետները հատկացնում են իրենց աշխատաժամանակի մինչև 80%-ը։
Այս կետի կարևոր մասն այն է, թե ինչպես վարվել այն տվյալների հետ, որոնց պահպանման և մշակման ստանդարտ մեթոդները հարմար չեն դրանց հսկայական ծավալի և/կամ բազմազանության պատճառով՝ այսպես կոչված, մեծ տվյալներ, մեծ տվյալներ: Ի դեպ, մի շփոթվեք. մեծ տվյալները և տվյալների գիտությունը հոմանիշներ չեն, ավելի շուտ, երկրորդի առաջին ենթաբաժինը: Միևնույն ժամանակ, տվյալների վերլուծաբանները միշտ չէ, որ պետք է գործնականում աշխատեն մեծ տվյալների հետ. փոքր տվյալները կարող են օգտակար լինել:
Պատկերացրեք, որ մենք մտածում ենք, թե արդյոք կա որևէ կապ այն բանի միջև, թե որքան սուրճ են խմում ձեր աշխատակիցները օրական և որքան են նրանք քնել նախորդ գիշերը: Գրի առնենք մեզ հասանելի տեղեկատվությունը. ենթադրենք ձեր գործընկեր Գրիգորին այսօր քնել է 4 ժամ, ուստի ստիպված է եղել խմել 3 բաժակ սուրճ; Էլինան քնել է 9 ժամ և ընդհանրապես սուրճ չի խմել; և Պոլինան քնել է ամբողջ 10 ժամը, բայց խմել է 2,5 բաժակ սուրճ և այլն:
Ստացված տվյալները ցուցադրենք գրաֆիկի վրա (տեսողականացումը նույնպես կարևոր տարր է տվյալների գիտության ցանկացած նախագծի)։ Եկեք ժամերով հետաձգենք ժամանակը X առանցքի վրա, իսկ սուրճը միլիլիտրներով Y առանցքի վրա: Մենք ստանում ենք նման բան.
Մենք ունենք տվյալներ, հիմա ի՞նչ կարող ենք անել դրանց հետ։ Ճիշտ վերլուծեք, հանեք օգտակար նախշեր և ինչ-որ կերպ օգտագործեք դրանք։ Այստեղ մեզ կօգնեն այնպիսի առարկաներ, ինչպիսիք են վիճակագրությունը, մեքենայական ուսուցումը, օպտիմալացումը:
Դրանք կազմում են տվյալների գիտության հաջորդ և գուցե ամենակարևոր մասը՝ տվյալների վերլուծությունը: Մեքենայի ուսուցումը թույլ է տալիս գտնել օրինաչափություններ գոյություն ունեցող տվյալների մեջ, որպեսզի այնուհետև կարողանաք գուշակել նոր օբյեկտների համար ձեզ անհրաժեշտ տեղեկատվությունը:
Վերադառնանք մեր օրինակին։ Աչքին թվում է, որ երկու պարամետրերը ինչ-որ կերպ փոխկապակցված են՝ ինչպես ավելի քիչ մարդքնել է, հաջորդ օրը այնքան սուրճ է խմելու։ Միաժամանակ մենք ունենք նաև այս միտումից առանձնացող օրինակ՝ Պոլինան, ով սիրում է քնել և սուրճ խմել։ Այնուամենայնիվ, դուք կարող եք փորձել մոտավորել ստացված օրինակը որոշ ընդհանուր ուղիղ գծով, որպեսզի այն հնարավորինս մոտ լինի բոլոր կետերին.
Կանաչ գիծը մեր մեքենայական ուսուցման մոդելն է, այն ամփոփում է տվյալները և կարելի է նկարագրել մաթեմատիկորեն: Այժմ դրա օգնությամբ մենք կարող ենք որոշել նոր օբյեկտների արժեքները. երբ ուզում ենք գուշակել, թե այսօր գրասենյակ մտած Նիկիտան որքան սուրճ կխմի, կհարցնենք, թե որքան է նա քնել։ Որպես պատասխան ստանալով 7,5 ժամ արժեքը՝ մենք այն փոխարինում ենք մոդելի մեջ՝ այն համապատասխանում է խմած սուրճի քանակին 300 մլ-ից մի փոքր պակաս ծավալով։ Կարմիր կետը ներկայացնում է մեր կանխատեսումը:
Ահա թե ինչպես է աշխատում մեքենայական ուսուցումը, որի գաղափարը շատ պարզ է՝ գտնել օրինաչափություն և տարածել այն նոր տվյալների վրա: Փաստորեն, մեքենայական ուսուցման մեջ առանձնանում է խնդիրների մեկ այլ դաս, երբ անհրաժեշտ է ոչ թե կանխատեսել որոշ արժեքներ, ինչպես մեր օրինակում, այլ տվյալները բաժանել որոշ խմբերի։ Բայց այս մասին ավելի մանրամասն կխոսենք մեկ այլ անգամ:
Այնուամենայնիվ, իմ կարծիքով, տվյալների գիտությունը չի ավարտվում տվյալների մեջ օրինաչափությունների նույնականացմամբ: Տվյալների գիտության ցանկացած նախագիծ կիրառական հետազոտություն է, որտեղ կարևոր է չմոռանալ այնպիսի բաների մասին, ինչպիսիք են վարկածի ձևակերպումը, փորձի պլանավորումը և, իհարկե, արդյունքի գնահատումը և դրա համապատասխանությունը կոնկրետ դեպքի լուծման համար:
Վերջինս շատ կարևոր է իրական բիզնեսի խնդիրներում, երբ անհրաժեշտ է հասկանալ՝ արդյո՞ք հայտնաբերված տվյալների գիտության լուծումը օգուտ կտա ձեր նախագծին, թե ոչ։ Ո՞րը կարող է լինել կառուցված մոդելի օգտակարությունը մեր օրինակում: Թերևս դրա օգնությամբ մենք կարող էինք օպտիմալացնել սուրճի առաքումը գրասենյակ։ Միևնույն ժամանակ, մենք պետք է գնահատենք ռիսկերը և որոշենք, թե արդյոք մեր մոդելն ավելի լավ կհաղթահարի դրան, քան գոյություն ունեցող լուծումը՝ գրասենյակի մենեջեր Միխայիլը, ով պատասխանատու է ապրանքի գնման համար:
Իհարկե, մեր օրինակը հնարավորինս պարզեցված է։ Իրականում կարելի է կառուցել ավելի բարդ մոդել, որը հաշվի կառնի որոշ այլ գործոններ, օրինակ՝ արդյոք մարդը սկզբունքորեն սիրում է սուրճը։ Կամ մոդելը կարող է գտնել հարաբերություններ, որոնք ավելի բարդ են, քան ուղիղ գծով ներկայացվածները:
Սկզբում կարելի էր գտնել մեր տվյալների մեջ արտանետումներ՝ առարկաներ, որոնք, ինչպես Պոլինան, շատ տարբեր են մյուսներից շատերից: Փաստն այն է, որ իրական աշխատանքում նման օրինակները կարող են վատ ազդեցություն ունենալ մոդելի կառուցման գործընթացի և դրա որակի վրա, և իմաստ ունի դրանք ինչ-որ կերպ այլ կերպ մշակել: Եվ երբեմն նման օբյեկտները առաջնային հետաքրքրություն են ներկայացնում, օրինակ, բանկային աննորմալ գործարքների հայտնաբերման խնդիր՝ խարդախությունը կանխելու համար։
Բացի այդ, Պոլինան մեզ ցույց է տալիս ևս մեկ կարևոր գաղափար՝ մեքենայական ուսուցման ալգորիթմների անկատարությունը։ Մեր մոդելը կանխատեսում է ընդամենը 100 մլ սուրճ այն մարդու համար, ով քնած է 10 ժամ, մինչդեռ իրականում Պոլինան խմել է մինչև 500: Տվյալների գիտության լուծումների հաճախորդները երբեք չեն հավատա դրան, բայց դեռևս անհնար է մեքենային սովորեցնել ամեն ինչ գուշակել: աշխարհը կատարյալ կերպով. անկախ նրանից, թե որքան լավ ենք մենք կարող ենք մեկուսացնել օրինաչափությունները տվյալների մեջ, միշտ կան անկանխատեսելի տարրեր:
Այսպիսով, տվյալների գիտությունը տվյալների մշակման և վերլուծության մեթոդների մի շարք է և դրանք կիրառելու գործնական խնդիրներում: Պետք է հասկանալ, որ յուրաքանչյուր մասնագետ ունի իր տեսակետն այս ոլորտի վերաբերյալ, և կարծիքները կարող են տարբեր լինել:
Տվյալների գիտությունը հիմնված է բավականին պարզ գաղափարների վրա, սակայն գործնականում հաճախ հայտնաբերվում են բազմաթիվ ոչ ակնհայտ նրբություններ: Ինչպես է տվյալների գիտությունը մեզ շրջապատում առօրյա կյանքում, տվյալների վերլուծության ինչ մեթոդներ կան, ումից է բաղկացած տվյալների գիտության թիմը և ինչ դժվարություններ կարող են առաջանալ հետազոտության գործընթացում, մենք կխոսենք այս մասին հաջորդ հոդվածներում:
Մենք շարունակում ենք աշխատաշուկայում հմտությունների պահանջարկի վերլուծական ուսումնասիրությունների շարքը։ Այս անգամ Pavel Surmenk sharky-ի շնորհիվ մենք կդիտարկենք նոր մասնագիտություն՝ Data Scientist:
Վերջին տարիներին Data Science տերմինը սկսել է ժողովրդականություն ձեռք բերել: Այս մասին շատ են գրում, համաժողովներում խոսում։ Որոշ ընկերություններ նույնիսկ վարձում են մարդկանց տվյալների գիտնականի հնչեղ աշխատանքի համար: Ի՞նչ է տվյալների գիտությունը: Իսկ ովքեր են տվյալների գիտնականները:
Ռոբերտ Չանգը՝ Twitter-ի տվյալների գիտնականը, իր մասնագիտության ներկայացուցիչներին բաժանում է 2 խմբի՝ Type A Data Scientist v.s. Բ տիպի տվյալների գիտնական:
Տիպ A, որտեղ A-ն վերլուծություն է: Այս մարդիկ հիմնականում մտահոգված են ստատիկ տվյալներից իմաստ կորզելով: Նրանք շատ նման են վիճակագիրներին, նրանք նույնիսկ կարող են լինել վիճակագիր և պարզապես փոխել իրենց աշխատանքի կոչումը Data Scientist-ի, և, ինչպես գիտենք, աշխատանքի անվանման մեկ փոփոխությունը կարող է աշխատավարձի զգալի բարձրացում տալ, գումարած պատիվ և հարգանք: Բայց բացի վիճակագրությունից, նրանք գիտեն նաև գործնական ասպեկտներ՝ ինչպես մաքրել տվյալները, ինչպես աշխատել տվյալների մեծ հավաքածուների հետ, ինչպես պատկերացնել տվյալները և նկարագրել իրենց աշխատանքի արդյունքները:
Տիպ B, որտեղ B-ն շենք է: Նրանք նաև վիճակագրության իմացություն ունեն, բայց ուժեղ և փորձառու ծրագրավորողներ են։ Նրանք ավելի շատ հետաքրքրված են տվյալների կիրառմամբ իրական համակարգերում: Հաճախ կառուցվում են մոդելներ, որոնք աշխատում են օգտատերերի հետ փոխազդեցությամբ, օրինակ՝ արտադրանքի առաջարկությունների համակարգեր, ֆիլմեր, գովազդ:
Տվյալների գիտությունը նաև մի փոքր համընկնում է այնպիսի ոլորտների հետ, ինչպիսիք են մեքենայական ուսուցումը և արհեստական ինտելեկտը, որոնք մոտ են տիպի B տվյալների գիտությանը:
Ի՞նչ սովորել նրանց համար, ովքեր ցանկանում են դառնալ Data Scientist, ի՞նչ հմտություններ են անհրաժեշտ: Եկեք տեսնենք, թե ինչ պահանջներ են առաջադրել ամերիկացի գործատուները տվյալների գիտության և մեքենայական ուսուցման ոլորտներում պաշտոններ զբաղեցնելու թեկնածուների համար:
Ինչպես երևում է վարկանիշից, ամենատարածվածը մաթեմատիկայի, վիճակագրության, համակարգչային գիտության և մեքենայական ուսուցման հիմնարար գիտելիքներն են: Բացի տեսական գիտելիքներից, Data Scientist-ը պետք է կարողանա «հանել», մաքրել, մոդելավորել և պատկերացնել տվյալները: Զարգացման փորձը նույնպես կարևոր է ծրագրային ապահովումև որակի կառավարում։
R-ն մասնագիտացված ծրագրավորման լեզու է վիճակագրական հաշվարկների համար, այդ իսկ պատճառով այն այդքան սիրված է վիճակագիրների և տվյալների գիտնականների կողմից: Այն թույլ է տալիս արագ բեռնել տվյալների բազան, հաշվարկել հիմնական վիճակագրական բնութագրերը, պատկերացնել տվյալները և կառուցել տվյալների մոդելներ:
Python-ը, թեև այն ընդհանուր նշանակության ծրագրավորման լեզու է, ունի մեծ թվով որակյալ գրադարաններ և հարթակներ տվյալների գիտության և մեքենայական ուսուցման համար:
Հատկանշական է, որ թափուր աշխատատեղերի 39%-ը պահանջում է միաժամանակ և՛ R, և՛ Python-ի իմացություն, ուստի ավելի լավ է երկու լեզուներն էլ սովորել միանգամից, քան փորձել դրանցից մեկը ընտրել:
Մեծ տվյալների համար գործատուները նախընտրում են օգտագործել Hadoop-ը և Spark-ը: MySQL-ը և MongoDB-ն հայտնի են տվյալների բազաների մեջ:
Այնուամենայնիվ, հանդիպող փափուկ հմտություններից ամենակարևորը հետևյալն է. հաղորդակցման հմտություններ, տվյալների վիզուալիզացիա, ներկայացումներ, արդյունավետ գրել և խոսել: Օգտակար են նաև թիմային աշխատանքը, կառավարման և խնդիրների լուծման հմտությունները:
Չնայած որոշ օրինաչափություններ հետաքրքիր են թվում: Օրինակ, եթե աշխատանքը պահանջում է Python-ի կամ C ++-ի իմացություն, ապա հաղորդակցման և կառավարման հմտությունների պահանջը քիչ հավանական է, և հակառակը:
Եթե դուք ավելի շատ հակված եք դեպի տվյալների վերլուծություն, ապա լավ տարբերակՏվյալների գիտության մասնագիտացման դասընթացներն են Coursera-ում. Սկսեք ձեր կարիերան տվյալների գիտության ոլորտում: Մասնագիտացում ստանալն անվճար չէ, բայց եթե վկայականի կարիք չունեք, ապա կարող եք անվճար անցնել այս բոլոր դասընթացները. պարզապես նայեք դասընթացի անվանումը և օգտագործեք որոնումը դասընթացը գտնելու համար:
Մեքենայական ուսուցմամբ հետաքրքրվողների համար մենք խորհուրդ ենք տալիս դասընթացը Էնդրյու Նգը՝ Baidu Research-ի գլխավոր գիտնական, ով նաև Սթենֆորդի պրոֆեսորադասախոսական կազմի անդամ է և Coursera: Computer Learning-ի հիմնադիրը:
Տվյալների գիտնական- մեծ քանակությամբ տվյալների մշակման, վերլուծության և պահպանման մասնագետ, այսպես կոչված, «Մեծ տվյալներ»: Մասնագիտությունը հարմար է նրանց համար, ովքեր հետաքրքրված են ֆիզիկայով, մաթեմատիկայով և համակարգչային գիտությամբ (տե՛ս մասնագիտության ընտրություն դպրոցական առարկաների նկատմամբ հետաքրքրության համար):
Տվյալների գիտություն - տվյալների գիտություն տարբեր առարկաների խաչմերուկում՝ մաթեմատիկա և վիճակագրություն; ինֆորմատիկա և համակարգչային գիտություն; բիզնես և տնտեսագիտություն։
(Ս. Մալցևա, Վ. Կորնիլով, Ազգային հետազոտական համալսարան «Տնտեսագիտության բարձրագույն դպրոց»)
Մասնագիտությունը նոր է, համապատասխան և. «Մեծ տվյալներ» տերմինն ինքնին հայտնվել է 2008թ. Իսկ Data Scientist-ի մասնագիտությունը՝ «Data Scientist»-ը պաշտոնապես գրանցվեց որպես ակադեմիական և միջոլորտային դիսցիպլին 2010 թվականի սկզբին։ .
Նման մասնագիտության առաջացման անհրաժեշտությունը թելադրված էր նրանով, որ երբ խոսքը վերաբերում է Ultra Big Data-ին, տվյալների հավաքածուները չափազանց մեծ են մաթեմատիկական վիճակագրության ստանդարտ միջոցներով մշակման համար: Ամեն օր հազարավոր փետաբայթ (10 15 բայթ = 1024 տերաբայթ) տեղեկատվություն անցնում է աշխարհի տարբեր երկրների ընկերությունների սերվերներով։ Բացի տվյալների նման ծավալներից, խնդիրը բարդանում է դրանց տարասեռությամբ և թարմացման բարձր արագությամբ:
Տվյալների զանգվածները բաժանված են 3 տեսակի.
կառուցվածքային (օրինակ՝ առևտրում ՀԴՄ-ների տվյալները);
կիսակառույց (էլեկտրոնային հաղորդագրություններ);
չկառուցված (վիդեո ֆայլեր, պատկերներ, լուսանկարներ):
Մեծ Տվյալների մեծ մասը անկառուցվածքային է, ինչը շատ ավելի դժվար է դարձնում դրանց մշակումը:
Առանձին-առանձին վիճակագիր, համակարգային վերլուծաբան կամ բիզնես վերլուծաբան չի կարող խնդիրներ լուծել տվյալների նման ծավալների հետ: Դրա համար անհրաժեշտ է միջդիսցիպլինար կրթություն ունեցող, մաթեմատիկայի և վիճակագրության, տնտեսագիտության և բիզնեսի, համակարգչային գիտության և համակարգչային տեխնիկայի իրավասու անձ:
Տվյալների գիտաշխատողի հիմնական խնդիրն է անհրաժեշտ տեղեկատվությունը տարբեր աղբյուրներից քաղելու ունակությունը՝ օգտագործելով տեղեկատվական հոսքերը իրական ժամանակում. բացահայտել թաքնված օրինաչափությունները տվյալների հավաքածուներում և վիճակագրականորեն վերլուծել դրանք՝ խելացի բիզնես որոշումներ կայացնելու համար: Նման մասնագետի աշխատավայրը ոչ թե 1 համակարգիչ է կամ նույնիսկ 1 սերվեր, այլ սերվերների կլաստեր։
Տվյալների գիտնականը տվյալների հետ աշխատում է տարբեր ձևերով.
Տվյալների գիտնականի պարտականությունները կախված են նրա գործունեության ոլորտից, սակայն գործառույթների ընդհանուր ցանկը հետևյալն է.
Data Scientist-ը, ինչպես իրական գիտնականը, ոչ միայն հավաքում և վերլուծում է տվյալներ, այլև դրանք ուսումնասիրում է տարբեր համատեքստերում և տարբեր անկյուններից՝ կասկածի տակ դնելով ցանկացած ենթադրություն: Տվյալների գիտնականի ամենակարևոր որակը հավաքագրված տեղեկատվության համակարգում տրամաբանական կապեր տեսնելու և քանակական վերլուծության հիման վրա արդյունավետ բիզնես լուծումներ մշակելու կարողությունն է: Այսօրվա մրցակցային և արագ փոփոխվող աշխարհում, տեղեկատվության անընդհատ աճող հոսքի մեջ, Data Scientist-ն անփոխարինելի է ձեզ ճիշտ բիզնես որոշումներ կայացնելու հարցում:
կողմ
Մինուսներ
Տվյալների գիտնականը առանցքային պաշտոններ է զբաղեցնում հետևյալում.
Մասնագիտական գիտելիքներ և հմտություններ.
Ինչպես ցանկացած մասնագիտության մեջ, այստեղ նույնպես կարևոր է ինքնակրթությունը, որն անկասկած կշահի այնպիսի ռեսուրսներից, ինչպիսիք են.
Ռուսաստան 50,000-200,000 ₽
Մոսկվա 60000-300000 ₽
Data Scientist մասնագիտությունը ամենաբարձր վարձատրվողներից է։ Տեղեկություններ hh.ru կայքից՝ ամսական աշխատավարձը տատանվում է 8,5 հազար դոլարից մինչև 9 հազար դոլար, ԱՄՆ-ում նման մասնագետի աշխատավարձը կազմում է 110 հազար դոլար՝ տարեկան 140 հազար դոլար։
Superjob հետազոտական կենտրոնի հարցման համաձայն՝ Data Scientist-ի աշխատավարձերը կախված են աշխատանքային փորձից, պարտականությունների շրջանակից և տարածաշրջանից: Սկսնակ մասնագետը կարող է հաշվել 70 հազար ռուբլի: Մոսկվայում եւ 57 հազար ռուբլի: Սանկտ Պետերբուրգում։ Մինչև 3 տարի աշխատանքային փորձով աշխատավարձը բարձրանում է մինչև 110 հազար ռուբլի: Մոսկվայում և 90 հազար ռուբլի: Սանկտ Պետերբուրգում։ Գիտական հրապարակումներով փորձառու մասնագետների համար աշխատավարձը կարող է հասնել 220 հազար ռուբլի: Մոսկվայում եւ 180 հազար ռուբլի: Պետերբուրգում.
Data Scientist մասնագիտությունն ինքնին մեծ ձեռքբերում է, որը պահանջում է տեսական զգալի գիտելիքներ և գործնական փորձ մի քանի մասնագիտությունների գծով: Ցանկացած կազմակերպությունում նման մասնագետը առանցքային գործիչ է։ Այս բարձունքին հասնելու համար պետք է աշխատել քրտնաջան ու նպատակասլաց և անընդհատ կատարելագործվել մասնագիտության հիմքը կազմող բոլոր ոլորտներում։
Նրանք կատակում են Data Scientist-ի մասին. սա գեներալիստ է, ով ավելի լավ է ծրագրավորում, քան ցանկացած վիճակագիր և ավելի լավ գիտի վիճակագրությունը, քան ցանկացած ծրագրավորող: Իսկ ընկերության ղեկավարն ավելի լավ է հասկանում բիզնես գործընթացները։
ԻՆՉ Է ՊԱՏԱՀԵԼ "ՄԵԾ ՏՎՅԱԼՆԵՐ«Իրական թվո՞վ.
Չնայած աճի նման դրական ցուցանիշներին, կանխատեսումների մեջ կան սխալներ։ Այսպես, օրինակ, 2016-ի ամենաաղմկահարույց սխալներից մեկը՝ ԱՄՆ-ում նախագահական ընտրությունների մասին կանխատեսումները չարդարացան։ Կանխատեսումները ներկայացրել են հայտնի ամերիկացի գիտնական Նեյթ Սիլվերը, Քըրք Բորնը և Բիլ Շմարզոն՝ հօգուտ Հիլարի Քլինթոնի։ Անցած նախընտրական քարոզարշավներում նրանք ճշգրիտ կանխատեսումներ էին անում և երբեք չէին սխալվում։
Այս տարի, օրինակ, Նեյթ Սիլվերը տվեց ճշգրիտ կանխատեսում 41 նահանգի համար, իսկ 9 նահանգի համար՝ նա սխալվել է, ինչը հանգեցրել է Թրամփի հաղթանակին։ 2016 թվականի սխալների պատճառները վերլուծելուց հետո եկել են այն եզրակացության, որ.
Ընդհանրապես, սխալ կանխատեսումն այդպես է ստացվել թեկնածուների միջև փոքր անջրպետի պատճառով։ Մեծ բացի դեպքում այս սխալներն այնքան էլ կարևոր չէին լինի: