Та өгөгдлийн шинжээч болох, мэдээллийн шинжлэх ухаанд суралцахыг удаан хүсч байсан ч хаанаас эхлэхээ мэдэхгүй байсан уу? Тэгвэл энэ нийтлэл танд зориулагдсан болно.
Бидний хэн нь "том өгөгдөл" гэж сонсоогүй вэ? Наад зах нь нэг байх магадлал багатай. IN өнгөрсөн жилМэдээллийн технологийн томоохон компаниуд мэдээлэлд дүн шинжилгээ хийх, боловсруулах, дараа нь ашиглах шинэ шийдлүүдийг гаргах шаардлагатай болсон тул өгөгдөлтэй ажиллах сонирхол ихээхэн нэмэгдсэн. Зарим нь бүр гүйдэг сургалтын хөтөлбөрүүдих дээд сургуулиудтай хамт. Гэсэн хэдий ч ихэнх нь мэдээллийн шинжээчид ямар хүмүүс болохыг ойлгодоггүй. Хэрэв та эдгээр хүмүүсийн нэг бөгөөд танд дата шинжээч болохыг хүсч байгаа бол энэ нийтлэл танд зориулагдсан болно. Бид зөвхөн таны байршлаас үл хамааран ашиглах боломжтой сургалтын үнэгүй хэрэгслийг сонгосон.
Мэдээллийн аналитик гэж нэрлэгддэг хүмүүс нүдэнд харагдахуйц үр дүнг олж авахын тулд мэдээлэл, дүн шинжилгээ хийх ажилд оролцдог. Ийм хүмүүс ихэвчлэн том өгөгдөл, өгөгдөл олборлолт, машин сургалт, системийн шинжилгээ, бизнесийн шинжээчид багтдаг.
ShAD - Yandex ажилтнуудын өгөгдөлд дүн шинжилгээ хийх курсууд. Тэнд ороход нэлээд хэцүү, өргөдөл гаргагчдад шаардагдах хамгийн бага зүйл бол дээд алгебрийн үндсэн хэсгүүд юм.математик анализ, комбинаторик, магадлалын онол, түүнчлэн програмчлалын үндэс. Аз болоход, хүн бүр видео лекцээс суралцах боломжтой байхаар курсуудыг бүртгэдэг.
Энэхүү сургалт нь магадлалын онол, статистикийг хэрхэн ашиглах, машин сургалтын үндсийг ярих, алгоритм хэрхэн бүтээх талаар сурах болно.
Лекцийн үеэр тэд их хэмжээний өгөгдлийг хайх, эрэмбэлэх алгоритмууд, алгоритмууд болон мөрт аргачлалууд, график-онолын алгоритмууд, өгөгдлийн бүтцийг бий болгох, шинжлэх талаар ярилцдаг.
Олон урсгалтай, зэрэгцээ програмчлал, мөн MapReduce-тэй танилцахыг удаан хүсч байсан хүмүүст зориулав.
Уг хичээл нь комбинатор, дискрет ба асимптотик анализ, магадлалын онол, статистикийн үндсэн ойлголт, аргуудыг багтааж, тэдгээрийн хэрэглээг харуулсан болно.
Хичээлийг үзсэний дараа та магадлалын нарийн төвөгтэй байдлын ангиуд болон өгөгдөлд дүн шинжилгээ хийх, зурах үндсэн аргуудын талаар суралцах болно.
Хичээлийн хөтөлбөрүүд нь Москвагийн хэд хэдэн их дээд сургуулийн оюутнуудад зориулагдсан боловч хэн ч үзэх боломжтой. Ирээдүйн шинжээчдэд бид дараах лекцийн цуглуулгыг санал болгож байна.
Big Data University нь анхан шатны болон математикийн боловсролгүй хүмүүст зориулсан IBM-тэй хамтран бүтээсэн онлайн сургалт юм. Өгөгдөлтэй ажиллах үндсэн зарчмуудтай танилцахад туслах лекцүүд нь ойлгомжтой англи хэл дээр бичигдсэн болно.
Энэ суваг нь математик, компьютерийн шинжлэх ухаан, програмчлал, машин сургалтын талаархи лекцүүдийг агуулдаг. Энэ явцад судлагдсан зүйлийг ашиглах жишээг үзүүлэв жинхэнэ амьдрал. Лекцүүд англи хэл дээр байдаг ч орос хэлний хадмал орчуулгатай.
Энэхүү сургалт нь өнөөгийн ийм асуудлыг шийдвэрлэх хамгийн түгээмэл аргуудын нэг болох дискрет магадлалын график загваруудын онол, хэрэглээний талаар гүнзгий танилцуулгад чиглэгддэг. Хичээлийн хэл нь англи хэл юм.
Энэ суваг нь өгөгдөлтэй ажиллахад бүрэн зориулагдсан. Түүгээр ч зогсохгүй математик сонирхдог хүмүүс өөрсдөдөө хэрэгтэй зүйл олж авах болно. Rasperri Pi-тэй санхүүгийн шинжээчид болон робот техникийн шинжилгээ, програмчлалын тухай видео байна.
Залуу ярьж байна орчин үеийн технологимөн тэдэнтэй хэрхэн ажиллах талаар. Гүнзгий суралцах, мэдээллийн шинжлэх ухаан, машин сургалтын курсууд нь өгөгдөлтэй хэрхэн ажиллах талаар сурахад тань тусална.
Хэрэв та машин сургалтын талаар хагас дутуу сонссон ч аль хэдийн сонирхож байгаа бол энэ суваг танд зориулагдсан болно. Зохиогч ойлгомжтой түвшинд, жишээнүүдийн тусламжтайгаар энэ нь юу болох, хэрхэн ажилладаг, хаана хэрэглэгдэж байгааг тайлбарлах болно.
Лекц үзэж байхдаа бие даан суралцахад бэлэн гэдэгтээ эргэлзэж байгаа хүмүүсийн хувьд баталгаажуулах даалгавар бүхий онлайн курсууд байдаг.
Энэ нь ямар платформ болохыг тайлбарлах шаардлагагүй. Та хичээлээ сонгоод дадлага хийж эхлэх хэрэгтэй.
Эхний хэсэгт R статистикийн шинжилгээ, өгөгдөл унших, өгөгдлийг урьдчилан боловсруулах, статистикийн үндсэн аргуудыг ашиглах, үр дүнг дүрслэн харуулах бүх үндсэн үе шатуудыг багтаасан болно. Оюутнууд програмчлалын үндсэн элементүүдийг R хэлээр сурах бөгөөд энэ нь өгөгдөл боловсруулахад гарч буй өргөн хүрээний асуудлыг хурдан бөгөөд үр дүнтэй шийдвэрлэх боломжийг олгоно.
Хоёрдахь хэсэг нь эхний хэсэгт ороогүй хэд хэдэн дэвшилтэт сэдвүүдийг авч үздэг: data.table болон dplyr багцуудыг ашиглан өгөгдлийг урьдчилан боловсруулах, дүрслэх дэвшилтэт техник, R Markdown дээр ажиллах.
Харилцааны DBMS-ийн талаар бага зэрэг туршлагатай, хэрхэн ажилладаг талаар илүү ихийг мэдэхийг хүсдэг хүмүүст зориулсан курс. Курс нь:
Энэхүү сургалт нь Hadoop системийг ашиглан их хэмжээний өгөгдлийг боловсруулах аргуудад чиглэгддэг. Хичээлийг дүүргэсний дараа та их хэмжээний өгөгдлийг хадгалах, боловсруулах үндсэн аргуудын талаар мэдлэгтэй болж, Hadoop хүрээний контекст дахь тархсан системийн зарчмуудыг ойлгож, MapReduce програмчлалын загварыг ашиглан программ боловсруулах практик ур чадварыг эзэмшинэ.
Мэдээллийн технологийн ертөнцөд өөр өөр чиглэлүүд байдаг. Хэн нэгэн нь удирдлага, хэн нэгэн нь хөгжүүлэлт эсвэл туршилтын ажилд оролцдог. Системийн администраторууд, програмистууд, тестерүүдийг бэлтгэх курсууд байгуулагдаж байна. Энэ нийтлэлд тусгай программ - Data Scientist - ялангуяа хөгжүүлэгчид, шинжээчид, бүтээгдэхүүний менежерүүдэд зориулагдсан болно.
Өгөгдөл судлаач мэргэжлийг тойрсон олон домог байдаг бөгөөд ихэнх нь энэ нь юу болохыг сайн ойлгодоггүй. Мэдээллийн мэргэжилтэн эсвэл өгөгдлийн шинжээч гэдэг нь программист (хэрэв та програмчлахыг мэддэг бол өгөгдөлтэй хэрхэн ажиллахаа мэддэг зарчмын дагуу) юм шиг санагддаг), хэн нэгэн энэ мэргэжлийг мэдээллийн сангийн администратортой төстэй гэж үздэг. хэн Тэр энэ юу болохыг огт мэдэхгүй.
Урагшаа харахад өгөгдлийн шинжээч нь программист биш, мэдээжийн хэрэг мэдээллийн сангийн администратор биш боловч програмчлалын ур чадвартай байх шаардлагатай гэдгийг нэн даруй тэмдэглэх нь зүйтэй.
Өгөгдөл судлаач нь гурван бүлгийн ур чадварыг эзэмшдэг мэргэжилтэн юм.
Ажлын байрыг үргэлж Data Scientist гэж нэрлэдэггүй. Маш олон сонголтууд байдаг: програмист-аналитик, том мэдээллийн шинжээч, системийн шинжилгээний менежер, том мэдээллийн архитектор, бизнесийн шинжээч болон бусад.
Мэдээлэл судлаачийн үүрэг хариуцлагад дараахь зүйлс орно.
Өгөгдлийн мэргэжилтэн нь байгууллагынхаа бизнесийн хэрэгцээг ойлгож, аналитик хэрэгслүүдийг эзэмшсэн байх ёстой: машин сургалт, текст аналитик.
McKinsey Global Institute зөвлөх компанийн мэдээлснээр аль хэдийн орсон байна дараа жилАНУ-д (зөвхөн АНУ-д, дэлхий даяар биш!) танд өгөгдөл судлаачдын арми хэрэгтэй болно - 140-190 мянга.
АНУ-д мэдээлэл судлаачийн дундаж цалин жилд 138,000 доллараас дээш байдаг. ОХУ-д та сард 120 мянган рублийн (жилд 26 мянган доллараас дээш) цалин авах хүсэлт гаргаж болно.
Энгийн програмистын мэргэжилтэй харьцуулбал АНУ-д програмистын дундаж цалин жилд 65-80 мянган доллар, Орост сард 60 мянган рубль буюу жилд 13 мянган доллар байна.
Ямар ч тохиолдолд та өгөгдөл судлаач болсноор програмистаас илүү их орлого олох боломжтой.
Таны харж байгаагаар өгөгдөл судлаач бол маш ирээдүйтэй мэргэжил юм. Нэгдүгээрт, түүний цалин энгийн програмистын цалингаас өндөр байдаг. Хоёрдугаарт, мэдээлэл судлаачид тийм ч олон биш бөгөөд зах зээл зөвхөн Орос улсад төдийгүй дэлхий даяар мэргэжилтнүүдийн хомсдолд орж байна.
Та мэргэжилтэн бэлтгэх, нэмэлт сургалтад хамрагдахын тулд их сургуульд Мэдээллийн судлаач мэргэжлийг эзэмшиж болно.
Оюутнууд наад зах нь нэг програмчлалын хэлийг анхан шатны түвшинд эзэмшсэн байх ёстой (хэрэв Python бол илүү сайн).
Сурагчид ахлах сургуулийн түвшинд математикийн мэдлэгтэй байх ёстой: функц, дериватив, вектор ба матрицын алгебр, тригонометр.
Хэрэв танд шаардлагатай мэдлэг байхгүй бол үндсэн сургалтын төлбөрөө төлсний дараа шууд нээгдэх үнэ төлбөргүй бэлтгэл курс танд зориулагдсан болно. Энэхүү сургалт нь лекц, гэрийн даалгаврын 11 видео бичлэгээс бүрдэнэ. Тэрээр мөчлөг, өгөгдлийн төрөл, функцүүдийн талаар ярих болно, HTTP хүсэлтүүд, өөр өөр өгөгдлийн формат болон бусад олон зүйлстэй хэрхэн ажиллахыг заах болно.
Үндсэн зардал нь 180,000 рубль боловч 6-р сарын 15 хүртэл сургалтын зардлыг 165,000 рубль болгон бууруулсан. Үүний зэрэгцээ 6 сарын хугацаанд хүүгүй төлбөрийн төлөвлөгөөг өгдөг, өөрөөр хэлбэл сургалтын зардал сард 27,500 рубль байдаг.
Оюутанд "Өгөгдлийн шинжээч / Машин сургалтын мэргэжилтэн" мэргэжлээр мэргэжлийн давтан сургах улсын диплом олгоно. Түүнтэй хамт та сард 120 мянган рублийн цалинтай "Өгөгдлийн шинжээч", "Big Data Developer" гэсэн албан тушаалд өргөдөл гаргаж болно.
Сургалт дууссаны дараа ямар нэгэн "сертификат" биш, харин төрийн диплом олгодог болохыг анхаарна уу.
Өгөгдлийн шинжлэх ухаан, машин сургалт - Та эдгээр том үгсийг сонссон байх, гэхдээ тэдний утга нь таны хувьд хэр ойлгомжтой байсан бэ? Зарим хүмүүсийн хувьд тэд сайхан өгөөш юм. Мэдээллийн шинжлэх ухаан бол машиныг хүссэн зүйлээ үнэ төлбөргүй хийдэг ид шид гэж хэн нэгэн боддог. Бусад нь бүр тийм гэж итгэдэг хялбар аргаасар их мөнгө олох. IRELA-ийн R&D хэлтсийн дарга Никита Никитинский, өгөгдөл судлаач Полина Казакова нар энэ нь юу болохыг энгийн бөгөөд ойлгомжтой хэлээр тайлбарлав.
Би өгөгдлийн шинжлэх ухааны програмуудын нэг болох байгалийн хэлний автомат боловсруулалт дээр ажилладаг бөгөөд хүмүүс эдгээр нэр томъёог хэрхэн буруу ашигладаг болохыг байнга хардаг тул жаахан тодруулахыг хүссэн. Энэ нийтлэл нь өгөгдлийн шинжлэх ухаан гэж юу болох талаар муу ойлголттой, ойлголтыг ойлгохыг хүсдэг хүмүүст зориулагдсан болно.
Эхлэхийн тулд хэн ч өгөгдлийн шинжлэх ухаан гэж яг юу болохыг мэддэггүй бөгөөд хатуу тодорхойлолт байдаггүй - энэ бол маш өргөн хүрээтэй, салбар хоорондын ойлголт юм. Тиймээс би энд бусдын бодолтой давхцах албагүй өөрийн алсын хараагаа хуваалцах болно.
Өгөгдлийн шинжлэх ухаан гэдэг нэр томъёог орос хэлэнд “өгөгдлийн шинжлэх ухаан” гэж орчуулдаг бөгөөд мэргэжлийн орчинд үүнийг “өгөгдлийн шинжлэх ухаан” гэж энгийнээр галиглах нь элбэг. Албан ёсоор бол энэ нь компьютерийн шинжлэх ухаан, математикийн салбар дахь харилцан уялдаатай зарим хичээл, аргуудын багц юм. Хэт хийсвэр сонсогдож байна, тийм ээ? Үүнийг олж мэдье.
Мэдээллийн шинжлэх ухааны эхний бүрэлдэхүүн хэсэг бөгөөд үүнгүйгээр цаашдын үйл явцыг бүхэлд нь хийх боломжгүй бөгөөд үнэн хэрэгтээ өгөгдөл өөрөө юм: түүнийг хэрхэн цуглуулах, хадгалах, боловсруулах, түүнчлэн ерөнхий өгөгдлийн массиваас хэрэгтэй мэдээллийг хэрхэн гаргаж авах. Энэ нь өгөгдлийг цэвэрлэж, түүнийг авчрах явдал юм зөв төрөлмэргэжилтнүүд ажлын цагийнхаа 80 хүртэлх хувийг зориулдаг.
Энэ догол мөрний чухал хэсэг бол том өгөгдөл, том өгөгдөл гэж нэрлэгддэг асар том хэмжээ ба / эсвэл олон янз байдлаас шалтгаалан стандарт хадгалах, боловсруулахад тохиромжгүй өгөгдөлтэй хэрхэн харьцах явдал юм. Дашрамд хэлэхэд, андуурч болохгүй: том өгөгдөл ба мэдээллийн шинжлэх ухаан нь ижил утгатай биш юм: хоёрдугаарт, эхний дэд хэсэг юм. Үүний зэрэгцээ, практик дээр өгөгдөл судлаачид том өгөгдөлтэй ажиллах шаардлагагүй байдаг - жижиг нь ашигтай байж болно.
Танай ажлын хамт олон өдөрт хэр их кофе уудаг, өмнөх өдөр нь хэр их унтдаг хоёрын хооронд ямар нэгэн хамаарал байгаа эсэхийг бид сонирхож байна гэж төсөөлөөд үз дээ. Бидэнд байгаа мэдээллээ бичье: таны хамтран зүтгэгч Грегори өнөөдөр 4 цаг унтсан тул 3 аяга кофе уух шаардлагатай болсон гэж бодъё; Элина 9 цаг унтсан бөгөөд кофе огт уугаагүй; Полина 10 цаг унтсан ч 2.5 аяга кофе уусан гэх мэт.
Хүлээн авсан өгөгдлөө график дээр зурцгаая (визуалчлал нь аливаа мэдээллийн шинжлэх ухааны төслийн чухал элемент юм). X тэнхлэг дээр цагийг цагаар, Y тэнхлэгт кофег миллилитрээр тэмдэглэе. Бид иймэрхүү зүйлийг авах болно:
Бидэнд өгөгдөл байгаа, одоо бид үүнийг яах вэ? Энэ нь зөв, дүн шинжилгээ хийж, ашигтай хэв маягийг гаргаж аваад ямар нэгэн байдлаар ашигла. Энд бидэнд статистик, машин сургалт, оновчлол зэрэг салбарууд туслах болно.
Тэд мэдээллийн шинжлэх ухааны дараагийн бөгөөд магадгүй хамгийн чухал бүрэлдэхүүн хэсэг болох өгөгдлийн шинжилгээг бүрдүүлдэг. Машины сургалт нь одоо байгаа өгөгдлөөс хэв маягийг олох боломжийг олгодог бөгөөд ингэснээр та шинэ объектуудын зөв мэдээллийг урьдчилан таамаглах боломжтой болно.
Өөрийнхөө жишээ рүү буцъя. Энэ хоёр параметр нь ямар нэгэн байдлаар хоорондоо холбоотой юм шиг санагдаж байна: цөөн хүнУнтсан бол маргааш нь илүү их кофе уух болно. Үүний зэрэгцээ бидэнд энэ чиг хандлагаас гарсан жишээ бас бий - нойр, кофенд дуртай Полина. Гэсэн хэдий ч та үүссэн хэв маягийг бүх цэгүүдэд аль болох ойртуулахын тулд нийтлэг шулуун шугамаар ойртуулахыг оролдож болно.
Ногоон шугам нь манай машин сургалтын загвар бөгөөд өгөгдлийг нэгтгэн дүгнэж, математикийн хувьд тайлбарлаж болно. Одоо түүний тусламжтайгаар бид шинэ объектуудын үнэ цэнийг тодорхойлж чадна: оффист орж ирсэн Никита өнөөдөр хэр их кофе уухыг таамаглах үед бид түүний хэр их унтсаныг сонирхох болно. Хариулт нь 7.5 цагийн утгыг хүлээн авсны дараа бид үүнийг загварт орлуулж байна - энэ нь 300 мл-ээс бага хэмжээгээр уусан кофены хэмжээтэй тохирч байна. Улаан цэг нь бидний таамаглалыг илэрхийлдэг.
Машины сургалт ингэж ажилладаг бөгөөд санаа нь маш энгийн: хэв маягийг олж, шинэ өгөгдөл болгон өргөжүүлэх. Үнэн хэрэгтээ, бидний жишээн дээрх шиг зарим утгыг урьдчилан таамаглах шаардлагагүй, харин өгөгдлийг зарим бүлэгт хуваах шаардлагатай үед машин сургалтын өөр ангиллын даалгаврууд гарч ирдэг. Гэхдээ бид өөр удаа энэ талаар илүү дэлгэрэнгүй ярих болно.
Гэсэн хэдий ч миний бодлоор мэдээллийн шинжлэх ухаан нь өгөгдлийн хэв маягийг тодорхойлох замаар дуусдаггүй. Мэдээллийн шинжлэх ухааны аливаа төсөл бол хэрэглээний судалгаа бөгөөд таамаглал дэвшүүлэх, туршилт төлөвлөх, мэдээжийн хэрэг үр дүн, тодорхой хэргийг шийдвэрлэхэд тохиромжтой эсэхийг үнэлэх зэрэг зүйлсийг мартаж болохгүй.
Сүүлийнх нь олсон мэдээллийн шинжлэх ухааны шийдэл нь таны төсөлд ашиг тусаа өгөх эсэхийг ойлгох шаардлагатай үед бизнесийн бодит ажлуудад маш чухал юм. Бидний жишээн дээр бүтээсэн загвар нь ямар ашигтай байх вэ? Магадгүй түүний тусламжтайгаар бид оффис руу кофе хүргэх ажлыг оновчтой болгож болох юм. Үүний зэрэгцээ бид эрсдлийг үнэлж, манай загвар одоо байгаа шийдлээс илүү үүнийг даван туулах чадвартай эсэхийг тодорхойлох хэрэгтэй - оффисын менежер Михаил, бүтээгдэхүүнийг худалдан авах үүрэгтэй.
Мэдээжийн хэрэг, бидний жишээг хамгийн хялбаршуулсан болно. Бодит байдал дээр хүн ерөнхийдөө кофенд дуртай эсэх гэх мэт бусад хүчин зүйлсийг харгалзан үзэх илүү төвөгтэй загварыг бий болгох боломжтой юм. Эсвэл загвар нь шулуун шугамаар дүрслэгдсэнээс илүү төвөгтэй харилцааг олж чадна.
Полина шиг бусдаас эрс ялгаатай объектуудыг эхлээд бидний өгөгдлөөс олж болно. Бодит ажил дээр ийм жишээнүүд нь загвар бүтээх үйл явц, түүний чанарт муугаар нөлөөлж болзошгүй тул тэдгээрийг ямар нэгэн байдлаар өөрөөр боловсруулах нь утга учиртай юм. Заримдаа ийм объектууд нь жишээлбэл, залилан мэхлэхээс урьдчилан сэргийлэхийн тулд банкны хэвийн бус гүйлгээг илрүүлэх ажилд ихээхэн анхаарал хандуулдаг.
Нэмж дурдахад Полина бидэнд өөр нэг чухал санааг харуулж байна - машин сургалтын алгоритмуудын төгс бус байдал. Манай загвар 10 цаг унтсан хүнд ердөө 100 мл кофе өгнө гэж таамаглаж байсан бол үнэндээ Полина 500 хүртэл уудаг байжээ. Мэдээллийн шинжлэх ухааны шийдлүүдийн үйлчлүүлэгчид үүнд хэзээ ч итгэхгүй, гэхдээ бүх зүйлийг төгс таамаглахыг машинд заах боломжгүй хэвээр байна. Дэлхий дээр: өгөгдлийн хэв маягийг хэчнээн сайн тодруулсан ч урьдчилан тааварлах боломжгүй элементүүд үргэлж байх болно.
Тиймээс өгөгдлийн шинжлэх ухаан нь өгөгдлийг боловсруулах, шинжлэх, практик асуудалд ашиглах аргуудын цогц юм. Үүний зэрэгцээ мэргэжилтэн бүр энэ чиглэлээр өөрийн гэсэн үзэл бодолтой байдаг бөгөөд санал бодол нь өөр байж болно гэдгийг ойлгох хэрэгтэй.
Өгөгдлийн шинжлэх ухаан нь нэлээд энгийн санаанууд дээр суурилдаг боловч практикт олон нарийн мэдрэмжүүд ихэвчлэн олддог. Өгөгдлийн шинжлэх ухаан биднийг өдөр тутмын амьдралд хэрхэн хүрээлдэг, өгөгдөлд дүн шинжилгээ хийх ямар аргууд байдаг, мэдээллийн шинжлэх ухааны баг хэнээс бүрддэг, судалгааны явцад ямар бэрхшээл тулгарч болох талаар бид дараагийн өгүүллээр ярих болно.
Бид хөдөлмөрийн зах зээл дэх ур чадварын эрэлтийн талаархи цуврал аналитик судалгааг үргэлжлүүлж байна. Энэ удаад Павел Сурменок акулын ачаар бид шинэ мэргэжлийг авч үзэх болно - Data Scientist.
Сүүлийн жилүүдэд Data Science гэсэн нэр томъёо түгээмэл болж эхэлсэн. Тэд энэ талаар маш их бичдэг, чуулган дээр ярьдаг. Зарим компаниуд Мэдээлэл судлаач хэмээх сүр дуулиантай цолны төлөө хүмүүсийг ажилд авдаг. Өгөгдлийн шинжлэх ухаан гэж юу вэ? Мэдээлэл судлаач гэж хэн бэ?
Твиттерийн мэдээлэл судлаач Роберт Чанг өөрийн мэргэжлийнхээ төлөөлөгчдийг 2 бүлэгт хуваадаг: Type A Data Scientist v.s. В төрлийн мэдээлэл судлаач.
А төрөл, энд А нь шинжилгээ. Эдгээр хүмүүс статик өгөгдлөөс утгыг гаргахад голчлон анхаардаг. Тэд статистикчидтай тун төстэй, бүр статистикч байж, зүгээр л ажлын байрны нэрээ Data Scientist болгон өөрчилж чаддаг бөгөөд бидний мэдэж байгаагаар зөвхөн нэг ажлын байрны нэр солигдох нь цалинг мэдэгдэхүйц нэмэгдүүлэхээс гадна хүндэтгэл, хүндэтгэлийг авчирдаг. Гэхдээ статистик мэдээллээс гадна тэд өгөгдлийг хэрхэн цэвэрлэх, том өгөгдлийн багцтай хэрхэн ажиллах, өгөгдлийг хэрхэн дүрслэн харуулах, ажлынхаа үр дүнг тайлбарлах зэрэг практик талуудыг мэддэг.
B төрөл, B нь Барилга. Тэд бас статистикийн мэдлэгтэй ч хүчирхэг, туршлагатай програмистууд юм. Тэд өгөгдлийг бодит системд ашиглах сонирхолтой байдаг. Ихэнхдээ хэрэглэгчидтэй харилцаж ажилладаг загваруудыг бүтээдэг, жишээлбэл, бараа бүтээгдэхүүн, кино, зар сурталчилгааг санал болгох системүүд.
Мэдээллийн шинжлэх ухаан нь машин сургалт, хиймэл оюун ухаан зэрэг салбаруудтай бага зэрэг давхцдаг тул энэ чиглэлийн төлөөлөгчид В төрлийн мэдээллийн шинжлэх ухаанд ойр байдаг.
Мэдээлэл судлаач болохыг хүсч буй хүмүүст юу сурах вэ, ямар ур чадвар шаардлагатай вэ? АНУ-ын ажил олгогчдын мэдээллийн шинжлэх ухаан, машин сургалтын чиглэлээр албан тушаалд нэр дэвшигчдэд тавигдах шаардлагыг харцгаая.
Жагсаалтаас харахад хамгийн алдартай нь математик, статистик, компьютерийн шинжлэх ухаан, машин сургалтын суурь мэдлэг юм. Мэдээллийн мэргэжилтэн нь онолын мэдлэгээс гадна өгөгдлийг “олборлох”, цэвэрлэх, загварчлах, дүрслэх чадвартай байх ёстой. Хөгжлийн туршлага бас чухал. програм хангамжчанарын удирдлага.
R бол статистикийн тооцоололд зориулагдсан тусгай програмчлалын хэл тул статистикчид болон өгөгдөл судлаачдын дуртай байдаг. Энэ нь өгөгдлийн багцыг хурдан ачаалах, статистикийн үндсэн шинж чанарыг тооцоолох, өгөгдлийг дүрслэн харуулах, өгөгдлийн загвар бүтээх боломжийг олгодог.
Python нь ерөнхий зориулалтын програмчлалын хэл боловч мэдээллийн шинжлэх ухаан, машин сургалтын маш олон тооны өндөр чанартай номын сан, платформтой.
Сонирхолтой нь ажлын байрны 39% нь R болон Python хоёрын аль алиных нь мэдлэгийг нэгэн зэрэг шаарддаг тул аль нэгийг нь сонгох гэж оролдохын оронд хоёр хэлийг нэг дор сурсан нь дээр.
Том өгөгдөлтэй ажиллахын тулд ажил олгогчид Hadoop болон Spark ашиглахыг илүүд үздэг. Алдартай мэдээллийн санд MySQL болон MongoDB орно.
Гэсэн хэдий ч тулгарч буй зөөлөн ур чадваруудын дотроос хамгийн чухал нь: харилцах, өгөгдлийг дүрслэн харуулах, илтгэл тавих, үр дүнтэй бичих, ярих чадвар юм. Багаар ажиллах, удирдах, асуудлыг шийдвэрлэх ур чадвар нь бас тустай.
Хэдийгээр зарим загвар нь сонирхолтой мэт санагддаг. Жишээлбэл, хэрэв ажилд Python эсвэл C++-ийн мэдлэг шаардагддаг бол харилцаа холбоо, менежментийн ур чадвар шаардагддаггүй, эсвэл эсрэгээрээ.
Хэрэв та өгөгдөлд илүү их дүн шинжилгээ хийдэг бол сайн сонголтЭдгээр нь Coursera дахь мэдээллийн шинжлэх ухааны чиглэлээр мэргэшсэн сургалтууд юм: Мэдээллийн шинжлэх ухааны чиглэлээр карьераа эхлүүл. Мэргэшсэн мэргэжлийг олж авах нь үнэ төлбөргүй биш боловч хэрэв танд гэрчилгээ шаардлагагүй бол эдгээр бүх сургалтыг үнэ төлбөргүй үзэх боломжтой: курсын нэрийг хараад, хайлтыг ашиглан курсээ олох боломжтой.
Машины сургалтыг сонирхдог хүмүүст би Стэнфордын профессор, Coursera: Computer Learning-ийг үндэслэгч Baidu Research-ийн ахлах эрдэмтэн Эндрю Нг зөвлөж байна.
мэдээлэл судлаач— "Том өгөгдөл" гэж нэрлэгддэг том хэмжээний мэдээллийн массивыг боловсруулах, дүн шинжилгээ хийх, хадгалах мэргэжилтэн. Энэ мэргэжил нь физик, математик, компьютерийн шинжлэх ухааныг сонирхож буй хүмүүст тохиромжтой (сургуулийн хичээлийг сонирхож буй мэргэжлийг сонгох хэсгийг үзнэ үү).
Өгөгдлийн шинжлэх ухаан - өөр өөр салбаруудын уулзвар дахь мэдээллийн шинжлэх ухаан: математик, статистик; мэдээлэл зүй, компьютерийн шинжлэх ухаан; бизнес ба эдийн засаг.
(С.Мальцева, В.Корниловын нэрэмжит Үндэсний судалгааны их сургууль "Эдийн засгийн дээд сургууль")
Мэргэжил нь шинэ, хамааралтай,. "Big Data" гэсэн нэр томъёо нь өөрөө 2008 онд гарч ирсэн. Мэдээлэл судлаач - "Өгөгдөл судлаач" мэргэжил нь 2010 оны эхээр эрдэм шинжилгээний болон салбар дундын мэргэжлээр албан ёсоор бүртгэгдсэн. Хэдийгээр "өгөгдлийн шинжлэх ухаан" гэсэн нэр томъёог анх 1974 онд Питер Наурын номонд тэмдэглэсэн боловч өөр агуулгаар тэмдэглэсэн байдаг. .
Ultra Big Data-ийн тухай ярихад өгөгдлийн массивууд нь математик статистикийн стандарт хэрэгслээр боловсруулахад хэтэрхий том байгаа нь ийм мэргэжил бий болох хэрэгцээ шаардлагаас үүдэлтэй юм. Өдөр бүр олон мянган петабайт (10 15 байт = 1024 терабайт) мэдээлэл дэлхий даяарх компаниудын серверээр дамждаг. Ийм их хэмжээний өгөгдлөөс гадна тэдний нэг төрлийн бус байдал, шинэчлэлтийн өндөр хурдаар асуудал нь төвөгтэй байдаг.
Өгөгдлийн массивыг 3 төрөлд хуваадаг.
бүтэцтэй (жишээлбэл, худалдааны кассын бүртгэлийн мэдээлэл);
хагас бүтэцтэй (И-мэйл мессеж);
бүтэцгүй (видео файл, зураг, зураг).
Ихэнх Big Data нь бүтэцгүй байдаг тул боловсруулахад илүү төвөгтэй болгодог.
Хувь хүний хувьд статистикч, системийн шинжээч эсвэл бизнесийн шинжээч ийм хэмжээний өгөгдөлтэй холбоотой асуудлыг шийдэж чадахгүй. Үүнд салбар дундын боловсролтой, математик, статистик, эдийн засаг ба бизнес, компьютерийн шинжлэх ухаан, компьютерийн технологийн чиглэлээр мэргэшсэн хүн хэрэгтэй.
Мэдээлэл судлаачийн гол үүрэг бол бодит цагийн мэдээллийн урсгалыг ашиглан олон төрлийн эх сурвалжаас шаардлагатай мэдээллийг гаргаж авах чадвар юм; өгөгдлийн багц дахь далд хэв маягийг илрүүлж, ухаалаг бизнесийн шийдвэр гаргахын тулд статистик дүн шинжилгээ хийх. Ийм мэргэжилтний ажлын байр нь 1 компьютер эсвэл бүр 1 сервер биш, харин серверүүдийн кластер юм.
Өгөгдөл судлаач өгөгдөлтэй ажиллахдаа янз бүрийн аргыг ашигладаг.
Өгөгдөл судлаачийн үүрэг хариуцлага нь түүний үйл ажиллагааны цар хүрээнээс хамаардаг боловч чиг үүргийн ерөнхий жагсаалт нь дараах байдалтай байна.
Мэдээлэл судлаач нь жинхэнэ эрдэмтэн шиг зөвхөн өгөгдөл цуглуулж, дүн шинжилгээ хийхээс гадна өөр өөр нөхцөл байдал, өөр өнцгөөс судалж, аливаа таамаглалд эргэлздэг. Мэдээллийн мэргэжилтний хамгийн чухал чанар бол цуглуулсан мэдээллийн систем дэх логик холболтыг олж харах, тоон шинжилгээнд үндэслэн бизнесийн үр дүнтэй шийдлийг боловсруулах чадвар юм. Өрсөлдөөнт, хурдацтай өөрчлөгдөж буй өнөөгийн ертөнцөд, мэдээллийн урсгал байнга өсөн нэмэгдэж буй энэ үед Дата судлаач нь бизнесийн зөв шийдвэр гаргахад манлайлахад зайлшгүй шаардлагатай.
давуу тал
Сул талууд
Мэдээллийн мэргэжилтэн нь дараахь үндсэн байр суурийг эзэлдэг.
Мэргэжлийн мэдлэг, ур чадвар:
Аливаа мэргэжлийн нэгэн адил өөрийгөө боловсрол эзэмших нь энд чухал ач холбогдолтой бөгөөд үүний эргэлзээгүй ашиг тусыг дараахь нөөцөөр авчрах болно.
Орос 50000-200000₽
Москва 60000-300000₽
Дата судлаач мэргэжил бол хамгийн өндөр цалинтай мэргэжил юм. hh.ru сайтаас авсан мэдээлэл - сарын цалин 8.5 мянган доллараас 9 мянган доллар хүртэл хэлбэлздэг.АНУ-д ийм мэргэжилтний цалин жилд 110 мянга - 140 мянган доллар байдаг.
Superjob судалгааны төвийн судалгаагаар Data Scientist-ийн мэргэжилтнүүдийн цалин ажлын туршлага, ажил үүргийн цар хүрээ, бүс нутгаас хамаардаг. Шинэхэн мэргэжилтэн 70 мянган рубльд найдаж болно. Москвад 57 мянган рубль. Санкт-Петербургт. 3 жил хүртэлх ажлын туршлагатай бол цалин 110 мянган рубль хүртэл нэмэгддэг. Москвад 90 мянган рубль. Санкт-Петербургт. Шинжлэх ухааны нийтлэлтэй туршлагатай мэргэжилтнүүд 220,000 рубль хүртэл орлого олох боломжтой. Москвад 180 мянган рубль. Петербургт.
Мэдээлэл судлаач мэргэжил нь өөрөө өндөр амжилт бөгөөд хэд хэдэн мэргэжлээр ноцтой онолын мэдлэг, практик туршлага шаарддаг. Аливаа байгууллагад ийм мэргэжилтэн гол дүр байдаг. Энэ өндөрлөгт хүрэхийн тулд тухайн мэргэжлийн үндэс болсон бүх салбарт шаргуу, зорилготой ажиллаж, байнга сайжирч байх ёстой.
Тэд Data Scientist-ийн талаар хошигнодог: энэ бол ямар ч статистикчдаас илүү сайн программчлагч, статистикийг ямар ч програмистаас илүү мэддэг ерөнхий мэргэжилтэн юм. Мөн тэрээр компанийн даргаас илүү бизнесийн үйл явцыг ойлгодог.
ЮУ БОЛОВ "ТОМ ӨГӨГДӨЛ» бодит тоогоор?
Өсөлт ийм эерэг үзүүлэлттэй байгаа ч урьдчилсан мэдээнд алдаа гарч байна. Жишээлбэл, 2016 оны хамгийн алдартай алдаануудын нэг нь АНУ-ын Ерөнхийлөгчийн сонгуулийн талаарх таамаг биелээгүй юм. Таамаглалыг АНУ-ын нэрт мэдээлэл судлаач Нэйт Силвер, Кирк Борн, Билл Шмарзо нар Хиллари Клинтоны талд дэвшүүлжээ. Өнгөрсөн сонгуулийн кампанит ажилд тэд үнэн зөв прогноз гаргаж, алдаа гаргадаггүй байсан.
Энэ жил, жишээлбэл, Нэйт Силвер өгсөн үнэн зөв урьдчилсан мэдээ 41 муж улсын хувьд, харин 9 муж улсын хувьд буруу байсан нь Трампыг ялалтад хүргэсэн. 2016 оны алдааны шалтгааныг шинжилсний дараа тэд дараахь дүгнэлтэд хүрсэн байна.
Ер нь нэр дэвшигчдийн хоорондын зөрүү бага байснаас алдаатай таамаглал ийм болсон. Их хэмжээний зөрүүтэй тохиолдолд эдгээр алдаа нь тийм ч чухал ач холбогдолтой биш юм.