гэр » Шинжлэх ухаан » Мэдээлэл судлаач (Их хэмжээний өгөгдөл боловсруулах, дүн шинжилгээ хийх, хадгалах чиглэлээр мэргэшсэн мэргэжилтэн). Өгөгдлийн шинжлэх ухаан гэж юу вэ, энэ нь хэрхэн ажилладаг вэ?  Дата шинжлэх ухаан гэж юу вэ

Мэдээлэл судлаач (Их хэмжээний өгөгдөл боловсруулах, дүн шинжилгээ хийх, хадгалах чиглэлээр мэргэшсэн мэргэжилтэн). Өгөгдлийн шинжлэх ухаан гэж юу вэ, энэ нь хэрхэн ажилладаг вэ?  Дата шинжлэх ухаан гэж юу вэ

Та өгөгдлийн шинжээч болох, мэдээллийн шинжлэх ухаанд суралцахыг удаан хүсч байсан ч хаанаас эхлэхээ мэдэхгүй байсан уу? Тэгвэл энэ нийтлэл танд зориулагдсан болно.

Бидний хэн нь "том өгөгдөл" гэж сонсоогүй вэ? Наад зах нь нэг байх магадлал багатай. IN өнгөрсөн жилМэдээллийн технологийн томоохон компаниуд мэдээлэлд дүн шинжилгээ хийх, боловсруулах, дараа нь ашиглах шинэ шийдлүүдийг гаргах шаардлагатай болсон тул өгөгдөлтэй ажиллах сонирхол ихээхэн нэмэгдсэн. Зарим нь бүр гүйдэг сургалтын хөтөлбөрүүдих дээд сургуулиудтай хамт. Гэсэн хэдий ч ихэнх нь мэдээллийн шинжээчид ямар хүмүүс болохыг ойлгодоггүй. Хэрэв та эдгээр хүмүүсийн нэг бөгөөд танд дата шинжээч болохыг хүсч байгаа бол энэ нийтлэл танд зориулагдсан болно. Бид зөвхөн таны байршлаас үл хамааран ашиглах боломжтой сургалтын үнэгүй хэрэгслийг сонгосон.

Өгөгдлийн шинжээчид юу хийдэг вэ

Мэдээллийн аналитик гэж нэрлэгддэг хүмүүс нүдэнд харагдахуйц үр дүнг олж авахын тулд мэдээлэл, дүн шинжилгээ хийх ажилд оролцдог. Ийм хүмүүс ихэвчлэн том өгөгдөл, өгөгдөл олборлолт, машин сургалт, системийн шинжилгээ, бизнесийн шинжээчид багтдаг.

Юу үзэх вэ

Yandex-ээс "Өгөгдлийн шинжилгээний сургууль" лекцүүд

ShAD - Yandex ажилтнуудын өгөгдөлд дүн шинжилгээ хийх курсууд. Тэнд ороход нэлээд хэцүү, өргөдөл гаргагчдад шаардагдах хамгийн бага зүйл бол дээд алгебрийн үндсэн хэсгүүд юм.математик анализ, комбинаторик, магадлалын онол, түүнчлэн програмчлалын үндэс. Аз болоход, хүн бүр видео лекцээс суралцах боломжтой байхаар курсуудыг бүртгэдэг.

Машин сургалтын курс

Энэхүү сургалт нь магадлалын онол, статистикийг хэрхэн ашиглах, машин сургалтын үндсийг ярих, алгоритм хэрхэн бүтээх талаар сурах болно.

"Хайлтын алгоритм ба өгөгдлийн бүтэц" курс

Лекцийн үеэр тэд их хэмжээний өгөгдлийг хайх, эрэмбэлэх алгоритмууд, алгоритмууд болон мөрт аргачлалууд, график-онолын алгоритмууд, өгөгдлийн бүтцийг бий болгох, шинжлэх талаар ярилцдаг.

"Зэрэгцээ ба тархсан тооцоолол" курс

Олон урсгалтай, зэрэгцээ програмчлал, мөн MapReduce-тэй танилцахыг удаан хүсч байсан хүмүүст зориулав.

"Дискрет анализ ба магадлалын онол" хичээл

Уг хичээл нь комбинатор, дискрет ба асимптотик анализ, магадлалын онол, статистикийн үндсэн ойлголт, аргуудыг багтааж, тэдгээрийн хэрэглээг харуулсан болно.

Тооцооллын нарийн төвөгтэй байдлын курс

Хичээлийг үзсэний дараа та магадлалын нарийн төвөгтэй байдлын ангиуд болон өгөгдөлд дүн шинжилгээ хийх, зурах үндсэн аргуудын талаар суралцах болно.

Technostrim Mail.ru группын лекцүүд

Хичээлийн хөтөлбөрүүд нь Москвагийн хэд хэдэн их дээд сургуулийн оюутнуудад зориулагдсан боловч хэн ч үзэх боломжтой. Ирээдүйн шинжээчдэд бид дараах лекцийн цуглуулгыг санал болгож байна.

Big Data их сургуулийн лекцүүд

Big Data University нь анхан шатны болон математикийн боловсролгүй хүмүүст зориулсан IBM-тэй хамтран бүтээсэн онлайн сургалт юм. Өгөгдөлтэй ажиллах үндсэн зарчмуудтай танилцахад туслах лекцүүд нь ойлгомжтой англи хэл дээр бичигдсэн болно.

Welch Labs

Энэ суваг нь математик, компьютерийн шинжлэх ухаан, програмчлал, машин сургалтын талаархи лекцүүдийг агуулдаг. Энэ явцад судлагдсан зүйлийг ашиглах жишээг үзүүлэв жинхэнэ амьдрал. Лекцүүд англи хэл дээр байдаг ч орос хэлний хадмал орчуулгатай.

За" Бүтцийн өгөгдөлд суралцах: Магадлалын график загваруудын танилцуулгаКомпьютерийн шинжлэх ухааны факультет, Үндэсний судалгааны их сургуулийн Эдийн засгийн дээд сургууль

Энэхүү сургалт нь өнөөгийн ийм асуудлыг шийдвэрлэх хамгийн түгээмэл аргуудын нэг болох дискрет магадлалын график загваруудын онол, хэрэглээний талаар гүнзгий танилцуулгад чиглэгддэг. Хичээлийн хэл нь англи хэл юм.

sentdex суваг

Энэ суваг нь өгөгдөлтэй ажиллахад бүрэн зориулагдсан. Түүгээр ч зогсохгүй математик сонирхдог хүмүүс өөрсдөдөө хэрэгтэй зүйл олж авах болно. Rasperri Pi-тэй санхүүгийн шинжээчид болон робот техникийн шинжилгээ, програмчлалын тухай видео байна.

Сираж Равал суваг

Залуу ярьж байна орчин үеийн технологимөн тэдэнтэй хэрхэн ажиллах талаар. Гүнзгий суралцах, мэдээллийн шинжлэх ухаан, машин сургалтын курсууд нь өгөгдөлтэй хэрхэн ажиллах талаар сурахад тань тусална.

Дата сургуулийн суваг

Хэрэв та машин сургалтын талаар хагас дутуу сонссон ч аль хэдийн сонирхож байгаа бол энэ суваг танд зориулагдсан болно. Зохиогч ойлгомжтой түвшинд, жишээнүүдийн тусламжтайгаар энэ нь юу болох, хэрхэн ажилладаг, хаана хэрэглэгдэж байгааг тайлбарлах болно.

Хаана дадлага хийх

Лекц үзэж байхдаа бие даан суралцахад бэлэн гэдэгтээ эргэлзэж байгаа хүмүүсийн хувьд баталгаажуулах даалгавар бүхий онлайн курсууд байдаг.

Coursera дээрх мэдээллийн шинжлэх ухааны хичээлүүд

Энэ нь ямар платформ болохыг тайлбарлах шаардлагагүй. Та хичээлээ сонгоод дадлага хийж эхлэх хэрэгтэй.

Stepik.org

Р дахь өгөгдлийн шинжилгээ

Эхний хэсэгт R статистикийн шинжилгээ, өгөгдөл унших, өгөгдлийг урьдчилан боловсруулах, статистикийн үндсэн аргуудыг ашиглах, үр дүнг дүрслэн харуулах бүх үндсэн үе шатуудыг багтаасан болно. Оюутнууд програмчлалын үндсэн элементүүдийг R хэлээр сурах бөгөөд энэ нь өгөгдөл боловсруулахад гарч буй өргөн хүрээний асуудлыг хурдан бөгөөд үр дүнтэй шийдвэрлэх боломжийг олгоно.

Хоёрдахь хэсэг нь эхний хэсэгт ороогүй хэд хэдэн дэвшилтэт сэдвүүдийг авч үздэг: data.table болон dplyr багцуудыг ашиглан өгөгдлийг урьдчилан боловсруулах, дүрслэх дэвшилтэт техник, R Markdown дээр ажиллах.

Өгөгдлийн сангийн танилцуулга

DBMS руу шумбах

Харилцааны DBMS-ийн талаар бага зэрэг туршлагатай, хэрхэн ажилладаг талаар илүү ихийг мэдэхийг хүсдэг хүмүүст зориулсан курс. Курс нь:

  • мэдээллийн сангийн схемийн дизайн;
  • гүйлгээний менежмент;
  • асуулга оновчтой болгох;
  • харилцааны DBMS-ийн шинэ боломжууд

Hadoop. Том өгөгдөл боловсруулах систем

Энэхүү сургалт нь Hadoop системийг ашиглан их хэмжээний өгөгдлийг боловсруулах аргуудад чиглэгддэг. Хичээлийг дүүргэсний дараа та их хэмжээний өгөгдлийг хадгалах, боловсруулах үндсэн аргуудын талаар мэдлэгтэй болж, Hadoop хүрээний контекст дахь тархсан системийн зарчмуудыг ойлгож, MapReduce програмчлалын загварыг ашиглан программ боловсруулах практик ур чадварыг эзэмшинэ.

Мэдээллийн технологийн ертөнцөд өөр өөр чиглэлүүд байдаг. Хэн нэгэн нь удирдлага, хэн нэгэн нь хөгжүүлэлт эсвэл туршилтын ажилд оролцдог. Системийн администраторууд, програмистууд, тестерүүдийг бэлтгэх курсууд байгуулагдаж байна. Энэ нийтлэлд тусгай программ - Data Scientist - ялангуяа хөгжүүлэгчид, шинжээчид, бүтээгдэхүүний менежерүүдэд зориулагдсан болно.

Мэдээллийн мэргэжилтэн эсвэл мэдээллийн мэргэжилтэн гэж юу вэ

Өгөгдөл судлаач мэргэжлийг тойрсон олон домог байдаг бөгөөд ихэнх нь энэ нь юу болохыг сайн ойлгодоггүй. Мэдээллийн мэргэжилтэн эсвэл өгөгдлийн шинжээч гэдэг нь программист (хэрэв та програмчлахыг мэддэг бол өгөгдөлтэй хэрхэн ажиллахаа мэддэг зарчмын дагуу) юм шиг санагддаг), хэн нэгэн энэ мэргэжлийг мэдээллийн сангийн администратортой төстэй гэж үздэг. хэн Тэр энэ юу болохыг огт мэдэхгүй.

Урагшаа харахад өгөгдлийн шинжээч нь программист биш, мэдээжийн хэрэг мэдээллийн сангийн администратор биш боловч програмчлалын ур чадвартай байх шаардлагатай гэдгийг нэн даруй тэмдэглэх нь зүйтэй.

Өгөгдөл судлаач нь гурван бүлгийн ур чадварыг эзэмшдэг мэргэжилтэн юм.

  • математик, статистик;
  • Мэдээллийн технологийн ур чадвар, түүний дотор програмчлалын ур чадвар;
  • тодорхой газар нутаг дахь бизнесийн үйл явцын талаархи ойлголт.

Ажлын байрыг үргэлж Data Scientist гэж нэрлэдэггүй. Маш олон сонголтууд байдаг: програмист-аналитик, том мэдээллийн шинжээч, системийн шинжилгээний менежер, том мэдээллийн архитектор, бизнесийн шинжээч болон бусад.
Мэдээлэл судлаачийн үүрэг хариуцлагад дараахь зүйлс орно.

  • их хэмжээний өгөгдөл цуглуулж, тэдгээрийг тохиромжтой формат руу оруулах;
  • Python, R, SAS хэл дээр програмчлал хийх;
  • өгөгдөл боловсруулах аргыг ашиглан бизнесийн асуудлыг шийдвэрлэх;
  • өгөгдөл дэх далд харилцаа, хэв маягийг хайх;
  • статистикийн туршилт хийх.

Өгөгдлийн мэргэжилтэн нь байгууллагынхаа бизнесийн хэрэгцээг ойлгож, аналитик хэрэгслүүдийг эзэмшсэн байх ёстой: машин сургалт, текст аналитик.
McKinsey Global Institute зөвлөх компанийн мэдээлснээр аль хэдийн орсон байна дараа жилАНУ-д (зөвхөн АНУ-д, дэлхий даяар биш!) танд өгөгдөл судлаачдын арми хэрэгтэй болно - 140-190 мянга.

Дата судлаач хэр их цалин авдаг вэ?

АНУ-д мэдээлэл судлаачийн дундаж цалин жилд 138,000 доллараас дээш байдаг. ОХУ-д та сард 120 мянган рублийн (жилд 26 мянган доллараас дээш) цалин авах хүсэлт гаргаж болно.

Энгийн програмистын мэргэжилтэй харьцуулбал АНУ-д програмистын дундаж цалин жилд 65-80 мянган доллар, Орост сард 60 мянган рубль буюу жилд 13 мянган доллар байна.

Ямар ч тохиолдолд та өгөгдөл судлаач болсноор програмистаас илүү их орлого олох боломжтой.

Таны харж байгаагаар өгөгдөл судлаач бол маш ирээдүйтэй мэргэжил юм. Нэгдүгээрт, түүний цалин энгийн програмистын цалингаас өндөр байдаг. Хоёрдугаарт, мэдээлэл судлаачид тийм ч олон биш бөгөөд зах зээл зөвхөн Орос улсад төдийгүй дэлхий даяар мэргэжилтнүүдийн хомсдолд орж байна.

Та мэргэжилтэн бэлтгэх, нэмэлт сургалтад хамрагдахын тулд их сургуульд Мэдээллийн судлаач мэргэжлийг эзэмшиж болно.

Data Scientist курс нь юу өгдөг вэ?

МЭДЭЭЛЭЛ

  • Суралцах сарууд: 5
  • Долоо хоногт ажиллах цаг: 9
  • Мэргэжилтнүүд: 13
  • Дасгал хийх цаг: 100+

Оюутны шаардлага

Оюутнууд наад зах нь нэг програмчлалын хэлийг анхан шатны түвшинд эзэмшсэн байх ёстой (хэрэв Python бол илүү сайн).
Сурагчид ахлах сургуулийн түвшинд математикийн мэдлэгтэй байх ёстой: функц, дериватив, вектор ба матрицын алгебр, тригонометр.

Сургалтын курс

Хэрэв танд шаардлагатай мэдлэг байхгүй бол үндсэн сургалтын төлбөрөө төлсний дараа шууд нээгдэх үнэ төлбөргүй бэлтгэл курс танд зориулагдсан болно. Энэхүү сургалт нь лекц, гэрийн даалгаврын 11 видео бичлэгээс бүрдэнэ. Тэрээр мөчлөг, өгөгдлийн төрөл, функцүүдийн талаар ярих болно, HTTP хүсэлтүүд, өөр өөр өгөгдлийн формат болон бусад олон зүйлстэй хэрхэн ажиллахыг заах болно.

Үнэ хэд вэ

Үндсэн зардал нь 180,000 рубль боловч 6-р сарын 15 хүртэл сургалтын зардлыг 165,000 рубль болгон бууруулсан. Үүний зэрэгцээ 6 сарын хугацаанд хүүгүй төлбөрийн төлөвлөгөөг өгдөг, өөрөөр хэлбэл сургалтын зардал сард 27,500 рубль байдаг.

Үр дүн нь юу вэ

Оюутанд "Өгөгдлийн шинжээч / Машин сургалтын мэргэжилтэн" мэргэжлээр мэргэжлийн давтан сургах улсын диплом олгоно. Түүнтэй хамт та сард 120 мянган рублийн цалинтай "Өгөгдлийн шинжээч", "Big Data Developer" гэсэн албан тушаалд өргөдөл гаргаж болно.

Сургалт дууссаны дараа ямар нэгэн "сертификат" биш, харин төрийн диплом олгодог болохыг анхаарна уу.


Өгөгдлийн шинжлэх ухаан, машин сургалт - Та эдгээр том үгсийг сонссон байх, гэхдээ тэдний утга нь таны хувьд хэр ойлгомжтой байсан бэ? Зарим хүмүүсийн хувьд тэд сайхан өгөөш юм. Мэдээллийн шинжлэх ухаан бол машиныг хүссэн зүйлээ үнэ төлбөргүй хийдэг ид шид гэж хэн нэгэн боддог. Бусад нь бүр тийм гэж итгэдэг хялбар аргаасар их мөнгө олох. IRELA-ийн R&D хэлтсийн дарга Никита Никитинский, өгөгдөл судлаач Полина Казакова нар энэ нь юу болохыг энгийн бөгөөд ойлгомжтой хэлээр тайлбарлав.

Би өгөгдлийн шинжлэх ухааны програмуудын нэг болох байгалийн хэлний автомат боловсруулалт дээр ажилладаг бөгөөд хүмүүс эдгээр нэр томъёог хэрхэн буруу ашигладаг болохыг байнга хардаг тул жаахан тодруулахыг хүссэн. Энэ нийтлэл нь өгөгдлийн шинжлэх ухаан гэж юу болох талаар муу ойлголттой, ойлголтыг ойлгохыг хүсдэг хүмүүст зориулагдсан болно.

Нэр томьёог тодорхойлъё

Эхлэхийн тулд хэн ч өгөгдлийн шинжлэх ухаан гэж яг юу болохыг мэддэггүй бөгөөд хатуу тодорхойлолт байдаггүй - энэ бол маш өргөн хүрээтэй, салбар хоорондын ойлголт юм. Тиймээс би энд бусдын бодолтой давхцах албагүй өөрийн алсын хараагаа хуваалцах болно.

Өгөгдлийн шинжлэх ухаан гэдэг нэр томъёог орос хэлэнд “өгөгдлийн шинжлэх ухаан” гэж орчуулдаг бөгөөд мэргэжлийн орчинд үүнийг “өгөгдлийн шинжлэх ухаан” гэж энгийнээр галиглах нь элбэг. Албан ёсоор бол энэ нь компьютерийн шинжлэх ухаан, математикийн салбар дахь харилцан уялдаатай зарим хичээл, аргуудын багц юм. Хэт хийсвэр сонсогдож байна, тийм ээ? Үүнийг олж мэдье.

Эхний хэсэг: өгөгдөл

Мэдээллийн шинжлэх ухааны эхний бүрэлдэхүүн хэсэг бөгөөд үүнгүйгээр цаашдын үйл явцыг бүхэлд нь хийх боломжгүй бөгөөд үнэн хэрэгтээ өгөгдөл өөрөө юм: түүнийг хэрхэн цуглуулах, хадгалах, боловсруулах, түүнчлэн ерөнхий өгөгдлийн массиваас хэрэгтэй мэдээллийг хэрхэн гаргаж авах. Энэ нь өгөгдлийг цэвэрлэж, түүнийг авчрах явдал юм зөв төрөлмэргэжилтнүүд ажлын цагийнхаа 80 хүртэлх хувийг зориулдаг.

Энэ догол мөрний чухал хэсэг бол том өгөгдөл, том өгөгдөл гэж нэрлэгддэг асар том хэмжээ ба / эсвэл олон янз байдлаас шалтгаалан стандарт хадгалах, боловсруулахад тохиромжгүй өгөгдөлтэй хэрхэн харьцах явдал юм. Дашрамд хэлэхэд, андуурч болохгүй: том өгөгдөл ба мэдээллийн шинжлэх ухаан нь ижил утгатай биш юм: хоёрдугаарт, эхний дэд хэсэг юм. Үүний зэрэгцээ, практик дээр өгөгдөл судлаачид том өгөгдөлтэй ажиллах шаардлагагүй байдаг - жижиг нь ашигтай байж болно.

Мэдээлэл цуглуулцгаая

Танай ажлын хамт олон өдөрт хэр их кофе уудаг, өмнөх өдөр нь хэр их унтдаг хоёрын хооронд ямар нэгэн хамаарал байгаа эсэхийг бид сонирхож байна гэж төсөөлөөд үз дээ. Бидэнд байгаа мэдээллээ бичье: таны хамтран зүтгэгч Грегори өнөөдөр 4 цаг унтсан тул 3 аяга кофе уух шаардлагатай болсон гэж бодъё; Элина 9 цаг унтсан бөгөөд кофе огт уугаагүй; Полина 10 цаг унтсан ч 2.5 аяга кофе уусан гэх мэт.

Хүлээн авсан өгөгдлөө график дээр зурцгаая (визуалчлал нь аливаа мэдээллийн шинжлэх ухааны төслийн чухал элемент юм). X тэнхлэг дээр цагийг цагаар, Y тэнхлэгт кофег миллилитрээр тэмдэглэе. Бид иймэрхүү зүйлийг авах болно:

Хоёр дахь хэсэг: шинжлэх ухаан

Бидэнд өгөгдөл байгаа, одоо бид үүнийг яах вэ? Энэ нь зөв, дүн шинжилгээ хийж, ашигтай хэв маягийг гаргаж аваад ямар нэгэн байдлаар ашигла. Энд бидэнд статистик, машин сургалт, оновчлол зэрэг салбарууд туслах болно.

Тэд мэдээллийн шинжлэх ухааны дараагийн бөгөөд магадгүй хамгийн чухал бүрэлдэхүүн хэсэг болох өгөгдлийн шинжилгээг бүрдүүлдэг. Машины сургалт нь одоо байгаа өгөгдлөөс хэв маягийг олох боломжийг олгодог бөгөөд ингэснээр та шинэ объектуудын зөв мэдээллийг урьдчилан таамаглах боломжтой болно.

Мэдээлэлд дүн шинжилгээ хийцгээе

Өөрийнхөө жишээ рүү буцъя. Энэ хоёр параметр нь ямар нэгэн байдлаар хоорондоо холбоотой юм шиг санагдаж байна: цөөн хүнУнтсан бол маргааш нь илүү их кофе уух болно. Үүний зэрэгцээ бидэнд энэ чиг хандлагаас гарсан жишээ бас бий - нойр, кофенд дуртай Полина. Гэсэн хэдий ч та үүссэн хэв маягийг бүх цэгүүдэд аль болох ойртуулахын тулд нийтлэг шулуун шугамаар ойртуулахыг оролдож болно.

Ногоон шугам нь манай машин сургалтын загвар бөгөөд өгөгдлийг нэгтгэн дүгнэж, математикийн хувьд тайлбарлаж болно. Одоо түүний тусламжтайгаар бид шинэ объектуудын үнэ цэнийг тодорхойлж чадна: оффист орж ирсэн Никита өнөөдөр хэр их кофе уухыг таамаглах үед бид түүний хэр их унтсаныг сонирхох болно. Хариулт нь 7.5 цагийн утгыг хүлээн авсны дараа бид үүнийг загварт орлуулж байна - энэ нь 300 мл-ээс бага хэмжээгээр уусан кофены хэмжээтэй тохирч байна. Улаан цэг нь бидний таамаглалыг илэрхийлдэг.

Машины сургалт ингэж ажилладаг бөгөөд санаа нь маш энгийн: хэв маягийг олж, шинэ өгөгдөл болгон өргөжүүлэх. Үнэн хэрэгтээ, бидний жишээн дээрх шиг зарим утгыг урьдчилан таамаглах шаардлагагүй, харин өгөгдлийг зарим бүлэгт хуваах шаардлагатай үед машин сургалтын өөр ангиллын даалгаврууд гарч ирдэг. Гэхдээ бид өөр удаа энэ талаар илүү дэлгэрэнгүй ярих болно.

Үр дүнг хэрэглээрэй

Гэсэн хэдий ч миний бодлоор мэдээллийн шинжлэх ухаан нь өгөгдлийн хэв маягийг тодорхойлох замаар дуусдаггүй. Мэдээллийн шинжлэх ухааны аливаа төсөл бол хэрэглээний судалгаа бөгөөд таамаглал дэвшүүлэх, туршилт төлөвлөх, мэдээжийн хэрэг үр дүн, тодорхой хэргийг шийдвэрлэхэд тохиромжтой эсэхийг үнэлэх зэрэг зүйлсийг мартаж болохгүй.

Сүүлийнх нь олсон мэдээллийн шинжлэх ухааны шийдэл нь таны төсөлд ашиг тусаа өгөх эсэхийг ойлгох шаардлагатай үед бизнесийн бодит ажлуудад маш чухал юм. Бидний жишээн дээр бүтээсэн загвар нь ямар ашигтай байх вэ? Магадгүй түүний тусламжтайгаар бид оффис руу кофе хүргэх ажлыг оновчтой болгож болох юм. Үүний зэрэгцээ бид эрсдлийг үнэлж, манай загвар одоо байгаа шийдлээс илүү үүнийг даван туулах чадвартай эсэхийг тодорхойлох хэрэгтэй - оффисын менежер Михаил, бүтээгдэхүүнийг худалдан авах үүрэгтэй.

Үл хамаарах зүйлийг олцгооё

Мэдээжийн хэрэг, бидний жишээг хамгийн хялбаршуулсан болно. Бодит байдал дээр хүн ерөнхийдөө кофенд дуртай эсэх гэх мэт бусад хүчин зүйлсийг харгалзан үзэх илүү төвөгтэй загварыг бий болгох боломжтой юм. Эсвэл загвар нь шулуун шугамаар дүрслэгдсэнээс илүү төвөгтэй харилцааг олж чадна.

Полина шиг бусдаас эрс ялгаатай объектуудыг эхлээд бидний өгөгдлөөс олж болно. Бодит ажил дээр ийм жишээнүүд нь загвар бүтээх үйл явц, түүний чанарт муугаар нөлөөлж болзошгүй тул тэдгээрийг ямар нэгэн байдлаар өөрөөр боловсруулах нь утга учиртай юм. Заримдаа ийм объектууд нь жишээлбэл, залилан мэхлэхээс урьдчилан сэргийлэхийн тулд банкны хэвийн бус гүйлгээг илрүүлэх ажилд ихээхэн анхаарал хандуулдаг.

Нэмж дурдахад Полина бидэнд өөр нэг чухал санааг харуулж байна - машин сургалтын алгоритмуудын төгс бус байдал. Манай загвар 10 цаг унтсан хүнд ердөө 100 мл кофе өгнө гэж таамаглаж байсан бол үнэндээ Полина 500 хүртэл уудаг байжээ. Мэдээллийн шинжлэх ухааны шийдлүүдийн үйлчлүүлэгчид үүнд хэзээ ч итгэхгүй, гэхдээ бүх зүйлийг төгс таамаглахыг машинд заах боломжгүй хэвээр байна. Дэлхий дээр: өгөгдлийн хэв маягийг хэчнээн сайн тодруулсан ч урьдчилан тааварлах боломжгүй элементүүд үргэлж байх болно.

Түүхийг үргэлжлүүлье

Тиймээс өгөгдлийн шинжлэх ухаан нь өгөгдлийг боловсруулах, шинжлэх, практик асуудалд ашиглах аргуудын цогц юм. Үүний зэрэгцээ мэргэжилтэн бүр энэ чиглэлээр өөрийн гэсэн үзэл бодолтой байдаг бөгөөд санал бодол нь өөр байж болно гэдгийг ойлгох хэрэгтэй.

Өгөгдлийн шинжлэх ухаан нь нэлээд энгийн санаанууд дээр суурилдаг боловч практикт олон нарийн мэдрэмжүүд ихэвчлэн олддог. Өгөгдлийн шинжлэх ухаан биднийг өдөр тутмын амьдралд хэрхэн хүрээлдэг, өгөгдөлд дүн шинжилгээ хийх ямар аргууд байдаг, мэдээллийн шинжлэх ухааны баг хэнээс бүрддэг, судалгааны явцад ямар бэрхшээл тулгарч болох талаар бид дараагийн өгүүллээр ярих болно.

Бид хөдөлмөрийн зах зээл дэх ур чадварын эрэлтийн талаархи цуврал аналитик судалгааг үргэлжлүүлж байна. Энэ удаад Павел Сурменок акулын ачаар бид шинэ мэргэжлийг авч үзэх болно - Data Scientist.

Сүүлийн жилүүдэд Data Science гэсэн нэр томъёо түгээмэл болж эхэлсэн. Тэд энэ талаар маш их бичдэг, чуулган дээр ярьдаг. Зарим компаниуд Мэдээлэл судлаач хэмээх сүр дуулиантай цолны төлөө хүмүүсийг ажилд авдаг. Өгөгдлийн шинжлэх ухаан гэж юу вэ? Мэдээлэл судлаач гэж хэн бэ?

Мэдээлэл судлаач гэж хэн бэ?

Хэрэв та энэ асуултыг Сан Францискогийн оршин суугчаас асуувал Дата судлаач бол Сан Франциско хотод амьдардаг статистикч гэсэн хариултыг авах боломжтой. Сан Францискод амьдардаггүй хүмүүст тийм ч таатай биш ч гэсэн инээдтэй байна, тийм ээ? За, өөр нэг тодорхойлолт бол: Өгөгдөл судлаач гэдэг нь статистикийг ямар ч програмистаас илүү сайн ойлгодог, ямар ч статистикчаас илүү програмчлалыг ойлгодог хүн юм. Гэхдээ энэ сонголт аль хэдийн цэгт ойрхон байна. Дата судлаач бол статистикч, программист хоёрын нэг төрлийн эрлийз юм. Түүгээр ч барахгүй статистикч, программист хоёр маш өөр учраас энэ мэргэжлийг цэвэр статистикчдаас эхлээд цэвэр програмист хүртэл өргөн хүрээнд авч үзэх нь зүйтэй.

Твиттерийн мэдээлэл судлаач Роберт Чанг өөрийн мэргэжлийнхээ төлөөлөгчдийг 2 бүлэгт хуваадаг: Type A Data Scientist v.s. В төрлийн мэдээлэл судлаач.

А төрөл, энд А нь шинжилгээ. Эдгээр хүмүүс статик өгөгдлөөс утгыг гаргахад голчлон анхаардаг. Тэд статистикчидтай тун төстэй, бүр статистикч байж, зүгээр л ажлын байрны нэрээ Data Scientist болгон өөрчилж чаддаг бөгөөд бидний мэдэж байгаагаар зөвхөн нэг ажлын байрны нэр солигдох нь цалинг мэдэгдэхүйц нэмэгдүүлэхээс гадна хүндэтгэл, хүндэтгэлийг авчирдаг. Гэхдээ статистик мэдээллээс гадна тэд өгөгдлийг хэрхэн цэвэрлэх, том өгөгдлийн багцтай хэрхэн ажиллах, өгөгдлийг хэрхэн дүрслэн харуулах, ажлынхаа үр дүнг тайлбарлах зэрэг практик талуудыг мэддэг.

B төрөл, B нь Барилга. Тэд бас статистикийн мэдлэгтэй ч хүчирхэг, туршлагатай програмистууд юм. Тэд өгөгдлийг бодит системд ашиглах сонирхолтой байдаг. Ихэнхдээ хэрэглэгчидтэй харилцаж ажилладаг загваруудыг бүтээдэг, жишээлбэл, бараа бүтээгдэхүүн, кино, зар сурталчилгааг санал болгох системүүд.

Мэдээллийн шинжлэх ухаан нь машин сургалт, хиймэл оюун ухаан зэрэг салбаруудтай бага зэрэг давхцдаг тул энэ чиглэлийн төлөөлөгчид В төрлийн мэдээллийн шинжлэх ухаанд ойр байдаг.

Мэдээлэл судлаач болохыг хүсч буй хүмүүст юу сурах вэ, ямар ур чадвар шаардлагатай вэ? АНУ-ын ажил олгогчдын мэдээллийн шинжлэх ухаан, машин сургалтын чиглэлээр албан тушаалд нэр дэвшигчдэд тавигдах шаардлагыг харцгаая.

Мэдээлэл судлаачийн хатуу ур чадвар

Мэргэжлийн ур чадвар (хатуу ур чадвар) эзэмшихэд тавигдах шаардлагуудын дүн шинжилгээнээс эхэлцгээе.

Жагсаалтаас харахад хамгийн алдартай нь математик, статистик, компьютерийн шинжлэх ухаан, машин сургалтын суурь мэдлэг юм. Мэдээллийн мэргэжилтэн нь онолын мэдлэгээс гадна өгөгдлийг “олборлох”, цэвэрлэх, загварчлах, дүрслэх чадвартай байх ёстой. Хөгжлийн туршлага бас чухал. програм хангамжчанарын удирдлага.

Өгөгдлийн шинжлэх ухааны хэрэгсэл ба технологиуд

Data Scientist-ийн үндсэн хэрэгслүүд нь Python болон R програмчлалын хэл юм.

R бол статистикийн тооцоололд зориулагдсан тусгай програмчлалын хэл тул статистикчид болон өгөгдөл судлаачдын дуртай байдаг. Энэ нь өгөгдлийн багцыг хурдан ачаалах, статистикийн үндсэн шинж чанарыг тооцоолох, өгөгдлийг дүрслэн харуулах, өгөгдлийн загвар бүтээх боломжийг олгодог.

Python нь ерөнхий зориулалтын програмчлалын хэл боловч мэдээллийн шинжлэх ухаан, машин сургалтын маш олон тооны өндөр чанартай номын сан, платформтой.

Сонирхолтой нь ажлын байрны 39% нь R болон Python хоёрын аль алиных нь мэдлэгийг нэгэн зэрэг шаарддаг тул аль нэгийг нь сонгох гэж оролдохын оронд хоёр хэлийг нэг дор сурсан нь дээр.

Том өгөгдөлтэй ажиллахын тулд ажил олгогчид Hadoop болон Spark ашиглахыг илүүд үздэг. Алдартай мэдээллийн санд MySQL болон MongoDB орно.

Өгөгдөл судлаачийн зөөлөн ур чадвар

Ерөнхий ур чадвар (зөөлөн ур чадвар) нь сул орон тоонд хоёр дахин их дурдагддаг тул мэргэжлийн ур чадвараас бага эрэлт хэрэгцээтэй байдаг. Зөөлөн ур чадвар шаарддаг сул ажлын байрны дундаж цалин нь хатуу ур чадвар, технологийн мэдлэг шаарддаг хүмүүсээс 20 орчим хувиар бага байна.

Гэсэн хэдий ч тулгарч буй зөөлөн ур чадваруудын дотроос хамгийн чухал нь: харилцах, өгөгдлийг дүрслэн харуулах, илтгэл тавих, үр дүнтэй бичих, ярих чадвар юм. Багаар ажиллах, удирдах, асуудлыг шийдвэрлэх ур чадвар нь бас тустай.

Мэдээлэл судлаачийн домайн мэдлэг

Зарим сул орон тоо нь физик, биологи, үл хөдлөх хөрөнгө, зочид буудлын бизнес хүртэлх хичээлийн чиглэлээр мэдлэг шаарддаг. Эдийн засаг, маркетинг, анагаах ухаан энд тэргүүлэгчдийн тоонд ордог.

Мэдээлэл судлаачдын мэргэшлүүд

Судалгааг эхлүүлэхийн өмнө бид Data Scientist мэргэжлийн дэд мэргэшлийг онцлон тэмдэглэхийг хүссэн. Жишээлбэл, өгөгдөлд дүн шинжилгээ хийх, дүрслэх чиглэлээр голчлон ажилладаг хүмүүсийг урьдчилан таамаглах аналитик эсвэл машин сургалтын алгоритмд зориулж загвар бүтээдэг хүмүүсээс салгах. Гэхдээ мэдээлэлд дүн шинжилгээ хийх явцад ихэнх сул орон тоонд тавигдах шаардлага нэлээд жигд байгаа бөгөөд мэргэжлээр тодорхой хуваалт байхгүй байна.

Хэдийгээр зарим загвар нь сонирхолтой мэт санагддаг. Жишээлбэл, хэрэв ажилд Python эсвэл C++-ийн мэдлэг шаардагддаг бол харилцаа холбоо, менежментийн ур чадвар шаардагддаггүй, эсвэл эсрэгээрээ.

Цалин хөлсөнд технологийн нөлөөлөл

O'Reilly 2015 Data Science цалингийн судалгаа нь хөдөлмөрийн зах зээлийг нөгөө талаас нь харахад бидэнд тусалдаг. Энэхүү судалгааг 600 Мэдээлэл судлаачийн судалгаанд үндэслэсэн бөгөөд цуглуулсан мэдээлэлд цалингийн түвшин, хүн ам зүйн мэдээлэл, мэргэжилтнүүдийн даалгаварт зарцуулсан цаг зэргийг багтаасан болно. янз бүрийн төрөл. Энэхүү судалгааны гол үр дүн нь дараах байдалтай байна.
  • SQL, Excel, R, Python нь гол хэрэгслүүд бөгөөд энэ жагсаалт 3 жил өөрчлөгдөөгүй.
  • Spark болон Scala-ийн нэр хүнд улам бүр нэмэгдэж байна.
  • Урьд нь арилжааны тусгай хэрэгслийг ашиглаж байсан хүмүүсийн анхаарлын төв нь R ашиглахад шилжиж байна.
  • Гэхдээ өмнө нь R ашиглаж байсан хүмүүс Python руу шилжиж байгаа бол Python тэргүүлж байна.
  • Бүх салбар дундаас хамгийн өндөр цалинтай нь Програм хангамж хөгжүүлэлт юм.
  • Үүлэн тооцоолол нь эрэлт хэрэгцээтэй хэвээр байна.
Бид тайланг бүрэн эхээр нь уншихыг зөвлөж байна. Бусад зүйлсийн дотор тэрээр Data Scientist-ийн цалин нь түүний хаана амьдардаг, ямар боловсролтой, ямар ажил үүрэг гүйцэтгэдэг зэргээс хэрхэн хамаардаг тухай математик загварыг дүрсэлжээ. Жишээлбэл, уулзалтад илүү их цаг зарцуулдаг өгөгдөл судлаачид илүү их орлого олдог. Мөн өдөрт 4-өөс дээш цагийг өгөгдөл судлахад зарцуулдаг хүмүүс бага цалин авдаг.

Мэдээллийн шинжлэх ухааныг хэрхэн судлах вэ?

Сүүлийн жилүүдэд энэ сэдвээр олон онлайн курсууд гарч ирэв. Мөн энэ бол эхлэх маш сайн арга юм!

Хэрэв та өгөгдөлд илүү их дүн шинжилгээ хийдэг бол сайн сонголтЭдгээр нь Coursera дахь мэдээллийн шинжлэх ухааны чиглэлээр мэргэшсэн сургалтууд юм: Мэдээллийн шинжлэх ухааны чиглэлээр карьераа эхлүүл. Мэргэшсэн мэргэжлийг олж авах нь үнэ төлбөргүй биш боловч хэрэв танд гэрчилгээ шаардлагагүй бол эдгээр бүх сургалтыг үнэ төлбөргүй үзэх боломжтой: курсын нэрийг хараад, хайлтыг ашиглан курсээ олох боломжтой.

Машины сургалтыг сонирхдог хүмүүст би Стэнфордын профессор, Coursera: Computer Learning-ийг үндэслэгч Baidu Research-ийн ахлах эрдэмтэн Эндрю Нг зөвлөж байна.

Өгөгдлийн шинжлэх ухаан гэж юу вэ?

Мэдээллийн шинжлэх ухаан нь үйл ажиллагааны шинэ салбар учраас өгөгдөл судлаачдад тавигдах шаардлага хараахан бүрдээгүй байна. Бидний цаг үеийн эрч хүчийг авч үзвэл Дата шинжлэх ухаан нь хэзээ ч их дээд сургуулиудад заадаг бие даасан мэргэжил болохгүй, харин дадлага, ур чадварын цогц хэвээр үлдэх боломжтой юм. Гэхдээ эдгээр нь ойрын жилүүдэд маш их эрэлт хэрэгцээтэй байх дадлага, ур чадварууд юм.

мэдээлэл судлаач— "Том өгөгдөл" гэж нэрлэгддэг том хэмжээний мэдээллийн массивыг боловсруулах, дүн шинжилгээ хийх, хадгалах мэргэжилтэн. Энэ мэргэжил нь физик, математик, компьютерийн шинжлэх ухааныг сонирхож буй хүмүүст тохиромжтой (сургуулийн хичээлийг сонирхож буй мэргэжлийг сонгох хэсгийг үзнэ үү).

Өгөгдлийн шинжлэх ухаан - өөр өөр салбаруудын уулзвар дахь мэдээллийн шинжлэх ухаан: математик, статистик; мэдээлэл зүй, компьютерийн шинжлэх ухаан; бизнес ба эдийн засаг.

(С.Мальцева, В.Корниловын нэрэмжит Үндэсний судалгааны их сургууль "Эдийн засгийн дээд сургууль")

Мэргэжил нь шинэ, хамааралтай,. "Big Data" гэсэн нэр томъёо нь өөрөө 2008 онд гарч ирсэн. Мэдээлэл судлаач - "Өгөгдөл судлаач" мэргэжил нь 2010 оны эхээр эрдэм шинжилгээний болон салбар дундын мэргэжлээр албан ёсоор бүртгэгдсэн. Хэдийгээр "өгөгдлийн шинжлэх ухаан" гэсэн нэр томъёог анх 1974 онд Питер Наурын номонд тэмдэглэсэн боловч өөр агуулгаар тэмдэглэсэн байдаг. .

Ultra Big Data-ийн тухай ярихад өгөгдлийн массивууд нь математик статистикийн стандарт хэрэгслээр боловсруулахад хэтэрхий том байгаа нь ийм мэргэжил бий болох хэрэгцээ шаардлагаас үүдэлтэй юм. Өдөр бүр олон мянган петабайт (10 15 байт = 1024 терабайт) мэдээлэл дэлхий даяарх компаниудын серверээр дамждаг. Ийм их хэмжээний өгөгдлөөс гадна тэдний нэг төрлийн бус байдал, шинэчлэлтийн өндөр хурдаар асуудал нь төвөгтэй байдаг.

Өгөгдлийн массивыг 3 төрөлд хуваадаг.

бүтэцтэй (жишээлбэл, худалдааны кассын бүртгэлийн мэдээлэл);

хагас бүтэцтэй (И-мэйл мессеж);

бүтэцгүй (видео файл, зураг, зураг).

Ихэнх Big Data нь бүтэцгүй байдаг тул боловсруулахад илүү төвөгтэй болгодог.

Хувь хүний ​​хувьд статистикч, системийн шинжээч эсвэл бизнесийн шинжээч ийм хэмжээний өгөгдөлтэй холбоотой асуудлыг шийдэж чадахгүй. Үүнд салбар дундын боловсролтой, математик, статистик, эдийн засаг ба бизнес, компьютерийн шинжлэх ухаан, компьютерийн технологийн чиглэлээр мэргэшсэн хүн хэрэгтэй.

Мэдээлэл судлаачийн гол үүрэг бол бодит цагийн мэдээллийн урсгалыг ашиглан олон төрлийн эх сурвалжаас шаардлагатай мэдээллийг гаргаж авах чадвар юм; өгөгдлийн багц дахь далд хэв маягийг илрүүлж, ухаалаг бизнесийн шийдвэр гаргахын тулд статистик дүн шинжилгээ хийх. Ийм мэргэжилтний ажлын байр нь 1 компьютер эсвэл бүр 1 сервер биш, харин серверүүдийн кластер юм.

Мэргэжлийн онцлог

Өгөгдөл судлаач өгөгдөлтэй ажиллахдаа янз бүрийн аргыг ашигладаг.

  • статистикийн аргууд;
  • мэдээллийн сангийн загварчлал;
  • оюуны шинжилгээний аргууд;
  • програмууд хиймэл оюунөгөгдөлтэй ажиллах;
  • мэдээллийн санг боловсруулах, боловсруулах арга.

Өгөгдөл судлаачийн үүрэг хариуцлага нь түүний үйл ажиллагааны цар хүрээнээс хамаардаг боловч чиг үүргийн ерөнхий жагсаалт нь дараах байдалтай байна.

  • дараагийн үйл ажиллагааны боловсруулалтанд зориулж янз бүрийн эх сурвалжаас мэдээлэл цуглуулах;
  • хэрэглэгчийн зан төлөвт дүн шинжилгээ хийх;
  • хэрэглэгчийн суурь загварчлал, бүтээгдэхүүний хувийн тохиргоо;
  • суурийн дотоод үйл явцын үр нөлөөнд дүн шинжилгээ хийх;
  • янз бүрийн эрсдлийн шинжилгээ;
  • сэжигтэй гүйлгээг судлах замаар залилан мэхэлж болзошгүйг илрүүлэх;
  • урьдчилсан мэдээний хамт тогтмол тайлан бэлтгэх, мэдээлэл өгөх.

Мэдээлэл судлаач нь жинхэнэ эрдэмтэн шиг зөвхөн өгөгдөл цуглуулж, дүн шинжилгээ хийхээс гадна өөр өөр нөхцөл байдал, өөр өнцгөөс судалж, аливаа таамаглалд эргэлздэг. Мэдээллийн мэргэжилтний хамгийн чухал чанар бол цуглуулсан мэдээллийн систем дэх логик холболтыг олж харах, тоон шинжилгээнд үндэслэн бизнесийн үр дүнтэй шийдлийг боловсруулах чадвар юм. Өрсөлдөөнт, хурдацтай өөрчлөгдөж буй өнөөгийн ертөнцөд, мэдээллийн урсгал байнга өсөн нэмэгдэж буй энэ үед Дата судлаач нь бизнесийн зөв шийдвэр гаргахад манлайлахад зайлшгүй шаардлагатай.

Мэргэжлийн давуу болон сул талууд

давуу тал

  • Энэ мэргэжил нь маш эрэлт хэрэгцээтэй байгаа төдийгүй ийм түвшний мэргэжилтнүүдийн дутагдалтай байгаа юм. McKinsey Global Institute-ийн мэдээлснээр 2018 он гэхэд зөвхөн АНУ-д 190,000 гаруй мэдээлэл судлаач шаардлагатай болно. Тиймээс хамгийн нэр хүндтэй их дээд сургуулиудад өгөгдөл судлаач бэлтгэх факультетуудыг маш хурдацтай, өргөн хүрээнд санхүүжүүлж, хөгжүүлж байна. Орос улсад Data Scientist-ийн эрэлт хэрэгцээ мөн нэмэгдэж байна.
  • Өндөр цалинтай мэргэжил.
  • Мэдээллийн технологийн дэвшлийг байнга хөгжүүлж, дагаж мөрдөх, өгөгдөл боловсруулах, дүн шинжилгээ хийх, хадгалах шинэ аргуудыг бий болгох хэрэгцээ.

Сул талууд

  • Хүн бүр энэ мэргэжлийг эзэмшиж чадахгүй, онцгой сэтгэлгээ хэрэгтэй.
  • Ажлын явцад сайн мэддэг аргууд, санаануудын 60 гаруй хувь нь ажиллахгүй байж магадгүй юм. Олон шийдэл бүтэлгүйтэх бөгөөд сэтгэл ханамжтай үр дүнд хүрэхийн тулд маш их тэвчээр шаардагдана. Эрдэмтэн хүнд “ҮГҮЙ!” гэж хэлэх эрх байхгүй. асуудал. Тэр асуудлыг шийдэхэд туслах арга замыг олох ёстой.

Ажлын газар

Мэдээллийн мэргэжилтэн нь дараахь үндсэн байр суурийг эзэлдэг.

  • технологийн үйлдвэрүүд (автомат навигацийн систем, эмийн үйлдвэрлэл гэх мэт);
  • Мэдээллийн технологийн хүрээ (хайлтын системийг оновчтой болгох, спам шүүлтүүр, мэдээний системчилэл, автомат текст орчуулга гэх мэт);
  • анагаах ухаан (өвчний автомат оношлогоо);
  • санхүүгийн байгууллага (зээл олгох шийдвэр гаргах) гэх мэт;
  • ТВ компаниуд;
  • томоохон жижиглэнгийн сүлжээ;
  • сонгуулийн кампанит ажил.

Чухал чанарууд

  • аналитик сэтгэлгээ;
  • хичээл зүтгэл;
  • тууштай байдал;
  • нягт нямбай байдал, нарийвчлал, анхаарал болгоомжтой байх;
  • завсрын үр дүн амжилтгүй байсан ч судалгаагаа дуусгах чадвар;
  • нийтэч байдал;
  • нарийн төвөгтэй зүйлийг энгийн үгээр тайлбарлах чадвар;
  • бизнесийн зөн совин.

Мэргэжлийн мэдлэг, ур чадвар:

  • математик, математик анализ, математик статистик, магадлалын онолын мэдлэг;
  • англи хэлний мэдлэг;
  • том хэмжээний өгөгдлийн массивтай ажиллах бүрэлдэхүүн хэсгүүдтэй програмчлалын үндсэн хэлний мэдлэг: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • статистикийн хэрэгслийн мэдлэг - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • өгөгдөл судлаачийн ажилладаг салбарын талаар хатуу мэдлэг; хэрэв энэ нь эмийн үйлдвэр юм бол үйлдвэрлэлийн үндсэн үйл явц, эмийн бүрэлдэхүүн хэсгүүдийн талаархи мэдлэг шаардлагатай;
  • өгөгдөл судлаачийн үндсэн ур чадвар бол том өгөгдлийн массивын кластер хадгалах системийг зохион байгуулах, удирдах явдал юм;
  • бизнесийн хөгжлийн хууль тогтоомжийн талаархи мэдлэг;
  • эдийн засгийн мэдлэг.

их дээд сургуулиуд

  • Москвагийн улсын их сургууль Ломоносов, Тооцооллын математик, кибернетикийн факультет, тусгай боловсролын хөтөлбөр Mail.Ru групп "Техносфер", их хэмжээний өгөгдөлд оюуны дүн шинжилгээ хийх арга, C ++ хэл дээр програмчлал, олон урсгалтай програмчлал, мэдээлэл хайх системийг бий болгох технологийн чиглэлээр сургалт явуулдаг.
  • Москвагийн Физик-Технологийн хүрээлэнгийн Мэдээллийн шинжилгээний тэнхим.
  • Эдийн засгийн дээд сургуулийн Бизнесийн мэдээлэл зүйн факультет нь системийн шинжээч, зохион бүтээгч, цогцолборын хэрэгжүүлэгчдийг бэлтгэдэг. мэдээллийн систем, корпорацийн мэдээллийн системийн удирдлагын зохион байгуулагчид.
  • Yandex мэдээллийн шинжилгээний сургууль.
  • Иннополисын их сургууль, Дандигийн их сургууль, Өмнөд Калифорнийн их сургууль, Окландын их сургууль, Вашингтоны их сургууль: Том мэдээллийн магистр.
  • Imperial College London Business School, Мэдээллийн шинжлэх ухаан, менежментийн чиглэлээр магистр.

Аливаа мэргэжлийн нэгэн адил өөрийгөө боловсрол эзэмших нь энд чухал ач холбогдолтой бөгөөд үүний эргэлзээгүй ашиг тусыг дараахь нөөцөөр авчрах болно.

  • дэлхийн тэргүүлэгч их сургуулиудын онлайн курс COURSERA;
  • машин сургалтын суваг MASHIN LEARNING;
  • edX курс сонгох;
  • Udacity курсууд;
  • Мэдээллийн шинжлэх ухааны жинхэнэ мэргэжилтэн болох Dataquest курсууд;
  • Datacamp 6 шаттай курсууд;
  • О'Рейлигийн сургалтын видео;
  • эхлэн болон ахисан түвшний Data Origami-д зориулсан дэлгэцийн зураг;
  • Москвагийн Data Scientists Meetup мэргэжилтнүүдийн улирал тутмын бага хурал;
  • өгөгдлийн шинжилгээний тэмцээн Kaggle.com

Цалин

2019.07.04-ний өдрийн цалин

Орос 50000-200000₽

Москва 60000-300000₽

Дата судлаач мэргэжил бол хамгийн өндөр цалинтай мэргэжил юм. hh.ru сайтаас авсан мэдээлэл - сарын цалин 8.5 мянган доллараас 9 мянган доллар хүртэл хэлбэлздэг.АНУ-д ийм мэргэжилтний цалин жилд 110 мянга - 140 мянган доллар байдаг.

Superjob судалгааны төвийн судалгаагаар Data Scientist-ийн мэргэжилтнүүдийн цалин ажлын туршлага, ажил үүргийн цар хүрээ, бүс нутгаас хамаардаг. Шинэхэн мэргэжилтэн 70 мянган рубльд найдаж болно. Москвад 57 мянган рубль. Санкт-Петербургт. 3 жил хүртэлх ажлын туршлагатай бол цалин 110 мянган рубль хүртэл нэмэгддэг. Москвад 90 мянган рубль. Санкт-Петербургт. Шинжлэх ухааны нийтлэлтэй туршлагатай мэргэжилтнүүд 220,000 рубль хүртэл орлого олох боломжтой. Москвад 180 мянган рубль. Петербургт.

Ажил мэргэжлийн алхам, хэтийн төлөв

Мэдээлэл судлаач мэргэжил нь өөрөө өндөр амжилт бөгөөд хэд хэдэн мэргэжлээр ноцтой онолын мэдлэг, практик туршлага шаарддаг. Аливаа байгууллагад ийм мэргэжилтэн гол дүр байдаг. Энэ өндөрлөгт хүрэхийн тулд тухайн мэргэжлийн үндэс болсон бүх салбарт шаргуу, зорилготой ажиллаж, байнга сайжирч байх ёстой.

Тэд Data Scientist-ийн талаар хошигнодог: энэ бол ямар ч статистикчдаас илүү сайн программчлагч, статистикийг ямар ч програмистаас илүү мэддэг ерөнхий мэргэжилтэн юм. Мөн тэрээр компанийн даргаас илүү бизнесийн үйл явцыг ойлгодог.

ЮУ БОЛОВ "ТОМ ӨГӨГДӨЛ» бодит тоогоор?

  1. Христийн мэндэлснээс 2003 он хүртэл хүн төрөлхтний бүтээсэн мэдээллийн хэмжээгээр 2 өдөр тутамд мэдээллийн хэмжээ нэмэгддэг.
  2. Өнөөдөр байгаа бүх мэдээллийн 90% нь сүүлийн 2 жилд гарч ирсэн.
  3. 2020 он хүртэл мэдээллийн хэмжээ 3.2-оос 40 зеттабайт хүртэл нэмэгдэнэ. 1 зеттабайт = 1021 байт.
  4. 1 минутын дотор Фэйсбүүкт 200 мянган зураг оруулж, 205 сая захидал илгээж, 1.8 сая лайк дарж байна.
  5. 1 секундын дотор Google 40,000 хайлтын асуулга боловсруулдаг.
  6. 1.2 жил тутамд салбар бүрийн мэдээллийн нийт хэмжээ хоёр дахин нэмэгддэг.
  7. 2020 он гэхэд Hadoop үйлчилгээний зах зээл 50 тэрбум долларт хүрнэ.
  8. АНУ-д 2015 онд Big Data төсөл дээр ажиллаж буй мэргэжилтнүүдэд зориулж 1.9 сая ажлын байр бий болгосон.
  9. Big Data технологи нь жижиглэн худалдааны сүлжээнүүдийн ашгийг жилд 60%-иар нэмэгдүүлдэг.
  10. Урьдчилсан мэдээгээр Big Data зах зээлийн хэмжээ 2014 онд 28.5 тэрбум ам.доллар байсан бол 2020 онд 68.7 тэрбум ам.доллар болж өснө.

Өсөлт ийм эерэг үзүүлэлттэй байгаа ч урьдчилсан мэдээнд алдаа гарч байна. Жишээлбэл, 2016 оны хамгийн алдартай алдаануудын нэг нь АНУ-ын Ерөнхийлөгчийн сонгуулийн талаарх таамаг биелээгүй юм. Таамаглалыг АНУ-ын нэрт мэдээлэл судлаач Нэйт Силвер, Кирк Борн, Билл Шмарзо нар Хиллари Клинтоны талд дэвшүүлжээ. Өнгөрсөн сонгуулийн кампанит ажилд тэд үнэн зөв прогноз гаргаж, алдаа гаргадаггүй байсан.

Энэ жил, жишээлбэл, Нэйт Силвер өгсөн үнэн зөв урьдчилсан мэдээ 41 муж улсын хувьд, харин 9 муж улсын хувьд буруу байсан нь Трампыг ялалтад хүргэсэн. 2016 оны алдааны шалтгааныг шинжилсний дараа тэд дараахь дүгнэлтэд хүрсэн байна.

  1. Математик загварууд нь бүтээх үеийн дүр зургийг бодитойгоор тусгадаг. Гэвч тэдний хагас задралын хугацаа байдаг бөгөөд энэ хугацааны төгсгөлд нөхцөл байдал эрс өөрчлөгдөж болно. Загварын таамаглах чанар цаг хугацааны явцад мууддаг. Энэ тохиолдолд жишээлбэл, албан тушаалын зөрчил, орлогын тэгш бус байдал болон бусад нийгмийн үймээн самуун нөлөөлсөн. Тиймээс загварыг шинэ мэдээллээр байнга шинэчилж байх шаардлагатай. Энэ нь хийгдээгүй.
  2. Урьдчилан таамаглахад чухал нөлөө үзүүлэх нэмэлт мэдээллийг хайж, харгалзан үзэх шаардлагатай. Тиймээс Клинтон, Трамп нарын сонгуулийн кампанит ажлын үеэр жагсаалын бичлэгийг үзэхэд жагсаалд оролцогчдын нийт тоог тооцоогүй байна. Энэ нь хэдэн зуун хүн байсан. Д.Трампыг дэмжсэн жагсаалд 400-600, Клинтоныг дэмжсэн 150-200 хүн оролцсон нь үр дүнд тусгагдсан.
  3. Сонгуулийн кампанит ажлын математик загварууд нь нас, арьсны өнгө, хүйс, орлого, нийгэм дэх байдал гэх мэт хүн ам зүйн өгөгдөлд суурилдаг. Бүлэг бүрийн жинг өнгөрсөн сонгуулиар хэрхэн саналаа өгсөн бэ гэдгээр нь тодорхойлдог. Ийм урьдчилсан мэдээ нь 3-4% -ийн алдаатай бөгөөд нэр дэвшигчдийн хоорондох том зөрүүтэй найдвартай ажилладаг. Гэхдээ энэ тохиолдолд Клинтон, Трамп хоёрын ялгаа бага байсан бөгөөд энэ алдаа сонгуулийн дүнд ихээхэн нөлөөлсөн.
  4. Хүмүүсийн зохисгүй зан авирыг анхаарч үзээгүй. Судалгаа явуулсан олон нийтийн бодолхүмүүс санал асуулгад хариулсан байдлаар санал өгнө гэсэн хуурмаг байдлыг бий болгох. Гэхдээ заримдаа тэд эсрэгээрээ хийдэг. Энэ тохиолдолд санал өгөх шударга бус хандлагыг тодорхойлохын тулд нүүр царай, ярианд нэмэлт дүн шинжилгээ хийх шаардлагатай болно.

Ер нь нэр дэвшигчдийн хоорондын зөрүү бага байснаас алдаатай таамаглал ийм болсон. Их хэмжээний зөрүүтэй тохиолдолд эдгээр алдаа нь тийм ч чухал ач холбогдолтой биш юм.

Видео: "Big Data" шинэ мэргэжил - Михаил Левин



Өмнөх нийтлэл: Дараагийн нийтлэл:

© 2015 .
Сайтын тухай | Харилцагчид
| сайтын газрын зураг