Volevi da tempo capire come diventare un analista di dati, studiare scienza dei dati, ma non sapevi da dove cominciare? Allora questo articolo è per te.

Chi di noi non ha sentito parlare di "big data"? È improbabile che ce ne sia almeno uno. A l'anno scorso l'interesse per l'utilizzo dei dati è cresciuto in modo significativo, poiché le grandi aziende IT devono trovare nuove soluzioni per l'analisi, l'elaborazione e il successivo utilizzo dei dati. Alcuni addirittura corrono programmi di apprendimento insieme alle università. Tuttavia, la maggior parte non ha idea di che tipo di persone siano, gli analisti di dati. Se sei una di quelle persone e desideri diventare un analista di dati, allora questo articolo è per te. Abbiamo selezionato solo strumenti di apprendimento gratuiti che puoi utilizzare indipendentemente dalla tua posizione.

Cosa fanno gli analisti di dati

I cosiddetti analisti di dati sono impegnati nelle sue informazioni e analisi per ottenere risultati visivi, percepibili dall'uomo. Queste persone di solito includono specialisti in big data, data mining, machine learning, analisi dei sistemi e analisti aziendali.

Cosa guardare

Lezioni "Scuola di analisi dei dati" di Yandex

ShAD - corsi sull'analisi dei dati dei dipendenti Yandex. È abbastanza difficile accedervi, il minimo richiesto per i candidati sono le sezioni di base di algebra superiore,analisi matematica, combinatoria, teoria della probabilità, nonché le basi della programmazione. Fortunatamente, i corsi sono registrati in modo che tutti possano imparare dalle lezioni video.

Corso di apprendimento automatico

Il corso insegna come applicare la teoria della probabilità e la statistica, parlare delle basi del machine learning, imparare a costruire algoritmi

Corso "Algoritmi e Strutture Dati di Ricerca"

Durante le lezioni si parla di algoritmi per la ricerca e l'ordinamento di grandi quantità di dati, algoritmi e manipolazioni di stringhe, algoritmi di teoria dei grafi, costruzione e analisi di strutture dati.

Corso "Calcolo Parallelo e Distribuito"

Per coloro che desiderano da tempo familiarizzare con la programmazione multithread e parallela, oltre a MapReduce.

Corso "Analisi Discreta e Teoria della Probabilità"

Il corso copre i concetti ei metodi di base dell'analisi combinatoria, discreta e asintotica, della teoria della probabilità, della statistica e ne illustra l'applicazione.

Corso di Complessità Computazionale

Dopo aver visto il corso, imparerai le classi di complessità probabilistica e le tecniche di base per analizzare e tracciare i dati.

Conferenze Gruppo Technostrim Mail.ru

I programmi dei corsi sono destinati agli studenti di diverse università di Mosca, ma sono disponibili per chiunque. Per i futuri analisti, consigliamo le seguenti raccolte di lezioni:

Lezioni universitarie sui Big Data

Big Data University è un corso online creato in collaborazione con IBM per principianti e persone che non hanno una formazione matematica. Le lezioni che ti aiutano a familiarizzare con le basi del lavoro con i dati sono scritte in un inglese comprensibile.

Welch Labs

Questo canale contiene lezioni su matematica, informatica, programmazione e apprendimento automatico. Nel processo, esempi dell'applicazione delle cose studiate in vita reale. Le lezioni sono in inglese, ma ci sono ottimi sottotitoli in russo.

Bene " Apprendimento dei dati strutturati: un'introduzione ai modelli grafici probabilisticiFacoltà di Informatica, Scuola Superiore di Economia dell'Università Nazionale delle Ricerche

Il corso è incentrato su un'introduzione approfondita alla teoria e alle applicazioni di uno degli approcci più diffusi per risolvere tali problemi oggi: i modelli grafici probabilistici discreti. La lingua del corso è l'inglese.

canale senddex

Il canale è completamente dedicato al lavoro con i dati. Inoltre, non solo coloro che sono interessati alla matematica troveranno cose utili per se stessi. C'è un video su analisi e programmazione per analisti finanziari e robotica con il Rasperri Pi.

Canale Siraj Raval

Guy parla moderne tecnologie e come lavorare con loro. I corsi di deep learning, data science e machine learning ti aiuteranno a imparare a lavorare con i dati.

Canale Scuola Dati

Se hai sentito solo a metà qualcosa sull'apprendimento automatico, ma sei già interessato, allora questo canale fa per te. L'autore a un livello comprensibile, con esempi, spiegherà di cosa si tratta, come funziona e dove viene applicato.

Dove esercitarsi

Per coloro che non sono sicuri di essere pronti a studiare da soli mentre guardano le lezioni, ci sono corsi online con compiti con verifica.

Corsi di scienza dei dati su Coursera

Non c'è bisogno di spiegare di che piattaforma si tratta. Devi scegliere un corso e iniziare a esercitarti.

Stepik.org

Analisi dei dati in R

La prima parte copre tutte le fasi principali dell'analisi statistica R, lettura dei dati, preelaborazione dei dati, applicazione dei metodi statistici di base e visualizzazione dei risultati. Gli studenti apprenderanno gli elementi di base della programmazione nel linguaggio R, che consentirà loro di risolvere in modo rapido ed efficiente un'ampia gamma di problemi che si presentano nell'elaborazione dei dati.

La seconda parte affronta diversi argomenti avanzati che non sono stati trattati nella prima: preelaborazione dei dati utilizzando i pacchetti data.table e dplyr, tecniche di visualizzazione avanzate, lavoro in R Markdown.

Introduzione alle banche dati

Immergiti nel DBMS

Un corso per chi ha una certa esperienza con i DBMS relazionali e vuole saperne di più su come funzionano. Il corso copre:

progettazione di schemi di database;
gestione delle transazioni;
ottimizzazione delle query;
nuove funzionalità dei DBMS relazionali

Hadoop. Sistema di elaborazione dei big data

Il corso si concentra sui metodi per elaborare grandi quantità di dati utilizzando il sistema Hadoop. Dopo aver completato il corso, acquisirai la conoscenza delle modalità di base per archiviare ed elaborare grandi quantità di dati, comprendere i principi dei sistemi distribuiti nel contesto del framework Hadoop e padroneggiare le abilità pratiche di sviluppo di applicazioni utilizzando il modello di programmazione MapReduce.

Ci sono diverse direzioni nel mondo IT. Qualcuno è impegnato nell'amministrazione, qualcuno - nello sviluppo o nel test. Vengono creati corsi per formare amministratori di sistema, programmatori e tester. Questo articolo discuterà un programma speciale - Data Scientist - in particolare per sviluppatori, analisti e product manager.

Che cos'è un Data Scientist o un Data Specialist

Ci sono molti miti intorno alla professione di Data Scientist e molti non capiscono davvero di cosa si tratta. Ad alcuni sembra che uno specialista di dati o un analista di dati sia qualcosa di simile a un programmatore (secondo il principio: se sai come programmare, allora sai come lavorare con i dati), qualcuno considera questa professione simile a un amministratore di database e chi non sa cosa sia affatto.

Guardando al futuro, va subito notato che un analista di dati non è un programmatore e di certo non un amministratore di database, anche se gli viene richiesto di avere competenze di programmazione.

Un data scientist è uno specialista che possiede tre gruppi di competenze:

matematica e statistica;
Competenze informatiche, compresa la programmazione;
comprensione dei processi aziendali in una determinata area.

I lavori non sono sempre chiamati Data Scientist. Molto spesso ci sono opzioni: programmatore-analista, analista di Big Data, responsabile dell'analisi di sistema, architetto di Big Data, analista di business e altri.
Le responsabilità del data scientist includono:

raccogliere grandi quantità di dati e portarli in un formato conveniente;
programmazione in Python, R, SAS;
risoluzione di problemi aziendali utilizzando metodi di elaborazione dati;
ricerca di relazioni e modelli nascosti nei dati;
condurre test statistici.

Un data scientist deve comprendere le esigenze aziendali della propria organizzazione, essere esperto negli strumenti analitici: apprendimento automatico e analisi del testo.
Secondo la società di consulenza McKinsey Global Institute, già in l'anno prossimo negli Stati Uniti (solo negli Stati Uniti, non in tutto il mondo!) avrai bisogno di un esercito di data scientist - da 140 a 190 mila.

Quanto guadagna un data scientist

Negli Stati Uniti, lo stipendio medio di un data scientist è di oltre $ 138.000 all'anno. In Russia, puoi richiedere uno stipendio di 120 mila rubli al mese (più di 26 mila dollari all'anno).

Se lo confrontiamo con la professione di un semplice programmatore, negli Stati Uniti lo stipendio medio di un programmatore è di 65-80 mila dollari all'anno e in Russia 60 mila rubli al mese o 13 mila dollari all'anno.

In ogni caso, diventando un data scientist, puoi guadagnare più di un programmatore.

Come puoi vedere, un data scientist è una professione molto promettente. In primo luogo, il suo stipendio è superiore a quello di un normale programmatore. In secondo luogo, non ci sono così tanti data scientist e il mercato sta vivendo una carenza di specialisti, non solo in Russia, ma in tutto il mondo.

Puoi padroneggiare la professione di Data Scientist presso l'università per la formazione e la formazione aggiuntiva di specialisti "".

Cosa prevede il corso Data Scientist?

INFORMAZIONI

Mesi di studio: 5
Ore per settimana: 9
Esperti: 13
Orario di pratica: 100+

Requisiti degli studenti

Gli studenti devono essere competenti in almeno un linguaggio di programmazione a livello elementare (meglio se è Python).
Gli studenti dovrebbero conoscere la matematica a livello di scuola superiore: funzioni, derivate, algebra vettoriale e matriciale, trigonometria.

Corso di formazione

Se non hai le conoscenze necessarie, allora è previsto un corso preparatorio gratuito appositamente per te, che si aprirà subito dopo aver pagato il corso principale. Il corso consiste in 11 registrazioni video di lezioni e compiti per loro. Parlerà di cicli, tipi di dati, funzioni, ti insegnerà come lavorare con richieste HTTP, diversi formati di dati e molto altro.

Quanto costa

Il costo di base è di 180.000 rubli, ma fino al 15 giugno il costo della formazione è stato ridotto a 165.000 rubli. Allo stesso tempo, viene fornito un piano rateale senza interessi per 6 mesi, ovvero il costo della formazione è di 27.500 rubli al mese.

Qual'è il risultato

Allo studente viene rilasciato un diploma statale di riqualificazione professionale nella specialità "Data Analyst / Machine Learning Specialist". Con lui puoi candidarti per la posizione di "Data Analyst", "Big Data Developer" con uno stipendio di 120 mila rubli al mese.

Si prega di notare che al termine della formazione non viene rilasciato alcun tipo di "certificato", ma un diploma statale.

Scienza dei dati, apprendimento automatico: probabilmente hai sentito queste grandi parole, ma quanto era chiaro il loro significato per te? Per alcuni sono delle bellissime esche. Qualcuno pensa che la scienza dei dati sia una magia che farà fare a una macchina ciò che gli è stato ordinato di fare gratuitamente. Altri addirittura credono che lo sia modo semplice guadagnare soldi enormi. Nikita Nikitinsky, Head of R&D presso IRELA, e Polina Kazakova, Data Scientist, spiegano di cosa si tratta in un linguaggio semplice e comprensibile.

Lavoro nell'elaborazione automatica del linguaggio naturale, una delle applicazioni di data science, e spesso vedo come le persone usano questi termini in modo errato, quindi volevo chiarire un po'. Questo articolo è per coloro che hanno una scarsa idea di cosa sia la scienza dei dati e vogliono capire i concetti.

Definiamo la terminologia

Tanto per cominciare, nessuno sa esattamente cosa sia la scienza dei dati e non esiste una definizione rigida: è un concetto molto ampio e interdisciplinare. Pertanto, qui condividerò la mia visione, che non coincide necessariamente con l'opinione degli altri.

Il termine scienza dei dati è tradotto in russo come "scienza dei dati" e in un ambiente professionale viene spesso semplicemente traslitterato come "scienza dei dati". Formalmente, questo è un insieme di alcune discipline e metodi correlati nel campo dell'informatica e della matematica. Suona troppo astratto, giusto? Scopriamolo.

Prima parte: dati

La prima componente della scienza dei dati, senza la quale l'intero processo successivo è impossibile, è, infatti, i dati stessi: come raccoglierli, archiviarli ed elaborarli, nonché come estrarre informazioni utili dall'array di dati generali. È la pulizia dei dati e il portarli a il tipo giusto gli specialisti dedicano fino all'80% del loro tempo di lavoro.

Una parte importante di questo paragrafo è come trattare i dati che non sono adatti ai metodi di archiviazione ed elaborazione standard a causa del loro enorme volume e/o varietà - i cosiddetti big data, big data. A proposito, non lasciatevi confondere: big data e data science non sono sinonimi: anzi, la prima sottosezione della seconda. Allo stesso tempo, in pratica, i data scientist non devono sempre lavorare con i big data: quelli piccoli possono essere utili.

Raccogliamo dati

Immagina di essere interessato a sapere se esiste una relazione tra quanto i tuoi colleghi di lavoro bevono caffè al giorno e quanto hanno dormito il giorno prima. Segnaliamo le informazioni a nostra disposizione: diciamo che il tuo collega Gregory oggi ha dormito 4 ore, quindi ha dovuto bere 3 tazzine di caffè; Elina ha dormito 9 ore e non ha bevuto affatto caffè; e Polina hanno dormito tutte le 10 ore, ma hanno bevuto 2,5 tazze di caffè e così via.

Tracciamo i dati ottenuti su un grafico (la visualizzazione è anche un elemento importante di qualsiasi progetto di data science). Mettiamo il tempo in ore sull'asse X e il caffè in millilitri sull'asse Y. Otterremo qualcosa del genere:

Seconda parte: scienza

Abbiamo dati, cosa possiamo farci adesso? Esatto, analizza, estrai schemi utili e in qualche modo usali. Qui saremo aiutati da discipline come la statistica, l'apprendimento automatico, l'ottimizzazione.

Costituiscono la componente successiva e forse la più importante della scienza dei dati: l'analisi dei dati. L'apprendimento automatico ti consente di trovare modelli nei dati esistenti, in modo da poter prevedere le informazioni giuste per i nuovi oggetti.

Analizziamo i dati

Torniamo al nostro esempio. Sembra all'occhio che i due parametri siano in qualche modo interconnessi: meno persone dormito, più caffè berrà il giorno successivo. Allo stesso tempo, abbiamo anche un esempio che rompe questa tendenza: Polina, amante del sonno e del caffè. Tuttavia, puoi provare ad approssimare il modello risultante con una linea retta comune in modo che si adatti il più vicino possibile a tutti i punti:

La linea verde è il nostro modello di apprendimento automatico, riassume i dati e può essere descritto matematicamente. Ora, con l'aiuto di esso, possiamo determinare i valori per nuovi oggetti: quando vogliamo prevedere quanto caffè Nikita, che è entrato in ufficio, berrà oggi, ci interesseremo di quanto ha dormito. Dopo aver ricevuto un valore di 7,5 ore come risposta, lo sostituiamo nel modello: corrisponde alla quantità di caffè bevuta in un volume leggermente inferiore a 300 ml. Il punto rosso rappresenta la nostra previsione.

È così che funziona il machine learning, la cui idea è molto semplice: trovare uno schema ed estenderlo a nuovi dati. In effetti, un'altra classe di attività spicca nel machine learning quando è necessario non prevedere alcuni valori, come nel nostro esempio, ma dividere i dati in alcuni gruppi. Ma di questo parleremo più in dettaglio un'altra volta.

Applica il risultato

Tuttavia, a mio avviso, la scienza dei dati non si esaurisce con l'identificazione di modelli nei dati. Qualsiasi progetto di scienza dei dati è una ricerca applicata, in cui è importante non dimenticare cose come impostare un'ipotesi, pianificare un esperimento e, naturalmente, valutare il risultato e la sua idoneità a risolvere un caso particolare.

Quest'ultimo è molto importante nelle attività aziendali reali, quando è necessario capire se la soluzione di data science trovata andrà a beneficio del tuo progetto o meno. Quale sarebbe l'utilità del modello costruito nel nostro esempio? Forse con il suo aiuto potremmo ottimizzare la consegna del caffè in ufficio. Allo stesso tempo, dobbiamo valutare i rischi e determinare se il nostro modello sarebbe in grado di far fronte a questo problema meglio della soluzione esistente: il responsabile dell'ufficio Mikhail, responsabile dell'acquisto del prodotto.

Troviamo eccezioni

Naturalmente, il nostro esempio è semplificato al massimo. In realtà, sarebbe possibile costruire un modello più complesso che tenga conto di alcuni altri fattori, ad esempio se a una persona piace il caffè in generale. Oppure il modello potrebbe trovare relazioni più complesse di quelle rappresentate da una retta.

Si potrebbero prima trovare valori anomali nei nostri dati: oggetti che, come Polina, sono molto diversi dalla maggior parte degli altri. Il fatto è che nel lavoro reale, tali esempi possono avere un effetto negativo sul processo di costruzione di un modello e sulla sua qualità, e ha senso elaborarli in qualche modo in modo diverso. E a volte tali oggetti rivestono un interesse fondamentale, ad esempio, nel compito di rilevare operazioni bancarie anomale al fine di prevenire le frodi.

Inoltre, Polina ci mostra un'altra idea importante: l'imperfezione degli algoritmi di apprendimento automatico. Il nostro modello prevede solo 100 ml di caffè per una persona che ha dormito 10 ore, mentre in realtà Polina ne ha bevuti fino a 500. I clienti delle soluzioni di data science non ci crederanno mai, ma è comunque impossibile insegnare a una macchina a prevedere tutto perfettamente nel mondo: non importa quanto bene si evidenziano i modelli nei dati, ci saranno sempre elementi imprevedibili.

Continuiamo la storia

Quindi, la scienza dei dati è un insieme di metodi per elaborare e analizzare i dati e applicarli a problemi pratici. Allo stesso tempo, è necessario comprendere che ogni specialista ha la propria opinione su quest'area e le opinioni possono differire.

La scienza dei dati si basa su idee abbastanza semplici, ma in pratica si trovano spesso molte sottigliezze. In che modo la scienza dei dati ci circonda nella vita di tutti i giorni, quali metodi di analisi dei dati esistono, da chi è composto il team di scienza dei dati e quali difficoltà possono sorgere nel processo di ricerca: ne parleremo nei seguenti articoli.

Continuiamo una serie di studi analitici della domanda di competenze nel mercato del lavoro. Questa volta, grazie a Pavel Surmenok squalo, prenderemo in considerazione una nuova professione: il Data Scientist.

Negli ultimi anni, il termine Data Science ha iniziato a guadagnare popolarità. Ne scrivono molto, parlano alle conferenze. Alcune aziende stanno persino assumendo persone per il titolo pomposo di Data Scientist. Cos'è la scienza dei dati? E chi sono i Data Scientist?

Chi sono i data scientist?

Se fai questa domanda a un residente di San Francisco, puoi ottenere la risposta che un Data Scientist è uno statistico che vive a San Francisco. Divertente, anche se poco rassicurante per chi non vive a San Francisco, giusto? Va bene, un'altra definizione quindi: un Data Scientist è qualcuno che comprende le statistiche meglio di qualsiasi programmatore e comprende la programmazione meglio di qualsiasi statistico. Ma questa opzione è già vicina al punto. Un data scientist è una specie di ibrido tra uno statistico e un programmatore. Inoltre, sia gli statistici che i programmatori sono molto diversi, quindi è meglio considerare questa professione come un'ampia gamma da statistici puri a programmatori puri.

Robert Chang, Data Scientist di Twitter, divide i rappresentanti della sua professione in 2 gruppi: Type A Data Scientist vs. Data Scientist di tipo B.

Digitare A, dove A è Analisi. Queste persone si occupano principalmente di estrarre significato da dati statici. Sono molto simili agli statistici, possono anche essere statistici e cambiare semplicemente il loro titolo di lavoro in Data Scientist e, come sappiamo, solo un cambio di titolo di lavoro può dare un aumento significativo dello stipendio, oltre a onore e rispetto. Ma oltre alle statistiche, conoscono anche aspetti pratici: come pulire i dati, come lavorare con grandi set di dati, come visualizzare i dati e descrivere i risultati del loro lavoro.

Digitare B, dove B è Edificio. Hanno anche conoscenza della statistica, ma sono programmatori forti ed esperti. Sono più interessati ad applicare i dati a sistemi reali. Spesso vengono creati modelli che funzionano in interazione con gli utenti, ad esempio sistemi per consigliare merci, film e pubblicità.

La scienza dei dati si sovrappone anche un po' ad aree come l'apprendimento automatico e l'intelligenza artificiale, i rappresentanti di quest'area sono vicini alla scienza dei dati di tipo B.

Cosa studiare per chi vuole diventare un Data Scientist, quali competenze servono? Diamo un'occhiata ai requisiti che i datori di lavoro americani hanno per i candidati a posizioni nei settori della scienza dei dati e dell'apprendimento automatico.

Competenze difficili da scienziato dei dati

Iniziamo con un'analisi dei requisiti per il possesso di competenze professionali (hard skills).

Come puoi vedere dalla classifica, le più apprezzate sono le conoscenze fondamentali di matematica, statistica, informatica e machine learning. Oltre alle conoscenze teoriche, un Data Scientist deve essere in grado di "estrarre", pulire, modellare e visualizzare i dati. Anche l'esperienza di sviluppo è importante. Software e gestione della qualità.

Strumenti e tecnologie per la scienza dei dati

I principali strumenti di Data Scientist sono i linguaggi di programmazione Python e R.

R è un linguaggio di programmazione specializzato per calcoli statistici, motivo per cui è così amato da statistici e data scientist. Consente di caricare rapidamente un set di dati, calcolare le principali caratteristiche statistiche, visualizzare dati e costruire modelli di dati.

Python, sebbene sia un linguaggio di programmazione generico, ha un numero enorme di librerie e piattaforme di alta qualità per Data Science e Machine Learning.

Sorprendentemente, il 39% dei lavori richiede la conoscenza di R e Python contemporaneamente, quindi è meglio imparare entrambe le lingue contemporaneamente, piuttosto che provare a sceglierne una.

Per lavorare con i big data, i datori di lavoro preferiscono utilizzare Hadoop e Spark. I database più diffusi includono MySQL e MongoDB.

Competenze trasversali di data scientist

Le competenze generali (competenze trasversali) sono meno richieste rispetto alle competenze professionali, poiché sono menzionate nei posti vacanti più del doppio delle volte. Anche gli stipendi medi delle offerte di lavoro che richiedono competenze trasversali sono significativamente inferiori, di circa il 20%, rispetto a quelle che richiedono competenze e conoscenze tecnologiche.

Tuttavia, tra le competenze trasversali incontrate, le più importanti sono le seguenti: la capacità di comunicare, visualizzare dati, fare presentazioni, scrivere e parlare in modo efficace. Anche le capacità di lavoro di squadra, di gestione e di problem solving sono utili.

Conoscenza del dominio dei data scientist

Alcuni posti vacanti richiedono la conoscenza dell'area disciplinare dalla fisica e biologia al settore immobiliare e alberghiero. Economia, marketing e medicina sono tra i leader qui.

Specializzazioni in Data Scientist

Prima di iniziare lo studio, abbiamo ipotizzato di evidenziare le sotto-specializzazioni della professione di Data Scientist. Ad esempio, per separare coloro che si occupano principalmente di analisi e visualizzazione dei dati da coloro che creano modelli per l'analisi predittiva o algoritmi di apprendimento automatico. Ma, come si è scoperto durante l'analisi dei dati, i requisiti per la maggior parte dei posti vacanti sono abbastanza omogenei e non esiste una chiara divisione in specialità.

Anche se alcuni modelli sembrano interessanti. Ad esempio, se un lavoro richiede la conoscenza di Python o C++, è improbabile che siano richieste capacità di comunicazione e gestione e viceversa.

L'impatto della tecnologia sui salari

L'indagine sugli stipendi di Data Science 2015 di O'Reilly ci aiuta a guardare al mercato del lavoro dall'altra parte. Questo studio si basa su un sondaggio di 600 data scientist e i dati raccolti includono livelli salariali, informazioni demografiche e la quantità di tempo che gli specialisti dedicano alle attività. vari tipi. I risultati chiave di questo studio sono i seguenti:

SQL, Excel, R, Python sono gli strumenti chiave e questo elenco non è cambiato da 3 anni.
La popolarità di Spark e Scala è in forte crescita.
Il focus di coloro che in precedenza utilizzavano strumenti commerciali specializzati si sta spostando sull'utilizzo di R.
Ma coloro che in precedenza usavano R si stanno spostando su Python, Python è in testa.
Tra tutti i settori, gli stipendi più alti sono nello sviluppo software.
Il cloud computing continua ad essere richiesto.

Si consiglia di leggere il report nella sua interezza. Tra le altre cose, descrive un modello matematico di come lo stipendio di un Data Scientist dipende da dove vive, dall'istruzione che ha e da quali compiti lavora. Ad esempio, i data scientist che trascorrono più tempo nelle riunioni guadagnano di più. E chi trascorre più di 4 ore al giorno a studiare i dati guadagna meno.

Come studiare la scienza dei dati?

Negli ultimi anni sono apparsi molti corsi online su questo argomento. E questo è un ottimo modo per iniziare!

Se sei più interessato all'analisi dei dati, allora buona opzione sono i corsi di specializzazione in Data Science presso Coursera: Launch Your Career in Data Science. Ottenere una specializzazione non è gratuito, ma se non hai bisogno di un certificato, allora puoi seguire tutti questi corsi gratuitamente: basta guardare il nome del corso e utilizzare la ricerca per trovare il corso.

Per chi è interessato al Machine Learning, consiglierei Andrew Ng, Chief Scientist presso Baidu Research, che è anche professore a Stanford ed è il fondatore di Coursera: Computer Learning.

Cos'è la scienza dei dati?

La scienza dei dati è una nuova area di attività, quindi i requisiti per i data scientist non sono ancora completamente formati. Data la dinamicità del nostro tempo, è possibile che la Data Science non diventi mai una professione indipendente che verrà insegnata nelle università, ma rimarrà un insieme di pratiche e competenze. Ma queste sono esattamente le pratiche e le competenze che saranno molto richieste nei prossimi anni.

scienziato dei dati— uno specialista nell'elaborazione, analisi e archiviazione di grandi array di dati, i cosiddetti "Big Data". La professione è adatta a coloro che sono interessati alla fisica, alla matematica e all'informatica (vedi la scelta della professione per l'interesse per le materie scolastiche).

Data Science - scienza dei dati all'intersezione di diverse discipline: matematica e statistica; informatica e scienze informatiche; affari ed economia.

(S.Maltseva, Università Nazionale di Ricerca V.Kornilov "Scuola Superiore di Economia")

La professione è nuova, rilevante e. Il termine stesso "Big Data" è apparso nel 2008. E la professione Data Scientist - "Data scientist" è stata ufficialmente registrata come disciplina accademica e interdisciplinare all'inizio del 2010. Sebbene la prima menzione del termine "data science" sia stata annotata nel libro di Peter Naur nel 1974, ma in un contesto diverso .

La necessità dell'emergere di una tale professione è stata dettata dal fatto che quando si parla di Ultra Big Data, gli array di dati sono troppo grandi per essere elaborati dai mezzi standard di statistica matematica. Ogni giorno, migliaia di petabyte (10 15 byte = 1024 terabyte) di informazioni passano attraverso i server delle aziende di tutto il mondo. Oltre a tali volumi di dati, il problema è complicato dalla loro eterogeneità e dall'elevata velocità di aggiornamento.

Gli array di dati sono divisi in 3 tipi:

strutturato (ad esempio dati di registratori di cassa in commercio);

semistrutturato (messaggi di posta elettronica);

non strutturato (file video, immagini, foto).

La maggior parte dei Big Data non è strutturata, il che rende molto più difficile l'elaborazione.

Individualmente, uno statistico, un analista di sistemi o un analista aziendale non possono risolvere problemi con tali volumi di dati. Ciò richiede una persona con una formazione interdisciplinare, competente in matematica e statistica, economia e commercio, informatica e tecnologia informatica.

Il compito principale del Data Scientist è la capacità di estrarre le informazioni necessarie da un'ampia varietà di fonti utilizzando flussi informativi in tempo reale; identificare i modelli nascosti nei set di dati e analizzarli statisticamente per prendere decisioni aziendali intelligenti. Il posto di lavoro di un tale specialista non è 1 computer o addirittura 1 server, ma un cluster di server.

Caratteristiche della professione

Il Data Scientist utilizza diversi metodi per lavorare con i dati:

metodi statistici;
modellazione di database;
metodi di analisi intellettuale;
applicazioni intelligenza artificiale lavorare con i dati;
metodi di progettazione e sviluppo di database.

Le responsabilità lavorative di un data scientist dipendono dall'ambito della sua attività, ma l'elenco generale delle funzioni è il seguente:

raccolta di dati da varie fonti per successive elaborazioni operative;
analisi del comportamento dei consumatori;
modellazione della base clienti e personalizzazione del prodotto;
analisi dell'efficacia dei processi interni della base;
analisi dei vari rischi;
rilevamento di possibili frodi attraverso lo studio di transazioni sospette;
predisposizione di report periodici con previsioni e presentazione dei dati.

Un Data Scientist, come un vero scienziato, non solo raccoglie e analizza i dati, ma li studia anche in contesti diversi e da diverse angolazioni, mettendo in discussione qualsiasi ipotesi. La qualità più importante di uno specialista di dati è la capacità di vedere le connessioni logiche nel sistema di informazioni raccolte e, sulla base dell'analisi quantitativa, di sviluppare soluzioni aziendali efficaci. Nel mondo competitivo e frenetico di oggi, con un flusso di informazioni in continua crescita, un Data Scientist è indispensabile per la leadership nel prendere le giuste decisioni aziendali.

Pro e contro della professione

professionisti

La professione non è solo estremamente richiesta, ma c'è una grave carenza di specialisti di questo livello. Secondo il McKinsey Global Institute, entro il 2018, solo negli Stati Uniti, saranno necessari più di 190.000 data scientist. Pertanto, le facoltà delle più prestigiose università per la formazione di data scientist vengono finanziate e sviluppate in modo così rapido e ampio. La domanda di Data Scientist è in crescita anche in Russia.
Una professione altamente pagata.
La necessità di sviluppare costantemente, stare al passo con lo sviluppo delle tecnologie informatiche, creare nuovi metodi per l'elaborazione, l'analisi e l'archiviazione dei dati.

Svantaggi

Non tutte le persone saranno in grado di padroneggiare questa professione; è necessaria una mentalità speciale.
Nel processo di lavoro, i metodi noti e oltre il 60% delle idee potrebbero non funzionare. Molte soluzioni falliranno ed è necessaria molta pazienza per ottenere risultati soddisfacenti. Uno scienziato non ha il diritto di dire "NO!" problema. Deve trovare un modo che aiuti a risolvere il problema.

Posto di lavoro

Data Scientist ricopre posizioni chiave in:

industrie tecnologiche (sistemi di navigazione automatica, produzione di farmaci, ecc.);
ambito IT (ottimizzazione dei motori di ricerca, filtro antispam, sistematizzazione delle notizie, traduzioni automatiche dei testi e molto altro);
medicina (diagnosi automatica delle malattie);
istituzioni finanziarie (decisioni sull'emissione di prestiti), ecc.;
società televisive;
grandi catene di distribuzione;
campagne elettorali.

Qualità importanti

Mente analitica;
diligenza;
persistenza;
scrupolosità, accuratezza, attenzione;
la capacità di completare la ricerca nonostante i risultati intermedi infruttuosi;
socialità;
la capacità di spiegare cose complesse in termini semplici;
intuizione aziendale.

Conoscenze e abilità professionali:

conoscenze di matematica, analisi matematica, statistica matematica, teoria della probabilità;
conoscenza dell'inglese;
conoscenza dei principali linguaggi di programmazione che hanno componenti per lavorare con grandi data array: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
conoscenza degli strumenti statistici - SPSS, R, MATLAB, SAS Data Miner, Tableau;
solida conoscenza del settore in cui opera il data scientist; se questa è l'industria farmaceutica, allora è necessaria la conoscenza dei principali processi produttivi, dei componenti dei farmaci;
la principale competenza di base di un data scientist è l'organizzazione e l'amministrazione di sistemi di cluster storage per grandi data array;
conoscenza delle leggi dello sviluppo aziendale;
conoscenza economica.

università

Università statale di Mosca Lomonosov, Facoltà di Matematica Computazionale e Cibernetica, speciale programma educativo Mail.Ru Group "Technosphere", con formazione in metodi di analisi intellettuale di grandi quantità di dati, programmazione in C++, programmazione multi-thread e tecnologia per la costruzione di sistemi di recupero delle informazioni.
Istituto di Fisica e Tecnologia di Mosca, Dipartimento di Analisi dei Dati.
La Facoltà di scienze informatiche della Higher School of Economics forma analisti di sistema, progettisti e realizzatori di complessi sistemi di informazione, organizzatori della gestione dei sistemi informativi aziendali.
Scuola di analisi dei dati Yandex.
University of Innopolis, University of Dundee, University of Southern California, University of Oakland, University of Washington: Master in Big Data.
Imperial College London Business School, Master in Data Science and Management.

Come in ogni professione, qui è importante l'autoeducazione, i cui indubbi benefici saranno portati da risorse come:

corsi online delle principali università del mondo COURSERA;
canale di apprendimento automatico MASHIN LEARNING;
selezione di corsi edX;
Corsi di Udacity;
Corsi Dataquest dove puoi diventare un vero professionista in Data Science;
Corsi Datacamp in 6 fasi;
Video di formazione O'Reilly;
screencast per principianti e avanzati Data Origami;
conferenza trimestrale di specialisti Moscow Data Scientists Meetup;
concorso di analisi dei dati Kaggle.com

Stipendio

Stipendio dal 04.07.2019

Russia 50000—200000 ₽

Mosca 60000—300000 ₽

La professione di Data Scientist è una delle più pagate. Informazioni dal sito hh.ru: lo stipendio mensile varia da $ 8,5 mila a $ 9 mila Negli Stati Uniti, lo stipendio di un tale specialista è di $ 110 mila - $ 140 mila all'anno.

Secondo un sondaggio del Superjob Research Center, lo stipendio degli specialisti di Data Scientist dipende dall'esperienza lavorativa, dall'ambito delle mansioni e dalla regione. Uno specialista alle prime armi può contare su 70 mila rubli. a Mosca e 57 mila rubli. a San Pietroburgo. Con un'esperienza lavorativa fino a 3 anni, lo stipendio sale a 110 mila rubli. a Mosca e 90 mila rubli. a San Pietroburgo. Specialisti esperti con pubblicazioni scientifiche possono guadagnare fino a 220.000 rubli. a Mosca e 180 mila rubli. A Pietroburgo.

Passi e prospettive di carriera

La professione di Data Scientist è di per sé un risultato elevato, che richiede serie conoscenze teoriche ed esperienza pratica in diverse professioni. In qualsiasi organizzazione, un tale specialista è una figura chiave. Per raggiungere questa altezza, è necessario lavorare sodo e migliorare costantemente e in modo mirato in tutte le aree che costituiscono la base della professione.

Scherzano sul Data Scientist: questo è un generalista che programma meglio di qualsiasi statistico e conosce le statistiche meglio di qualsiasi programmatore. E comprende i processi aziendali meglio del capo dell'azienda.

CHE COSA "GRANDE DATI» in numeri reali?

Ogni 2 giorni, la quantità di dati aumenta della quantità di informazioni che è stata creata dall'umanità dalla nascita di Cristo al 2003.
Il 90% di tutti i dati esistenti oggi è apparso negli ultimi 2 anni.
Fino al 2020 il volume delle informazioni aumenterà da 3,2 a 40 zettabyte. 1 zettabyte = 1021 byte.
In 1 minuto vengono caricate 200mila foto su Facebook, vengono inviate 205 milioni di lettere, vengono visualizzati 1,8 milioni di Mi piace.
Entro 1 secondo, Google elabora 40.000 query di ricerca.
Ogni 1,2 anni, la quantità totale di dati in ciascun settore raddoppia.
Entro il 2020, il mercato dei servizi Hadoop crescerà fino a 50 miliardi di dollari.
Negli USA nel 2015 sono stati creati 1,9 milioni di posti di lavoro per specialisti che lavorano su progetti Big Data.
Le tecnologie Big Data aumentano il profitto delle catene di vendita al dettaglio del 60% all'anno.
Secondo le previsioni, la dimensione del mercato dei Big Data aumenterà a 68,7 miliardi di dollari nel 2020 rispetto ai 28,5 miliardi di dollari del 2014.

Nonostante tali indicatori di crescita positivi, ci sono anche errori nelle previsioni. Quindi, ad esempio, uno degli errori più famigerati del 2016: le previsioni sulle elezioni presidenziali americane non si sono avverate. Le previsioni sono state presentate dal famoso data scientist statunitense Nate Silver, Kirk Born e Bill Schmarzo a favore di Hillary Clinton. Nelle passate campagne elettorali hanno fornito previsioni accurate e non hanno mai commesso errori.

Quest'anno, Nate Silver, per esempio, ha dato previsione accurata per 41 stati, ma per 9 stati, si sbagliava, il che ha portato alla vittoria di Trump. Dopo aver analizzato le cause degli errori del 2016, hanno concluso che:

I modelli matematici riflettono oggettivamente l'immagine al momento della loro creazione. Ma hanno un'emivita, alla fine della quale la situazione può cambiare radicalmente. La qualità predittiva del modello si deteriora nel tempo. In questo caso, ad esempio, hanno avuto un ruolo il malaffare, la disparità di reddito e altri sconvolgimenti sociali. Pertanto, il modello deve essere aggiornato regolarmente con nuovi dati. Non è stato fatto.
È necessario cercare e tenere conto di dati aggiuntivi che possono avere un impatto significativo sulle previsioni. Quindi, quando si guardano i video delle manifestazioni nella campagna elettorale di Clinton e Trump, il numero totale di partecipanti alle manifestazioni non è stato preso in considerazione. Si trattava di centinaia di persone. Si è scoperto che 400-600 persone hanno partecipato alla manifestazione a favore di Trump e solo 150-200 a favore di Clinton, il che si è riflesso nei risultati.
I modelli matematici nelle campagne elettorali si basano su dati demografici: età, razza, genere, reddito, status sociale, ecc. Il peso di ogni gruppo è determinato da come hanno votato nelle ultime elezioni. Tale previsione ha un errore del 3-4% e funziona in modo affidabile con un ampio divario tra i candidati. Ma in questo caso, il divario tra Clinton e Trump era piccolo e questo errore ha avuto un impatto significativo sui risultati elettorali.
Il comportamento irrazionale delle persone non è stato preso in considerazione. Sondaggi condotti opinione pubblica creare l'illusione che le persone voteranno nel modo in cui hanno risposto ai sondaggi. Ma a volte fanno il contrario. In questo caso, sarebbe necessario analizzare ulteriormente il volto e il discorso per identificare un atteggiamento disonesto nei confronti del voto.

In generale, la previsione errata si è rivelata tale a causa del piccolo divario tra i candidati. Nel caso di un grande divario, questi errori non avrebbero un'importanza così decisiva.

Video: nuova specializzazione "Big Data" - Mikhail Levin

Articolo precedente: Come si dice l'ora in inglese? Articolo successivo: Articoli in inglese (articoli) - le regole di base per il loro utilizzo

Data Scientist (Specialista nell'elaborazione, analisi e archiviazione di grandi quantità di dati). Che cos'è la scienza dei dati e come funziona? Che cos'è la scienza dei dati