Volevi da tempo capire come diventare un analista di dati, studiare scienza dei dati, ma non sapevi da dove cominciare? Allora questo articolo è per te.
Chi di noi non ha sentito parlare di "big data"? È improbabile che ce ne sia almeno uno. A l'anno scorso l'interesse per l'utilizzo dei dati è cresciuto in modo significativo, poiché le grandi aziende IT devono trovare nuove soluzioni per l'analisi, l'elaborazione e il successivo utilizzo dei dati. Alcuni addirittura corrono programmi di apprendimento insieme alle università. Tuttavia, la maggior parte non ha idea di che tipo di persone siano, gli analisti di dati. Se sei una di quelle persone e desideri diventare un analista di dati, allora questo articolo è per te. Abbiamo selezionato solo strumenti di apprendimento gratuiti che puoi utilizzare indipendentemente dalla tua posizione.
I cosiddetti analisti di dati sono impegnati nelle sue informazioni e analisi per ottenere risultati visivi, percepibili dall'uomo. Queste persone di solito includono specialisti in big data, data mining, machine learning, analisi dei sistemi e analisti aziendali.
ShAD - corsi sull'analisi dei dati dei dipendenti Yandex. È abbastanza difficile accedervi, il minimo richiesto per i candidati sono le sezioni di base di algebra superiore,analisi matematica, combinatoria, teoria della probabilità, nonché le basi della programmazione. Fortunatamente, i corsi sono registrati in modo che tutti possano imparare dalle lezioni video.
Il corso insegna come applicare la teoria della probabilità e la statistica, parlare delle basi del machine learning, imparare a costruire algoritmi
Durante le lezioni si parla di algoritmi per la ricerca e l'ordinamento di grandi quantità di dati, algoritmi e manipolazioni di stringhe, algoritmi di teoria dei grafi, costruzione e analisi di strutture dati.
Per coloro che desiderano da tempo familiarizzare con la programmazione multithread e parallela, oltre a MapReduce.
Il corso copre i concetti ei metodi di base dell'analisi combinatoria, discreta e asintotica, della teoria della probabilità, della statistica e ne illustra l'applicazione.
Dopo aver visto il corso, imparerai le classi di complessità probabilistica e le tecniche di base per analizzare e tracciare i dati.
I programmi dei corsi sono destinati agli studenti di diverse università di Mosca, ma sono disponibili per chiunque. Per i futuri analisti, consigliamo le seguenti raccolte di lezioni:
Big Data University è un corso online creato in collaborazione con IBM per principianti e persone che non hanno una formazione matematica. Le lezioni che ti aiutano a familiarizzare con le basi del lavoro con i dati sono scritte in un inglese comprensibile.
Questo canale contiene lezioni su matematica, informatica, programmazione e apprendimento automatico. Nel processo, esempi dell'applicazione delle cose studiate in vita reale. Le lezioni sono in inglese, ma ci sono ottimi sottotitoli in russo.
Il corso è incentrato su un'introduzione approfondita alla teoria e alle applicazioni di uno degli approcci più diffusi per risolvere tali problemi oggi: i modelli grafici probabilistici discreti. La lingua del corso è l'inglese.
Il canale è completamente dedicato al lavoro con i dati. Inoltre, non solo coloro che sono interessati alla matematica troveranno cose utili per se stessi. C'è un video su analisi e programmazione per analisti finanziari e robotica con il Rasperri Pi.
Guy parla moderne tecnologie e come lavorare con loro. I corsi di deep learning, data science e machine learning ti aiuteranno a imparare a lavorare con i dati.
Se hai sentito solo a metà qualcosa sull'apprendimento automatico, ma sei già interessato, allora questo canale fa per te. L'autore a un livello comprensibile, con esempi, spiegherà di cosa si tratta, come funziona e dove viene applicato.
Per coloro che non sono sicuri di essere pronti a studiare da soli mentre guardano le lezioni, ci sono corsi online con compiti con verifica.
Non c'è bisogno di spiegare di che piattaforma si tratta. Devi scegliere un corso e iniziare a esercitarti.
La prima parte copre tutte le fasi principali dell'analisi statistica R, lettura dei dati, preelaborazione dei dati, applicazione dei metodi statistici di base e visualizzazione dei risultati. Gli studenti apprenderanno gli elementi di base della programmazione nel linguaggio R, che consentirà loro di risolvere in modo rapido ed efficiente un'ampia gamma di problemi che si presentano nell'elaborazione dei dati.
La seconda parte affronta diversi argomenti avanzati che non sono stati trattati nella prima: preelaborazione dei dati utilizzando i pacchetti data.table e dplyr, tecniche di visualizzazione avanzate, lavoro in R Markdown.
Un corso per chi ha una certa esperienza con i DBMS relazionali e vuole saperne di più su come funzionano. Il corso copre:
Il corso si concentra sui metodi per elaborare grandi quantità di dati utilizzando il sistema Hadoop. Dopo aver completato il corso, acquisirai la conoscenza delle modalità di base per archiviare ed elaborare grandi quantità di dati, comprendere i principi dei sistemi distribuiti nel contesto del framework Hadoop e padroneggiare le abilità pratiche di sviluppo di applicazioni utilizzando il modello di programmazione MapReduce.
Ci sono diverse direzioni nel mondo IT. Qualcuno è impegnato nell'amministrazione, qualcuno - nello sviluppo o nel test. Vengono creati corsi per formare amministratori di sistema, programmatori e tester. Questo articolo discuterà un programma speciale - Data Scientist - in particolare per sviluppatori, analisti e product manager.
Ci sono molti miti intorno alla professione di Data Scientist e molti non capiscono davvero di cosa si tratta. Ad alcuni sembra che uno specialista di dati o un analista di dati sia qualcosa di simile a un programmatore (secondo il principio: se sai come programmare, allora sai come lavorare con i dati), qualcuno considera questa professione simile a un amministratore di database e chi non sa cosa sia affatto.
Guardando al futuro, va subito notato che un analista di dati non è un programmatore e di certo non un amministratore di database, anche se gli viene richiesto di avere competenze di programmazione.
Un data scientist è uno specialista che possiede tre gruppi di competenze:
I lavori non sono sempre chiamati Data Scientist. Molto spesso ci sono opzioni: programmatore-analista, analista di Big Data, responsabile dell'analisi di sistema, architetto di Big Data, analista di business e altri.
Le responsabilità del data scientist includono:
Un data scientist deve comprendere le esigenze aziendali della propria organizzazione, essere esperto negli strumenti analitici: apprendimento automatico e analisi del testo.
Secondo la società di consulenza McKinsey Global Institute, già in l'anno prossimo negli Stati Uniti (solo negli Stati Uniti, non in tutto il mondo!) avrai bisogno di un esercito di data scientist - da 140 a 190 mila.
Negli Stati Uniti, lo stipendio medio di un data scientist è di oltre $ 138.000 all'anno. In Russia, puoi richiedere uno stipendio di 120 mila rubli al mese (più di 26 mila dollari all'anno).
Se lo confrontiamo con la professione di un semplice programmatore, negli Stati Uniti lo stipendio medio di un programmatore è di 65-80 mila dollari all'anno e in Russia 60 mila rubli al mese o 13 mila dollari all'anno.
In ogni caso, diventando un data scientist, puoi guadagnare più di un programmatore.
Come puoi vedere, un data scientist è una professione molto promettente. In primo luogo, il suo stipendio è superiore a quello di un normale programmatore. In secondo luogo, non ci sono così tanti data scientist e il mercato sta vivendo una carenza di specialisti, non solo in Russia, ma in tutto il mondo.
Puoi padroneggiare la professione di Data Scientist presso l'università per la formazione e la formazione aggiuntiva di specialisti "".
Gli studenti devono essere competenti in almeno un linguaggio di programmazione a livello elementare (meglio se è Python).
Gli studenti dovrebbero conoscere la matematica a livello di scuola superiore: funzioni, derivate, algebra vettoriale e matriciale, trigonometria.
Se non hai le conoscenze necessarie, allora è previsto un corso preparatorio gratuito appositamente per te, che si aprirà subito dopo aver pagato il corso principale. Il corso consiste in 11 registrazioni video di lezioni e compiti per loro. Parlerà di cicli, tipi di dati, funzioni, ti insegnerà come lavorare con richieste HTTP, diversi formati di dati e molto altro.
Il costo di base è di 180.000 rubli, ma fino al 15 giugno il costo della formazione è stato ridotto a 165.000 rubli. Allo stesso tempo, viene fornito un piano rateale senza interessi per 6 mesi, ovvero il costo della formazione è di 27.500 rubli al mese.
Allo studente viene rilasciato un diploma statale di riqualificazione professionale nella specialità "Data Analyst / Machine Learning Specialist". Con lui puoi candidarti per la posizione di "Data Analyst", "Big Data Developer" con uno stipendio di 120 mila rubli al mese.
Si prega di notare che al termine della formazione non viene rilasciato alcun tipo di "certificato", ma un diploma statale.
Scienza dei dati, apprendimento automatico: probabilmente hai sentito queste grandi parole, ma quanto era chiaro il loro significato per te? Per alcuni sono delle bellissime esche. Qualcuno pensa che la scienza dei dati sia una magia che farà fare a una macchina ciò che gli è stato ordinato di fare gratuitamente. Altri addirittura credono che lo sia modo semplice guadagnare soldi enormi. Nikita Nikitinsky, Head of R&D presso IRELA, e Polina Kazakova, Data Scientist, spiegano di cosa si tratta in un linguaggio semplice e comprensibile.
Lavoro nell'elaborazione automatica del linguaggio naturale, una delle applicazioni di data science, e spesso vedo come le persone usano questi termini in modo errato, quindi volevo chiarire un po'. Questo articolo è per coloro che hanno una scarsa idea di cosa sia la scienza dei dati e vogliono capire i concetti.
Tanto per cominciare, nessuno sa esattamente cosa sia la scienza dei dati e non esiste una definizione rigida: è un concetto molto ampio e interdisciplinare. Pertanto, qui condividerò la mia visione, che non coincide necessariamente con l'opinione degli altri.
Il termine scienza dei dati è tradotto in russo come "scienza dei dati" e in un ambiente professionale viene spesso semplicemente traslitterato come "scienza dei dati". Formalmente, questo è un insieme di alcune discipline e metodi correlati nel campo dell'informatica e della matematica. Suona troppo astratto, giusto? Scopriamolo.
La prima componente della scienza dei dati, senza la quale l'intero processo successivo è impossibile, è, infatti, i dati stessi: come raccoglierli, archiviarli ed elaborarli, nonché come estrarre informazioni utili dall'array di dati generali. È la pulizia dei dati e il portarli a il tipo giusto gli specialisti dedicano fino all'80% del loro tempo di lavoro.
Una parte importante di questo paragrafo è come trattare i dati che non sono adatti ai metodi di archiviazione ed elaborazione standard a causa del loro enorme volume e/o varietà - i cosiddetti big data, big data. A proposito, non lasciatevi confondere: big data e data science non sono sinonimi: anzi, la prima sottosezione della seconda. Allo stesso tempo, in pratica, i data scientist non devono sempre lavorare con i big data: quelli piccoli possono essere utili.
Immagina di essere interessato a sapere se esiste una relazione tra quanto i tuoi colleghi di lavoro bevono caffè al giorno e quanto hanno dormito il giorno prima. Segnaliamo le informazioni a nostra disposizione: diciamo che il tuo collega Gregory oggi ha dormito 4 ore, quindi ha dovuto bere 3 tazzine di caffè; Elina ha dormito 9 ore e non ha bevuto affatto caffè; e Polina hanno dormito tutte le 10 ore, ma hanno bevuto 2,5 tazze di caffè e così via.
Tracciamo i dati ottenuti su un grafico (la visualizzazione è anche un elemento importante di qualsiasi progetto di data science). Mettiamo il tempo in ore sull'asse X e il caffè in millilitri sull'asse Y. Otterremo qualcosa del genere:
Abbiamo dati, cosa possiamo farci adesso? Esatto, analizza, estrai schemi utili e in qualche modo usali. Qui saremo aiutati da discipline come la statistica, l'apprendimento automatico, l'ottimizzazione.
Costituiscono la componente successiva e forse la più importante della scienza dei dati: l'analisi dei dati. L'apprendimento automatico ti consente di trovare modelli nei dati esistenti, in modo da poter prevedere le informazioni giuste per i nuovi oggetti.
Torniamo al nostro esempio. Sembra all'occhio che i due parametri siano in qualche modo interconnessi: meno persone dormito, più caffè berrà il giorno successivo. Allo stesso tempo, abbiamo anche un esempio che rompe questa tendenza: Polina, amante del sonno e del caffè. Tuttavia, puoi provare ad approssimare il modello risultante con una linea retta comune in modo che si adatti il più vicino possibile a tutti i punti:
La linea verde è il nostro modello di apprendimento automatico, riassume i dati e può essere descritto matematicamente. Ora, con l'aiuto di esso, possiamo determinare i valori per nuovi oggetti: quando vogliamo prevedere quanto caffè Nikita, che è entrato in ufficio, berrà oggi, ci interesseremo di quanto ha dormito. Dopo aver ricevuto un valore di 7,5 ore come risposta, lo sostituiamo nel modello: corrisponde alla quantità di caffè bevuta in un volume leggermente inferiore a 300 ml. Il punto rosso rappresenta la nostra previsione.
È così che funziona il machine learning, la cui idea è molto semplice: trovare uno schema ed estenderlo a nuovi dati. In effetti, un'altra classe di attività spicca nel machine learning quando è necessario non prevedere alcuni valori, come nel nostro esempio, ma dividere i dati in alcuni gruppi. Ma di questo parleremo più in dettaglio un'altra volta.
Tuttavia, a mio avviso, la scienza dei dati non si esaurisce con l'identificazione di modelli nei dati. Qualsiasi progetto di scienza dei dati è una ricerca applicata, in cui è importante non dimenticare cose come impostare un'ipotesi, pianificare un esperimento e, naturalmente, valutare il risultato e la sua idoneità a risolvere un caso particolare.
Quest'ultimo è molto importante nelle attività aziendali reali, quando è necessario capire se la soluzione di data science trovata andrà a beneficio del tuo progetto o meno. Quale sarebbe l'utilità del modello costruito nel nostro esempio? Forse con il suo aiuto potremmo ottimizzare la consegna del caffè in ufficio. Allo stesso tempo, dobbiamo valutare i rischi e determinare se il nostro modello sarebbe in grado di far fronte a questo problema meglio della soluzione esistente: il responsabile dell'ufficio Mikhail, responsabile dell'acquisto del prodotto.
Naturalmente, il nostro esempio è semplificato al massimo. In realtà, sarebbe possibile costruire un modello più complesso che tenga conto di alcuni altri fattori, ad esempio se a una persona piace il caffè in generale. Oppure il modello potrebbe trovare relazioni più complesse di quelle rappresentate da una retta.
Si potrebbero prima trovare valori anomali nei nostri dati: oggetti che, come Polina, sono molto diversi dalla maggior parte degli altri. Il fatto è che nel lavoro reale, tali esempi possono avere un effetto negativo sul processo di costruzione di un modello e sulla sua qualità, e ha senso elaborarli in qualche modo in modo diverso. E a volte tali oggetti rivestono un interesse fondamentale, ad esempio, nel compito di rilevare operazioni bancarie anomale al fine di prevenire le frodi.
Inoltre, Polina ci mostra un'altra idea importante: l'imperfezione degli algoritmi di apprendimento automatico. Il nostro modello prevede solo 100 ml di caffè per una persona che ha dormito 10 ore, mentre in realtà Polina ne ha bevuti fino a 500. I clienti delle soluzioni di data science non ci crederanno mai, ma è comunque impossibile insegnare a una macchina a prevedere tutto perfettamente nel mondo: non importa quanto bene si evidenziano i modelli nei dati, ci saranno sempre elementi imprevedibili.
Quindi, la scienza dei dati è un insieme di metodi per elaborare e analizzare i dati e applicarli a problemi pratici. Allo stesso tempo, è necessario comprendere che ogni specialista ha la propria opinione su quest'area e le opinioni possono differire.
La scienza dei dati si basa su idee abbastanza semplici, ma in pratica si trovano spesso molte sottigliezze. In che modo la scienza dei dati ci circonda nella vita di tutti i giorni, quali metodi di analisi dei dati esistono, da chi è composto il team di scienza dei dati e quali difficoltà possono sorgere nel processo di ricerca: ne parleremo nei seguenti articoli.
Continuiamo una serie di studi analitici della domanda di competenze nel mercato del lavoro. Questa volta, grazie a Pavel Surmenok squalo, prenderemo in considerazione una nuova professione: il Data Scientist.
Negli ultimi anni, il termine Data Science ha iniziato a guadagnare popolarità. Ne scrivono molto, parlano alle conferenze. Alcune aziende stanno persino assumendo persone per il titolo pomposo di Data Scientist. Cos'è la scienza dei dati? E chi sono i Data Scientist?
Robert Chang, Data Scientist di Twitter, divide i rappresentanti della sua professione in 2 gruppi: Type A Data Scientist vs. Data Scientist di tipo B.
Digitare A, dove A è Analisi. Queste persone si occupano principalmente di estrarre significato da dati statici. Sono molto simili agli statistici, possono anche essere statistici e cambiare semplicemente il loro titolo di lavoro in Data Scientist e, come sappiamo, solo un cambio di titolo di lavoro può dare un aumento significativo dello stipendio, oltre a onore e rispetto. Ma oltre alle statistiche, conoscono anche aspetti pratici: come pulire i dati, come lavorare con grandi set di dati, come visualizzare i dati e descrivere i risultati del loro lavoro.
Digitare B, dove B è Edificio. Hanno anche conoscenza della statistica, ma sono programmatori forti ed esperti. Sono più interessati ad applicare i dati a sistemi reali. Spesso vengono creati modelli che funzionano in interazione con gli utenti, ad esempio sistemi per consigliare merci, film e pubblicità.
La scienza dei dati si sovrappone anche un po' ad aree come l'apprendimento automatico e l'intelligenza artificiale, i rappresentanti di quest'area sono vicini alla scienza dei dati di tipo B.
Cosa studiare per chi vuole diventare un Data Scientist, quali competenze servono? Diamo un'occhiata ai requisiti che i datori di lavoro americani hanno per i candidati a posizioni nei settori della scienza dei dati e dell'apprendimento automatico.
Come puoi vedere dalla classifica, le più apprezzate sono le conoscenze fondamentali di matematica, statistica, informatica e machine learning. Oltre alle conoscenze teoriche, un Data Scientist deve essere in grado di "estrarre", pulire, modellare e visualizzare i dati. Anche l'esperienza di sviluppo è importante. Software e gestione della qualità.
R è un linguaggio di programmazione specializzato per calcoli statistici, motivo per cui è così amato da statistici e data scientist. Consente di caricare rapidamente un set di dati, calcolare le principali caratteristiche statistiche, visualizzare dati e costruire modelli di dati.
Python, sebbene sia un linguaggio di programmazione generico, ha un numero enorme di librerie e piattaforme di alta qualità per Data Science e Machine Learning.
Sorprendentemente, il 39% dei lavori richiede la conoscenza di R e Python contemporaneamente, quindi è meglio imparare entrambe le lingue contemporaneamente, piuttosto che provare a sceglierne una.
Per lavorare con i big data, i datori di lavoro preferiscono utilizzare Hadoop e Spark. I database più diffusi includono MySQL e MongoDB.
Tuttavia, tra le competenze trasversali incontrate, le più importanti sono le seguenti: la capacità di comunicare, visualizzare dati, fare presentazioni, scrivere e parlare in modo efficace. Anche le capacità di lavoro di squadra, di gestione e di problem solving sono utili.
Anche se alcuni modelli sembrano interessanti. Ad esempio, se un lavoro richiede la conoscenza di Python o C++, è improbabile che siano richieste capacità di comunicazione e gestione e viceversa.
Se sei più interessato all'analisi dei dati, allora buona opzione sono i corsi di specializzazione in Data Science presso Coursera: Launch Your Career in Data Science. Ottenere una specializzazione non è gratuito, ma se non hai bisogno di un certificato, allora puoi seguire tutti questi corsi gratuitamente: basta guardare il nome del corso e utilizzare la ricerca per trovare il corso.
Per chi è interessato al Machine Learning, consiglierei Andrew Ng, Chief Scientist presso Baidu Research, che è anche professore a Stanford ed è il fondatore di Coursera: Computer Learning.
scienziato dei dati— uno specialista nell'elaborazione, analisi e archiviazione di grandi array di dati, i cosiddetti "Big Data". La professione è adatta a coloro che sono interessati alla fisica, alla matematica e all'informatica (vedi la scelta della professione per l'interesse per le materie scolastiche).
Data Science - scienza dei dati all'intersezione di diverse discipline: matematica e statistica; informatica e scienze informatiche; affari ed economia.
(S.Maltseva, Università Nazionale di Ricerca V.Kornilov "Scuola Superiore di Economia")
La professione è nuova, rilevante e. Il termine stesso "Big Data" è apparso nel 2008. E la professione Data Scientist - "Data scientist" è stata ufficialmente registrata come disciplina accademica e interdisciplinare all'inizio del 2010. Sebbene la prima menzione del termine "data science" sia stata annotata nel libro di Peter Naur nel 1974, ma in un contesto diverso .
La necessità dell'emergere di una tale professione è stata dettata dal fatto che quando si parla di Ultra Big Data, gli array di dati sono troppo grandi per essere elaborati dai mezzi standard di statistica matematica. Ogni giorno, migliaia di petabyte (10 15 byte = 1024 terabyte) di informazioni passano attraverso i server delle aziende di tutto il mondo. Oltre a tali volumi di dati, il problema è complicato dalla loro eterogeneità e dall'elevata velocità di aggiornamento.
Gli array di dati sono divisi in 3 tipi:
strutturato (ad esempio dati di registratori di cassa in commercio);
semistrutturato (messaggi di posta elettronica);
non strutturato (file video, immagini, foto).
La maggior parte dei Big Data non è strutturata, il che rende molto più difficile l'elaborazione.
Individualmente, uno statistico, un analista di sistemi o un analista aziendale non possono risolvere problemi con tali volumi di dati. Ciò richiede una persona con una formazione interdisciplinare, competente in matematica e statistica, economia e commercio, informatica e tecnologia informatica.
Il compito principale del Data Scientist è la capacità di estrarre le informazioni necessarie da un'ampia varietà di fonti utilizzando flussi informativi in tempo reale; identificare i modelli nascosti nei set di dati e analizzarli statisticamente per prendere decisioni aziendali intelligenti. Il posto di lavoro di un tale specialista non è 1 computer o addirittura 1 server, ma un cluster di server.
Il Data Scientist utilizza diversi metodi per lavorare con i dati:
Le responsabilità lavorative di un data scientist dipendono dall'ambito della sua attività, ma l'elenco generale delle funzioni è il seguente:
Un Data Scientist, come un vero scienziato, non solo raccoglie e analizza i dati, ma li studia anche in contesti diversi e da diverse angolazioni, mettendo in discussione qualsiasi ipotesi. La qualità più importante di uno specialista di dati è la capacità di vedere le connessioni logiche nel sistema di informazioni raccolte e, sulla base dell'analisi quantitativa, di sviluppare soluzioni aziendali efficaci. Nel mondo competitivo e frenetico di oggi, con un flusso di informazioni in continua crescita, un Data Scientist è indispensabile per la leadership nel prendere le giuste decisioni aziendali.
professionisti
Svantaggi
Data Scientist ricopre posizioni chiave in:
Conoscenze e abilità professionali:
Come in ogni professione, qui è importante l'autoeducazione, i cui indubbi benefici saranno portati da risorse come:
Russia 50000—200000 ₽
Mosca 60000—300000 ₽
La professione di Data Scientist è una delle più pagate. Informazioni dal sito hh.ru: lo stipendio mensile varia da $ 8,5 mila a $ 9 mila Negli Stati Uniti, lo stipendio di un tale specialista è di $ 110 mila - $ 140 mila all'anno.
Secondo un sondaggio del Superjob Research Center, lo stipendio degli specialisti di Data Scientist dipende dall'esperienza lavorativa, dall'ambito delle mansioni e dalla regione. Uno specialista alle prime armi può contare su 70 mila rubli. a Mosca e 57 mila rubli. a San Pietroburgo. Con un'esperienza lavorativa fino a 3 anni, lo stipendio sale a 110 mila rubli. a Mosca e 90 mila rubli. a San Pietroburgo. Specialisti esperti con pubblicazioni scientifiche possono guadagnare fino a 220.000 rubli. a Mosca e 180 mila rubli. A Pietroburgo.
La professione di Data Scientist è di per sé un risultato elevato, che richiede serie conoscenze teoriche ed esperienza pratica in diverse professioni. In qualsiasi organizzazione, un tale specialista è una figura chiave. Per raggiungere questa altezza, è necessario lavorare sodo e migliorare costantemente e in modo mirato in tutte le aree che costituiscono la base della professione.
Scherzano sul Data Scientist: questo è un generalista che programma meglio di qualsiasi statistico e conosce le statistiche meglio di qualsiasi programmatore. E comprende i processi aziendali meglio del capo dell'azienda.
CHE COSA "GRANDE DATI» in numeri reali?
Nonostante tali indicatori di crescita positivi, ci sono anche errori nelle previsioni. Quindi, ad esempio, uno degli errori più famigerati del 2016: le previsioni sulle elezioni presidenziali americane non si sono avverate. Le previsioni sono state presentate dal famoso data scientist statunitense Nate Silver, Kirk Born e Bill Schmarzo a favore di Hillary Clinton. Nelle passate campagne elettorali hanno fornito previsioni accurate e non hanno mai commesso errori.
Quest'anno, Nate Silver, per esempio, ha dato previsione accurata per 41 stati, ma per 9 stati, si sbagliava, il che ha portato alla vittoria di Trump. Dopo aver analizzato le cause degli errori del 2016, hanno concluso che:
In generale, la previsione errata si è rivelata tale a causa del piccolo divario tra i candidati. Nel caso di un grande divario, questi errori non avrebbero un'importanza così decisiva.