¿Hace mucho que quería descubrir cómo convertirse en analista de datos, estudiar ciencia de datos, pero no sabía por dónde empezar? Entonces este articulo es para usted.

¿Quién de nosotros no ha oído hablar de "big data"? Es poco probable que haya al menos uno. A últimos años El interés por trabajar con datos ha crecido significativamente, ya que las grandes empresas de TI necesitan encontrar nuevas soluciones para el análisis, procesamiento y posterior uso de los datos. Algunos incluso corren programas de aprendizaje junto con las universidades. Sin embargo, la mayoría no comprende qué tipo de personas son los analistas de datos. Si usted es una de esas personas y desea convertirse en analista de datos, este artículo es para usted. Hemos seleccionado solo herramientas de aprendizaje gratuitas que puede usar independientemente de su ubicación.

¿Qué hacen los analistas de datos?

Los llamados analistas de datos se dedican a su información y análisis para obtener resultados visuales, perceptibles por el ser humano. Estas personas suelen incluir especialistas en big data, minería de datos, aprendizaje automático, análisis de sistemas y analistas de negocios.

Qué ver

Conferencias "Escuela de análisis de datos" de Yandex

ShAD: cursos sobre análisis de datos de empleados de Yandex. Es bastante difícil ingresar allí, el mínimo requerido para los solicitantes son las secciones básicas de álgebra superior,análisis matemático, combinatoria, teoría de la probabilidad, así como los fundamentos de la programación. Afortunadamente, los cursos se graban para que todos puedan aprender de las conferencias en video.

Curso de aprendizaje automático

El curso enseña cómo aplicar la teoría de la probabilidad y las estadísticas, hablar sobre los conceptos básicos del aprendizaje automático, aprender a construir algoritmos.

Curso "Algoritmos y Estructuras de Datos de Búsqueda"

Durante las conferencias, hablan sobre algoritmos para buscar y clasificar grandes cantidades de datos, algoritmos y manipulaciones de cadenas, algoritmos de teoría de gráficos, construcción y análisis de estructuras de datos.

Curso "Computación Paralela y Distribuida"

Para aquellos que durante mucho tiempo han querido familiarizarse con la programación paralela y de subprocesos múltiples, así como con MapReduce.

Curso "Análisis Discreto y Teoría de la Probabilidad"

El curso cubre los conceptos y métodos básicos de análisis combinatorio, discreto y asintótico, teoría de la probabilidad, estadística y demuestra su aplicación.

Curso Complejidad Computacional

Después de ver el curso, aprenderá sobre clases de complejidad probabilística y técnicas básicas para analizar y graficar datos.

Conferencias Grupo Technostrim Mail.ru

Los programas del curso están destinados a estudiantes de varias universidades de Moscú, pero están disponibles para cualquier persona. Para futuros analistas, recomendamos las siguientes colecciones de conferencias:

Conferencias universitarias de Big Data

Big Data University es un curso en línea creado en colaboración con IBM para principiantes y personas que no tienen educación matemática. Las conferencias que lo ayudan a familiarizarse con los conceptos básicos del trabajo con datos están escritas en un inglés comprensible.

Laboratorios Welch

Este canal contiene conferencias sobre matemáticas, informática, programación y aprendizaje automático. En el proceso, ejemplos de la aplicación de las cosas estudiadas en vida real. Las conferencias son en inglés, pero hay excelentes subtítulos en ruso.

Bien " Aprendizaje de datos estructurados: una introducción a los modelos gráficos probabilísticosFacultad de Ciencias de la Computación, Escuela Superior de Economía de la Universidad Nacional de Investigación

El curso se centra en una introducción profunda a la teoría y las aplicaciones de uno de los enfoques más populares para resolver este tipo de problemas en la actualidad: los modelos gráficos probabilísticos discretos. El idioma del curso es el inglés.

canal sentdex

El canal está completamente dedicado a trabajar con datos. Además, no solo aquellos que estén interesados en las matemáticas encontrarán cosas útiles para ellos. Hay un vídeo sobre análisis y programación para analistas financieros y robótica con la Rasperri Pi.

Canal Siraj Raval

chico habla de tecnologías modernas y cómo trabajar con ellos. Los cursos de aprendizaje profundo, ciencia de datos y aprendizaje automático lo ayudarán a aprender a trabajar con datos.

Canal Escuela de Datos

Si solo ha escuchado algo sobre el aprendizaje automático a medias, pero ya está interesado, entonces este canal es para usted. El autor a un nivel comprensible, con ejemplos, explicará qué es, cómo funciona y dónde se aplica.

donde practicar

Para aquellos que no están seguros de estar listos para estudiar completamente solos mientras miran conferencias, hay cursos en línea con tareas con verificación.

Cursos de ciencia de datos en Coursera

No es necesario explicar qué plataforma es. Tienes que elegir un curso y empezar a practicar.

Stepik.org

Análisis de datos en R

La primera parte cubre todos los pasos principales del análisis estadístico R, lectura de datos, preprocesamiento de datos, aplicación de métodos estadísticos básicos y visualización de resultados. Los estudiantes aprenderán los elementos básicos de programación en el lenguaje R, lo que les permitirá resolver de manera rápida y eficiente una amplia gama de problemas que se presentan en el procesamiento de datos.

La segunda parte trata varios temas avanzados que no fueron cubiertos en la primera: preprocesamiento de datos usando los paquetes data.table y dplyr, técnicas de visualización avanzadas, trabajando en R Markdown.

Introducción a las bases de datos

Sumérgete en el DBMS

Un curso para aquellos que tienen algo de experiencia con DBMS relacionales y quieren saber más sobre su funcionamiento. El curso cubre:

diseño de esquemas de bases de datos;
Gestión de transacciones;
optimización de consultas;
nuevas características de DBMS relacional

Hadoop. Sistema de procesamiento de grandes datos

El curso se enfoca en métodos para procesar grandes cantidades de datos utilizando el sistema Hadoop. Después de completar el curso, obtendrá conocimientos sobre las formas básicas de almacenar y procesar grandes cantidades de datos, comprenderá los principios de los sistemas distribuidos en el contexto del marco Hadoop y dominará las habilidades prácticas de desarrollo de aplicaciones utilizando el modelo de programación MapReduce.

Hay diferentes direcciones en el mundo de TI. Alguien se dedica a la administración, alguien, al desarrollo o la prueba. Se están creando cursos para capacitar a administradores de sistemas, programadores y evaluadores. Este artículo discutirá un programa especial, Data Scientist, especialmente para desarrolladores, analistas y gerentes de productos.

¿Qué es un científico de datos o un especialista en datos?

Hay muchos mitos en torno a la profesión de científico de datos, y muchos no entienden realmente qué es. A algunos les parece que un especialista en datos o analista de datos es algo así como un programador (según el principio: si sabes programar, entonces sabes cómo trabajar con datos), alguien considera esta profesión similar a un administrador de base de datos, y quien Él no sabe lo que es en absoluto.

De cara al futuro, cabe señalar de inmediato que un analista de datos no es un programador y, desde luego, no es un administrador de bases de datos, aunque debe tener conocimientos de programación.

Un científico de datos es un especialista que posee tres grupos de habilidades:

matemáticas y estadística;
Habilidades de TI, incluida la programación;
comprensión de los procesos de negocio en un área particular.

Los trabajos no siempre se denominan Data Scientist. Muy a menudo hay opciones: programador-analista, analista de Big Data, gerente de análisis de sistemas, arquitecto de Big Data, analista de negocios y otros.
Las responsabilidades del científico de datos incluyen:

recopilar grandes cantidades de datos y llevarlos a un formato conveniente;
programación en Python, R, SAS;
resolución de problemas comerciales utilizando métodos de procesamiento de datos;
buscar relaciones y patrones ocultos en los datos;
realización de pruebas estadísticas.

Un científico de datos debe comprender las necesidades comerciales de su organización, ser competente en herramientas analíticas: aprendizaje automático y análisis de texto.
Según la consultora McKinsey Global Institute, ya en el próximo año en los EE. UU. (¡solo en los EE. UU., no en todo el mundo!) necesitará un ejército de científicos de datos, de 140 a 190 mil.

¿Cuánto gana un científico de datos?

En los EE. UU., el salario promedio de un científico de datos supera los $ 138,000 por año. En Rusia, puede solicitar un salario de 120 mil rublos al mes (más de 26 mil dólares al año).

Si lo comparamos con la profesión de un simple programador, entonces en los EE. UU. el salario promedio de un programador es de 65-80 mil dólares al año, y en Rusia 60 mil rublos al mes, o 13 mil dólares al año.

En cualquier caso, al convertirte en científico de datos, puedes ganar más que un programador.

Como puede ver, un científico de datos es una profesión muy prometedora. En primer lugar, su salario es más alto que el de un programador ordinario. En segundo lugar, no hay tantos científicos de datos y el mercado está experimentando una escasez de especialistas, no solo en Rusia, sino en todo el mundo.

Puede dominar la profesión de científico de datos en la universidad para la formación y formación adicional de especialistas "".

¿Qué proporciona el curso de Científico de Datos?

INFORMACIÓN

Meses de estudio: 5
Horas por semana: 9
Expertos: 13
Horas de práctica: 100+

Requisitos del estudiante

Los estudiantes deben dominar al menos un lenguaje de programación a nivel elemental (mejor si es Python).
Los estudiantes deben saber matemáticas a nivel de secundaria: funciones, derivadas, álgebra vectorial y matricial, trigonometría.

Curso de entrenamiento

Si no tiene los conocimientos necesarios, se le proporciona un curso preparatorio gratuito especialmente para usted, que se abrirá inmediatamente después de pagar el curso principal. El curso consta de 11 grabaciones de video de conferencias y tareas para ellos. Hablará sobre ciclos, tipos de datos, funciones, te enseñará a trabajar con solicitudes HTTP, diferentes formatos de datos y mucho más.

Cuál es el precio

El costo básico es de 180 000 rublos, pero hasta el 15 de junio, el costo de la capacitación se ha reducido a 165 000 rublos. Al mismo tiempo, se proporciona un plan de cuotas sin intereses durante 6 meses, es decir, el costo de la capacitación es de 27,500 rublos por mes.

Cual es el resultado

El estudiante recibe un diploma estatal de reciclaje profesional en la especialidad "Analista de datos / Especialista en aprendizaje automático". Con él, puede postularse para el puesto de "Analista de datos", "Desarrollador de Big Data" con un salario de 120 mil rublos por mes.

Tenga en cuenta que al finalizar la capacitación, no se emite algún tipo de "certificado", sino un diploma estatal.

Ciencia de datos, aprendizaje automático: probablemente haya escuchado estas grandes palabras, pero ¿qué tan claro fue su significado para usted? Para algunos, son hermosos cebos. Alguien piensa que la ciencia de datos es magia que hará que una máquina haga lo que se le ordena de forma gratuita. Otros incluso creen que es manera fácil ganar mucho dinero. Nikita Nikitinsky, responsable de I+D de IRELA, y Polina Kazakova, científica de datos, explican en qué consiste en un lenguaje sencillo y comprensible.

Trabajo en procesamiento automático de lenguaje natural, una de las aplicaciones de ciencia de datos, y muchas veces veo cómo la gente usa estos términos de manera incorrecta, así que quería aclarar un poco. Este artículo es para aquellos que tienen una idea pobre de lo que es la ciencia de datos y quieren entender los conceptos.

Definamos la terminología

Para empezar, nadie sabe exactamente qué es la ciencia de datos y no existe una definición estricta, es un concepto muy amplio e interdisciplinario. Por eso, aquí compartiré mi visión, la cual no necesariamente coincide con la opinión de los demás.

El término ciencia de datos se traduce al ruso como "ciencia de datos" y, en un entorno profesional, a menudo se translitera simplemente como "ciencia de datos". Formalmente, este es un conjunto de algunas disciplinas y métodos interrelacionados del campo de la informática y las matemáticas. Suena demasiado abstracto, ¿verdad? Averigüémoslo.

Primera parte: datos

El primer componente de la ciencia de datos, sin el cual todo el proceso posterior es imposible, es, de hecho, los datos en sí mismos: cómo recopilarlos, almacenarlos y procesarlos, así como también cómo extraer información útil de la matriz de datos general. Es la limpieza de datos y llevarlos a el tipo correcto los especialistas dedican hasta el 80% de su tiempo de trabajo.

Una parte importante de este párrafo es cómo tratar los datos que no son adecuados para los métodos estándar de almacenamiento y procesamiento debido a su enorme volumen y/o variedad - los llamados big data, big data. Por cierto, no te dejes confundir: big data y data science no son sinónimos: más bien, el primer inciso del segundo. Al mismo tiempo, en la práctica, los científicos de datos no siempre tienen que trabajar con grandes datos; los pequeños pueden ser útiles.

Recopilemos datos

Imagina que nos interesa saber si existe alguna relación entre cuánto beben café al día tus compañeros de trabajo y cuánto durmieron el día anterior. Anotemos la información disponible para nosotros: digamos que su colega Gregory durmió 4 horas hoy, por lo que tuvo que tomar 3 tazas de café; Elina durmió 9 horas y no tomó café en absoluto; y Polina durmió las 10 horas, pero bebió 2,5 tazas de café, y así sucesivamente.

Tracemos los datos obtenidos en un gráfico (la visualización también es un elemento importante de cualquier proyecto de ciencia de datos). Pongamos el tiempo en horas en el eje X y el café en mililitros en el eje Y. Obtendremos algo como esto:

Segunda parte: ciencia

Tenemos datos, ¿qué podemos hacer con ellos ahora? Así es, analiza, extrae patrones útiles y de alguna manera utilízalos. Aquí nos ayudarán disciplinas como estadística, aprendizaje automático, optimización.

Forman el siguiente y quizás el componente más importante de la ciencia de datos: el análisis de datos. El aprendizaje automático le permite encontrar patrones en los datos existentes, de modo que pueda predecir la información correcta para nuevos objetos.

Analicemos los datos

Volvamos a nuestro ejemplo. A simple vista, parece que los dos parámetros están de alguna manera interconectados: menos gente dormido, más café beberá al día siguiente. Al mismo tiempo, también tenemos un ejemplo que rompe con esta tendencia: Polina, amante del sueño y el café. Sin embargo, puede intentar aproximar el patrón resultante por alguna línea recta común para que se ajuste lo más posible a todos los puntos:

La línea verde es nuestro modelo de aprendizaje automático, resume los datos y se puede describir matemáticamente. Ahora, con su ayuda, podemos determinar los valores de los nuevos objetos: cuando queramos predecir cuánto café beberá hoy Nikita, que entró en la oficina, nos interesaremos en cuánto durmió. Habiendo recibido un valor de 7,5 horas como respuesta, lo sustituimos en el modelo: corresponde a la cantidad de café bebido en un volumen de poco menos de 300 ml. El punto rojo representa nuestra predicción.

Así funciona el aprendizaje automático, cuya idea es muy sencilla: encontrar un patrón y extenderlo a nuevos datos. De hecho, otra clase de tareas se destaca en el aprendizaje automático cuando es necesario no predecir algunos valores, como en nuestro ejemplo, sino dividir los datos en algunos grupos. Pero hablaremos de esto con más detalle en otro momento.

Aplicar el resultado

Sin embargo, en mi opinión, la ciencia de datos no termina con la identificación de patrones en los datos. Cualquier proyecto de ciencia de datos es una investigación aplicada, donde es importante no olvidarse de cosas como plantear una hipótesis, planificar un experimento y, por supuesto, evaluar el resultado y su idoneidad para resolver un caso particular.

Esto último es muy importante en las tareas comerciales reales, cuando necesita comprender si la solución de ciencia de datos encontrada beneficiará o no a su proyecto. ¿Cuál sería la utilidad del modelo construido en nuestro ejemplo? Quizás con su ayuda podríamos optimizar la entrega de café a la oficina. Al mismo tiempo, debemos evaluar los riesgos y determinar si nuestro modelo sería más capaz de hacer frente a esto que la solución existente: el gerente de la oficina, Mikhail, responsable de la compra del producto.

Encontremos excepciones

Por supuesto, nuestro ejemplo se simplifica al máximo. En realidad, sería posible construir un modelo más complejo que tuviera en cuenta algunos otros factores, por ejemplo, si a una persona le gusta el café en general. O el modelo podría encontrar relaciones más complejas que las representadas por una línea recta.

Uno podría primero encontrar valores atípicos en nuestros datos: objetos que, como Polina, son muy diferentes de la mayoría de los demás. El hecho es que en el trabajo real, tales ejemplos pueden tener un efecto negativo en el proceso de construcción de un modelo y su calidad, y tiene sentido procesarlos de alguna manera diferente. Y a veces tales objetos son de sumo interés, por ejemplo, en la tarea de detectar transacciones bancarias anómalas para prevenir el fraude.

Además, Polina nos muestra otra idea importante: la imperfección de los algoritmos de aprendizaje automático. Nuestro modelo predice solo 100 ml de café para una persona que durmió durante 10 horas, mientras que, de hecho, Polina bebió hasta 500. Los clientes de soluciones de ciencia de datos nunca lo creerán, pero aún es imposible enseñarle a una máquina a predecir todo a la perfección. en el mundo: no importa qué tan bien resaltemos los patrones en los datos, siempre habrá elementos impredecibles.

Continuemos la historia

Entonces, la ciencia de datos es un conjunto de métodos para procesar y analizar datos y aplicarlos a problemas prácticos. Al mismo tiempo, debe entenderse que cada especialista tiene su propia visión sobre esta área y las opiniones pueden diferir.

La ciencia de datos se basa en ideas bastante simples, pero en la práctica a menudo se encuentran muchas sutilezas. Cómo nos rodea la ciencia de datos en La vida cotidiana, qué métodos de análisis de datos existen, en quién consiste el equipo de ciencia de datos y qué dificultades pueden surgir en el proceso de investigación; hablaremos de esto en los siguientes artículos.

Continuamos una serie de estudios analíticos de la demanda de habilidades en el mercado laboral. Esta vez, gracias a Pavel Surmenok Sharky, consideraremos una nueva profesión: científico de datos.

En los últimos años, el término Data Science ha comenzado a ganar popularidad. Escriben mucho al respecto, hablan en conferencias. Algunas empresas incluso están contratando personas con el pomposo título de Científico de datos. ¿Qué es la ciencia de datos? ¿Y quiénes son los científicos de datos?

¿Quiénes son los científicos de datos?

Si le hace esta pregunta a un residente de San Francisco, puede obtener la respuesta de que un científico de datos es un estadístico que vive en San Francisco. Divertido, aunque no muy tranquilizador para los que no viven en San Francisco, ¿verdad? Bien, otra definición entonces: un científico de datos es alguien que entiende las estadísticas mejor que cualquier programador y entiende la programación mejor que cualquier estadístico. Pero esta opción ya está cerca del punto. Un científico de datos es una especie de híbrido entre un estadístico y un programador. Además, tanto los estadísticos como los programadores son muy diferentes, por lo que es mejor considerar esta profesión como una amplia gama, desde estadísticos puros hasta programadores puros.

Robert Chang, científico de datos de Twitter, divide a los representantes de su profesión en 2 grupos: científico de datos tipo A vs. Científico de datos tipo B.

Tipo A, donde A es Análisis. Estas personas están principalmente preocupadas por extraer significado de datos estáticos. Son muy similares a los estadísticos, incluso pueden ser estadísticos y simplemente cambiar su título de trabajo a Científico de datos y, como sabemos, solo un cambio de título de trabajo puede generar un aumento significativo en el salario, además de honor y respeto. Pero además de estadísticas, también conocen aspectos prácticos: cómo limpiar datos, cómo trabajar con grandes conjuntos de datos, cómo visualizar datos y describir los resultados de su trabajo.

Tipo B, donde B es Edificio. También tienen conocimientos de estadística, pero son programadores fuertes y experimentados. Están más interesados en aplicar los datos a sistemas reales. A menudo, se construyen modelos que funcionan en interacción con los usuarios, por ejemplo, sistemas para recomendar productos, películas y publicidad.

Data Science también se superpone un poco con áreas como Machine Learning e Inteligencia Artificial, los representantes de esta área están cerca de Type B Data Science.

¿Qué estudiar para aquellos que quieren convertirse en científicos de datos, qué habilidades se necesitan? Echemos un vistazo a los requisitos que tienen los empleadores estadounidenses para los candidatos a puestos en los campos de la ciencia de datos y el aprendizaje automático.

Habilidades duras del científico de datos

Comencemos con un análisis de los requisitos para la posesión de habilidades profesionales (habilidades duras).

Como puede ver en el ranking, los más populares son los conocimientos fundamentales de matemáticas, estadística, informática y aprendizaje automático. Además del conocimiento teórico, un científico de datos debe ser capaz de "minar", limpiar, modelar y visualizar datos. La experiencia en desarrollo también es importante. software y gestión de la calidad.

Herramientas y tecnologías de ciencia de datos

Las principales herramientas de Data Scientist son los lenguajes de programación Python y R.

R es un lenguaje de programación especializado para cálculos estadísticos, razón por la cual es tan querido por los estadísticos y científicos de datos. Le permite cargar rápidamente un conjunto de datos, calcular las principales características estadísticas, visualizar datos y construir modelos de datos.

Python, aunque es un lenguaje de programación de propósito general, tiene una gran cantidad de bibliotecas y plataformas de alta calidad para Data Science y Machine Learning.

Cabe destacar que el 39% de los trabajos requieren conocimientos de R y Python al mismo tiempo, por lo que es mejor aprender ambos lenguajes a la vez, en lugar de intentar elegir uno de ellos.

Para trabajar con big data, los empleadores prefieren usar Hadoop y Spark. Las bases de datos populares incluyen MySQL y MongoDB.

Habilidades blandas del científico de datos

Las competencias generales (habilidades blandas) tienen menos demanda que las habilidades profesionales, ya que se mencionan en las vacantes con más del doble de frecuencia. Los salarios promedio de las vacantes que requieren habilidades blandas también son significativamente más bajos, en alrededor de un 20%, que los que requieren habilidades duras y conocimientos de tecnología.

Sin embargo, entre las habilidades blandas encontradas, las más importantes son las siguientes: la capacidad de comunicarse, visualizar datos, hacer presentaciones, escribir y hablar con eficacia. Las habilidades de trabajo en equipo, gestión y resolución de problemas también son útiles.

Conocimiento del dominio del científico de datos

Algunas vacantes requieren conocimiento del área temática desde física y biología hasta negocios inmobiliarios y hoteleros. La economía, el marketing y la medicina se encuentran entre los líderes aquí.

Especializaciones de científicos de datos

Antes de iniciar el estudio, asumimos resaltar las subespecializaciones de la profesión de Científico de Datos. Por ejemplo, separar a quienes se dedican principalmente al análisis y la visualización de datos de quienes construyen modelos para análisis predictivos o algoritmos de aprendizaje automático. Pero, como resultó durante el análisis de los datos, los requisitos para la mayoría de las vacantes son bastante homogéneos y no existe una división clara en especialidades.

Aunque algunos patrones parecen interesantes. Por ejemplo, si un trabajo requiere conocimientos de Python o C++, es poco probable que se requieran habilidades de comunicación y gestión, y viceversa.

El impacto de la tecnología en los salarios

La encuesta de salarios de ciencia de datos de 2015 de O'Reilly nos ayuda a ver el mercado laboral desde el otro lado. Este estudio se basa en una encuesta de 600 científicos de datos, y los datos recopilados incluyen niveles salariales, información demográfica y la cantidad de tiempo que los especialistas dedican a las tareas. varios tipos. Los hallazgos clave de este estudio son los siguientes:

SQL, Excel, R, Python son las herramientas clave y esta lista no ha cambiado en 3 años.
La popularidad de Spark y Scala está creciendo con fuerza.
El enfoque de aquellos que anteriormente usaban herramientas comerciales especializadas está cambiando a usar R.
Pero aquellos que anteriormente usaban R se están mudando a Python, Python está a la cabeza.
Entre todas las industrias, los salarios más altos se encuentran en el desarrollo de software.
La computación en la nube sigue teniendo demanda.

Recomendamos leer el informe en su totalidad. Entre otras cosas, describe un modelo matemático de cómo el salario de un científico de datos depende de dónde vive, qué educación tiene y en qué tareas trabaja. Por ejemplo, los científicos de datos que dedican más tiempo a las reuniones ganan más. Y aquellos que pasan más de 4 horas al día estudiando datos ganan menos.

¿Cómo estudiar Ciencia de Datos?

En los últimos años han aparecido muchos cursos online sobre este tema. ¡Y esta es una muy buena manera de empezar!

Si te gusta más el análisis de datos, entonces buena opcion son los cursos de especialización en Data Science de Coursera: Launch Your Career in Data Science. Obtener una especialización no es gratis, pero si no necesita un certificado, puede tomar todos estos cursos de forma gratuita: solo mire el nombre del curso y use la búsqueda para encontrar el curso.

Para aquellos interesados en el aprendizaje automático, recomendaría a Andrew Ng, científico jefe de Baidu Research, profesor en Stanford y fundador de Coursera: Computer Learning.

¿Qué es la ciencia de datos?

La ciencia de datos es una nueva área de actividad, por lo que los requisitos para los científicos de datos aún no están completamente formados. Dado el dinamismo de nuestro tiempo, es posible que la Ciencia de Datos nunca se convierta en una profesión independiente que se impartirá en las universidades, sino que seguirá siendo un conjunto de prácticas y habilidades. Pero estas son exactamente las prácticas y habilidades que tendrán una gran demanda en los próximos años.

científico de datos— un especialista en el procesamiento, análisis y almacenamiento de grandes conjuntos de datos, los llamados "Big Data". La profesión es adecuada para aquellos que estén interesados en la física, las matemáticas y la informática (consulte la elección de profesión para el interés en las materias escolares).

Ciencia de datos: ciencia de datos en la intersección de diferentes disciplinas: matemáticas y estadísticas; informática y ciencias de la computación; negocios y economía.

(S. Maltseva, Universidad Nacional de Investigación V. Kornilov "Escuela Superior de Economía")

La profesión es nueva, relevante y. El término "Big Data" apareció en 2008. Y la profesión Científico de datos - "Científico de datos" se registró oficialmente como disciplina académica e interdisciplinaria a principios de 2010. Aunque la primera mención del término "ciencia de datos" se observó en el libro de Peter Naur en 1974, pero en un contexto diferente .

La necesidad del surgimiento de tal profesión fue dictada por el hecho de que cuando se trata de Ultra Big Data, las matrices de datos son demasiado grandes para ser procesadas por medios estándar de estadísticas matemáticas. Todos los días, miles de petabytes (10 15 bytes = 1024 terabytes) de información pasan por los servidores de empresas de todo el mundo. Además de tales volúmenes de datos, el problema se complica por su heterogeneidad y alta tasa de actualización.

Las matrices de datos se dividen en 3 tipos:

estructurado (por ejemplo, datos de cajas registradoras en el comercio);

semiestructurados (mensajes de correo electrónico);

no estructurados (archivos de video, imágenes, fotos).

La mayoría de Big Data no está estructurado, lo que hace que sea mucho más difícil de procesar.

Individualmente, un estadístico, analista de sistemas o analista de negocios no puede resolver problemas con tales volúmenes de datos. Para ello se requiere una persona con formación interdisciplinar, competente en matemáticas y estadística, economía y empresa, informática y tecnología informática.

La tarea principal del Científico de Datos es la capacidad de extraer la información necesaria de una amplia variedad de fuentes utilizando flujos de información en tiempo real; identifique patrones ocultos en conjuntos de datos y analícelos estadísticamente para tomar decisiones comerciales inteligentes. El lugar de trabajo de dicho especialista no es 1 computadora o incluso 1 servidor, sino un grupo de servidores.

caracteristicas de la profesion

El científico de datos utiliza diferentes métodos para trabajar con datos:

métodos de estadística;
modelado de bases de datos;
métodos de análisis intelectual;
aplicaciones inteligencia artificial trabajar con datos;
métodos de diseño y desarrollo de bases de datos.

Las responsabilidades laborales de un científico de datos dependen del alcance de su actividad, pero la lista general de funciones es la siguiente:

recopilación de datos de diversas fuentes para su posterior procesamiento operativo;
análisis del comportamiento del consumidor;
modelado de base de clientes y personalización de productos;
análisis de la efectividad de los procesos internos de la base;
análisis de diversos riesgos;
detección de posibles fraudes mediante el estudio de operaciones sospechosas;
elaboración de informes periódicos con previsiones y presentación de datos.

Un científico de datos, como un verdadero científico, no solo recopila y analiza datos, sino que también los estudia en diferentes contextos y desde diferentes ángulos, cuestionando cualquier suposición. La cualidad más importante de un especialista en datos es la capacidad de ver conexiones lógicas en el sistema de información recopilada y, en base al análisis cuantitativo, desarrollar soluciones comerciales efectivas. En el mundo competitivo y cambiante de hoy, con un flujo de información cada vez mayor, un científico de datos es indispensable para el liderazgo en la toma de decisiones comerciales correctas.

Pros y contras de la profesión.

ventajas

La profesión no solo tiene una gran demanda, sino que hay una gran escasez de especialistas de este nivel. Según el McKinsey Global Institute, para 2018, se necesitarán más de 190 000 científicos de datos solo en los EE. UU. Por lo tanto, las facultades en las universidades más prestigiosas para la formación de científicos de datos se están financiando y desarrollando de manera tan rápida y amplia. La demanda de Data Scientist también está creciendo en Rusia.
Una profesión muy bien pagada.
La necesidad de desarrollar constantemente, seguir el ritmo del desarrollo de tecnologías de TI, crear nuevos métodos para procesar, analizar y almacenar datos.

menos

No todas las personas podrán dominar esta profesión, se necesita una mentalidad especial.
En el proceso de trabajo, los métodos conocidos y más del 60% de las ideas pueden no funcionar. Muchas soluciones fallarán y se necesita mucha paciencia para obtener resultados satisfactorios. Un científico no tiene derecho a decir "¡NO!" problema. Debe encontrar una manera que ayude a resolver el problema.

Lugar de trabajo

Los científicos de datos ocupan puestos clave en:

industrias tecnológicas (sistemas de navegación automática, producción de medicamentos, etc.);
Esfera de TI (optimización de motores de búsqueda, filtro de spam, sistematización de noticias, traducciones automáticas de texto y mucho más);
medicina (diagnóstico automático de enfermedades);
instituciones financieras (toma de decisiones sobre la emisión de préstamos), etc.;
empresas de televisión;
grandes cadenas minoristas;
campañas electorales

Cualidades importantes

mente analítica;
diligencia;
persistencia;
escrupulosidad, exactitud, atención;
la capacidad de completar la investigación a pesar de los resultados intermedios fallidos;
sociabilidad;
la capacidad de explicar cosas complejas en términos simples;
intuición empresarial.

Conocimientos y habilidades profesionales:

conocimientos de matemáticas, análisis matemático, estadística matemática, teoría de la probabilidad;
conocimiento de Inglés;
conocimiento de los principales lenguajes de programación que tienen componentes para trabajar con grandes matrices de datos: Java (Hadoop), C ++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
conocimiento de herramientas estadísticas - SPSS, R, MATLAB, SAS Data Miner, Tableau;
conocimiento sólido de la industria en la que trabaja el científico de datos; si se trata de la industria farmacéutica, entonces es necesario el conocimiento de los principales procesos de producción, los componentes de los medicamentos;
la principal habilidad básica de un científico de datos es la organización y administración de sistemas de almacenamiento en clúster para grandes arreglos de datos;
conocimiento de las leyes del desarrollo empresarial;
conocimiento económico.

universidades

Universidad estatal de Moscú Lomonosov, Facultad de Matemática Computacional y Cibernética, especial programa educativo Mail.Ru Group "Tecnosfera", con capacitación en métodos de minería de datos, programación C ++, programación multiproceso y tecnología de construcción de sistemas de recuperación de información.
Instituto de Física y Tecnología de Moscú, Departamento de Análisis de Datos.
La Facultad de Informática Empresarial de la Escuela Superior de Economía capacita a analistas de sistemas, diseñadores e implementadores de complejos sistemas de información, organizadores de la gestión de sistemas de información corporativa.
Escuela de análisis de datos Yandex.
Universidad de Innopolis, Universidad de Dundee, Universidad del Sur de California, Universidad de Oakland, Universidad de Washington: Maestría en Big Data.
Imperial College London Business School, MSc en Data Science and Management.

Como en cualquier profesión, la autoeducación es importante aquí, cuyos beneficios indudables serán aportados por recursos tales como:

cursos en línea de las principales universidades del mundo OURSERA;
canal de aprendizaje automático MASHIN LEARNING;
selección de cursos edX;
cursos de Udacity;
Cursos de Dataquest donde puedes convertirte en un verdadero profesional en Data Science;
Cursos de 6 pasos de Datacamp;
vídeos de formación de O'Reilly;
screencasts para principiantes y avanzados Data Origami;
conferencia trimestral de especialistas Reunión de científicos de datos de Moscú;
concurso de análisis de datos Kaggle.com

Salario

Salario al 07.04.2019

Rusia 50000—200000 ₽

Moscú 60000—300000 ₽

La profesión de Científico de Datos es una de las mejor pagadas. Información del sitio hh.ru: el salario mensual oscila entre $ 8.5 mil y $ 9 mil. En los EE. UU., el salario de dicho especialista es de $ 110 mil - $ 140 mil por año.

Según una encuesta realizada por Superjob Research Center, el salario de los especialistas en Data Scientist depende de la experiencia laboral, el alcance de las funciones y la región. Un especialista novato puede contar con 70 mil rublos. en Moscú y 57 mil rublos. En San Petersburgo. Con experiencia laboral de hasta 3 años, el salario sube a 110 mil rublos. en Moscú y 90 mil rublos. En San Petersburgo. Los especialistas experimentados con publicaciones científicas pueden ganar hasta 220 000 rublos. en Moscú y 180 mil rublos. en petersburgo

Pasos y perspectivas de carrera

La profesión de Científico de Datos es un alto logro en sí mismo, que requiere un conocimiento teórico serio y experiencia práctica en varias profesiones. En cualquier organización, dicho especialista es una figura clave. Para alcanzar esta altura, uno debe trabajar duro y con determinación y mejorar constantemente en todas las áreas que forman la base de la profesión.

Bromean sobre el Data Scientist: este es un generalista que programa mejor que cualquier estadístico y conoce las estadísticas mejor que cualquier programador. Y entiende los procesos comerciales mejor que el jefe de la empresa.

QUÉ "GRANDE DATOS» en números reales?

Cada 2 días, la cantidad de datos aumenta por la cantidad de información creada por la humanidad desde el nacimiento de Cristo hasta 2003.
El 90% de todos los datos que existen hoy aparecieron en los últimos 2 años.
Hasta 2020, el volumen de información aumentará de 3,2 a 40 zettabytes. 1 zettabyte = 1021 bytes.
En 1 minuto, se cargan 200 mil fotos en Facebook, se envían 205 millones de cartas, se muestran 1,8 millones de Me gusta.
En 1 segundo, Google procesa 40.000 consultas de búsqueda.
Cada 1,2 años, la cantidad total de datos en cada industria se duplica.
Para 2020, el mercado de servicios de Hadoop crecerá a $ 50 mil millones.
En EE. UU. en 2015 se crearon 1,9 millones de puestos de trabajo para especialistas que trabajan en proyectos de Big Data.
Las tecnologías de Big Data aumentan las ganancias de las cadenas minoristas en un 60% por año.
Según las previsiones, el tamaño del mercado de Big Data aumentará hasta los 68.700 millones de dólares en 2020 frente a los 28.500 millones de dólares de 2014.

A pesar de estos indicadores de crecimiento tan positivos, también hay errores en las previsiones. Así, por ejemplo, uno de los errores más notorios de 2016: las predicciones sobre las elecciones presidenciales de EE. UU. no se cumplieron. Las predicciones fueron presentadas por el renombrado científico de datos estadounidense Nate Silver, Kirk Born y Bill Schmarzo a favor de Hillary Clinton. En campañas electorales pasadas, dieron pronósticos precisos y nunca se equivocaron.

Este año, Nate Silver, por ejemplo, dio pronóstico preciso para 41 estados, pero para 9 estados, se equivocó, lo que llevó a la victoria de Trump. Tras analizar las causas de los errores de 2016 concluyeron que:

Los modelos matemáticos reflejan objetivamente la imagen en el momento de su creación. Pero tienen una vida media, al final de la cual la situación puede cambiar drásticamente. La calidad predictiva del modelo se deteriora con el tiempo. En este caso, por ejemplo, la mala conducta, la desigualdad de ingresos y otros trastornos sociales jugaron un papel. Por lo tanto, el modelo debe actualizarse periódicamente con nuevos datos. No se hizo.
Es necesario buscar y tener en cuenta datos adicionales que puedan tener un impacto significativo en los pronósticos. Entonces, al ver videos de mítines en la campaña electoral de Clinton y Trump, no se tuvo en cuenta el número total de participantes en los mítines. Se trataba de cientos de personas. Resultó que 400-600 personas asistieron a la manifestación a favor de Trump y solo 150-200 a favor de Clinton, lo que se reflejó en los resultados.
Los modelos matemáticos en las campañas electorales se basan en datos demográficos: edad, raza, género, ingresos, estatus en la sociedad, etc. El peso de cada grupo está determinado por cómo votaron en las últimas elecciones. Tal pronóstico tiene un error de 3-4% y funciona de manera confiable con una gran brecha entre candidatos. Pero en este caso, la brecha entre Clinton y Trump fue pequeña y este error tuvo un impacto significativo en los resultados de las elecciones.
No se tuvo en cuenta el comportamiento irracional de las personas. Encuestas realizadas opinión pública crear la ilusión de que la gente votará de la forma en que respondió en las encuestas. Pero a veces hacen lo contrario. En este caso, sería necesario analizar adicionalmente la cara y el habla para identificar la actitud deshonesta hacia la votación.

En general, el pronóstico erróneo resultó ser tal debido a la pequeña brecha entre los candidatos. En el caso de un desfase grande, estos errores no tendrían una importancia tan decisiva.

Video: Nueva especialización "Big Data" - Mikhail Levin

Artículo anterior: ¿Qué dieta se debe seguir para la gastritis aguda y crónica? Próximo artículo: Cazuela de requesón Dukan Receta clásica de cazuela de requesón Dukan

Data Scientist (Especialista en procesar, analizar y almacenar grandes cantidades de datos). ¿Qué es la ciencia de datos y cómo funciona? ¿Qué es la ciencia de datos?