Data Science

¿Qué es un Data Scientist?

Unos lo llaman magia, otros conocimiento. Yo prefiero llamarlo trabajo. 

Una de las preguntas que más me suelen hacer las personas que me conocen siempre suele ser la misma. "Tu eres matemático, por tanto solamente puedes aspirar a ser profesor de instituto, ¿verdad?"

La respuesta es sin duda negativa. Las aptitudes y capacidades por las que se caracteriza un matemático son diversas. En particular, cuando les respondo que me dedico al mundo del Data Scientist su expresión facial se empieza a deformar, como si acabaran de recibir un impacto a la velocidad de la luz y la respuesta que sale de ese rostro es un simple

"¿¿EING??"

Con el objetivo de dar a conocer mejor esta profesión, muy demandada en el día de hoy en todos los sectores del mundo online, vamos a ver exactamente a que se dedica un Data Scientist, pues ni su definición es trivial ni su trabajo precisamente bien definido.

Data Science

La definición

Tomando la definición de la Wikipedia,
Data science abarca el estudio de la extracción de conocimiento a partir de una serie de datos, la palabra clave es pues ciencia. Incorpora una gran variedad de elementos, técnicas y teorias de un gran conjunto de campos, entre los que destacan procesamiento de señales, matemáticas, modelos probabilísticos, aprendizaje automático, aprendizaje estadístico, informática, ingeniería de la información, reconocimiento y aprendizaje de patrones, visualización, modelado de la incertidumbre, almacenamiento de datos, y supercomputación de alto rendimiento  con el objetivo de extraer información con sentido a partir de datos y creación de productos con dichos datos. Esto no se restringe únicamente a big data, a pesar de que a medida que el producto escala, el conjunto de datos crece más y más y se convierte en un aspecto necesario del data science. Otro ingrediente importante que mejora la practica y la aplicación del data science es el desarrollo del aprendizaje automático, una rama de la inteligencia artificial encargada de crear y clasificar patrones a partir de datos y desarrollar modelos predictivos prácticos y usables.

El trabajo de un Data Scientist

El Data Scientist se encarga de resolver problemas con datos complejos mediante el empleo de una profunda experiencia en alguna disciplina científica. En general se espera que los Data Scientists sean capaces de trabajar con diversos elementos de las matemáticas, la estadística, marketing digital, psicología y la informática, aunque no se requiere experiencia en estos temas. Sin embargo, un Data Scientist es más probable que sea un experto en sólo uno o dos de estas disciplinas y competentes en otros dos o tres. Por lo tanto, la Data Science se practica en equipo, donde los miembros del equipo tienen una variedad de conocimientos y son capaces de complementarse mutuamente.

Los Data Scientists  utilizan la capacidad de encontrar e interpretar las fuentes de datos con algún valor significativo, administrar grandes cantidades de datos a pesar de hardware, software y ancho de banda de las limitaciones, combinar fuentes de datos en conjunto, garantizar la coherencia de los conjuntos de datos, crear visualizaciones para ayudar en la comprensión de los datos por otros no expertos en esta rama, construir modelos matemáticos utilizando los datos, presentar y comunicar los datos, ideas y resultados a especialistas y científicos en su equipo y, si es necesario a un público no experto.

Las técnicas de la Data Science afectan a la investigación en muchos campos, incluyendo las ciencias biológicas, la informática médica, atención de la salud, ciencias sociales y las humanidades. Es en gran medida influenciada por las ramas de la economía, negocios y finanzas. Desde el punto de vista empresarial, la ciencia de datos es una parte integral de la inteligencia competitiva, un campo emergente que abarca una serie de actividades, como el análisis de minería de datos y los datos.

Data Scientists en el mundo de juegos sociales

En particular, me he especializado en Data Science de vídeo juegos sociales y de casino multijugador y multiplataforma, uno de los mercados emergentes más rico y que más cantidad de capital mueve año tras año. Empresas como King.com, Supercell o Rovio, son ejemplos de compañías que nacieron con unos pocos empleados, y a base de lanzar éxitos como Candy Crush Saga, Clash of Clans o la saga Angry Birds se han ganado un renombre y un estatus en el mundo de los videojuegos sociales. Detrás de todo ese desarrollo de juegos hay siempre un pequeño equipo de Data Scientists que se pasan el día buscando datos procedentes de esos juegos, intentando darles un significado coherente y procediendo a dar sugerencias sobre como mejorar el producto para poder seguir adelante, facturar de cada vez más y crecer exponencialmente (King empezó con 3 empleados y unos años después de su primer éxito ya son más de 1000 con sedes en más de 5 países).

Todos para uno

Una gran manera que suelo utilizar para describir las características de mi trabajo suelen ser las que vemos a continuación en el siguiente diagrama de Venn (por algo soy matemático, verdad):

Diagrama de Venn describiendo el concepto de Data Science

Diagrama de Venn describiendo el concepto de Data Science

Un Data Scientist es una combinación de tres habilidades especificas:

Conocimientos de programación

La gran mayoría de datos que un Data Scientist debe analizar suelen estar guardados en inmensas bases de datos. La cantidad de datos suele alcanzar magnitudes tan grandes que rara vez pueden consultarse todos los datos para el estudio, así que aquí entra en juego la habilidad del mismo para generar un algoritmo que termine y devuelva un resultado susceptible de ser analizado. Esta faceta del Data Scientist, muchas veces se le llama también Minería de Datos, pues muchas veces es de los trabajos que más tiempo lleva. Suele ser muy útil conocer la estructura de datos que yace detrás del producto que analice, que la tenga por mano para no perder tiempo entre las miles de tablas de las que normalmente suelen constar las bases de datos.

Así pues, en esta primera fase, se analiza qué se desea obtener y se extraen, de un modo u otro, una serie de datos que posteriormente se someterán a una fase de análisis estadístico.

Conocimiento matemático

Un Data Scientist que se precie, debe saber de matemáticas, modelos y sobretodo estadística. Muchos de los problemas con los que trabajará a lo largo de su carrera pasaran por entender el comportamiento de una población, intentar modelarla con una distribución de probabilidades para extraer características comunes que luego puedan utilizarse para mejorar el producto que esté analizando. En su día a día tendrá que lidiar con problemas de contraste de hipótesis, sistemas de ecuaciones, integrales, análisis por cohortes... por tanto un background matemático es siempre necesario para su día a día.

En esta fase intermedia, los datos anteriores son ponderados, agregados, promediados, sometidos a contrastes de hipótesis,... Muchas veces los datos recogidos por la faceta de programador no suelen ser suficientes, y por ello se vuelve atrás, se vuelen a extraer nuevos datos para responder a las preguntas que surgen en la fase de análisis.

Experiencia

Puede parecer una tontería, pero muchas veces la experiencia de un Data Scientist es un grado muy valorado. Los problemas de análisis pasados, las conclusiones extraídas en análisis previos son muy útiles para aplicarlos a los nuevos análisis. Un Data Scientist se va puliendo análisis tras análisis: sus conclusiones suelen ser cada vez más acertadas, mucho más precisas y lógicas; los razonamientos cada vez están más fundamentados; y su perspectiva a la hora de afrontar nuevos análisis se abre cada vez más para contemplar casos que al inicio habrían pasado totalmente desapercibidos. Sin duda alguna, so podría decir que un buen Data Scientist es como un vino: mejora con el paso de los años.

¿Y qué puede llegar a hacer un Data Scientist?

Como todo, un Data Scientist tiene sus limitaciones, y más aún si tenemos en cuenta que su fundamento básico es el de la estadística, donde nada es seguro al 100%. No le pidas el próximo número de la lotería o los numeros que debe contener un cartón de bingo para que resulte premiado, porque no te lo dirá... En uno de sus análisis habituales, un Data Scientist podrá inferir conclusiones como por ejemplo:

  • ¿Qué género y rango de edad convierte mejor en un sitio web? Por tanto, el equipo de marketing tendrá un buen feedback para saber a qué publico enfocar sus nuevas campañas.
  • ¿Dónde se atasca el público en el proceso de registro y compra? De este modo se puede replantear el diseño del mismo para ayudar a que las pérdidas en dichos procesos sean menores.
  • ¿Qué botón funciona mejor? Mejor colocar el botón de compra arriba, abajo, en el centro, de colores llamativos, de colores opacos,... Muchas veces pueden parecer decisiones banales, pero en muchos casos suelen ser cruciales.
  • ¿Cual es el mejor canal para reenganchar usuarios? El correo electrónico, las notificaciones, las cartas, las newsletters,...
  • ¿Cual es la mejor hora del día para hacer promociones?
  • ¿Cuanto debe incrementarse la dificultad de cierto nivel de un vídeo juego para balancear la frustración con el engagement?
  • ¿Qué funcionalidades merecen la pena ser potenciadas y cuales deben ser eliminadas del producto?
  • ¿La empresa debe moverse al territorio móvil? ¿Conviene tener una versión para tablets totalmente diferente a la versión móvil? ¿Es interesante integrarse con la API de Twitter?

Estas y muchas otras preguntas suelen poder responderse con la ayuda de un buen Data Scientist. Algunos lo llaman magia, otros conocimiento, pero nosotros mismos, los Data Scientists lo llamamos trabajo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *