¿Cuáles son las facetas del data scientist?
La figura del data scientist es clave para ser capaz de ir de los datos a la información, y de la información a la decisión.
El data scientist tiene tres facetas principales: técnica, analítica y funcional.
- La faceta funcional es la que se refiere al conocimiento del negocio en el que uno trabaja. Por ejemplo, si un data scientist trabaja en el sector financiero, debe conocer todos los detalles de cómo funciona el negocio en ese sector. Este conocimiento es difícil de adquirir solo con formación, y es necesario desarrollarlo en el desempeño de la actividad profesional.
La faceta funcional es la que nos ayuda a plantear las preguntas adecuadas. El análisis de datos, el big data por sí mismos no tienen ningún valor, el valor lo adquieren en el momento en el que se convierten en herramientas para transformar el dato en información, y para responder a las preguntas que son interesantes para el negocio.
- La faceta analítica consiste en ser capaces de extraer información de los datos mediante el uso de métodos cuantitativos de análisis. En esta faceta entran la Estadística, Machine Learning y en general cualquier método de análisis de datos. Es importante tener una sólida base analítica, ya que los métodos cuantitativos suelen tener unas condiciones de aplicación muy precisas y restrictivas. Si aplicamos el método incorrecto a una situación, solo obtendremos resultados sin sentido (garbage in,garbage out).
Cuando aprendemos un nuevo método, nuestra tentación puede ser intentar aplicarlo a todos los problemas que se nos presenten. Debemos ser capaces de resistir la tentación, y de desarrollar la experiencia para saber qué métodos aplicar en qué situaciones. Esta faceta sí es posible adquirirla mediante la formación adecuada. Por ejemplo, muchos matemáticos, ingenieros y físicos (entre otros) han desarrollado este tipo de habilidades y es por ello que solemos ver que estos perfiles son de los más demandados para cubrir los puestos de data scientist.
- Por su parte, la faceta técnica se refiere a ser capaces de implementar nuestro método analítico en un ordenador, para que se pueda ejecutar de manera automática y desasistida. Aquí es donde entra el big data. Muchas veces, una vez que ya hemos identificado la pregunta que necesitamos responder, cómo la vamos a responder, es el turno de ponerlo todo en marcha.
En esta faceta, se requiere ser capaces de escribir código fuente. Muchas veces el volumen de datos, su complejidad y variedad, o el ritmo frenético al que entran en nuestros sistemas, harán que el uso de un simple ordenador sea insuficiente para resolver el problema. En estos casos es donde necesitamos acudir al big data. De hecho, muchas veces esta faceta cristaliza en la forma de un tipo específico de data scientist o de big data engineer, dedicado a transformar un pequeño modelo que se ejecuta en un portátil en una solución que es capaz de ejecutarse en un clúster sin limitaciones en cuanto a volumen, variedad o velocidad a la que nos vienen los datos.
Por Israel Herraiz
@herraiz
Texto extraído de la Guía INKS2015, descarga gratuita https://bit.ly/1LnZelH