Data Science

Plataformas y software para Data Science y AI

Analitica de datos de Twitter con hojas de cálculo de Google: Hashtags influyentes de un topic

Analítica de hashtags de Twitter con Spreadsheets de GoogleEn el primer artículo de esta serie tratamos cómo obtener datos de Twitter desde triggers o disparadores. En este punto deberíamos empezar a pensar qué campos incluimos en nuestro análisis e ir estudiando el formato de los mismos.

Para ello, recomendamos consultar la página de desarrollo de la API de Twitter, donde se enumeran todos los campos generados por cada tweet y su formato exacto.

En nuestro caso hemos definido un trigger que nos guarda una fila por cada nuevo tweet con el hashtag #datascience y con un número de retweets mayor a 5..

Data science: caso aplicado a sector retail (análisis cesta de la compra)

Basket market analysisExisten múltiples aplicaciones de business analytics para el sector retail. Desde diferentes perspectivas los sistemas de business intelligence ayudan cuestiones críticas para el negocio, como pueden ser:

  • Analizar clientes (segmentación, captación, retención, fidelización)
  • Optimizar precios (elasticidad, pricing)
  • Procesos de previsión de la demanda y previsión de ventas
  • Análisis de las redes de distribución, transporte y almacenamiento
  • Control geográfico de redes comerciales de gran capilaridad
  • Seguimiento transacciones de venta (análisis productos y cesta de la compra)

En este post vamos a centrarnos en los procesos de análisis de cesta de la compra, realizando un rápido ejemplo..

Data Science con datos de Twitter: Obtención de datos de Twitter

Twitter, la red social de los 140 caracteres, se ha convertido en una fuente imprescindible para los que buscan tendencias locales o globales. No sólo eso, sino que podemos encontrar rápidamente los personajes o ideas más influyentes en dicha red analizando los datos que nos proporciona la API de Twitter.

Este artículo pretende darnos unas primeras nociones sobre el paso inicial en el análisis de datos de Twitter, que no es otro que obtener los datos con los que trabajar desde la conocida red social.

Recursos Open Data, para trabajar con datos abiertos

Open Data no es, en absoluto, algo nuevo. Este movimiento fomenta la
apertura de datos de diversa índFallecidosole para su posterior utilización de manera libre. Ya en 2010 conseguía uno de sus primeros hitos con la liberación de una licencia para la libre utilización de datos del Archivo Nacional del Reino Unido. Esta misma web, en 2011, dedicaba un interesante artículo explicando en qué consiste Open Data y se citaba una lista de sitios con recursos abiertos.

Para el Data Scientist o científico de datos actual la liberación de datos supone un pilar fundamental de su trabajo y una fuente inagotable de la que obtener información.

Conectando SAS y R

SAS

En los procesos de tratamiento de datos de los proyectos de Data Science es habitual encontrarse con la necesidad de conectar dos herramientas. Por ejemplo, podemos encontrarnos el caso de realizar la obtención y la preparación del dato en SAS y su modelización y análisis en R. Es una opción útil sobre todo si trabajamos con altos volúmenes de datos para los que R puede tener alguna limitación al trabajar en memoria. Haciendo el tratamiento previo en SAS podemos dejar la información depurada y agregada para R.

Publica tu estudio o crea una presentación con R: slidify, R markdown y Rpubs

R se ha convertido, por méritos propios, en la plataforma Open Source por excelencia Fallecidoscuando hablamos de Data Science. La multitud de paquetes con los que cuenta, la interoperabilidad entre ellos y la legión de seguidores con los que cuenta le avalan. Facilita también la solución de problemas en R el saber que hay infinidad de foros y preguntas y respuestas de todo tipo que nos pueden orientar hacia el resultado deseado.

Data Science - Breve guía para interpretar modelos cluster

Análisis de clusterEn clustering se deja que los datos se agrupen de acuerdo a su similitud. Estos modelos son agrupaciones de segmentos -clusters- que contienen casos, tales como clientes, pacientes, autos, etc.

Una vez que un modelo de cluster es desarrollado, una pregunta emerge: ¿Cómo puedo describir mi modelo?

Aquí presentaremos una manera para acercarnos a la respuesta, a través de la implementación del Gráfico de Coordenadas in R (código disponible al final del post)..

Analisis predictivo en SAS: árboles de decisión

Una de las técnicas más utilizadas dentro del análisis predictivo son los árboles de decisión. Esta técnica tiene múltiples aplicaciones en el campo de la estadística, pero nos vamos a centrar en su uso para realizar predicciones, concretamente obtener probabilidades de eventos. En este post revisamos una posible forma de hacerlo con el software de uno de los principales fabricantes del software de business analytics: SAS