25/07/2017

Herramientas y Metodologías

HERRAMIENTAS: 

Dentro de nuestros servicios (Blog, Producción de Datos e Informes para Empresas) utilizamos diferentes software y lenguajes informáticos/estadísticos, los cuales son:

Interfaz del lenguaje de programación R para hacer más fácil su uso. Muy útil para el análisis y visualización de datos, minería de datos, Machine learning y estudios estadísticos. RStudio es óptimo para una computación independiente o un análisis individual en servidores. Es un lenguaje de código abierto. Lo aplicamos en temas de Data Science a la hora de aplicar modelos predictivos/clasificación  y series temporales.


En nuestro caso, utilizamos la interfaz Spyder. Este lenguaje de programación también es útil en el análisis de datos, minería de datos, Machine learning con la diferencia de  que es más óptimo cuando se requiere una integración con aplicaciones webs al programar. Es un lenguaje de código abierto. Lo aplicamos en temas de Data Science cuando los datos son de gran tamaño (Big Data) y requieren un procesamiento especial.

 


Es una herramienta aplicada al Business Inteligence (BI) incorporada en Microsoft Office 365. Permite trabajar con una cantidad masiva de datos de manera visual, ya que logra plasmar los datos en gráficos a tiempo real. Se trabaja desde Excel pudiendo implantar el código R. Lo aplicamos en la producción y predicción de datos con el fin de representarlos visualmente.

 


Es un sistema de gestión de bases de datos relacionales, la cual permite gestionar consultas de los datos llamados desde un servidor donde están almacenados en múltiples tablas. Se adapta a distintos entornos de desarrollo. En nuestro caso lo aplicamos a los lenguajes de programación R y Python.

 


Es una herramienta aplicada a la analítica web incorporada en Google. Ofrece información sobre los visitantes en la web (cómo la utilizan y cómo han llegado).  Gracias a sus informes se obtiene una analítica de contenido (rendimiento de la web), analítica de redes sociales (éxitos en publicidad e interacción de los visitantes),  analítica de móviles (impacto en la web),  analítica de conversiones (número de clientes y ventas). Muy útil a la hora de detectar partes fuertes y débiles con el fin de  saber enfocar campañas de marketing online. En nuestro caso lo aplicamos al asesoramiento y gestión de campañas SEM.

 


Es una herramienta que se utiliza para ofrecer publicidad patrocinada incorporada en Google. Se pueden obtener anuncios de búsqueda  (aparecen arriba en la búsqueda de Google), anuncios de display (anuncios de texto y banners en otras webs), anuncios de vídeos (publicidad en Youtube) y anuncios de aplicaciones.  En nuestro caso lo aplicamos al asesoramiento y gestión de campañas SEM.

 


METODOLOGÍAS: 

A la hora de publicar nuestros artículos e informes para empresas utilizamos distintas metodologías con el fin de obtener los mejores resultados. Estas son:

Las series temporales son datos secuenciales, recogidos en el tiempo y ordenados cronológicamente.  Estos suelen ser diarios, semanales, mensuales, trimestrales y anuales.  A la hora de ajustar los datos y poder realizar predicciones sobre datos futuros aplicamos modelos ARIMA (SARIMA en caso de haber estacionalidad), Modelos Estructurales Básicos (en ingles BSM), Alisados Exponenciales (ETS y Holt-Winters), Transformadas de Fourier, los modelos BATS (Box-Cox transform ARMA errors, Trend and Seasonal Components) y TBATS (Trigonimetric Box-Cox transform ARMA errors, Trend and Seasonal Components). De este modo buscamos que modelo obtiene los resultados más fiables. Para el ajustar el efecto estacional y el efecto calendario aplicamos los modelos ARIMA con el método TRAMO-SEATS.

 


Dentro del aprendizaje automático existen dos variantes destacadas. Aprendizaje supervisado (predicciones basadas en un conjunto de datos históricos) en el cual se necesitan variables predictoras para obtener una respuesta asociada a variable de interés. Entre sus modelos destacan los métodos de regresión y clasificación. Aprendizaje no supervisado (los datos no tienen etiquetas asociadas a ellos) en este caso no interesa la predicción, ya que no se tiene una respuesta asociada a variable de interés. Los más conocidos son los modelos de agrupación (clustering).

 


Para poder predecir datos de sección cruzada y saber el efecto de otras variables sobre la variable de interés aplicamos modelos de regresión. En este caso, se predicen datos numéricos (precios, reservas de hotel, etc.). Los modelos que aplicamos son Mínimos Cuadrados Ordinarios (MCO), Mínimos Cuadrados Generalizados (MCG), regresión Robusta, regresión Ridge, regresión LASSO, regresión LASSO con la restricción de Elastic Net, Regresión de Ángulo Mínimo (LAR), Regresión Incremental de Pasos Hacia Adelante (FSe), LASSO de grupos y SVR (regresión en maquinas de soporte vectorial).

Para predecir datos de series temporales aplicamos los modelos anteriormente comentados.

 


Cuando los datos de interés son categóricos, aplicamos modelos de clasificación. Si la variable de respuesta tiene dos opciones, la clasificación es binomial, mientras que si tiene más categorías, es una clasificación multiclase. En este caso, se predicen datos cualitativos (reserva en un hotel o no, le conceden una tarjeta de crédito o no, etc.). Los modelos que aplicamos son Support Vector Machine (SVM), C5.0, Redes Neuronales Artificiales, RPART (Recursive Partitioning for classification, Regression and survival Trees), Logit, Random Forest, Bagging, Boosting, Analisi Discriminante Lineal o Cuadrático, Naive Bayes, técnicas de clasificación sensibles al coste y técnicas de clasificación en datos no balanceados.

 


Se refiere a un conjunto muy amplio de técnicas para la búsqueda de subgrupos, o grupos, en un conjunto de datos.  Se realiza una partición de los datos en grupos distintos de modo que las observaciones dentro de cada grupo sean similares entre sí. De este modo, se logran segmentar los datos en grupos según el objetivo deseado. Aplicamos dos métodos de clustering, el K-medias clustering y la Agrupación Jerárquica (hierarchical clustering).

 



Scroll Up