Predecir con Regresión Lineal Múltiple y optimizar resultados aplicando Data Mining.

Actualmente con el Data Science y el Big Data en plena expansión, muchos son los métodos demandados para predecir resultados futuros. Con las nuevas tecnologías cada día surgen métodos más sofisticados que permiten obtener pronósticos muy centrados y eficientes, consiguiendo ajustarse mucho a los resultados originales. Por otra parte, existen métodos más clásicos que parecen estar un poco olvidados, pero que con técnicas acertadas es posible mejorar los objetivos. Hablamos del Data Mining (minería de datos), un proceso basado en la extracción de información oculta, detectar patrones, tendencias, etc. en grandes bases de datos. Este artículo se centra en el método de la Regresión Lineal Múltiple (RLM) y como analizando los datos se pueden obtener muy buenos resultados. Para ello se comparará dicha técnica con dos de las más utilizadas hoy en día, las Máquinas de Soporte Vectorial con regresión (SVR) y las Redes Neuronales Artificiales con regresión (ANN).

La base de datos empleada se basa en el artículo: ‘Early Prediction of Movie Box Office Success Based on Wikipedia Activity Big Data‘ de los autores Márton Mestyán, Taha Yasseri y János Kertész del Instituto de Física, en la Universidad de Tecnología y Economía de Budapest, Hungría. Ellos demuestran que la popularidad de una película puede medirse antes de su estreno, ya que si se estudia el número de veces que se edita su web en Wikipedia y la cantidad de visitas que recibe, es posible medir la expectación de estas películas y así lograr que niveles de ingresos tendrán la primera semana de su estreno en EEUU. Los datos se puede descargar en este enlace.

En este caso únicamente se utilizarán las variables “First_weekend_revenue_USD” (ingresos de la primera semana y que es la variable de respuesta), “Inception_of_article_.movie_time_days” la cual estudia la popularidad de la película basada en Wikipedia (cuantos más día antes del estreno se ha publicado la web mayor popularidad) y “Number_of.theaters” que son los cines (sus salas) o teatros donde se estrenan las películas analizadas. Estas dos últimas serán las variables predictoras. Hay que recalcar que la variable “inception” está diseñada de forma inversa, es decir, los valores positivos representan publicaciones antes del estreno y valores negativos para después (valor=500 son quinientos días antes del estreno y valor=-500 son después del estreno).

1. Estudio y análisis de los datos.

El primer paso realizado es dividir la base de datos en una muestra de entrenamiento con la que se estudian los modelos analizados y otra de test para evaluar los pronósticos. La primera consta de 220 películas y la segunda tiene 92. El Data Mining se suele utilizar en grandes bases de datos, pero las técnicas aplicadas también se pueden adaptar a pequeñas bases de datos.

En la variable a pronosticar “ingresos” se observa que la mayoría de datos están en torno a cero. Esto es debido a que hemos dividido los datos entre 100,000 para que sean más fáciles de leer. Por lo que respecta a las variables predictoras la mayor parte de las películas se estrenan en muy pocas salas y casi todas tienen un inception entre cero y 500 días. Dichos datos nos demuestran que existen una gran varianza entre los datos (31785.38 en cien miles de $) sobretodo a causa de los outliers o valores extremos que en este caso son las grandes producciones con mayor taquilla (Iron Man 2, Toy Story 3, etc.). Otro aspecto a señalar es la no distribución normal de los datos en las variables ingresos y número de salas, siendo la variable inception la única que puede asimilar “cierta” distribución normal asimétrica.

2. Modelos de Regresión Lineal Múltiple (RLM).

Con el fin de obtener el modelo más óptimo que logre mejor el R2 (explicación del modelo ajustado), el menor MSE (error medio cuadrático) y el menor MAE (error medio absoluto) se analizan cinco modelos distintos:

Modelo 1: variables originales.

Modelo 2: se aplican logaritmos en las variables ingresos y número de salas (inception queda original).

Modelo 3: lo mismo que el modelo 2 añadiendo la inversa del ratio “ingreso/número de salas”.

Modelo 4: transformación Johnson en la variable ingresos, logaritmos en el numero de salas y en la inversa del ratio.

Modelo 5: transformación Johnson en la variable ingresos, logaritmos escalados en el numero de salas y logaritmos en la inversa del ratio.

En todos los modelos las variables son significativas al 95% de nivel de confianza.

Para poder comparar el R2 con el MSE y el MAE en una misma gráfica se normalizan los datos de 0 a 1 en estos dos últimos (NMSE y NMAE). El modelo 4 es el que obtiene mejores resultados con diferencia. La transformación Johnson permite que los datos tiendan a una distribución normal, mientras que la inversa del ratio se puede interpretar como la inversa del ratio PER utilizado en la bolsa, es decir, es el valor que representa la capacidad de cada cine en generar ingresos.

Al analizar los gráficos de dispersión en las variables de cada modelo se observa que en el modelo 5 los datos están más concentrados y con menos outliers. El efecto del nº de salas es positivo en los ingresos aumentándolos si esa película tiene más salas (películas más taquilleras tendrán más cines). Algo similar sucede en la variable inception. Aquí el efecto no es tan claro, ya que hay muchas películas con una publicación menos lejana y con mayores ingresos que otras con un inception más alto. La inversa del ratio tiene el comportamiento contrario al ratio, pudiéndose interpretar como a mayor capacidad de generar ingresos por cine menores ingresos. Las películas con más ingresos reparten sus emisiones, en cambio, las de pocos ingresos al tener pocas salas estas tienen mayor capacidad.

Si se analizan los residuos del modelo original y del mejor modelo se observa que la utilización de variables transformadas y la inversa del ratio permiten obtener unos residuos más “cercanos” a una normal (en ambos modelos existe curtosis y asimetría), una varianza residual más constante y mayor independencia de los residuos. Estos resultados son clave para obtener predicciones más acertadas, ya que cuanto más grande sea la varianza en los residuos mayor probabilidad de que los pronósticos puedan ser erróneos. Dicho de otra manera, al existir curtosis en los datos, los valores extremos pueden ser más difíciles de pronosticar. Al comprobar todas estas medidas se ha podido demostrar que el modelo 4 mejora bastante los resultados gracias al Data Mining.

3. Comparación de métodos predictivos.

Una vez seleccionado el modelo más óptimo con el método de Regresión Lineal Múltiple se comprueba la calidad de este comparándolo con dos métodos muy de moda hoy en día en el mundo del Data Science, Support Vector Regression (SVR) y Artificial Neural Networks (ANN). Primero se equiparan los tres métodos con los datos originales y posteriormente se aplica el Data Mining en todos ellos (modelo 4). En los nuevos métodos comentados se ha tenido que especificar una serie de parámetros,  que en este caso, se han elegido los que mayor R2 logran, tal y como se hizo con la RLM.

Es posible que la bondad de ajuste no sea la mejor solución para decidir cual es el mejor método (y menos en procedimientos no lineales), pero la base del artículo es demostrar que una Regresión Lineal Múltiple puede conseguir buenos resultados optimizando sus datos, no analizar cuales son los parámetros más óptimos que logran la mejor predicción en SVR y ANN, lo que hace posible que ambos métodos puedan conseguir mejores pronósticos con distintos factores y/o modelos.

Por lo tanto, los parámetros utilizados con datos originales en las máquinas de soporte son Kernel=radial,  Coste=1, Gamma=10 y Epsilon=0.01, y para las redes neuronales se han aplicado dos capas con 25 nodos ocultos en la primera y 5 en la segunda con un límite de 0.01. Para los métodos con Data Mining son Kernel=radial,  Coste=10, Gamma=10 y Epsilon=0.001 en SVR, y dos capas con 22  y 3 nodos respectivamente con un límite de 0.01 en ANN.

Hay que aclarar que el gráfico es tipo lineal para que los datos sean más visibles, pero en realidad son puntos independientes que pertenecen a los ingresos de cada película. Con los datos originales las diferencias entre la RLM y los dos métodos son bastante elevadas. La RLM consigue ajustar el modelo en un 62%, mientras que el SVR consigue un 97% y las ANN un 95%. En cuanto al error medio absoluto (MAE) ambas técnicas consiguen mejores resultados. En este gráfico, en general se puede decir que el mejor método es la SVR, ya que es el que mejor consigue explicar el modelo y pese a que no es el mejor MAE no se observa ninguna predicción muy errada a diferencia de las ANN (valor entre 60 y 70) y de casi todos los pronósticos de la RLM que están más distanciados de los valores originales.

Aplicando el Data Mining se observa como los pronósticos mejoran en las tres técnicas, pero sobre todo en la RLM. La bondad de ajuste pasa de un 62% a un 97% y el MAE de 56.91 a 11.74, por lo que la mejoría es enorme. Tanto en el modelo 1 como en el 5 el Rpredicho es 0.58 y 0.97 respectivamente, lo que demuestra que ningún modelo está sobre-ajustado. Otro dato curioso es que la RLM pronostique mejor que el SVR (las previsiones de la regresión de soporte vectorial con el modelo 5 se quedan pequeñas en muchas películas). Por último, se confirma que las redes neuronales también mejoran mucho obteniendo resultados muy similares a los originales.

En conclusión, queda demostrado que la Regresión Lineal Múltiple puede ser un buen método para realizar predicciones, pese a ser un modelo más simple. Otro dato destacar es la fácil interpretación de sus resultados, en cambio, en SVR es más difícil y en las redes neuronales es bien conocida la frase de “es una caja negra lo que sucede para obtener el modelo“. En definitiva, es cierto que los modelos más utilizados hoy en día suelen obtener mejores previsiones y que la RLM casi nunca será el mejor método, pero según las características de los datos y sus variables, si importa más la interpretación o la predicción o si se valora más o menos el coste de computación (número de líneas de código y el tiempo que tardan en ejecutarse), la RLM puede ser una elección muy acertada, incluso como primera toma de medida para realizar una previa de los resultados y luego aplicar un modelo más complejo, también es una buena opción.


Artículo escrito por:

Daniel García López
Daniel García López
Fundador y DirectorGraduado en Economía por la Universidad de las Islas Baleares (UIB). Actualmente cursando un máster en Análisis de Datos Masivos (Big Data) para Economía y Empresa impartido por la UIB. Especializado en investigación económica, en Data Science y todo lo relacionado con el mundo del análisis de datos, principalmente análisis basados en modelos predictivos y de aprendizaje automático.

Deja un comentario

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll Up