Dentro de las actividades habituales en minería de datos, se encuentra el estudio de correlaciones entre variables. En este post vamos a realizar un ejemplo sencillo de estudio de correlación entre variables realizado con la herramienta SAS.
Nuestro conjunto de datos de entrada es el que se muestra a continuación y nuestro objetivo es determinar si existe correlación entre las variables var1 y var2.
var1 |
var2 |
1 |
6 |
2 |
9 |
3 |
10 |
4 |
12 |
5 |
16 |
6 |
18 |
7 |
19 |
8 |
21 |
9 |
22 |
10 |
24 |
11 |
29 |
12 |
30 |
13 |
34 |
14 |
32 |
15 |
39 |
16 |
38 |
17 |
40 |
18 |
44 |
19 |
48 |
20 |
46 |
En primer lugar utilizamos el procedimiento proc corr de SAS con objeto de obtener la matriz de correlación entre las 2 variables.
proc corr outp=tabla outs=correl;
var var1 var2;
run;
MEAN |
|
10.5 |
26.85 |
STD |
|
59.160.797.831 |
13.031.439.715 |
N |
|
20 |
20 |
CORR |
var1 |
1 |
0.9954887218 |
CORR |
var2 |
0.9954887218 |
1 |
En la matriz se obtiene el coeficiente de correlación de Pearson que al ser mayor que cero indica que existe una correlación positiva y al ser próxima a 1, indica que la correlación es fuerte.
Una vez detectada la correlación, el siguiente paso es obtener qué tipo de relación existe entre las variables. Como primer paso pintamos un gráfico con var2 en el eje-y y var1 en el eje-x, utilizando el procedimiento proc gplot.
proc gplot data=tabla;
plot var2*var1;
run;
Salida del procedimiento:
El gráfico muestra una posible relación lineal, de modo que utilizamos el procedimiento proc reg, con objeto de obtener los coeficientes de la regresión lineal.
proc reg data=tabla;
model var2=var1;
run;
Salida del procedimiento:
The REG Procedure
Model: MODEL1
Dependent variable: var2
Number of Observations Read |
20 |
Number of Observations Used |
20 |
Analysis of Variance |
|||||
Source |
DF |
Sum of Squares |
Mean Square |
F Value |
Pr > F |
Model |
1 |
3190.06353 |
3190.06353 |
1573.77 |
<.0001 |
Error |
18 |
36.48647 |
2.02703 |
|
|
Corrected Total |
19 |
3226.55000 |
|
|
|
Root MSE |
1.423737 |
R-Square |
0.988692 |
Dependent Mean |
26.850000 |
Adj R-Sq |
0.988064 |
Coeff Var |
5.302557 |
|
Parameter Estimates |
|||||
Variable |
DF |
Parameter Estimate |
Standard Error |
t Value |
Pr > |t| |
Intercept |
1 |
3.85263 |
0.66137 |
5.83 |
<.0001 |
var1 |
1 |
2.19023 |
0.05521 |
39.67 |
<.0001 |
Obtenemos como resultado la siguiente regresión lineal:
var2 = 2,19*var1 + 3,85
Lógicamente los pasos a dar una vez detectada una correlación entre variables dependerá del tipo de relación que hayamos detectado.
https://www.youtube.com/@datademyformacion6610