Data mining: correlación entre variables (caso en SAS)

 

Dentro de las actividades habituales en minería de datos, se encuentra el estudio de correlaciones entre variables. En este post vamos a realizar un ejemplo sencillo de estudio de correlación entre variables realizado con la herramienta SAS.

 

Correlación entre variables

 

 

Nuestro conjunto de datos de entrada es el que se muestra a continuación y nuestro objetivo es determinar si existe correlación entre las variables var1 y var2.

 

var1

var2

1

6

2

9

3

10

4

12

5

16

6

18

7

19

8

21

9

22

10

24

11

29

12

30

13

34

14

32

15

39

16

38

17

40

18

44

19

48

20

46

 

En primer lugar utilizamos el procedimiento proc corr de SAS con objeto de obtener la matriz de correlación entre las 2 variables.

 

proc corr outp=tabla outs=correl;

var var1 var2;

run;

 

MEAN

 

10.5

26.85

STD

 

59.160.797.831

13.031.439.715

N

 

20

20

CORR

var1

1

0.9954887218

CORR

var2

0.9954887218

1

 

En la matriz se obtiene el coeficiente de correlación de Pearson que al ser mayor que cero indica que existe una correlación positiva y al ser próxima a 1, indica que la correlación es fuerte.

 

Una vez detectada la correlación, el siguiente paso es obtener qué tipo de relación existe entre las variables. Como primer paso pintamos un gráfico con var2 en el eje-y y var1 en el eje-x, utilizando el procedimiento proc gplot.

 

proc gplot data=tabla;

plot var2*var1;

run;

 

Salida del procedimiento:

 

Correlación entre variables con SAS

 

El gráfico muestra una posible relación lineal, de modo que utilizamos el procedimiento proc reg, con objeto de obtener los coeficientes de la regresión lineal.

 

proc reg data=tabla;

model var2=var1;

run;

 

Salida del procedimiento: 

 

The REG Procedure

Model: MODEL1

Dependent variable: var2

Number of Observations Read

20

Number of Observations Used

20

 

Analysis of Variance

Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

1

3190.06353

3190.06353

1573.77

<.0001

Error

18

36.48647

2.02703

 

 

Corrected Total

19

3226.55000

 

 

 

 

Root MSE

1.423737

R-Square

0.988692

Dependent Mean

26.850000

Adj R-Sq

0.988064

Coeff Var

5.302557

 

 

Parameter Estimates

Variable

DF

Parameter Estimate

Standard Error

t Value

Pr > |t|

Intercept

1

3.85263

0.66137

5.83

<.0001

var1

1

2.19023

0.05521

39.67

<.0001

 

Obtenemos como resultado la siguiente regresión lineal:

 

var2 = 2,19*var1 + 3,85

 

Lógicamente los pasos a dar una vez detectada una correlación entre variables dependerá del tipo de relación que hayamos detectado.

 

https://www.youtube.com/@datademyformacion6610