miércoles, 11 de junio de 2008

CORRELACION

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

Fuerza, sentido y forma de la correlación.
La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma.
La fuerza mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.

Coeficientes de correlación.
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar.
Coeficiente de correlación de Pearson
Coeficiente de correlación de Spearman
Correlación canónica


Coeficiente de correlación de Pearson.
El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables:

Siendo:
σXY la covarianza de (X,Y)
σX y σY las desviaciones típicas de las distribuciones marginales.
El valor del índice de correlación varía en el intervalo [-1, +1]:
Si r = 0, no existe ninguna correlación. El índice indica, por tanto, una independencia total entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor que pueda tomar la otra.
Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en idéntica proporción.
Si 0 < r =" -1,">Coeficiente de correlación de Spearman.
El Coeficiente de correlación de Spearman, ρ (rho), es una prueba no paramétrica que mide la asociación o interdependencia entre dos variables discretas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.
El primer paso es ordenar los datos de la primera columna. Después, se crean dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2".

El análisis de correlación canónica es un método de análisis multivariante desarrollado por Harold Hotelling. Su objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y la validez de las mismas. Se diferencia del análisis de correlación múltiple en que éste sólo predice una variable dependiente a partir de múltiples independientes, mientras que la correlación canónica predice múltiples variables dependientes a partir de múltiples independientes. La correlación canónica es una correlación lineal y, por tanto, sólo busca relaciones lineales entre las variables.
Al diseñar el experimento hay que considerar el tamaño de la muestra ya que son necesarias un mínimo de observaciones por variable, para que el análisis pueda representar las correlaciones adecuadamente.
Finalmente, hay que interpretar las cargas canónicas para determinar la importancia de cada variable en la función canónica. Las cargas canónicas reflejan la varianza que la variable observada comparte con el valor teórico canónico.

COMENTARIO:
la correlacion es para indicar cual es la fuerza y la direccion de la relacion lineal que hay entre dos variables. se dice que dos variables estan corrrelacionadas cuando una de las variables varia sistematicamente respecto a los valores homonimos de la otra.

No hay comentarios: