miércoles, 16 de julio de 2008

REGRESION LINEAL

La primer forma de regresiones lineales documentada fue el método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805,[1] y por Gauss en 1809.[2] El término "mínimos cuadrados" proviene de la descripción dada por Legendre "moindres carrés". Sin embargo Gauss aseguró que conocía dicho método desde 1795.

Tanto Legendre como Gauss aplicaron el método para determinar, a partir de observaciones astronómicas, las órbitas de cuerpos alrededor del sol. En 1821, Gauss publicó un trabajo en dónde desarrollaba de manera más profunda el método de los mínimos cuadrados,[3] y en dónde se incluía una versión del teorema de Gauss-Markov.


Etimología [editar]El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.[4] La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.


El modelo de regresión lineal [editar]El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros βk desconocidos:

donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo de dos variables explicativas, el hiperplano es una recta:

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en.

Los valores son por su parte estimaciones de la perturbación aleatoria o errores.


Supuestos del modelo de regresión lineal [editar]Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:[5]

La relación entre las variables es lineal.
Los errores son independientes.
Los errores tienen varianza constante.
Los errores tienen una esperanza matemática igual a cero.
El error total es la suma de todos los errores.

Tipos de modelos de regresión lineaL:
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:


Regresión lineal simple:
se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:[6]

Regresión lineal múltiple:
varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:

Rectas de regresión:
Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:


Aplicaciones de la regresión lineal [editar]
Líneas de tendencia [editar]Véase también: Tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo periodo de tiempo. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado periodo de tiempo.[10] Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.


Medicina [editar]En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco[11] vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.[12] [13] En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.

EJEMPLO Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del individuo, deberemos considerar como variable respuesta la tensión y como variable predictora la edad.