REGRESION LINEAL SIMPLE (PARTE 1)

Regresión Lineal Simple

· Generalidades

La regresión y los análisis de correlación nos muestran como determinar tanto la naturaleza como la fuerza de una relación entre dos variables.

En el análisis de regresión desarrollaremos una ecuación de estimación, esto es, una formula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación

· Principales técnicas utilizadas en el análisis de regresión lineal simple
1) Ordenamiento y análisis de la información original
3) Diagrama de dispersión e interpretación

El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión.
Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.
Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, o ajustar una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.

Diagrama de dispersión

· Estimación mediante la línea de regresión

Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:
Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.

Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.

Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como.
Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.

La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulación de los signos positivos y negativos, pero ya que estamos buscando el menor error debemos buscar un método que nos muestre la magnitud del error, decimos que la suma de los valores absolutos no pone énfasis en la magnitud del error.

Parece razonable que mientras más lejos este un punto de la línea e estimación, mas serio seria el error, preferiríamos tener varios errores pequeños que uno grande. En efecto, deseamos encontrar una forma de penalizar errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los errores individuales antes de sumarlos. Con estos se logran dos objetivos:
· penaliza los errores más grandes
· cancela el efecto de valores positivos y negativos

Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores a esto llamamos método de mínimos cuadrados. Si usamos el método de mínimos cuadrados, podemos determinar si una línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto de puntos de datos a través de los cuales podríamos trazar un numero infinito de líneas de estimación, ¿cómo podemos saber cuando hemos encontrado la mejor línea de juste?

Los estadísticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la intersección Y de la línea de regresión del mejor ajuste. La primera formula calcula la pendiente.

· b = pendiente de la línea de estimación de mejor ajuste
· X = valores de la variable independiente
· Y = valores de la variable dependiente
· = media de los valores de la variable independiente
· = media de los valores de la variable dependiente
· n = numero de puntos de datos

La segunda ecuación calcula la intersección en Y

· a = intersección en Y
· b = pendiente de la ecuación anterior
· = media de los valores de la variable dependiente
· = media de los valores de la variable independiente

0 comentarios:

miércoles, 20 de mayo de 2009

REGRESION LINEAL SIMPLE (PARTE 1)

Regresión Lineal Simple

· Generalidades

La regresión y los análisis de correlación nos muestran como determinar tanto la naturaleza como la fuerza de una relación entre dos variables.

En el análisis de regresión desarrollaremos una ecuación de estimación, esto es, una formula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación

· Principales técnicas utilizadas en el análisis de regresión lineal simple
1) Ordenamiento y análisis de la información original
3) Diagrama de dispersión e interpretación

El primer paso para determinar si existe o no una relación entre dos variables es observar la grafica de datos observados. Esta grafica se llama diagrama de dispersión.
Un diagrama nos puede da dos tipos de información, visualmente podemos buscar patrones que nos indiquen que las variables están relacionadas. Entonces si esto sucede, podemos ver que tipo de línea, o ecuación de estimación, describe esta relación.
Primero tomamos los datos de la tabla que deseamos analizar y dependiendo de que se desea averiguar se construye la grafica colocando la variable dependiente en el eje Y y la independiente en el eje X, Cuando vemos todos estos puntos juntos, podemos visualizar la relación que existe entre estas dos variables. Como resultado, también podemos trazar, o ajustar una línea recta a través de nuestro diagrama de dispersión para representar la relación. Es común intentar trazar estas líneas de forma tal que un numero igual de puntos caiga a cada lado de la línea.

Diagrama de dispersión

· Estimación mediante la línea de regresión

Hasta el momento las líneas de regresión se colocaron al ajustar las líneas visualmente entre los puntos de datos, pero para graficar estas líneas de una forma más precisa podemos utilizar una ecuación que relaciona las dos variables matemáticamente.

La ecuación para una línea recta donde la variable dependiente Y esta determinada por la varianza dependiente X es:
Usando esta ecuación podemos tomar un valor dado en X y calcular el valor de Y la a se denomina intersección en Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y por que su valor es el punto en el cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la pendiente de la línea, representa que tanto cada cambio de unidad de la variable independiente X cambia la variable dependiente Y. Tanto a como b son constantes numéricas, puesto que para cada recta dada, sus valores no cambian.

Recta de regresión por el método de mínimos cuadrados.

Ahora que hemos visto como determinar la ecuación para una línea recta, pensemos como podemos calcular una ecuación para una línea dibujada en medio de un conjunto de puntos en un diagrama de dispersión. Para esto debemos minimizar el error entre los puntos estimados en la línea y los verdaderos puntos observados que se utilizaron para trazarla.

Para esto debemos introducir un nuevo símbolo, para simbolizar los valores individuales de los puntos estimados, esto es, aquellos puntos que caen en la línea de estimación. En consecuencia escribiremos la ecuación para la línea de estimación como.
Una forma en que podemos medir el error de nuestra línea de estimación es sumando todas las diferencias, o errores, individuales entre los puntos observados y los puntos estimados.

La suma de las diferencias individuales para calcular el error no es una forma confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al añadir los errores individuales es el efecto de cancelación de los valores positivos y negativos, por eso usamos valores absolutos en esta diferencia a modo de cancelar la anulación de los signos positivos y negativos, pero ya que estamos buscando el menor error debemos buscar un método que nos muestre la magnitud del error, decimos que la suma de los valores absolutos no pone énfasis en la magnitud del error.

Parece razonable que mientras más lejos este un punto de la línea e estimación, mas serio seria el error, preferiríamos tener varios errores pequeños que uno grande. En efecto, deseamos encontrar una forma de penalizar errores absolutos grandes, de tal forma que podamos evitarlos. Puede lograr esto si cuadramos los errores individuales antes de sumarlos. Con estos se logran dos objetivos:
· penaliza los errores más grandes
· cancela el efecto de valores positivos y negativos

Como estamos buscando la línea de estimación que minimiza la suma de los cuadrados de los errores a esto llamamos método de mínimos cuadrados. Si usamos el método de mínimos cuadrados, podemos determinar si una línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto de puntos de datos a través de los cuales podríamos trazar un numero infinito de líneas de estimación, ¿cómo podemos saber cuando hemos encontrado la mejor línea de juste?

Los estadísticos han derivado dos ecuaciones que podemos utilizar para encontrar la pendiente y la intersección Y de la línea de regresión del mejor ajuste. La primera formula calcula la pendiente.

· b = pendiente de la línea de estimación de mejor ajuste
· X = valores de la variable independiente
· Y = valores de la variable dependiente
· = media de los valores de la variable independiente
· = media de los valores de la variable dependiente
· n = numero de puntos de datos

La segunda ecuación calcula la intersección en Y

· a = intersección en Y
· b = pendiente de la ecuación anterior
· = media de los valores de la variable dependiente
· = media de los valores de la variable independiente

0 comentarios:

Con la tecnología de Blogger.

Copyright © / ECONOMIA

Template by : Urang-kurai / powered by :blogger