Galton
Galton
Galton
En muchas aplicaciones estadísticas el principal objetivo es establecer relaciones que permiten pronosticar una o más
variables en términos de otras. Por ejemplo:
- Pronosticar las ventas futuras de un producto en términos de su precio.
- Predecir los gastos familiares en atención médica en términos del ingreso familiar
- Pronosticar el consumo per cápita de ciertos artículos alimenticios en términos de su valor nutricional y el dinero que se
gasta en su publicidad televisiva
Aunque sería ideal poder pronosticar una cantidad exactamente en términos de otras, rara vez esto es posible. En la
mayoría de los casos se pueden predecir promedios o valores esperados. Por ejemplo, se puede predecir la producción
promedio de maíz en términos de la precipitación pluvial del mes de julio. Este problema de pronóstico del valor promedio
de una variable en términos del valor de otra variable ( o los valores conocidos de otras variables) es el problema de la
regresión.
1.-El Análisis de Regresión, es un proceso general que permite estimar el valor promedio de una variable (llamada
variable dependiente o de respuesta) en términos del valor conocido de otra variable (variable independiente o de
predicción).
El supuesto 3.1) indica que aunque los valores de la variable independiente pueden controlarse, los valores de la variable
dependiente deben obtenerse mediante el proceso de muestreo aleatorio
4.-Ecuación de Regresión: Es la fórmula algebraica por la cual se determina el valor estimado de la variable dependiente
o de respuesta
5.-Relaciones entre las variables / Diagrama de Dispersión. Es una gráfica en la que cada punto trazado representa un
par de valores observados de las variables independiente y dependiente y permite visualizar el tipo de relación entre las
variables, la variable independiente “x “ se localiza en el eje horizontal, mientras que el valor de la variable dependiente “y “,
en el eje vertical. Las relaciones posibles entre “ x” e “ y” son:
a) Relación lineal positiva
b) Relación lineal inversa
c) Curvilínea directa
d) Curvilínea inversa
e) ninguna relación
Si el diagrama de dispersión indica en general una relación lineal, se ajusta una línea recta a los datos. La ubicación exacta
de esta línea es determinada por el método de Mínimos Cuadrados. Una línea de regresión con pendiente positiva indica
una relación directa entre las variables, una con pendiente negativa indica una relación inversa entre las variables y una
pendiente de cero indica que las variables no tienen relación entre sí
6.-Tipos de Modelos de Regresión
La naturaleza de la relación puede adoptar muchas formas, que van desde funciones matemáticas muy sencillas hasta las
muy complicadas. La relación más simple consiste en una línea recta o relación lineal con ecuación dada por:
Yi = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Donde: Yi = valor real de Y para la observación i
𝛽0 =primer parámetro de la ecuación de regresión, indica el valor de Y cuando X = 0
𝛽1 =segundo parámetro de la ecuación de regresión, el cual indica la pendiente de la línea de regresión
𝑋𝑖 = valor de la variable independiente para la observación i
𝜀𝑖 = error de muestreo aleatorio para la observación i
Los parámetros 𝛽0 y 𝛽1 del modelo de regresión lineal se estiman con los valores de bo y b1 que se basan en los datos
muestrales. Esta ecuación es:
̂ = b o + b1 X
𝒀
De acuerdo con el Método de Mínimos Cuadrados, la línea de regresión del mejor ajuste (y la mejor ecuación) es aquella
para la cual se reduce al mínimo la suma de las desviaciones cuadradas entre los valores estimados y real de la variable
dependiente para los datos muestrales. Las fórmulas de cálculo de los valores de bo y b1 que satisfacen el método de los
mínimos cuadrados son:
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 ) ∑𝑥 ∑𝑦
- b1 = 2 b0 = 𝑌̅ – 𝑏1 𝑋̅ donde: 𝑋̅ = 𝑛 𝑖 𝑌̅ = 𝑛 𝑖
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 )
Una vez formulada la ecuación de regresión, puede servir para estimar el valor de la variable dependiente dado el valor de
la variable independiente. Sin embargo, esta estimación sólo debe realizarse dentro del rango de los valores de la variable
independiente originalmente muestreada, ya que no existe base estadística para suponer que la línea de regresión es
adecuada fuera de estos límites
7.-Error Estándar del Estimador
Es la desviación estándar condicional de la variable dependiente “Y” dado un valor de la variable independiente “X”. La
fórmula de cálculo es:
∑ 𝑌 2 −𝑏0 ∑ 𝑌− 𝑏1 ∑ 𝑋𝑌
eyx = √ 𝑛−2
8.- Correlación Lineal Simple
El análisis de correlación en contraste con el análisis de regresión, se utiliza para medir la fuerza de la asociación entre las
variables. En este caso no es utilizar una variable para predecir la otra, sino sólo medir la fuerza de la asociación o
“covarianza entre las dos variables. Pero la covarianza depende de las unidades de medida. Este inconveniente se evita
usando el coeficiente de correlación lineal. El análisis de correlación simple , se ocupa de medir la relación entre sólo una
variable independiente y la variable dependiente
9.- Coeficiente de correlación lineal ( r)
Mide la dependencia lineal entre x e y, y no depende de las unidades de medida de las variables, viene dado por:
𝑆
. r (x, y) = 𝑆 𝑥𝑦
𝑆
𝑥 𝑦
Ejemplo: Considere una muestra aleatoria del peso (en Tm.) de 4 automóviles y su costo en millones de bolívares.
a) Elabore el diagrama de dispersión
b) Determine la ecuación de regresión de mínimos cuadrados que mejor ajuste los datos
c) Calcule el error estándar del estimador
d) Usando la ecuación de regresión obtenida en b), estime el costo de un automóvil de 1,1 Tm.
e) ¿Podría utilizar esta ecuación de regresión para estimar el costo de un automóvil de 0.5 Tm?
f) ¿Es fiable la predicción determinada en b)
Solución:
a) Diagrama de dispersión (hágalo)
b) Elabore la tabla de trabajo,
4.3 11 𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 ) 4(12.9)− 4.3(11)
𝑋̅ = 4 = 1,075 𝑌̅ = 4 = 2,75 b1 = 2 = ≈7,283
𝑛 ∑𝑛 𝑥𝑖 2 − (∑𝑛 𝑥𝑖 )
𝑖=1 𝑖=1
4(4.77)− ( 4.3)2
̂ = -5.0847 + 7,283 X
Recta de regresión buscada 𝒀
c) Error estándar
∑ 𝑌 2 −𝑏0 ∑ 𝑌− 𝑏1 ∑ 𝑋𝑌 39−(−5.0847)− 7,283( 12,9)
Syx = √ =√ ≈ 7,223
𝑛−2 4−2
d) El costo de un automóvil de 1,1 toneladas métricas será de:
y( 1.1) = -5, 0847 + 7,283 ( 1,1)= 2,9266 millones es el valor que predice la regresión lineal
𝑆
e) Para saber si es fiable la predicción se calcula el coeficiente de correlación lineal r (x, y) = 𝑆 𝑥𝑦
𝑥 𝑦𝑆
1 12,9
Sxy = 𝑛 ∑ 𝑥𝑖 𝑦𝑖 − 𝑋̅ 𝑌̅ = − 1,075(2,75) ≈ 0,2687
4
1 4,77 1 39
Sx2 = ∑ 𝑥𝑖 2 − 𝑥̅ 2 = − (1,075)2 ≈ 0.0369 Sy2 = ∑ 𝑦𝑖 2 − 𝑌̅ 2 = − (2,75)2 ≈ 2,1875
𝑛 4 𝑛 4
0,2687
.r= ≈ 0,9457 es próximo a 1 la relación de dependencia entre las variables es buena
√0,0369√2,1875