Galton

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

ESTADISTICA I: Regresión Lineal Simple y

Córrelación Prf:Betty Mendoza

En muchas aplicaciones estadísticas el principal objetivo es establecer relaciones que permiten pronosticar una o más
variables en términos de otras. Por ejemplo:
- Pronosticar las ventas futuras de un producto en términos de su precio.
- Predecir los gastos familiares en atención médica en términos del ingreso familiar
- Pronosticar el consumo per cápita de ciertos artículos alimenticios en términos de su valor nutricional y el dinero que se
gasta en su publicidad televisiva
Aunque sería ideal poder pronosticar una cantidad exactamente en términos de otras, rara vez esto es posible. En la
mayoría de los casos se pueden predecir promedios o valores esperados. Por ejemplo, se puede predecir la producción
promedio de maíz en términos de la precipitación pluvial del mes de julio. Este problema de pronóstico del valor promedio
de una variable en términos del valor de otra variable ( o los valores conocidos de otras variables) es el problema de la
regresión.
1.-El Análisis de Regresión, es un proceso general que permite estimar el valor promedio de una variable (llamada
variable dependiente o de respuesta) en términos del valor conocido de otra variable (variable independiente o de
predicción).

2.-Tipos de Regresión: Son de interés las siguientes;


Regresión Simple: Estima el valor de una variable dependiente con base en una variable independiente o de predicción.
Regresión Múltiple: Estima el valor de una variable dependiente con base en dos o más variables independientes

3.- Algunos supuestos del Análisis de Regresión lineal:


3.1.- la variable dependiente es una variable aleatoria
3.2.- las variables independientes y dependientes se asocian linealmente

El supuesto 3.1) indica que aunque los valores de la variable independiente pueden controlarse, los valores de la variable
dependiente deben obtenerse mediante el proceso de muestreo aleatorio

4.-Ecuación de Regresión: Es la fórmula algebraica por la cual se determina el valor estimado de la variable dependiente
o de respuesta

5.-Relaciones entre las variables / Diagrama de Dispersión. Es una gráfica en la que cada punto trazado representa un
par de valores observados de las variables independiente y dependiente y permite visualizar el tipo de relación entre las
variables, la variable independiente “x “ se localiza en el eje horizontal, mientras que el valor de la variable dependiente “y “,
en el eje vertical. Las relaciones posibles entre “ x” e “ y” son:
a) Relación lineal positiva
b) Relación lineal inversa
c) Curvilínea directa
d) Curvilínea inversa
e) ninguna relación
Si el diagrama de dispersión indica en general una relación lineal, se ajusta una línea recta a los datos. La ubicación exacta
de esta línea es determinada por el método de Mínimos Cuadrados. Una línea de regresión con pendiente positiva indica
una relación directa entre las variables, una con pendiente negativa indica una relación inversa entre las variables y una
pendiente de cero indica que las variables no tienen relación entre sí
6.-Tipos de Modelos de Regresión
La naturaleza de la relación puede adoptar muchas formas, que van desde funciones matemáticas muy sencillas hasta las
muy complicadas. La relación más simple consiste en una línea recta o relación lineal con ecuación dada por:

Yi = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Donde: Yi = valor real de Y para la observación i
𝛽0 =primer parámetro de la ecuación de regresión, indica el valor de Y cuando X = 0
𝛽1 =segundo parámetro de la ecuación de regresión, el cual indica la pendiente de la línea de regresión
𝑋𝑖 = valor de la variable independiente para la observación i
𝜀𝑖 = error de muestreo aleatorio para la observación i
Los parámetros 𝛽0 y 𝛽1 del modelo de regresión lineal se estiman con los valores de bo y b1 que se basan en los datos
muestrales. Esta ecuación es:
̂ = b o + b1 X
𝒀
De acuerdo con el Método de Mínimos Cuadrados, la línea de regresión del mejor ajuste (y la mejor ecuación) es aquella
para la cual se reduce al mínimo la suma de las desviaciones cuadradas entre los valores estimados y real de la variable
dependiente para los datos muestrales. Las fórmulas de cálculo de los valores de bo y b1 que satisfacen el método de los
mínimos cuadrados son:

𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 ) ∑𝑥 ∑𝑦
- b1 = 2 b0 = 𝑌̅ – 𝑏1 𝑋̅ donde: 𝑋̅ = 𝑛 𝑖 𝑌̅ = 𝑛 𝑖
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑥𝑖 − (∑𝑖=1 𝑥𝑖 )

Una vez formulada la ecuación de regresión, puede servir para estimar el valor de la variable dependiente dado el valor de
la variable independiente. Sin embargo, esta estimación sólo debe realizarse dentro del rango de los valores de la variable
independiente originalmente muestreada, ya que no existe base estadística para suponer que la línea de regresión es
adecuada fuera de estos límites
7.-Error Estándar del Estimador
Es la desviación estándar condicional de la variable dependiente “Y” dado un valor de la variable independiente “X”. La
fórmula de cálculo es:
∑ 𝑌 2 −𝑏0 ∑ 𝑌− 𝑏1 ∑ 𝑋𝑌
eyx = √ 𝑛−2
8.- Correlación Lineal Simple
El análisis de correlación en contraste con el análisis de regresión, se utiliza para medir la fuerza de la asociación entre las
variables. En este caso no es utilizar una variable para predecir la otra, sino sólo medir la fuerza de la asociación o
“covarianza entre las dos variables. Pero la covarianza depende de las unidades de medida. Este inconveniente se evita
usando el coeficiente de correlación lineal. El análisis de correlación simple , se ocupa de medir la relación entre sólo una
variable independiente y la variable dependiente
9.- Coeficiente de correlación lineal ( r)
Mide la dependencia lineal entre x e y, y no depende de las unidades de medida de las variables, viene dado por:
𝑆
. r (x, y) = 𝑆 𝑥𝑦
𝑆
𝑥 𝑦

10.- Propiedades del coeficiente de correlación


a) Es a dimensional, y siempre tiene valor entre [ -1 , 1]
b)Si las variables son independientes el valor es r= 0 , pero el inverso no tiene porque ser cierto
c) Si existe una relación lineal exacta entre x e y, entonces r= 1(relación directa) o -1 (relación inversa)
d) si r > 0; si aumenta x , también y
e) si r < 0; si se aumenta una la otra disminuye)
11.-Objetivos y supuestos del Análisis de Correlación
Los supuestos poblacionales bajo el análisis de correlación simple son:
a) Ambas variables son variables aleatorias
b) La relación entre las variables es lineal
c) Las varianzas condicionales de cada variable, dados diferentes valores de la otra variable, son iguales
d) Los valores observados de cada variable son independientes de los demás valores observados de esa variable
e) Las distribuciones condicionales de cada variable, dados diferentes valores de la otra variable, son distribuciones
normales.
Estos supuestos en el análisis de correlación se aplican a ambas variables, en tanto que en el análisis de regresión la
variable independiente puede fijarse en varios valores específicos y no es necesario que sea una variable aleatoria

Ejemplo: Considere una muestra aleatoria del peso (en Tm.) de 4 automóviles y su costo en millones de bolívares.
a) Elabore el diagrama de dispersión
b) Determine la ecuación de regresión de mínimos cuadrados que mejor ajuste los datos
c) Calcule el error estándar del estimador
d) Usando la ecuación de regresión obtenida en b), estime el costo de un automóvil de 1,1 Tm.
e) ¿Podría utilizar esta ecuación de regresión para estimar el costo de un automóvil de 0.5 Tm?
f) ¿Es fiable la predicción determinada en b)

Peso del automóvil (X), en Tm 0.8 1 1.2 1.3


Costo ( Y) en millones de Bs 1 2 3 5

Solución:
a) Diagrama de dispersión (hágalo)
b) Elabore la tabla de trabajo,

Peso del Costo ( Y ) XY X2 Y2


automóvil En millones
( x) , Tm de Bs
0.8 1 0.8 0.64 1
1 2 2 1 4
1.2 3 3.6 1.44 9
1.3 5 6.5 1.69 25
∑ 4.3 ∑ 11 ∑ 12.9 ∑ 4.77 ∑ 39

4.3 11 𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 − (∑𝑖=1 𝑥𝑖 )(∑𝑖=1 𝑦𝑖 ) 4(12.9)− 4.3(11)
𝑋̅ = 4 = 1,075 𝑌̅ = 4 = 2,75 b1 = 2 = ≈7,283
𝑛 ∑𝑛 𝑥𝑖 2 − (∑𝑛 𝑥𝑖 )
𝑖=1 𝑖=1
4(4.77)− ( 4.3)2

b0 = 𝑌̅ – 𝑏1 𝑋̅ = 2,75 - 7,283( 1,075) ≈ -5.0847

̂ = -5.0847 + 7,283 X
Recta de regresión buscada 𝒀
c) Error estándar
∑ 𝑌 2 −𝑏0 ∑ 𝑌− 𝑏1 ∑ 𝑋𝑌 39−(−5.0847)− 7,283( 12,9)
Syx = √ =√ ≈ 7,223
𝑛−2 4−2
d) El costo de un automóvil de 1,1 toneladas métricas será de:

y( 1.1) = -5, 0847 + 7,283 ( 1,1)= 2,9266 millones es el valor que predice la regresión lineal
𝑆
e) Para saber si es fiable la predicción se calcula el coeficiente de correlación lineal r (x, y) = 𝑆 𝑥𝑦
𝑥 𝑦𝑆
1 12,9
Sxy = 𝑛 ∑ 𝑥𝑖 𝑦𝑖 − 𝑋̅ 𝑌̅ = − 1,075(2,75) ≈ 0,2687
4

1 4,77 1 39
Sx2 = ∑ 𝑥𝑖 2 − 𝑥̅ 2 = − (1,075)2 ≈ 0.0369 Sy2 = ∑ 𝑦𝑖 2 − 𝑌̅ 2 = − (2,75)2 ≈ 2,1875
𝑛 4 𝑛 4

0,2687
.r= ≈ 0,9457 es próximo a 1 la relación de dependencia entre las variables es buena
√0,0369√2,1875

Ejercicio: Una compañía que construye casas unifamiliares nuevas.


El contador de costo de la compañía quiere estimar el costo de construcción de las casas unifamiliares el año próximo,
para poder asignar un precio de venta a cada casa. El costo de construcción de todas las residencias unifamiliares
construidas por la compañía el año anterior está disponible en los registros de la compañía. En lugar de utilizar los costos
del año pasado como una estimación de los costos del año próximo, el contador cree que el costo de construcción tiene
una fuerte relación con el tamaño del lote. Se selecciona una muestra aleatoria de 12 casas construidas el año pasado y la
información recopilada se presenta en la tabla adjunta

Tamaño del lote Costo de construcción


( miles de pies2) ( miles de dólares)
5 31.6
7 32.4
10 41.7
10 50.2
12 46.2
20 58.5
22 59.3
15 48.4
30 63.7
40 85.3
12 53.4
15 54.5

a) Encuentre el diagrama de dispersión (hágalo)


b) Encuentre la recta de regresión que mejor ajuste los datos ( use mínimos cuadrados)
c) Calcule el error estándar de la estimación
d) Indique si el ajuste lineal es bueno
e) Calcule el costo promedio de construcción de casas que se van a construir en un lote de 15000 pies 2

También podría gustarte