Regresión y Correlación Múltiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

ÍNDICE

Regresión y correlación Múltiple 3


3.2
Análisis de regresión múltiple y el método de
3
3.2.1 los mínimos cuadrados

El coeficiente de determinación Múltiple y el


4
3.2.2 error estándar múltiple de estimación

3.2.3 Análisis de varianza para la regresión Múltiple 5

3.2.4 Análisis de residuales 6

1
Introducción
La regresión y correlación múltiple son herramientas estadísticas fundamentales que permiten
analizar la relación entre varias variables independientes y una variable dependiente. Este
análisis es crucial en diversas disciplinas, desde la economía hasta la biología, ya que ayuda a
entender cómo múltiples factores influyen en un resultado específico.

Análisis de Regresión Múltiple


El análisis de regresión múltiple se basa en el método de los mínimos cuadrados, que busca
minimizar la suma de los cuadrados de las diferencias (residuos) entre los valores observados
y los valores predichos por el modelo. Este enfoque permite ajustar una función lineal a un
conjunto de datos, proporcionando estimaciones precisas de los coeficientes que representan
las relaciones entre las variables.

Coeficiente de Determinación y Error Estándar


El coeficiente de determinación múltiple, comúnmente denotado como R2, mide la
proporción de la variabilidad en la variable dependiente que puede ser explicada por las
variables independientes en el modelo. Un R2 más alto indica un mejor ajuste del modelo a
los datos. Además, el error estándar de estimación proporciona una medida de la precisión del
modelo al estimar valores, reflejando la dispersión de los residuos.

Análisis de Varianza
El análisis de varianza (ANOVA) para regresión múltiple es una técnica que permite evaluar
la significancia global del modelo. A través de esta técnica, se puede determinar si al menos
una de las variables independientes tiene un efecto significativo sobre la variable
dependiente, comparando la variabilidad explicada por el modelo con la variabilidad no
explicada.

Análisis de Residuales
Finalmente, el análisis de residuales es esencial para validar el modelo. Los residuos son las
diferencias entre los valores observados y los valores predichos; su análisis ayuda a
identificar patrones no capturados por el modelo y a verificar supuestos como la
homocedasticidad y la normalidad. Un examen cuidadoso de estos residuos puede
proporcionar información valiosa sobre la calidad del ajuste y posibles mejoras en el modelo.
En resumen, el análisis de regresión múltiple es una herramienta poderosa para entender
relaciones complejas entre variables, y su correcta aplicación puede ofrecer insights
significativos en diversas áreas del conocimiento.

2
3.2 Regresión y correlación múltiple
El propósito del análisis de regresión y correlación es el estudio de la relación existente entre
dos variables aleatorias, una denominada independiente y otra denominada dependiente.

Regresión

En estadística, el análisis de la regresión es un proceso estadístico para entender cómo una


variable depende de otra variable. Por ejemplo, si se requiere entender cómo la edad de una
persona afecta a su salario, se puede usar la
regresión para encontrar una relación entre las dos
variables. En términos simples, la regresión es una
línea que se traza en un gráfico que muestra la
relación entre dos variables. Un modelo de
regresión lineal múltiple es un modelo estadístico
versátil para evaluar las relaciones entre un destino
continuo y los predictores.
Los predictores pueden ser campos continuos, categóricos o derivados, de modo que las
relaciones no lineales también estén soportadas. El modelo es lineal porque consiste en
términos de aditivos en los que cada término es un predictor que se multiplica por un
coeficiente estimado. El término de constante (intercepción) también se añade normalmente
al modelo.

Correlación múltiple

La correlación múltiple cuantifica el grado de asociación entre una variable dependiente y


dos o más independientes, tomadas en conjunto, Al igual que el coeficiente de correlación de
Pearson, del que se puede considerar una extensión, encuentra su fundamento en el análisis
de la regresión, en este caso múltiple.
Varía entre 0 y 1, y se presenta separando
la variable dependiente de las
independientes con un punto. Estudia el
grado de dependencia entre las variables,
es decir su objetivo es medir el grado de
ajuste existente entre la función teórica
(función ajustada) y la nube de puntos. Por lo tanto, una variable independiente que presente
un alto grado de correlación con una variable dependiente será muy útil para predecir los
valores de ésta última. Cuando la relación entre las variables es lineal, se habla de correlación
lineal

3.2.1 Análisis de regresión múltiple y el método de los mínimos cuadrados

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes

3
llamadas predictores (X1, X2,X3…). Es una extensión de la regresión lineal simple,

Los modelos lineales múltiples siguen la siguiente ecuación:

Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei

● β0: es la ordenada en el origen, el valor de la variable dependiente


● Y cuando todos los predictores son cero.
● βi: es el efecto promedio que tiene el incremento en una unidad de la variable
predictora
● Xi sobre la variable dependiente
● Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes
parciales de regresión.
● ei: es el residuo o error, la diferencia entre el valor observado y el estimado por el
modelo.
Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización
matemática, en la que, dados un conjunto de pares ordenados —variable independiente,
variable dependiente— y una familia de funciones, se intenta encontrar la función continua,
dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo
con el criterio de mínimo error cuadrático.

3.2.2 El coeficiente de determinación múltiple y el error estándar múltiple de


estimación

El coeficiente de determinación puede interpretarse como la proporción de la variabilidad de


la variable dependiente.El resultado multiplicado por 100 se puede determinar como el
porcentaje de la variabilidad explicada en la ecuación de regresión estimada.Donde R2 es la
división de Sumatoria de cuadrados residuales (SCR), entre la sumatoria de total de
cuadrados (STC)

4
Fórmula:

Error estándar múltiple de estimación


Es una estimación de la cantidad que el valor de una estadística de prueba varía de muestra a
muestra. Es una medida de la incertidumbre de la estadística de prueba. Mediante esta medida
de dispersión se hace más preciso el grado de dispersión alrededor del plano de regresión, se
hace más pequeño.
Donde:
N = Es el número de observaciones
p = Es el número de variables independientes

3.3Análisis de varianza para la regresión múltiple (ANOVA)

ANOVA

El Análisis de Varianza (ANOVA) para regresión múltiple evalúa si el modelo de regresión


explica significativamente la variabilidad de los datos. Compara la variabilidad explicada por
el modelo con la no explicada (error), utilizando la prueba F para determinar si las variables
independientes tienen un efecto significativo sobre la dependiente.

5
Objetivos

- Evaluar la significancia de la relación entre variables.


- Identificar las variables independientes que tienen un impacto significativo en la variable
dependiente.
- Determinar la proporción de varianza explicada por el modelo.

Suposiciones

- Linealidad entre variables.


- Independencia de observaciones.
- Homocedasticidad (varianza constante).
- Normalidad de residuos.

Componentes clave

- Suma de cuadrados (SS): medida de la varianza total.


- Grados de libertad (df): número de valores independientes.
- Media cuadrática (MS): medida de la varianza promedio.
- F: estadístico que compara la varianza entre grupos.

Prueba F

- H0: No hay relación significativa entre variables.


- H1: Hay relación significativa entre variables.
- p-valor: probabilidad de obtener un resultado igual o más extremo.

Limitaciones

- No evalúa la causalidad.
- Sensibilidad a outliers y violaciones de suposiciones.
- No es adecuado para variables categóricas.

Recuerda que la interpretación de los resultados debe ser cuidadosa y considerar las
limitaciones del análisis.

3.2.4 Análisis de residuales

CONCEPTO
El análisis de residuales es el principal método estadístico para verificar si las suposiciones
del modelo de regresión son válidas. Aun cuando no se encuentre ninguna violación, esto no
necesariamente implica que el modelo vaya a proporcionar buenas predicciones.

6
Análisis de los residuos que se usa para determinar si parecen ser válidas las suposiciones
hechas acerca del modelo de regresión. El análisis de residuales también se usa para
identificar observaciones atípicas y observaciones influyentes.

RESIDUAL i: Es la diferencia que existe entre el valor observado de la variable dependiente


y el valor pronosticado empleando la ecuación de regresión estimada; para la observación i,
el residual i es:

Gráfica de residuales contra x


La gráfica de residuales contra la variable independiente x
es una gráfica en la que los valores de la variable
independiente se representan en el eje horizontal y los
valores de los residuales correspondientes se representan en
el eje vertical.

Gráfica de residuales contra y ^


En otra gráfica de residuales los valores pronosticados para
la variable dependiente se representan en el eje horizontal y
los valores de los residuales en el eje vertical. A cada
residual corresponde un punto en la gráfica.
En el análisis de regresión múltiple, la gráfica de residuales
contra se usa más debido a que se tiene más de una variable
independiente.

Para la adecuada interpretación de las gráficas de residuales experiencia y criterio son muy
importantes. Es raro que una gráfica de residuales tenga exactamente la forma de una de las
gráficas presentadas en la figura. Sin embargo, los analistas que realizan frecuentemente
estudios de regresión y gráficas de residuales se vuelven expertos en reconocer las diferencias
entre las formas razonables y las que indican que se puede dudar de las suposiciones del
modelo. Una gráfica de residuos proporciona una técnica para evaluar la validez de las
suposiciones en un modelo de regresión.
Observación atípica: Dato u observación que no sigue la tendencia del resto de los datos.
Puede tratarse de datos erróneos; si es así, esos datos deben ser corregidos. Puede tratarse de
una violación a las suposiciones del modelo; si es así, habrá que considerar otro modelo. Por
último, puede tratarse, simplemente, de valores inusuales que se presenten por casualidad. En
ese caso, esos valores deberán conservarse.

7
Observación influyente
Observación en la que la variable independiente tiene un valor extremo
La recta de regresión estimada tiene pendiente negativa, pero si la observación influyente se
elimina del conjunto de datos, la pendiente de la recta de regresión estimada cambia de
negativa a positiva y la intersección con el eje y es menor.

Las observaciones influyentes deben examinarse cuidadosamente dado el gran efecto que
tienen sobre la ecuación de regresión estimada. Lo primero que hay que hacer es verificar que
no se haya cometido algún error al recolectar los datos. Si se cometió algún error, se corrige y
se obtiene una nueva ecuación de regresión estimada. Si la observación es correcta, puede
uno considerarse afortunado de tenerla. Tal dato, cuando es correcto, contribuye a una mejor
comprensión del modelo adecuado y conduce a una mejor ecuación de regresión estimada

8
Conclusión

Conclusión sobre Regresión y Correlación Múltiple


El análisis de regresión y correlación múltiple se presenta como una metodología esencial
para desentrañar las complejas interacciones entre múltiples variables independientes y su
impacto en una variable dependiente. A través del método de los mínimos cuadrados, se logra
ajustar un modelo que proporciona estimaciones precisas de los coeficientes, permitiendo así
entender la magnitud y dirección de estas relaciones.

El coeficiente de determinación múltiple, R2, se convierte en una herramienta clave para


evaluar la efectividad del modelo, ya que indica la proporción de variabilidad explicada por
las variables independientes. Un alto valor de R2 no solo sugiere un buen ajuste, sino que
también resalta la relevancia de las variables incluidas en el análisis.

El análisis de varianza (ANOVA) complementa este estudio al ofrecer una evaluación global
de la significancia del modelo. A través de esta técnica, se puede determinar si al menos una
de las variables independientes contribuye significativamente a explicar la variabilidad en la
variable dependiente, lo que refuerza la validez del modelo.
Por último, el análisis de residuales es crucial para validar los supuestos del modelo y
garantizar su robustez. Al examinar los residuos, se pueden identificar patrones que indiquen
posibles deficiencias en el ajuste, lo que permite realizar ajustes necesarios para mejorar la
precisión del modelo.

En conclusión, el análisis de regresión y correlación múltiple no solo proporciona una


comprensión profunda de las relaciones entre variables, sino que también ofrece un marco
riguroso para la toma de decisiones informadas en diversas disciplinas. Su correcta aplicación
y análisis son fundamentales para extraer conclusiones válidas y útiles en la investigación y
práctica profesional.

9
Referencias

Bencardino, C. M. (2019). Estadística básica aplicada. Ecoe ediciones.


Cardona, D., González Rodríguez, J. L., Rivera Lozano, M., & Cárdenas Vallejo, E. (2013). Inferencia
estadística módulo de regresión lineal simple.
Ostle, B. (1973). Estadística aplicada (p. 629). Limusa.

10

También podría gustarte