Regresión y Correlación Lineal Simple Resumen
Regresión y Correlación Lineal Simple Resumen
Regresión y Correlación Lineal Simple Resumen
FACULTAD DE INGENIERÍA
ESTADISTICA INFERENCIAL
INGRA. KARIM PAZ
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE
El término regresión fue utilizado por primera vez por el genetista y estadístico inglés Francis
Galton. Galton en 1877 efectúo un estudio que demostró que la altura de los hijos de padres altos
tendía a retroceder o “regresar”, hacia la talla media de la población. Regresión fue el nombre
que el dio al proceso general de predecir una variable (la talla de los niños) a partir de otra (la
talla de los padres).
Una técnica estadística que establece una ecuación para determinar el valor desconocido de una
variable, a partir del valor conocido de otra variable, se denomina análisis de regresión simple.
Las relaciones entre las variables pueden ser directas o también inversas.
En el análisis de regresión una variable cuyo valor se suponga conocido y que se utiliza para
explicar o predecir el valor de otra variable de interés se llama variable independiente, se
simboliza con la letra X.
Otro nombres alternativos para la variable independiente (X), son variable explicatoria, variable
predictora y en ocasiones variable regresora.
En el análisis de regresión una variable cuyo valor se suponga desconocido y que explique o
prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.
Concepto: Diagrama que muestra la relación existente entre dos tipos de datos. Gráfica en la que
se traza cada uno de los puntos que presentan un par de valores observados para las variables
independiente y dependiente.
Usos: Determinar relación de dependencia entre dos variables. Determinar posibles relaciones
entre una causa y efecto. Mostrar el comportamiento de una variable a medida que la otra
cambia.
Como interpretar: Los diagramas pueden presentar: a) correlación positiva, cuando aumenta el
valor de una variable el de la otra también aumenta; b) correlación negativa, cuando aumenta el
valor de una variable el de la otra disminuye; y c) correlación cero, cuando no hay relación de
dependencia entre las dos variables.
Como elaborar un diagrama de dispersión:
1. Recopile pares de datos para dos causas o características que desee estudiar.
2. Trace el valor de una característica a lo largo de un eje, y de la otra característica a lo largo del
otro eje.
3. Trace las combinaciones particulares de cada una como puntos en el plano.
CORRELACIÓN LINEAL
Si los pares ordenados (x,y) tienden a seguir un patrón de línea recta, se tiene un correlación
lineal.
La correlación lineal perfecta ocurre cuando todos los puntos están exactamente sobre una recta.
Esta correlación puede ser positiva o negativa, dependiendo de si ”y” crece o decrece a medida
que “x” se incrementa.
Si los datos forman una línea horizontal o vertical no hay correlación ya que una variable no afecta
a la otra.
El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal
entre dos variables.
Coeficiente de correlación: medida numérica de la intensidad de la relación lineal entre dos
variables. El coeficiente refleja la consistencia de efecto que el cambio de una variable tiene sobre
otras.
Las variables edad (variable X) y estatura (variable Y). A medida que aumenta la edad de
un niño, se vuelve más alto.
Las variables antigüedad de un vehículo (variable X) y el valor de reventa (Y). A medida que
se vuelve más antiguo un automóvil, su valor de reventa disminuye.
El análisis de regresión encuentre la ecuación de la recta que describe mejor la relación entre las
dos variables. Una aplicación de esta ecuación es hacer predicciones.
COEFICIENTE DE DETERMINACIÓN (r2): relación conjunta entre dos variables que indica hasta qué
punto la variación de una de ellas conduce a la obtención de valores en la segunda.
Expresado en tanto por ciento mide el grado de información compartida entre dos variables
continuas.
El método que por lo común se utiliza para ajustar una línea a los datos muestrales indicados en
el diagrama de dispersión, se llama método de mínimos cuadrados. La línea se deriva en forma tal
que la suma de los cuadrados de las desviaciones verticales entre la línea y los puntos individuales
de datos se reduce al mínimo.
El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a los datos
muestrales.
Una línea de regresión calculada a partir de los datos muestrales, por el método de mínimos
cuadrados se llama línea de regresión estimada o línea de regresión muestral.
yᴧ = a + b x
ERROR ESTÁNDAR DE ESTIMACIÓN
RESIDUO
El residuo, es la diferencia entre el valor observado y el valor ajustado
e=y-y