Regresión y Correlación Lineal Simple Resumen

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

UNIVERSIDAD RAFAEL LANDIVAR

FACULTAD DE INGENIERÍA
ESTADISTICA INFERENCIAL
INGRA. KARIM PAZ
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

El término regresión fue utilizado por primera vez por el genetista y estadístico inglés Francis
Galton. Galton en 1877 efectúo un estudio que demostró que la altura de los hijos de padres altos
tendía a retroceder o “regresar”, hacia la talla media de la población. Regresión fue el nombre
que el dio al proceso general de predecir una variable (la talla de los niños) a partir de otra (la
talla de los padres).

El análisis de regresión se desarrolla una ecuación de estimación, es decir, una fórmula


matemática que relaciona las variables conocidas con las desconocidas. Luego de obtener el
patrón de dicha relación, se aplica el análisis de correlación para determinar el grado de relación
que hay entre las variables.

Regresión lineal simple

Una técnica estadística que establece una ecuación para determinar el valor desconocido de una
variable, a partir del valor conocido de otra variable, se denomina análisis de regresión simple.

Las relaciones entre las variables pueden ser directas o también inversas.

Independiente: es manipulada por el investigador en un experimento con el objeto de estudiar


cómo incide sobre la expresión de la variable dependiente.

En el análisis de regresión una variable cuyo valor se suponga conocido y que se utiliza para
explicar o predecir el valor de otra variable de interés se llama variable independiente, se
simboliza con la letra X.

Otro nombres alternativos para la variable independiente (X), son variable explicatoria, variable
predictora y en ocasiones variable regresora.

Dependiente: propiedad o característica que se trata de cambiar mediante la manipulación de la


variable independiente. El factor que es observado y es medido para determinar el efecto de la
variable independiente.

En el análisis de regresión una variable cuyo valor se suponga desconocido y que explique o
prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.

Es llamada variable explicada o variable pronosticada.


DIAGRAMA DE DISPERSIÓN

Es una ilustración gráfica que se usa en el análisis de regresión.

Concepto: Diagrama que muestra la relación existente entre dos tipos de datos. Gráfica en la que
se traza cada uno de los puntos que presentan un par de valores observados para las variables
independiente y dependiente.

Usos: Determinar relación de dependencia entre dos variables. Determinar posibles relaciones
entre una causa y efecto. Mostrar el comportamiento de una variable a medida que la otra
cambia.

Como interpretar: Los diagramas pueden presentar: a) correlación positiva, cuando aumenta el
valor de una variable el de la otra también aumenta; b) correlación negativa, cuando aumenta el
valor de una variable el de la otra disminuye; y c) correlación cero, cuando no hay relación de
dependencia entre las dos variables.
Como elaborar un diagrama de dispersión:

1. Recopile pares de datos para dos causas o características que desee estudiar.

2. Trace el valor de una característica a lo largo de un eje, y de la otra característica a lo largo del
otro eje.
3. Trace las combinaciones particulares de cada una como puntos en el plano.

4. Analice la correlación, si existe.

CORRELACIÓN LINEAL

Si los pares ordenados (x,y) tienden a seguir un patrón de línea recta, se tiene un correlación
lineal.

La correlación lineal perfecta ocurre cuando todos los puntos están exactamente sobre una recta.

Esta correlación puede ser positiva o negativa, dependiendo de si ”y” crece o decrece a medida
que “x” se incrementa.

Si los datos forman una línea horizontal o vertical no hay correlación ya que una variable no afecta
a la otra.

El objetivo primordial del análisis de correlación lineal es medir la intensidad de una relación lineal
entre dos variables.
Coeficiente de correlación: medida numérica de la intensidad de la relación lineal entre dos
variables. El coeficiente refleja la consistencia de efecto que el cambio de una variable tiene sobre
otras.

El coeficiente de correlación (r) siempre tiene un valor entre -1 y + 1.

Reglas para interpretar el coeficiente de correlación

Valor del coeficiente de correlación Interpretación

0.90 a 1.0 (-0.90 a -1.0) Correlación bien alta positiva (negativa)

0.70 a 0.90 (-0.70 a - 0.90) Correlación alta positiva (negativa)

0.50 a 0.70 (-.50 a -0.70) Correlación moderada positiva (negativa)

0.30 a 0.50 (-.030 a – 0.50) Correlación baja positiva (negativa)

0 a 0.30 (0 a -0.30) Si existe correlación es muy débil

Ejemplo correlación positiva:

 Las variables edad (variable X) y estatura (variable Y). A medida que aumenta la edad de
un niño, se vuelve más alto.

Ejemplo correlación negativa:

 Las variables antigüedad de un vehículo (variable X) y el valor de reventa (Y). A medida que
se vuelve más antiguo un automóvil, su valor de reventa disminuye.
El análisis de regresión encuentre la ecuación de la recta que describe mejor la relación entre las
dos variables. Una aplicación de esta ecuación es hacer predicciones.

COEFICIENTE DE DETERMINACIÓN (r2): relación conjunta entre dos variables que indica hasta qué
punto la variación de una de ellas conduce a la obtención de valores en la segunda.

Es el cuadrado del coeficiente de correlación.

Expresado en tanto por ciento mide el grado de información compartida entre dos variables
continuas.

METODO DE MÍNIMOS CUADRADOS

El método que por lo común se utiliza para ajustar una línea a los datos muestrales indicados en
el diagrama de dispersión, se llama método de mínimos cuadrados. La línea se deriva en forma tal
que la suma de los cuadrados de las desviaciones verticales entre la línea y los puntos individuales
de datos se reduce al mínimo.

El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a los datos
muestrales.

Una línea de regresión calculada a partir de los datos muestrales, por el método de mínimos
cuadrados se llama línea de regresión estimada o línea de regresión muestral.

yᴧ = a + b x
ERROR ESTÁNDAR DE ESTIMACIÓN

Mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión.


Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o
esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si el error estándar
de estimación es igual a cero, se espera que la ecuación de estimación sea un estimador
“perfecto” de la variable dependiente, en este caso todos los puntos caerían directamente sobre
la línea de regresión y no habría puntos dispersos.

RESIDUO
El residuo, es la diferencia entre el valor observado y el valor ajustado

e=y-y

También podría gustarte