Trabajo Final - Diego
Trabajo Final - Diego
Trabajo Final - Diego
Materia:
Probabilidad y estadística
presenta:
Diego Altamirano Velásquez
Docente:
Zaira Maria Delgado Rosales
Carrera:
ING. Civil
Fecha:
07/06/2024
1
Índice
Regresión Lineal Simple .............................................................................. 3
Regresión Lineal Múltiple ............................................................................ 5
Regresión Curvilínea ................................................................................... 6
Correlación .................................................................................................. 7
Regresión para Datos Agrupados: .............................................................. 9
correlación para datos agrupados. ............................................................ 11
Correlación de rango ................................................................................. 12
coeficiente de correlación para datos nominales....................................... 14
Conclusión ................................................................................................. 17
Bibliografía ................................................................................................. 19
2
Regresión Lineal Simple
La regresión es un método estadístico utilizado para encontrar una relación numérica
entre dos variables. Es entonces necesario encontrar los parámetros que expliquen esta
correlación. Aquí se desarrollaron modelos de regresión lineal simple y múltiple.
Luego se explican consideraciones de relevancia e idoneidad. Este tipo de
regresión sólo se aplica a una variable independiente, por lo que el
modelo estimado tendrá sólo dos parámetros:
Y=Bo+B1X+e...(1)𝑌=𝐵𝑜+𝐵1𝑋+𝑒...(1)
Donde:
• X𝑋 es la variable independiente.
• Y𝑌 es la variable dependiente.
• e𝑒 es el error de estimación.
• Bo𝐵𝑜 es el intercepto u ordenada en el origen.
• B1𝐵1 es la pendiente de la regresión.
E(Y)=Yˆ=E(βo)+E(β1X)+E(e)Yˆ=β0+β1X𝐸(𝑌)=𝑌^=𝐸(𝛽𝑜)+𝐸(𝛽1𝑋)+𝐸(𝑒)𝑌^=𝛽0+𝛽1𝑋
Función LM de R
Para estimar un modelo de regresión lineal simple en R, debe usarse el comando “lm()”.
Donde:
3
• ingresos es la variable dependiente.
• empleo es la variable independiente.
• bankloan es la data usada.
• Reg.simple es el modelo de regresión lineal simple.
4
Regresión Lineal Múltiple
Sea 𝑌 una variable de respuesta cuantitativa, y al menos una variable de
predicción xi𝑥𝑖 es cuantitativa. Para estos casos, el modelo de regresión lineal múltiple
suele ser muy útil:
y=β0+β1x1+β2x2+...+βkxk+e𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+...+𝛽𝑘𝑥𝑘+𝑒
Donde:
• y𝑦 es el regresando.
• x1,x2,xk𝑥1,𝑥2,𝑥𝑘 son los regresores.
• e𝑒 representa el error o perturbación aleatoria.
• Los parámetros β0,β1...,βk𝛽0,𝛽1...,𝛽𝑘 son fijos y desconocidos.
• Supóngase que se cuenta con una muestra aleatoria de n𝑛 datos:
y1=β0+β1x1,1+β2x2,1+...+βkxk,1+e1y2=β0+β1x1,2+β2,2+...+βkxk,2+e2⋮yn=β0+β1x1,n−
1+β2x2,n−1+...+βkxk,n−1+en𝑦1=𝛽0+𝛽1𝑥1,1+𝛽2𝑥2,1+...+𝛽𝑘𝑥𝑘,1+𝑒1𝑦2=𝛽0+𝛽1𝑥1,2+𝛽2,
2+...+𝛽𝑘𝑥𝑘,2+𝑒2⋮𝑦𝑛=𝛽0+𝛽1𝑥1,𝑛−1+𝛽2𝑥2,𝑛−1+...+𝛽𝑘𝑥𝑘,𝑛−1+𝑒𝑛
5
Regresión Curvilínea
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de regresión
curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a la situación
real dada.
Y= a + bx+cx2
6
Correlación
¿Qué es la correlación?
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
Es una herramienta común para describir relaciones simples sin hacer afirmaciones
sobre causa y efecto.
La correlación es útil para describir relaciones simples entre datos. Por ejemplo,
imaginemos que está consultando un conjunto de datos sobre campings en un parque
de montaña. Se quiere averiguar si hay una relación entre la altura del camping (qué tan
alto está en la montaña) y la temperatura máxima promedio durante el verano.
• Los valores de r positivos indican una correlación positiva, en la que los valores
de ambas variables tienden a incrementarse juntos.
• Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra
variable descienden.
8
Regresión para Datos Agrupados:
Modelos Lineales Jerárquicos (HLM):
Los Modelos Lineales Jerárquicos (HLM), también conocidos como modelos multinivel,
son una extensión de los modelos de regresión estándar que permiten analizar datos
que están organizados en múltiples niveles jerárquicos. Estos modelos son
particularmente útiles cuando los datos tienen una estructura de agrupamiento, como
estudiantes dentro de clases, empleados dentro de empresas, o pacientes dentro de
hospitales.
Conceptos Básicos:
Estimación de Parámetros:
• Máxima Verosimilitud (ML): Uno de los métodos más comunes para estimar los
parámetros del modelo. La estimación por máxima verosimilitud busca los
parámetros que maximicen la probabilidad de observar los datos dados los
parámetros del modelo.
• Métodos Bayesianos: Utilizan distribuciones a priori y a posteriori para estimar
los parámetros. Estos métodos pueden ser más flexibles y robustos en algunos
contextos, especialmente con muestras pequeñas o datos complejos.
• Algoritmos Computacionales: Algoritmos como el EM (Expectation-
Maximization) y MCMC (Markov Chain Monte Carlo) son utilizados para la
estimación de parámetros en modelos jerárquicos.
9
Interpretación de los Resultados:
10
correlación para datos agrupados.
La correlación para datos agrupados es una técnica estadística que se usa
para medir la relación entre dos variables cuando los datos se presentan en
forma de grupos o categorías, en lugar de observaciones individuales.
11
Correlación de rango
Definición: La correlación de rangos de Spearman (ρ o rs) es una medida no paramétrica
de la relación ordinal entre dos variables.
Calcular:
• Rango: Asigna un rango a los datos de las dos variables. En caso de
empate se adjudica el promedio de las posiciones correspondientes.
Interpretación:
Ventajas:
12
• Es adecuado para variables ordinales o cuando los datos no cumplen con los
requisitos de la correlación de Pearson.
Aplicaciones:
Limitaciones:
13
coeficiente de correlación para datos
nominales.
El análisis de correlación es una técnica estadística utilizada para medir y analizar el
grado de relación entre dos o más variables cuantitativas. Sin embargo, cuando se trata
de datos nominales, es decir, aquellos que representan categorías sin un orden
inherente, se requieren métodos específicos.
Datos Nominales
Los datos nominales clasifican elementos en categorías distintas sin ningún tipo de
orden o jerarquía. Ejemplos de datos nominales incluyen variables como el género, el
estado civil, la nacionalidad y el tipo de producto. En estos casos, las categorías son
mutuamente excluyentes y colectivamente exhaustivas, pero no tienen un orden lógico.
3. Chi-Cuadrado de Independencia
14
Procedimiento:
15
6. Ejemplo Práctico
16
Conclusión
La regresión es una técnica poderosa para modelar y analizar relaciones entre
variables.La regresión lineal simple se centra en la relación entre dos variables y le
permite predecir una variable dependiente basándose en una variable
independiente. Mientras que en la regresión curvilínea este análisis se centra en
relaciones no lineales, la regresión múltiple examina múltiples variables
independientes, lo que permite una comprensión más profunda y una precisión de
las relaciones complejas.
Las correlaciones lineales, como el coeficiente de Spearman, son útiles para datos
no paramétricos cuando la relación no es lineal. Este método organiza los datos y
evalúa las relaciones entre ellos, proporcionando una medida sólida de conectividad
que es menos sensible a distribuciones locales y no normales.
17
investigadores y analistas explorar y comprender más completamente las relaciones
dentro de sus datos, desde las más simples hasta las más complejas.
18
Bibliografía
Juste, R. P. (2012). En E. a. sociales. Creative Commons.
19