Trabajo Final - Diego

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

ITSZ

Materia:
Probabilidad y estadística

presenta:
Diego Altamirano Velásquez

Docente:
Zaira Maria Delgado Rosales

Carrera:
ING. Civil

Fecha:
07/06/2024

1
Índice
Regresión Lineal Simple .............................................................................. 3
Regresión Lineal Múltiple ............................................................................ 5
Regresión Curvilínea ................................................................................... 6
Correlación .................................................................................................. 7
Regresión para Datos Agrupados: .............................................................. 9
correlación para datos agrupados. ............................................................ 11
Correlación de rango ................................................................................. 12
coeficiente de correlación para datos nominales....................................... 14
Conclusión ................................................................................................. 17
Bibliografía ................................................................................................. 19

2
Regresión Lineal Simple
La regresión es un método estadístico utilizado para encontrar una relación numérica
entre dos variables. Es entonces necesario encontrar los parámetros que expliquen esta
correlación. Aquí se desarrollaron modelos de regresión lineal simple y múltiple.
Luego se explican consideraciones de relevancia e idoneidad. Este tipo de
regresión sólo se aplica a una variable independiente, por lo que el
modelo estimado tendrá sólo dos parámetros:
Y=Bo+B1X+e...(1)𝑌=𝐵𝑜+𝐵1𝑋+𝑒...(1)

Donde:

• X𝑋 es la variable independiente.
• Y𝑌 es la variable dependiente.
• e𝑒 es el error de estimación.
• Bo𝐵𝑜 es el intercepto u ordenada en el origen.
• B1𝐵1 es la pendiente de la regresión.

Entonces, la esperanza de (1) es:

E(Y)=Yˆ=E(βo)+E(β1X)+E(e)Yˆ=β0+β1X𝐸(𝑌)=𝑌^=𝐸(𝛽𝑜)+𝐸(𝛽1𝑋)+𝐸(𝑒)𝑌^=𝛽0+𝛽1𝑋

Por el método de mínimos cuadrados ordinarios:


β1ˆ=n∑XY−∑X∑Yn∑X2−(∑X)2β0ˆ=∑Y∑X2−∑X∑XYn∑X2−(∑X)2𝛽1^=𝑛∑𝑋𝑌−∑𝑋∑𝑌𝑛∑𝑋2−(∑𝑋
)2𝛽0^=∑𝑌∑𝑋2−∑𝑋∑𝑋𝑌𝑛∑𝑋2−(∑𝑋)2

Luego, yˆ=β0ˆ+β1Xˆ𝑦^=𝛽0^+𝛽1𝑋^ es la recta de regresión lineal de “y” sobre “x”.

Función LM de R

Para estimar un modelo de regresión lineal simple en R, debe usarse el comando “lm()”.

reg.simple<−lm(ingresos empleo,data=bankloan)𝑟𝑒𝑔.𝑠𝑖𝑚𝑝𝑙𝑒<−𝑙𝑚(𝑖𝑛𝑔𝑟𝑒𝑠𝑜𝑠 𝑒𝑚𝑝𝑙𝑒𝑜,𝑑


𝑎𝑡𝑎=𝑏𝑎𝑛𝑘𝑙𝑜𝑎𝑛)

Donde:

3
• ingresos es la variable dependiente.
• empleo es la variable independiente.
• bankloan es la data usada.
• Reg.simple es el modelo de regresión lineal simple.

4
Regresión Lineal Múltiple
Sea 𝑌 una variable de respuesta cuantitativa, y al menos una variable de
predicción xi𝑥𝑖 es cuantitativa. Para estos casos, el modelo de regresión lineal múltiple
suele ser muy útil:
y=β0+β1x1+β2x2+...+βkxk+e𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+...+𝛽𝑘𝑥𝑘+𝑒

Donde:

• y𝑦 es el regresando.
• x1,x2,xk𝑥1,𝑥2,𝑥𝑘 son los regresores.
• e𝑒 representa el error o perturbación aleatoria.
• Los parámetros β0,β1...,βk𝛽0,𝛽1...,𝛽𝑘 son fijos y desconocidos.
• Supóngase que se cuenta con una muestra aleatoria de n𝑛 datos:

y1=β0+β1x1,1+β2x2,1+...+βkxk,1+e1y2=β0+β1x1,2+β2,2+...+βkxk,2+e2⋮yn=β0+β1x1,n−
1+β2x2,n−1+...+βkxk,n−1+en𝑦1=𝛽0+𝛽1𝑥1,1+𝛽2𝑥2,1+...+𝛽𝑘𝑥𝑘,1+𝑒1𝑦2=𝛽0+𝛽1𝑥1,2+𝛽2,
2+...+𝛽𝑘𝑥𝑘,2+𝑒2⋮𝑦𝑛=𝛽0+𝛽1𝑥1,𝑛−1+𝛽2𝑥2,𝑛−1+...+𝛽𝑘𝑥𝑘,𝑛−1+𝑒𝑛

Llevando ello a su forma matricial, se obtiene:

5
Regresión Curvilínea
Cuando las Variables X e Y se relacionan según una línea Curva, se habla de regresión
curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a la situación
real dada.

Y= a + bx+cx2

Donde a, b y c son los parámetros.

El problema consiste en determinar dichos parámetros para una distribución dada. Se


seguirá para ello, un razonamiento y la utilización de las ecuaciones normales de GAUSS.

Pasos para Realizar la Regresión Curvilínea:

1. Se toman los datos proporcionados a analizar y se forman los pares ordenados


2. Se representan dichos valores en los ejes del plano cartesiano, dando lugar a un
diagrama de dispersión o nube de puntos. El cual para que sea curvilínea debe
ser una curva.
3. Ajustamos a una función de segundo grado de Y= a + bx+cx2 para encontrar las
ecuaciones normales.
4. Elaborar tabla con los resultados que según las ecuaciones normales debemos
calcular para luego sustituir en dichas ecuaciones.
5. Sustituir en el sistema de ecuaciones normales
6. Utilizar matriz para encontrar los parámetros de “a”, “b” y “c” para sustituirlos
en la ecuación de regresión curvilínea
7. Sustituir los valores de “a”, “b” y “c” en la ecuación de Y= a + bx+cx2y completar
la tabla.

6
Correlación
¿Qué es la correlación?

La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
Es una herramienta común para describir relaciones simples sin hacer afirmaciones
sobre causa y efecto.

¿Cómo se mide la correlación?

El coeficiente de correlación de la muestra, r, cuantifica la intensidad de la relación. Las


correlaciones también se someten a pruebas para establecer su significancia estadística.

¿Cuáles son algunas limitaciones del análisis de correlación?

La correlación no puede medir la presencia o el efecto de otras variables aparte de las


dos que se están explorando. Es importante saber que la correlación no nos informa
sobre causas y efectos. Además, la correlación no puede describir con precisión las
relaciones curvilíneas.

La correlación describe datos que varían conjuntamente

La correlación es útil para describir relaciones simples entre datos. Por ejemplo,
imaginemos que está consultando un conjunto de datos sobre campings en un parque
de montaña. Se quiere averiguar si hay una relación entre la altura del camping (qué tan
alto está en la montaña) y la temperatura máxima promedio durante el verano.

Para cada camping se tienen dos mediciones: la elevación y la temperatura. Si usa la


correlación para comparar estas dos variables en toda la muestra, se puede ver que hay
una relación lineal: cuanto más sube la altura, más baja la temperatura. Estas variables
tienen una correlación negativa.

¿Qué significan los números de las correlaciones?

Describimos la correlación mediante una medida sin unidades llamada coeficiente de


correlación, que va desde -1 a +1 y se indica mediante la letra r. La significancia
7
estadística se indica mediante un valor p. Por tanto, usualmente las correlaciones se
escriben con dos números clave: r = y p = .

• Cuanto más se aproxima r a cero, más débil es la relación lineal.

• Los valores de r positivos indican una correlación positiva, en la que los valores
de ambas variables tienden a incrementarse juntos.

• Los valores de r negativos indican una correlación negativa, en la que los valores
de una variable tienden a incrementarse mientras que los valores de la otra
variable descienden.

• El valor p aporta evidencia de que podemos concluir de manera significativa que


es probable que el coeficiente de correlación de la población sea diferente a
cero, basándonos en lo que hemos observado en la muestra.

• "Medida sin unidades" significa que la correlación tiene su propia escala: en


nuestro ejemplo, el número de r no está en la misma escala que la altura ni que
la temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo,
la media de las medidas de altura está en la misma escala que su variable.

8
Regresión para Datos Agrupados:
Modelos Lineales Jerárquicos (HLM):

Los Modelos Lineales Jerárquicos (HLM), también conocidos como modelos multinivel,
son una extensión de los modelos de regresión estándar que permiten analizar datos
que están organizados en múltiples niveles jerárquicos. Estos modelos son
particularmente útiles cuando los datos tienen una estructura de agrupamiento, como
estudiantes dentro de clases, empleados dentro de empresas, o pacientes dentro de
hospitales.

Conceptos Básicos:

• Niveles Jerárquicos: En un contexto educativo, por ejemplo, podríamos tener


estudiantes (nivel 1) agrupados en clases (nivel 2). Los modelos jerárquicos
permiten analizar la variabilidad en ambos niveles simultáneamente.
• Variables de Nivel 1 y Nivel 2: Las variables pueden estar definidas en diferentes
niveles. Por ejemplo, las calificaciones de los estudiantes (nivel 1) y las
características de las clases, como el tamaño de la clase o el método de
enseñanza (nivel 2).

Estimación de Parámetros:

• Máxima Verosimilitud (ML): Uno de los métodos más comunes para estimar los
parámetros del modelo. La estimación por máxima verosimilitud busca los
parámetros que maximicen la probabilidad de observar los datos dados los
parámetros del modelo.
• Métodos Bayesianos: Utilizan distribuciones a priori y a posteriori para estimar
los parámetros. Estos métodos pueden ser más flexibles y robustos en algunos
contextos, especialmente con muestras pequeñas o datos complejos.
• Algoritmos Computacionales: Algoritmos como el EM (Expectation-
Maximization) y MCMC (Markov Chain Monte Carlo) son utilizados para la
estimación de parámetros en modelos jerárquicos.

9
Interpretación de los Resultados:

• Interceptos y Pendientes a Nivel 1: Los interceptos (β0j\beta_{0j}β0j)


representan el promedio del resultado para un grupo específico cuando todas
las variables independientes son cero. Las pendientes (β1j\beta_{1j}β1j) indican
cómo cambia el resultado con una unidad de cambio en la variable
independiente dentro de un grupo.
• Efectos Fijos y Aleatorios: Los efectos fijos (γ\gammaγ) representan el promedio
de los parámetros a través de todos los grupos. Los efectos aleatorios (uuu)
indican cuánto varían estos parámetros entre los grupos.
• Significancia Estadística: Se evalúa para determinar si las relaciones observadas
son estadísticamente significativas. Los intervalos de confianza y los valores p
son herramientas comunes para esta evaluación.

10
correlación para datos agrupados.
La correlación para datos agrupados es una técnica estadística que se usa
para medir la relación entre dos variables cuando los datos se presentan en
forma de grupos o categorías, en lugar de observaciones individuales.

Algunos aspectos clave sobre la correlación para datos agrupados:

• Se utiliza cuando los datos originales no están disponibles a nivel


individual, sino que se tienen los valores medios o totales de cada grupo.
• Permite cuantificar la fuerza y dirección de la relación entre dos variables
cuando los datos están agregados en grupos.
• El coeficiente de correlación resultante se interpreta de manera similar a
la correlación de Pearson para datos individuales, pero con algunas
diferencias.
• Es útil cuando se tienen datos a nivel agregado, como promedios por
región, sector, edad, etc.

11
Correlación de rango
Definición: La correlación de rangos de Spearman (ρ o rs) es una medida no paramétrica
de la relación ordinal entre dos variables.

No requiere que las variables estén relacionadas linealmente o distribuidas


normalmente.

Calcular:
• Rango: Asigna un rango a los datos de las dos variables. En caso de
empate se adjudica el promedio de las posiciones correspondientes.

• Fórmula: La fórmula para calcular el coeficiente de Spearman es:

Interpretación:

• El coeficiente de correlación de Spearman varía entre -1 y 1.


• Un valor de 1 indica una correlación perfecta positiva (a medida que una variable
aumenta, la otra también lo hace de manera ordenada).
• Un valor de -1 indica una correlación perfecta negativa (a medida que una
variable aumenta, la otra disminuye de manera ordenada).
• Un valor de 0 indica que no hay correlación en términos de rangos.

Ventajas:

• No requiere suposiciones sobre la distribución de las variables.

12
• Es adecuado para variables ordinales o cuando los datos no cumplen con los
requisitos de la correlación de Pearson.

Aplicaciones:

• Es útil en estudios de ciencias sociales donde las variables a menudo son


ordinales o no siguen una distribución normal.
• Se aplica cuando los datos presentan outliers o relaciones no lineales.

Limitaciones:

• Aunque es robusto frente a violaciones de normalidad, puede ser menos potente


que la correlación de Pearson en datos que sí cumplen con las suposiciones
paramétricas.
• Solo mide la relación monotónica, no captura relaciones más complejas.

13
coeficiente de correlación para datos
nominales.
El análisis de correlación es una técnica estadística utilizada para medir y analizar el
grado de relación entre dos o más variables cuantitativas. Sin embargo, cuando se trata
de datos nominales, es decir, aquellos que representan categorías sin un orden
inherente, se requieren métodos específicos.

Datos Nominales

Los datos nominales clasifican elementos en categorías distintas sin ningún tipo de
orden o jerarquía. Ejemplos de datos nominales incluyen variables como el género, el
estado civil, la nacionalidad y el tipo de producto. En estos casos, las categorías son
mutuamente excluyentes y colectivamente exhaustivas, pero no tienen un orden lógico.

2. Correlación para Datos Nominales

Para medir la relación entre variables nominales, no se puede utilizar el coeficiente de


correlación de Pearson, que es adecuado para variables continuas o ordinales con
intervalos equidistantes. En su lugar, se emplean métodos de análisis de asociación
específicos para datos categóricos.

3. Chi-Cuadrado de Independencia

La prueba de Chi-cuadrado (χ2\chi^2χ2) es una prueba estadística comúnmente


utilizada para determinar si existe una asociación significativa entre dos variables
categóricas. Se basa en la comparación de las frecuencias observadas y esperadas en
una tabla de contingencia.

14
Procedimiento:

1. Construir una tabla de contingencia para las dos variables.


2. Calcular las frecuencias esperadas para cada celda de la tabla.
3. Aplicar la fórmula del χ2:

donde Oi son las frecuencias observadas y Ei las frecuencias esperadas.

4. Determinar el valor crítico del χ2\chi^2χ2 a partir de la tabla de distribución


χ2\chi^2χ2 con los grados de libertad adecuados.
5. Comparar el valor calculado con el valor crítico para decidir si rechazar o no la
hipótesis nula de independencia.

15
6. Ejemplo Práctico

Supongamos que queremos analizar la relación entre el género (masculino, femenino) y


la preferencia de tipo de película (acción, comedia, drama). Construimos una tabla de
contingencia con los datos recolectados y aplicamos el test χ2, seguido del cálculo del
coeficiente ϕ\phiϕ o el V de Cramer para interpretar la fuerza de la asociación.

16
Conclusión
La regresión es una técnica poderosa para modelar y analizar relaciones entre
variables.La regresión lineal simple se centra en la relación entre dos variables y le
permite predecir una variable dependiente basándose en una variable
independiente. Mientras que en la regresión curvilínea este análisis se centra en
relaciones no lineales, la regresión múltiple examina múltiples variables
independientes, lo que permite una comprensión más profunda y una precisión de
las relaciones complejas.

Correlación utiliza la correlación para determinar la fuerza y dirección de una


relación lineal entre dos variables. Aunque no es un elemento, es una herramienta
importante para identificar relaciones y patrones en sus datos. Comprender las
relaciones requiere identificar relaciones que puedan investigarse mediante análisis
de datos primarios y análisis de regression

La revisión y el análisis se pueden extender a datos agrupados examinando


registros agrupados en diferentes categorías o grupos. Este enfoque brinda la
oportunidad de comprender mejor las diferencias dentro y entre grupos y al mismo
tiempo tener en cuenta tendencias y patrones que no son visibles en el análisis
general.

Las correlaciones lineales, como el coeficiente de Spearman, son útiles para datos
no paramétricos cuando la relación no es lineal. Este método organiza los datos y
evalúa las relaciones entre ellos, proporcionando una medida sólida de conectividad
que es menos sensible a distribuciones locales y no normales.

De manera similar al índice de verosimilitud, el coeficiente de correlación de datos


nominal utiliza un término de correlación con covariables. Esto es más importante en
análisis donde las variables no son numéricas, ya que evalúa la fuerza de las
relaciones entre componentes y proporciona la base para decisiones estadísticas en
situaciones cualitativas.

Los modelos de regresión y correlación son herramientas esenciales para el análisis


estadístico. Cada tecnología tiene usos y beneficios específicos, lo que permite a los

17
investigadores y analistas explorar y comprender más completamente las relaciones
dentro de sus datos, desde las más simples hasta las más complejas.

18
Bibliografía
Juste, R. P. (2012). En E. a. sociales. Creative Commons.

Raudenbush, S. W. (2001). Aplicaciones y métodos de análisis de datos. En S.


W. Raudenbush, Modelos lineales jerárquicos.

Rpubs,com. (24 de 06 de 2018). by Rstudio. Obtenido de


https://rpubs.com/revite19/717614

Statiscal Discovery. (2024). jmp.com. Obtenido de


https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-
correlation.html

Univercidad tecnologica de panama . (24 de 08 de 2016). estadistica1utp.


Obtenido de
https://estadistica1utp.wordpress.com/2016/10/24/regresion-curvilinea/

Agresti, A. (2007). An Introduction to Categorical Data Analysis. Wiley.


Siegel, S., & Castellan, N. J. (1988). Nonparametric Statistics for the
Behavioral Sciences. McGraw-Hill.
Field, A. (2013). Discovering Statistics Using IBM SPSS Statistics. SAGE
Publications.

19

También podría gustarte