Presentacion EIE 217 3
Presentacion EIE 217 3
Presentacion EIE 217 3
Bibliografı́a
Fechas de Evaluaciones y Ponderaciones
Estadı́stica Descriptiva
Probabilidad y Estadı́stica
EST-217-3
Instituto de Estadı́sticas
Pontificia Universidad Católica de Valparaı́so
Programa
Estadı́stca descriptiva
Regresión lineal simple
Introducción a la probabilidad
Variables aleatorias univariadas
Distribuciones de probabilidad
Inferencia estadı́stica
Bibliografı́a
Consideraciones
Estadı́stica descriptiva
¿Qué es la estadı́stica?
La Estadı́stica
¿Qué es la estadı́stica?
Definiciones
Tipos de Variables
Tipos de Variables
Actividad
Actividad
Conteste las siguientes preguntas para luego analizar los datos y las
variables.
Análisis de datos
Proporción
En estadı́stica una proporción puede definirse como la relación entre casos
favorables o casos que cumplen con la cualidad, con casos totales.
n
X
xi
i=1
(1)
n
Donde xi puede definirse como: 1 si el elemento tiene o cumple con la
condición y 0 si el elemento no cumple con la condición.
Tablas
Cuando hay gran número de datos es conveniente resumirlos en una tabla,
la cual debe llevar tı́tulo, fecha, fuente, etc.
Gráfico de barra
El gráfico de barra sirve para mostrar como se distribuye una variable
cualitativa, especialmente cuando ésta tiene muchas categorı́as o niveles.
También es de gran uso para mostrar la distribución de las variables
cualitativas ordinales.
Gráfico circular
El gráfico circular sirve para mostrar el comportamiento de una variable
cualitativa, especialmente cuando ésta tiene pocas categorı́as o niveles.
Nivel de motivación f fr % F Fr %
Nunca 4
Casi nunca 8
A veces 13
Casi siempre 9
Siempre 1
Total 35
Nivel de motivación f fr % F Fr %
Nunca 4 11,4 % 4 11,4 %
Casi nunca 8 22,9 % 12 34,3 %
A veces 13 37,1 % 25 71,4 %
Casi siempre 9 25,7 % 34 97,1 %
Siempre 1 2,9 % 35 100,0 %
Total 35 100,0 %
Tablas de frecuencia
Al igual que el análisis de las variables cualitativas, utilizaremos tablas de
frecuencia para estudiar cómo es la distribución de la variable en estudio.
Sea X: Altura en metros de los estudiantes del curso EST-217-3
Distribución de frecuencias
Actividad
Complete la tabla de frecuencia y conteste las preguntas:
Sea X: Altura en metros de los estudiantes del curso EST-159-1
Lı́m aparentes Lı́m reales f fr % F Fr % Marca de clase
1,58 - 1,62 1,575 - 1,625 1
1,63 - 1,67 1,625 - 1,675 6
1,68 - 1,72 1,675 - 1,725 8
1,73 - 1,77 1,725 - 1,775 11
1,78 - 1,82 1,775 - 1,825 6
1,83 - 1,87 1,825 - 1,875 3
Actividad
Sea X: Altura en metros de los estudiantes del curso EST-217-3
Gráficos
Histograma
Gráficos
Polı́gono de frecuencias
Gráficos
Ojiva
clase 3
Media Aritmética
La media aritmética o promedio se define como el cociente de la suma de
todos los valores y el número total de valores. En estadı́stica, un promedio
es una medida de tendencia central para un conjunto de valores.
N
X
xi
i=1
µ=
N
n
X
xi
i=1
x=
n
Media Aritmética
Las fórmulas para la media de la población y de la muestra para datos
agrupados son:
k
X
mi fi
i=1
µ=
N
k
X
mi fi
i=1
x=
n
Media Aritmética
Media ponderada: Suponga que los datos x1 , .., xn tienen pesos q1 , .., qn ,
respectivamente.
N
X
xi q i
i=1
µ= N
X
qi
i=1
n
X
xi qi
i=1
x= n
X
qi
i=1
Media Aritmética
Algunas propiedades
Si a los datos de la variable le sumamos una constante k, es decir,
yi = xi + k, con i = 1, 2, ..., n, entonces y = x + k
Si a los datos de la variable le multiplicamos una constante k, es decir,
yi = xi × k, con i = 1, 2, ..., n, entonces y = x × k
Media Aritmética
El promedio es sensible a valores extremos.
El promedio es un buen referente para saber el comportamiento de la
población, siempre y cuando los datos tengan un comportamiento
simétrico.
En el caso de que los datos tengan un comportamiento asimétrico, es
mejor utilizar otra medida descriptiva.
Mediana
La mediana es el valor de la variable tal que el 50 % de los datos son
menores o iguales a la mediana y el otro 50 % mayores o iguales a la
mediana.
Cuando los datos están a granel (sin tabla) se deben ordenar de mayor a
menor para determinar la mediana.
Si n es impar, la mediana ocupa el centro:
M e = X( n+1 )
2
Mediana
Si los datos se presentan en una tabla con k clases, el valor de la mediana es
el valor de la variable donde por primera vez la frecuencia acumulada es
mayor o igual al 50 %.
n l
M e = Li + ( − Fi−1 ) ∗
2 f
Moda
Es una medida de tendencia central, que está dada por el valor que mayor
frecuencia presenta.
Cuando dos valores no adyacentes tienen frecuencias similares, se dice que
la distribución es bimodal.
Actividad
Calcule la media y mediana de la variable X: Altura en metros de los
estudiantes del curso EST-217-3, usando la siguiente tabla de frecuencia:
Cuantiles
Cuantiles
Los cuantiles son medidas de posición que dividen los datos en grupos bajo
los cuales se encuentran una determinada proporción acumulada de éstos.
Cuartiles: Qi = X i(n+1) i = 1, 2, 3, 4
4
Quintiles: Ki = X i(n+1) i = 1, 2, 3, 4, 5
5
Deciles: Di = X i(n+1) i = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
10
Cuantiles
Rango intercuartil
IQR = Q3 − Q1 (2)
Cuantiles
Cuantiles
Actividad
Usando los datos de la tabla correspondiente a la clase anterior, responda lo
siguiente:
Si estuvieramos en cleses presenciales, el 25 % de los alumnos más
bajos deberı́an sentarse en las dos primeras corridas de asientos.
¿Hasta qué altura estos alumnos deben senterse en estos puestos?
El 30 % de los alumnos más altos deberı́an sentarse en las dos últimas
corridas de asientos. ¿Cuál es la altura mı́nima correspondiente a este
grupo de alumnos?
Siguiendo otra regla, los alumnos que midan a lo más 1.70 mts, deben
sentarse en las tres primeras filas ¿Cuál es el porcentaje
correspondiente a este grupo?
Boxplot
Medidas de dispersión
Rango
El rango es una medida de dispersión que se define como el dato máximo
menos el dato mı́nimo, el rango mide la máxima variación en los datos:
Rango = M ax − M in
Medidas de dispersión
Varianza
La varianza es una medida de dispersión que sirve para cuantificar la
variabilidad de los datos en torno a la media.
La varianza es un indicador en unidades al cuadrado.
n
X
n
X
(xi − x)2 X n
xi )2
(
i=1 1 i=1
s2 = x2i −
= (3)
(n − 1) (n − 1) i=1
n
k
X
k
X
fi (mi − x)2 X k
fi mi )2
(
i=1 1 i=1
s2 = fi m2i −
= (4)
(n − 1) (n − 1)
i=1 n
Medidas de dispersión
Desviación estándar
√
s = + s2
Se utiliza con mayor frecuencia la desviación estándar, que es raı́z cuadrada
de la varianza, ya que está expresada en igual unidad de medida que los
datos originales.
Medidas de dispersión
Coeficiente de simetrı́a
Mide el grado de simetrı́a de los valores de la muestra con respecto a la
media muestra, es decir, cuantos valores de la muestra están por encima o
por debajo de la media y cómo de alejados de esta.
k
X
f ri (mi − x)3
i=1
g1 = (5)
S3
clase 6
n
X n
X
n n
xi yi
X X i=1 i=1
(xi − x)(yi − y) xi yi −
i=1 i=1
n
cov(x, y) = = (6)
n−1 n−1
Figura: Correlación
cov(x, y) cov(x, y)
corr(x, y) = ρxy = rxy = p =
Sx2 Sy2 Sx Sy
clase 7
yi = β0 + β1 xi + εi
Donde:
εi ∼ N (0, σ 2 )iid
yi = β0 + β1 xi + εi
Donde:
εi ∼ N (0, σ 2 )iid
n
X n
X
mı́n SCE = ε2i = mı́n (yi − β0 − β1 xi )2 (7)
i=1 i=1
n
X n
X
mı́n SCE = ε2i = mı́n (yi − β0 − β1 xi )2 (7)
i=1 i=1
Estimación de β0
∂SCE
=0
∂β0
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
n
X n
X n
X
yi − βˆ0 − βˆ1 xi = 0
i=1 i=1 i=1
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
n
X n
X n
X
yi − βˆ0 − βˆ1 xi = 0
i=1 i=1 i=1
Xn Xn
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
n
X n
X n
X
yi − βˆ0 − βˆ1 xi = 0
i=1 i=1 i=1
Xn Xn
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1
n
X n
X
yi xi
i=1 i=1
β̂0 = − βˆ1
n n
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
n
X n
X n
X
yi − βˆ0 − βˆ1 xi = 0
i=1 i=1 i=1
Xn Xn
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1
n
X n
X
yi xi
i=1 i=1
β̂0 = − βˆ1
n n
β̂0 = y − β̂1 x
Estimación de β0
∂SCE
=0
∂β0
n
!
X
2 (yi − β0 − β1 xi ) (−1) = 0
i=1
n
X n
X n
X
yi − βˆ0 − βˆ1 xi = 0
i=1 i=1 i=1
Xn Xn
yi − nβˆ0 − βˆ1 xi = 0
i=1 i=1
n
X n
X
yi xi
i=1 i=1
β̂0 = − βˆ1
n n
β̂0 = y − β̂1 x
n n n
!2
X X X
n
xi yi xi n
X i=1 i=1 i=1
X
xi yi − + β̂1 − βˆ1 x2i = 0
i=1
n n i=1
n n n
!2
X X X
n
xi yi xi n
X i=1 i=1 i=1
X
xi yi − + β̂1 − βˆ1 x2i = 0
i=1
n n i=1
Coeficiente de determinación R2
El coeficiente de determinación sirve para ver la calidad del modelo o
qué tan bien se ajustaron los datos a la recta de regresión.
Coeficiente de determinación R2
El coeficiente de determinación sirve para ver la calidad del modelo o
qué tan bien se ajustaron los datos a la recta de regresión.
Explica el porcentaje de variabilidad de la variable respuesta (y)
explicado por la ecuación de regresión.
Coeficiente de determinación R2
El coeficiente de determinación sirve para ver la calidad del modelo o
qué tan bien se ajustaron los datos a la recta de regresión.
Explica el porcentaje de variabilidad de la variable respuesta (y)
explicado por la ecuación de regresión.
Los valores del coeficiente de determinación oscilan entre 0 y 1 o entre
0 % y 100 %.
Coeficiente de determinación R2
El coeficiente de determinación sirve para ver la calidad del modelo o
qué tan bien se ajustaron los datos a la recta de regresión.
Explica el porcentaje de variabilidad de la variable respuesta (y)
explicado por la ecuación de regresión.
Los valores del coeficiente de determinación oscilan entre 0 y 1 o entre
0 % y 100 %.
Entre más cercano a 1 es el coeficiente de determinación, mejor es el
modelo propuesto.
R2 = ρ2xy
Coeficiente de determinación R2
El coeficiente de determinación sirve para ver la calidad del modelo o
qué tan bien se ajustaron los datos a la recta de regresión.
Explica el porcentaje de variabilidad de la variable respuesta (y)
explicado por la ecuación de regresión.
Los valores del coeficiente de determinación oscilan entre 0 y 1 o entre
0 % y 100 %.
Entre más cercano a 1 es el coeficiente de determinación, mejor es el
modelo propuesto.
R2 = ρ2xy
que una familia de la V región tuvo desde febrero de 2020 hasta febrero de 2021.
función al consumo de energı́a eléctrica, cálculo de la correlación, calidad del modelo y predicción de
algún valor.