Descriptiva Reg Lineal V Aleatoria
Descriptiva Reg Lineal V Aleatoria
Descriptiva Reg Lineal V Aleatoria
“Puede que ordenar tu habitación no te ayude a encontrar tus llaves, pero quizás te de información de
dónde pueden estar”
ORDEN.
• En general, el orden es de una
utilidad enorme en la búsqueda y
análisis de información.
• En una habitación ordenada
sabes en qué lugar está cada
cosa.
• En una serie difícil de
entender, el orden de
episodios puede marcar la
diferencia entre entender todo
y no entender nada.
• En el análisis de datos, una
organización ordenada es
esencial.
• Para organizar datos…
DISTRIBUCI
ÓN DE
FRECUENCI
AS.
So…¿cómo organizo los • Pero también hay gráficos, de variados tipos y
datos de forma ordenada? colores.
Pero antes…
• ¿Qué es una variable?
• Característica.
• Escalas de medición
• Nominal (ej.: equipo deportivo
preferido)
• Ordinal (ej.: estatus socioeconómico)
• Intervalos (ej.: temperatura)
• Razón (ej.: longitud)
• Clasificación de variables.
• Cualitativa (Cualidades)
• Cuantitativa (Cantidades)
• Discreta (ej. n° de hijos e hijas)
• Contínua (ej. masa)
Como les iba diciendo…
DISTRIBUCIÓN DE FRECUENCIAS:
• Tabla de frecuencias para 𝑛 datos.
Categorías (o valores) Frecuencia Absoluta (𝒇) Frecuencia Relativa (𝒇𝒓 ) Frecuencia Relativa
de la variable. 𝒇𝒊 Porcentual (𝒇𝒓%)
𝒇𝒓𝒊 =
𝒏
𝐶1 𝑓1 𝑓𝑟 1 𝑓𝑟%1
𝐶2 𝑓2 𝑓𝑟 2 𝑓𝑟% 2
𝐶3 𝑓3 𝑓𝑟 3 𝑓𝑟% 3
⋮ ⋮ ⋮ ⋮
𝐶𝑘 𝑓𝑘 𝑓𝑟 𝑘 𝑓𝑟% 𝑘
Total 𝑛 1 100%
Color de Conteo Frecuencia Frecuencia Frecuencia
preferencia Absoluta (𝒇) Relativa (𝒇𝒓 ) Relativa
Porcentual (𝒇𝒓%)
Blanco
Azul
Otro
Total
“BRO, ME MAREA TANTO NÚMERO ”
• Gráficos para variables cualitativas:
Barras Torta
• Gráficos para variables cuantitativas.
Intervalo Frecuencia Frec. Frec. rel. Frec. abs. Frec. rel.
absoluta relativa porcent. acumulada porc.
Acum.
[2,5 − 3,25[ 5 5/40 12,5%
[3,25 − 4,0[ 4 4/40 10%
[4,0 − 4,75[ 7 7/40 17,5%
[4,75 − 5,5[ 7 7/40 17,5%
[5,5 − 6,25[ 6 6/40 15%
[6,25 − 7,0] 11 11/40 27,5%
Total 40 1 100%
¿CÓMO SE CONSTRUYE?
Considere:
a) Pocos no, pero tampoco exageres…
b) Distribución monomodal…or else.
(*): La verdad, lo que sí le gana al promedio es el hecho de que todos los valores del conjunto
pesan, por lo que valores extremos hacen que el promedio se desproporcione.
• Moda: Tampoco hay mucho misterio aquí, es literalmente el(los) dato(s) que más se repite(n)
de un conjunto o, más bien, el(los) dato(s) con la mayor frecuencia absoluta.
• Supongamos que nuestros datos son 1, 2, 2, 3, 3, 3, 3, 4 y 5. La moda sería 3.
• Nada impide que el conjunto de datos sea multimodal.
• ¿Datos agrupados? No problemo.
𝑓𝑀𝑜 − 𝑓𝑀𝑜−1
𝑀𝑜 = 𝐿𝑀𝑜 + ⋅𝐴
𝑓𝑀𝑜 − 𝑓𝑀𝑜−1 + 𝑓𝑀𝑜 − 𝑓𝑀𝑜+1
Donde 𝐿𝑀𝑜 es el límite inferior del intervalo donde se halla la moda, 𝑓𝑀𝑜
es la frecuencia del intervalo de la moda, 𝑓𝑀𝑜−1 es la frecuencia del
intervalo anterior al de la moda (𝑓𝑀𝑜+1 es la del intervalo siguiente), y 𝐴
es la amplitud del intervalo.
• Mediana: No hay mucho misterio aquí, es literalmente el dato intermedio de un conjunto
ordenado de menor a mayor.
• Supongamos que nuestros datos son 1, 2, 3, 4 y 5. La mediana sería 3.
• ¿Y si fuesen 1, 2, 3, 4, 5, 6? Lo mismo, el intermedio…pero en este caso entre 3 y 4 (promedio), es
decir 3,5.
• ¿Datos agrupados? No problemo.
𝑛
− 𝐹𝑀𝑒−1
𝑀𝑒 = 𝐿𝑀𝑒 + 2 ⋅𝐴
𝑓𝑀𝑒
• Cuartiles (en realidad pueden obtener cualquier percentil, la idea de fondo es la misma):
𝑖⋅𝑛
− 𝐹𝑄𝑖 −1
𝑄𝑖 = 𝐿𝑄𝑖 + 4 ⋅𝐴
𝑓𝑄𝑖
𝑖⋅𝑛
− 𝐹𝑃𝑖 −1
𝑃𝑖 = 𝐿𝑃𝑖 + 100 ⋅𝐴
𝑓𝑃𝑖
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
𝜎= 𝜎2 =
𝑛
• Coeficiente de Variación (𝐶𝑉): Útil para comparar homogeneidad en determinadas muestras.
𝜎𝑥
𝐶𝑉 =
𝑥ҧ
Generalmente:
Alto coeficiente de variación indica heterogeneidad en la muestra.
Bajo coeficiente de variación indica homogeneidad en la muestra.
REGRESIÓN LINEAL SIMPLE
• La regresión lineal simple de 𝑌 con respecto a 𝑋 consiste en modelar la relación empírica de un conjunto
de datos asociados 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 utilizando el modelo de la forma
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 𝑖 = 1,2, … , 𝑛
𝑖 = 𝛽መ0 + 𝛽መ1 𝑥𝑖
𝑌
VARIABLE ALEATORIA Y DISTRIBUCIÓN DE
PROBABILIDAD.
• Una variable aleatoria es una función definida sobre el espacio muestral Ω, de tal manera que a
cada elemento 𝜔 ∈ Ω se le asocia el número real 𝑥 = 𝑋(𝜔)
• Ejemplo: El espacio muestral del experimento “lanzar una moneda 3 veces consecutivas” es
Ω = {𝑠𝑠𝑠, 𝑠𝑠𝑐, 𝑠𝑐𝑠, 𝑐𝑠𝑠, 𝑠𝑐𝑐, 𝑐𝑠𝑐, 𝑐𝑐𝑠, 𝑐𝑐𝑐}
(Evidentemente 𝑐 = 𝑐𝑎𝑟𝑎 y 𝑠 = 𝑠𝑒𝑙𝑙𝑜)
Si X se define en Ω como “el número de caras obtenidas”, entonces X es una variable aleatoria
cuyo recorrido es 𝑅𝑒𝑐𝑋 = {0, 1, 2, 3}, y su distribución de probabilidad es:
𝑿 𝑷(𝑿 = 𝒙)
0 (ninguna cara) 1
𝑃 𝑋=0 =
8
1 (una cara) 3
𝑃 𝑋=1 =
8
2 (dos caras) 3
𝑃 𝑋=2 =
8
3 (tres caras) 1
𝑃 𝑋=3 =
8
Total 1
• Se reparten 3 cajas: una sólo con manzanas, una sólo con naranjas y
otra con una mezcla de manzanas y naranjas. Cada caja está
rotulada pero ninguna caja tiene el rótulo que le corresponde.
¿Cómo puede saberse el contenido exacto de cada caja sacando sólo
una fruta de sólo una caja?