Descriptiva Reg Lineal V Aleatoria

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

ORGANIZACIÓN DE DATOS

“Puede que ordenar tu habitación no te ayude a encontrar tus llaves, pero quizás te de información de
dónde pueden estar”
ORDEN.
• En general, el orden es de una
utilidad enorme en la búsqueda y
análisis de información.
• En una habitación ordenada
sabes en qué lugar está cada
cosa.
• En una serie difícil de
entender, el orden de
episodios puede marcar la
diferencia entre entender todo
y no entender nada.
• En el análisis de datos, una
organización ordenada es
esencial.
• Para organizar datos…
DISTRIBUCI
ÓN DE
FRECUENCI
AS.
So…¿cómo organizo los • Pero también hay gráficos, de variados tipos y
datos de forma ordenada? colores.
Pero antes…
• ¿Qué es una variable?
• Característica.

• Escalas de medición
• Nominal (ej.: equipo deportivo
preferido)
• Ordinal (ej.: estatus socioeconómico)
• Intervalos (ej.: temperatura)
• Razón (ej.: longitud)

• Clasificación de variables.
• Cualitativa (Cualidades)
• Cuantitativa (Cantidades)
• Discreta (ej. n° de hijos e hijas)
• Contínua (ej. masa)
Como les iba diciendo…
DISTRIBUCIÓN DE FRECUENCIAS:
• Tabla de frecuencias para 𝑛 datos.

Categorías (o valores) Frecuencia Absoluta (𝒇) Frecuencia Relativa (𝒇𝒓 ) Frecuencia Relativa
de la variable. 𝒇𝒊 Porcentual (𝒇𝒓%)
𝒇𝒓𝒊 =
𝒏
𝐶1 𝑓1 𝑓𝑟 1 𝑓𝑟%1
𝐶2 𝑓2 𝑓𝑟 2 𝑓𝑟% 2
𝐶3 𝑓3 𝑓𝑟 3 𝑓𝑟% 3
⋮ ⋮ ⋮ ⋮
𝐶𝑘 𝑓𝑘 𝑓𝑟 𝑘 𝑓𝑟% 𝑘

Total 𝑛 1 100%
Color de Conteo Frecuencia Frecuencia Frecuencia
preferencia Absoluta (𝒇) Relativa (𝒇𝒓 ) Relativa
Porcentual (𝒇𝒓%)

Blanco

Azul

Otro

Total
“BRO, ME MAREA TANTO NÚMERO ”
• Gráficos para variables cualitativas:

Barras Torta
• Gráficos para variables cuantitativas.
Intervalo Frecuencia Frec. Frec. rel. Frec. abs. Frec. rel.
absoluta relativa porcent. acumulada porc.
Acum.
[2,5 − 3,25[ 5 5/40 12,5%
[3,25 − 4,0[ 4 4/40 10%
[4,0 − 4,75[ 7 7/40 17,5%
[4,75 − 5,5[ 7 7/40 17,5%
[5,5 − 6,25[ 6 6/40 15%
[6,25 − 7,0] 11 11/40 27,5%
Total 40 1 100%
¿CÓMO SE CONSTRUYE?
Considere:
a) Pocos no, pero tampoco exageres…
b) Distribución monomodal…or else.

1. Determinar el rango de los datos.


2. Determinar el número de intervalos.
3. Determinar la amplitud de los intervalos.
4. Determinar los extremos de los intervalos
5. Construir la tabla y el gráfico
TENDENCIA CENTRAL Y
VARIABILIDAD.
• Existen dos medidas de interés para cualquier conjunto de
datos: la localización de su centro y su variabilidad.
• La tendencia central de los datos es la disposición de los
mismos a agruparse ya sea alrededor de su centro o de
ciertos valores numéricos.
• La variabilidad de un conjunto de datos corresponde a la
dispersión de los datos del conjunto.
MEDIDAS DE TENDENCIA CENTRAL Y
POSICIÓN.
• Media aritmética: El viejo promedio, nada le gana.* Si se tiene el conjunto de observaciones
𝑥1 , 𝑥2 , … , 𝑥𝑛 :
σ𝑛𝑖=1 𝑥𝑖
𝑥ҧ =
𝑛
Generalizado a datos agrupados:
σ𝑛𝑖=1 𝑓𝑖 ⋅ 𝑥𝑖 σ𝑛𝑖=1 𝑓𝑖 ⋅ 𝑀𝐶𝑖
𝑥ҧ = ó 𝑥ҧ =
𝑛 𝑛

(*): La verdad, lo que sí le gana al promedio es el hecho de que todos los valores del conjunto
pesan, por lo que valores extremos hacen que el promedio se desproporcione.
• Moda: Tampoco hay mucho misterio aquí, es literalmente el(los) dato(s) que más se repite(n)
de un conjunto o, más bien, el(los) dato(s) con la mayor frecuencia absoluta.
• Supongamos que nuestros datos son 1, 2, 2, 3, 3, 3, 3, 4 y 5. La moda sería 3.
• Nada impide que el conjunto de datos sea multimodal.
• ¿Datos agrupados? No problemo.
𝑓𝑀𝑜 − 𝑓𝑀𝑜−1
𝑀𝑜 = 𝐿𝑀𝑜 + ⋅𝐴
𝑓𝑀𝑜 − 𝑓𝑀𝑜−1 + 𝑓𝑀𝑜 − 𝑓𝑀𝑜+1

Donde 𝐿𝑀𝑜 es el límite inferior del intervalo donde se halla la moda, 𝑓𝑀𝑜
es la frecuencia del intervalo de la moda, 𝑓𝑀𝑜−1 es la frecuencia del
intervalo anterior al de la moda (𝑓𝑀𝑜+1 es la del intervalo siguiente), y 𝐴
es la amplitud del intervalo.
• Mediana: No hay mucho misterio aquí, es literalmente el dato intermedio de un conjunto
ordenado de menor a mayor.
• Supongamos que nuestros datos son 1, 2, 3, 4 y 5. La mediana sería 3.
• ¿Y si fuesen 1, 2, 3, 4, 5, 6? Lo mismo, el intermedio…pero en este caso entre 3 y 4 (promedio), es
decir 3,5.
• ¿Datos agrupados? No problemo.
𝑛
− 𝐹𝑀𝑒−1
𝑀𝑒 = 𝐿𝑀𝑒 + 2 ⋅𝐴
𝑓𝑀𝑒

Donde 𝐿𝑀𝑒 es el límite inferior del intervalo donde se halla la mediana,


𝐹𝑀𝑒−1 es la frecuencia acumulada hasta el intervalo anterior al de la
mediana, 𝑓𝑀𝑒 es la frecuencia del intervalo de la mediana y 𝐴 es la
amplitud del intervalo
• Not only u can get the median, u also can get:

• Cuartiles (en realidad pueden obtener cualquier percentil, la idea de fondo es la misma):
𝑖⋅𝑛
− 𝐹𝑄𝑖 −1
𝑄𝑖 = 𝐿𝑄𝑖 + 4 ⋅𝐴
𝑓𝑄𝑖

𝑖⋅𝑛
− 𝐹𝑃𝑖 −1
𝑃𝑖 = 𝐿𝑃𝑖 + 100 ⋅𝐴
𝑓𝑃𝑖

Cabe destacar que 𝑄2 = 𝑀𝑒


¿Y los percentiles para qué?

• Diagrama de “caja y bigotes”


MEDIDAS DE DISPERSIÓN.
• Varianza: ¿cuán dispersos son los datos?
𝑛 2
2
σ 𝑖=1 𝑥𝑖 − 𝑥ҧ
𝜎 =
𝑛
Si se trabaja con una población grande de la cual se toma una muestra, la varianza muestral es:
σ𝑛 2 σ𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑥ҧ 2
𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠2 = =
𝑛−1 𝑛−1
¿Datos agrupados?
σ𝑛 2 σ𝑛 2
2 𝑖=1 𝑓𝑖 ⋅ 𝑥𝑖 − 𝑥ҧ 2 𝑖=1 𝑓𝑖 ⋅ 𝑀𝐶𝑖 − 𝑥ҧ
𝑠 = ó 𝑠 =
𝑛−1 𝑛−1
• Desviación estándar: ¿cuán desparramados están los datos en torno a la media (𝑥)?
ҧ

σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2
𝜎= 𝜎2 =
𝑛
• Coeficiente de Variación (𝐶𝑉): Útil para comparar homogeneidad en determinadas muestras.

𝜎𝑥
𝐶𝑉 =
𝑥ҧ

Generalmente:
 Alto coeficiente de variación indica heterogeneidad en la muestra.
 Bajo coeficiente de variación indica homogeneidad en la muestra.
REGRESIÓN LINEAL SIMPLE
• La regresión lineal simple de 𝑌 con respecto a 𝑋 consiste en modelar la relación empírica de un conjunto
de datos asociados 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 utilizando el modelo de la forma

𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 𝑖 = 1,2, … , 𝑛

Estimadores de mínimos cuadrados de


𝛽0 𝑦 𝛽1 :
𝛽෠0 = 𝑦ത − 𝛽෠1 𝑥ҧ
𝑛 ത 𝑦𝑖 − 𝑦 ഥ

σ𝑖=1 𝑥𝑖 − 𝑥 𝐶𝑜𝑣(𝑋, 𝑌)
𝛽1 = =
σ𝑛𝑖=1 𝑥𝑖 − 𝑥ത 2 𝑉𝑎𝑟(𝑋)

Recta de regresión estimada:

෡𝑖 = 𝛽መ0 + 𝛽መ1 𝑥𝑖
𝑌
VARIABLE ALEATORIA Y DISTRIBUCIÓN DE
PROBABILIDAD.
• Una variable aleatoria es una función definida sobre el espacio muestral Ω, de tal manera que a
cada elemento 𝜔 ∈ Ω se le asocia el número real 𝑥 = 𝑋(𝜔)
• Ejemplo: El espacio muestral del experimento “lanzar una moneda 3 veces consecutivas” es
Ω = {𝑠𝑠𝑠, 𝑠𝑠𝑐, 𝑠𝑐𝑠, 𝑐𝑠𝑠, 𝑠𝑐𝑐, 𝑐𝑠𝑐, 𝑐𝑐𝑠, 𝑐𝑐𝑐}
(Evidentemente 𝑐 = 𝑐𝑎𝑟𝑎 y 𝑠 = 𝑠𝑒𝑙𝑙𝑜)
Si X se define en Ω como “el número de caras obtenidas”, entonces X es una variable aleatoria
cuyo recorrido es 𝑅𝑒𝑐𝑋 = {0, 1, 2, 3}, y su distribución de probabilidad es:
𝑿 𝑷(𝑿 = 𝒙)
0 (ninguna cara) 1
𝑃 𝑋=0 =
8
1 (una cara) 3
𝑃 𝑋=1 =
8

2 (dos caras) 3
𝑃 𝑋=2 =
8

3 (tres caras) 1
𝑃 𝑋=3 =
8

Total 1
• Se reparten 3 cajas: una sólo con manzanas, una sólo con naranjas y
otra con una mezcla de manzanas y naranjas. Cada caja está
rotulada pero ninguna caja tiene el rótulo que le corresponde.
¿Cómo puede saberse el contenido exacto de cada caja sacando sólo
una fruta de sólo una caja?

También podría gustarte