Teoría y Ejemplos Sección 3.3
Teoría y Ejemplos Sección 3.3
Teoría y Ejemplos Sección 3.3
Algunos estadísticos como Pearson, Fisher y Bowley, entre otros, han propuesto fórmulas para
obtener la medida numérica de que tan sesgados están los datos de una distribución.
En una distribución simétrica, la media, la mediana y la moda son iguales. Cuando los datos están
sesgados positivamente, la media por lo general será mayor que la mediana; cuando están
sesgados negativamente, la media será menor que la mediana.
Valor z
Además de las medidas de posición, variabilidad y forma, también interesa la posición relativa
de los valores dentro de un conjunto de datos.
Las medidas de posición relativa ayudan a determinar a qué distancia de la media está un
valor determinado.
Tome en cuenta que el valor de Z es adimensional, dado de los datos, la media y la desviación
estándar siempre tienen las mismas unidades y terminan eliminándose entre sí.
Z = (�_�−� )/�
si despejamos nos queda Zs = �_�−�
estándar siempre tienen las mismas unidades y terminan eliminándose entre sí.
Z = (�_�−� )/�
si despejamos nos queda Zs = �_�−�
Por ejemplo, si z1 =1.2 indicaría que X1 es 1.2 desviaciones estándar mayor que la media muestral.
De modo parecido, si Z 2= - 2.5 indicaría que X2 es 2.5 desviaciones estándar menor que la media
muestral.
Un valor z mayor que cero ocurre para observaciones con un valor mayor que la media, y un
valor z menor que cero ocurre para observaciones con un valor menor que la media.
En conclusión:
El valor z para cualquier observación puede interpretarse como una medida de la posición
relativa de la observación en un conjunto de datos.
Por tanto, se dice que las observaciones de dos conjuntos de datos diferentes con el mismo valor z
tienen la misma posición relativa en términos de que presentan igual número de desviaciones
estándar de la media.
El valor z de -1.50 de la quinta observación indica que ésta es la más alejada de la media: está
1.50 desviaciones estándar por debajo de la media.
El valor z de -1.50 de la quinta observación indica que ésta es la más alejada de la media: está
1.50 desviaciones estándar por debajo de la media.
Teorema de Chebyshev
El teorema de Chebyshev permite hacer afirmaciones acerca de la proporción de los valores de
datos que deben estar dentro de un número específico de desviaciones estándar de la media.
TEOREMA DE CHEBYSHEV
Por lo menos (1 - �/�^� )x 100 % de los valores de datos debe estar dentro de z
desviaciones estándar de la media, donde Z es cualquier valor mayor que 1.
• Si Por lo menos 0.75, o 75%, de los datos debe estar dentro de z = 2 desviaciones estándar
de la media.
• Al menos 0.89, u 89%, de los datos debe estar dentro de z = 3 desviaciones estándar de
la media.
• Por lo menos 0.94, o 94%, de los datos debe estar dentro de z = 4 desviaciones estándar
de la media.
Ejemplo:
Como ejemplo del uso del teorema de Chebyshev, suponga que las calificaciones obtenidas en
los exámenes parciales por 100 estudiantes universitarios en un curso de estadística para negocios
tenían una media de 70 y una desviación estándar de 5.
Si las calificaciones de los exámenes están entre 58 y 82, observe que según la fórmula
Si las calificaciones de los exámenes están entre 58 y 82, observe que según la fórmula
Una de las ventajas del teorema de Chebyshev estriba en que se aplica a cualquier conjunto
de datos sin importar su forma de distribución. De hecho, podría usarse con cualquiera de las
distribuciones de la figura 3.3. Sin embargo, en muchas aplicaciones prácticas los conjuntos de
datos exhiben una distribución simétrica con forma de pila o de campana, como se aprecia en
la figura 3.4.
Cuando se piensa que los datos se aproximan a esta distribución, la regla empírica
se usa para determinar el porcentaje de valores de datos que deben estar dentro de un número
específico de desviaciones estándar de la media.
REGLA EMPÍRICA
Cuando los datos tienen una distribución en forma de campana:
Cuando se piensa que los datos se aproximan a esta distribución, la regla empírica
se usa para determinar el porcentaje de valores de datos que deben estar dentro de un número
específico de desviaciones estándar de la media.
REGLA EMPÍRICA
Cuando los datos tienen una distribución en forma de campana:
• Casi todos los valores de datos (99.7%) deben estar dentro de tres desviaciones
estándar de la media.
Ejemplo :
• Aproximadamente 68% de los envases llenos pesará entre 15.75 y 16.25 onzas (dentro
de una desviación estándar de la media), porque
• Aproximadamente 95% de los envases llenos pesará entre 15.50 y 16.50 onzas (dentro
de dos desviaciones estándar de la media), porque
• Casi todos los envases llenos (99.7%) pesarán entre 15.25 y 16.75 onzas (dentro de tres
desviaciones estándar de la media), porque
Un conjunto de datos a veces tiene una o más observaciones con valores inusualmente
grandes o sumamente pequeños. Estos valores extremos se llaman observaciones atípicas.
Por lo tanto, es una buena idea buscar observaciones atípicas antes de tomar decisiones
basadas en el análisis de datos.
NOTAS Y COMENTARIOS
Por ejemplo, la regla empírica permite afirmar que aproximadamente 95% de los valores de
datos estará dentro de dos desviaciones estándar de la media;
Asignación (tarea)
Resolver los problemas 31 de la página 107-108
y 35 de la página 109 (usar archivo de datos "Speakers")
WEB archivo
Speakers
fica de la forma de
ción es el sesgo.
simetría.
muestras, en donde
tamaño N, con
σ
ando los datos están
uando están
posición relativa
la media está un
relativa de
ar.
ue xi se encuentra de
media y la desviación
tre sí.
tre sí.
n respecto a �
r que la media, y un
e la media.
a.
ida de la posición
media: está
media: está
ón de los valores de
ndar de la media.
entro de z
1.
= 2, 3 y 4
ones estándar
tándar de
es estándar
ones obtenidas en
dística para negocios
enes?
la fórmula
r encima de la
enes?
la fórmula
r encima de la
jo de la media)
6%
btener
quier conjunto
ualquiera de las
s los conjuntos de
mo se aprecia en
pírica
ro de un número
pírica
ro de un número
una desviación
dos desviaciones
s desviaciones
nzas, se utiliza la
zas (dentro
zas (dentro
entro de tres
sualmente
ones atípicas.
lor de datos
onjunto de
decisiones
omputadora.
be
iliza para
úmero de
decir más.
los valores de
varias
alores de datos
ficar la validez
centiles y
centiles y
tándar y
media de 30 y una
los datos que Z = (𝑋_𝑖−𝑋 ̅)/�
Teorema de chebyshev
(1 - 𝟏/𝒁^� )x
100 % con Z>1
akers")