Chebyshev

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

03Ander(081-140).

qxd 2/29/08 11:28 AM Page 100

100 Capítulo 3 Estadística descriptiva: medidas numéricas

denotan x1, x 2, . . . , xn. Suponga además que ya determinó la media muestral, que es x̄ y la des-
viación estándar muestral, que es s. Para cada valor xi existe otro valor llamado punto z. La ecua-
ción (3.9) permite calcular el punto z correspondiente a cada xi.

PUNTO z
xi  x̄
zi  (3.9)
s

donde

zi  punto z para xi
x̄  media muestral
s  desviación estándar muestral

Al punto z también se le suele llamar valor estandarizado. El punto zi puede ser interpretado
como el número de desviaciones estándar a las que xi se encuentra de la media x̄. Por ejemplo
si z1  1.2, esto indica que x1 es 1.2 desviaciones estándar mayor que la media muestral. De ma-
nera similar, z2  0.5 indica que x2 es 0.5 o 1/2 desviación estándar menor que la media mues-
tral. Puntos z mayores a cero corresponden a observaciones cuyo valor es mayor a la media, y
puntos z menores que cero corresponden a observaciones cuyo valor es menor a la media. Si
el punto z es cero, el valor de la observación correspondiente es igual a la media.
El punto z de cualquier observación se interpreta como una medida relativa de la localiza-
ción de la observación en el conjunto de datos. Por tanto, observaciones de dos conjuntos de da-
tos distintos que tengan el mismo punto z tienen la misma localización relativa; es decir, se
encuentran al mismo número de desviaciones estándar de la media.
En la tabla 3.5 se calculan los puntos z correspondientes a los tamaños de los grupos de es-
tudiantes. Recuerde que ya calculó la media muestral, x̄  44, y la desviación estándar muestral,
s  8. El punto z de la quinta observación, que es –1.50, indica que esta observación está más
alejada de la media; esta observación está 1.50 desviaciones estándar más abajo de la media.

Teorema de Chebyshev
El teorema de Chebyshev permite decir qué proporción de los valores que se tienen en los da-
tos debe estar dentro de un determinado número de desviaciones estándar de la media.

TABLA 3.5 PUNTOS z CORRESPONDIENTES A LOS DATOS DE LOS TAMAÑOS


DE LOS GRUPOS DE ESTUDIANTES

Número de Puntos z
Desviación respecto xi ⴚ x̄
estudiantes
en un grupo (xi)
de la media
(xi ⴚ x̄)
冢 s 冣
46 2 2/8  0.25
54 10 10/8  1.25
42 2 2/8  0.25
46 2 2/8  0.25
32 12 12/8  1.50
03Ander(081-140).qxd 2/29/08 11:28 AM Page 101

3.3 Medidas de la forma de la distribución, de la posición relativa y de la detección… 101

TEOREMA DE CHEBYSHEV
Por lo menos (1  1/z 2 ) de los valores que se tienen en los datos deben encontrarse dentro
de z desviaciones estándar de la media, donde z es cualquier valor mayor que 1.

De acuerdo con este teorema para z  2, 3 y 4 desviaciones estándar se tiene


• Por lo menos 0.75, o 75%, de los valores de los datos deben estar dentro de z  2 desvia-
ciones estándar de la media.
• Al menos 0.89, o 89%, de los valores deben estar dentro de z  3 desviaciones estándar
de la media.
• Por lo menos 0.94, o 94%, de los valores deben estar dentro de z  4 desviaciones están-
dar de la media.
Para dar un ejemplo del uso del teorema de Chebyshev, suponga que en las calificaciones ob-
tenidas por 100 estudiantes en un examen de estadística para la administración, la media es 70 y
la desviación estándar es 5. ¿Cuántos estudiantes obtuvieron puntuaciones entre 60 y 80?, ¿y
cuántos tuvieron puntuaciones entre 58 y 82?
En el caso de las puntuaciones entre 60 y 80 observe que 60 está dos desviaciones estándar
debajo de la media y que 80 está dos desviaciones estándar sobre la media. Mediante el teorema
de Chebyshev encuentre que por lo menos 0.75, o por lo menos 75%, de las observaciones de-
ben tener valores dentro de dos desviaciones estándar de la media. Así que por lo menos 75% de
los estudiantes deben haber tenido puntuaciones entre 60 y 80.
En el teorema de En el caso de las puntuaciones entre 58 y 82, se encuentra que (58  70)/5  2.4, por lo
Chebyshev se requiere que que 58 se encuentra 2.4 desviaciones estándar debajo de la media, y que (82  70)/5  2.4,
z  1, pero z no tiene que
ser entero.
entonces 82 se encuentra 2.4 desviaciones estándar sobre la media. Al aplicar el teorema de
Chebyshev con z  2.4, se tiene
1 1
1 1 0.826
z2 (2.4)2
Por lo menos 82.6% de los estudiantes deben tener puntuaciones entre 58 y 82.

Regla empírica
La regla empírica está Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, sin
basada en la distribución importar la forma de la distribución de los datos. En efecto se usa para cualquiera de las distri-
de probabilidad normal, la buciones de la figura 3.3. Sin embargo, en muchas aplicaciones prácticas los datos muestran una
cual se estudiará en el
capítulo 6. La distribución
distribución simétrica con forma de montaña o de campana como en la figura 3.4. Cuando se cree
normal se emplea mucho en que los datos tienen aproximadamente esta distribución, se puede emplear la regla empírica para
todo el libro determinar el porcentaje de los valores de los datos que deben encontrarse dentro de un determi-
nado número de desviaciones estándar de la media.

REGLA EMPÍRICA
Cuando los datos tienen una distribución en forma de campana:
• Cerca de 68% de los valores de los datos se encontrarán a no más de una desvia-
ción estándar desde la media.
• Aproximadamente 95% de los valores de los datos se encontrarán a no más de dos
desviaciones estándar desde la media.
• Casi todos los valores de los datos estarán a no más de tres desviaciones estándar de
la media.
03Ander(081-140).qxd 2/29/08 11:28 AM Page 102

102 Capítulo 3 Estadística descriptiva: medidas numéricas

FIGURA 3.4 DISTRIBUCIÓN EN FORMA DE MONTAÑA O DE CAMPANA

Por ejemplo, los envases con detergente líquido se llenan en forma automática en una línea
de producción. Los pesos de llenado suelen tener una distribución en forma de campana. Si el
peso medio de llenado es de 16 onzas y la desviación estándar de 0.25 onzas, la regla empírica
es aplicada para sacar las conclusiones siguientes:
• Aproximadamente 68% de los envases llenados pesarán entre 15.75 y 16.25 onzas (esta-
rán a no más de una desviación estándar de la media).
• Cerca de 95% de los envases llenados pesarán entre 15.50 y 16.50 onzas (estarán a no
más de dos desviaciones estándar de la media).
• Casi todos los envases llenados pesarán entre 15.25 y 16.75 onzas (estarán a no más de
tres desviaciones estándar de la media).

Detección de observaciones atípicas


Algunas veces un conjunto de datos tiene una o más observaciones cuyos valores son mucho más
grandes o mucho más pequeños que la mayoría de los datos. A estos valores extremos se les lla-
ma observaciones atípicas. Las personas que se dedican a la estadística y con experiencia en ella
toman medidas para identificar estas observaciones atípicas y después las revisan con cuidado.
Una observación extraña quizá sea el valor de un dato que se anotó de modo incorrecto. Si es así
puede corregirse antes de continuar con el análisis. Una observación atípica tal vez provenga,
también, de una observación que se incluyó indebidamente en el conjunto de datos; si es así se
puede eliminar. Por último, una observación atípica quizá es un dato con un valor inusual, ano-
tado correctamente y que sí pertenece al conjunto de datos. En tal caso debe conservarse.
Es conveniente determinar Para identificar las observaciones atípicas se emplean los valores estandarizados (puntos z). Re-
si hay observaciones cuerde que la regla empírica permite concluir que en los datos con una distribución en forma de
atípicas antes de tomar
campana, casi todos los valores se encuentran a no más de tres desviaciones estándar de la media.
decisiones con base en el
análisis de los datos. Al Por tanto, si usa los puntos z para identificar las observaciones atípicas, es recomendable conside-
escribir los datos o al rar cualquier dato cuyo punto z sea menor que 3 o mayor que 3 como una observación atípica.
ingresarlos en la Debe examinar la exactitud de tales valores y si en realidad pertenecen al conjunto de datos.
computadora suelen De regreso a los puntos z correspondientes a los datos de los tamaños de grupos de estudian-
cometerse errores. Las
tes de la tabla 3.5, la puntuación 1.50 indica que el tamaño del quinto grupo es el que se en-
observaciones atípicas no
necesariamente deben ser cuentra más alejado de la media. Sin embargo, este valor estandarizado queda completamente
eliminadas, pero sí debe dentro de los límites de 3 y 3. Por tanto, los puntos z no indican que haya observaciones atí-
verificarse su exactitud y picas en estos datos.
que sean adecuadas.
NOTAS Y COMENTARIOS

1. El teorema de Chebyshev es aplicable a cual- nar el número mínimo de los valores de los da-
quier conjunto de datos y se usa para determi- tos que estarán a no más de un determinado nú-
03Ander(081-140).qxd 2/29/08 11:28 AM Page 103

3.3 Medidas de la forma de la distribución, de la posición relativa y de la detección… 103

mero de desviaciones estándar de la media. Si 2. Antes de analizar un conjunto de datos, los es-
se sabe que los datos tienen forma de campana tadísticos suelen hacer diversas verificaciones
se puede decir más. Por ejemplo, la regla em- para confirmar la validez de los datos. En estu-
pírica permite decir que cerca de 95% de los dios grandes no es poco común que se cometan
valores de los datos estarán a no más de dos errores al anotar los datos o al ingresarlos en la
desviaciones estándar de la media. El teore- computadora. Identificar las observaciones atí-
ma de Chebyshev sólo permite concluir que picas es una herramienta usada para verificar la
por lo menos 75% de los valores de los datos validez de los datos.
estarán en ese intervalo.

Ejercicios
Métodos
25. Considere una muestra cuyos datos tienen los valores 10, 20, 12, 17 y 16. Calcule el punto z de
cada una de estas cinco observaciones.
26. Piense en una muestra en que la media es 500 y la desviación estándar es 100. ¿Cuáles son los
puntos z de los datos siguientes: 520, 650, 500, 450 y 280?
27. Considere una muestra en que la media es 30 y la desviación estándar es 5. Utilice el teorema de
Auto examen Chebyshev para determinar el porcentaje de los datos que se encuentra dentro de cada uno de los
rangos siguientes.
a. 20 a 40
b. 15 a 45
c. 22 a 38
d. 18 a 42
e. 12 a 48
28. Suponga datos que tienen una distribución en forma de campana cuya media es 30 y desviación
estándar 5. Utilice la regla empírica para determinar el porcentaje de los datos que se encuentra
dentro de cada uno de los rangos siguientes.
a. 20 a 40
b. 15 a 45
c. 25 a 35

Aplicaciones
29. En una encuesta nacional se encontró que los adultos duermen en promedio 6.9 horas por noche.
Auto examen Suponga que la desviación estándar es 1.2 horas.
a. Emplee el teorema de Chebyshev para hallar el porcentaje de individuos que duermen entre
4.5 y 9.3 horas.
b. Mediante el teorema de Chebyshev encuentre el porcentaje de individuos que duermen en-
tre 3.9 y 9.9 horas.
c. Suponga que el número de horas de sueño tiene una distribución en forma de campana. Use
la regla empírica para calcular el porcentaje de individuos que duermen entre 4.5 y 9.3 ho-
ras por día. Compare este resultado con el valor que obtuvo en el inciso a empleando este
resultado.
30. La Administración de Información de Energía informó que el precio medio del galón de gasoli-
na fue $2.30 (Energy Information Administration, 27 de febrero de 2006). Admita que la desvia-
ción estándar haya sido $0.10 y que el precio del galón de gasolina tenga una distribución en
forma de campana.
a. ¿Qué porcentaje de la gasolina se vendió entre $2.20 y $2.40 por galón?
b. ¿Qué porcentaje de la gasolina se vendió entre $2.20 y $2.50 por galón?
c. ¿Qué porcentaje de la gasolina se vendió a más de $2.50 por galón?
31. El promedio de los puntos obtenidos en una sección de un examen a nivel nacional fue 507. Si la
desviación estándar es aproximadamente 100, conteste las preguntas siguientes usando una dis-
tribución en forma de campana y la regla empírica.
03Ander(081-140).qxd 2/29/08 11:28 AM Page 104

104 Capítulo 3 Estadística descriptiva: medidas numéricas

a. ¿Qué porcentaje de los estudiantes obtuvo una puntuación superior a 607?


b. ¿Qué porcentaje de los estudiantes obtuvo una puntuación superior a 707?
c. ¿Qué porcentaje de los estudiantes obtuvo una puntuación entre 407 y 507?
d. ¿Qué porcentaje de los estudiantes obtuvo una puntuación entre 307 y 607?
32. En California los altos costos del mercado inmobiliario han obligado a las familias que no pue-
den darse el lujo de comprar casas grandes, a construir cobertizos como extensión alternativa de
sus viviendas. Estos cobertizos suelen aprovecharse como oficinas, estudios de arte, áreas recrea-
tivas, etc. El precio medio de un cobertizo es de $3100 (Newsweek, 29 de septiembre de 2003).
Asuma que la desviación estándar es de $1200.
a. ¿Cuál es el punto z de un cobertizo cuyo precio es de $2300?
b. ¿Cuál es el punto z de un cobertizo cuyo precio es de $4900?
c. Interprete los valores z de los incisos a y b. Diga si alguno de ellos debe ser considerado co-
mo una observación atípica.
d. El artículo de Newsweek describe una combinación oficina-cobertizo cuyo precio fue de
$13 000. ¿Puede considerar este precio como una observación atípica? Explique.
33. La empresa de luz y fuerza de Florida tiene fama de que después de las tormentas repara muy rá-
pidamente sus líneas. Sin embargo en la época de huracanes del 2004 y 2005, la realidad fue otra,
su rapidez para reparar sus líneas no fue suficientemente buena (The Wall Street Journal, 16 de
enero de 2006). Los siguientes datos son de los días que fueron necesarios para restablecer el ser-
vicio después de los huracanes del 2004 y 2005.

Huracán Días para restablecer el servicio


Charley 13
Frances 12
Jeanne 8
Dennis 3
Katrina 8
Rita 2
Wilma 18

Con base en esta muestra de siete, calcule los estadísticos descriptivos siguientes
a. Media, mediana y moda.
b. Rango y desviación estándar.
c. ¿En el caso del huracán Vilma considera el tiempo requerido para restablecer el servicio co-
mo una observación atípica?
d. Estos siete huracanes ocasionaron 10 millones de interrupciones del servicio a los clientes.
¿Indican dichas estadísticas que la empresa debe mejorar su servicio de reparación en emer-
gencias? Discuta.
34. A continuación se presentan los puntos que obtuvieron los equipos en una muestra de 10 juegos
universitarios de la NCAA (USA Today, 26 de febrero de 2004).

Margen de
Equipo ganador Puntos Equipo perdedor Puntos ganancia
Arizona 90 Oregon 66 24
Duke 85 Georgetown 66 19
archivo CD Florida State 75 Wake Forest 70 5
en Kansas
Kentucky
78
71
Colorado
Notre Dame
57
63
21
8
NCAA Louisville 65 Tennessee 62 3
Oklahoma State 72 Texas 66 6
03Ander(081-140).qxd 2/29/08 11:28 AM Page 105

3.4 Análisis exploratorio de datos 105

Margen
Equipo ganador Puntos Equipo perdedor Puntos de ganancia
Purdue 76 Michigan State 70 6
Stanford 77 Southern Cal 67 10
Wisconsin 76 Illinois 56 20

a. Calcule la media y la desviación estándar de los puntos obtenidos por los equipos ganadores.
b. Suponga que los puntos obtenidos por los equipos ganadores de la NCAA tienen una distri-
bución en forma de campana. Mediante la media y la desviación estándar halladas en el in-
ciso a, estime cuál es el porcentaje de todos los juegos de la NCAA en que el equipo ganador
obtuvo 84 puntos o más. Calcule el porcentaje en todos los juegos de la NCAA en que el
equipo ganador obtuvo más de 90 puntos.
c. Aproxime la media y la desviación estándar del margen de ganancia. ¿Hay en estos datos
alguna observación atípica? Explique.
35. Consumer Review publica en Internet estudios y evaluaciones de diversos productos. La siguien-
te es una lista de 20 sistemas de sonido con sus evaluaciones (www.audioreview.com). La esca-
la de evaluación es de 1 a 5, siendo 5 lo mejor.

Sistema de sonido Evaluación Sistema de sonido Evaluación


Infinity Kappa 6.1 4.00 ACI Sapphire III 4.67
archivo CD Allison One
Cambridge Ensemble II
4.12
3.82
Bose 501 Series
DCM KX-212
2.14
4.09
en Dynaudio Contour 1.3 4.00 Eosone RSF1000 4.17
Speakers Hsu Rsch. HRSW12V 4.56 Joseph Audio RM7si 4.88
Legacy Audio Focus 4.32 Martin Logan Aerius 4.26
Mission 73li 4.33 Omni Audio SA 12.3 2.32
PSB 400i 4.50 Polk Audio RT12 4.50
Snell Acoustics D IV 4.64 Sunfire True Subwoofer 4.17
Thiel CS1.5 4.20 Yamaha NS-A636 2.17

a. Calcule la media y la mediana.


b. Aproxime el primer y el tercer cuartil.
c. Estime la desviación estándar.
d. El sesgo de estos datos es 1.67. Comente la forma de esta distribución.
e. Calcule los puntos z correspondientes a Allison One y a Ommi Audio
f. ¿Hay en estos datos alguna observación atípica? Explique.

3.4 Análisis exploratorio de datos


En el capítulo 2 se introdujeron el diagrama de tallo y hojas como una técnica para el análisis ex-
ploratorio de datos. Recuerde que el análisis exploratorio de datos permite usar operaciones arit-
méticas sencillas y representaciones gráficas fáciles de dibujar para resumir datos. En esta
sección, para continuar con el análisis exploratorio de datos, se considerarán los resúmenes de
cinco números y los diagramas de caja.

Resumen de cinco números


En el resumen de cinco números se usan los cinco números siguientes para resumir los datos.
1. El valor menor.
2. El primer cuartil (Q1).
3. La mediana (Q2).

También podría gustarte