Capitulo 2
Capitulo 2
Capitulo 2
CONTENIDO
Pág.
2.0 Muestreo y muestras aleatorias independientes 2-2
2.1 Definición estadística de muestra en análisis químico 2-5
2.2 Noción de estadístico (ó estadígrafo) 2-6
2.3 Distribuciones de muestreo 2-9
2.4 Pruebas de normalidad 2-11
2.5 Ejercicios de aplicación de la descripción de la
2-19
variabilidad
REFERENCIAS BIBLIOGRAFICAS 2-34
ANEXO A2. Tabla de distribución t-Student 2-35
ANEXO B2. Tabla de distribución Chi-cuadrada 2-36
ANEXO C2. Tabla de distribución F-Snedecor 2-37
2-2
En todo problema estadístico existe un conjunto de elementos sobre los que se recoge
información. En general, no resulta posible estudiar la totalidad de elementos de la
població n para obtener información sobre ésta. Incluso cuando esta posibilidad exista
técnicamente, como es el caso de poblaciones finitas, dicho procedimiento suele ser
impracticable.
En consecuencia para obtener información sobre una población hay que limitarse a
analizar sólo un subconjunto de la misma. A este subconjunto se le denomina muestra y a
los valores que se observan sobre los elementos que la constituyen, se les conoce como
datos estadísticos.
Usualmente la razón para tomar muestras es una de las siguientes:
PROCESO N
Datos
1 2 3 4 5 6 7 8 9 10
Existen muchos y diferentes procedimientos mediante los cuales los investigadores pueden
seleccionar sus muestras, pero inicialmente debe establecerse un concepto fundamental,
la diferencia entre (1) una muestra probabilística y (2) una muestra no probabilística
(HERNANDEZ et al., 1998, cap.8).
En el muestreo probabilistico cada elemento de la población tiene una oportunidad
(probabilidad) conocida de ser seleccionado para la muestra, es decir que la selección de
la muestra constituye un fenómeno aleatorio probabilizable. Dicha selección se verificará
entonces, en condiciones de azar, siendo susceptible de medida de la incertidumbre
derivada de la misma. El muestreo se hace mediante reglas de decisión matemáticas que
no permiten la discreción al investigador. El muestreo probabilístico permite calcular el
grado hasta el cual la información de la muestra puede diferir de la información de la
población (OSTLE, 1977, cap. 4).
En el muestreo no probabilístico la selección de un elemento de la población para que
forme parte de la muestra se basa, en parte, en el criterio del investigador. No existe
oportunidad conocida por cualquier elemento particular de la población que se ha
seleccionado. Por consiguiente no puede calcularse el grado en que la información
muestral difiere de la información poblacional (HERNANDEZ et al., 1998, cap.8).
La elección de uno u otro tipo de muestras dependerá del problema en estudio. En el área
de la metrología química (y en cualquier otra área de la metrología), es indispensable
2-4
Si se elige una muestra formada por n elementos a partir de una población modelizada por
la variable X cuya ley de probabilidad sea F, la distribución de cada Xi de la muestra será la
misma que la de X, esto es, F(X i) = F(X) para todo i = 1,2,..,n. Además las variables Xi
serán independientes entre sí con lo que F(X1, X2, …. Xn) = F(X1).F(X2)…..F(Xn) (PEREZ,
1999, cap. 5).
En general, a aquella cantidad directamente asociada a la población se le conoce como
parámetro (como por ejemplo la media), y como estadístico o estadígrafo, a aquella
cantidad calculada partiendo de un conjunto de datos muestrales. Los parámetros
usualmente se representan con letras griegas, mientras que los estadísticos o estadígrafos
con letras latinas (BOX et al., 1989, cap. 2).
Un estadístico o estadígrafo se define como una función medible T de (X1, X2, …. Xn). Al
tratarse de una función de variables aleatorias es también una variable aleatoria cuya
distribución se llama distribución de muestreo del estadístico, que dependerá en
general de los parámetros desconocidos de la función de distribución de la variable
considerada para la población y para cuya determinación desempeña un papel
fundamental la relación F(X1,X2, …. Xn) = F(X1).F(X 2)…..F(X n) (PEREZ,1999, cap. 5).
En la figura 2.2, se esquematiza el carácter aleatorio de los estadísticos, tomando como
ejemplo la media y la varianza muestral.
Esa dependencia de la distribución del estadístico, de los parámetros desconocidos y de la
ley de probabilidad de la variable considerada para la población será utilizada para realizar
la estimación de los parámetros poblacionales a partir del estadístico, utilizando los
métodos que proporciona la inferencia estadística (ver figura 2.1) (PEREZ,1999, cap. 5).
Los estadísticos, permiten describir la variabilidad de un conjunto de datos
muestrales mediante una función de los mismos que no contiene a los parámetros
desconocidos. Las funciones de cálculo para los estadísticos de los distintos tipos
se refieren a los resúmenes numéricos que se presentan en las tablas 1.2 y 1.3 de
la sección 1.5.2, referidos en este caso a datos muestrales, por lo que es
importante tomar en cuenta que, el promedio de los datos se representará por X
y la varianza por S2 (por tanto la desviación típica por S) y que las formulas de
2-7
x 11 ,x12,…,x1n X 1 , S12
x 21 ,x22,…,x2n X 2 , S 22
x k1 ,xk2,…,xkn X K , S K2
f (X)
X
µ X
σ X
FIGURA 2.2 LOS ESTADISTICOS SON VARIABLES ALEATORIAS (PRAT et al. 2000, cap. 4)
2-8
X= i
n
X = promedio
xi = observaciones
n = número de observaciones de la muestra
mediana ~
x = x[n +1 ] para n impar
2
x (n / 2 ) + x ((n )+1 )
~
x= 2
para n par
2
Cuartiles n +1
Qy = y
4
y = puede ser 1, 2 o 3
Rango
IQR = Q3 – Q 1
intercuartílico
S2 = i =1
n −1
Desviación estándar Coeficiente de variación
S = S2 S
CV = (100)
X
Recorrido o rango R=máx(xi) – min(xi) Indice de dispersión
respecto a la mediana
Rrel = R ~x
Dos consideraciones respecto a los estadísticos y sus distribuciones son las siguientes
(MEYER, 1973, cap. 13):
• Dado que los estadísticos son variables aleatorias, dos características importantes
para la distribución de estos, serán la esperanza y la varianza de los estadísticos,
que se conocerán como media y varianza muestral respectivamente. La desviación
estándar de la distribución muestral de un estadístico se conoce, a veces, como
error estándar de la variable estadística.
• La propiedad más importante de los estadísticos es el teorema central del límite.
Este teorema se aplica tanto a la media muestral X como a la suma muestral
n
( ∑X i ) y establece que cuando es grande el tamaño de la muestra n, la
i =1
a) Distribución normal.
b) Distribución t de Student o distribución t.
c) Distribución Chi-cuadrado, o Gi-dos (χ 2).
d) Distribución F de Snedecor o distribución F.
(1)
Se define el número de grados de libertad de una suma de cuadrados (SS = ∑(x i - x)2) como el número de términos
independientes en ∑(x i - x) = 0, ya que solo n-1 elementos en la regla anterior ( x 1 - x, x2 - x,…, x n-1 - x), son
independientes.
Un problema frecuente al estudiar datos reales continuos es analizar hasta qué punto la
distribución normal resulta un modelo conveniente para describir la pauta de variabilidad
de una serie de datos, puesto que pautas de variabilidad que se alejen sensiblemente de
la normal pueden exigir el recurso a tratamientos estadísticos especiales o ser el síntoma
de anomalías en los datos (ROMERO y ZUNICA, 1993, cap. 5).
Con el fin de estudiar si la distribución normal resulta un modelo adecuado para describir
la variabilidad de una serie de datos, (lo cual es importante para la aplicación de técnicas
de inferencia), puede acudirse a dos tipos de pruebas, que son (ROMERO y ZUNICA, 1993,
cap. 5):
a) ANALISIS DE HISTOGRAMAS (KUME, 1992, cap. 5): Casi siempre existe variabilidad
en un proceso y, por lo general, presenta determinado comportamiento. Este
comportamiento o patrón se puede representar en forma de histograma. Un histograma es
una representación gráfica de la variación en un conjunto de datos. Muestra la frecuencia
o número de observaciones de determinado valor, o dentro de un grupo especificado. Los
histogramas proporcionan pistas acerca de las características de la población primitiva de
la que se toma la muestra. Al usar un histograma, se puede ver con claridad la forma de la
distribución y se pueden hacer inferencias de la población.
Como muchos procesos producen resultados que siguen razonablemente una distribución
normal, cuando se combina el concepto de histograma y el concepto de curva normal, se
obtiene una herramienta de trabajo práctica conocida como análisis de histogramas.
Se selecciona una muestra aleatoria de al menos 50 datos y se toman las medidas de la
característica de calidad elegida. Se prepara el histograma y se analiza su
comportamie nto. El conocimiento del proceso se combina con la información del
histograma para obtener conclusiones.
La interpretación consiste en responder a las siguientes preguntas:
b) con valores altos y bajos de forma alternada, es causado con frecuencia por error
sistemático de la medición, en la manera de agrupar los datos, o sesgo debido al redondeo
de los valores de los datos. Un patrón cargado hacia un lado como el de c) es como de
forma de campana, pero no es simétrico; la distribución se desvanece en una dirección.
Las figuras sesgadas surgen cuando hay un límite natural de los valores de los datos o
cuando la distribución de variabilidad de los datos no es normal. Un patrón como el de d)
se presenta cuando las asimetrías (positivas o negativas) se vuelven extremas. Un
comportamiento uniforme como el de e) muestra una mayor variabilidad que en a), sin
tendencia central. A menudo este es el resultado al combinar datos de muchos procesos
en forma de campana con diversos centros entre los límites de los datos. Un patrón
bimodal como en los casos f) y g) sugiere que se combinan dos grupos de mediciones en
forma de campana. Por lo general se desea aislar los procesos o condiciones individuales
que provocan este comportamiento.
respecto a dicha media ∑(x- X )3 será nula. Por el contrario, dicha suma será positiva, si los
datos presentan una cola alargada hacia la derecha y negativa si la presentan hacia la
izquierda. Para representar el grado de asimetría de un conjunto de datos se emplea el
coeficiente de asimetría (CA) (ver sección 1.5.2), si CA = 0, la distribución es simétrica, si
2-15
(a) (b)
(c) (d)
Dado que el CA de forma poco frecuente será exactamente cero, es necesario contar con
otro estadístico que permita considerar adecuado al modelo de la distribución normal para
describir la simetría de una serie de datos, este indicador es el coeficiente de asimetría
estandarizado (CAest) (este coeficiente es asintóticamente normal (0, 1)), el criterio
establece que si el CAest se encuentra en el intervalo de [-2, 2] puede considerarse que la
distribución no tiene desviaciones significativas en cuanto a la simetría de la distribución
normal (PEREZ, 1999, cap. 3). Las fórmulas para el cálculo de los coeficientes de asimetría
antes mencionados, son las siguientes:
1 N CA
∑ ( xi − x )3 CAest =
CA = n − 1 i =1 6
s3 n
En la figura 2.6 se reflejan los histogramas posibles para los tipos de asimetría (facilitando
su representación usando curvas continuas):
Por otra parte, se dice que un conjunto de datos es leptocúrtico si presenta valores muy
alejados de la media con mayor frecuencia de la que cabría esperar para unos datos
normales que tuvieren la misma desviación típica. Obviamente, para compensar estos
valores extremos un histograma de datos leptocúrticos es más apuntado en las cercanías
de la media de lo que sería el de unos datos normales con la misma desviación típica.
Frecuentemente, valores elevados de curtosis de un conjunto de datos suele ser síntoma
de que entre los mismos se incluyen observaciones o resultados anómalos (ROMERO y
ZUNICA, 1993, cap. 5).
2-17
1 N CC
n − 1 ∑ (x i − x )
4 CCest =
6
CC = i =1
−3 n
s4
(en este caso CC de la distribución
normal tiene el valor de 0)
En la figura 2.7, se presentan histogramas (sustituidos por curvas continuas) con idénticas
medias y desviaciones típicas pero difiriendo en curtosis.
A veces un conjunto de datos no se ajusta a una de las distribuciones habituales, tal como
la distribución normal. Sin embargo, si se aplica una transformación a la característica
original esta se transforma en una nueva variable que se distribuye normalmente. En la
figura 2.8 se resumen varias de estas transformaciones matemáticas. Estas
transformaciones son útiles para: (a) lograr la normalidad de los datos medidos; (b)
satisfacer el supuesto de varianzas muestrales iguales, requerido en ciertas pruebas; y (c)
satisfacer el supuesto de aditividad de efectos, necesario en determinados ensayos
(JURAN y GRYNA, 1993, Tomo 2, cap. 23).
Entre las trasformaciones más frecuentes se encuentran (JURAN y GRYNA, 1993, Tomo 2,
cap. 23):
Si una de ellas, digamos ξ(x1), esta normalmente distribuida, las estimaciones de la media
y la varianza de Y i = ξ(xi), vendrán dadas por:
n Yj n (Y j − Y ) 2
Y =∑ s =∑
2
n −1
Y
j =1 n j =1
como una normal de media 40 lb/plg 2 y varianza 4 lb/plg 2, (x∼ N(40,4)), es posible
encontrar la probabilidad pedida al desarrollar la integración de la función de densidad
para la normal en el intervalo correspondiente ¡LO CUAL ES MUY COMPLICADO! .... Sin
embargo, se cuenta con el concepto de la distribución normal estándar que nos
permitirá evaluar dicha probabilidad a partir de tablas, ver figura. Es decir,
N (µ, σ2 )
N (0, 1)
Según las tablas con las que se cuenta esta probabilidad deberá evaluarse
como:
P(x≥35) = 1 – P(x ≤ 35)
P(z<-2.5)
OBJETIVO DEL PROBLEMA: Describir la variabilidad del volumen desalojado por una
pipeta de 10ml, gráficamente mediante un histograma y numéricamente calculando los
estadísticos de mayor relevancia.
SOLUCIÓN:
2-22
a) Para la construcción del histograma, hay que partir de la elaboración de una tabla
de distribución de frecuencias. Una de las observaciones que deben tomarse al
construir el histograma es comparar la pauta de variabilidad de la variable en cuestión
con la pauta de variabilidad descrita para una variable que se distribuye como una
normal, lo cual en este caso puede hacerse porque se cuenta con cincuenta datos
(algunos autores consideran suficientes 40 datos para hacer esta comparación). A
continuación se presenta el desarrollo del problema:
Frecuencia en el % de frecuencia
Intervalo de volumen, ml
intervalo
9.969 a 9.971 3 6
9.972 a 9.974 1 2
9.975 a 9.977 7 14
9.978 a 9.980 9 18
9.981 a 9.983 13 26
9.984 a 9.986 7 14
9.987 a 9.989 5 10
9.990 a 9.992 4 8
9.993 a 9.995 1 2
18
15
frecuencia
12
0
9.96 9.97 9.98 9.99 10
volumen
b) Cálculo de estadísticos:
− n
Volumen Promedio : V = ( ∑V ) i
n
= (9.988 + ........ + 9.979) / 50 = 9.982ml
i =1
de los datos se puede efectuar usando una hoja de calculo como Excel, usando
el comando “sort ascending”.
Moda de los volúmenes: esta se obtiene contando el número de datos que más
se repite, para el ejemplo esta tiene el valor de:
volumen.xls
TABLA E23.1
100.0 100.0
90.0
80.0 80.0
% de valores iguales o menores
70.0
60.0 60.0
valor indicado
al indicado
50.0
40.0 40.0
30.0
20.0 20.0
10.0
0.0 0.0
600 700 800 900 1000 1100 1200 100 1000 10000
1. Promedio:
n
∑x i
11951
X= i =1
= = 919 m3/semana
n 13
4. Desviación típica:
s=
∑ (x − X ) 2
=
117036
= 98.76 m3/semana
n −1 13 − 1
100 s 100(98.76)
%CV = = = 10.75%
X 919
2-28
6. Coeficiente de asimetría:
1 N CA
∑ ( xi − x )3 CAest =
CA = n − 1 i =1 6
s3 n
0.14
CAest =
1710286 6
CA = 12 13
98.763 CAest = 0.206
CA = 0.14
7. Coeficiente de curtosis:
1 N CC
n − 1 ∑ (x i − x )
4 CCest =
6
CC = i =1
−3 n
s4
− 1.28
CAest =
1967468568 6
13
CA = 12 −3
98.76 4 CAest = −1.88
CA = −1.28
TABLA E24.1
Frasco Número de %p/v de azúcar
muestras residual
medidas
1 3 0.99, 1.04, 1.02
2 4 1.14, 1.13, 1.17, 1.14
1.25, 1.32, 1.27, 1.2,
3 5
1.28
4 4 0.72, 0.77, 0.73, 0.76
5 3 0.9, 0.92, 0.93
6 4 0.82, 0.88, 0.8, 0.79
− −
∑ ( X i − X 1 ) 2 + ∑ (X i − X 2 )2 + ......
S PONDERADA =
N 1 + N 2 + ..... − N S
Además,
n
∑(x i − x ) 2 = s 2 ( n − 1)
i =1
La desviación estándar ponderada puede calcularse además valiéndose del uso de una
hoja de cálculo como la que se presenta a continuación:
2-31
serie 1 2 3 4 5 6
x1 0.99 1.14 1.25 0.72 0.9 0.82
x2 1.04 1.13 1.32 0.77 0.92 0.88
x3 1.02 1.17 1.27 0.73 0.93 0.8
x4 1.14 1.2 0.76 0.79
x5 1.28
x6
s^2 0.000633 0.0003 0.00193 0.000567 0.000233 0.001625 Conteo Suma
n 3 4 5 4 3 4 6 23
n-1 2 3 4 3 2 3
s^2(n-1) 0.001267 0.0009 0.00772 0.0017 0.000467 0.004875 0.016928
sp= 0.032
Logaritmo X = log10 p Sp
S X = 0.434
p
Antilogaritmo X = antilog10 p SX
= 2.303S p
x
SOLUCION:
a) Dado que el número de datos es de cinco, un recurso adecuado para analizar
descriptivamente la variabilidad de los resultados es la construcción de un
diagrama de puntos como el de la siguiente figura:
Del diagrama, puede observarse que existe un punto alejado de la serie como
es el correspondiente a 0.725 ppm. Por otra parte, la mayor parte de puntos se
localiza en el intervalo de 0.75 a 0.76 ppm.
Promedio:
n
∑x i
0.725 + 0.756 + 0.752 + 0.751 + 0.76
X= i =1
= = 0.749
n 5
Varianza:
n
∑(x − X )
i
2
s2 = i =1
n −1
(0.725− 0.749) 2 +(0.756−0.749) 2 + (0.752− 0.749) 2 + (0.751− 0.749) 2 + (0.76− 0.749) 2
s2 =
5 −1
s =1.897E − 4
2
Desviación estándar:
s = s 2 = 0.0138
REFERENCIAS BIBLIOGRAFICAS
• Box, G.E.P.; Hunter, W.P. y Hunter, J.S. (1989). Estadística para investigadores.
Barcelona España: Editorial Reverté S.A.
• Juran, J.M. y Gryma, F.M. (1993). Manual de control de calidad. Tomo II. México:
McGRAW-HILL.
• Pérez, C. (1999). Control estadístico de calidad. Mexico: Alfaomega grupo editor S.A. de
C.V.
• Pérez, C. (2002). Estadística aplicada a través de Excel. México: Alfaomega grupo editor
S.A. de C.V.
• Skoog, D.A. y West, D.M. (2001). Química analítica. Séptima edición. México: McGRAW-
HILL.
2-35
χ 2)
ANEXO B2: TABLA DE LA DISTRIBUCION CHI-CUADRADA (χ
(MONTGOMERY, 1991, pág. 432)
2-37