Clase 3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 79

Qa

Unidad 2

QUIMIOMETRÍA
ESTADÍSTICA INFERENCIAL
Etapas de una investigación estadística

1. Plantear el problema (Variables de interés, población,


muestra)
2. Elaboración del instrumento de recolección de datos
3. Procesamiento de la información obtenidos (tablas, gráficas,
cálculos de datos representativos)
4. Descripción, análisis e interpretación del comportamiento de
los datos
Incertidumbre

“Parámetro asociado al resultado de una medida, que


caracteriza la dispersión de los valores que podrían
razonablemente ser atribuidos al mensurando”.
Definición tomada de la Guía para la Expresión de la
Incertidumbre de Medida (GUM).
Cuida tus palabras, porque se convertirán en tus
actos. Cuida tus actos, porque se convertirán en tus
hábitos. Cuida tus hábitos, porque se convertirán en tu
destino"

Gandhi
Recordando….

Definir el problema Decide sobre el Proceso de medida Interpretación


analítico método apropiado química de resultados
Temas en datos y resultados
3.1 Caracterización de las mediciones
3.2 Caracterización de los errores
3.3 Propagación de la incertidumbre
3.4 Distribución de las mediciones y los resultados
3.5 Análisis estadístico de los datos
3.6 Errores tipo 1 y tipo 2.
3.7 Métodos estadísticos par distribuciones normales
3.8 Límites de detección
3.4 Distribución de las mediciones y los resultados

Términos importantes
Conjunto completo

Población de individuos con


una característica
común observable
Criterios de
selección
Características que
Población de deben poseer las
unidades de

Fórmula de estudio observación para ser


considerados

tamaño muestral
Es el subconjunto de estudio:
Tipo de muestreo Muestra - Se define el mínimo
tamaño muestral y
- El diseño muestral
(procedimiento de
selección)

Se tiene en cuenta el Tamaño de muestra y debe ser representativo.


Estadística en pequeños grupos de series de datos

Efectos de los errores indeterminados en las estimaciones:


1. La definición de un intervalo alrededor de la media experimental
de una serie, dentro del cual cabe esperar que se encuentre la
media verdadera, una determinada probabilidad.
2. La determinación del número de medidas que es necesario realizar
para que la media verdadera se encuentre, con una determinada
probabilidad, dentro de un intervalo prefijado alrededor de la
media experimental.
3. La determinación con un cierto grado de probabilidad, de que un
valor discordante en una serie de medidas repetidas forme parte
de una distribución normal y deba ser retenido o no, en el cálculo
de la media para la serie.
4. El ajuste de una línea recta para una serie de puntos
experimentales
3.4 Distribución de las mediciones y los resultados
¿Cómo se informa el resultado de los datos experimentales,
cuando se dispersan alrededor de un valor central?

El desarrollo de un método significativo para informar los resultados de un


experimento requiere capacidad para predecir el valor central verdadero y la
dispersión verdadera de la población investigada a partir de un muestreo limitado de
dicha población.

Población: Todos los miembros de un sistema

La probabilidad (P) de ocurrencia de un valor (V) se expresa como :


𝑀
P(V) = 𝑁
M representa la frecuencia de aparición del valor
N es el tamaño de la muestra

Muestra: Miembros de una población que se recogen y analizan


3.4 Distribución de las mediciones y los resultados
Distribución binomial: Es una distribución de probabilidad que muestra la
probabilidad de obtener uno de dos resultados específicos en un número de
ensayos.

3.4.1 Distribución normal: Curva de distribución de probabilidades “en


campana” utilizada para medidas y resultados y que muestra el efecto del
error aleatorio.

Parámetros: μ, es el valor central (promedio)


σ, es varianza de la población
Distribución normal
μ media poblacional

σ desviación típica
S
u
J
AREA = 1
e
(Es el 100%)
t
o
s

propiedad
La distribución normal se denota como N(μ, σ)
Es simétrica y tiene una asíntota horizontal
Para que sirve la distribución gaussiana?

Nos sirve para calcular áreas y estas áreas son


los porcentajes de población en probabilidades
(qué tan dispersos están nuestros datos)
Distribución normal o estándar N(0,1)

2
𝑥
1 −
μ= 0 y σ =1, la ecuación es 𝑓 𝑥 = 𝑒 2
√2𝜋

y su representación será:
N(μ, σ)

Para cierto valor μ y cierto valor σ, la ecuación es


y su representación será:
Distribución normal o estándar N(0,1)

𝑥2
1 − 2
μ= 0 y σ =1, la ecuación es 𝑓 𝑥 = 𝑒
√2𝜋
Si la pregunta es qué porcentaje de la población está por debajo
de 1:

Tomado de youtube Píldoras matemáticas


3.4 Distribución de las mediciones y los resultados
La forma de la curva
depende de la
distribución de los
datos, entre más
heterogénea más
“achatada” es.
Diferentes curvas Gaussianas. Por qué?
Ejemplo
En un muestreo aleatorio de botellas del área de producción de
refrescos se quiere saber el porcentaje de botellas que contengan
entre 243 y 262 mL. Se sabe que el porcentaje en volumen sigue una
distribución normal con μ = 250 mL y σ2= 25 (σ = 5).

𝑿−𝝁 𝟐𝟒𝟑−𝟐𝟓𝟎
Se estandariza la curva: =𝒛 z inferior = : = -1,4
σ √25
𝟐𝟔𝟐−𝟐𝟓𝟎
z superior = : = 2,4
√25

(Se busca en la tabla): la respuesta es 100 – 8,08 -0,82 = 91,10%


Tabla z
Continuación…
Estadística inferencial

Intervalos de confianza
Prueba de hipótesis
Intervalos de confianza (IC)
Con ayuda de la estadística se puede establecer un intervalo
que rodea a la media, , determinada experimentalmente
dentro del cual se espera que se encuentre la media
poblacional µ, con un cierto grado de probabilidad

𝑧∗𝜎
IC para µ = ±
𝑁
3.4 Distribución de las mediciones y los resultados

3.4.1 Intervalos de confianza.


¿Cuál será el valor más probable de un solo miembro de la
población?
Se puede decir que:
Donde, Xi es el intervalo de confianza para el miembro i de la
población
μ, es el valor media
Xi = μ± z σ z, es el nivel de confianza deseado

El intervalo de confianza: Rango de resultados en torno a un valor medio que podría


explicarse por un error aleatorio. Ej. El 68,62% de una población (gaussiana), se
encuentra entre los límites μ±1α
Ejemplo

¿Cuál será el intervalo de confianza del 95% para la media


poblacional de un lote de comprimidos de analgésico, del cual se
ha extraído, al azar, un comprimido; se analiza y se determina
que el medicamento tiene 245 mg de aspirina. Se sabe que la
desviación estándar es 7 mg.

Xi = μ± z σ = 245 ± 1,96 (7) = 245 ± 14

Por tanto el intervalo de confianza es 231 - 259


Intervalos de confianza de poblaciones

Un resultado numérico
carece de relevancia
para los usuarios de los
datos, a menos que
estos sepan algo sobre
su calidad. Por lo tanto,
siempre es esencial
El intervalo de confianza para la media de la población es: indicar la mejor
estimación de la
confiabilidad de sus
Siendo σx, la desviación datos. Una de las
𝑧∗𝜎 estándar del valor medio mejores formas de
µ= ± (error estándar de la media): indicar la confiabilidad
𝑛 𝜎
σx = es proporcionar el
𝑛
intervalo de confianza a
un nivel de 90 o 95%.

Fuente: Harvey, D. Química Analítica Moderna.


3.4 Distribución de las mediciones y los resultados
3.4.2 Intervalos de confianza de las poblaciones.

El intervalo de confianza describe la variabilidad entre la medida


obtenida en un estudio y la medida real de la población (el valor
real).

Corresponde a un rango de valores, cuya distribución es normal y


en el cual se encuentra, con alta probabilidad, el valor real de una
determinada variable.

Esta «alta probabilidad» se ha establecido por consenso en 95%.


Así, un intervalo de confianza de 95% nos indica que dentro del
rango dado se encuentra el valor real de un parámetro con 95% de
certeza (Candia-Caiozzi; 2005)
s
Niveles de confianza
Nivel de confianza: Valor de la confianza que permite aceptar que los
datos obtenidos en la muestra describen correctamente a la población.
(Expresado en porcentaje)

Los niveles de confianza más usados: 0,90; 0,95, 0,99,


(expresados como fracción).
Nivel de confianza Valor de z
𝑧∗𝜎
IC para µ = ±
0,90 1,64 𝑁

0,95 1,96
0,99 2,57

Cómo se usan? Si se desea un estudio de 95% (0,95) de confianza


el valor de la probabilidad (z) es de 1,96.
Intervalo de confianza para muestras
3.4.3 Intervalos de confianza de las
muestras.

t, es una función de los grados de libertad.

Los grados de libertad se definen


frecuentemente como el número de
observaciones (piezas de información)
en los datos que pueden variar
libremente al estimar parámetros
estadísticos.
Fuente: Harvey, D. Química Analítica Moderna.
Intervalo de confianza para muestras

Es un conjunto de valores obtenidos a partir de los datos muestrales, en


el que hay determinada probabilidad de que se encuentre el estadístico.
A esta probabilidad se le conoce como nivel de confianza.

Para expresar el resultado con un intervalo de una confianza determinada, la


incertidumbre expresada en SD debe aplicarse Student o el factor de
cobertura.
IC para µ = ± t s/(√N)

t, es factor estadístico (depende de grados de libertad y nivel de confianza que


se desea.
s, es la desviación estándar
N es el número de datos ( o mediciones)
Los grados de libertad es uno menos que el número de mediciones
t-student

La distribución t, es una distribución de probabilidad que estima el valor de la


media de una muestra pequeña extraída de una población que sigue una
distribución normal y de la cual no conocemos su desviación típica.

Características

Familia de distribuciones de campana

Simétrica alrededor de la media igual a cero

Es más aplanada que la distribución normal


estándar

Tiene mayor área en los extremos y menos en el


centro

A medida que el tamaño de muestra aumenta se


aproxima a una distribución normal.
t-student
Característica de la distribución, t-student

¿Cuándo se
utiliza?

Para variables Sigue una distribución


Cuando se requiere cuantitativas (es una normal. Cuando se
realizar una prueba de prueba parámetrica). desconoce la
hipótesis. Compara medias de dos desviación poblacional
muestras o de una estándar
muestra relacionada.
Intervalo de confianza

Recordar que…
El número práctico de réplicas útiles se alcanza cuando la
desviación estándar de los errores es comparable con la
magnitud de los errores determinados o sistemáticos, dado que
los errores sistemáticos no se pueden evitar por repetición.
Observe que…

Es posible estimar una desviación estándar a partir de un


intervalo de declarado de confianza, y viceversa, estimar el
intervalo de confianza a partir de la desviación estándar.

Dado que si conocemos por ejemplo que el intervalo de


confianza es de 95% y el valor medio es de 20.00±0.06 g , la
desviación estándar es 0,03 g (porque representa mas o
menos dos desviaciones estándar).
Nota: cuando aumentan el número de mediciones t y s/√N
disminuyen y el intervalo de confianza se estrecha.
Temas en datos y resultados

3.1 Caracterización de las mediciones


3.2 Caracterización de los errores
3.3 Propagación de la incertidumbre
3.4 Distribución de las mediciones y los resultados
3.5 Análisis estadístico de los datos
3.6 Errores tipo 1 y tipo 2.
3.7 Métodos estadísticos par distribuciones normales
3.8 Límites de detección
Pruebas de hipótesis

Inferencia
estadística

Permite saber
Estimación de Prueba de si dos o más
parámetros hipótesis grupos son
iguales o
distintos
Estimación
puntual

Estimación por
intervalos de
confianza Nivel de significación (α). Nivel de
confianza para retener la Ho. Es
Nivel de confianza: Valor de la
decir, la probabilidad de que el
confianza que permite aceptar
rechazo de Ho sea incorrecto.
que los datos obtenidos en la
muestra describen 𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎
correctamente a la población. (α) = 1 - .
Expresado en porcentaje. 100
t- Student (sus escenarios)
Prueba t de
student

Dos muestras Dos muestras


Una muestra
con varianzas con varianzas
relacionada
homogéneas heterogéneas

Antes y después de Conocer si poseen


una intervención homocedasticidad

La diferencia
entre las dos Distribución
variables normal de las
Supuestos: relacionadas muestras y
tienen una Supuestos: muestras son
distribución completamente
normal independientes
3.5 Análisis estadístico de los datos

a. Distribuciones completamente independientes

b. Distribuciones con gran superposición

c. Distribuciones con cierta superposición

Comprobación de hipótesis. Saber si existe diferencia significativa entre dos


muestras.
3.5 Análisis estadístico de los datos

Comprobación de la significación
El proceso por el cual se determina la probabilidad de que exista una diferencia
significativa entre dos muestras se llama comprobación de la significación o
comprobación de la hipótesis.

Creación de un test de significación.

Prueba estadística efectuada para establecer si la diferencia


entre dos valores es o no significativa.
Prueba de hipótesis

Es la exposición estadística de una suposición


o creencia acerca de los parámetros
poblacionales.

Consiste en plantearse una hipótesis nula (de


trabajo) y alterna (del investigador), para
después realizar pruebas estadísticas para
poder decidir cual de estas dos es válida.
3.5 Análisis estadístico de los datos
• Hipótesis nula (Ho): Afirmación según la
Ho, se retiene
cual la diferencia entre dos valores puede cuando las
explicarse por el error aleatorio. Se pruebas son
insuficientes para
conserva cuando el test de significación, demostrar que
no es correcta
Ho, no fracasa.
• Hipótesis alternativa (Ha): Afirmación
según la cual la diferencia entre dos
valores es demasiado grande para poder
ser explicada por el error aleatorio; es
aceptada cuando el test de significación
demuestra que debe rechazarse la Ho.

Test de significación. Prueba


estadística efectuada para
establecer si la diferencia
entre dos valores es o no
significativa.
3.5 Análisis estadístico de los datos
En ausencia de errores sistemáticos, por ejemplo, un intervalo de
confianza del 95% indica el rango de valores en los que se espera
encontrar la media verdadera de la población. Para ello se crean los test
de significación o prueba estadística efectuada para establecer sí la
diferencia entre dos valores es significativa.

Se formula Ho y HA (también se usa el símbolo, H1.) HA El test permite


retener la Ho, en el nivel de confianza deseado (o nivel de significación, α).
Se hacen pruebas de dos colas o de una cola, según sea el interés del
investigador.

Pasos para validar una hipótesis

1. Definir Ho y Ha
2. Especificar el grado significación
3. Calcular los valores crítico y de prueba (definir zonas
de aceptación y rechazo)
4. Decisión y conclusión
Temas en datos y resultados

3.1 Caracterización de las mediciones


3.2 Caracterización de los errores
3.3 Propagación de la incertidumbre
3.4 Distribución de las mediciones y los resultados
3.5 Análisis estadístico de los datos
3.6 Errores tipo 1 y tipo 2.
3.7 Métodos estadísticos par distribuciones normales
3.8 Límites de detección
3.5 Análisis estadístico de los datos

Nivel de confianza: Valor de la confianza que permite aceptar


que los datos obtenidos en la muestra describen correctamente a
la población. Expresado en porcentaje.

Nivel de significación (α). Nivel de confianza para retener la Ho.


Es decir, la probabilidad de que el rechazo de Ho sea incorrecto.
𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎
(α) = 1 - .
100
Es la probabilidad de rechazar la Ho cuando es verdadera.
(Proporción de error que estamos dispuestos a aceptar como
válido nuestro estudio, cada vez que se trabaja con una muestra)
3.5 Análisis estadístico de los datos

1. Test de dos colas


En este test la Ho queda rechazada para
valores situados a ambos extremos de la
distribución

2. En este test la Ho queda rechazada para


Test
valores de una
situados sólo encola
los extremos de la
distribución

Ho: μ > μo (X promedio)


H1 μ < μo (X promedio)
Regla de decisión

Se puede tener en cuenta el nivel de significancia y el valor p.


Si p-valor  nivel significancia
Rechazo de Ho
Si p-valor > nivel de significancia
Retiene Ho
Temas en datos y resultados

3.1 Caracterización de las mediciones


3.2 Caracterización de los errores
3.3 Propagación de la incertidumbre
3.4 Distribución de las mediciones y los resultados
3.5 Análisis estadístico de los datos
3.6 Errores tipo 1 y tipo 2.
3.7 Métodos estadísticos par distribuciones normales
3.8 Límites de detección
3.6 Trabajo independiente: Errores tipo 1 y tipo 2

BUSCAR :

LA TEORÍA DE LOS ERORES TIPO 1 Y TIPO 2.


Teorema central del límite

Teorema central del límite. La distribución de


las mediciones sometidas a errores indefinidos
es a menudo una distribución normal.
Errores en las hipótesis

Aceptar Ho cuando
realmente es verdadera
Decisiones correctas
Rechazar Ho cuando
realmente es falsa
Las conclusiones a las que se llega
provienen de una muestra, existe
la probabilidad de equivocarnos.
Rechazar Ho cuando
realmente es verdadera
Decisiones Incorrectas
Aceptar Ho cuando
realmente es falsa
Temas en datos y resultados

3.1 Caracterización de las mediciones


3.2 Caracterización de los errores
3.3 Propagación de la incertidumbre
3.4 Distribución de las mediciones y los resultados
3.5 Análisis estadístico de los datos
3.6 Errores tipo 1 y tipo 2.
3.7 Métodos estadísticos par distribuciones normales
3.8 Límites de detección
3.7 Métodos estadísticos para
distribuciones normales

Fuente: Harvey, D. Química Analítica Moderna.


3.7 Métodos estadísticos para distribuciones normales
3.7.1 Comparación de s2 con α2
1. Esta comparación proporciona información útil sobre sí el análisis se
halla en estado de “control estadístico”.
Paso1. Definir la hipótesis. Ho: s2 = α2 y HA: s2 ǂ α2
Paso2. Definir nivel se significancia
Paso 3. Calcular los valores críticos y de prueba

El estadístico de control para valorar la hipótesis nula es el test F,


𝑠2 α2
𝐹 = 2 o, 𝐹= 2
α s
Siendo s > α 2 o que s2< α 22,
2 2
respectivamente.
Paso 4. Decisión y Conclusión
2. También puede ser utilizado para comparar las varianzas de dos
muestras.
Test F, es un test estadístico utilizado para comparar
varianzas a fin de comprobar si su diferencia es
demasiado grande como para poder ser explicada por
un error aleatorio.
3.7 Métodos estadísticos para distribuciones normales
3.7.2 Comparación de dos varianzas de muestras
La prueba F, evalúa las diferencias entre la dispersión de los
resultados .
F se define en términos de las varianzas de los dos métodos, donde
la varianza es el cuadrado de la desviación estándar.
𝑠12
𝐹= 2
𝑠2
Siendo s12> s22 , Hay dos grados de libertad v1 y v2 y se define como
(N-1) para cada caso. Si el valor de F excede el nivel de confianza
seleccionado entonces hay diferencia significativa entre las
varianzas de los dos métodos.

Nota: los valores de F están tabulados, de acuerdo a los niveles de


significación.
3.7 Métodos estadísticos para distribuciones normales
3.7.2 Comparación de dos varianzas
1. Esta comparación proporciona información útil sobre sí el análisis se
halla en estado de “control estadístico”.
Paso1. Definir la hipótesis. Ho: s12 = s22 y HA s12 ǂ s22
Paso2. Definir nivel se significancia
Paso 3. Calcular los valores críticos y de prueba

El estadístico de control para valorar la hipótesis nula es el test F,


𝒔𝟏 𝟐 𝑠2 2
𝐹= 2 o, 𝐹= 2
s2 𝑠1

Siendo s12> s22 o que, s12< s22 ,


respectivamente.

Paso 4. Conclusión
Valores de F, para significancia de 95%
Tabla F
https://www.lock5stat.com/StatKey/
3.7 Métodos estadísticos para distribuciones normales
3.7.3 Comparación de dos medias
Se utiliza la prueba t, la cual evalúa las diferencias entre las medias.
La prueba t, indica si hay diferencia significativa entre dos métodos
con base en sus desviaciones estándar. Revisamos tres casos.

La prueba t, es un test
estadístico utilizado
para comparar dos
valores medios con el
fin de saber si su
diferencia es demasiado
grande para poder ser
explicada por un error
aleatorio.
3.7 Métodos estadísticos para distribuciones normales

3.7.3 Comparación de dos medias. Caso 1


Comparación de la media de una muestra, , con un valor
establecido μ.
Se utiliza el estadístico de prueba t,

│𝜇 − 𝑋𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜│ ∗ 𝑛
= 𝑡 𝑒𝑥𝑝
𝑠
Siendo s, desviación estándar
n, número de mediciones
μ, valor verdadero
Es un estadístico utilizado para comparar dos valores
medios con el fin de saber si su diferencia es
demasiado grande para poder ser explicada por un
error aleatorio.
Recordar que t es:
3.7 Métodos estadísticos par distribuciones normales
3.7.3 Comparación de dos medias de dos muestras con datos no
emparejados. Caso 2
Sus intervalos de confianza son:

donde nA y nB, son los datos para cada ensayo. Y sA y sB, son
desviaciones para ensayos A y B, respectivamente.
La Ho, es que sus valores promedios son iguales y la alternativa que no
lo son.

Por tanto, texp será: Ec W


3.7 Métodos estadísticos par distribuciones normales

Datos no emparejados. Dos conjuntos de datos formados por


resultados obtenidos en varias muestras extraídas de una sola
fuente.

Datos emparejados: Dos conjuntos de datos consistentes en


resultados obtenidos a partir de varias muestras extraídas de
distintas fuentes.

Fuente: Harvey, D. Química Analítica Moderna.


3.7 Métodos estadísticos par distribuciones normales
3.7.3 Comparación de dos medias de dos muestras con datos no
emparejados. Caso 2
El valor de texp , se compara con el valor crítico t (α,ν) [de acuerdo al
nivel de significación elegido (α) y los grados de libertad de la muestra
(ν)] y si es de una o dos colas.
Para saber los grados de libertad (ν), dado que son ensayos
independientes y las dos calculan las mismas varianza (σ2), se podrán
eliminar las dos desviaciones estándar por una conjunta o agrupada
(spool):

Y la desviación conjunta (spool) se obtiene:

Homosedasticidad
3.7 Métodos estadísticos para distribuciones normales

3.7.3 Comparación de dos medias de dos muestras con datos no


emparejados. Caso 2
.
…. Sí las desviaciones sA y sB , son significativamente distintas, el
texp se calcula con la ecuación W,

Ec. W

y los grados de libertad con la ecuación siguiente.


3.7 Métodos estadísticos para distribuciones normales

3.7.3 Comparación de dos medias de dos muestras con datos


emparejados. Caso 3
Se usa la prueba t, que permite
Sucede, a veces, que las diferencias
comparar datos apareados a fin de
entre los datos de un grupo, son más
determinar si la diferencia entre ellos es
significativas que las variaciones entre
demasiado grande como para poder ser
las medias de los grupos de datos.
explicada por un error aleatorio.

Los grupos de datos apareados se usan siempre que la variación a investigar sea
menor que las demás fuentes potenciales de variación, y se calcula la diferencia, di,
entre los valores emparejados en cada muestra y luego se calcula la desviación
estándar de las diferencias y se compara con un valor crítico t(α,ν). La Ho es que las
diferencias es cero y la alternativa que es diferente de cero.
3.7 Métodos estadísticos para distribuciones normales

3.7.3 Comparación de dos medias de dos muestras con datos


emparejados. Caso 3

Los grupos de datos apareados se usan siempre que la variación a


investigar sea menor que las demás fuentes potenciales de variación, y se
calcula la diferencia, di, entre los valores emparejados en cada muestra y
luego se calcula la desviación estándar de las diferencias y se compara con
un valor crítico t(α,ν). La Ho es que las diferencias es cero y la alternativa
que es diferente de cero.
Datos anómalos

Rechazo de datos
Valores atípicos
Un valor atípico es una observación extrañamente grande o
pequeña. Pueden conducir a interpretaciones equivocadas o
engañosas, generalmente estos datos causan efectos
desproporcionados en los resultados estadísticos (media).

Investigar los datos atípicos conduce a obtener información útil


del proceso. Los gráficos son una forma de identificarlos. Un
gráfico de dispersión ayuda a identificar.

Fuente: imágenes google.


¿Se eliminan los valores atípicos?

La causa de un valor atípico puede deberse a error en la entrada


de datos (corregir datos y volver a analizar), probabilidad aleatoria
(correr los datos y con y sin el valor atípico), problemas del
proceso, factor faltante.

Sí las conclusiones con y sin el valor atípico


difieren, se debe reportar en el informe final.
Pruebas para análisis de valores atípicos

Q- test

Prueba
Grubbs
Criterio de
Peirce
Desviación
estándar
Criterio de
Chauvenet
Rechazo de datos

Una de las pruebas más usadas es la prueba Q. La relación Q se


calcula ordenando los datos en forma decreciente. Donde xq
representa al valor dudoso, xn es el valor vecino más cercano, xh es el
dato con valor máximo y x1 es el dato con el valor mínimo.

Sí el valor Qexp es mayor al tabulado, el dato es atípico

Esta prueba está diseñada para detectar u un único valor atípico


Tabla para la prueba Q

Cociente de rechazo, Q, a diferentes niveles de confianza


Ejemplo 1

Una serie de medidas replicadas de contenido de agua en una


muestra de etanol, para el método Kart-Fischer, tuvo los
siguientes resultados
a) 0.71%
b) 0.65%
c) 0.68%
d) 0.72%
e) 0.91%
¿Con qué confianza se puede rechazar el dato e), si se usa la
prueba Q?
Solución problema 1

Calcular Qexp y comparar con la tabla Q


xq = 0.91% es el valor dudoso
xn = 0.72% es el valor vecino más cercano
xh = 0.91% es el valor máximo de los datos
x1 = 0.65% es el valor mínimo de los datos
comparar Qexp con la tabla de la prueba Q, con los valores adecuados
que correspondan a cinco puntos de dato:
Qexp = 0.73
Qexp = 0.73 > 0.710, pero <0.821

Por consiguiente se puede llegar a la conclusión que este punto


dudoso se puede rechazar con más de 95% de confianza, pero con
menos de 99% de confianza.
Rechazo de datos. Prueba T

donde xq es el valor dudoso en cuestión y, n es el valor promedio; s,


es la desviación típica. En este caso, el valor de Tn se compara con una
tabla estándar de la prueba T, para la cantidad adecuada de medidas
replicadas.

Sí el valor Tn es mayor al tabulado, el dato es atípico


Rechazo de datos. Prueba T
Ejercicio 2
Usando el ejemplo anterior, ¿con qué confianza se puede eliminar el valor e?
a) 0.71%
b) 0.65%
c) 0.68%
id 0.72%
e)0.91%

Se calcula primero s, la desviación estándar de los datos. Se calcula la media


de los datos. Se calcula el valor T y se compara con la tabla de la prueba T
s = 0.10% H2O
x = 0.73% H2O
Tn = (0.91 – 0.73)/0.1 = 1.8 para cinco datos
1.8 es mayor que todos los valores para la tabla T para cinco datos y, en
consecuencia, se puede rechazar por dudoso este dato, con más del 99% de
confianza
Límite de detección
Es la menor cantidad o concentración de analito (mensurando)
que puede detectar un método con seguridad estadística.
Según la IUPAC, es la menor concentración o cantidad absoluta
de un analito que produce una señal significativamente mayor
que la que se obtiene con el blanco de reactivo.
Matemáticamente, la señal del analito en el límite de detección
(SA)LD es:
(SA)LD = 𝑆𝑟𝑒𝑐𝑡 + 𝑧𝜎𝑟𝑒𝑐𝑡

𝑆𝑟𝑒𝑐𝑡 , es la señal del reactivo del blanco


𝜎𝑟𝑒𝑐𝑡 , es la desviación estándar conocida para la señal del
reactivo del blanco
z, es factor correspondiente al nivel de confianza deseado
Límite de cuantificación

Es la menor concentración de analito que puede determinarse


con cierta precisión y exactitud, bajo condiciones experimentales
bien definidas.

Otra definición: “la concentración del analito que da una señal


igual al blanco más 3 veces la desviación estándar del blanco”.
Debido a que en el cálculo de los resultados analíticos, el valor
del blanco se resta (o el blanco se fuerza a cero) el límite de
detección se puede escribir como:
(SA)LDC = 𝑆𝑟𝑒𝑐𝑡 + 10𝜎𝑟𝑒𝑐𝑡

Límite de cuantificación: Concentración o cantidad más pequeña de


un analito que puede determinarse con seguridad (LDC)
Consideraciones finales
Tanto el límite de detección como el límite de cuantificación, forman
parte de los lineamientos de organizaciones gubernamentales e
internacionales para la correcta validación de los métodos, además de
otros estudios. Por ejemplo:

Selectividad: La selectividad es el grado en que el método puede medir al analito de interés en las matrices de
las muestras que se analizan sin interferencia de la matriz (incluyendo otros analitos).

Linealidad: verifica que la respuesta sea linealmente proporcional a la concentración del analito en el intervalo
de concentración de las soluciones de muestra.

Exactitud: Cercanía del valor obtenido al valor verdadero.


Precisión: En términos de repetitividad y reproducibilidad.
Sensibilidad: Capacidad de distinguir dos concentraciones diferentes y se determina por la pendiente de una
curva de calibración.

Intervalo: es el intervalo de concentración dentro del cual se obtienen exactitudes y precisiones aceptables.
Consistencia: Se refiere a la precisión de un laboratorio durante muchos días, lo cual puede incluir múltiples
analistas, múltiples instrumentos, diferentes fuentes de reactivos, diferentes columnas cromatográficas, etc.

También podría gustarte