Anova Simple PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 34

Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor

aleatorio.

1. Principios Básicos

Para iniciar en el curso de Diseño de experimentos, es necesario tener algunos conceptos


claros en la parte de probabilidad y estadística. A continuación se presentan los conceptos
más relevantes.

Estadísticas
Pueden ser

Descriptivas: donde se Inferenciales: donde se


describe el comportamiento de modelan patrones a partir de
unos datos mediante unos datos, haciendo
estimados y algunos métodos inferencias a partir de métodos
gráficos. como pruebas de hipótesis.

Parámetros: describen la población de elementos. Son tomados como la verdad. Como


ejemplo se puede mencionar la media poblacional o . Un censo poblacional es un
ejemplo donde se toma la población completa y a partir de ella se sacan parámetros que la
describan.

Estimados: describen una muestra tomada de la población de elementos. Generalmente


se trabaja con muestras de elementos de una población en cuestión. Las muestras se
describen entonces por los estimados; para el caso de la media poblacional , su

estimado es la media muestral X . Los estimados se clasifican en medidas de tendencia


central y medidas de dispersión:

1
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Medidas de tendencia central:

Prom edio ( X ) M ediana ( X~ ) M oda

Tie ne un inconve niente y es Dato central cua ndo la Dato que ocurre con m ayor
qu e pued e ser influenciado m uestra e sta organizada de fre cuencia
po r datos extremos. m ane ra a scendente

Medidas de dispersión:

Varianza ( ) 2
D esviación ( ) Rango (R i)
estándar

M edida de ruido . Cuan Usada pa ra ver la disp ersión D iferencia entre la


distintas son las de los datos a su m edia ob servac ión má xim a y
ob servac iones, prome dia la m inim a d e la muestra
distancia de cada
ob servac ión de la mue stra a
su prome dio.

En diseño de experimentos se hacen análisis y se toman decisiones basándose en las


hipótesis planteadas. A continuación se explican algunos conceptos concernientes a las
pruebas de hipótesis.

Valor P (P value)

Se define como el nivel mínimo de significancia al cual la hipótesis nula Ho sería


rechazada. En el análisis de varianza con que se analiza el experimento, se tienen en
cuenta el valor P y el valor de la distribución F. Las tomas de decisión se dan de acuerdo
a:

Si P< Se rechaza Ho
Si P> No se rechaza Ho
2
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Si Fcalculada > Fcritica Se rechaza Ho


Si Fcalculada < Fcritica No se rechaza Ho

Para ilustrar una toma de decisión, se tiene la siguiente figura:

Valor P

Valor

+
F calculada F crítica

La figura muestra que la hipótesis nula Ho no puede ser rechazada debido a que la F
calculada es menor a la F crítica y de igual manera el valor P es menor al nivel de
significancia alfa. El valor P se puede interpretar como la posibilidad de que la hipótesis
nula no sea rechazada; magnitudes altas del mismo se asocian con no poder rechazar la
hipótesis nula. La distribución F presume que las variables analizadas tienen un
comportamiento Gausiano o normal. La misma se calcula como el promedio de
cuadrados de los tratamientos, entre el promedio de cuadrados del error (el promedio de
cuadrados usa la suma de cuadrados entre los grados de libertad).

Los programas estadísticos como Minitab, dan los valores para P y F en el resumen
mostrado al realizar un análisis de varianza. El investigador usualmente toma la decisión
basado en el valor P por comodidad, esto porque él mismo decide el nivel de

3
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

significancia de la prueba y no entra en la necesidad de buscar un valor de F crítico en


tablas.

Pruebas de hipótesis estadísticas

Las hipótesis estadísticas son supuestos hechos por el investigador acerca de cierto
parámetro como la media o la desviación estándar, de una o más poblaciones de interés.
La estructura de las pruebas de hipótesis está dada por la formulación de dos términos:

Ho: o Hipótesis nula que establece el valor exacto del parámetro que se desea probar

H1: o
Hipótesis alterna que establece la posibilidad de que el valor del parámetro se encuentre entre una
serie de valores distintos al establecido en Ho. (formulación dada para hipótesis alterna de dos colas)

o
Formulación para hipótesis alternas de una cola

No rechazar la hipótesis nula implica que la muestra analizada no ofrece suficiente


evidencia para decir que la misma no pueda ser cierta. Sin embargo, si ésta es rechazada,
la prueba entonces ofrece suficiente evidencia para decir que la misma no es cierta.
Cuando se rechaza Ho, se da paso a la aceptación de H1.

Para realizar una prueba de hipótesis se debe tener en cuenta los siguientes pasos:

1. Establecer Ho (ej: que no exista diferencia entre las medias de los niveles de un
factor o variable de entrada)
2. Establecer H1 (ej: que exista diferencia entre las medias de los niveles de un factor
o variable de entrada)
3. Establecer que es el valor que marca el límite entre aceptación y rechazo.
4. Seleccionar el estadístico de prueba (ej: la media, es decir, la función de la
muestra aleatoria que se utiliza para tomar una decisión)
4
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

5. Establecer la región critica


6. Calcular el valor de la estadística de prueba para la muestra analizada
7. Comparar la estadística de prueba con la región crítica y tomar una decisión en
cuanto a si se rechaza o no Ho.

Cuando se realizan pruebas de hipótesis se puede caer en dos tipos de errores:

Error tipo I: Rechazar Ho cuando no debió ser rechazada. Para este error se define
la probabilidad , siendo ésta, la probabilidad de rechazar algo dado que estaba
bueno o de rechazar dado que debí aceptar. Este error se considera como el error
del productor porque se rechaza algo del lote de producción que debió ser
aceptado. es seleccionado por el investigador.

Error tipo II: No rechazar Ho cuando debió ser rechazada. Para este error se
define la probabilidad , siendo ésta, la probabilidad de aceptar algo dado que
debió ser rechazado. Así este error se considera como el riesgo del consumidor,
ya que al cometerse, el productor acepta algo que debió ser rechazado y lo lanza a
la venta estando defectuoso. solo se controla a través del tamaño de muestra. Si
el investigador disminuye entonces aumenta porque están inversamente
relacionados pero la suma de + 1.

Ho es cierto Ho es falso
No rechazo Ho Decisión correcta Error tipo II
Rechazo Ho Error tipo I Decisión correcta

Adicional a lo anterior, es importante definir el potencial de la prueba (1- ), siendo este


la probabilidad de rechazar Ho cuando debió rechazarse. Experimentalmente con el fin de
aumentar el potencial de la prueba en experimentos corridos de manera completa, se hace
una prueba de poder para determinar el número de replicas que se deben correr para
obtener un poder aceptable (este fluye entre 0.7 y 1 aproximadamente. Cuando el poder

5
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

es menor a este, se corre un riesgo mayor de aceptar Ho cuando debió rechazarse y por
ende un fallo en la respuesta del experimento).

Ejemplo 1

El tiempo promedio que tardan los estudiantes en registrarse para las clases de otoño en una
universidad ha sido de 50 minutos con una desviación estándar de 10 minutos. Se está probando
un nuevo método de registro con computadoras modernas. Si se toma una muestra aleatoria de 12
estudiantes que tuvieron un tiempo de registro promedio de 42 minutos con una desviación
estándar de 11.9 minutos quienes se registraron con el nuevo método de registro. Pruebe la
hipótesis de que la media poblacional es ahora menor a 50 minutos usando un nivel de
significancia de 0.05 y de 0.01. Asuma que los datos de tiempo se distribuyen normalmente.

Solución

En este caso en particular se tiene la desviación estándar muestral conocida, de manera que se
trabaja entonces con la estadística t.

La hipótesis del investigador H1 es que la media del tiempo que tardan los estudiantes en
registrarse sea menor a la anterior que era 50 minutos así:

H0 : 50 min
H1 : 50 min

Como no se conoce la desviación poblacional para el nuevo método entonces se debe usar la
estadística t ya que los datos que se tienen son de una muestra proveniente de una población
mayor:

X 42 50
t 2.33
S/ n 11.9 / 12

Para la toma de decisión se tiene en cuenta que:

6
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Si tcalculada < tcritica se rechaza Ho


Si tcalculada > tcritica no hay suficiente evidencia para rechazar Ho

Se procede entonces a buscar los valores de t crítica en la tabla, se debe tener en cuenta que la
tabla pide el valor correspondiente al nivel de significancia y el valor correspondiente a los
grados de libertad:

Con un alfa de 0.05 y 11 grados de libertad T = -1.796


Con un alfa de 0.01 y 11 grados de libertad T = -2.718

A un nivel de significancia del 0.05 se rechaza H0 porque t calculada es menor a t critica, pero a
un nivel de significancia de 0.01 no hay suficiente evidencia para rechazar H0 porque t calculada
es mayor a t critica. Esto indica que hay gran probabilidad de que la media poblacional sea menor
que 50 pero no es mucha la diferencia y quizá no es suficiente garantía para soportar el costo que
requiere la compra del nuevo método de registro.

Procedimiento con Minitab:

1. En el menú de stat en basic statistics se hace click sobre la opción 1 sample t:

7
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

2. Se despliega una ventana donde se ingresan los datos para la media muestral, la
desviación estándar muestral y el tamaño de muestra, ya que en este caso no se tienen los
datos sino un resumen de ellos:

3. El problema pide que se pruebe que la media del nuevo procedimiento sea menor a la
media del procedimiento anterior, es decir, se hace una prueba de hipótesis de una cola.
Para esto se hace click sobre el botón options donde se despliega una ventana que permite
poner el nivel de confianza que en este caso es de 95 ya que el nivel de significancia
inicial a probar es = 5%. En la casilla de alternative se despliegan las opciones y se
escoge la opción less than para que se pruebe que la media sea menor a 50.

8
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

4. Al hacer ok se obtienen los siguientes resultados:

One-Sample T

El resultado despliega un valor de t de -2.33 igual al obtenido con los cálculos manuales. En este
caso con un nivel de significancia de 0.05 se obtiene un valor p de 0.02, siendo este menor a 0.05
de manera que se rechaza la hipótesis nula y entonces el tiempo promedio que tardan los
estudiantes en registrarse con el procedimiento nuevo es menor al que se tomaban con el
procedimiento anterior.

Para el caso del nivel de significancia de 0.01 se hace el mismo procedimiento anteriormente
descrito pero cambiando el nivel de confianza a 99.0%.

Ejemplo 2

La especificación para el grueso de una tableta es de 0.03 mm. Se sabe que el grosor de las
tabletas sigue una distribución normal con 0.001 . Se toma una muestra aleatoria de 32
tabletas del proceso y se les mide el grosor. El ingeniero del proceso desea saber si es correcto
decir que el promedio de las tabletas en el lote es de 0.03 mm.

9
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

A continuación se muestra una tabla con los datos de los grosores para un lote de 32 tabletas:

Grosor Grosor
Observacion (mm) Observacion (mm)
1 0.031 17 0.0283
2 0.0285 18 0.0291
3 0.029 19 0.0287
4 0.0279 20 0.0291
5 0.0286 21 0.0309
6 0.028 22 0.0298
7 0.0305 23 0.0313
8 0.0279 24 0.03
9 0.0286 25 0.0289
10 0.0299 26 0.0299
11 0.03 27 0.0279
12 0.0295 28 0.0311
13 0.031 29 0.0293
14 0.0316 30 0.032
15 0.0283 31 0.0278
16 0.0294 32 0.0319

En este caso particular, se conoce la desviación estándar poblacional y los datos tienen una
distribución normal. Esto indica que se debe utilizar el estadístico de prueba Z.

Se desea entonces probar si la media poblacional es 0.03 mm. Para esto se utiliza una prueba
de hipótesis de dos colas, teniendo en cuenta que la hipótesis del investigador es negar que la
media poblacional sea de 0.03 mm; la prueba de hipótesis se formula entonces así:

Ho : 0.03mm
H1 : 0.03mm

Como la prueba es de dos colas, el rango de aceptación estará dado por dos valores críticos de la
estadística Z o dos valores críticos de P-value. Ahora el investigador define que su nivel de
significancia es de 0.05 y procede a realizar las pruebas:

10
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

El estimador de punto para la media poblacional es X , este se halla sacando el promedio de


los grosores tomados en la muestra.

0.031 0.0285 0.029... 0.0319


X= 0.029553
32

Teniendo en cuenta que el estadístico de prueba Z es:

X Z /2 X Z /2
n n

Se procede a utilizar el programa Minitab para realizar los cálculos:

1. En el menú de stat, en basic statistics se hace clik sobre 1-sample Z debido a que se tiene
una muestra:

2. Después se despliega una ventana donde se escoge la opción samples in columns


debido a que se tienen todos los datos tomados de la muestra. En caso de tener los
datos de tamaño de muestra y media, se escogería entonces la opción de
sumarized data. En la casilla de samples in columns se pone entonces la columna

11
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

que contiene los datos (grosor). Luego en la casilla de standard deviation se pone
el valor de la desviación estándar poblacional y en la casilla de test mean, se pone
el valor de la media o promedio que estamos probando.

3. Al hacer click en el botón de ok se obtienen los siguientes resultados:

Los resultados muestran un valor P de 0.011, este valor es menor a 0.05 que es el
nivel de significancia 0.011 0.05 por lo tanto se rechaza la hipótesis nula y
entonces la media o el grueso promedio de las tabletas producidas no es igual a 0.03
mm.

12
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

2. Definiciones

Diseño de Experimentos: La experimentación es una técnica utilizada para encontrar el


comportamiento de una variable a partir de diferentes combinaciones de factores o
variables de entrada de un proceso, que al cambiar afectan la respuesta. Para entrar a
experimentar es necesario pasar primero por el diseño de experimentos, esta técnica
busca la manipulación sistemática de las variables de entrada de un proceso para entender
el efecto que estas pueden causar en la variable respuesta. Es ampliamente utilizado en
las empresas debido a que éste permite visualizar situaciones que pueden suceder a partir
de la realización de un proceso. En la industria se utiliza principalmente para buscar el
mejoramiento del rendimiento de un proceso, para reducir la variabilidad y permitir que
haya un mayor acercamiento a los parámetros de la empresa, para reducir tiempos de
procesamiento y reducir costos. Cualquier problema experimental incluye: diseño del
experimento y análisis de los datos.

Diseño del Experimento: Se refiere al proceso de planear el experimento que se desea.


Es la adquisición de los datos apropiadamente para analizarlos de manera estadística.
Cuando se tiene un proceso para análisis, es importante definirlo correctamente y
proceder a buscar el mejor diseño de experimentos, de manera que se le pueda sacar el
mejor provecho a los datos colectados por medio del análisis estadístico. Las bases de un
diseño de experimentos son: replicación, aleatoriedad y bloqueo.

Replicación o Repetición: Es el número de ocasiones que se efectúa una misma


condición experimental en la prueba o experimento que se está haciendo. Si por ejemplo
se desea probar el efecto que produce el cambio de temperatura (100 oC y 200 oC) y el
cambio de presión (3 PSI y 6 PSI) en un componente, se tendría una condición
experimental al establecer la prueba con 100 oC de temperatura y 3 PSI de presión; si
bajo esta condición experimental se hacen dos pruebas, entonces se están realizando dos
replicas o repeticiones. La siguiente figura ilustra la situación:

13
Sección 1: Principios básicos, Definiciones y Experimentos
Experimentos de un solo factor
aleatorio.

Factor 1: Temperatura
Nivel 1 del factor Nivel 2 del factor
temperatura: temperatura:
Factor 2: Presión

100 oC 200 oC
Nivel 1 del factor Presión: X1 Respuestas bajo la Y1

3 PSI X2 condición 100 oC y 3 PSI Y2


Nivel 2 del factor Presión: W1 Z1

6 PSI W2 Z2

Las letras de color rojo, indican las respuestas a la primera réplica bajo las condiciones
allí mostradas. Las letras de color negro, indican las respuestas a la segunda replica bajo
las condiciones allí mostradas.

Aleatoriedad: Es el orden en que se ejecutan las condiciones expe


experimentales en el
experimento. Bajo la aleatoriedad todos los tratami
tratamientos
entos tiene la misma oportunidad de
ser seleccionados. Es usada con el propósito de cancelar
cancelar efectos de variables que no se
están controlando
lando (como efectos del ambiente en el que se reali
realiza
za el experimento
humedad). La aleatoriedad cancela el efecto de fact
factores
ores que quizá no conocemos que
están allí, incluso estos pueden estar cambiando sus
sus niveles a medida que corremos el
experimento. Cuando se conoce la fuente de variabilidad
variabilidad y se puede controlar, se usa una
un
técnica llamada bloqueo.

14
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

La figura muestra dos bolsas que representan el factor, dentro de cada una se encuentran
4 papeles que están etiquetados con los niveles para cada factor. Una forma de hacer un
procedimiento aleatorio, para el caso del ejemplo mencionado en la definición de
replicación, seria tomar de cada bolsa sin mirar, un papelito. Allí se ilustra una mano
tomando un papelito de cada bolsa, la misma persona entonces toma un papel de la bolsa
de temperatura y luego otro papel de la bolsa de presión y se establece entonces la
primera condición experimental. Una vez establecida estos papeles se dejan afuera de las
bolsas y se prosigue con la siguiente condición experimental. Una vez no hayan papeles
en la bolsa se ha terminado de establecer la primera réplica; si se desea tener más de una
réplica, entonces se ingresan los papeles a las bolsas y se repite el procedimiento hasta
completar la segunda replica.

Bloqueo: Es una técnica utilizada con el fin de aumentar la precisión del experimento. Se
usa cuando se conoce la fuente de variabilidad y se puede controlar. Al controlarla se
reduce la variabilidad introducida por esta fuente y se evita que esta influya en la
respuesta cuando no se está interesado en el efecto de la misma. Un bloque es una
porción del material experimental que debe ser más homogénea que el conjunto completo
del material.

Factores: Los factores son las variables de interés para las cuales se quiere estudiar el
impacto que tienen las mismas en la respuesta. Las variables temperatura y presión
utilizadas para el ejemplo descrito en la definición de replica, son los factores de interés
en la experimentación. Estos se puede clasificar como variables controlables: que pueden
a su vez clasificarse en variables cualitativas (tipo de material sujeto) y cuantitativas
(temperatura y presión). Las variables no controlables afectan el experimento y en
ocasiones no son tenidas en cuenta; estas son medibles mas no están bajo el control del
experimentador (humedad, la cual se mide mas no se controla). Los factores también
pueden ser clasificados de manera fija o aleatoria. Se clasifican de manera fija cuando los
niveles del factor (en el caso de factor temperatura antes mencionado, sus niveles son 2:
100 oC y 200 oC) son los únicos niveles de interés; es decir que el rango experimental se
abarca por completo con esos niveles. Los factores se clasifican de manera aleatoria,

15
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

cuando los niveles del factor son una muestra que salen de una población mayor y se
desea hacer inferencia en la población a partir de los niveles seleccionados.

Niveles: Es el número de alternativas o ajustes para cada factor. La figura mostrada en la


definición de replicación, ilustra los niveles para cada factor. En el caso de ese ejemplo
en particular se tienen dos niveles para cada uno de los factores.

Variables de salida: Son las variables respuesta del experimento. La respuesta puede ser
univariada (una sola salida de interés) o multivariada (múltiples salidas de interés). Estas
pueden clasificarse en variables cualitativas y cuantitativas. Se clasifican como
cualitativas cuando por ejemplo: se refiere a características, donde la respuesta es un si o
un no (cuando se desea saber si un producto es aceptable o no de acuerdo a características
observadas, o cuando se tienen en cuenta las características de una persona para tomar
una decisión). Se clasifican como cuantitativas cuando se mide algo numérico como la
viscosidad, el lead time de los procesos, el tiempo, el peso etc.

Modelos según las variables analizadas

Variable de entrada o factor (X)

Variable de Cuantitativa Cualitativa


salida o Cuantitativa Diagramas de dispersión, Análisis de varianza
respuesta(Y) Regresión (ANOVA)
Cualitativa Regresión Logística Tablas de
contingencia

Pasos a seguir en el diseño de experimentos:

1. Reconocimiento y establecimiento del problema


2. Selección de los factores y niveles de cada uno de estos
3. Selección de la variable respuesta
4. Determinación del diseño experimental que debe llevarse a cabo

16
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

5. Realización del experimento para la obtención de los datos de la respuesta


6. Análisis de los datos
7. Conclusiones y recomendaciones
8. Estudio de confirmación

Grados de libertad: Estos se refieren al número de términos independientes en un test


particular. Teniendo n como el número de términos, los grados de libertad se calculan
mediante n-1.

ANOVA (Análisis de varianza)

Las pruebas de hipótesis son una herramienta útil cuando se trata de comparar dos
tratamientos. La experimentación usualmente requiere comparación de más de dos
tratamientos simultáneamente, es allí donde se introduce Anova (teniendo en cuenta que
es un procedimiento para análisis de factores cualitativos).

El análisis de varianza se deriva de la partición de la variabilidad total en las partes que la


componen. ANOVA establece que la variabilidad total en los datos, medida por la suma
de cuadrados total, puede ser dividida en una suma de cuadrados de la diferencia entre los
promedios de los tratamientos y el gran promedio total más una suma de cuadrados de la
diferencia de las observaciones entre tratamientos del promedio del tratamiento. Anova,
nos da la herramienta para distinguir si un factor afecta la respuesta en promedio.

Presunciones de Anova:

1. Los errores o residuales son independientes y distribuidos de manera normal o


gaussiana, con promedio equivalente a 0 y varianza constante. Si su promedio no
fuese 0, el modelo estaría subestimando o sobreestimando.

2. Anova presume que todas las varianzas de los niveles del factor son iguales y
toma un solo cálculo de varianza llamado Spooled o varianza conjunta.

Anova mira los promedios de cada nivel contra el promedio general y lo llama entre
tratamientos. Anova queda con dos estimados de varianza, dentro y entre los niveles; con

17
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

estos se saca un cociente, si las 2 varianzas se parecen, es decir, el cociente es


aproximadamente 1, el factor no tiene ningún impacto en la respuesta, pero si este
cociente resulta ser grande, entonces el factor tiene mucho impacto en la respuesta.

Para ilustrar se presenta a continuación un ejemplo teniendo en cuenta un solo factor


aleatorio:

Observaciones ( n replicas)

Niveles del 1 2 … n Totales Promedios


factor Yi. Yi.

1 Y11 Y21 … Yn1 Y11+ Y21+… Y1.


Yn1

2 Y12 Y22 … Yn2 Y12+ Y22+… Y2 .


Yn2

. . . … . . …
. . . . .

a Y1a Y2a … Yna Y1a+ Y2a+… Yan Ya.

Totales Y.. Y..

A partir de la anterior tabla, se presenta la forma manual de hacer Anova con el fin de
entender el concepto que maneja el análisis de varianza. Inicialmente se debe calcular la
suma de cuadrados de los tratamientos:

1 a
2Y..2 Fuente de variación entre
SSTratamientos ( Y )
i. tratamientos
n i 1 N
Donde:

n = Numero de tratamientos por cada nivel


18
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

N = Numero de tratamientos en total

i = 1, 2, 3… a

Luego se debe calcular la suma de cuadrados total:

a n
2 Y..2
SSTotal ( Y )
ij
i 1 j 1 N

Donde:

N = Numero de tratamientos en total

i = 1, 2, 3… a

j = 1, 2, 3…n

Para estimar la suma de cuadrados de los errores se hace la diferencia de la suma de


cuadrados total y la suma de cuadrados de los tratamientos:

Fuente de variación dentro de los


SS E SSTotal SSTratamientos tratamientos

La tabla de Anova quedaría así:

ANOVA
Fuente de Suma de Grados de Promedio de Estadístico de
variación cuadrados libertad los cuadrados prueba Fo
(SS) (MS)
Tratamientos SS tratamientos a-1 SS tratamientos MS tratamientos
a 1 MS error
Error SS error N-a SS error
N a
Total SS total N-1

19
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

3. Experimento de un solo factor aleatorio.

Este tipo de experimento es el más sencillo y consiste en analizar un solo factor evaluado
en diferentes niveles, de manera que se compara las medias de la respuesta en cada uno
de esos niveles y se establece si hay diferencia entre ellas.

El modelo correspondiente a este experimento esta dado por la ecuación IV.

yij i ij

Donde es un parámetro común para todos los tratamientos llamado la media general,
representa el efecto del tratamiento i y ij corresponde al error que incorpora todas las
fuentes de variabilidad en el experimento.

Las hipótesis evaluadas son:

H0 : 1 2 ... a

H1 : 1 2 ... a

Lo que se desea investigar es si existe diferencia o no entre los niveles del factor en
consideración.

Ejemplo 1 (Tomado del libro Design and analysis of Experiments, de Douglas C.


Montgomery, 6ta edición. Página 70)

En muchos procesos de manufactura de circuitos integrados, los “wafers” son revestidos


con una capa de material como dióxido de silicona o un metal. Luego, el material que no
se necesita es removido haciendo los grabados necesarios para crear los patrones de los
circuitos, interconexiones eléctricas y áreas donde se hacen los depósitos de metal. Un
proceso de grabado tipo plasma es ampliamente usado para esta operación. La energía
para el proceso es suplida por un generador de radio frecuencia RF que hace que el
plasma sea generado en el intervalo entre electrodos. El ingeniero del proceso está

20
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

interesado en determinar si diferentes niveles de poder de la RF afecta la tasa de grabado.


Debido a que se tiene un solo factor, el ingeniero ha decidido hacer un experimento de un
solo factor aleatorio con 5 replicas. Al correr el experimento se obtuvo las siguientes
respuestas:

Poder RF Tasa de grabado observada (replicas) Totales Promedios


(W)
1 2 3 4 5 Yi. Yi.

160 575 542 530 539 570 2756 551.2


180 565 593 590 579 610 2937 587.4
200 600 651 610 637 629 3127 625.4
220 725 700 715 685 710 3535 707.0
Y.. = 12,355 Y.. 617.75

Ahora, las hipótesis que el investigador desea probar son:

Ho: Las medias de los niveles son iguales 160 180 200 220

H1: Algunas medias son diferentes

Teniendo claras las hipótesis y habiendo corrido el experimento, se procede a realizar los
cálculos matemáticos que permitan llegar al estadístico de prueba Fo para tomar una
decisión.

a n
2 Y..2 12,355
SSTotal ( Y )
ij (5752 5422 ... 7102 ) 72,209.75
i 1 j 1 N 20

1 a
Y..2
2 1 12,355
SSTrat ( Y )i. [27562 ... 35352 ] 66,870.55
n i 1 N 5 20

21
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

SS E SSTotal SSTratamientos 72,209.75 66,870.55 5339.20

ANOVA
Fuente de Suma de Grados de Promedio de los Estadístico de
variación cuadrados libertad cuadrados (MS) prueba Fo
(SS)
Poder RF 66,870.55 3 66,870.55 22,290.18
22,290.18 66.80
3 333.70
Error 5339.20 16 5339.20
333.70
16
Total 72,209.75 19

El experimentador obtiene un valor de Fo = 66.80. Tomando un nivel de significancia de


0.05, teniendo 3 grados de libertad del factor y 16 del error, se procede a buscar en la
tabla de la distribución F y se obtiene un valor de 3.24. Como 66.80 3.24 entonces se
concluye que las medias de los niveles del factor difieren y por tanto se procede a
rechazar Ho.

Es importante notar que el procedimiento descrito anteriormente es hecho a mano. Para


esto existen programas como Minitab quienes realizan los cálculos a partir de los datos
ingresados. A continuación se ilustra el procedimiento en Minitab:

1. En el menú de stat se busca la opción anova, allí se hace doble click en la opción
one way anova como muestra la figura

22
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

2. Aparece entonces una ventana que permite ingresar las columnas de valores para
el análisis. En la primera casilla que dice response, se ingresa la columna que
contiene los valores de la respuesta, en la siguiente casilla de factor, se ingresa la
columna que tiene los niveles del factor, se dejo una confianza del 95% que
equivale al nivel de significancia de 0.05 utilizado en los cálculos manuales:

3. Al dar clik en OK se obtiene la siguiente respuesta:

23
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

One-way ANOVA: Respuesta versus Niveles

Se obtienen los mismos valores que se obtuvieron con los cálculos manuales. En este
caso se ve que el P-value es de 0, esto implica un valor menor al del nivel de
significancia (0.005). al ser 0 < 0.005 se rechaza Ho y el investigador puede concluir
entonces que los niveles del poder afectan la tasa de grabado.

4. Al dar clik en OK se obtiene también una grafica con 4 métodos de análisis


graficos para los residuales, esto con el fin de cotejar la idoneidad del modelo:

Normal probability plot of the residuals (trazo de probabilidad normal): Este


grafico muestra que los residuales se encuentran al rededor de la línea del medio,
lo cual quiere decir que no hay ninguna desviación significativa de la presunción
de normalidad para los residuales.

24
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Residuals versus the fitted values (trazo de residuales contra los valores
estimados): este grafico muestra que no hay un patrón definido.
Histogram of the residuals (histograma de los residuales): la forma del mismo
muestra un comportamiento aproximadamente normal o gaussiano.
Residuals versus the order of the data (trazo de residuales vs orden de la
experimentación): Este grafico muestra que los datos no siguen ningún patrón.

Ejemplo 2

La compañía Mush, productora de setas, ha elaborado un proceso de deshidratación de


las mismas. Para el proceso se estableció una caja de cartón equipada con una entrada de
aire, una chimenea, una parrilla para poner las setas a deshidratar y un foco debajo de la
misma, el cual provee el calor necesario para deshidratar las setas. El ingeniero
encargado del proceso sabe que 150 gramos de setas tardan de 9 a 18 horas en
deshidratarse pero no sabe el tiempo exacto. Se sabe también que las setas deben llegar a
reducir su peso en un 87% aproximadamente para considerarse deshidratadas. Debido a
esto se estableció un experimento tomando un solo factor en consideración (tiempo). El
experimentador determino 4 niveles de tiempo entre 9 y 18 horas con intervalos de 3
horas entre cada nivel.

Lo anterior conlleva entonces a la siguiente configuración:

Factor: Tiempo
Nivel 1: 9 horas Nivel 2: 12 horas Nivel 3: 15 horas Nivel 4: 18 horas
X X X X

El experimentador sabe que debe realizar replicas de su experimento; para esto el realizó
una prueba de poder y tamaño de muestra (power and sample size) en el programa
Minitab.

El poder es la probabilidad de que la prueba rechace la hipótesis nula (en este caso es que
no exista diferencia entre las medias de los pesos para los niveles de la variable tiempo o

25
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

que no haya diferencia entre el efecto de los niveles de la variable) cuando la misma es
falsa; se denomina como 1- , siendo la probabilidad de aceptar algo que debió ser
rechazado. Se presumieron 3 valores para el poder (0.7, 0.8 y 0.9) para evaluar la
cantidad de replicas de acuerdo a cada uno de ellos. En cuanto a la diferencia entre las
medias de los factores, el experimentador hizo una presunción de 4 gramos de manera
que se pueda detectar la diferencia entre los efectos de los niveles cuando las medias
varíen en más de 4 gramos la una de la otra. El valor de la desviación estándar de los
pesos era previamente conocido (2.845 gramos). Los valores del poder, la diferencia
entre medias, la desviación estándar y un nivel de significancia de 0.05 fueron ingresados
a Minitab de la siguiente manera:

1. En Minitab, en el menú de stat se encuentra la opción de power and sample size y


allí la opción de one way anova como muestra la próxima figura:

2. Al abrir la opción one way anova, se encuentra entonces la pantalla donde se


ingresan los datos del experimento, es decir, el numero de niveles del factor, el
valor de la diferencia máxima que se desea entre las medias de los pesos para
cada uno de los niveles, los valores del poder y la desviación estándar de los
pesos. La siguiente figura ilustra el procedimiento:

26
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

3. Al dar click en el botón de OK se obtiene el siguiente resultado:

El experimentador entonces concluye que para obtener un poder de 0.704069 debe


realizar 10 replicas del experimento, para un poder de 0.834820 debe hacer 13 replicas y
para un poder de 0.913369 debe hacer 16 replicas. Debido a que el mínimo de replicas es
de 10, el experimentador decide entonces buscar el poder que se conseguiría al realizar
11 replicas del experimento. Este procedimiento se hace mediante la misma herramienta
de Minitab pero dejando en blanco la casilla de power y poniendo el número 11 en
sample size. A continuación se ilustra el procedimiento y la respuesta obtenida:

27
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Según el anterior resultado, al realizar 11 replicas se obtiene un poder de 0.7544 que el


experimentador considera razonable para los resultados que desea obtener. Por lo anterior
el número de replicas que se deben realizar en el experimento de un solo factor aleatorio
es de 11.

Después el experimentador hace la aleatoriedad con la que va a realizar la


experimentación para cada replica, es decir, en el programa Minitab se ingresan los
valores de los niveles (9,12, 15 y 18 horas) y se hace un procedimiento para obtener el
orden en que se van a hacer las corridas para cada replica. La siguiente figura ilustra el
procedimiento en el programa Minitab:

28
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

1. En el menú de calc, en la opción Random data, se despliega otro menú donde se


escoge la opción sample from column:

2. Al hacer click en sample from column se despliega una ventana donde se ingresa
el numero de filas que contienen los datos a organizar, luego una casilla donde se
ingresa la columna de la cual se hace la aleatoriedad, esto haciendo doble click en
los nombres de las columnas que se despliegan en la casilla de la izquierda,
finalmente en la última casilla se ingresa el nombre de la columna donde se desea
que se almacene el resultado (la organización aleatoria de la réplica). La siguiente
figura ilustra el procedimiento:

29
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

3. Al hacer click en OK se despliega el siguiente resultado:

Entonces el experimentador debe correr la primera réplica poniendo las setas en la caja
por 9 horas inicialmente, luego debe sacarlas, pesarlas y poner un segundo lote de setas
en la caja por 15 horas y así hasta completar la réplica. Para la aleatoriedad de las demás
replicas, se repite el procedimiento anteriormente mencionado

Los resultados de los pesos en gramos para las 11 replicas son:

30
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

Factor: Tiempo
Replica Nivel 1: 9 Nivel 2: Nivel 3: Nivel 4:
horas 12 horas 15 horas 18 horas
1 21.73 20.80 20.80 21.30
2 20.10 20.20 18.30 19.50
3 18.05 18.14 18.40 17.62
4 20.05 19.30 18.85 19.30
5 19.01 19.42 20.27 18.75
6 21.64 21.81 20.06 21.88
7 23.21 20.22 19.04 22.02
8 20.34 18.20 18.74 18.85
9 18.50 18.02 18.30 19.30
10 19.34 20.05 19.53 18.70
11 19.39 18.90 21.43 20.54

El experimentador ingreso los datos a Minitab y realizo el análisis de los mismos de la


siguiente manera:

1. En el menú de stat, se despliegan diferentes opciones, debido a que se desea


realizar un análisis de varianza, se despliega entonces el menú de ANOVA, donde
se escoge la opción de General linear model como muestra la figura:

31
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

2. Al dar click en General linear model se obtiene una ventana donde se ingresa en
la primera casilla la columna de respuestas denominada como pesos, en la casilla
de Model se ingresa el modelo, en este caso el factor tiempo y las replicas, siendo
el factor tiempo un factor fijo y las replicas un factor aleatorio. En la última
casilla (random factors) se especifica que el factor replica es aleatorio

32
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

3. La ventana muestra 7 botones que permiten especificar o adquirir información


adicional en el análisis. Para este caso, se oprime el botón factor plots y se obtiene
la siguiente ventana:

4. La anterior opción permite realiza un grafico de los efectos principales de los


niveles del factor. En la casilla Factors se ingresa entonces el factor tiempo, se
oprime OK y regresa a la ventana principal donde se oprime OK de nuevo y se
obtiene el siguiente resultado:

33
Sección 1: Principios básicos, Definiciones y Experimentos de un solo factor
aleatorio.

nivel 1

nivel 4

nivel 2

nivel 3

El experimentador deduce que no hay diferencia entre los niveles del factor tiempo
debido a su valor P. Al observar la grafica se encuentra que la diferencia entre las
medias de los niveles no sobrepasan los 4 gramos de diferencia entre las medias que
el experimentador quería detectar, por lo tanto, el tiempo que debe durar el proceso de
deshidratación es de 9 horas.

34

También podría gustarte