Trabajo Final Ordinario
Trabajo Final Ordinario
Trabajo Final Ordinario
ESTADÍSTICA INFERENCIAL
10)Coeficiente de determinación
12)Intervalos de confianza
En estadística, la regresión lineal simple es un modelo de regresión lineal con una sola
variable explicativa.
X Y
77 82
50 66
71 78
72 34
81 47
94 85
96 99
99 99 Bibliografia
Murray R. Spiegel. (1977). Estadistica.
67 68
Mexico: McGrawn Hill
DIAGRAMA DE FLUJO
Diagrama de flujo: Tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar
los valores de dos variables para un conjunto de datos.
X Y
Diagrama de flujo 77 82
110
50 66
100
71 78
90
72 34
80
81 47
Examen final “y”
70 94 85
60 96 99
99 99
50
67 68
40
x x2 y y2 xy
77 5929 82 6724 6314
50 2500 66 4356 3300
71 5041 78 6084 5538
72 5184 34 1156 2448
81 6561 47 2209 3807
94 8836 85 7225 7990
96 9216 99 9801 9504
99 9801 99 9801 9801
67 4489 68 4624 4556
estuvo basada en una muestra de n observaciones bivariadas tomadas de una población más grande de medidas. La recta que describe la
relación entre y y x en la población es semejante a la recta de mejor ajuste de la muestra, pero no es igual. ¿Cómo se puede construir un modelo
de población para describir la relación entre una variable aleatoria y
y una variable x independiente relacionada? Se empieza por suponer que la variable de interés, y, está linealmente relacionada a
una variable independiente x. Para describir la relación lineal, se puede usar el modelo determinista
RELACIÓN ENTRE = 𝑎 + 𝑏𝑥
Ecuación de la recta X 𝑦 ̂ = 𝑎 + 𝑏𝑥
Formula:
77 71.889
Ambas ecuaciones nos sirven para la
50 50.91
mejor estimación de la recta , la única
diferencia es que se resuelve por el 71 67.227
método de los mínimos cuadrados 72 68.004
mientras que en la ecuación se utiliza 81 74.997
el método de regresión lineal simple. 94 85.098
96 86.652
99 88.983
Sustitución:
67 67.119
707 660.879
MEJOR ESTIMACIÓN DE LA RECTA
x y
77 82 71.88 98
50 66 50.91 84
71 78 67.22 70
^
𝒚
72 34 68.00 56
81 47 74.99
42
94 85 85.09
28
96 99 86.65
14
99 99 88.98
0
45 49 53 57 61 65 69 73 77 81 85 89 93 97
67 68 64.11
Medio curso “x
ERROR ESTÁNDAR EN LA MEJOR ESTIMACIÓN DE LA
RECTA
Definición: El error estándar de estimación mide la variabilidad o dispersión de los valores observados alrededor de
la línea de regresión
Formula: y
82 71.35 101.96
66 50.56 227.42
Sustitución: 78 66.73 115.79
34 67.50 1157.12
47 74.43 784.60
85 84.44 0.313
99 85.98 152.08
99 88.29 100.01
68 63.65 14.97
=658 = 2654.83
x x2 y xy
FORMULAS 77 5929 82 6724 6314
50 2500 66 4356 3300
71 5041 78 6084 5538
72 5184 34 1156 2448
81 6561 47 2209 3807
94 8836 85 7225 7990
96 9216 99 9801 9504
99 9801 99 9801 9801
67 4489 68 4624 4556
Valor Significado
Correlación
positiva
moderada
BIBLIOGRAFIA
x Rango de x y Rango de y d d2
FORMULA
77 5 82 6 -1 1
50 1 66 3 -2 4
71 3 78 5 -2 4
72 4 34 1 3 9
81 6 47 2 4 16
94 7 85 7 0 0
SUSTITUCION 96 8 99 8.5 -0.5 0.25
99 9 99 8.5 0.5 0.25
67 2 68 4 -2 4
CONCLUSION
Conclusión : nos ayudó para utilizar los rangos, números de orden de cada grupo para
poder comparar con los rangos que nos da al resolver el problema está entre dos
variables aleatorias.
Escala para saber el tipo de correlación
Si la relación es que una variable aumenta cuando la otra aumenta, pero la cantidad no es consistente, el coeficiente de correlación
de Pearson es positivo pero menor que +1. El coeficiente de Spearman sigue siendo igual a +1 en este caso.
Cuando una relación es aleatoria o no existe, entonces ambos coeficientes de correlación son casi cero.
Si la relación es una línea perfecta para una relación decreciente, entonces ambos coeficientes de correlación son -1.
CONCLUSION
BIBLIOGRAFIA
CONCLUSION
=19.47
Bibliografia
Murray R. Spiegel. (1977). Estadistica.
Mexico: McGrawn Hill
RELACIÓN ENTRE DESVIACIÓN ESTÁNDAR Y EL
ERROR ESTÁNDAR EN LA MEJOR ESTIMACIÓN DE
LA RECTA
El error estándar de la media estima la variabilidad entre las medias de las muestras que se obtendría si se
tomaran múltiples muestras de la misma población, mientras que la desviación estándar mide la variabilidad
dentro de una muestra.
Conclusión:
Con ambos datos obtenidos pudimos sacar el valor de la distribución maestral de
los datos estadísticos que se nos dieron
COEFICIENTE DE DETERMINACIÓN
definicion
El coeficiente de determinación es una medida estadística de la bondad del ajuste o formula
== 73.11
RELACIÓN ENTRE EL COEFICIENTE DE DETERMINACIÓN Y EL
COEFICIENTE DE CORRELACIÓN DE PEARSON
Conclusión:
Fue de gran utilidad usar la tabla para comparar ambos coeficientes ya que se nos pedía hallar su relación investigue
y venia explicado que lo que tuviera en el coeficiente de correlación solo se elevara al cuadrado y ese era el
coeficiente de determinación.
INTERVALOS DE CONFIANZA
DEFINICION
Describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real).
Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad,
el valor real de una determinada variable.
Formulas
Intervalo de confianza para
Datos sustitucion
Formula
Con probabilidad del 0.99 encontramos un intervalo de confianza en el que se cumple que el
parámetro está entre los límites
INTERVALO DE CONFIANZA PARA
datos formulas Sustitucion
85.09
Muestra x
77 Intervalo:
54.325115.8547
50
71
72
81
94
96
99
67
indica
99% de confianza en que la media poblacional de las calificaciones están entre
0.005 54.325 y 115.8547
7 3.499
INTERVALO DE CONFIANZA DE PREDICCIÓN PARA
Indica
0.005 El intervalo para una muestra en especifica esta entre 20.33 y 177.43
7 3.499
PRUEBA DE HIPÓTESIS PARA
Consiste en aceptar la hipótesis nula cuando la cierta es la alternativa. Es la probabilidad de cometer un error de tipo ll. Es un
estudio de investigación, el error de tipo ll, también llamado de tipo beta (que es la probabilidad de que exista un error) o falso
negativo, se comete cundo el investigador no rechaza la hipótesis nula siendo esta falsa en la población. Un error de tipo ll se
comete cuando dejamos de creer en una verdad.
Conclusión: se acepta H0
hay una relación entre las calificaciones
de medio curso con las del examen
final.
- 1895 0.514
∞
H0 H1
PRUEBA DE HIPÓTESIS PARA α
Consiste en aceptar la hipótesis alternativa cuando la cierta es la nula. Es la probabilidad de cometer un error de tipo l. Es un estudio de
investigación, el error de tipo l, también llamado de tipo alfa o falso positivo, es el error que se comete cundo el investigador no acepta la
hipótesis nula, siendo esta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega
a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
TABLA DE VALORES CRÍTICOS EN T
SE ENTRA CON
0.025
7 2.365
𝐻 0 =2.365
- 2.305 0.34 0.34 2.365
∞
H0 H1 H1 H0 Conclusión
Se acepta Ho. Hay una relación lineal
significativa entre las calificaciones de los
alumnos.
Metodo de analisis para varianza
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más
medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto
utilizar repetidamente el contraste basado en la t de Student.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite
comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna
manera, es la base del análisis multivariante.
Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio semestre (x) y en el
examen final (y):
Datos Formula Sustitución
X Y
N:18
77 82 K:2
707 =6024.5
50 66
∑𝑦=658
=57,557 SCC
=51,980 SCC
71 78 SCC=-51689.57
Planteamiento SCE=SCT-SCC
72 34 SCE=6024.5-103512.5=97488
H₀:𝜇₁=𝜇₂
81 47
94 85
H₁:𝜇₁≠𝜇₂
96 99
99 99
67 68
Fuentes de Suma de Grados de Cuadrado
variación cuadrados libertad medio
4.49 97448
H₁ H₀
TEMA 2. REGRESION LINEAL
MULTIPLE Y CORRELACION
REGRESIÓN LINEAL MÚLTIPLE Y
CORRELACIÓN
En la mayoría de los problemas de investigación en los que se aplica el análisis de
regresión se necesita más de una variable independiente para el modelo de regresión.
La complejidad de la mayoría de mecanismos científicos es tal que, con el fin de
predecir una respuesta importante, se requiere un modelo de regresión múltiple. Cuando
un modelo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una
variable dependiente y más de una variables independientes. En este tipo de modelos
es importante testar la heterocedasticidad, la multicolinealidad y la especificación.
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
Es una herramienta común para describir relaciones simples sin hacer afirmaciones
sobre causa y efecto.
PROBLEMA 11.2
X Y
77 82
81 47
94 85
96 99
99 99
67 68
• Es una forma de regresión lineal en el que
la relación entre la variable independiente X
y la variable dependiente Y se modela
como un polinomio de orden n. Regresión
polinómica se ajusta una relación no lineal
REGRESIÓN entre el valor de X y la media condicional
POLINOMIAL correspondiente de Y, denotado E, y se ha
utilizado para describir los fenómenos no
lineales tales como la tasa de crecimiento
de los tejidos, la distribución de los isótopos
de carbono en los sedimentos del lago, y la
progresión de epidemias de enfermedades.
REGRESIÓN POLINOMIAL
El procedimiento Regresión Polinomial
está diseñado para construir una modelo estadístico que describa el impacto de un solo factor cuantitativo X en una variable
dependiente Y. Se ajusta a los datos un modelo polinomial que involucra a X y potencias de X. Se realizan pruebas para
determinar el orden apropiado del polinomio. Se puede graficar el modelo ajustado con intervalos de confianza y/o
predicción. También se pueden grafican residuos e identificar observaciones influyentes.
Formulas
formulas
FORMULA PARA TRES INCÓGNITAS
DATOS
x y x²
=[(9X57557X41595573)+(707X4830515X57557)+(57557X707X483015
)-
(57557X57557X57557)+(483015X483015X9)+(415955573X707X707)]
=4.2292X10
ENCONTRAR
=[(658X57557X415955573)+(53258X4830515X57557)+(4467994X707X483015)]-
[57557X57557X4467994)+(483015X4830515X658)+(415955573X707X53258)]
=- 8.49969X10
=-2.0097631
15 =
Encontrar
Método de Cramer
9 707 658 9 707 658 9 707
707 57557 53258 707 57557
Encontrar 707 57557
57557 483015
53258
4467994
=
57557 483015 4467994 57557 483015
Método de Cramer
= [(9X57557X4467994)+(707X53258X57557)+(658X707X483015)]-
[(658X57557X57557)+(9X53158X483015)+(707X707X4467994)]
= 7.0137
Formula:
1.6583
-2.0097631 +
ECUACIÓN DE LA RECTA POLINOMIAL
Formula:
Regresión exponencial
90
77 66.7367
80
50 50.945
70
71 62.850
60
72 63.481
50
81 69.460
Y
94 79.103 40
96 80.701 30
99 83.159 20
67 60.385 10
0
40 50 60 70 80 90 100 110
X
COEFICIENTE DE DETERMINACIÓN
definicion
El coeficiente de determinación es una medida estadística de la bondad del ajuste o fiabilidad del modelo
estimado a los datos
Bibliografia
R= http://www.monografias.com/trabajos96/analisis-
regresion-y-correlacion/analisis-regresion-y-
correlacion.shtml
TEMA 3 REGRESION NO LINEAL MULTIPLE
La regresión como herramienta de agrupación de datos ayuda a las personas y las empresas a
tomar decisiones informadas. La regresión involucra una variedad de variables, incluida una
variable dependiente, la variable principal que está tratando de comprender, y una variable
independiente, factores que pueden influir en la variable dependiente.
Investigación
NO LINEALES
El método de mínimos cuadrados permite obtener la mejor recta de
ajuste a los datos en el caso de la regresión lineal. Sin embargo, no
siempre existe una relación lineal entre la variable
dependiente e independiente y muchos modelos no son lineales en los
parámetros, impidiendo el uso del método de mínimos cuadrados.
En algunos casos es posible aplicar transformaciones para expresar los
datos en una forma compatible con la regresión lineal. Este es el caso
del modelo exponencial y de potencias.
¿CUÁNDO EXISTE REGRESIÓN?
01 02 03 04
Lo primero que suele Tomar una muestra Se analizan las dos Seguidamente, se
hacerse para ver si dos aleatoria sobre cada características en representan dichos
variables aleatorias están individuo de tus medias estudio,(denominados x, valores en unos ejes
relacionadas o no. o tus datos. y y) de modo que para cartesianos, dando lugar
cada individuo se tenga a un diagrama de
un par de valores dispersión o nube de
puntos.
Bibliografía: http://www.dm.uba.ar/materias/estadistica_Q/2010/2/C014%20Regresion%20Lineal%20Simple
%20.pdf
Administración
Ecuación
(intereses e
potencial
inversiones)
EJEMPLOS DE Métodos para
APLICACIONE resolver
Ecuación
potencial
Finanzas (años-
dinero)
S problemas
Ecuación
Ventas
logarítmica
CURVAS
RESULTANTES
DE CADA
MÉTODO
Bibliografía : Editorial
Interamericana. 1980. Este
libro aborda el tema de manera
muy adecuada, incluye
ejemplos muy ilustrativos.
EL COEFICIENTE DE DETERMINACIÓN COMO LA PARTE
RELATIVA DE LA VARIACIÓN TOTAL QUE VIENE EXPLICADA
POR EL MODELO.
Todo ajuste mínimo cuadrático debe venir acompañado de su respectivo coeficiente de determinación para
poder conocer el poder representativo de la función de ajuste, es decir el valor explicativo del modelo.
Para el ejemplo propuesto por lo tanto al regresión lineal es muy buen ajuste.
Bibliografía:
ARNOL Naiman, R.
Rosenfeld, G. Zirkel.
Introducción a la Estadística.
México, D.F. Editorial Mc
Graw Hill 1987
COEFICIENTE DE CORRELACIÓN
Si r = 1,
Si r = -1,
existe una Si r = 0, no
existe una
correlación existe
correlación
positiva relación
negativa
perfecta. El lineal. Pero
perfecta. El
El valor del índice indica esto no
índice indica
índice de una necesariamen
una
correlación dependencia te implica
dependencia
varía en el total entre las Si 0 < r < 1, que las Si -1 < r < 0,
total entre las
intervalo [- dos variables existe una variables existe una
dos variables
1,1], denominada r correlación son independ correlación
llamada relac
indicando el elación positiva. ientes: negativa.
ión inversa:
signo el directa: pueden
cuando una
sentido de la cuando una existir
de ellas
relación: de ellas todavía
aumenta, la
aumenta, la relaciones no
otra
otra también lineales entre
disminuye en
lo hace en las dos
proporción
proporción variables.
constante
constante.
Bibliografía:
ARNOL Naiman, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D.F. Editorial Mc Graw Hill
1987
.
REGRESIÓN EXPONENCIAL
Bibliografía: https://www.excelfreeblog.com/pronostico-con-tendencia-exponencial-en-excel/
COMO SABEMOS QUE UTILIZAREMOS LA
REGRESIÓN EXPONENCIAL
Bibliografía;:Anderson D., Sweeney D., Williams T. Estadística para la administración y economía. Décima edición. Cengage
Learning. 2008
APLICACIONES DEL MODELO EXPONENCIAL
LAS FUNCIONES EXPONENCIALES TIENEN MUCHAS APLICACIONES, EN
ESPECIAL ELLAS DESCRIBEN EL CRECIMIENTO DE MUCHAS CANTIDADES DE
LA VIDA REAL.
Bibliografía: Devore J. Probabilidad y Estadística para ingeniería y ciencias. Séptima edición. Cengage Learning.
2008
ECUACIÓN EXPONENCIAL
En la producción de herramientas, el
X: deformación
método para deformar acero a (en mm)
6 9 11 13 22 26 28 33 35
temperatura normal mantiene una
relación inversa con la dureza del Y: dureza Brinell
68 67 65 53 44 40 37 34 32
(en )
mismo ya que, a medida que la
deformación crece, se ve afectada la
dureza del acero. Para investigar esta
relación se ha tomado la siguiente
muestra:
DIAGRAMA DE DISPERCION
60
50
40
30
20
10
0
6 9 11 13 22 26 28 33 35
Deformación (en mm)
Y: dureza Brinell (en Kg/mm2)
ECUACIÓN POTENCIAL
Definición
Teniendo datos históricos observados sobre la demanda, oferta o la variable que se quiera proyectar, podemos graficar la
nube de puntos y observar la distribución de los mismos, así como apreciar si los puntos se aproximan a alguna función.
80
70
6 76.7274996
11 57.983589 50
POTENCIAL (Y:
13 53.6758407 dureza Brinell (en
40 Kg/mm2))
22 42.0917273
30
26 38.9646259
37.6528378 20
28
33 34.8998518 10
35 33.9636869 0
0 10 20 30 40
Formula Sustitución
R=1.0190093 -3
-5
-3
-3
Bibliografía: ÁVILA BARAY, H.L. (2006) Introducción a la metodología de la investigación. Edición electrónica. Texto
completo en: www.eumed.net/libros/2006c/203/CASTRO, Gabriela (2006)
LA ECUACIÓN SE CARACTERIZA
la ecuación se transforma
aplicando logaritmos de
La función que define el ambos lados, con lo cual se
modelo es la siguiente: convierte a una forma
Yi=A*XBi* E lineal: Ln yi= Ln a +b*Ln
xi
En la producción de herramientas, el
X: método para deformar acero a
deformaci
6 9 11 13 22 26 28 33 35 temperatura normal mantiene una
ón (en
mm) relación inversa con la dureza del mismo
ya que, a medida que la deformación
crece, se ve afectada la dureza del acero.
Y: dureza Para investigar esta relación se ha
Brinell (en
)
68 67 65 53 44 40 37 34 32 tomado la siguiente muestra:
DIAGRAMA DE DISPERCION
60
50
40
30
20
10
0
0 10 20 30 40
Formula:
68 72.9479784 48.8888889 578.839788 365.234567
^
𝑦 =𝑎 ln 𝑥 +𝑏
^
𝑦 =𝑎 +𝑏 ln 𝑥
ANÁLISIS ENTRE LAS CURVAS POR LOS TRES MÉTODOS
90
70
40
30
20
10
80
Dureza Brinell (en Kg/mm2)
60
Exponencial (Y: dureza Brinell (en
Kg/mm2))
50
30
20
LOGARITMICA (Y: dureza Brinell
(Kg/mm2))
10
0
0 10 20 30 40
250,000
200,000
150,000
Oferta (Y)
100,000
50,000
0
0 2 4 6 8 10 12
Tiempo (X)
ECUACIÓN POTENCIAL
1 100,000 0 5 0 0
2 120,000 0.301029996 5.079181246 0.090619058 1.528985908
3 140,000 0.477121255 5.146128036 0.227644692 2.455327065
4 110,000 0.602059991 5.041392685 0.362476233 3.035220836
5 170 ,000 0.698970004 5.230448921 0.488559067 3.655926905
6 150,000 0.77815125 5.176091259 0.605519368 4.027781885
7 180,000 0.84509804 5.255272505 0.714190697 4.441220494
8 200,000 0.903089987 5.301029996 0.815571525 4.78730711
9 210,000 0.954242509 5.322219295 0.910578767 5.078687896
10 200,000 1 5.301029996 1 5.301029996
55 1,580,000 6.559763033 51.85279394 5.215159407 34.3114881
x y Ln(x) Ln (y) Ln Ln(y)Ln(x)
1 100,000 0 5 0 0
2 120,000 0.301029996 5.079181246 0.090619058 1.528985908
3 140,000 0.477121255 5.146128036 0.227644692 2.455327065
4 110,000 0.602059991 5.041392685 0.362476233 3.035220836
5 170 ,000 0.698970004 5.230448921 0.488559067 3.655926905
6 150,000 0.77815125 5.176091259 0.605519368 4.027781885
7 180,000 0.84509804 5.255272505 0.714190697 4.441220494
8 200,000 0.903089987 5.301029996 0.815571525 4.78730711
9 210,000 0.954242509 5.322219295 0.910578767 5.078687896
10 200,000 1 5.301029996 1 5.301029996
55 1,580,000 6.559763033 51.85279394 5.215159407 34.3114881
Formulas Sustitución
10 ( 34.3114881 ) −(6.559763033)(51.85279394)
𝑏=
10 ( 5.215159407 ) − ¿ ¿
^𝑦 =𝑎 𝑥 𝑏
𝑏=𝑛 ¿ ¿ 0.3259298955
𝑎=10 𝐴 A=
A= 4.971477333
A=
𝑎=10 4.971477333
93,643.43436
^𝑦 =93,643.43436 𝑥 0.3259298955
^
𝑦 =93,643.43436 𝑥 0.3259298955 1 93,643.43436
2 117,379.4332
3 133,963.1694
4 147,131.8457
Gráfico Potencial
250000 5 158,231.3573
200000 6 167,919.0965
150000 7 176,571.2733
Oferta (Y)
100000 8 184,425.665
50000 9 191,643.2355
0
0 2 4 6 8 10 12 10 198,338.5932
Tiempo (X)
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000 93,643.43436 158000 4,141,767,540.97563 3,364,000,000
120,000 117,379.4332 158000 1,650,030,447.15326 1,444,000,000
140,000 133,963.1694 158000 577,769,225.29310 324,000,000
110,000 147,131.8457 158000 118,116,777.88861 2,304,000,000
170,000 158,231.3573 158000 53,526.20026 144,000,000
150,000 167,919.0965 158000 98,388,475.37631 64,000,000
180,000 176,571.2733 158000 344,892,191.98329 484,000,000
200,000 184,425.665 158000 698,315,770.69223 1,764,000,000
210,000 191,643.2355 158000 1,131,867,294.90846 2,704,000,000
200,000 198,338.5932 158000 1,627,202,101.35509 1,764,000,000
10,388,403,351.82620 14,360,000,000
Conclusión
0.723426417 Al observar los resultados
2
𝑅 =
∑ (^𝑦 − 𝑦)
2
5.5
0.08055318788
98,371.31307
^
𝑦 =98,371.31307 𝑒 0.08055318788 𝑥
1 106,623.3377
2 115,567.5958
3 125,262.1563
Ecuación Exponencial
4 135,769.9595
250,000.00
200,000.00 5 147,159.2255
Oferta (Y)
150,000.00
6 159,503.8971
100,000.00
50,000.00 7 172,884.1199
0.00
0 2 4 6 8 10 12 8 187,386.7627
Tíempo (X)
9 203,105.9814
492,656.89 10 220,143.8302
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000
106,623.3377 158000 2,639,561,429.08824 3,364,000,000
120,000
115,567.5958 158000 1,800,508,926.19218 1,444,000,000
140,000
125,262.1563 158000 1,071,766,410.12563 324,000,000
110,000
135,769.9595 158000 494,174,700.63164 2,304,000,000
170,000
147,159.2255 158000 117,522,391.75985 144,000,000
150,000
159,503.8971 158000 2,261,706.48739 64,000,000
180,000
172,884.1199 158000 221,537,025.19758 484,000,000
200,000
187,386.7627 158000 863,581,821.98611 1,764,000,000
210,000
203,105.9814 158000 2,034,549,558.05715 2,704,000,000
200,000
220,143.8302 158000 3,861,855,631.92643 1,764,000,000
13,107,319,601.45220 Conclusión
1,573,406.87
Al observar los resultados
obtenidos vemos que con el
𝑅 2
=
∑ (^𝑦 − 𝑦)
2
coeficiente de determinación
∑ ( 𝑦 − 𝑦 )2 0.912765989 podemos sacar la raíz cuadrada,
R= 0.955387874
y como no puede dar mayor a 1,
esta correcto
ECUACIÓN LOGARÍTMICA
x y
1 100000 0 0 0
2 120000 0.69314 0.48045 83,177.66
3 140000 1.0986 1.20694 153,805.72
4 110000 1.3862 1.92181 152,492.37
5 170000 1.6094 2.59029 273,604.44
6 150000 1.79175 3.2104 268,763.92
7 180000 1.94591 3.78656 350,263.8268
8 200000 2.07944 4.32407 415,888.30
9 210000 2.197224 4.82779 461,417.16
10 200000 2.302585 5.30189 460,517.01
=55 y=1,580,000 =15.104249 27.6502 2,619,930.407
ECUACIÓN LOGARÍTMICA
Formulas
Sustitución
^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏
1 85,089.39545
2 118,548.7088
Ecuación Logarítmica
250,000.00 3 138,121.1524
200,000.00
4 152,008.0221
150,000.00
Oferta (Y)
100,000.00 5 162,779.5151
50,000.00
6 171,580.4657
0.00
0 2 4 6 8 10 12
7 179,021.5634
Tiempo (X)
8 185,467.3354
9 191,152.9093
10 196,238.8284
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000 85,089.39545 158000 5,315,956,255.84648 3,364,000,000
120,000 118,548.7088 158000 1,556,404,377.34720 1,444,000,000
140,000 138,121.1524 158000 395,168,581.90403 324,000,000
110,000 152,008.0221 158000 35,903,799.15409 2,304,000,000
170,000 162,779.5151 158000 22,843,764.59113 144,000,000
150,000 171,580.4657 158000 184,429,048.62888 64,000,000
180,000 179,021.5634 158000 441,906,127.78022 484,000,000
200,000 185,467.3354 158000 754,454,513.97609 1,764,000,000
210,000 191,152.9093 158000 1,099,115,395.05403 2,704,000,000
200,000 196,238.8284 158000 1,462,207,997.40465 1,764,000,000
1,580,007.90
11,268,389,861.68680
𝑅
2
=
∑ (^𝑦 − 𝑦 )2
∑ ( 𝑦 − 𝑦 )2 0.784706815 Conclusión
Al observar los resultados
R= 0.885836788
obtenidos vemos que con el
coeficiente de determinación
podemos sacar la raíz cuadrada,
y como no puede dar mayor a 1,
esta correcto
Segundo problema
Ver cual de los métodos se ajusta mejor a la nube de los siguientes puntos
Año X Y
1992 1.2 240
1993 2 280
1994 2.5 380
1995 3 500
1996 3.6 700
1997 4 700
1998 4.2 900
DIAGRAMA DE DISPERSIÓN
1000
900
800
700
600
Oferta (Y)
500
400
300
200
100
0
1 1.5 2 2.5 3 3.5 4 4.5
Tiempo (X)
ECUACIÓN POTENCIAL
Tiempo ( Oferta (Y) Ln(x) Ln (y) Ln Ln(y)Ln(x)
7 ( 44.41058355 ) −(6.992584489)(43.17476331)
𝑏=
7 ( 8.182302997 ) −¿ ¿
^𝑦 =𝑎 𝑥 𝑏
𝑏=𝑛 ¿ ¿
1.070528605
𝑎=10 𝐴 A=
A= 5.098428799
A=
𝑎=10 5.098428799
125,437.907
^𝑦 =125,437.907 𝑥1.070528605
^𝑦 =125,437.907 𝑥1.070528605 Tiempo (
1.2 152,473.5766
300,000.00 4 553,287.9879
200,000.00 4.2 582,954.9474
100,000.00
0.00
1 1.5 2 2.5 3 3.5 4 4.5
COEFICIENTE DE DETERMINACIÓN
Oferta (Y)
240 152,473.5766 528.5714286 23,087,284,596.5455 83273.46939
𝑅 2
=
∑ (^𝑦 − 𝑦)
2
280
2 5.634789603 4 31.75085387 11.26957921
380
2.5 5.940171253 6.25 35.28563451 14.85042813
500
3 6.214608098 9 38.62135382 18.6438243
129.6988669
267.8011269
Formulas Sustitución
6.16782333
2.928571429
0.449181183
Ecuación Exponencial
𝑦 =128.0427447 𝑒 0.449181183 𝑥
^
Tiempo (
1.2 219.5064398
Oferta (Y)
600
400
3.6 645.107139
200
4 772.0805494 0
1 1.5 2 2.5 3 3.5 4 4.5
Tiempo (X)
4.2 844.6523476
0.449181183 ( 4.41)
^
𝑦 =128.0427447 𝑒
^
𝑦 =928.29551
COEFICIENTE DE DETERMINACIÓN
𝑅 2
=
∑ (^𝑦 − 𝑦)
2
∑ ( 𝑦 − 𝑦 )2
240
219.5064398 528.5714286 95521.16728 83273.46939
280 0.914959192
314.4190081 528.5714286 45861.25919 61787.7551
380 R= 0.956534993
393.592893 528.5714286 18219.20507 22073.46939
500
492.7035625 528.5714286 1286.503817 816.3265306
700 Conclusión
645.107139 528.5714286 13580.57181 29387.7551
Al observar los resultados
700
772.0805494 528.5714286 59296.69193 29387.7551 obtenidos vemos que con el
coeficiente de determinación
900
844.6523476 528.5714286 99907.14737 137959.1837 podemos sacar la raíz cuadrada,
y como no puede dar mayor a 1,
3,682.061939 333,672.5465 esta correcto
ECUACION
LOGARITMICA
x y
1.2 240 0.1823215568
0.03324115007 43.75717363
2 280 0.6931471806
0.4804530139 194.0812106
2.5 380 0.9162907319
0.8395887053 348.1904781
3 500 1.098612289
1.206948961 549.3061443
3.6 700 1.280933845
1.640791516 896.6536918
4 700 1.386294361
1.921812056 970.4060528
4.2 900 1.435084525
2.059467595 1291.576073
=20.5 y=3700 =6.992684489 8.182302997 4,293.970824
Formulas
Σ𝑦 Σ ln (𝑥) Σ ln ( 𝑥 ) 𝑦 − 𝑦 Σ ln (𝑥 )
^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏 𝑦= 𝑏=𝑦 − 𝑎ln (𝑥 ) ln (𝑥 )= 𝑎=
𝑛 𝑛 Σ ln ( 𝑥 ) − ln ( 𝑥 ) Σ ln (𝑥 )
2
Sustitución
^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏
Gráfica
x
1.2 120.6815702
2 375.8273908
2.5 487.2825368
3 578.3480219 Ecuacion Logaritmica
3.6 669.413507 800
4 722.0386964 700
600
4.2 746.4082772
500
=20.5 3700
400
300
200
100
0
1 1.5 2 2.5 3 3.5 4 4.5
Coeficiente de Determinación
El diseño, plan o programa debe ser tan simple como sea posible.
Bibliografia
Probabilidad y Estadistica para ingenieros. Walpola Ed.9. Pag
507
Tabla 13.1: Absorción de humedad en agregados para concreto
Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
Datos Planteamiento SUSTITUCION
… =209376.80
K=5 grados de
libertad/ SCT= =85356.47
tratamiento
n=4 grados de SCE=209376.80-85356.47= 124020.33
FORMULAS
libertad/ Error
SCE=STC-SCT K-1=5-1=4
k(n-1)=5(6-1)=25
=21339.117
k(n-1)
=4960.8133
=4.30
Tabla 13.1: Absorción de humedad en agregados para concreto
Error SCE
Total 209376.80 29
TABLA (valor critico de la Condicion Conclusion
distribución F)
4.33015
PRUEBA DE TUKEY
El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en
parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia en un
nivel especificado. Es importante considerar la tasa de error por familia cuando se hacen comparaciones
múltiples, porque la probabilidad de cometer un error de tipo I para una serie de comparaciones es mayor
que la tasa de error para cualquier comparación individual. Para contrarrestar esta tasa de error más
elevada, el método de Tukey ajusta el nivel de confianza de cada intervalo individual para que el nivel de
confianza simultáneo resultante sea igual al valor que usted especifique.
BIBLIOGRAFIA
https://support.minitab.com/es-mx/minitab/18/
help-and-how-to/modeling-statistics/anova/
supporting-topics/multiple-comparisons/what-is-
tukey-s-method/
Comparador y tabla de Tukey
En la aplicación de esta prueba se calcula un valor w llamado el comparador de Tukey cuya definición es como
sigue:
w = q √(MSE /r)
Donde el factor q se obtiene de una tabla (Tabla de Tukey), que consta de filas de valores q para diferente número
de tratamientos o experimentos. Las columnas indican el valor de factor q para diferentes grados de libertad.
Normalmente las tablas disponibles tienen significancias relativas de 0.05 y 0.01.
En esta fórmula, dentro de la raíz cuadrada aparece el factor MSE (Cuadrado Medio del Error) divido entre r, que
indica el número de repeticiones. El MSE es un número que se obtiene normalmente a partir de un análisis de
varianzas (ANOVA).
https://www.lifeder.com/prueba-de-tukey/
Ejemplo 13.1 con Prueba Tukey
Suponga que en un experimento industrial un ingeniero le interesa la forma en que la absorción media de humedad
del concreto varía para 5 agregados de concretos diferentes. Las muestras se presentan en los datos registrados. El
modelo que se considera para esta situación es el siguiente. Se tomaron 6 observaciones de cada una de las
poblaciones, con medias M1, M2.... M5, respectivamente. Deseamos probar:
Ho= M1=M2=...M5 H1: Al menos dos de las medias no son iguales
Tabla 13.1: Absorción de humedad en agregados para concreto
Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
SUSTITUCION
Datos Planteamiento
Hipótesis.
K=5 grados de
libertad/ tratamiento
n=4 grados de libertad/
Error
FORMULAS
Diferencia de Medias
610.17 465.17 610.50 569.33
553.33
569.33
610.50
465.17
TABLA A.12 Puntos porcentuales superiores de la
distribución de rangos estudentizados. Comparación de resultado con q
Diferencia de Medias
610.17 465.17 610.50 569.33
5
56.84 88.16 57.17 16
553.33
25 4.16
40.84 104.16 41.17
569.33
0.33 145.33
Máquina Medias 610.50
145
1 553.33 465.17
2 569.33 Todos estos valores son menor que q= 119.61, por
3 610.50 lo que ninguna de las diferencias es significativa
4 465.17
5 610.17 La diferencia entre la media 4 y 5, y 4 y 3 es
mayor que q = 119.61, y esto es significativo
Diferencia de Medias
610.17 465.17 610.50 569.33
CONDICIÓN
553.33
56.84 88.16 57.17 16 Tras obtener el resultado de q, si una media es <q se considera igual, si es >q se
considera diferente
40.84 104.16 41.17
569.33
0.33 145.33
610.50
145 CONCLUSIÓN
465.17
Mediante el análisis. Se rechaza Ho. Por medio se obtienen dos medias
diferentes la cual serian 4 y 5, 4 y 3
Ejemplo 13.1 con Prueba de Ducan
El Test de Duncan es un test de comparaciones múltiples. Permite comparar las medias de los t
niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la
técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de
especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test
ANOVA.
El Test de Duncan es muy similar al Test HSD de Tukey (Ver Herbario de técnicas), pero en lugar de
trabajar con un umbral fijo trabaja con un umbral cambiante. Un umbral que dependerá del número
de medias implicadas en la comparación.
Para saber el número de medias implicadas en la comparación se ordenan las medias muestrales de
menor a mayor y así al hacer una comparación entre dos medias sabremos además de las dos medias
comparadas cuantas medias quedan dentro. Este número de medias implicadas en cualquier
comparación de medias es el parámetro p de este umbral.
1. Determine el error estándar (desviación estandar) de cada promedio, MATH, el
cual es dado por la expresión:
2. Con los grados de libertad del error y el nivel de significancia determinar los
valores de (intervalos o amplitudes estandarizadas significativos) utilizando las tablas
de amplitudes estandarizadas de Duncan dadas por Harter (1960) y que se encuentran
en el libro de Miller (1992).
3. Determinar las amplitudes minimas significativas denotadas por calculados por la
expresión:
Ejemplo 13.1
Suponga que en un experimento industrial un ingeniero le interesa la forma en que la absorción media de humedad
del concreto varía para 5 agregados de concretos diferentes. Las muestras se presentan en los datos registrados. El
modelo que se considera para esta situación es el siguiente. Se tomaron 6 observaciones de cada una de las
poblaciones, con medias M1, M2.... M5, respectivamente. Deseamos probar:
Ho= M1=M2=...M5 H1: Al menos dos de las medias no son iguales
Tabla 13.1: Absorción de humedad en agregados para concreto
Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
Datos Formulas Susitucion
RP
Hipótesis.
n :6
k: 5
4,960.8133
p 2 3 4 5
Para encontrar el valor de “rp” se necesita hacer una interpolación para cada una de las columnas
V= 2 V= 3 V= 4 V= 5
24 2.919 24 3.066 24 3.160 24 3.226
25 X= 2.91383 25 X= 3.06083 25 X= 3.15516 25 X= 3.2215
30 2.888 30 3.035 30 3.131 30 3.199
Sustitución
RP RP RP RP
RP= 83.7847 RP= 88.0116 RP= 90.7240 RP= 92.6315
Diferencia de 3 1
Medias
610.67 610.50 569.33 553.33 465.17
1 465.17 5- 4- 3- -
145.5 145.33 104.16 88.16
553.33 5-2 4-2 3-
57.34 57.17 16
3 569.33 5-3 4-3
41.34 41.17
610.50 5-4
0.17
610.67
p 2 3 4 5
1 145.5 > 92.6315 145.33 > 90.7240 104.16>88.0116 88.16 > 83.7847
Media Diferente
57.34> 90.7240 57.17< 88.0116 16 < 83.7847 Media Igual
= 92.6315 CONDICIÓN
Si las diferencias de medias son mayores que el valor calculado Rp, las medias de los
tratamientos en cuestión son diferentes estadísticamente.
Conclusión:
Como resultado, las siguientes representan medias que, usando el procedimiento de Duncan, se
encuentra que son significativamente diferentes:- ,
TEMA 4 DISEÑO DE
EXPERIMENTOS
El diseño de experimentos (DOE según sus siglas en inglés) es un método de
trabajo empleado por entidades de todos los sectores para conocer cómo funciona
un proceso, estudiar las variables que le afectan y, empleando herramientas
estadísticas, obtener la información necesaria para su mejora.
Pero en muchos casos cuando nos enfrentamos al estudio de un proceso en concreto
no sabemos por dónde empezar. Por este motivo es necesario conocer las etapas a
seguir para que el DOE sea lo más sencillo posible y nos dé respuesta a lo que
queremos conocer.
https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/
Objetivos del Diseño de Experimentos
Una de las grandes ventajas del DOE y que hace que su uso sea tan popular, es la posibilidad de estudiar un amplio
espectro de procesos y obtener respuesta a distinto tipo de cuestiones. Pero siempre debemos formularnos la
pregunta que esperamos responder antes de empezar.
Por ejemplo, podemos emplear el DOE para elegir entre distintas alternativas (qué materia prima es más óptima, qué
envase funciona mejor, qué proveedor es más adecuado para nuestras necesidades). En otros casos lo que queremos
saber es qué resulta crítico en el proceso de estudio. Obviamente son muchas las variables que afectan al resultado
final de nuestra actividad (manufactura, análisis, calibración, etc.), pero no todas tienen el mismo peso. Por eso un
objetivo del DOE puede ser conocer cómo afectan los cambios al proceso y por lo tanto que margen de variabilidad
nos podemos permitir.
https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/
1) Análisis de varianza para un criterio
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la
hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste
es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o
'factores' con respecto a la variable dependiente o de interés.
Bibliografía:
http://www.ub.edu/aplica_infor/spss/cap4-7.htm
PLANTEAMIENTO MEDIANTE BLOQUES ALETORIOS
Observaciones
Una variable bloque no presenta interacción con los factores en estudio. El modelo se dice que es de bloques
aleatorizados completos cuando en cada bloque se presentan todos los posibles tratamientos (o un múltiplo de ese
número) y dentro de cada bloque se asignan los tratamientos de forma aleatoria. En ocasiones no se pueden asignar todos
los tratamientos sobre cada bloque, de modo que se tienen los diseños por bloques aleatorizados incompletos.
Modelo
Suponemos que el número de unidades experimentales para cada bloque coincide con el número de tratamientos, esto es,
hay una observación para cada cruce de los niveles del factor y del bloque. La variable respuesta Y puede depender de un
primer factor de interés (A) y de la variable bloque (B). El modelo es: Yij = μ + αi + βj + εij para i = 1,...,a y j = 1, . . . , b,
siendo: — μ el efecto medio global — αi el efecto incremental sobre la media causado por el nivel i del factor A — βj el
efecto incremental sobre la media causado por el nivel j del bloque B — εij el término de error.
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/
Disenno/tema4DE.pdf
ANALISIS DE LA VARIANZA EN NO BLOQUES ALEATORIOS
NO BLOQUES ALEATORIOS
Uno de los diseños experimentales más sencillos es el diseño
completamente aleatorizado o de no bloques, en el que muestras
aleatorias se seleccionan de manera independiente de cada una de k
poblaciones. Este diseño comprende sólo un factor, la población de
donde proviene la medición, de aquí la designación como una
clasificación en una dirección. Hay k niveles diferentes
correspondientes a las k poblaciones, que también son los
tratamientos para esta clasificación de una dirección. No obstante, se
debe recordar que cada prueba que se realice está sujeta a la
posibilidad de error. Para comparar k=4 medias, se necesitarían seis
pruebas y se necesitarían 10 pruebas para comparar k=5 medias.
Cuantas más pruebas se realicen en un conjunto de mediciones, más
probable será que al menos una de las conclusiones sea incorrecta.
El análisis de procedimiento de varianza provee una prueba general Bibliografía:
para juzgar la igualdad de las k medias poblacionales. Ronald E. Walpole, Raymond H. Myers
y Sharon L. Myers(1999). Probabilidad
y estadística para ingenieros, México.
PEARSON Educación
¿CÓMO SE IDENTIFICA SI EL ANÁLISIS ES BLOQUE NO
ALEATORIO?
Se puede distinguir un problema de no bloques contra uno de bloques desde que se muestran los datos, ya
que en la forma de ser acomodados los de no bloques solo se dividen por tratamientos solamente, mientras
que los de bloques están divididos en tratamientos y aparte seccionados en bloques, esto para saber como
actúa cada tratamiento aplicado en cada unidad experimental de la que se tomaron los datos. El diseño de
bloque aleatorizado identifica dos factores: tratamientos y bloques, los cuales afectan la respuesta obtenida
en el experimento.
• Un diseño de bloque aleatorizado no debe usarse cuando tanto tratamientos como bloques corresponden a
factores experimentales de interés para el investigador. Al diseñar un factor como bloque, puede suponer
que el efecto del tratamiento será el mismo, cualquiera que sea el bloque que utilice. Si éste no es el caso,
los dos factores, bloques y tratamientos, se dice que interactúan y el análisis podría llevar a conclusiones
incorrectas respecto a la relación entre los tratamientos y la respuesta.
• Recuerde que el bloqueo puede no ser siempre benéfico. Cuando el SCB se elimine del SCE, el número
de grados de libertad asociado con el SCE se reduce. Para que el bloqueo sea benéfico, la información
ganada al aislar la variación de bloque debe importar más que la pérdida de grados de libertad por error,
pero, por lo general, si se sospecha que las unidades experimentales no son homogéneas y se pueden
agrupar las unidades en bloques, es bueno usar el diseño de bloque aleatorizado.
Bibliografía:
Ronald E. Walpole, Raymond H. Myers y Sharon L. Myers(1999). Probabilidad y estadística para ingenieros, México. PEARSON Educación
Planteamiento mediante tabla ANOVA de un solo factor
La técnica de análisis de varianza (ANOVA) también conocida como análisis factorial y desarrollada por
Fisher en 1930, constituye la herramienta básica para el estudio del efecto de uno o más factores (cada uno
con dos o más niveles) sobre la media de una variable continua. Es por lo tanto el test estadístico a emplear
cuando se desea comparar las medias de dos o más grupos. Esta técnica puede generalizarse también para
estudiar los posibles efectos de los factores sobre la varianza de una variable.
La hipótesis nula de la que parten los diferentes tipos de ANOVA es que la media de la variable estudiada es
la misma en los diferentes grupos, en contraposición a la hipótesis alternativa de que al menos dos medias
difieren de forma significativa. ANOVA permite comparar múltiples medias, pero lo hace mediante el estudio
de las varianzas.
El funcionamiento básico de un ANOVA consiste en calcular la media de cada uno de los grupos para a
continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, Inter varianza)
frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo
la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población
(tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza
promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras,
la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.
Bibliografía:
https://www.cienciadedatos.net/documentos/19_anova
Problema #2
Ejemplo 13.6 Se consideran cuatro máquinas diferentes, M1 , M2 M3 y M4 , para ensamblar un producto específico. Se
decidió que para comparar las máquinas se usarían 6 operadores distintos en un experimento de bloques aleatorizados. Las
máquinas se asignaron al azar a cada operador. La operación de las máquinas requiere destreza física, y se anticipó que
habría una diferencia en la velocidad con que los operadores trabajaban con las máquinas. En la tabla 13.9 se observan los
tiempos (en segundos) requeridos para ensamblar el producto.
A un nivel de significancia de 0.05, pruebe la hipótesis H0 de que las máquinas se desempeñan con el mismo índice de
velocidad promedio
Tabla 13.9 Tiempo para ensamblar el producto, en segundos
operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9
Medias 40.95 40.525 41.225 42.45 44.05 43.525
SUSTITUCION
SCT=
SCB= = 42.08
5.3081
𝑓= =3.337
1.5903
Bloques SCB b
H₀=3.29
FORMULAS DIFERENCIA DE 3 1
MEDIAS
43.23 42.57 41.42 41.3
1 41.3 4- 3- - --
1.93 1.27 0.12
41.42 4-2 3- --
--
1.81 1.15
3 42.57 4-3 -
-- --
0.66
43.23 -- -- -- --
Diferencia de
Medias 43.23 42.57 41.42 41.43
CONCLUSIÓN
41.3 1.93 1.27 0.12
41.42 1.81 1.15 Con el resultado por la prueba de Tukey, obtuvimos
42.57 0.66 que todas las medias eran iguales.
43.23
Media Igual
PRUEBA DUCAN Problema #2
Ejemplo 13.6 Se consideran cuatro máquinas diferentes, M1 , M2 M3 y M4 , para ensamblar un producto específico. Se
decidió que para comparar las máquinas se usarían 6 operadores distintos en un experimento de bloques aleatorizados. Las
máquinas se asignaron al azar a cada operador. La operación de las máquinas requiere destreza física, y se anticipó que
habría una diferencia en la velocidad con que los operadores trabajaban con las máquinas. En la tabla 13.9 se observan los
tiempos (en segundos) requeridos para ensamblar el producto.
A un nivel de significancia de 0.05, pruebe la hipótesis H0 de que las máquinas se desempeñan con el mismo índice de
velocidad promedio
Tabla 13.9 Tiempo para ensamblar el producto, en segundos
operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9
Medias 40.95 40.525 41.225 42.45 44.05 43.525
16
PLANTEAMIENTO
Al menos una de las máquinas es igual a 0 68
n (bloques): 6
k(tratamientos): 4
Υ=15
CONCLUSIÓN
CONDICIÓN
Si las diferencias de medias son mayores que el valor Son dos las medias diferentes y son
calculado Rp, las medias de los tratamientos en cuestión m1-m4 , m2-m4 .
son diferentes estadísticamente. Se rechaza Ho porque existen
diferencia significativa
ANALISIS DE LA VARIANZA PARA DOS CRITERIOS
Es un diseño de Anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.
En un Anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar
simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros
cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se
tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la
observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I),
de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto).
Ejemplo 14.1 En un experimento realizado para determinar cuál de 3 sistemas de misiles distintos es
preferible, se midió la tasa de combustión del propulsor para 24 arranques estáticos. Se emplearon 4 tipos de
combustible diferentes y el experimento generó observaciones duplicadas de las tasas de combustión para cada
combinación de los tratamientos. Los datos, ya codificados, se presentan en la tabla 14.3. Pruebe las siguientes
hipótesis: a) H0: no hay diferencia en las tasas medias de combustión del propulsor cuando se emplean
diferentes sistemas de misiles, b) H0 : no existe diferencia en las tasas medias de combustión de los 4 tipos de
propulsor, c) H0 : no hay interacción entre los distintos sistemas de misiles y los diferentes tipos de propulsor.
SUMA DE
CUADRADOS 1 2 3 4
1 1156 906.01 888.04 841
1069.29 1075.84 712.89 835.21
2 1024 912.04 823.69 761.76
1102.24 888.04 789.61 772.84
3 806.56 734.41 882.09 829.44
858.49 835.21 745.29 846.81 21097
Formulas y sustitución
=
𝚺𝒀 2
𝑺𝑪𝑻 =𝚺(𝒀 ¿¿ 𝒊𝒋)²− ¿ =92.83
𝒀… PROM. CELDAS PROMEDIO DE j PROMEDIO DE i PROMEDIO FORMULA SCAB
a-1= 2
Total STC
b-1= 3
(a-1)(b-1)= 6
ab(n-1)= 12
abn-1= 23
FUENTE DE SUMA DE GRADOS DE CUADRADO F calculada
VARIACION CUADRADOS LIBERTAD MEDIO Valores críticos de
la distribución V1=2 V1=3 V1=6
A 14.923 2 7.4615 5.793 F(0.05)(V1,V2)
B 39.993 3 13.331 10.35
AB 22.46 6 3.743 2.91 V2=12 3.89 3.49 3
Error 15.454 12 1.288
F.critica= F(gl factor, gl error, α)
Total 92.83 23 F.critica A= (2, 12, 0.05)= 3.89
F.critica B= (3, 12, 0.05)= 3.49
F.critica AB= (6, 12, 0.05)= 3
Condición
La hipótesis nula se rechaza en el nivel de
significancia cuando
Conclusión
a) Se rechaza Ho , se concluye que los sistemas de misiles dan diferentes
a) 5.793>3.89 tasas medias de combustión del propulsor.
b) 10.35>3.49
c) 2.91<3 b) Se rechaza Ho . se concluye que las medias de combustión del propulsor no
son las mismas para los 4 tipos de propulsores.
El test de Kruskal-Wallis, también conocido como test H, es la alternativa no paramétrica al test ANOVA
de una vía para datos no pareados. Se trata de una extensión del test de Mann-Whitney para más de dos
grupos. Es por lo tanto de un test que emplea rangos para contrastar la hipótesis de que k muestras han
sido obtenidas de una misma población.
A diferencia del ANOVA en el que se comparan medias, el test de Kruskal-Wallis contrasta si las
diferentes muestras están equidistribuidas y que por lo tanto pertenecen a una misma distribución
(población). Bajo ciertas simplificaciones puede considerarse que el test de Kruskal-Wallis compara las
medianas.
Supóngase que se dispone de k grupos cada uno con n observaciones. Si se ordenan todas las
observaciones de menor a mayor y se le asigna a cada una de ellas su rango, cuando se obtenga la
suma de rangos para cada uno de los grupos (Ri) es de esperar que, si se cumple la hipótesis nula,
todos los grupos tengan un valor similar. Partiendo de esta idea se calcula el estadístico H como:
Prueba de Kruskal Walls
Ejemplo 16.6 En un experimento para determinar cuál de tres diferentes sistemas de misiles es preferible, se mide la tasa de
combustión del propulsor. Los datos, después de codifi carlos, se presentan en la tabla 16.5. Utilice la prueba de Kruskal-Wallis y un
nivel de signifi cancia de α = 0.05 para probar la hipótesis de que las tasas de combustión del propulsor son iguales para los tres sistemas
de misiles..
Condición Tabla
= Se rechaza Tabla A.5 Valores Críticos de la
= Se Acepta distribución de Chi Cuadrada
Conclusion
Como h: 1.66 no cae en la región critica h=
5.991 no hay evidencia suficiente para
rechazar la hipótesis de que las tasas de
combustión del propulsor son iguales para los
3 sistemas
−∞ ∞
Ho=1.66 H1=5.991
PROBLEMA DISEÑO DE
EXPERIMENTO
13.1 .Se están considerando seis máquinas diferentes para la fabricación de sellos de goma y se están
comparando con respecto a la resistencia a la tensión del producto. Se utiliza una muestra aleatoria de cuatro
sellos hechos con cada máquina para determinar si la resistencia media a la tensión varía de una máquina a otra.
A continuación se presentan las medidas de la resistencia a la tensión en kilogramos por centímetro cuadrado ×
10-1 :
MAQUINAS
1 2 3 4 5 6
17.5 16.4 20.3 14.6 17.5 18.3
16.9 19.2 15.7 16.7 19.2 16.2
15.8 17.7 17.8 20.8 16.5 17.5
18.6 15.4 18.9 18.9 20.5 20.1
68,3 68.7 72.7 71 73.3 72.1
TOTAL
MEDIA 17.017 17.175 18.17 17.75 18.42 18.02
Realice el análisis de varianza a un nivel de significancia de 0.05 e indique si la resistencia
promedio a la tensión de las sesis maquinas difiere o no de manera significativa
DATOS SUSTITUCION
=17.7708
…
=209377
=4.6239166 4
FORMULAS
=3.47
SCE=SST-SSA =4.3017
Análisis de varianza para clasificación unilateral
Error SCE
=18 V1 5 =2.77
V2 2.77
18
Conclusión
Ho es aceptada con nivel de
significancia 0.05 porque no existe
diferencia significativa de la
resistencia promedio de 6 maquinas
1.328
Bibliografia
Probabilidad y Estadistica para ingenieros.
Walpola Ed.9