Trabajo Final Ordinario

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 161

Trabajo final Ordinario

ESTADÍSTICA INFERENCIAL

Docente: Ing. Rigoberto Américo Garza López


Nombre: Camila Lizbeth Alonso Muñiz
Matricula: 1928241
Carrera: IMA
Hora: M4
Salón: 4110
Semestre Agosto-Diciembre 2021.Ciudad Universitaria, San Nicolas de
los Garza a 27 de septiembre del 2021
5)Coeficiente de correlación de Pearson

6)Coeficiente de correlación de Spearman


TEMARIO
7)Relación entre el coeficiente de correlación de Pearson y de Spearman

8)Varianza y desviación estándar

9)Relación entre desviación estándar y el error estándar en la mejor estimación de la recta

10)Coeficiente de determinación

11)Relación entre el coeficiente de determinación y el coeficiente de correlación de Pearson

12)Intervalos de confianza

■ Intervalo de confianza para

■ Intervalo de confianza para

■ Intervalo de confianza para

■ Intervalo de confianza para prediccion

13)Prueba de hipótesis para

14)Prueba de hipótesis para

15)Metodo de analisis para varianza


Tema 2: Regresión lineal múltiple y correlación
1)Regresión Polinomial.
2)Coeficiente de determinación.
Tema 3: Regresión no lineal múltiple
1)Diferencia entre la regression no lineal multiple y regression lineal multiple
2)Ecuación potencial
3)Coeficiente de determinación y grafica
4)Ecuación exponencial
5)Coeficiente de determinación y grafica
6)Ecuación logarítmica
7)Coeficiente de determinación y grafica

Tema 4: Diseño de experimentos


1)Análisis de varianza para un criterio
Planteamiento mediante bloques aleatorios
Planteamiento mediante tabla ANOVA de un solo factor
2) Prueba de Tukey
3) Prueba de Ducan
4)Análisis de varianza para dos criterios
5)Prueba de KruskalWalls
TEMA 1 REGRESIÓN LINEAL SIMPLE Y CORRELACION

La correlación lineal y la regresión lineal simple son métodos estadísticos


que estudian la relación lineal existente entre dos variables. En el caso de
la regresión lineal, el modelo varía según qué variable se considere
dependiente de la otra (lo cual no implica causa-efecto).

En estadística, la regresión lineal simple es un modelo de regresión lineal con una sola
variable explicativa.

La correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad


entre dos variables estadísticas.
PROBLEMA 1

Las siguientes son las calificaciones de un grupo de 9 estudiantes en


un informe de medio semestre (x) y en el examen final (y):

X Y

77 82

50 66

71 78

72 34

81 47

94 85

96 99

99 99 Bibliografia
Murray R. Spiegel. (1977). Estadistica.
67 68
Mexico: McGrawn Hill
DIAGRAMA DE FLUJO
Diagrama de flujo: Tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar
los valores de dos variables para un conjunto de datos.

X Y
Diagrama de flujo 77 82
110
50 66
100
71 78
90
72 34
80
81 47
Examen final “y”

70 94 85
60 96 99
99 99
50
67 68
40

30 Conclusión: nos ayuda para representar


de manera gráfica las calificaciones de
20 los estudiantes en dos periodos medio
45 49 53 57 61 65 69 73 77 81 85 89 93 97 semestre y examen final
Medio curso “x”
MEJOR ESTIMACIÓN DE LA RECTA
Definición:
Una línea de regresión calculada a partir de los datos muestrales, por el método de mínimos
cuadrados

x x2 y y2 xy
77 5929 82 6724 6314
50 2500 66 4356 3300
71 5041 78 6084 5538
72 5184 34 1156 2448
81 6561 47 2209 3807
94 8836 85 7225 7990
96 9216 99 9801 9504
99 9801 99 9801 9801
67 4489 68 4624 4556

=57,557 =658 =51,980 53,258

Conclusión : es una linea recta que se ajustara en el conjunto de calificaciones que


se nos dio para expresarlo de manera grafica.
RELACIÓN ENTRE = 𝑎 + 𝑏𝑥 ^𝒚 =𝜶+𝜷 𝒙
Considere el problema de tratar de predecir el valor de una respuesta y basada en el valor de una variable independiente x. La recta de mejor
ajuste del capítulo 3,

estuvo basada en una muestra de n observaciones bivariadas tomadas de una población más grande de medidas. La recta que describe la
relación entre y y x en la población es semejante a la recta de mejor ajuste de la muestra, pero no es igual. ¿Cómo se puede construir un modelo
de población para describir la relación entre una variable aleatoria y

y una variable x independiente relacionada? Se empieza por suponer que la variable de interés, y, está linealmente relacionada a

una variable independiente x. Para describir la relación lineal, se puede usar el modelo determinista
RELACIÓN ENTRE = 𝑎 + 𝑏𝑥
Ecuación de la recta X 𝑦 ̂ = 𝑎 + 𝑏𝑥
Formula:
77 71.889
Ambas ecuaciones nos sirven para la
50 50.91
mejor estimación de la recta , la única
diferencia es que se resuelve por el 71 67.227
método de los mínimos cuadrados 72 68.004
mientras que en la ecuación se utiliza 81 74.997
el método de regresión lineal simple. 94 85.098
96 86.652
99 88.983
Sustitución:
67 67.119
707 660.879
MEJOR ESTIMACIÓN DE LA RECTA

x y

77 82 71.88 98

50 66 50.91 84

71 78 67.22 70
^
𝒚
72 34 68.00 56

81 47 74.99
42

94 85 85.09
28
96 99 86.65
14
99 99 88.98
0
45 49 53 57 61 65 69 73 77 81 85 89 93 97
67 68 64.11
Medio curso “x
ERROR ESTÁNDAR EN LA MEJOR ESTIMACIÓN DE LA
RECTA
Definición: El error estándar de estimación mide la variabilidad o dispersión de los valores observados alrededor de
la línea de regresión

Formula: y
82 71.35 101.96
66 50.56 227.42
Sustitución: 78 66.73 115.79
34 67.50 1157.12
47 74.43 784.60
85 84.44 0.313
99 85.98 152.08
99 88.29 100.01
68 63.65 14.97

=658 = 2654.83

Conclusión : identifica de cuanto varia el valor en este caso las


calificaciones de los estudiantes de muestra a muestra
COEFICIENTE DE CORRELACIÓN DE
PEARSON
Definición: Un índice que puede utilizarse para medir el grado de relación de dos variables siempre y
cuando ambas sean cuantitativas.

x x2 y xy
FORMULAS 77 5929 82 6724 6314
50 2500 66 4356 3300
71 5041 78 6084 5538
 
72 5184 34 1156 2448
   
81 6561 47 2209 3807
94 8836 85 7225 7990
    96 9216 99 9801 9504
  99 9801 99 9801 9801
67 4489 68 4624 4556

=57,557 =658 =51,980 53,258

Conclusión : para identificar entre qué valor se encuentra y


determinar el tipo de correlación, nos sirve para medir el grado
de relación de las dos variables
COEFICIENTE DE CORRELACIÓN DE
PEARSON
Sustitución
Escala para saber el tipo de correlación

Valor Significado

Correlación
positiva
moderada

BIBLIOGRAFIA

Murray R. Spiegel. (1977). Estadistica.


Mexico: McGrawn Hill
COEFICIENTE DE CORRELACIÓN DE
SPEARMAN
Definición: Es una medida de la correlación (la asociación o interdependencia) entre dos variables
aleatorias continuas.

x Rango de x y Rango de y d d2
FORMULA
77 5 82 6 -1 1
50 1 66 3 -2 4
71 3 78 5 -2 4
72 4 34 1 3 9
81 6 47 2 4 16
94 7 85 7 0 0
SUSTITUCION 96 8 99 8.5 -0.5 0.25
99 9 99 8.5 0.5 0.25
  67 2 68 4 -2 4

         

CONCLUSION
Conclusión : nos ayudó para utilizar los rangos, números de orden de cada grupo para
poder comparar con los rangos que nos da al resolver el problema está entre dos
variables aleatorias.
Escala para saber el tipo de correlación

Significado: Correlación positiva


moderada
RELACIÓN ENTRE EL COEFICIENTE DE CORRELACIÓN DE
PEARSON Y SPEARMAN
El valor de los coeficientes de correlación de Pearson y Spearman puede variar de -1 a +1. Para que el coeficiente de correlación
de Pearson sea +1, cuando una variable aumenta, la otra variable aumenta en una cantidad consistente. Esta relación forma una
línea perfecta. El coeficiente de correlación de Spearman también es +1 en este caso.

Si la relación es que una variable aumenta cuando la otra aumenta, pero la cantidad no es consistente, el coeficiente de correlación
de Pearson es positivo pero menor que +1. El coeficiente de Spearman sigue siendo igual a +1 en este caso.

Cuando una relación es aleatoria o no existe, entonces ambos coeficientes de correlación son casi cero.

Si la relación es una línea perfecta para una relación decreciente, entonces ambos coeficientes de correlación son -1.

CONCLUSION

ambos coeficientes nos mostraron una asociación entre las variables.

BIBLIOGRAFIA

Murray R. Spiegel. (1977). Estadistica. Mexico: McGrawn Hill


VARIANZA Y DESVIACIÓN ESTÁNDAR
DEFINICION x x2 y XY
La desviación estándar mide cuánto se separan los datos. 77 5929 82 6724 6314
La varianza (que es el cuadrado de la desviación estándar) es la media de las 50 2500 66 4356 3300
diferencias con la media elevadas al cuadrado.
71 5041 78 6084 5538
72 5184 34 1156 2448
81 6561 47 2209 3807
FORMULAS SUSTITUCION
94 8836 85 7225 7990
96 9216 99 9801 9504
99 9801 99 9801 9801
67 4489 68 4624 4556

=57,557 =658 =51,980 53,258

CONCLUSION

Conclusión: nos ayudó para identificar a la media de las


desviaciones cuadráticas de una variable de carácter
aleatorio y en la desviación estándar nos ayudó para
diferenciar la puntuación común y la media de las
puntuaciones dadas en el problema.

=19.47
Bibliografia
Murray R. Spiegel. (1977). Estadistica.
Mexico: McGrawn Hill
RELACIÓN ENTRE DESVIACIÓN ESTÁNDAR Y EL
ERROR ESTÁNDAR EN LA MEJOR ESTIMACIÓN DE
LA RECTA
El error estándar de la media estima la variabilidad entre las medias de las muestras que se obtendría si se
tomaran múltiples muestras de la misma población, mientras que la desviación estándar mide la variabilidad
dentro de una muestra.

Desviación Estándar: Error estándar en la mejor estimación de la recta:

Conclusión:
Con ambos datos obtenidos pudimos sacar el valor de la distribución maestral de
los datos estadísticos que se nos dieron
COEFICIENTE DE DETERMINACIÓN
definicion
El coeficiente de determinación es una medida estadística de la bondad del ajuste o formula

fiabilidad del modelo estimado a los datos

82 71.88 73.11 1.5129 79.0321 Sustitución


66 50.91 73.11 492.84 50.5521
78 67.22 73.11 34.6921 23.9121
34 68.00 73.11
Falto la formula
26.1121 1529.5921
47 74.99 73.11
pa sacar R sin el
3.5344 681.7321
cuadrado
85 85.09 73.11 143.5204 141.3721
99 86.65 73.11 183.3316 670.2921
99 88.98 73.11
conclusion
251.8569 670.2921
68 64.11 73.11 81 26.1121 nos ayudó para evaluar la
bondad de ajuste ,
generalizado el valor de R²
=658 1218.40 definida para una linea
recta.

== 73.11
RELACIÓN ENTRE EL COEFICIENTE DE DETERMINACIÓN Y EL
COEFICIENTE DE CORRELACIÓN DE PEARSON

El Coeficiente de Determinación, es el cuadrado del coeficiente de correlación de Pearson, y da la proporción


de variación de la variable Y que es explicada por la variable X. Si la proporción es igual a 0, significa que la
variable predictora no tiene nula capacidad predictiva de la variable a predecir (Y). Cuanto mayor sea la
proporción, mejor será la predicción. Si llegara a ser igual a 1 la variable predictora explicaría toda la
variación de Y, y las predicciones no tendrían error

Coeficiente Coeficiente de correlación Comprobacion:


dedeterminación de Pearson:
R
R

Conclusión:
Fue de gran utilidad usar la tabla para comparar ambos coeficientes ya que se nos pedía hallar su relación investigue
y venia explicado que lo que tuviera en el coeficiente de correlación solo se elevara al cuadrado y ese era el
coeficiente de determinación.
INTERVALOS DE CONFIANZA
DEFINICION
Describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real).
Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad,
el valor real de una determinada variable.

Formulas
Intervalo de confianza para

Intervalo de confianza para

Intervalo de confianza para

Intervalo de confianza para


INTERVALO DE CONFIANZA PARA

Datos sustitucion

Tabla: Valores críticos de la


distribución 0.005
 
Intervalo:
7 3.499
2.2934
Formula I.C. 99%
Indica
99% de confianza en que
la pendiente de las
calificaciones están en el
intervalo de 2.2934
INTERVALO DE CONFIANZA PARA
Datos: Sustitución:  intervalo

 
 

Formula

Con probabilidad del 0.99 encontramos un intervalo de confianza en el que se cumple que el
parámetro  está entre los límites
INTERVALO DE CONFIANZA PARA
datos formulas Sustitucion

85.09
 
Muestra x
77 Intervalo:
54.325115.8547
50
71
72
81
94
96
99
67

indica
99% de confianza en que la media poblacional de las calificaciones están entre
0.005 54.325 y 115.8547
7 3.499
INTERVALO DE CONFIANZA DE PREDICCIÓN PARA

datos formulas Sustitucion


Muestra x
77 85.09
 
50
71
72
81
94 intervalo
96 20.33177.43
99
67

Indica
0.005 El intervalo para una muestra en especifica esta entre 20.33 y 177.43
7 3.499
PRUEBA DE HIPÓTESIS PARA
Consiste en aceptar la hipótesis nula cuando la cierta es la alternativa. Es la probabilidad de cometer un error de tipo ll. Es un
estudio de investigación, el error de tipo ll, también llamado de tipo beta (que es la probabilidad de que exista un error) o falso
negativo, se comete cundo el investigador no rechaza la hipótesis nula siendo esta falsa en la población. Un error de tipo ll se
comete cuando dejamos de creer en una verdad.

datos Formula sustitución


Tabla: Valores críticos de la
distribución
0.05
7 1.895

Conclusión: se acepta H0
hay una relación entre las calificaciones
de medio curso con las del examen
final.

- 1895 0.514

H0 H1
PRUEBA DE HIPÓTESIS PARA α
Consiste en aceptar la hipótesis alternativa cuando la cierta es la nula. Es la probabilidad de cometer un error de tipo l. Es un estudio de
investigación, el error de tipo l, también llamado de tipo alfa o falso positivo, es el error que se comete cundo el investigador no acepta la
hipótesis nula, siendo esta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega
a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.

datos Formula sustitución

 
TABLA DE VALORES CRÍTICOS EN T

SE ENTRA CON

0.025

7 2.365

𝐻 0 =2.365
- 2.305 0.34 0.34 2.365

H0 H1 H1 H0 Conclusión
Se acepta Ho. Hay una relación lineal
significativa entre las calificaciones de los
alumnos.
Metodo de analisis para varianza
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más
medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto
utilizar repetidamente el contraste basado en la t de Student.

El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite
comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna
manera, es la base del análisis multivariante.
Las siguientes son las calificaciones de un grupo de 9 estudiantes en un informe de medio semestre (x) y en el
examen final (y):
Datos Formula Sustitución
X Y
N:18
77 82 K:2
707 =6024.5

50 66
∑𝑦=658
=57,557 SCC
=51,980 SCC
71 78 SCC=-51689.57
Planteamiento SCE=SCT-SCC
72 34 SCE=6024.5-103512.5=97488
H₀:𝜇₁=𝜇₂
81 47

94 85
H₁:𝜇₁≠𝜇₂

96 99

99 99

67 68
Fuentes de Suma de Grados de Cuadrado
variación cuadrados libertad medio

Regresión SCC:-51698.57 K-1=1 CMT


=6093

Error SCE:97488 N-K=16 CME

TOTAL SCT: 6024.5 N-1=1 CMT -8.483


V1=1 V2=16

Tabla valores críticos de la Grafica Conclusión


distribución f
Se rechaza H₀: Se presenta una
diferencia entre las
calificaciones del grupo en el
V1=1 medio semestre y examen final
0.05
V2:16 4.49

4.49 97448
H₁ H₀
TEMA 2. REGRESION LINEAL
MULTIPLE Y CORRELACION
REGRESIÓN LINEAL MÚLTIPLE Y
CORRELACIÓN
En la mayoría de los problemas de investigación en los que se aplica el análisis de
regresión se necesita más de una variable independiente para el modelo de regresión.
La complejidad de la mayoría de mecanismos científicos es tal que, con el fin de
predecir una respuesta importante, se requiere un modelo de regresión múltiple. Cuando
un modelo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple
La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una
variable dependiente y más de una variables independientes. En este tipo de modelos
es importante testar la heterocedasticidad, la multicolinealidad y la especificación.
La correlación es una medida estadística que expresa hasta qué punto dos variables
están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante).
Es una herramienta común para describir relaciones simples sin hacer afirmaciones
sobre causa y efecto.
PROBLEMA 11.2
X Y

77 82

Las siguientes son las calificaciones de un 50 66

grupo de 9 estudiantes en un informe de


71 78
medio semestre (x) y en el examen final
(y): 72 34

81 47

94 85

96 99

99 99

67 68
• Es una forma de regresión lineal en el que
la relación entre la variable independiente X
y la variable dependiente Y se modela
como un polinomio de orden n. Regresión
polinómica se ajusta una relación no lineal
REGRESIÓN entre el valor de X y la media condicional
POLINOMIAL correspondiente de Y, denotado E, y se ha
utilizado para describir los fenómenos no
lineales tales como la tasa de crecimiento
de los tejidos, la distribución de los isótopos
de carbono en los sedimentos del lago, y la
progresión de epidemias de enfermedades.
REGRESIÓN POLINOMIAL
El procedimiento Regresión Polinomial

está diseñado para construir una modelo estadístico que describa el impacto de un solo factor cuantitativo X en una variable
dependiente Y. Se ajusta a los datos un modelo polinomial que involucra a X y potencias de X. Se realizan pruebas para
determinar el orden apropiado del polinomio. Se puede graficar el modelo ajustado con intervalos de confianza y/o
predicción. También se pueden grafican residuos e identificar observaciones influyentes.

Formulas
formulas
FORMULA PARA TRES INCÓGNITAS
DATOS

x y x²

77 82 5929 456533 3515041 6314 486178


50 66 2500 125000 6250000 3300 165000
71 78 5041 357911 25411681 5538 393198
72 34 5184 373248 26873856 2448 176256
81 47 6561 531441 43046721 3807 308367
94 85 8836 830584 78074896 7990 751060
96 99 9216 884736 84934656 9504 912384
99 99 9801 970299 96059601 9801 970299
67 68 4439 300763 20151121 4556 305252
707 = 57557 =4830515 =415955573 = 53258 4467994
ENCONTRAR EL
DETERMINANTE

Método de Cramer 9 707 57557


707 57557 4830515
9 707 57557 57557 4830515
707 57557 4830515 = 415955573
57557 4830515 415955573 9 707 57557
707 57557 4830515

=[(9X57557X41595573)+(707X4830515X57557)+(57557X707X483015
)-
(57557X57557X57557)+(483015X483015X9)+(415955573X707X707)]

=4.2292X10
ENCONTRAR

658 707 57557


658 707 57557 53258 57557 483015
Método de Cramer 53258 57557 483015 = 4467994 483015 41595573
4467994 483015 415955573 658 707 57557
53258 57557 483015

=[(658X57557X415955573)+(53258X4830515X57557)+(4467994X707X483015)]-
[57557X57557X4467994)+(483015X4830515X658)+(415955573X707X53258)]
=- 8.49969X10

=-2.0097631
15 =

9 658 57557 9 658 57557 9 658


707 53258 4830515 = 707 53258 483015 707 53258
57557 4467994 415955573 57557 4467994 415955573 57557 4468994

Encontrar

Método de Cramer
9 707 658 9 707 658 9 707
707 57557 53258 707 57557
Encontrar 707 57557
57557 483015
53258
4467994
=
57557 483015 4467994 57557 483015

Método de Cramer
= [(9X57557X4467994)+(707X53258X57557)+(658X707X483015)]-
[(658X57557X57557)+(9X53158X483015)+(707X707X4467994)]
= 7.0137

Formula:

1.6583
-2.0097631 +
ECUACIÓN DE LA RECTA POLINOMIAL

Formula:

Regresión exponencial
90
77 66.7367
80
50 50.945
70
71 62.850
60
72 63.481
50
81 69.460

Y
94 79.103 40

96 80.701 30

99 83.159 20

67 60.385 10

0
40 50 60 70 80 90 100 110
X
COEFICIENTE DE DETERMINACIÓN
definicion
El coeficiente de determinación es una medida estadística de la bondad del ajuste o fiabilidad del modelo
estimado a los datos

82 73.11 71.88 1.5129 79.0321


66 73.11 50.91 492.84 50.5521
78 73.11 67.22 34.6921 23.9121
34 73.11 68 26.1121 1529.5921
47 73.11 74.99 3.5344 681.7321
85 73.11 85.09 143.5204 141.3721
99 73.11 86.65 183.3316 670.2921
99 73.11 88.98 251.8569 670.2921
68 73.11 64.11 81 26.1121

formula Sustitucion Indica en el problema


El Ajuste lineal de este modelo es de 31.4%. Podemos
concluir que el modelo lineal es adecuado para describir la
relación que existe entre estas variables.

Bibliografia
R= http://www.monografias.com/trabajos96/analisis-
regresion-y-correlacion/analisis-regresion-y-
correlacion.shtml
TEMA 3 REGRESION NO LINEAL MULTIPLE

Regresión no lineal es un método para encontrar un modelo no lineal para la relación


entre la variable dependiente y un conjunto de variables independientes. Se pretende
obtener los valores de los parámetros asociados con la mejor curva de ajuste.
Busca relación de lineal recta entre las variables Lineal simple , no lo dicen todo, las
rectas. Los mínimos cuadrados ordinarios pueden resolverse con ejemplos de lineal
simple
Las variables dependientes e independientes deben ser cuantitativas. variables
categóricas, los tipos de variables de contraste.
Diferencia entre la regresion no lineal multiple y regresion lineal multiple

El análisis de regresión es un método estadístico común utilizado en finanzas e inversiones. La


regresión lineal es una de las técnicas más comunes para el análisis de regresión. La regresión
múltiple es una clase de regresión más amplia que incluye regresiones lineales y no lineales
con múltiples variables explicativas.

La regresión como herramienta de agrupación de datos ayuda a las personas y las empresas a
tomar decisiones informadas. La regresión involucra una variedad de variables, incluida una
variable dependiente, la variable principal que está tratando de comprender, y una variable
independiente, factores que pueden influir en la variable dependiente.
Investigación
NO LINEALES

El  método  de  mínimos  cuadrados  permite  obtener  la  mejor  recta  de 
ajuste a los datos en el caso de la regresión lineal. Sin  embargo,  no 
siempre  existe  una  relación  lineal  entre  la  variable 
dependiente e independiente y muchos modelos no son lineales en los 
parámetros, impidiendo el uso del método de mínimos cuadrados.
En algunos casos es posible aplicar transformaciones para expresar los 
datos en una forma compatible con la regresión lineal. Este es el caso 
del modelo exponencial y de potencias.
¿CUÁNDO EXISTE REGRESIÓN?

01 02 03 04
Lo primero que suele Tomar una muestra Se analizan las dos Seguidamente, se
hacerse para ver si dos aleatoria sobre cada características en representan dichos
variables aleatorias están individuo de tus medias estudio,(denominados x, valores en unos ejes
relacionadas o no. o tus datos. y y) de modo que para cartesianos, dando lugar
cada individuo se tenga a un diagrama de
un par de valores dispersión o nube de
puntos.

Bibliografía: http://www.dm.uba.ar/materias/estadistica_Q/2010/2/C014%20Regresion%20Lineal%20Simple
%20.pdf
Administración
Ecuación
(intereses e
potencial
inversiones)
EJEMPLOS DE Métodos para
APLICACIONE resolver
Ecuación
potencial
Finanzas (años-
dinero)
S problemas

Ecuación
Ventas
logarítmica
CURVAS
RESULTANTES
DE CADA
MÉTODO

Bibliografía : Editorial
Interamericana. 1980. Este
libro aborda el tema de manera
muy adecuada, incluye
ejemplos muy ilustrativos.
EL COEFICIENTE DE DETERMINACIÓN COMO LA PARTE
RELATIVA DE LA VARIACIÓN TOTAL QUE VIENE EXPLICADA
POR EL MODELO.

El coeficiente de determinación toma valores entre 0 y 1.

Todo ajuste mínimo cuadrático debe venir acompañado de su respectivo coeficiente de determinación para
poder conocer el poder representativo de la función de ajuste, es decir el valor explicativo del modelo.

Si se acepta el ajuste, en caso contrario se debe buscar otro modelo.

Para el ejemplo propuesto por lo tanto al regresión lineal es muy buen ajuste.

Bibliografía: 
ARNOL Naiman, R.
Rosenfeld, G. Zirkel.
Introducción a la Estadística.
México, D.F. Editorial Mc
Graw Hill 1987
COEFICIENTE DE CORRELACIÓN

Es una medida lineal entre dos variables aleatorias cuantitativas.


A diferencia de la covarianza, la correlación de es independiente
de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de
correlación de Pearson como un índice que puede utilizarse para
medir el grado de relación de dos variables siempre y cuando
ambas sean cuantitativas y continuas.
INTERPRETACIÓN DEL
RESULTADO DE LA CORRELACIÓN

Si r = 1,
Si r = -1,
existe una Si r = 0, no
existe una
correlación existe
correlación
positiva relación
negativa
perfecta. El lineal. Pero
perfecta. El
El valor del índice indica esto no
índice indica
índice de una necesariamen
una
correlación dependencia te implica
dependencia
varía en el total entre las Si 0 < r < 1, que las Si -1 < r < 0,
total entre las
intervalo [- dos variables existe una variables existe una
dos variables
1,1], denominada r correlación son independ correlación
llamada relac
indicando el elación positiva. ientes: negativa.
ión inversa:
signo el directa: pueden
cuando una
sentido de la cuando una existir
de ellas
relación: de ellas todavía
aumenta, la
aumenta, la relaciones no
otra
otra también lineales entre
disminuye en
lo hace en las dos
proporción
proporción variables.
constante
constante.

Bibliografía: 
ARNOL Naiman, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D.F. Editorial Mc Graw Hill
1987
 .

REGRESIÓN EXPONENCIAL

Una regresión exponencial es el proceso de encontrar la ecuación de


la función exponencial  que se ajuste mejor a un conjunto de datos.
Como un resultado, obtenemos una ecuación de la forma  donde

La regresión exponencial es un método que permite encontrar la


ecuación de la función exponencial que mejor se ajuste a un grupo de
datos y de esta manera poder estimar valores futuros de su variable
Dependiente (Y).

Bibliografía: https://www.excelfreeblog.com/pronostico-con-tendencia-exponencial-en-excel/
COMO SABEMOS QUE UTILIZAREMOS LA
REGRESIÓN EXPONENCIAL

• Sabemos que diferenciaremos a nuestra redacción exponencial de


acuerdo a uno de los criterios de decisión por que hablamos de un
crecimiento con el tiempo ya que estamos hablando de datos históricos.
CARACTERÍSTICAS PARA IDENTIFICAR EL USO DE
REGRESIÓN EXPONENCIAL.

AL TRATAR DE EXPLICAR (O PREDECIR) LA VARIABLE Y A TRAVÉS DE UNA


COVARIABLE X PUEDE OCURRIR QUE LA RELACIÓN NO SEA LINEAL

la ecuación que rige este tipo


e es el número de Euler
Los datos deben tener un de curva es y = aebx,
(2.7182)
patrón de crecimiento donde X es el valor de la
aproximadamente, a es
exponencial variable independiente y Y el
la pendiente  
de la variable dependiente

Para valorar una empresa o


analizar los ingresos del pasado negocio podemos fijar nuestra
reciente nos ayudara a darnos atención en cómo serán sus b es el punto donde corta la
una idea de lo que puede futuros resultados, si bien es recta el eje vertical.
ocurrir en el corto plazo cierto que el futuro no siempre
es igual que el pasado

Bibliografía;:Anderson D., Sweeney D., Williams T. Estadística para la administración y economía. Décima edición. Cengage
Learning. 2008 
APLICACIONES DEL MODELO EXPONENCIAL
LAS FUNCIONES EXPONENCIALES TIENEN MUCHAS APLICACIONES, EN
ESPECIAL ELLAS DESCRIBEN EL CRECIMIENTO DE MUCHAS CANTIDADES DE
LA VIDA REAL.

Los modelos de crecimiento exponencial aplican para cualquier situación


donde el crecimiento es proporcional al tamaño actual de la cantidad de
interés.

Los modelos de crecimiento exponencial a menudo son usados para


situaciones de la vida real como el interés ganado en una inversión,
población humana o animal, crecimiento de cultivo bacteria, etc.

El modelo general de crecimiento exponencial es y = C (1 + r ) t ,


donde C es la cantidad inicial o número, r es la tasa de crecimiento (por
ejemplo, una tasa de crecimiento del 2% significa r = 0.02), y t es el tiempo
transcurrido.

Bibliografía: Devore J. Probabilidad y Estadística para ingeniería y ciencias. Séptima edición. Cengage Learning.
2008
ECUACIÓN EXPONENCIAL

En algunas ecuaciones exponenciales es necesaria la aplicación


de logaritmos para poder resolverlas. Esto ocurre básicamente
cuando las exponenciales no tienen la misma base

Se utiliza en cualquier área en la que haya crecimiento. Esta


función es medular para las estadísticas, o sea es fundamental y
en la investigación no haces nada si no utilizas las estadísticas,
así es que también utilizas la función exponencial
PROBLEMA (RESUELTO POR
POTENCIAL)

En la producción de herramientas, el
X: deformación
método para deformar acero a (en mm)
6 9 11 13 22 26 28 33 35
temperatura normal mantiene una
relación inversa con la dureza del Y: dureza Brinell
68 67 65 53 44 40 37 34 32
(en )
mismo ya que, a medida que la
deformación crece, se ve afectada la
dureza del acero. Para investigar esta
relación se ha tomado la siguiente
muestra:
DIAGRAMA DE DISPERCION

Deformación y Dureza Brinell


80

Dureza Brinell (en Kg/mm2)


70

60

50

40

30

20

10

0
6 9 11 13 22 26 28 33 35
Deformación (en mm)
Y: dureza Brinell (en Kg/mm2)
ECUACIÓN POTENCIAL
Definición
Teniendo datos históricos observados sobre la demanda, oferta o la variable que se quiera proyectar, podemos graficar la
nube de puntos y observar la distribución de los mismos, así como apreciar si los puntos se aproximan a alguna función.

6 68 0.77815125 1.83250891 0.60551937 1.4259691

9 67 0.95424251 1.8260748 0.91057877 1.7425182

11 65 1.04139269 1.81291336 1.08449872 1.88795471

13 53 1.11394335 1.72427587 1.24086979 1.92074564

22 44 1.34242268 1.64345268 1.80209865 2.20620815

26 40 1.41497335 1.60205999 2.00214958 2.26687219

28 37 1.44715803 1.56820172 2.09426637 2.26943572

33 34 1.51851394 1.53147892 2.30588459 2.32557208

35 32 1.54406804 1.50514998 2.38414613 2.32405398


Formulas Definición
^𝑦 =175.606627 𝑥− 0.46210792

Deformación y Dureza Brinell


90

80

70
6 76.7274996

Dureza Brinell (en Kg/mm2)


9 63.6176877 60

11 57.983589 50
POTENCIAL (Y:
13 53.6758407 dureza Brinell (en
40 Kg/mm2))

22 42.0917273
30
26 38.9646259
37.6528378 20
28
33 34.8998518 10

35 33.9636869 0
0 10 20 30 40

Deformación (en mm)


COEFICIENTE DE DETERMINACIÓN
Definición
El coeficiente de determinación es una medida estadística de la bondad del ajuste o fiabilidad del modelo
estimado a los datos

Formula Sustitución

R=1.0190093 -3

-5

-3

-3

68 76.7274996 48.8888889 774.988246 365.234567


-3

67 63.6176877 48.8888889 216.937514 328.012345


65 57.983589 48.8888889 82.7135699 259.567901
53 53.6758407 48.8888889 22.9149075 16.9012345
44 42.0917273 48.8888889 46.2014058 23.9012347
40 38.9646259 48.8888889 98.4909961 79.0123459
37 37.6528378 48.8888889 126.248844 141.345679
34 34.8998518 48.8888889 195.693159 221.679013
32 33.9636869 48.8888889 222.761655 285.234568
• Es un modelo de regresión que se utiliza
cuando el modelo lineal no logra un
REGRESIÓN coeficiente de determinación apropiado, o
LOGARÍTMIC cuando el fenómeno en estudio tiene un
comportamiento considerado potencial o
A logarítmico
REQUISITOS DE REGRESIÓN POTENCIAL

• Análisis de varianza para la regresión


• Con el objeto de determinar si el modelo explica o no el fenómeno en estudio, se realiza el
análisis de varianza, que se calcula de la siguiente manera

: El modelo no explica el fenómeno en estudio
• : El modelo sí explica el fenómeno en estudio
• El diagrama de dispersión muestra una tendencia logarítmica, pues aunque hay incrementos
fuertes de potencia, los niveles de ruido no crecen excesivamente

Bibliografía: ÁVILA BARAY, H.L. (2006) Introducción a la metodología de la investigación. Edición electrónica. Texto
completo en: www.eumed.net/libros/2006c/203/CASTRO, Gabriela (2006)
LA ECUACIÓN SE CARACTERIZA

la ecuación se transforma
aplicando logaritmos de
La función que define el ambos lados, con lo cual se
modelo es la siguiente: convierte a una forma
Yi=A*XBi* E lineal: Ln yi= Ln a +b*Ln
xi

Bibliografía: SOTE, A. (2005) Principios de Estadística. Caracas: Panapo de Venezuela


REGRESIÓN LOGARÍTMICA
LA CURVA LOGARÍTMICA ES TAMBIÉN UNA RECTA, PERO EN LUGAR
DE ESTAR REFERIDA A LAS VARIABLES ORIGINALES X E Y, ESTÁ
REFERIDA A LOG X Y A Y.

En la producción de herramientas, el
X: método para deformar acero a
deformaci
6 9 11 13 22 26 28 33 35 temperatura normal mantiene una
ón (en
mm) relación inversa con la dureza del mismo
ya que, a medida que la deformación
crece, se ve afectada la dureza del acero.
Y: dureza Para investigar esta relación se ha
Brinell (en
)
68 67 65 53 44 40 37 34 32 tomado la siguiente muestra:
DIAGRAMA DE DISPERCION

Deformación y Dureza Brinell


80 Y: dureza Brinell (en Kg/mm2)
Dureza Brinell (en Kg/mm2)
70

60

50

40

30

20

10

0
0 10 20 30 40

Deformación (en mm)


ECUACIÓN LOGARÍTMICA
Definicion
Una ecuación logarítmica es aquella en la que la incógnita aparece en una expresión
afectada por un logaritmo

6 68 1.79175947 3.210402 121.839644

9 67 2.19722458 4.82779584 147.214047

11 65 2.39789527 5.74990174 155.863193

13 53 2.56494936 6.57896521 135.942316

22 44 3.09104245 9.55454345 136.005868

26 40 3.25809654 10.6151931 130.323862

28 37 3.33220451 11.1035869 123.291567

33 34 3.49650756 12.2255651 118.881257

35 32 3.55534806 12.6404998 113.771138


Formulas Sustitución
^𝒚 =−𝟐𝟐.𝟔𝟓𝟏𝟔𝟖𝟑𝟔 𝑳𝒏 ( 𝒙 ) +𝟏𝟏𝟑.𝟓𝟑𝟒𝟑𝟒𝟕

Deformación y Dureza Brinell


80
72.9479784
6 LOGARITMICA (Y: dureza Brinell (Kg/mm2))
70
63.7635111

Dureza Brinell (en Kg/mm2)


9
59.217982 60
11
55.4339257 50
13
43.5170314 40
22
39.7329751 30
26
38.0543047 20
28
34.332564 10
33
32.9997276 0
35 0 10 20 30 40
Deformación (en mm)
COEFICIENTE DE DETERMINACIÓN
Definición
El coeficiente de determinación es una medida estadística de la bondad del ajuste
o fiabilidad del modelo estimado a los datos

Formula:
68 72.9479784 48.8888889 578.839788 365.234567

67 63.7635111 48.8888889 221.254386 328.012345

65 59.217982 48.8888889 106.690164 259.567901

53 55.4339257 48.8888889 42.8375067 16.9012345


Sustitución:
44 43.5170314 48.8888889 28.856853 23.9012347

40 39.7329751 48.8888889 83.8307575 79.0123459

37 38.0543047 48.8888889 117.388215 141.345679

34 34.332564 48.8888889 211.886595 221.679013

32 32.9997276 48.8888889 252.465447 285.234568


ECUACIÓN LOGARÍTMICA

• La ecuación logarítmica sabemos que la podemos usar debido a que


puede sustituir a las anteriores para facilitar el proceso de selección o
decisión y observando la función o grafica poder llegar a una conclusión,
• La forma más simple de tratar de establecer la tendencia es a través de
un diagrama de dispersión o nube de puntos

^
𝑦 =𝑎 ln 𝑥 +𝑏

^
𝑦 =𝑎 +𝑏 ln 𝑥
ANÁLISIS ENTRE LAS CURVAS POR LOS TRES MÉTODOS

90

Deformación y Dureza Brinell


80

70

Dureza Brinell (en Kg/mm2) 60


Y: dureza Brinell (en Kg/mm2)
Exponencial (Y: dureza Brinell (en Kg/mm2))
50 POTENCIAL (Y: dureza Brinell (en Kg/mm2))
LOGARITMICA (Y: dureza Brinell (Kg/mm2))

40

30

20

10

Deformación (en mm)


0
0 10 20 30 40
Deformación y Dureza Brinell
90

80
Dureza Brinell (en Kg/mm2)

Y: dureza Brinell (en Kg/mm2)


70

60
Exponencial (Y: dureza Brinell (en
Kg/mm2))
50

40 POTENCIAL (Y: dureza Brinell


(en Kg/mm2))

30

20
LOGARITMICA (Y: dureza Brinell
(Kg/mm2))

10

0
0 10 20 30 40

Deformación (en mm)


CONCLUSION DE LOS 3 METODOS

Los criterios para la decisión de nuestro problema fueron que basándonos en la


redacción y hablaba de la deformación contra la dureza así que ya viendo los
diagramas de flujo y notando que nuestra grafica en la sección de logarítmica esta
en la media que supondría un mayor acierto en base a los datos y resultados desde
nuestra tabla de datos.

Suponiendo que nuestro problema hablara financieramente seria directamente


exponencial potencial pero como los datos hablan de algo de pruebas físicas se
tomo la logarítmica.
Primer problema.
Proyecte la oferta de cierto producto tomando en cuenta los datos de productos en el estudio de
mercado.
Cuál es la curva de proyección que se ajusta mejor a la nube de punto y determinar oferta para próximos
10 años?

Año Tiempo Oferta (y)


(x)
1989 1 100000
1990 2 120000
1991 3 140000
1992 4 110000
1993 5 170000
1994 6 150000
1995 7 180000
1996 8 200000
1997 9 210000
1998 10 200000
DIAGRAMA DE DISPERSIÓN

250,000

200,000

150,000
Oferta (Y)

100,000

50,000

0
0 2 4 6 8 10 12
Tiempo (X)
ECUACIÓN POTENCIAL

x y Ln(x) Ln (y) Ln Ln(y)Ln(x)

1 100,000 0 5 0 0
2 120,000 0.301029996 5.079181246 0.090619058 1.528985908
3 140,000 0.477121255 5.146128036 0.227644692 2.455327065
4 110,000 0.602059991 5.041392685 0.362476233 3.035220836
5 170 ,000 0.698970004 5.230448921 0.488559067 3.655926905
6 150,000 0.77815125 5.176091259 0.605519368 4.027781885
7 180,000 0.84509804 5.255272505 0.714190697 4.441220494
8 200,000 0.903089987 5.301029996 0.815571525 4.78730711
9 210,000 0.954242509 5.322219295 0.910578767 5.078687896
10 200,000 1 5.301029996 1 5.301029996
55 1,580,000 6.559763033 51.85279394 5.215159407 34.3114881
x y Ln(x) Ln (y) Ln Ln(y)Ln(x)

1 100,000 0 5 0 0
2 120,000 0.301029996 5.079181246 0.090619058 1.528985908
3 140,000 0.477121255 5.146128036 0.227644692 2.455327065
4 110,000 0.602059991 5.041392685 0.362476233 3.035220836
5 170 ,000 0.698970004 5.230448921 0.488559067 3.655926905
6 150,000 0.77815125 5.176091259 0.605519368 4.027781885
7 180,000 0.84509804 5.255272505 0.714190697 4.441220494
8 200,000 0.903089987 5.301029996 0.815571525 4.78730711
9 210,000 0.954242509 5.322219295 0.910578767 5.078687896
10 200,000 1 5.301029996 1 5.301029996
55 1,580,000 6.559763033 51.85279394 5.215159407 34.3114881
Formulas Sustitución

10 ( 34.3114881 ) −(6.559763033)(51.85279394)
𝑏=
10 ( 5.215159407 ) − ¿ ¿
^𝑦 =𝑎 𝑥 𝑏

𝑏=𝑛 ¿ ¿ 0.3259298955

𝑎=10 𝐴 A=

A= 4.971477333
A=

𝑎=10 4.971477333
93,643.43436

^𝑦 =93,643.43436 𝑥 0.3259298955
^
𝑦 =93,643.43436 𝑥 0.3259298955 1 93,643.43436

2 117,379.4332

3 133,963.1694

4 147,131.8457
Gráfico Potencial
250000 5 158,231.3573

200000 6 167,919.0965

150000 7 176,571.2733
Oferta (Y)

100000 8 184,425.665

50000 9 191,643.2355

0
0 2 4 6 8 10 12 10 198,338.5932
Tiempo (X)
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000 93,643.43436 158000 4,141,767,540.97563 3,364,000,000
120,000 117,379.4332 158000 1,650,030,447.15326 1,444,000,000
140,000 133,963.1694 158000 577,769,225.29310 324,000,000
110,000 147,131.8457 158000 118,116,777.88861 2,304,000,000
170,000 158,231.3573 158000 53,526.20026 144,000,000
150,000 167,919.0965 158000 98,388,475.37631 64,000,000
180,000 176,571.2733 158000 344,892,191.98329 484,000,000
200,000 184,425.665 158000 698,315,770.69223 1,764,000,000
210,000 191,643.2355 158000 1,131,867,294.90846 2,704,000,000
200,000 198,338.5932 158000 1,627,202,101.35509 1,764,000,000
10,388,403,351.82620 14,360,000,000

Conclusión
0.723426417 Al observar los resultados
2
𝑅 =
∑ (^𝑦 − 𝑦)
2

obtenidos vemos que con el


∑ ( 𝑦 − 𝑦 )2 R= 0.850544777
coeficiente de determinación
podemos sacar la raíz cuadrada,
y como no puede dar mayor a 1,
esta correcto
ECUACIÓN EXPONENCIAL
Tiempo ( Oferta (
100,000
1 11.51292546 1 11.512925546
120,000
2 11.69524702 4 23.39049404
140,000
3 11.8493977 9 35.5481931
110,000
4 11.60823564 16 46.43294258
170,000
5 12.04355372 25 60.21776858
150,000
6 11.91839057 36 71.51034344
180,000
7 12.10071213 49 84.70498491
200,000
8 12.20607265 64 97.64858116
210,000
9 12.25486281 81 110.2937653
200,000
10 12.20607265 100 122.0607265
Formulas Sustitución

5.5

0.08055318788

98,371.31307
^
𝑦 =98,371.31307 𝑒 0.08055318788 𝑥
1 106,623.3377

2 115,567.5958

3 125,262.1563
Ecuación Exponencial
4 135,769.9595
250,000.00

200,000.00 5 147,159.2255
Oferta (Y)

150,000.00
6 159,503.8971
100,000.00

50,000.00 7 172,884.1199
0.00
0 2 4 6 8 10 12 8 187,386.7627
Tíempo (X)
9 203,105.9814

492,656.89 10 220,143.8302
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000
106,623.3377 158000 2,639,561,429.08824 3,364,000,000

120,000
115,567.5958 158000 1,800,508,926.19218 1,444,000,000

140,000
125,262.1563 158000 1,071,766,410.12563 324,000,000

110,000
135,769.9595 158000 494,174,700.63164 2,304,000,000

170,000
147,159.2255 158000 117,522,391.75985 144,000,000

150,000
159,503.8971 158000 2,261,706.48739 64,000,000

180,000
172,884.1199 158000 221,537,025.19758 484,000,000

200,000
187,386.7627 158000 863,581,821.98611 1,764,000,000

210,000
203,105.9814 158000 2,034,549,558.05715 2,704,000,000

200,000
220,143.8302 158000 3,861,855,631.92643 1,764,000,000

13,107,319,601.45220 Conclusión
1,573,406.87
Al observar los resultados
obtenidos vemos que con el
𝑅 2
=
∑ (^𝑦 − 𝑦)
2
coeficiente de determinación
∑ ( 𝑦 − 𝑦 )2 0.912765989 podemos sacar la raíz cuadrada,
R= 0.955387874
y como no puede dar mayor a 1,
esta correcto
ECUACIÓN LOGARÍTMICA
x y
1 100000 0 0 0
2 120000 0.69314 0.48045 83,177.66
3 140000 1.0986 1.20694 153,805.72
4 110000 1.3862 1.92181 152,492.37
5 170000 1.6094 2.59029 273,604.44
6 150000 1.79175 3.2104 268,763.92
7 180000 1.94591 3.78656 350,263.8268
8 200000 2.07944 4.32407 415,888.30
9 210000 2.197224 4.82779 461,417.16
10 200000 2.302585 5.30189 460,517.01
=55 y=1,580,000 =15.104249 27.6502 2,619,930.407
ECUACIÓN LOGARÍTMICA
Formulas

𝑏=𝑦 − 𝑎ln ⁡(𝑥 )


^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏 Σ ln ( 𝑥 ) 𝑦 − 𝑦 Σ ln ⁡(𝑥 )
Σ ln  (𝑥) 𝑎=
Σ ln ( 𝑥 ) − ln ( 𝑥 ) Σ ln ⁡(𝑥 )
2
ln ⁡(𝑥 )=
Σ𝑦 𝑛
𝑦=
𝑛

Sustitución

^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏
1 85,089.39545

2 118,548.7088
Ecuación Logarítmica
250,000.00 3 138,121.1524
200,000.00
4 152,008.0221
150,000.00
Oferta (Y)

100,000.00 5 162,779.5151
50,000.00
6 171,580.4657
0.00
0 2 4 6 8 10 12
7 179,021.5634
Tiempo (X)

8 185,467.3354

9 191,152.9093

10 196,238.8284
COEFICIENTE DE DETERMINACIÓN
Oferta (
100,000 85,089.39545 158000 5,315,956,255.84648 3,364,000,000
120,000 118,548.7088 158000 1,556,404,377.34720 1,444,000,000
140,000 138,121.1524 158000 395,168,581.90403 324,000,000
110,000 152,008.0221 158000 35,903,799.15409 2,304,000,000
170,000 162,779.5151 158000 22,843,764.59113 144,000,000
150,000 171,580.4657 158000 184,429,048.62888 64,000,000
180,000 179,021.5634 158000 441,906,127.78022 484,000,000
200,000 185,467.3354 158000 754,454,513.97609 1,764,000,000
210,000 191,152.9093 158000 1,099,115,395.05403 2,704,000,000
200,000 196,238.8284 158000 1,462,207,997.40465 1,764,000,000
1,580,007.90
11,268,389,861.68680

𝑅
2
=
∑ (^𝑦 − 𝑦 )2
∑ ( 𝑦 − 𝑦 )2 0.784706815 Conclusión
Al observar los resultados
R= 0.885836788
obtenidos vemos que con el
coeficiente de determinación
podemos sacar la raíz cuadrada,
y como no puede dar mayor a 1,
esta correcto
Segundo problema
Ver cual de los métodos se ajusta mejor a la nube de los siguientes puntos

Año X Y
1992 1.2 240
1993 2 280
1994 2.5 380
1995 3 500
1996 3.6 700
1997 4 700
1998 4.2 900
DIAGRAMA DE DISPERSIÓN

1000
900
800
700
600
Oferta (Y)

500
400
300
200
100
0
1 1.5 2 2.5 3 3.5 4 4.5
Tiempo (X)
ECUACIÓN POTENCIAL
Tiempo ( Oferta (Y) Ln(x) Ln (y) Ln Ln(y)Ln(x)

1.2 240 0.1823215568 5.480638923 0.9992386207


0.03324115007
2 280 0.6931471806 5.634789603 3.905738526
0.4804530139
2.5 380 0.9162907319 5.940171253 5.442923865
0.8395887053
3 500 1.098612289 6.214608098 6.827444826
1.206948961
3.6 700 1.280833845 6.551080335 8.391500525
1.640791516
4 700 1.386294361 6.551080335 9.081725728
1.921812056
4.2 900 1.435084525 6.802394763 9.76201146
2.059467595
6.992584489 43.17476331 8.182302997 44.41058355
Formulas Sustitución

7 ( 44.41058355 ) −(6.992584489)(43.17476331)
𝑏=
7 ( 8.182302997 ) −¿ ¿
^𝑦 =𝑎 𝑥 𝑏

𝑏=𝑛 ¿ ¿
1.070528605

𝑎=10 𝐴 A=

A= 5.098428799
A=

𝑎=10 5.098428799
125,437.907

^𝑦 =125,437.907 𝑥1.070528605
^𝑦 =125,437.907 𝑥1.070528605 Tiempo (

1.2 152,473.5766

Ecuación Potencial 2 263,445.0363

700,000.00 2.5 334,529.9159


600,000.00
3 406,631.2487
500,000.00
3.6 494,272.6035
400,000.00

300,000.00 4 553,287.9879
200,000.00 4.2 582,954.9474
100,000.00

0.00
1 1.5 2 2.5 3 3.5 4 4.5
COEFICIENTE DE DETERMINACIÓN
Oferta (Y)
240 152,473.5766 528.5714286 23,087,284,596.5455 83273.46939

280 263,445.0363 528.5714286 69,125,067,500.4891 61787.7551

380 334,529.9159 528.5714286 111,556,898,108.7220 22073.46939

500 406,631.2487 528.5714286 164,919,384,487.0220 816.3265306

700 494,272.6035 528.5714286 243,783,169,206.1520 29387.7551 Conclusión


700 Al observar los resultados
553,287.9879 528.5714286 305,542,972,497.8340 29387.7551
obtenidos vemos que con el
900 582,954.9474 528.5714286 339,220,483,427.2120 137959.1837 coeficiente de determinación
podemos sacar la raíz cuadrada,
1,257,235,259,823.9800 364685.7143 y como no puede dar mayor a 1,
esta correcto

𝑅 2
=
∑ (^𝑦 − 𝑦)
2

No se puede por este método


∑ ( 𝑦 − 𝑦 )2
ECUACIÓN EXPONENCIAL
Tiempo ( Oferta (
1.2 240 5.480638923 1.44 30.03740301 6.576766708

280
2 5.634789603 4 31.75085387 11.26957921

380
2.5 5.940171253 6.25 35.28563451 14.85042813

500
3 6.214608098 9 38.62135382 18.6438243

3.6 700 6.551080335 12.96 42.91665356 23.58388921

4 700 6.551080335 16 42.91665356 26.20432134

4.2 900 6.802394763 17.64 46.27257452 28.57005801

129.6988669
267.8011269
Formulas Sustitución
6.16782333

2.928571429

0.449181183
Ecuación Exponencial

𝑦 =128.0427447 𝑒 0.449181183 𝑥
^
Tiempo (
1.2 219.5064398

2 314.4190081 Ecuacion exponencial


1000
2.5 393.592893
800
3 492.7035625

Oferta (Y)
600
400
3.6 645.107139
200

4 772.0805494 0
1 1.5 2 2.5 3 3.5 4 4.5
Tiempo (X)
4.2 844.6523476

0.449181183 ( 4.41)
^
𝑦 =128.0427447 𝑒
^
𝑦 =928.29551
COEFICIENTE DE DETERMINACIÓN
𝑅 2
=
∑ (^𝑦 − 𝑦)
2

∑ ( 𝑦 − 𝑦 )2
240
219.5064398 528.5714286 95521.16728 83273.46939
280 0.914959192
314.4190081 528.5714286 45861.25919 61787.7551
380 R= 0.956534993
393.592893 528.5714286 18219.20507 22073.46939
500
492.7035625 528.5714286 1286.503817 816.3265306
700 Conclusión
645.107139 528.5714286 13580.57181 29387.7551
Al observar los resultados
700
772.0805494 528.5714286 59296.69193 29387.7551 obtenidos vemos que con el
coeficiente de determinación
900
844.6523476 528.5714286 99907.14737 137959.1837 podemos sacar la raíz cuadrada,
y como no puede dar mayor a 1,
3,682.061939 333,672.5465 esta correcto
ECUACION
LOGARITMICA
x y
1.2 240 0.1823215568
0.03324115007 43.75717363
2 280 0.6931471806
0.4804530139 194.0812106
2.5 380 0.9162907319
0.8395887053 348.1904781
3 500 1.098612289
1.206948961 549.3061443
3.6 700 1.280933845
1.640791516 896.6536918
4 700 1.386294361
1.921812056 970.4060528
4.2 900 1.435084525
2.059467595 1291.576073
=20.5 y=3700 =6.992684489 8.182302997 4,293.970824
Formulas

Σ𝑦 Σ ln  (𝑥) Σ ln ( 𝑥 ) 𝑦 − 𝑦 Σ ln ⁡(𝑥 )
^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏 𝑦= 𝑏=𝑦 − 𝑎ln ⁡(𝑥 ) ln ⁡(𝑥 )= 𝑎=
𝑛 𝑛 Σ ln ( 𝑥 ) − ln ( 𝑥 ) Σ ln ⁡(𝑥 )
2

Sustitución

^𝑦 =𝑎𝑙𝑛 ( 𝑥 ) +𝑏
Gráfica

x
1.2 120.6815702
2 375.8273908
2.5 487.2825368
3 578.3480219 Ecuacion Logaritmica
3.6 669.413507 800

4 722.0386964 700
600
4.2 746.4082772
500
=20.5 3700
400
300
200
100
0
1 1.5 2 2.5 3 3.5 4 4.5
Coeficiente de Determinación

120.6815702 240 528.571 166373.787 83273.222


375.8273908 280 528.571 23330.6102 61787.542
487.2825368 380 528.571 1704.73719 22073.342
578.3480219 500 578.571 0.04971923 6173.40204
669.413507 700 578.571 8252.36108 14745.002
722.0386964 700 578.571 20582.9799 14745.002
746.4082772 900 578.571 28169.3516 103316.602
y=3700 248413.8766
306114.1143
3700 3700

Formulas Sustitución Conclusión

Al observar los resultados obtenidos vemos que


con el coeficiente de determinación podemos
sacar la raíz cuadrada, y como no puede dar
mayor a 1, esta correcto.
R=0.90083
Tema 4: Diseño de experimentos

"Diseñar un experimento significa planear un experimento de modo que reúna la


información pertinente al problema bajo investigación. El diseño de un
experimento es la secuencia completa de pasos tomados de antemano para
asegurar que los datos apropiados se obtendrán de modo que permitan un
análisis objetivo que conduzca a deducciones válidas con respecto al problema
establecido.
OBJETIVOS DE UN DISEÑO DE EXPERIMENTOS

Proporcionar la máxima cantidad de información pertinente al problema bajo


investigación.

El diseño, plan o programa debe ser tan simple como sea posible.

La investigación debe efectuarse lo más eficientemente posible; ahorrar tiempo,


dinero, personal y material experimental.

"Proporcionar la máxima cantidad de información al mínimo


costo“
Ejemplo 13.1
Suponga que en un experimento industrial a un ingeniero le interesa la forma en que la absorción media de humedad
del concreto varía para 5 agregados de concreto diferentes. Las muestras se exponen a la humedad durante 48 horas y
se decide que para cada agregado deben probarse 6 muestras, lo que hace que se requiera probar un total de 30
muestras. En la tabla 13.1 se presentan los datos registrados. El modelo que se considera para esta situación es el
siguiente. Se tomaron 6 observaciones de cada una de las 5 poblaciones, con medias μ1 , μ2 ,..., μ5 , respectivamente.
Deseamos probar

Ho: μ1 = μ2 = ··· = μ5 , H1: Al menos dos de las medias no son


iguales.

Bibliografia
Probabilidad y Estadistica para ingenieros. Walpola Ed.9. Pag
507
Tabla 13.1: Absorción de humedad en agregados para concreto

Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
Datos Planteamiento SUSTITUCION

… =209376.80
K=5 grados de
libertad/ SCT= =85356.47
tratamiento
n=4 grados de SCE=209376.80-85356.47= 124020.33
FORMULAS
libertad/ Error
SCE=STC-SCT K-1=5-1=4

k(n-1)=5(6-1)=25
=21339.117
k(n-1)
=4960.8133

=4.30
Tabla 13.1: Absorción de humedad en agregados para concreto

Fuente de la Suma de cuadrados Grados de libertad Cuadrados medios F calculada


variación
Tratamiento SCT k-1

Error SCE

Total STC kn-1

Fuente de la Suma de cuadrados Grados de libertad Cuadrados medios F calculada


variación
Tratamiento 85356.47 5-1=4 21339.17 4.30

Error 124020.33 5(6-1)=25 4960.8133

Total 209376.80 29
TABLA (valor critico de la Condicion Conclusion
distribución F)

Se rechaza . Al menos dos de


V2 las medias muestrales no son
V1 iguales
25 2.76

4.33015
PRUEBA DE TUKEY

El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las diferencias en
parejas entre las medias de los niveles de los factores mientras controla la tasa de error por familia en un
nivel especificado. Es importante considerar la tasa de error por familia cuando se hacen comparaciones
múltiples, porque la probabilidad de cometer un error de tipo I para una serie de comparaciones es mayor
que la tasa de error para cualquier comparación individual. Para contrarrestar esta tasa de error más
elevada, el método de Tukey ajusta el nivel de confianza de cada intervalo individual para que el nivel de
confianza simultáneo resultante sea igual al valor que usted especifique.

BIBLIOGRAFIA
https://support.minitab.com/es-mx/minitab/18/
help-and-how-to/modeling-statistics/anova/
supporting-topics/multiple-comparisons/what-is-
tukey-s-method/
Comparador y tabla de Tukey
En la aplicación de esta prueba se calcula un valor w llamado el comparador de Tukey cuya definición es como
sigue:

w = q √(MSE /r)

Donde el factor q se obtiene de una tabla (Tabla de Tukey), que consta de filas de valores q para diferente número
de tratamientos o experimentos. Las columnas indican el valor de factor q para diferentes grados de libertad.
Normalmente las tablas disponibles tienen significancias relativas de 0.05 y 0.01.

En esta fórmula, dentro de la raíz cuadrada aparece el factor MSE (Cuadrado Medio del Error) divido entre r, que
indica el número de repeticiones. El MSE es un número que se obtiene normalmente a partir de un análisis de
varianzas (ANOVA).

https://www.lifeder.com/prueba-de-tukey/
Ejemplo 13.1 con Prueba Tukey
Suponga que en un experimento industrial un ingeniero le interesa la forma en que la absorción media de humedad
del concreto varía para 5 agregados de concretos diferentes. Las muestras se presentan en los datos registrados. El
modelo que se considera para esta situación es el siguiente. Se tomaron 6 observaciones de cada una de las
poblaciones, con medias M1, M2.... M5, respectivamente. Deseamos probar:
Ho= M1=M2=...M5 H1: Al menos dos de las medias no son iguales
Tabla 13.1: Absorción de humedad en agregados para concreto

Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
SUSTITUCION
Datos Planteamiento
Hipótesis.

K=5 grados de
libertad/ tratamiento
n=4 grados de libertad/
Error

FORMULAS

Diferencia de Medias
610.17 465.17 610.50 569.33

553.33
569.33
610.50
465.17
TABLA A.12 Puntos porcentuales superiores de la
distribución de rangos estudentizados. Comparación de resultado con q

Diferencia de Medias
610.17 465.17 610.50 569.33

5
56.84 88.16 57.17 16
553.33
25 4.16
40.84 104.16 41.17
569.33
0.33 145.33
Máquina Medias 610.50
145
1 553.33 465.17
2 569.33 Todos estos valores son menor que q= 119.61, por
3 610.50 lo que ninguna de las diferencias es significativa
4 465.17
5 610.17 La diferencia entre la media 4 y 5, y 4 y 3 es
mayor que q = 119.61, y esto es significativo
Diferencia de Medias
610.17 465.17 610.50 569.33
CONDICIÓN

553.33
56.84 88.16 57.17 16 Tras obtener el resultado de q, si una media es <q se considera igual, si es >q se
considera diferente
40.84 104.16 41.17
569.33
0.33 145.33
610.50
145 CONCLUSIÓN
465.17
Mediante el análisis. Se rechaza Ho. Por medio se obtienen dos medias
diferentes la cual serian 4 y 5, 4 y 3
Ejemplo 13.1 con Prueba de Ducan

El Test de Duncan es un test de comparaciones múltiples. Permite comparar las medias de los t
niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la
técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de
especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test
ANOVA.

El Test de Duncan es muy similar al Test HSD de Tukey (Ver Herbario de técnicas), pero en lugar de
trabajar con un umbral fijo trabaja con un umbral cambiante. Un umbral que dependerá del número
de medias implicadas en la comparación.

Para saber el número de medias implicadas en la comparación se ordenan las medias muestrales de
menor a mayor y así al hacer una comparación entre dos medias sabremos además de las dos medias
comparadas cuantas medias quedan dentro. Este número de medias implicadas en cualquier
comparación de medias es el parámetro p de este umbral.
1. Determine el error estándar (desviación estandar) de cada promedio, MATH, el
cual es dado por la expresión:

Donde el CMEE es obtenido de la tabla Anova

2. Con los grados de libertad del error y el nivel de significancia determinar los
valores de (intervalos o amplitudes estandarizadas significativos) utilizando las tablas
de amplitudes estandarizadas de Duncan dadas por Harter (1960) y que se encuentran
en el libro de Miller (1992).
3. Determinar las amplitudes minimas significativas denotadas por calculados por la
expresión:
Ejemplo 13.1
Suponga que en un experimento industrial un ingeniero le interesa la forma en que la absorción media de humedad
del concreto varía para 5 agregados de concretos diferentes. Las muestras se presentan en los datos registrados. El
modelo que se considera para esta situación es el siguiente. Se tomaron 6 observaciones de cada una de las
poblaciones, con medias M1, M2.... M5, respectivamente. Deseamos probar:
Ho= M1=M2=...M5 H1: Al menos dos de las medias no son iguales
Tabla 13.1: Absorción de humedad en agregados para concreto

Agregado 1 2 3 4 5
551 595 639 417 563
457 580 615 449 631
450 508 511 517 522
731 583 573 438 613
499 633 648 415 656
632 517 677 555 679
Total 3320 3416 3663 2791 3664 16854
Media 553.33 569.33 610.50 465.17 610.67 561.80
Datos Formulas Susitucion
RP
Hipótesis.

n :6
k: 5
4,960.8133

Medias Ordenadas de cada tratamiento en orden ascendente

medias 465.17 553.33 569.33 610.50 610.67


Tabla A-13 “Tabla A.13 Rangos estudentizados significativos mínimos rp (0.05; p, v)”

p 2 3 4 5

rp 2.9138 3.0608 3.1551 3.2215

Rp 83.7847 88.0116 90.7240 92.6315

Para encontrar el valor de “rp” se necesita hacer una interpolación para cada una de las columnas

V= 2 V= 3 V= 4 V= 5
24 2.919 24 3.066 24 3.160 24 3.226
25 X= 2.91383 25 X= 3.06083 25 X= 3.15516 25 X= 3.2215
30 2.888 30 3.035 30 3.131 30 3.199
Sustitución
RP RP RP RP
RP= 83.7847 RP= 88.0116 RP= 90.7240 RP= 92.6315
Diferencia de 3 1
Medias
610.67 610.50 569.33 553.33 465.17
1 465.17 5- 4- 3- -
145.5 145.33 104.16 88.16
553.33 5-2 4-2 3-
57.34 57.17 16
3 569.33 5-3 4-3
41.34 41.17
610.50 5-4
0.17
610.67

p 2 3 4 5

rp 2.9138 3.0608 3.1551 3.2215

Rp 83.7847 88.0116 90.7240 92.6315


5 4 3 2

1 145.5 > 92.6315 145.33 > 90.7240 104.16>88.0116 88.16 > 83.7847

Media Diferente
57.34> 90.7240 57.17< 88.0116 16 < 83.7847 Media Igual

3 41.34 > 88.0116 41.17< 83.7847

0.17 < 83.7847

= 92.6315 CONDICIÓN
Si las diferencias de medias son mayores que el valor calculado Rp, las medias de los
tratamientos en cuestión son diferentes estadísticamente.

Conclusión:
Como resultado, las siguientes representan medias que, usando el procedimiento de Duncan, se
encuentra que son significativamente diferentes:- ,
TEMA 4 DISEÑO DE
EXPERIMENTOS
El diseño de experimentos (DOE según sus siglas en inglés) es un método de
trabajo empleado por entidades de todos los sectores para conocer cómo funciona
un proceso, estudiar las variables que le afectan y, empleando herramientas
estadísticas, obtener la información necesaria para su mejora.
Pero en muchos casos cuando nos enfrentamos al estudio de un proceso en concreto
no sabemos por dónde empezar. Por este motivo es necesario conocer las etapas a
seguir para que el DOE sea lo más sencillo posible y nos dé respuesta a lo que
queremos conocer. 

https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/
Objetivos del Diseño de Experimentos
Una de las grandes ventajas del DOE y que hace que su uso sea tan popular, es la posibilidad de estudiar un amplio
espectro de procesos y obtener respuesta a distinto tipo de cuestiones. Pero siempre debemos formularnos la
pregunta que esperamos responder antes de empezar.
Por ejemplo, podemos emplear el DOE para elegir entre distintas alternativas (qué materia prima es más óptima, qué
envase funciona mejor,  qué proveedor es más adecuado para nuestras necesidades). En otros casos lo que queremos
saber es qué resulta crítico en el proceso de estudio. Obviamente son muchas las variables que afectan al resultado
final de nuestra actividad (manufactura, análisis, calibración, etc.), pero no todas tienen el mismo peso. Por eso un
objetivo del DOE puede ser conocer cómo afectan los cambios al proceso y por lo tanto que margen de variabilidad
nos podemos permitir.

https://www.tcmetrologia.com/blog/diseno-de-experimentos-2/
1) Análisis de varianza para un criterio
El análisis de la varianza permite contrastar la hipótesis nula de que las medias de K poblaciones (K >2) son iguales, frente a la
hipótesis alternativa de que por lo menos una de las poblaciones difiere de las demás en cuanto a su valor esperado. Este contraste
es fundamental en el análisis de resultados experimentales, en los que interesa comparar los resultados de K 'tratamientos' o
'factores' con respecto a la variable dependiente o de interés.

El Anova requiere el cumplimiento los siguientes supuestos:


Las poblaciones (distribuciones de probabilidad de la variable dependiente
correspondiente a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen todas igual varianza (homocedasticidad).

El ANOVA se basa en la descomposición de la variación total de los datos con


respecto a la media global (SCT), que bajo el supuesto de que H0 es cierta
es una estimación de obtenida a partir de toda la información muestral,
en dos partes:
Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores de cada muestra con respecto a sus
correspondientes medias.
Variación entre muestras (SCE) o Inter grupos, cuantifica la dispersión de las medias de las muestras con respecto a la media global.

Bibliografía:
http://www.ub.edu/aplica_infor/spss/cap4-7.htm
PLANTEAMIENTO MEDIANTE BLOQUES ALETORIOS

Observaciones
Una variable bloque no presenta interacción con los factores en estudio. El modelo se dice que es de bloques
aleatorizados completos cuando en cada bloque se presentan todos los posibles tratamientos (o un múltiplo de ese
número) y dentro de cada bloque se asignan los tratamientos de forma aleatoria. En ocasiones no se pueden asignar todos
los tratamientos sobre cada bloque, de modo que se tienen los diseños por bloques aleatorizados incompletos.

Modelo
Suponemos que el número de unidades experimentales para cada bloque coincide con el número de tratamientos, esto es,
hay una observación para cada cruce de los niveles del factor y del bloque. La variable respuesta Y puede depender de un
primer factor de interés (A) y de la variable bloque (B). El modelo es: Yij = μ + αi + βj + εij para i = 1,...,a y j = 1, . . . , b,
siendo: — μ el efecto medio global — αi el efecto incremental sobre la media causado por el nivel i del factor A — βj el
efecto incremental sobre la media causado por el nivel j del bloque B — εij el término de error.

http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/
Disenno/tema4DE.pdf
ANALISIS DE LA VARIANZA EN NO BLOQUES ALEATORIOS

 NO BLOQUES ALEATORIOS
Uno de los diseños experimentales más sencillos es el diseño
completamente aleatorizado o de no bloques, en el que muestras
aleatorias se seleccionan de manera independiente de cada una de k
poblaciones. Este diseño comprende sólo un factor, la población de
donde proviene la medición, de aquí la designación como una
clasificación en una dirección. Hay k niveles diferentes
correspondientes a las k poblaciones, que también son los
tratamientos para esta clasificación de una dirección. No obstante, se
debe recordar que cada prueba que se realice está sujeta a la
posibilidad de error. Para comparar k=4 medias, se necesitarían seis
pruebas y se necesitarían 10 pruebas para comparar k=5 medias.
Cuantas más pruebas se realicen en un conjunto de mediciones, más
probable será que al menos una de las conclusiones sea incorrecta.
El análisis de procedimiento de varianza provee una prueba general Bibliografía:
para juzgar la igualdad de las k medias poblacionales. Ronald E. Walpole, Raymond H. Myers
y Sharon L. Myers(1999). Probabilidad
y estadística para ingenieros, México.
PEARSON Educación
¿CÓMO SE IDENTIFICA SI EL ANÁLISIS ES BLOQUE NO
ALEATORIO?
Se puede distinguir un problema de no bloques contra uno de bloques desde que se muestran los datos, ya
que en la forma de ser acomodados los de no bloques solo se dividen por tratamientos solamente, mientras
que los de bloques están divididos en tratamientos y aparte seccionados en bloques, esto para saber como
actúa cada tratamiento aplicado en cada unidad experimental de la que se tomaron los datos. El diseño de
bloque aleatorizado identifica dos factores: tratamientos y bloques, los cuales afectan la respuesta obtenida
en el experimento.
• Un diseño de bloque aleatorizado no debe usarse cuando tanto tratamientos como bloques corresponden a
factores experimentales de interés para el investigador. Al diseñar un factor como bloque, puede suponer
que el efecto del tratamiento será el mismo, cualquiera que sea el bloque que utilice. Si éste no es el caso,
los dos factores, bloques y tratamientos, se dice que interactúan y el análisis podría llevar a conclusiones
incorrectas respecto a la relación entre los tratamientos y la respuesta.
• Recuerde que el bloqueo puede no ser siempre benéfico. Cuando el SCB se elimine del SCE, el número
de grados de libertad asociado con el SCE se reduce. Para que el bloqueo sea benéfico, la información
ganada al aislar la variación de bloque debe importar más que la pérdida de grados de libertad por error,
pero, por lo general, si se sospecha que las unidades experimentales no son homogéneas y se pueden
agrupar las unidades en bloques, es bueno usar el diseño de bloque aleatorizado.

Bibliografía:
Ronald E. Walpole, Raymond H. Myers y Sharon L. Myers(1999). Probabilidad y estadística para ingenieros, México. PEARSON Educación
Planteamiento mediante tabla ANOVA de un solo factor
La técnica de análisis de varianza (ANOVA) también conocida como análisis factorial y desarrollada por
Fisher en 1930, constituye la herramienta básica para el estudio del efecto de uno o más factores (cada uno
con dos o más niveles) sobre la media de una variable continua. Es por lo tanto el test estadístico a emplear
cuando se desea comparar las medias de dos o más grupos. Esta técnica puede generalizarse también para
estudiar los posibles efectos de los factores sobre la varianza de una variable.

La hipótesis nula de la que parten los diferentes tipos de ANOVA es que la media de la variable estudiada es
la misma en los diferentes grupos, en contraposición a la hipótesis alternativa de que al menos dos medias
difieren de forma significativa. ANOVA permite comparar múltiples medias, pero lo hace mediante el estudio
de las varianzas.

El funcionamiento básico de un ANOVA consiste en calcular la media de cada uno de los grupos para a
continuación comparar la varianza de estas medias (varianza explicada por la variable grupo, Inter varianza)
frente a la varianza promedio dentro de los grupos (la no explicada por la variable grupo, intravarianza). Bajo
la hipótesis nula de que las observaciones de los distintos grupos proceden todas la misma población
(tienen la misma media y varianza), la varianza ponderada entre grupos será la misma que la varianza
promedio dentro de los grupos. Conforme las medias de los grupos estén más alejadas las unas de las otras,
la varianza entre medias se incrementará y dejará de ser igual a la varianza promedio dentro de los grupos.

Bibliografía:
https://www.cienciadedatos.net/documentos/19_anova
Problema #2
Ejemplo 13.6 Se consideran cuatro máquinas diferentes, M1 , M2 M3 y M4 , para ensamblar un producto específico. Se
decidió que para comparar las máquinas se usarían 6 operadores distintos en un experimento de bloques aleatorizados. Las
máquinas se asignaron al azar a cada operador. La operación de las máquinas requiere destreza física, y se anticipó que
habría una diferencia en la velocidad con que los operadores trabajaban con las máquinas. En la tabla 13.9 se observan los
tiempos (en segundos) requeridos para ensamblar el producto.
A un nivel de significancia de 0.05, pruebe la hipótesis H0 de que las máquinas se desempeñan con el mismo índice de
velocidad promedio
Tabla 13.9 Tiempo para ensamblar el producto, en segundos
operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9
Medias 40.95 40.525 41.225 42.45 44.05 43.525

Bibliografía: Ronald E. Walpole, Raymond H. Myers y Sharon L. Myers(1999). Probabilidad


y estadística para ingenieros, México. PEARSON Educación
DATOS PLANTEAMIENTO FORMULA
𝑎=0.05
K=4 Al menos una de
B= 6 las máquinas es
igual a 0

SUSTITUCION
SCT=

SCB= = 42.08
5.3081
𝑓= =3.337
1.5903

SCE= 81.8595 - 15.9245 - 42.08 = 23.855


= 8.416 2 23.85 5
= 5.3081 𝑠 = =1.59 03
(4 − 1)(6 − 1)
Análisis de varianza para la clasificación unilateral
Fuente de Suma de Grados de Cuadrados F calculada
variación cuadrados libertad medios
Tratamientos SCT =

Bloques SCB b

Error SCE )(b-1)

Total STC kb-1

Análisis de varianza para la clasificación unilateral


Fuente de Suma de Grados de Cuadrados F calculada
variación cuadrados libertad medios
Tratamientos 15.9245 3 5.3081
Bloques 42.08 5 8.416
Error 23.855 15 1.5903
Total 81.8595 23 15.3144
TABLA A.6 VALORES CRITICOS TOMA DE DESICIÓN CONCLUSIÓN Gráfica
DE LA DISTRIBUCIÓN F

La hipótesis nula H₀ se Se rechaza H₀ al


rechaza en el nivel de menos una de las
 
significancia cuando maquinas no
3 funcionan a la misma
15 3.29
f >f tasa.

H₀=3.29

1 3.337 mayor a 3.29 0 .1149 3.29 3.337


𝑓 0.95 ( 3,15 ) = =0.1149 H0 H0 H1

8.70
PRUEBA TUKEY Problema #2
Ejemplo 13.6 Se consideran cuatro máquinas diferentes, M1 , M2 M3 y M4 , para ensamblar un producto específico. Se
decidió que para comparar las máquinas se usarían 6 operadores distintos en un experimento de bloques aleatorizados. Las
máquinas se asignaron al azar a cada operador. La operación de las máquinas requiere destreza física, y se anticipó que
habría una diferencia en la velocidad con que los operadores trabajaban con las máquinas. En la tabla 13.9 se observan los
tiempos (en segundos) requeridos para ensamblar el producto.
A un nivel de significancia de 0.05, pruebe la hipótesis H0 de que las máquinas se desempeñan con el mismo índice de
velocidad promedio
Tabla 13.9 Tiempo para ensamblar el producto, en segundos
operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9
Medias 40.95 40.525 41.225 42.45 44.05 43.525

Bibliografía: Ronald E. Walpole, Raymond H. Myers y Sharon L. Myers(1999). Probabilidad


y estadística para ingenieros, México. PEARSON Educación
SUSTITUCION
Datos Planteamiento

n (bloques): 6 Ho: Al menos una de las máquinas es igual a


k(tratamientos): 0
4

FORMULAS DIFERENCIA DE 3 1
MEDIAS
43.23 42.57 41.42 41.3

1 41.3 4- 3- - --
1.93 1.27 0.12
41.42 4-2 3- --
--
1.81 1.15
3 42.57 4-3 -
-- --
0.66
43.23 -- -- -- --

Total 247.8 258.3 255.4 259.4


medias 41.3 41.283 42.566 43.233 168.482
TABLA A.12 Puntos porcentuales Máquina Medias
superiores de la distribución de rangos
1 41.3
estudentizados.
2 41.42
3 42.57
4 43.23
4
15 4.06 CONDICIÓN
Tras obtener el resultado de q, si una media es <q se
considera igual, si es >q se considera diferente

Diferencia de
Medias 43.23 42.57 41.42 41.43
CONCLUSIÓN
41.3 1.93 1.27 0.12
41.42 1.81 1.15 Con el resultado por la prueba de Tukey, obtuvimos
42.57 0.66 que todas las medias eran iguales.
43.23

Media Igual
PRUEBA DUCAN Problema #2
Ejemplo 13.6 Se consideran cuatro máquinas diferentes, M1 , M2 M3 y M4 , para ensamblar un producto específico. Se
decidió que para comparar las máquinas se usarían 6 operadores distintos en un experimento de bloques aleatorizados. Las
máquinas se asignaron al azar a cada operador. La operación de las máquinas requiere destreza física, y se anticipó que
habría una diferencia en la velocidad con que los operadores trabajaban con las máquinas. En la tabla 13.9 se observan los
tiempos (en segundos) requeridos para ensamblar el producto.
A un nivel de significancia de 0.05, pruebe la hipótesis H0 de que las máquinas se desempeñan con el mismo índice de
velocidad promedio
Tabla 13.9 Tiempo para ensamblar el producto, en segundos
operador
Maquina 1 2 3 4 5 6 Total
1 42.5 39.3 39.6 39.9 42.9 43.6 247.8
2 39.8 40.1 40.5 42.3 42.5 43.1 248.3
3 40.2 40.5 41.3 43.4 44.9 45.1 255.4
4 41.3 42.2 43.5 44.2 45.9 42.3 259.4
Total 163.8 162.1 164.9 169.8 176.2 174.1 1010.9
Medias 40.95 40.525 41.225 42.45 44.05 43.525

Bibliografía: Ronald E. Walpole, Raymond H. Myers y Sharon L. Myers(1999). Probabilidad


y estadística para ingenieros, México. PEARSON Educación
DATOS FORMULA SUSTITUCION

16
PLANTEAMIENTO
Al menos una de las máquinas es igual a 0 68
n (bloques): 6
k(tratamientos): 4
Υ=15

“Tabla A.13 Rangos estudentizados significativos mínimos


rp (0.05; p, Υ)”
P 2 3 4
rp 3.014 3.16 3.25
DIFERENCIAS DE 3 1 Diferencia de Medias
MEDIAS 43.23 42.56 41.38
43.23 42.57 41.42 41.3
41.3
1 41.3 4- 3- -
1.93 1.27 0.12 41.38
41.42 4-2 3-
1.81 1.15
42.56
3 42.57 4-3
0.66
43.23
Diferencia de
Medias 43.23 42.57 41.42 41.43
41.3 1.93>1.67 1.27<1.62 0.12<1.55
31 68 16
41.42 1.81>1.62 1.15<1.55 16
68 16
42.57 0.66<1.62 68
68 Media Diferente
43.23
Media Igual

CONCLUSIÓN
CONDICIÓN
Si las diferencias de medias son mayores que el valor Son dos las medias diferentes y son
calculado Rp, las medias de los tratamientos en cuestión m1-m4 , m2-m4 .
son diferentes estadísticamente. Se rechaza Ho porque existen
diferencia significativa
ANALISIS DE LA VARIANZA PARA DOS CRITERIOS

Es un diseño de Anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.

En un Anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar
simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros
cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se
tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.

El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la
observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I),
de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto).
Ejemplo 14.1 En un experimento realizado para determinar cuál de 3 sistemas de misiles distintos es
preferible, se midió la tasa de combustión del propulsor para 24 arranques estáticos. Se emplearon 4 tipos de
combustible diferentes y el experimento generó observaciones duplicadas de las tasas de combustión para cada
combinación de los tratamientos. Los datos, ya codificados, se presentan en la tabla 14.3. Pruebe las siguientes
hipótesis: a) H0: no hay diferencia en las tasas medias de combustión del propulsor cuando se emplean
diferentes sistemas de misiles, b) H0 : no existe diferencia en las tasas medias de combustión de los 4 tipos de
propulsor, c) H0 : no hay interacción entre los distintos sistemas de misiles y los diferentes tipos de propulsor.

Tabla 14.3 Tasas de combustión del Propulsor


Sistemas de Misiles Tipo de Propulsor

34.0 30.1 29.8 29.0


32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
Tipo de Propulsor
Sistema de
Misiles
b1 b2 b3 b4 PROMEDIO DE

a1 33.35 31.45 28.25 28.95 30.5

a2 32.6 30 28.4 27.7 29.675

a3 28.85 28 28.5 28.95 28.575

PROMEDIO 31.6 29.817 28.383 28.533 29.583

SUMA DE
CUADRADOS 1 2 3 4
1 1156 906.01 888.04 841
  1069.29 1075.84 712.89 835.21
2 1024 912.04 823.69 761.76
  1102.24 888.04 789.61 772.84
3 806.56 734.41 882.09 829.44
  858.49 835.21 745.29 846.81 21097
Formulas y sustitución
=

𝚺𝒀 2
𝑺𝑪𝑻 =𝚺(𝒀 ¿¿ 𝒊𝒋)²− ¿ =92.83
𝒀… PROM. CELDAS PROMEDIO DE j PROMEDIO DE i PROMEDIO FORMULA SCAB

33.35 31.6 30.5 29.583 0.693889


𝑺𝑪𝑨𝑩=𝑌 𝑖𝑗 ∗ 𝚺(𝑌 𝑖𝑗 − 𝑌 𝑖 −𝑌 𝑗 +𝑌 …)² =22.46 32.6 31.6 29.675 29.583 0.824464
28.85 31.6 28.575 29.583 3.034564
31.45 29.82 30.5 29.583 0.508369
30 29.82 29.675 29.583 0.007744
28 29.82 28.575 29.583 0.659344
28.25 28.38 30.5 29.583 1.096209
28.4 28.38 29.675 29.583 0.005184
28.5 28.38 28.575 29.583 1.272384
28.95 28.53 30.5 29.583 0.247009
27.7 28.53 29.675 29.583 0.850084
28.95 28.53 28.575 29.583 2.039184
11.238428
SCA=14.923 SC ( AB)=22.46
SCT =92.83 SCB=39.993 𝑺𝑪𝑻 =𝑺𝑪𝑨+ 𝑺𝑪𝑩+𝑺𝑪 ( 𝑨𝑩 ) + 𝑺𝑪𝑬

𝑺𝑪𝑬 =92.83 −14.923 − 39.993 −22.46=15.454


𝑺𝟏 ² FUENTE SUMA DE GRADOS DE CUADRADO F calculada
𝒇 𝟏= =𝟓 . 𝟕𝟗𝟑 DE CUADRADOS LIBERTAD MEDIO
𝑺² VARIACIO
𝟐 𝑺𝑪𝑩 N
𝑺𝟐= =𝟏𝟑 . 𝟑𝟑𝟏 𝑺𝟐 ²
𝒃− 𝟏 𝒇 𝟐= =𝟏𝟎 . 𝟑𝟓
𝑺² A SCA
5.793
𝑺𝑪 ( 𝑨𝑩)
𝑺 𝟐𝟑= =𝟑 .𝟕𝟒𝟑 𝑺𝟑 ² B SCB
( 𝒂 −𝟏 ) ( 𝒃 − 𝟏 ) 10.35
𝒇 𝟑= =𝟐 . 𝟗𝟏
𝑺²
AB SC(AB)
2 𝑺𝑪𝑬 2.91
𝑺 = =𝟏 . 𝟐𝟖𝟖
𝒂𝒃 ( 𝒏 −𝟏 ) GRADOS DE
LIBERTAD
Error SCE

a-1= 2
Total STC
b-1= 3
(a-1)(b-1)= 6
ab(n-1)= 12
abn-1= 23
FUENTE DE SUMA DE GRADOS DE CUADRADO F calculada
VARIACION CUADRADOS LIBERTAD MEDIO Valores críticos de
la distribución V1=2 V1=3 V1=6
A 14.923 2 7.4615 5.793 F(0.05)(V1,V2)
B 39.993 3 13.331 10.35
AB 22.46 6 3.743 2.91 V2=12 3.89 3.49 3
Error 15.454 12 1.288
F.critica= F(gl factor, gl error, α)
Total 92.83 23 F.critica A= (2, 12, 0.05)= 3.89
F.critica B= (3, 12, 0.05)= 3.49
F.critica AB= (6, 12, 0.05)= 3

Condición
La hipótesis nula se rechaza en el nivel de
significancia cuando
 
Conclusión
a) Se rechaza Ho , se concluye que los sistemas de misiles dan diferentes
a) 5.793>3.89 tasas medias de combustión del propulsor.
b) 10.35>3.49
c) 2.91<3 b) Se rechaza Ho . se concluye que las medias de combustión del propulsor no
son las mismas para los 4 tipos de propulsores.

c) La interacción es insignificante a un nivel de 0.05.


Prueba de Kruskal Walls

El test de Kruskal-Wallis, también conocido como test H, es la alternativa no paramétrica al test ANOVA
de una vía para datos no pareados. Se trata de una extensión del test de Mann-Whitney para más de dos
grupos. Es por lo tanto de un test que emplea rangos para contrastar la hipótesis de que k muestras han
sido obtenidas de una misma población.

A diferencia del ANOVA en el que se comparan medias, el test de Kruskal-Wallis contrasta si las
diferentes muestras están equidistribuidas y que por lo tanto pertenecen a una misma distribución
(población). Bajo ciertas simplificaciones puede considerarse que el test de Kruskal-Wallis compara las
medianas.

H0: todas las muestras provienen de la misma población (distribución).


HA: Al menos una muestra proviene de una población con una distribución distinta.
El test de Kruskal-Wallis es el test adecuado cuando los datos tienen un orden natural, es decir,
cuando para darles sentido tienen que estar ordenados o bien cuando no se satisfacen las
condiciones para poder aplicar un ANOVA. Por ejemplo, si se quiere estudiar la diferencia entre
hombres y mujeres en una carrera, se puede disponer de dos tipos de datos: los tiempos de cada
participante (análisis con ANOVA) o las posiciones en las que ha terminado la carrera cada
participante (análisis con Kruskal-Wallis test).

Supóngase que se dispone de k grupos cada uno con n observaciones. Si se ordenan todas las
observaciones de menor a mayor y se le asigna a cada una de ellas su rango, cuando se obtenga la
suma de rangos para cada uno de los grupos (Ri) es de esperar que, si se cumple la hipótesis nula,
todos los grupos tengan un valor similar. Partiendo de esta idea se calcula el estadístico H como:
Prueba de Kruskal Walls
Ejemplo 16.6 En un experimento para determinar cuál de tres diferentes sistemas de misiles es preferible, se mide la tasa de
combustión del propulsor. Los datos, después de codifi carlos, se presentan en la tabla 16.5. Utilice la prueba de Kruskal-Wallis y un
nivel de signifi cancia de α = 0.05 para probar la hipótesis de que las tasas de combustión del propulsor son iguales para los tres sistemas
de misiles..

Tabla 14.3 Tasas de combustión del Propulsor


Sistemas de Misiles Tipo de Propulsor

34.0 30.1 29.8 29.0


32.7 32.8 26.7 28.9
32.0 30.2 28.7 27.6
33.2 29.8 28.1 27.8
28.4 27.3 29.7 28.8
29.3 28.9 27.3 29.1
1 2 3
19 18 7
1 14.5 11 n1: 5
17 6 2.5 n2:6
15.5 4 2.5 n3: 8
9.5 16 13 R1: 61.0
R1:61 5 9.5 R2:63.5
R2: 63.5 8 R3: 65.5
12
R3: 65.5
Planteamiento Formula Sustitucion
:=== -3(19+1)= 1.66
:

Condición Tabla
= Se rechaza Tabla A.5 Valores Críticos de la
= Se Acepta distribución de Chi Cuadrada

Υ= K-1 Υ= 3-1 α= 0.05


Υ= 2 5.991

Conclusion
Como h: 1.66 no cae en la región critica h=
5.991 no hay evidencia suficiente para
rechazar la hipótesis de que las tasas de
combustión del propulsor son iguales para los
3 sistemas

−∞ ∞
Ho=1.66 H1=5.991
PROBLEMA DISEÑO DE
EXPERIMENTO
13.1 .Se están considerando seis máquinas diferentes para la fabricación de sellos de goma y se están
comparando con respecto a la resistencia a la tensión del producto. Se utiliza una muestra aleatoria de cuatro
sellos hechos con cada máquina para determinar si la resistencia media a la tensión varía de una máquina a otra.
A continuación se presentan las medidas de la resistencia a la tensión en kilogramos por centímetro cuadrado ×
10-1 :

MAQUINAS
1 2 3 4 5 6
17.5 16.4 20.3 14.6 17.5 18.3
16.9 19.2 15.7 16.7 19.2 16.2
15.8 17.7 17.8 20.8 16.5 17.5
18.6 15.4 18.9 18.9 20.5 20.1
68,3 68.7 72.7 71 73.3 72.1
TOTAL
MEDIA 17.017 17.175 18.17 17.75 18.42 18.02
Realice el análisis de varianza a un nivel de significancia de 0.05 e indique si la resistencia
promedio a la tensión de las sesis maquinas difiere o no de manera significativa
DATOS SUSTITUCION
=17.7708

=209377

K=6 SCT= =85356


n=4
SCE=STC-SCT=209377-85356=124021

=4.6239166 4
FORMULAS
=3.47
SCE=SST-SSA =4.3017
Análisis de varianza para clasificación unilateral

Fuente de la variación Suma de cuadrados Grados de libertad Cuadrados medios F calculada

Tratamiento SCT k-1

Error SCE

Total STC kn-1

Análisis de varianza para clasificación unilateral

Fuente de la variación Suma de cuadrados Grados de libertad Cuadrados medios F calculada

Tratamiento 21.1195833 4 4.623916


f=4.3016
Error 62.63 3.47

Total 85.759583 23 8.1039166


Formula sustitución TABLA (valor critico de la Valor critico
distribución F)

=18 V1 5 =2.77
V2 2.77
18

Conclusión
Ho es aceptada con nivel de
significancia 0.05 porque no existe
diferencia significativa de la
resistencia promedio de 6 maquinas

Hipotesis nula se rechaza

1.328

Bibliografia
Probabilidad y Estadistica para ingenieros.
Walpola Ed.9

También podría gustarte