Coceptos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

Instituto tecnológico superior de la

región sierra

Nombre del alumno: Carlos Abimael Hernández Cruz

Maestra: Sara León

Asignatura: estadística inferencial

Proyecto: investigación

Lugar: solosuchiapas,Chiapas

Fecha: 26/11/2021
4.1 Bondad de ajuste.
La bondad de ajuste de un modelo estadístico describe lo bien que se ajusta un conjunto
de observaciones. Las medidas de bondad en general resumen la discrepancia entre los
valores observados y los valores esperados en el modelo de estudio. Tales medidas se
pueden emplear en el contraste de hipótesis, e.g. el test de normalidad de los residuos,
comprobar si dos muestras se obtienen a partir de dos distribuciones idénticas (ver test de
Kolmogorov-Smirnov), o si las frecuencias siguen una distribución específica (ver ji
cuadrada).

or bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos
originales y los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor
sea el ajuste, más útil será la regresión a la pretensión de obtener los valores de la
variable regresando a partir de la información sobre la variable regresará .

Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una
regresión de un determinado tipo u otro.

Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste
(no puede ser el error medio) será el error cuadrático medio, o varianza del residuo,
o varianza residual:

Considerando la regresión Y/X:


4.1.1 Análisis Ji-Cuadrada.
El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del mismo
nombre, sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. En
términos generales, esta prueba contrasta frecuencias observadas con las frecuencias
esperadas de acuerdo con la hipótesis nula. En este artículo se describe el uso del
estadístico ji-cuadrado para probar la asociación entre dos variables utilizando una situación
hipotética y datos simulados. Luego se describe su uso para evaluar cuán buena puede
resultar una distribución teórica, cuando pretende representar la distribución real de los
datos de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste.
Probar la bondad de un ajuste es ver en qué medida se ajustan los datos observados a una
distribución teórica o esperada. Para esto, se utiliza una segunda situación hipotética y
datos simulados.
Ejemplo

En un grupo de enfermos que se quejaban de que no dormían se les dio somníferos y


placebos. Con los siguientes resultados. Nivel de significación: 0, 05.

Paso 1: Completar la tabla de las frecuencias observadas.

Paso 2: Calcular las frecuencias teóricas.

(Es importante caer en la cuenta de que la suma de las frecuencias observadas debe de
ser igual a la suma de las frecuencias teóricas).

Para este cálculo, tenemos que basarnos en la fórmula: (total filas x total columnas) / total

– ƒe 1 (Duermen bien con somníferos):

– ƒe 2 (Duermen bien con placebos):


– ƒe 3 (Duermen mal con somníferos):

– ƒe 4 (Duermen mal con placebos):

Como dijimos antes, la suma de las frecuencias observables debía de ser igual a la suma
de las frecuencias esperadas. En este caso podemos decir, que dicho pronóstico se
cumple:

– Suma frecuencias observadas = 170

– Suma de frecuencias esperadas: 39, 71 + 85, 29 + 14, 29 + 30, 71 = 170

Paso 3: Calcular los grados de libertad. En este caso, como son dos los criterios de
clasificación, el grado de libertad se calcularía así:

Grados de libertad = (nº de filas – 1) por (nº de columnas – 1)

Grados de libertad = (2 – 1)(2 – 1) = 1 x 1 = 1

Paso 4: Calcular el valor de chi cuadrado (usando para ello la fórmula escrita al principio de
esta entrada)

Paso 5: Ver la tabla.

obtenemos pues que el valor que buscamos es 3, 84.

Paso 6: Comparar los valores.

– Valor calculado –> 2, 57

– Valor de la tabla –> 3, 84

Conclusión: como 2, 57 < 3, 84 ——–> ACEPTAMOS H0 y rechazamos H1. Podemos decir


que la diferencia no es estadísticamente significativa y que se debe al azar. Es decir, no es
lo mismo usar somíferos o placebos para dormir bien o mal en este grupo de enfermos.
4.1.2 Prueba de independencia.
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A
y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de
las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de
contingencia. Los datos se disponen de la forma.
Ejemplo
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se
seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

Sin depresión Con depresión

Deportista 38 9 47

No deportista 31 22 53

69 31 100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43


= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar
la hipótesis de independencia de caracteres con un nivel de significación del 5%,
admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.
4.1.3 Prueba de la bondad del ajuste.
Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a
determinada distribución de probabilidad (uniforme, exponencial, normal, poisson, u otra
cualquiera).
Para realizar la prueba, se clasifican los datos observados en k clases o categorías, y se
contabiliza el número de observaciones en cada clase, para posteriormente comparar la
frecuencia observada en cada clase con la frecuencia que se esperaría obtener en esa
clase si la hipótesis nula es correcta.
Ejemplo

El gerente de una planta industrial pretende determinar si el número de empleados que


asisten al consultorio médico de la planta se encuentran distribuido en forma equitativa
durante los 5 días de trabajo de la semana. Con base en una muestra aleatoria de 4
semanas completas de trabajo, se observó el siguiente número de consultas:

Lunes Martes Miércoles Jueves Viernes


49 35 32 39 45

Con a=0,05, ¿existe alguna razón para creer que el número de empleados que asisten al
consultorio médico, no se encuentra distribuido de forma equitativa durante los días de la
semana?

Solución

Una distribución uniforme lleva consigo que la probabilidad sería la misma para cada día
de la semana. Por tanto pi=0,2 para i = 1, 2, 3, 4, 5.

La hipótesis nula H0: pi=0,2 para i = 1, 2, 3, 4, 5. Dado que n=200, la frecuencia esperada
para cada día de la semana es 200*0,2=40. Luego, el valor del estadístico es:

Frecuencias Frecuencias (Ni-


Días Observadas teóricas npi)2/npi
Lunes 49 40 2,025
Martes 35 40 0,625
Miércoles 32 40 1,6
Jueves 39 40 0,025
Viernes 45 40 0,625
Suma 4,9

El estadístico sigue una chi-cuadrada con k-1 grado de libertad, con k=5. Luego

Por otro lado PRUEBA.CHI.INV(0,05;4)= 9,48772846. Como 4,9<9,48772846, no puede


rechazarse la hipótesis nula.
4.1.4 Tablas de contingencia.
Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables
categóricas. Las filas y columnas de las tablas corresponden a estas variables categóricas.

Ejemplo

después de una elección reciente entre dos candidatos, una encuesta de salida registró el
sexo y el voto de 100 electores seleccionados de manera aleatoria y los datos se tabularon
de la siguiente manera:
Candidato A Candidato B Todos

Hombre 28 20 48

Mujer 39 13 52

Todos 67 33 100

Esta tabla de contingencia cuenta las respuestas según sexo y voto. El conteo en la
intersección de la fila i y la columna j se denota como nij, y representa el número de
observaciones que muestra esa combinación de niveles. Por ejemplo, n1,2 muestra el
número de encuestados masculinos que votaron por el Candidato B.

La tabla también incluye los totales marginales para cada nivel de las variables. Los totales
marginales para las filas muestran que 52 de los encuestados fueron mujeres. Los totales
marginales para las columnas muestran que 67 encuestados votaron por el Candidato A.
Además, el total general muestra que el tamaño de la muestra es 100.

Las tablas de contingencia también pueden revelar asociaciones entre las dos variables.
Utilice una prueba de chi-cuadrada o una prueba exacta de Fisher para determinar si los
conteos observados difieren significativamente de los conteos esperados bajo la hipótesis
nula de que no existe asociación.
4.2 Pruebas no paramétricas.
Las pruebas no paramétricas, también conocidas como pruebas de distribución libre, son
las que se basan en determinadas hipótesis, pero lo datos observados no tienen una
organización normal. Generalmente, las pruebas no paramétricas contienen resultados
estadísticos que provienen de su ordenación, lo que las vuelve más fáciles de comprender.

Las pruebas no paramétricas tienen algunas limitaciones, entre ellas se encuentra que no
son lo suficientemente fuertes cuando se cumple una hipótesis normal. Esto puede provocar
que no sea rechazada, aunque sea falsa. Otra de sus limitaciones es que necesitan que la
hipótesis se cambie cuando la prueba no corresponde a la pregunta del procedimiento si la
muestra no es proporcional.

Ejemplo

(Aplicación en Ciencias de la Ingeniería) Una operación de llenado tiene tres máquinas


idénticas que se ajustan para vaciar una cantidad específica de un producto en recipiente
de igual tamaño. Con el propósito de verificar la igualdad de las cantidades promedio
vaciadas por cada máquina, se toman muestras aleatorias en forma periódica, de cada una.
Para un periodo particular, se observaron los datos que aparecen en la siguiente tabla:

Máquina A 16 15 15 14 16
Máquina B 18 19 19 20 19 19
Máquina C 19 20 18 20 19

¿Existen algunas diferencias estadísticamente significativas en las cantidades promedio


vaciadas por las tres máquinas? Use α = 0.05.
4.2.1 Escala de medición.

Las escalas de medición son procesos de comparación cuantitativa, en los que se asignan
símbolos o números, positivos y/o negativos, a las características de un elemento para
determinar cuántas veces ese patrón está contenido en el total del conjunto.
En investigación de mercados, facilitan el análisis estadístico de los datos y la posterior
comprensión de los resultados para resolver el problema planteado.

Un elemento u objeto puede ser cualquier cosa, porque todo es susceptible a ser
medido. Los elementos están formados por características o propiedades que se infieren a
partir de la medición de indicadores. Los indicadores o reactivos determinan el
comportamiento del objeto. El comportamiento se describe en variables o constructos.

Ejemplo

El PBI de un país a lo largo de los años


4.2.2 Métodos estadísticos contra no paramétricos.

1. PRUEBA DE LOS SIGNOS

Se usa para una prueba de n para indicar la preferencia por las marcas,
Caso de pruebas pequeñas: Siempre n sera menor igual a 20, Valor p menos igual a alfa la
Hipotesis se rechaza.
Caso de muestras grandes: La Ho : p= 0,50 , n es mayor a 20.

2. PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON

Son las alternativas no parametricas al método de las muestras por pares , en la situación
de las muestras por pares, cada unidad experimental genera dos observaciones.

3. PRUEBA DE MANN-WHITNEY-WILCOXON

Es una prueba de un método no parametrico que se usa para determinar si hay diferencia
entre dos poblaciones. La hipótesis en las pruebas de este método son las siguientes:

4. PRUEBA DE KRUSKAL- WALLIS

Esta prueba se usa para probar si las poblaciones son identicas para k mayor igual a 3
poblaciones se expresa como:
Ho Todas las poblaciones son idénticas
Ha: No todas las poblaciones son idénticas

5. PRUEBA DE SIGNIFICANCIA DE LA CORRELACIÓN DE RANGOS

Esta prueba es acerca de la correlación por rangos poblacional "Ps", ya que se debe probar
la hipótesis siguiente:
Ho: Ps = 0
Ha: Ps diferencia 0
4.2.3 Prueba de Kolmogorov – Smirnov.

El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la función de


distribución acumulada observada de una variable con una distribución teórica determinada,
que puede ser la normal, la uniforme, la de Poisson o la exponencial. La Z de Kolmogorov-
Smirnov se calcula a partir de la diferencia mayor (en valor absoluto) entre las funciones de
distribución acumuladas teórica y observada. Esta prueba de bondad de ajuste contrasta si
las observaciones podrían razonablemente proceder de la distribución especificada.

Ejemplo

Se efectuaron mediciones del nivel de glucemia de 36 hombres adultos en ayuno, no


obesos y aparentemente sanos. Estas mediciones se muestran en la tabla que se presenta.
Se pretende saber si es posible concluir que tales datos no pertenecen a una población que
sigue una distribución normal, con una media de 80 y una desviación típica de 6. Emplee
un α = 0,05.

Valores de glucemia en 36 varones sanos 75 92 80 80 84 72 84 77 81 77 75 81 80 92 72


77 78 76 77 86 77 92 80 78 68 78 92 68 80 81 87 76 80 87 77 86

Respuesta: Supuestos: La muestra disponible es una muestra aleatoria simple que se


extrajo de una población que sigue una distribución continua.

Hipótesis: H0: F(x) = FT(x) para toda x desde - ∞ hasta + ∞

H1: F(x) ≠ FT(x) para al menos una x


4.2.4 Prueba de Anderson – Darling.
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución
específica. Para un conjunto de datos y distribución en particular, mientras mejor se ajuste
la distribución a los datos, menor será este estadístico. Por ejemplo, usted puede utilizar el
estadístico de Anderson-Darling para determinar si los datos cumplen el supuesto de
normalidad para una prueba t.

Las hipótesis para la prueba de Anderson-Darling son:

 H0: Los datos siguen una distribución especificada

 H1: Los datos no siguen una distribución especificada

 Ejemplo

 También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste


de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para
concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe
ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos
entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para
elegir entre ellos.

Distribución Anderson-Darling Valor p

Exponencial 9.599 p < 0.003

Normal 0.641 p < 0.089

Weibull de 3 parámetros 0.376 p < 0.432


4.2.5 Prueba de Ryan – Joiner.

El estadístico de Ryan-Joiner mide qué tan bien se ajustan los datos a una distribución
normal, calculando la correlación entre los datos y las puntuaciones normales de los datos.
Según Hanke & Wichern (2014) la prueba de Ryan Joiner proporciona un coeficiente que
indica exactamente la correlación entre los datos y las puntuaciones normales de los datos.
Una vez que el coeficiente de correlación se acerca a 1, los datos se encuentran dentro de
la gráfica de probabilidad normal; caso contrario, esto es, cuando el valor critico adecuado
es menor, se rechaza la hipótesis nula de normalidad. Cabe recalcar que para rechazar la
hipótesis nula de normalidad se calcula, primero, la medida de la correlación entre los
residuos y sus respectivas puntuaciones normales y, luego, se utiliza dicha correlación
como estadística de prueba. La prueba de Ryan-Joiner -similar a la prueba de Shapiro-Wilk-
se basa en la regresión y correlación. Esta prueba resulta mucha más adecuada para
muestras superiores a 30 observaciones. El coeficiente de correlación se calcula de
acuerdo con la ecuación 4.

Ejemplo

(4)

Donde:

observaciones ordenadas

puntuaciones normales de los datos ordenados

varianza de la muestra

Para definir la regla de rechazo de esta prueba es necesario, también obtener el


estadístico ajustado para luego compararlo con los valores críticos con la tabla Anderson-
Darling. Por otra parte, cabe destacar que la prueba de Ryan-Joiner es una modificación de
la prueba de Kolmogórov-Smirnov, otorgándose mayor relevancia a las colas de la
distribución que en la prueba de Kolmogórov-Smirnov
4.2.6 Prueba de Shappiro – Wilk.
Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución
normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis
alternativa que sostiene que la distribución no es normal.

Tenemos:

H0H0: La distribución es normal


H1H1: La distribución no es normal,
o más formalmente aún:

H0:X∼N(μ,σ2)H0:X∼N(μ,σ2)
H1:X≁N(μ,σ2)H1:X≁N(μ,σ2).
Ahora el test Shapiro-Wilks intenta rechazar la hipótesis nula a nuestro nivel de
significancia. Para realizar el test usamos la función shapiro.test en R:

Ejemplo

En dos colas de un multicines se encuentra la siguiente ordenación de hombres (H) y


mujeres (M):

Cola 1 : H H H H H H M M M M M M
Cola 2 : H M H M H M H M H M H M

La pregunta que se hace es, ¿llegaron cada una de las personas de forma independiente
a la cola, o vinieron en grupos? La respuesta para un observador avispado parece obvia,
en el primer caso da la impresión de que se trata de dos grupos, uno de cada sexo, mientras
que en el segundo todo parece indicar que aparecen varias parejas.

En situaciones no tan extremas cabe preguntarse si se da o no la independencia y para


contestar a esta cuestión se utiliza el test de rachas. En primer lugar, se supone una
muestra dada en el orden de extracción. Nótese que el orden de extracción es fundamental,
puesto que los problemas de aleatoriedad se derivan del hecho de muestrear individuos
que son vecinos en algún sentido: físico, temporal, etc.
Se denomina racha a una sucesión de uno o más elementos de un mismo tipo, llámese A,
que esta seguida y precedida por un elemento de otro tipo, llámese

Se cuenta el número de rachas, Rep., y, a continuación, el número de elementos de cada


tipo: n1 los de tipo A y n2 los de tipo B. La región critica del test viene dada por Rc : {Rexp
≤ Rn1,n2, α 2 } ∪ {Rexp ≥ Rn1,n2,1− α 2 } donde los valores críticos Rn1,n2, α 2 y Rn1,n2,1−
α 2 vienen dados en la tabla A.21. Nótese que este test rechaza la hipótesis de
independencia cuando el número de rachas es pequeño o cuando ´este es muy grande
(aparición de dilucidad).

También podría gustarte