Estadistica Inferencial
Estadistica Inferencial
Estadistica Inferencial
ESTADÍSTICA INFERENCIAL
Plan: 2011
Clave: Créditos: 8
Licenciatura: ADMINISTRACIÓN Semestre: 2º.
Área: Matemáticas Horas. Asesoría:
Requisitos: Horas. por semana: 4
Tipo de Obligatoria ( Optativa ( )
asignatura: X)
AUTORES:
2
INTRODUCCIÓN GENERAL
A LA ASIGNATURA
1
Sandra Rocha, Documento de Trabajo. Modalidad Abierta y a Distancia en el SUA-FCA, 2006.
3
Saber estudiar, organizando sus metas educativas de manera realista
según su disponibilidad de tiempo, y estableciendo una secuencia de
objetivos parciales a corto, mediano y largo plazos.
Mantener la motivación y superar las dificultades inherentes a la
licenciatura.
Asumir su nuevo papel de estudiante y compaginarlo con otros roles
familiares o laborales.
Afrontar los cambios que puedan producirse como consecuencia de las
modificaciones de sus actitudes y valores, en la medida que se adentre
en las situaciones y oportunidades propias de su nueva situación de
estudiante.
Desarrollar estrategias de aprendizaje independientes para que pueda
controlar sus avances.
Ser autodidacta. Aunque apoyado en asesorías, su aprendizaje es
individual y requiere dedicación y estudio. Acompañado en todo
momento por su asesor, debe organizar y construir su aprendizaje.
Administrar el tiempo y distribuirlo adecuadamente entre las tareas
cotidianas y el estudio.
Tener disciplina, perseverancia y orden.
Ser capaz de tomar decisiones y establecer metas y objetivos.
Mostrar interés real por la disciplina que se estudia, estar motivado para
alcanzar las metas y mantener una actitud dinámica y crítica, pero abierta
y flexible.
Aplicar diversas técnicas de estudio. Atender la retroalimentación del
asesor; cultivar al máximo el hábito de lectura; elaborar resúmenes,
mapas conceptuales, cuestionarios, cuadros sinópticos, etcétera;
presentar trabajos escritos de calidad en contenido, análisis y reflexión;
hacer guías de estudio; preparar exámenes; y aprovechar los diversos
recursos de la modalidad.
4
Además de lo anterior, un estudiante de la modalidad a distancia debe
dominar las herramientas tecnológicas. Conocer sus bases y
metodología; tener habilidad en la búsqueda de información en
bibliotecas virtuales; y manejar el sistema operativo Windows,
paquetería, correo electrónico, foros de discusión, chats, blogs, wikis,
etcétera.
5
general de contenido, introducción general a la asignatura y objetivo
general.
2. Desarrollo de cada unidad didáctica. Cada unidad está conformada
por los siguientes elementos.
Introducción a la unidad.
Objetivo particular de la unidad.
Contenidos.
Actividades de aprendizaje y/o evaluación. Tienen como
propósito contribuir en el proceso enseñanza-aprendizaje
facilitando el afianzamiento de los contenidos esenciales. Una
función importante de estas actividades es la retroalimentación:
el asesor no se limita a valorar el trabajo realizado, sino que
además añade comentarios, explicaciones y orientación.
Ejercicios y cuestionarios complementarios o de reforzamiento.
Su finalidad es consolidar el aprendizaje del estudiante.
Ejercicios de autoevaluación. Al término de cada unidad hay
ejercicios de autoevaluación cuya utilidad, al igual que las
actividades de aprendizaje, es afianzar los contenidos
principales. También le permiten al estudiante calificarse él
mismo cotejando su resultado con las respuestas que vienen al
final, y así podrá valorar si ya aprendió lo suficiente para
presentar el examen correspondiente. Para que la
autoevaluación cumpla su objeto, es importante no adelantarse a
revisar las respuestas antes de realizar la autoevaluación; y no
reducir su resolución a una mera actividad mental, sino que debe
registrarse por escrito, labor que facilita aún más el aprendizaje.
Por último, la diferencia entre las actividades de autoevaluación y
las de aprendizaje es que éstas, como son corregidas por el
6
asesor, fomentan la creatividad, reflexión y valoración crítica, ya
que suponen mayor elaboración y conllevan respuestas abiertas.
3. Resumen por unidad.
4. Glosario de términos.
5. Fuentes de consulta básica y complementaria. Mesografía,
Bibliografía, hemerografía y sitios web, considerados tanto en el pro
grama oficial de la asignatura como los sugeridos por los profesores.
7
diseñar desde el inicio un plan de trabajo para puntualizar tiempos,
ritmos, horarios, alcance y avance de cada asignatura, y recursos.
Escribe tus dudas, comentarios u observaciones para aclararlas en la
asesoría presencial o a distancia (foro, chat, correo electrónico,
etcétera).
Consulta al asesor sobre cualquier interrogante por mínima que sea.
Revisa detenidamente el plan de trabajo elaborado por tu asesor y
sigue las indicaciones del mismo.
8
TEMARIO OFICIAL
(64 horas)
1. Introducción al muestreo 4
2. Distribuciones muéstrales 8
3. Estimación de parámetros 10
4. Pruebas de hipótesis 10
5. Pruebas de hipótesis con la distribución ji cuadrada 8
6. Análisis de regresión lineal simple 10
7. Análisis de series de tiempo 8
8. Pruebas estadísticas no paramétricas 6
9
INTRODUCCIÓN A LA ASIGNATURA
10
En la unidad 5 analizaremos las pruebas de hipótesis con la distribución ji
cuadrada y su aplicación.
11
OBJETIVO GENERAL
12
ESTRUCTURA CONCEPTUAL
Pruebas de
Pruebas de hipótesis con
hipótesis la distribución
ji cuadrada
Estimación de Análisis de
parámetros regresión
lineal simple
ESTADÍSTICA
II
Distribuciones Análisis de
muestrales series de
tiempo
Pruebas
Introducción
estadística no
al muestreo
paramétricas
13
UNIDAD 1
INTRODUCCIÓN AL MUESTREO
14
OBJETIVO ESPECÍFICO
El alumno conocerá los diferentes tipos de muestreo y sus características.
INTRODUCCIÓN
La teoría del muestreo es útil en numerosas ocasiones y en diferentes
campos de la ciencia, sobre todo cuando no se cuenta con los recursos
necesarios para hacer un censo (tiempo y dinero) o cuando no es necesario
o recomendable hacer un estudio completo de toda la población de interés.
Sin embargo, el no hacer el estudio completo, no significa de ninguna
manera que el estudio no sea importante, pues extraer una muestra que
sea representativa de una población y hacer inferencias que sean correctas
de la población basándose en los datos arrojados por la muestra, es todo
un proceso que debe ser cuidadosamente diseñado y elaborado; desde el
objetivo del muestreo, tamaño de la muestra, técnica de muestreo a
emplear, homogeneidad de la población, hasta las inferencias obtenidas al
termino del estudio apoyadas en la teoría de la estimación. Cabe aclarar
que es imposible que una sola persona logre tal estudio completo y que una
gran cantidad de expertos en diferentes campos se ve involucrada en tales
estudios. Tales expertos incluyen no solo a los expertos en estadística, en
mercados, en el giro mismo al que se esté dirigiendo el estudio, etc.
Todo esto hace que sea necesario poseer un conocimiento claro de lo que
es la teoría del muestreo y la teoría de la estimación que estudiaremos en la
presente unidad.
15
LO QUE SÉ
LO QUE SÉ
Selecciona si las siguientes aseveraciones son verdaderas (V) o falsas (F).
Verdadera Falsa
1. El siguiente es un axioma de probabilidad‖ ( ) ( )
―La probabilidad de un hecho existe y es
restringida a la amplitud de cero a uno,
inclusive. Es decir, si designamos la
probabilidad de un hecho E como
P (E), entonces: 0 P ( E ) 1 ‖.
16
5. ¿El sentido de una desigualdad debe ser ( ) ( )
invertido al multiplicar o dividir toda la
desigualdad por un número negativo?
17
TEMARIO DETALLADO
(4 HORAS)
18
1.1 Parámetros,
estadísticos y estimadores
19
Un problema importante de la inferencia estadística es la estimación de
parámetros de la población, o brevemente parámetros (tales como la
media o la varianza de la población), de los correspondientes estadísticos
muéstrales, o simplemente estadísticos (tales como la media y la varianza
de la muestra).
Hay varias razones por las que se quiere utilizar un estimador de máxima
verosimilitud para un parámetro; aunque dichos estimadores no siempre
son eficientes e insesgados, por lo general son la mejor opción que se
tiene debido a las siguientes propiedades:
20
Pero veamos con más detalle cómo podemos encontrar un estimador de
máxima verosimilitud; por lo tanto, empecemos por entender qué es la
función de verosimilitud.
Función de verosimilitud
L(y1,y2,…,y n, a) = P(y1)P(y2)…P(y n)
L(y1,y2,…,y n, a) = f(y1)f(y2)…f(y n)
21
que el segundo (y último) día llegan cuatro. Escriba la función de
verosimilitud.
Primer paso
Debemos escribir la fórmula básica de la cual se parte y debemos
identificar exhaustivamente todas sus variables; en este caso, la fórmula
corresponde a una distribución de Poisson; por lo tanto, recordando que la
distribución de Poisson es discreta con:
y
P y e
y!
Donde: es el número esperado de eventos que suceden en un periodo y
e= 2.71828.
Segundo paso
Sustituir los valores o datos dados por el problema en la fórmula original,
considerando la teoría de la función de verosimilitud. Los valores
observados son y1=1 e y2=4; por lo tanto, la función de verosimilitud estará
formada por el producto para cada uno de los datos de la fórmula misma.
Es decir:
22
Tercer paso
Realizar las operaciones algebraicas correspondientes a la reducción de la
fórmula, lo cual quiere decir que finalmente la fórmula anterior se puede
reducir a:
5
2
e
L(1,4, ) =
(1!)(4!)
Éste es el último resultado de la función de verosimilitud solicitada en el
problema.
23
La idea básica2 del método de máxima verosimilitud es muy sencilla.
2
Erwin Kreyszig, Matemáticas avanzadas para ingeniería, vol. 2, p. 959.
3
En virtud de que el logaritmo natural es una función creciente, a medida que la verosimilitud se incrementa hacia su
máximo, también lo hace su logaritmo.
24
L L L
0 0 0
1 , 2 ,..., r
ln(L)
0
y en lugar de tenemos:
l (1,4, ) = -2 + 5 ln - ln [(1!)(4!)[
25
Posteriormente, al obtener la primera derivada a esta ecuación, ésta cobra la
siguiente forma:
dl(1,4, ) d d d
( 2 ) (5 ln ) ln(1!)(4!)
d d d d
dl(1,4, ) 5
2
d
dl(1,4, ) 5
2 0
d
que es lo mismo que:
5
2 0
26
En resumen, la metodología para encontrar una estimación de máximo
verosímil es la siguiente:
27
Estimación por el método de momentos
1X 0 1
fx x
0 0.C.
28
Estimar por el metodo de momentos.
Ex xf x ( x)dx
1 1 1 1 1
E x 0 1 x dx 0 1x dx x 2 10
2 2
Igualando el primer momento poblacional con el primer momento muestral, tenemos :
1 X1
x
2 n
Y despejando , tenemos :
ˆ 1 x ˆ 2
es decir :
ˆ 1 x 2x 1
ˆ 2 x 1 2(0.39) 1
0.36
1 x 1 0.39 , valor que no tiene significado práctico, pero
que a partir del cual se describe el comportamiento de la población y en la
1 0.36 1
E (X ) 0.39
cual el promedio es 2 0.36 2 ; asimismo se puede
calcular la mediana, moda, varianza, entre otras características.
29
diferentes muestras representativas de la misma población, se tendrán
diferentes estimaciones puntuarles. Así las cosas, estimar un parámetro
utilizando una estimación de intervalo (que veremos en el tema 3) resulta
muchas veces preferible a utilizar una estimación puntual.
30
1.3 Muestreo aleatorio y
muestreo de juicio
31
segmentos de la población es muy pequeño entonces cabe la posibilidad
de que ninguno de sus elementos pueda ser incluido en la muestra y en
consecuencia no ser tomado en cuenta.
32
secundarias que serían los propios profesores. En primer lugar extraemos
una muestra de las unidades primarias (para lo cual debemos tener la lista
completa de estas unidades) y en segundo lugar extraemos
aleatoriamente una muestra de unidades secundarias de cada una de las
primarias seleccionadas en la primera extracción.
33
1.6 Tipos de muestreo aleatorio
Del muestreo aleatorio simple puede ser difícil en ciertos casos. Por
ejemplo, suponga que la población que nos interesa consiste de 2000
facturas que se localizan en cajones. Tomar una muestra aleatoria
sencilla requeriría primero numerar las facturas, del 0001 al 1999;
posteriormente, se seleccionaría luego una muestra de, por ejemplo, 100
números utilizando una tabla de números aleatorios; luego, en los cajones
deberá localizarse una factura que concuerde con cada uno de estos 100
números; en fin, esta tarea puede requerir mucho tiempo. En lugar de ello,
se podría seleccionar una muestra aleatoria sistemática utilizando el
siguiente método: se recorren simplemente los cajones y se cuentan las
facturas; finalmente, se toman las que coincidan con el número 20 para su
estudio. Así, la primera factura debería elegirse utilizando un proceso
aleatorio, por ejemplo, una tabla de números aleatorios. Si se eligió la
34
décima factura como punto de partida, la muestra consistiría en las
facturas décima, trigésima, quincuagésima, septuagésima, etcétera.
Debido a que el primer número se elige al azar, todos tienen la misma
probabilidad de seleccionarse para la muestra. Por lo tanto, se trata de un
muestreo cuasi-aleatorio. La ventaja para este tipo de muestreo sería que
es más rápido que un muestreo aleatorio formal y su desventaja es que
puede no reflejar información importante contenida en el conjunto de
datos debido a que no todos los elementos estrictamente hablados, tienen
la misma oportunidad de ser seleccionados.
Ejemplo
4
Douglas A. Lind et al., Estadística para administración y economía, p. 226
35
sobre su inversión (una medición de la rentabilidad) han gastado una
mayor proporción de su presupuesto de ventas en mercadotecnia que las
empresas que tienen un menor rendimiento o incluso un déficit.
# #
Estrato Rentabilidad ?
empresas muestreado
2 De 20 a 30% 35 5 (35/352)(50)
5 Déficit 5 1 (5/352)(50)
Total 352 50
36
En algunos casos, el muestreo estratificado tiene la ventaja de poder
reflejar con mayor precisión las características de la población que un
muestreo aleatorio simple o sistemático, dado que puede darse el caso en
ambos muestreos (aleatorio simple o sistemático), de que alguno de los
estratos de interés no quede considerado en la muestra al no ser elegido
al menos alguno de sus elementos y la desventaja para este tipo de
muestreo estratificado es que puede caerse en el exceso de estratos
haciendo el proceso de muestreo más difícil y tardado que si aplicamos un
muestreo aleatorio simple.
5
Douglas A. Lind. et al., Estadística para administración y economía, pp. 227.
6
Rosalinda Flores García. et al., Estadística aplicada a la administración. pp. 225.
37
Mexicana y el contacto personal con cada uno de ellos serían muy
onerosos en cuanto a tiempo y dinero. En lugar de ello, se podría emplear
un muestreo por conglomerados subdividiendo la República Mexicana en
unidades pequeñas, ya fueran estados o regiones. Muchas veces, éstas
se conocen como unidades primarias. Suponga que se subdividió a la
República Mexicana en 12 unidades primarias y luego se escogió a cuatro
de ellas; de esta forma, los esfuerzos se concentran en estas cuatro
unidades, tomando una muestra aleatoria de los industriales de cada una
de estas regiones y entrevistarlos (observe que se trata de una
combinación del muestreo por conglomerados y el muestreo aleatorio
simple).
Tamaño de la muestra
7
Jesús Galindo Caceres, Técnicas de investigación en sociedad, cultura y comunicación, pp. 49-62.
38
Fórmula genérica
NPQ
n 2
Me
(N 1) PQ
Nc 2
Variables
Variable Descripción
N Tamaño de la muestra
39
Ejemplo
Se requiere calcular el tamaño de una muestra para el siguiente caso:
Variable Descripción
N ?
N 3,000,000
Q 1 – 0.5 = 0.5
40
1. El porcentaje deseado entre 2 (debido a la simetría de la curva
de distribución normal), en este caso el resultado sería:
95
47.5
2
2. Este resultado (47.5) se divide entre 100 para convertirlo de
porcentaje a decimal, es decir:
47.5
0.475
100
3. Este valor de 0.475 se busca en el cuerpo de la tabla de la curva
de distribución normal estándar (La mayoría de los textos de
probabilidad y estadística contienen esta tabla), donde
encontramos el valor correspondiente de z = 1.96.
41
RESUMEN
42
GLOSARIO
Aleatorio
Suceso incierto que tiene algún grado de inseguridad de ocurrir (también
es llamado estocástico).
Censo
Es el estudio en el que se incluye a toda la población.
Cuestionario
Instrumento recolector autoadministrable. En él, el cuestionado lee y
contesta por sí mismo las preguntas.
Desviación estándar
Raíz cuadrada de la suma de los cuadrados de las desviaciones de cada
valor que asume la variable en relación a la media. Raíz cuadrada de la
varianza para la muestra ―s‖ para la población (sigma).
Distribución normal
Estudia la concentración de probabilidad en un intervalo cualquiera, que
está contenido en el área bajo la curva de una función de probabilidades
en forma de campana.
43
Distribución normal estandarizada
Estandariza las probabilidades de la distribución normal.
Entrevista
Instrumento recolector empleado en una conversación a niveles
profundos o específicos. Puede ser libre o estructurada.
Error sistemático
Error de respuesta o de encuesta que se produce constantemente a lo
largo de la investigación.
Estadística
Es una ciencia relativamente nueva que tiene por objeto la colección e
interpretación de datos.
Estadística inferencial
Estimación de las características de una población, validación de
distribuciones o la toma de decisiones sobre algún factor de la población,
sin conocerla enteramente y basándose en los resultados de un
muestreo, que se manifiestan en la estadística descriptiva de ese conjunto
de datos.
Muestra
Es un conjunto de ―n‖ observaciones extraídas de entre los ―N‖ elementos
de la población.
44
Muestreo a juicio
Es la selección de ―n‖ elementos de entre los ―N‖ de una población elegida
según el criterio del sujeto que los elige. Se basa en suposiciones muy
amplias acerca de las variables que se van a estudiar en la población.
Generalmente lo realizan expertos en la materia.
Parámetro
Medida que caracteriza a una población y que puede variar de población
a población.
45
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Elabora un cuadro comparativo del muestreo por conglomerados y del
muestreo estratificado.
ACTIVIDAD 2
Forma un equipo de cuatro integrantes y consulten la página de Food
and Agriculture Organization of the United Nations, www.fao.org
escribe en el buscador ―muestreo‖ y revisa cada uno de los apartados
desarrollados en los artículos.
46
CUESTIONARIO DE
REFORZAMIENTO
LO QUE APRENDÍ
LO QUE APRENDÍ
Considera una distribución binomial con n=5, y=2. Encuentra la
estimación de máxima verosimilitud correspondiente.
47
EXAMEN DE
AUTOEVALUACIÓN 1
a). población
b). parámetros
c). estadísticos
d). sesgo
e). desviación estándar
48
3. Al proceso mediante el cual se obtienen los elementos de una muestra
representativa de la población se le denomina:
4. Al obtener una muestra se debe asegurar que durante el proceso todos los
elementos:
49
6. Una población finita en la que se realiza un muestreo con reemplazamiento
puede ser considerada como:
a). modelo
b). infinita
c). muestra
d). acotada
e). estratificada
a). probabilístico
b). aleatorio simple
c). aleatorio directo
d). de conglomerados
e). no probabilístico
a). probabilístico
b). por conglomerados
c). aleatorio simple
d). aleatorio sistemático
50
9. Se denomina así a la diferencia entre un estadístico y su parámetro poblacional
correspondiente:
10. Un auditor va a realizar una prueba donde espera una tasa de error no mayor
al 5%. Si fija una precisión de 3% y un nivel de confianza de 95% en una
población de 15 000 facturas, si la prueba se realizará en el mes de marzo y si la
última factura del mes de febrero es la No. 28 974, el tamaño de la muestra es de:
a). 15 000
b). 375
c). 7 500
d). 28 974
e). 1 500
51
EXAMEN DE
AUTOEVALUACIÓN 2
Verdadera Falsa
1. En un muestro aleatorio cada elemento de una ( ) ( )
población tiene la misma posibilidad de ser seleccionado
para integrar la muestra.
52
una muestra de cada uno de ellos con lo cual se garantiza
la representación de cada subgrupo o estrato en la
muestra final.
53
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
1. Ato Manuel y López Juan J., Fundamentos de estadística con
SYSTAT, México; Addison Wesley Iberoamericana, 1996, 630 pp.
2. Christensen H., Estadística paso a paso (2a. ed.); México; Trillas, 1990,
682 pp.
3. Garza Tomás, Probabilidad y estadística, México; Iberoamericana,
1996, 152 pp.
4. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios,
México; Irwin McGraw-Hill, 1997, 955 pp.
54
UNIDAD 2
DISTRIBUCIONES MUESTRAL
55
OBJETIVO ESPECÍFICO
DE LA UNIDAD
INTRODUCCIÓN
56
LO QUE SÉ
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas:
2
1. La distribución chi-cuadrada es útil para analizar la relación…
a) entre la varianza de la muestra y la varianza de la población
b) entre la media de la muestra y la media de la población
c) entre una muestra y otra
2. La fórmula para calcular la media aritmética de una muestra es:
2 s 2 ( gl )
2
a)
n
1
X Xi
b) n i 1
c) s 2 (n 1)
2
1 /2
s 2 (n 1) 2 s 2 (n 1)
2 2
b) /2 1 /2
n
1
s2 (Xi X )2
c) n 1i 1
57
4. La distribución ―t‖ de Student se utiliza cuando:
a) El investigador lo decide
b) cuando la desviación estándar de la población es
desconocida
c) cuando no hay otra alternativa
5. La distribución ―F‖ se utiliza para:
a) analizar la relación entre las varianzas de dos muestras
extraídas de la misma población.
b) Analizar la relación entre la varianza de la muestra y la
varianza de la población
c) Calcular la desviación estándar
6. La fórmula para calcular la desviación estándar de una población
es:
n
2 1
s (Xi X )2
a) n 1i 1
n
1
X Xi
b) n i 1
N
1
( xi )2
c) N 1
n!
a) n Pr
n r!
n!
b) nCr
r!(n r )!
n
c) F( X ) P x (1 P)n x
x
58
8. Las combinaciones se utilizan cuando:
a) no importa el orden
b) si importa el orden
c) no hay otra opción
59
TEMARIO DETALLADO
(8 HORAS)
60
2.1 La distribución
muestral de la media
61
Hay que hacer notar que si el tamaño de la muestra es lo suficientemente
grande las distribuciones muéstrales son normales y en esto se basarán
todos los resultados que alcancemos.
62
2.2 El teorema
central del límite
63
2.3 La distribución
muestral de la proporción
64
Ejemplo; suponga que una comercializadora pretende establecer un
nuevo centro y desea saber la proporción del consumidor potencial que
compraría el principal producto que vende para lo cual realiza un estudio
de mercado mediante una encuesta a 30 participantes, lo cual permitirá
saber quiénes lo comprarían y quiénes no; se obtuvieron los siguientes
resultados:
N n P(1 P)
p
N 1 n
65
P(1 P)
p
n
_
estimará a P poblacional pero con un error igual a p que en este caso es:
0.30(0.70)
p
30 = 0.1195
_
p 0.1195
desviación estándar .
Dado que todas las muestras aleatorias que sean tomadas de una misma
población en general serán distintas y tendrán por ende diferentes valores
para sus estadísticos tales como la media aritmética o la desviación
estándar, entonces resulta importante estudiar la distribución de todos los
valores posibles de un estadístico, lo cual significa estudiar las
distribuciones muéstrales para diferentes estadísticos8 La importancia de
éstas distribuciones muéstrales radica en el hecho de que en estadística
inferencial, las inferencias sobre poblaciones se hacen utilizando
estadísticas muéstrales pues con el análisis de las distribuciones asociadas
8
Weimer, Richard, C. “Estadística”. pp 353.
66
con éstos estadísticos se da la confiabilidad del estadístico muestral como
instrumento para hacer inferencias sobre un parámetro poblacional
desconocido.
67
RESUMEN
El teorema central del límite es útil para entender que la distribución las
medias de muestras tomadas de una misma población y del mismo
tamaño, es aproximadamente normal y que esta aproximación mejora a
medida que se incrementa el tamaño de la muestra; dando pie al estudio
de la distribución muestral para la media y para la proporción y a la
elaboración de ―intervalos de confianza‖ que se analizarán en el apartado
3.4., la proporción muestral es el mejor estadístico a utilizar cuando en la
investigación se trata de averiguar cuestiones tales como: ¿Cuántos
integrantes de la población tienen una característica en particular o una
tendencia similar?.
68
GLOSARIO
Distribución muestral
Es una distribución de probabilidades que consta de todos los valores
posibles de un estadístico de muestra.
Error estándar
Es la desviación estándar de un estimador puntual.
Muestras pareadas
Muestras en las que con cada dato de una muestra se forman parejas con
el dato correspondiente.
69
Parámetro
Es una característica numérica de una población, tal como la media
aritmética poblacional, la desviación estándar poblacional o la proporción
poblacional.
70
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
1. Para una proporción poblacional de 0.25 ¿Cuál es la probabilidad de
obtener una proporción muestral menor o igual a 0.21 para n = 120?
ACTIVIDAD 2
Suponga un proporción poblacional de 0.58 y que una muestra aleatoria
de 410 artículos se muestrea al azar. ¿Cuál será la probabilidad de que la
proporción muestral sea mayor a 0.70?
71
CUESTIONARIO DE
REFORZAMIENTO
72
LO QUE APRENDÍ
LO QUE APRENDÍ
Preocupado por la variabilidad aparente de dos maquinas exactamente
iguales y que fabrican el mismo tipo de botella para agua ―ciel‖, el dueño de
la fábrica solicita un estudio en el que se muestrean al azar 10 botellas para
cada máquina, obteniendo los siguientes resultados:
Maquina no. 1 Maquina no. 2
5.3 5.9
5.5 5.7
5.9 5.8
5.8 5.7
4.7 5.5
4.5 5.4
4.4 5.3
4.2 5.1
4.7 5.5
5.1 5.9
73
EXAMEN DE
AUTOEVALUACIÓN 1
Verdadera Falsa
( ) ( )
3. El teorema central del límite, permite aproximar la
distribución de probabilidad normal a cualquier
distribución de valores medios muéstrales, siempre y
cuando se trate de una muestra suficientemente grande.
74
4. El teorema central del límite se aplica a la distribución ( ) ( )
muestral de las medias de muestras y permite utilizar la
distribución de probabilidad normal para crear intervalos
de confianza.
5. La media muestral es uno de los estadísticos más
utilizados en estadística inferencial. ( ) ( )
7. x
es la fórmula para calcular la desviación
n
estándar de las medias de las muestras cuando la ( ) ( )
población es finita.
N n
8. es la fórmula para calcular la media ( )
x
N 1 ( )
( ) ( )
9. La media de las medias siempre es igual a la
media de la población, independientemente de si la
población es finita o infinita.
75
EXAMEN DE
AUTOEVALUACIÓN 2
a) campana de Gauss
b) tendencia paramétrica
c) curva de ajuste
d) distribución muestral
e) parámetro muestral
a) estadística descriptiva
b) estimación puntual
c) prueba de significancia
d) medida de sesgo
e) medida de tendencia central
76
3. Calcular el factor de corrección para la población finita de un inventario
que consta de 250 productos y a la cual se le efectuará un muestreo de
40%:
a) 0.881
b) 0.918
c) 0.819
d) 0.991
e) 0.989
a) teorema de Bayes
b) ley de las probabilidades
c) teorema del límite central
d) ley de la distribución normal
e) teorema de Markov
77
6. Una población se compone de los siguientes cinco números 2, 3, 6, 8, y
11. Calcule la media de la distribución muestral para tamaños de muestra
2 con reemplazamiento:
a) 6.2
b) 5.7
c) 6.0
d) 6.1
e) 5.8
a) 64
b) 50
c) 40
d) 30
e) 20
a) rango
b) varianza
c) sesgo
d) mediana
e) moda
78
9. Se tiene una lista de 120 estudiantes, 60 de ellos son de Contaduría y
el resto de Administración. Si se toma una muestra al azar, halle la
probabilidad de que se escojan entre el 40% y el 60% de contadores del
tamaño de la muestra:
a) 98.5%
b) 96.7%
c) 95.8%
d) 97.7%
e) 99.1%
a) 0.30
b) 0.50
c) 2.77
d) 7.41
e) 10.0
79
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
4. ATO Manuel y López Juan J., Fundamentos de estadística con
SYSTAT, México; Addison Wesley Iberoamericana, 1996, 630 pp.
5. CHRISTENSEN H., Estadística paso a paso (2a. ed.) ; México; Trillas,
1990, 682 pp.
6. GARZA Tomás, Probabilidad y estadística, México; Iberoamericana,
1996, 152 pp.
7. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios,
México; Irwin McGraw-Hill, 1997, 955 pp.
80
UNIDAD 3
ESTIMACIÓN DE
PARÁMETROS
81
OBJETIVO ESPECÍFICO
INTRODUCCIÓN
En el momento de tomar decisiones el conocimiento de los parámetros de
población es de vital importancia, tal conocimiento generalmente solo se
puede tener al estimar el valor de dichos parámetros, sin embargo, la
estimación es mejor cuando se da un margen de confianza y uno de error,
siendo importante la correcta estimación de dichos parámetros a través de
la construcción de intervalos de confianza que puedan sustentar la toma
de decisiones de manera eficiente.
82
LO QUE SÉ
LO QUE SÉ
x
b) n
c) x
83
TEMARIO DETALLADO
(10 HORAS)
84
3.1 Estimaciones por punto y
estimaciones por intervalo
85
Se llama estimador puntual9 al número (punto sobre la recta real o recta
de los números reales), que se calcula a partir de una muestra dada y que
sirve como una aproximación (estimación) del valor exacto desconocido
del parámetro de la población; es decir, es un valor que se calcula a partir
de la información de la muestra, y que se usa para estimar el parámetro
de la población.
9
Erwin. Kreyszig, Matemáticas avanzadas para ingeniería, vol. 2, p. 958.
86
Como una aproximación10de la media de una población, puede tomarse
_ _
1in
mk ( xi ) k
ni1
10
Kreyszig. Erwin. “Matemáticas avanzadas para ingeniería vol. 2”. pp 958
11
Para mayor información consulte la sección 19.8 del libro: ―Matemáticas avanzadas para ingeniería Vol. 2.‖ de
Erwin Kreyszig.
87
3.2 Error de muestreo y errores
que no son de muestreo
88
medido por el error estadístico, en términos de probabilidad, bajo la curva
normal. El resultado de la media indica la precisión de la estimación de la
población basada en el estudio de la muestra. Mientras más pequeño el
error muestras, mayor es la precisión de la estimación. Deberá hacerse
notar que los errores cometidos en una encuesta por muestreo, tales
como respuestas inconsistentes, incompletas o no determinadas, no son
considerados como errores muéstrales. Los errores no muéstrales pueden
también ocurrir en una encuesta completa de la población.
89
estimador es sesgado . Se llama sesgo a B ( )= - E( )
90
la cuasivarianza es en función de la varianza y tomada como
estimador
tendríamos que
Por tanto la
varianza muestral es un estimador sesgado pero asintóticamente
insesgado de la varianza de la población.
si
91
EFICIENCIA. Un estimador es eficiente u óptimo cuando posee varianza
mínima o bien en términos relativos cuando presenta menor varianza que
otro. Quedando claro que el hecho puede plantearse también en términos
más coherentes de Error Cuadrático Medio (ECM). Tendríamos que:
ECM( )=
92
3.4 Estimación de una media con
muestras grandes
Z= =
93
3.5 Estimación de una media
con muestras pequeñas
94
Se podrán utilizar muestras pequeñas siempre y cuando la distribución de
donde proviene la muestra tenga un comportamiento normal. Esta es una
condición para utilizar las tres distribuciones que se manejarán en esta
unidad; t de student, X2 ji-cuadrada y Fisher.
95
3.6 Estimación de una
proporción
96
Intervalo para estimar la proporción
p p p P
_ P(1 P) / n
p
Ejemplo:
Considera el caso de la Bolsa Mexicana de Valores; se desea estimar la
proporción de las 250 acciones que tendrán una baja en precio al cierre
del día. Para ello se observa una muestra de las primeras 4 horas sobre
50 acciones operadas y se observó que la proporción que bajo de precio
son el 0.10 (10%). En el día se estima que no se presenten turbulencias
por información importante o privilegiada. Se pide determinar el intervalo
de confianza para la proporción total de acciones a la baja con un nivel
de confianza del 90%.
p P
Z /2 Z1 /2
p(1 p) / n
97
Pero de acuerdo con tablas normal estándar Z /2 = Z0.05 = -1.64 y Z0.95 =
98
3.6 Otros intervalos de
confianza
Intervalo de confianza
99
Por ejemplo: si decimos que el porcentaje de productos defectuosos que
produce una máquina es del 6%, entonces el nivel se ha medido en 0.06 y
estamos dando una estimación de punto. Por otra parte, si decimos que el
porcentaje es 0.05±0.03 m (o sea, que está entre 2% y 8%), estamos
dando una estimación de intervalo.
x x
_
Si reemplazamos z por x en las desigualdades anteriores,
Se deberá cumplir:
x x
1 1
_
x
100
s
x por n y x por x
se tiene que:
s s
X x X
n n
68.42 69.58
Es decir: x aquí, la media aritmética de la población
lleva un acento circunflejo debido a que se trata de una estimación.
k z k -------------------------------------1
En términos generales, para encontrar un intervalo de cualquier porcentaje
de confianza, se hace lo siguiente:
1º. Se divide el porcentaje de confianza requerido entre 100
101
2º. El resultado del punto anterior se divide entre 2
3º. El valor así obtenido se busca en las tablas de la curva de
distribución normal
4º. El valor encontrado en las tablas se sustituye en 1 y comenzamos el
proceso nuevamente.
x x
_
se puede reemplazar z por x
X x
s
n
en las desigualdades anteriores, se obtiene:
X x
1.96 1.96
s
n
Resolviendo estas desigualdades para , se tiene que:
102
1.96s 1.96s
X x X
n n ------------------2
Como un intervalo con 0.95 de confianza para . Por lo tanto, se puede
afirmar con 95% de confianza que se encuentra dentro del intervalo:
1.96s 1.96s
X X
n y n
Por lo tanto, sustituyendo los valores de la media y de la desviación
estándar, así como del tamaño de la muestra para el ejercicio anterior
(media 69, desviación estándar 3.5 y tamaño de muestra 36) en 2 se tiene
que el intervalo con 95% de confianza es:
1.96 3.5 1.96 3.5
69 x 69
36 36
67.8 x 70.1
(67.8 , 70.1)
(67.9
103
Que de acuerdo con lo estudiado en el tema 2 tiene una distribución Chi-
cuadrada con n-1 grados de libertad. Así que para una muestra particular,
dicho estadístico tiene una probabilidad de estar en un rango dado.
Ejemplo:
2 (n 1)S 2
X 0.025 2
X 20.975
104
Entonces el intervalo es:
(n 1)S 2
24.433 2
59.342
2
Despejando todas las constantes y dejar solo se tiene el intervalo:
2
1 1
24.433 (40 1)(13) 59.342
2
20.75 8.54
Obteniendo raíz cuadrada, se tiene:
4.555 2.92
105
RESUMEN
106
GLOSARIO
Distribución t
Es en realidad una familia de distribuciones de probabilidad que se
emplea para construir un intervalo de confianza para la media poblacional,
siempre que la desviación estándar se estime mediante la desviación
estándar muestral ―s‖ y la población tenga una distribución de probabilidad
normal o casi normal.
Error muestral
Es el valor absoluto de la diferencia entre el valor de un estimador puntual
_
insesgado, tal como la media de la muestra x y el valor del parámetro
poblacional que estima, (en este caso, la media de la población ); es
_
decir, en este caso el error muestral es: x
Estimación de intervalo
Estimación de un parámetro de la población que define un intervalo dentro
del que se cree está contenido el valor del parámetro. Tiene la forma de:
Estimación puntual margen de error.
107
Grados de libertad
Es el número de observaciones independientes para una fuente de
variación menos el número de parámetros independientes estimado al
calcular la variación.
Margen de error
Es el valor sumado y restado a una estimación puntual a fin de
determinar un intervalo de confianza de un parámetro poblacional.
Nivel de confianza
Es la confianza asociada con una estimación de intervalo. Por ejemplo si
en un proceso de estimación de intervalo, el 90% de los intervalos
formados con este procedimiento contienen el valor del parámetro
buscado, se dice que éste es un intervalo de 90% de confianza.
108
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Completa el siguiente cuadro sobre los tipos de estimadores.
Ventajas Desventajas
Estimadores sesgados
Estimadores
insesgados
Estimadores
consistentes
Estimadores
inconsistentes
ACTIVIDAD 2
1. Construye un intervalo de confianza para la varianza de forma general.
ACTIVIDAD 3
2. Construye un intervalo de confianza para la proporción de forma general.
109
ACTIVIDAD 4
Resuelve los siguientes problemas, escribe tu respuesta.
acciones que el promedio de las que estuvieron a la alza fue de p 0.10 ; con un
nivel de confianza de 90% y un error a lo más de 5%. Determina el tamaño de la
muestra que debe ser estudiada.
110
CUESTIONARIO DE
AUTOEVALUACIÓN
111
verdadera.
6. En una muestra aleatoria de 125 llantas para automóvil, se
encontró que la vida media fue de 35,000 km. y la desviación
estándar de 4,000. Determine un intervalo con 68% de confianza
para la vida media.
7. Un estudio sobre ciertas acciones comunes permitió conocer que
en una muestra aleatoria de 100 acciones la rentabilidad anual
promedio fue de 4.2%, mientras que su desviación estándar es de
0.6%. Determine un intervalo, con 95% de confianza, para la
rentabilidad promedio.
8. ¿Cuál es la diferencia entre una estimación y un estimador?
9. ¿Qué es un intervalo de confianza?
10. Señale, ¿por qué son preferibles las estimaciones de intervalo a las
estimaciones puntuales?
112
LO QUE APRENDÍ
LO QUE APRENDÍ
113
EXAMEN DE
AUTOEVALUACIÓN
a) robusto
b) insesgado
c) sesgado
a) el más eficiente
b) sesgado
c) ineficiente
a) consistentes
b) robustas
c) ineficientes
114
4. Este tipo de estimadores son estadísticos casi insesgados y casi
eficientes para una gran variedad de distribuciones poblacionales:
a) consistentes
b) robustos
c) eficientes
a) consistente
b) robusto
c) inconsistente
115
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
4. ATO Manuel y López Juan J., Fundamentos de estadística con SYSTAT,
México; Addison Wesley Iberoamericana, 1996, 630 pp
5. CHRISTENSEN H., Estadística paso a paso (2a. ed.) ; México; Trillas, 1990,
682 pp.
6. GARZA Tomás, Probabilidad y estadística, México; Iberoamericana, 1996, 152
pp.
7. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios, México; Irwin
McGraw-Hill, 1997, 955 pp
116
UNIDAD 4
PRUEBAS DE HIPOTESIS
117
OBJETIVO ESPECÍFICO
INTRODUCCIÓN
En esta unidad, el alumno investigará y analizará el concepto de prueba
de hipótesis y lo aplicará sobre varianzas, medias, etc.; ello le permitirá
percatarse de la importancia que tienen las pruebas de hipótesis para la
toma de decisiones dentro de las empresas.
118
De que un tipo de máquina llenadora pone al menos un
kilogramo de detergente en una bolsa.
De que cierto cable de acero tiene una resistencia de 100 kg. o
más a la rotura.
De que la duración promedio de una batería es igual a 500
horas.
De que en un proceso de elaboración de cápsulas éstas
contengan precisamente 250 miligramos de un medicamento,
Que la empresa de transportes de nuestra competencia tiene
tiempos de entrega más rápidos que la nuestra.
De que la producción de las plantas de oriente contiene menos
unidades defectuosas que las de occidente.
En todos estos casos y en muchos más, las personas actúan con base en
alguna creencia sobre la realidad, la cual quizá llegó al mundo como una
simple conjetura, como un poco más que una suposición informada; una
proposición adelantada tentativamente como una verdad posible es
llamada hipótesis.
119
Sin embargo, tarde o temprano, toda hipótesis se enfrenta a la evidencia
que la comprueba o la rechaza y, en esta forma, la imagen de la realidad
cambia de mucha a poca incertidumbre.
Por lo tanto, de una manera sencilla podemos decir que una prueba de
hipótesis es un método sistemático de evaluar creencias tentativas sobre
la realidad, dicho método requiere de la confrontación de tales creencias
con evidencia real y decidir, en vista de esta evidencia, si dichas
creencias se pueden conservar como razonables o deben desecharse por
insostenibles.
120
LO QUE SÉ
LO QUE SÉ
x z
n
a) 2
b) 2
x
z
c) n
x z
n
a) 2
b) 2
x
z
c) n
121
TEMARIO DETALLADO
(10 HORAS)
122
4.1 Planteamiento de
las hipótesis
123
3. Derivación de una regla de decisión
Una vez que hemos formulado de manera apropiada las dos
hipótesis opuestas y seleccionado el tipo de estadístico con qué
probarlas, el paso siguiente en la prueba de hipótesis es la
derivación de una regla de decisión:
Una regla de decisión es una regla para prueba de hipótesis que nos
permite determinar si la hipótesis nula debe ser aceptada o si debe
ser rechazada a favor de la alternativa.
Se dice que los valores numéricos del estadístico de prueba para los
que H0 es aceptada están en la región de aceptación y son
considerados no significativos estadísticamente.
12
Heinz Kohler, Estadística para negocios y economía, p. 384
124
4.2 Errores tipo I y tipo II
Error tipo I
Ejemplo:
Incurrir en un riesgo α
125
pruebe si sus varillas ciertamente tienen un promedio de resistencia a la
tensión de al menos 2000 libras ¿Cuáles son las implicaciones si el nivel
de significancia de la prueba de hipótesis se fija en: α = 0.08?
Solución:
Dadas las hipótesis: H0 : 0 2000 y H1 : 0 2000
Error Tipo II
126
Ejemplo:
Incurrir en un riesgo β
Solución:
50
Dadas las hipótesis: H0 : 0 y H1 :
0 50
Nivel de significancia
127
Potencia de la prueba
13
Richard C. Weimer, Estadística, p. 461
128
SÍMBOLO DE LA DEFINICIÓN
PROBABILIDAD
129
En las pruebas de hipótesis para la media (μ), cuando se conoce la
desviación estándar (σ) poblacional, o cuando el valor de la muestra es
grande (30 o más), el valor estadístico de prueba es z y se determina a
partir de:
130
Formular la regla de decisión
Valor critico
Es el punto de división entre la región en la que se rechaza la hipótesis
nula y la región en la que no se rechaza la hipótesis nula.
131
hipótesis nula. Debe subrayarse que siempre existe la posibilidad de
rechazar la hipótesis nula cuando no debería haberse rechazado (error
tipo I). También existe la posibilidad de que la hipótesis nula se acepte
cuando debería haberse rechazado (error de tipo II).
132
Existen diversos métodos para desarrollar dicho test, minimizando los
errores de tipo I y II, y hallando por tanto con una determinada potencia, la
hipótesis con mayor probabilidad de ser correcta. Los tipos más
importantes son los test centrados, de hipótesis y alternativa simple,
aleatorizados, etc. Dentro de los test no paramétricos, el más extendido
es probablemente el test de la U de Mann-Whitney.
133
de H0 tiene el símbolo ―<‖, entonces la prueba se denomina prueba
direccional de cola derecha.
134
supuestos necesarios para aplicar la prueba adecuada a cada caso.
Fijando el nivel de significación antes de realizar la prueba y no después
de obtener el resultado, al igual que debes valorar seriamente si debes
enunciar el problema de forma bilateral o unilateral antes de realizar la
prueba. Violar el cumplimiento de los supuestos implica que la prueba
pierda potencia, pudiendo no encontrarse diferencias cuando realmente
las hay o lo contrario.
135
después restamos las dos medias muestrales, obtenemos la diferencia
entre medias muestrales. Esta diferencia será positiva si X1 es mayor que
X2 y negativa si X3 es mayor que X1.
Ho: p = p0
H1: p ¹ p0
136
Regla de decisión: se determina de acuerdo a la hipótesis alternativa,
si es bilateral o unilateral
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
137
4.9 Prueba para la diferencia
entre dos varianzas
Cociente F
S12
F = ---------
S22
Donde:
S12 = Varianza de la muestra 1
S22 = Varianza de la muestra 2
138
El estadístico de prueba dado por la ecuación anteriormente nombrado,
es el cociente F . Si la hipótesis nula de varianzas poblacionales iguales
es cierta, la razón de las varianzas muestrales se obtiene de la
distribución F teórica. Al consultar la tabla F se puede evaluar la
probabilidad de este suceso.
139
RESUMEN
140
GLOSARIO
Error tipo I
Es el error que se comete al rechazar H0 cuando ésta es verdadera.
Estadístico de prueba
Es el estadístico cuyo valor se utiliza para determinar si se rechaza una
hipótesis nula.
141
Nivel de significancia
Es la probabilidad máxima de cometer un error tipo I.
Potencia de la prueba
Es la probabilidad de rechazar correctamente H0 cuando es falsa.
Prueba direccional o de una cola
Prueba de hipótesis en la que la región de rechazo se tiene en un extremo
de la distribución muestral.
Región de rechazo
Es la zona de valores en la cual se rechaza la hipótesis H0.
Valor crítico
Es un valor contra el cual se compara el obtenido en el estadístico de
prueba para determinar si se debe rechazar o no la hipótesis nula.
Valor p
Es la probabilidad de que, cuando la hipótesis nula sea verdadera, se
obtenga un resultado de una muestra que sea al menos tan improbable
como el que se observa. También se le conoce como nivel observado de
significancia.
142
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Explica lo que entiendes por hipótesis nula e hipótesis alternativa.
ACTIVIDAD 2
Considerando únicamente la hipótesis nula y la hipótesis alternativa.
Cuántos tipos de hipótesis hay y explícalas.
143
CUESTIONARIO DE
AUTOEVALUACIÓN
144
10. En una planta embotelladora de leche se toma una muestra de 500
botellas; 40 de ellas se obtienen con impurezas. Si se supone que el
límite máximo de impurezas es 7%. Establezca la regla de decisión
para un nivel de significancia del 4%
145
LO QUE APRENDÍ
LO QUE APRENDÍ
146
EXAMEN DE
AUTOEVALUACIÓN
a) acepta
b) es indiferente
c) rechaza
d) debe replantear
147
2. Se supone que un medicamento que sirve como antibiótico contiene 1000
unidades de penicilina. Una muestra aleatoria de 100 de estos antibióticos produjo
una media de 1020 gramos y una desviación estándar de 140 gramos. Para un
nivel de significancia del 5%, la hipótesis nula se:
a) acepta
b) rechaza
c) es indiferente
d) replantea
3. Se sabe que los voltajes de una marca de pilas ―AAA‖ para calculadora se
distribuyen normalmente con un promedio de 1.5 volts; se probó una muestra
aleatoria de 15 y se encontró que la media fue de 1.3 volts y que la desviación
estándar fue de 0.25 volts. Para un nivel de significancia del 5%, la hipótesis nula
se:
a) acepta
b) rechaza
c) es indiferente
d) replantea
148
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
4. ATO Manuel y López Juan J., Fundamentos de estadística con SYSTAT,
México; Addison Wesley Iberoamericana, 1996, 630 pp
5. CHRISTENSEN H., Estadística paso a paso (2a. ed.) ; México; Trillas, 1990,
682 pp.
6. GARZA Tomás, Probabilidad y estadística, México; Iberoamericana, 1996, 152
pp.
7. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios, México; Irwin
McGraw-Hill, 1997, 955 pp
149
UNIDAD 5
PRUEBAS DE HIPOTESIS
CON LA DISTRIBUCIÓN
JI CUADRADA
150
OBJETIVO ESPECÍFICO
INTRODUCCIÓN
151
De que un tipo de máquina llenadora pone al menos un
kilogramo de detergente en una bolsa.
De que cierto cable de acero tiene una resistencia de 100 kg. o
más a la rotura.
De que la duración promedio de una batería es igual a 500
horas.
De que en un proceso de elaboración de cápsulas éstas
contengan precisamente 250 miligramos de un medicamento,
Que la empresa de transportes de nuestra competencia tiene
tiempos de entrega más rápidos que la nuestra.
De que la producción de las plantas de oriente contiene menos
unidades defectuosas que las de occidente.
En todos estos casos y en muchos más, las personas actúan con base en
alguna creencia sobre la realidad, la cual quizá llegó al mundo como una
simple conjetura, como un poco más que una suposición informada; una
proposición adelantada tentativamente como una verdad posible es
llamada hipótesis.
152
Sin embargo, tarde o temprano, toda hipótesis se enfrenta a la evidencia
que la comprueba o la rechaza y, en esta forma, la imagen de la realidad
cambia de mucha a poca incertidumbre.
Por lo tanto, de una manera sencilla podemos decir que una prueba de
hipótesis es un método sistemático de evaluar creencias tentativas sobre
la realidad, dicho método requiere de la confrontación de tales creencias
con evidencia real y decidir, en vista de esta evidencia, si dichas
creencias se pueden conservar como razonables o deben desecharse por
insostenibles.
153
LO QUE SÉ
LO QUE SÉ
2 s 2 ( gl )
2
a)
n
1
X Xi
b) n i 1
s 2 (n 1)
c) 2
1 /2
s 2 (n 1) 2 s 2 (n 1)
2 2
b) /2 1 /2
n
2 1
s (Xi X )2
c) n 1i 1
154
TEMARIO DETALLADO
(8 HORAS)
155
5.1 La distribución
ji cuadrada, χ2
156
distribución Chi-cuadrada es sumamente sensible a la suposición de que la
población está normalmente distribuida y por ejemplo construir intervalos
de confianza para estimar una varianza poblacional, puede que los
resultado no sean correctos dependiendo de si la población no está
normalmente distribuida.
2 s 2 ( gl )
2
14
El término grados de libertad se refiere al número de observaciones
independientes para una fuente de variación menos el número de
parámetros independientes estimado al calcular la variación.
2 s 2 (n 1)
2
14
Ken, Black. “Estadística en los negocios”, editorial CECSA, pp. 264
157
En general y debido a que la distribución Chi-cuadrada ( 2) no es simétrica
a medida que se incrementa el número de grados de libertad, la curva
característica de la distribución se vuelve menos sesgada.
2 s 2 (n 1)
2
Algebraicamente podemos manipular la formula anterior con
el objetivo de que nos sea de utilidad para construir intervalos de confianza
para varianzas poblacionales, quedando de la siguiente manera:
s 2 (n 1) 2 s 2 (n 1)
2 2
/2 1 /2
Ejemplo:
2.10 mm; 2.00 mm, 1.90 mm, 1.97 mm, 1.98 mm, 2.01 mm, 2.05 mm
158
por lo tanto sustituyendo datos tenemos que:
2.10 1.90 1.98 2.05 2.00 1.97 2.01
X
7
y al efectuar cálculos el resultado de la media aritmética (redondeado a 2
decimales) es de:
X 2.00
I xi (xi - ) (xi - )2
159
n
1
s2 (Xi X )2
n 1i 1
160
cuadrada, el valor para ambas colas será diferente, así, el primer valor que se debe
de obtener es el de la cola derecha, mismo que se obtiene al ubicar en el primer
renglón de la tabla el valor correspondiente al nivel de significancia, que en este
caso es de 0.05 y, posteriormente se ubica en el lugar de las columnas los
correspondientes grados de libertad ya calculado, que en este caso es de 6 grados
de libertad, por lo tanto el valor de Chi-cuadrada obtenido es de:
2
0.05,6 12.5916
15
el valor se obtuvo utilizando la tabla correspondiente a la Chi-cuadrada en el libro: “Estadística en los negocios” del
autor: Ken Black, pp 779
161
s 2 (n 1) 2 s 2 (n 1)
2 2
/2 1 /2
0.0034122(7 1) 2 0.0034122(7 1)
12.5916 1.63538
2
0.0001625 0.0125189
Este intervalo de confianza nos dice que con 90% de confianza, la varianza de la
población está entre 0.0001625 y 0.0125189.
162
Investigaciones de tipo social - muestras pequeñas no
representativas >5.
Cuando se requiere de establecer el nivel de confianza o
significatividad en las diferencias.
Cuando la muestra es seleccionada no probabilísticamente.
X2 permite establecer diferencias entre f y se utiliza solo en escala
nominal.
Población > a 5 y < a 20.
Pasos.
1. Arreglar las categorías y las frecuencias observadas.
2. Calcular los valores teóricos esperados para el modelo experimental
o tipo de distribución muestral: normal, binomial y de Poisson.
3. Calcular las diferencias de las frecuencias observadas en el
experimento con respecto a las frecuencias esperadas.
4. Elevar al cuadrado las diferencias y dividirlas entre los valores
esperados de cada categoría.
5. Efectuar la sumatoria de los valores calculados.
6. Calcular los grados de libertad (gl) en función de número de
categorías [K]: gl = K - 1.
7. Comparar el estadístico X2 con los valores de la distribución de ji
cuadrada en la tabla.
8. Decidir si se acepta o rechaza la hipótesis X2c ³ X2t se rechaza Ho.
163
5.2 Pruebas de hipótesis para la
varianza de una población
164
Para probar la hipótesis nula, se toma una muestra aleatoria de elementos
de una población que se investiga; y a partir de esos datos, se calcula el
estadístico de prueba.
165
La proporción de una población
Ho: p = p0
H1: p ¹ p0
Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si
es bilateral o unilateral), lo cual puedes fácilmente hacerlo auxiliándote de
la tabla 4.4.1.
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
166
5.4 Pruebas de bondad de
ajuste a distribuciones teóricas
167
que se supone debe seguir esa muestra. Ambas pruebas están basadas
en la hipótesis nula de que no hay diferencias significativas entre la
distribución muestral y la teórica. Ambas pruebas están basadas en las
siguientes hipótesis:
168
caudales de un río en un determinado sitio, podríamos pensar en una
distribución logarítmica normal, pero no en una distribución normal.
169
Para estudiar la dependencia entre la práctica de algún deporte y la
depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes,
con los siguientes resultados:
Deportista 38 9 47
No deportista 31 22 53
69 31 100
170
5.6 Pruebas de homogeneidad
Nº niños Nº niños
Comunidad
sin caries con caries
A 38 87 125
B 8 117 125
C 30 95 125
D 44 81 125
171
E 64 61 125
F 32 93 125
L = 65,85
172
RESUMEN
173
GLOSARIO
Error tipo I
Es el error que se comete al rechazar H0 cuando ésta es verdadera.
Error tipo II
Es el error que se comete al aceptar H0 cuando ésta es falsa.
Estadístico de prueba
Es el estadístico cuyo valor se utiliza para determinar si se rechaza una
hipótesis nula.
Nivel de significancia
Es la probabilidad máxima de cometer un error tipo I.
Potencia de la prueba
Es la probabilidad de rechazar correctamente H0 cuando es falsa.
174
Prueba no direccional o de dos colas
Prueba de hipótesis en la que la región de rechazo se ubica en ambos
extremos de la distribución muestral.
Región de rechazo
Es la zona de valores en la cual se rechaza la hipótesis H0.
Valor crítico
Es un valor contra el cual se compara el obtenido en el estadístico de
prueba para determinar si se debe rechazar o no la hipótesis nula.
Valor p
Es la probabilidad de que, cuando la hipótesis nula sea verdadera, se
obtenga un resultado de una muestra que sea al menos tan improbable
como el que se observa. También se le conoce como nivel observado de
significancia.
175
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Revisa los diferentes tipos de pruebas de hipótesis desarrolladas en esta
unidad y compáralas, escribe tus conclusiones.
176
CUESTIONARIO DE
REFORZAMIENTO
177
LO QUE APRENDÍ
LO QUE APRENDÍ
Elabora un mapa conceptual sobre los tipos de pruebas desarrollas en
esta unidad.
178
EXAMEN DE
AUTOEVALUACIÓN
a) normalmente distribuida
b) indiferente
c) rechazada
d) replanteada
a) datos y su media
b) información indiferente
c) datos aleatorios
d) datos y su variabilidad
179
3. Es el error que se comete al aceptar H0 cuando ésta es falsa
a) Tipo I
b) Tipo II
c) Tipo III
d) Estándar
180
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
181
UNIDAD 6
ANÁLISIS DE REGRESIÓN
LINEAL SIMPLE
182
OBJETIVO ESPECIFICO
INTRODUCCIÓN
183
LO QUE SÉ
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas.
1. Es una condición para determinar la ecuación de una recta:
a) conocer la pendiente de la ordenada al origen
b) conocer la pendiente y la ordenada al origen de la recta misma
c) conocer dos ordenadas al origen de la recta misma
2. La pendiente de una recta nos indica:
a) si la recta pasa por el origen
b) si la recta se encuentra en un cuadrante en particular
c) la inclinación de la recta
3. En la ecuación de una recta, la ordenada al origen nos indica:
a) el punto donde la recta intersecta al eje ―x‖
b) un punto fuera del plano
c) el punto donde la recta intersecta al eje ―y‖
4. Cuando se dice que la relación entre dos variables es de tipo lineal,
sabemos que la grafica de su relación es:
a) una línea recta
b) una parábola
c) una circunferencia
5. De las siguientes ecuaciones, cuál representa una línea recta:
a) x 2 y2 1
b) y mx b
c) y mx 2 b
184
TEMARIO DETALLADO
(10 HORAS)
185
6.1 Ecuación y recta de
regresión
Observando el diagrama de dispersión, podemos obtener una primera
idea de si existe relación o no entre las variables estadísticas. Con el
coeficiente de correlación podemos medir la correlación lineal, en caso de
existir. Vamos ahora a calcular las líneas que mejor se aproximen a la
nube de puntos. A estas líneas se les llama líneas de regresión.
186
6.1 El método de
mínimos cuadrados
16
Heinz Kohler, Estadística para negocios y economía, pp. 528-529.
187
17
Una relación estocástica entre dos variables cualesquiera, x y y, es
imprecisa en el sentido de que muchos valores posibles de ―y‖ se pueden
asociar con cualquier valor de ―x”. Sin embargo, un resumen gráfico de la
relación estocástica entre la variable independiente ―x” y la variable
dependiente ―y” estará dado por una línea de regresión, misma que
reduce al mínimo los errores cometidos cuando la ecuación de esa línea
se utilice para estimar y a partir de x.
17
Heinz Kohler, Estadística para negocios y economía, p. 530.
188
De este análisis de relación estocástica que se da entre dos variables,
surgen las ecuaciones que nos provee el método de mínimos cuadrados,
que a saber son:
En la que:
n n
n
Xi Yi
i 1 i 1
X iYi
i 1 n
b1 n
n
( X i )2
X i2 i 1
i 1 n
189
y la ordenada al origen se calcula mediante la fórmula:
b0 Y b1 X
190
6.3 Determinación de la
ecuación de regresión
Donde:
191
6.4 El modelo de regresión
y sus supuestos
Y = f (X) (1)
Si consideramos que la relación f, que liga Y con X, es lineal, entonces (1)
se puede escribir así:
t 1 2 t Y = β + β X (2)
Como quiera que las relaciones del tipo anterior raramente son exactas,
sino que más bien son aproximaciones en las que se han omitido muchas
variables de importancia secundaria, debemos incluir un término de
perturbación aleatoria, t u , que refleja todos los factores – distintos de X -
que influyen sobre la variable endógena, pero que ninguno de ellos es
relevante individualmente. Con ello, la relación quedaría de la siguiente
forma:
192
6.5 Inferencias estadísticas sobre
la pendiente de la recta de
regresión
y i
b0 b1 X i
Donde b0 es en sí, el punto donde la recta corta al eje de las ―x‖ y b 1 nos
da el grado de inclinación de la recta, de tal forma que cuando la
pendiente de la recta es positiva, se dice que la relación que existe entre
193
las dos variables dependiente e independiente es de naturaleza positiva,
es decir, que posee una grafica como la indicada a continuación:
Relación positiva entre dos variables en regresión lineal
194
Relación negativa entre dos variables en regresión lineal.
Cuando es necesario resumir aún más los datos (de una gráfica por
ejemplo) se utiliza un solo número, que de alguna forma mide la fuerza de
asociación entre dos variables como son el ingreso real y el nivel de
educación escolar en nuestro caso. El análisis de correlación nos ayuda a
obtener dicho número que se conoce como: coeficiente de correlación.
Los valores de coeficiente de correlación siempre están entre –1 y +1 un
valor de +1 indica que las dos variables tienen una relación lineal positiva
perfecta. Esto es, todos los puntos de datos están en una línea recta con
pendiente positiva. Un valor de –1 indica que las variables tienen una
195
relación lineal negativa perfecta, y que todos los puntos de datos están
en una recta con pendiente negativa. Los valores del coeficiente de
correlación cercanos a cero indican que las variables no tienen relación
línea18.
r ( signodeb1 ) r2
r 0.9027
r 0.9501
18
Anderson, Sweeney & Williams, 1999. Estadística para administración y economía, p.p. 555.
196
GLOSARIO
Análisis de residuales
Análisis que se aplica para determinar si los supuestos acerca del modelo
de regresión parecen válidos. También se usa para determinar
observaciones extraordinarias o influyentes.
Coeficiente de correlación
Medida de la intensidad de la relación lineal entre dos variables.
Coeficiente de determinación
Medida de la bondad del ajuste de la recta de regresión. Se interpreta
como la parte de la variación de la variable dependiente ―y‖ que explica la
recta de regresión.
Diagrama de dispersión
Gráfica de datos de dos variables en la que la variable independiente está
en el eje horizontal y la variable dependiente en el eje vertical.
es minimizar yi yi
Observación influyente
Observación que tiene una fuerte influencia sobre el efecto de los
resultados de la regresión.
197
Puntos de gran influencia.
Observaciones con valores extremos de la variable independiente.
Recta de regresión
Estimación hecha a partir de datos de una muestra aplicando el método
de mínimos cuadrados para la regresión lineal simple, la ecuación de
Residual i-ésimo
Diferencia entre el valor observado de la variable dependiente y el valor
predicho usando la recta de regresión; para la i-ésima observación, el
residual es: yi yi
Variable dependiente
Es la variable que se predice o se explica. Se representa
matemáticamente por ―y‖.
Variable independiente
Es la variable que sirve para predecir o explicar. Se representa
matemáticamente por ―x‖.
198
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Explica las implicaciones del signo y valor del coeficiente de
determinación del problema resuelto en la autoevaluación.
ACTIVIDAD 2
Explica las implicaciones del signo y valor del coeficiente de correlación
del problema resuelto en la autoevaluación.
199
CUESTIONARIO DE
AUTOEVALUACIÓN
200
LO QUE APRENDÍ
LO QUE APRENDÍ
Sueldo 18.0 15.0 19.0 9.2 8.6 12.0 10.7 14.3 17.8 16.0 15.0
del
cliente
Gastos 14.8 10.4 15.7 7.1 5.3 8.0 8.5 10.2 13.0 14.0 11.3
del
cliente
Nota: tanto el sueldo como los gastos del cliente son mensuales y están dados
en miles de pesos.
201
EXAMEN DE
AUTOEVALUACIÓN
202
4. ¿Es el símbolo comúnmente utilizado para denotar a la pendiente de la
recta de regresión?:
a) b0
b) b1
c) b2
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24.3 12.5 31.2 28 35.1 10.5 23.2 10 8.5 15.9 14.7 15
Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2
a) r 2 0.844740208
b) r 2 -0.844740208
c) r 2 1.844740208
a) r =1.919097496
b) r =-0.919097496
a) r = 0.919097496
203
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
3. CHRISTENSEN H., Estadística paso a paso (2a. ed.) ; México; Trillas,
1990, 682 pp.
4. GARZA Tomás, Probabilidad y estadística, México; Iberoamericana,
1996, 152 pp.
5. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios, México;
Irwin McGraw-Hill, 1997, 955 pp
204
UNIDAD 7
205
OBJETIVO ESPECÍFICO
INTRODUCCIÓN
206
LO QUE SÉ
LO QUE SÉ
Elige la respuesta correcta a las siguientes preguntas, una vez que
concluyas, obtendrás de manera automática tu calificación.
1. La fórmula que caracteriza la recta de regresión es:
a) y b0 b1 X 2
i
i
b)
y i
b0 b1 X i
i n
c) x x
i 1 i
n
2. La fórmula para determinar la pendiente de la recta de regresión es:
a) b0 Y b1 X
n n
n
Xi Yi
i 1 i 1
X iYi
i 1 n
b1 n
n
( X i )2
2 i 1
X i
b) i 1 n
c)
y i 0 1 i b b X
n
Xi Yi
i 1 i 1
X iYi
i 1 n
b1 n
n
( X i )2
2 i 1
X i
b) i 1 n
c)
y i
b0 b1 X i
207
4. La fórmula para calcular el coeficiente de determinación es:
n _
(Y Y ) 2
a) r i 1
n _
(Y Y i ) 2
i 1
n _
(Y Y )2
b) r 2 signo de b1 i 1
n _
(Y Y i )2
i 1
n _
(Y Y ) 2
r2 i 1
n _
(Y Y i ) 2
c) i 1
208
TEMARIO DETALLADO
(8 HORAS)
209
7.1 Los cuatro componentes
de una serie de tiempo
Estacionalidad (E)
La componente estacional muestra un comportamiento regular en los
mismos periodos de tiempo, reflejando costumbres o modas que se repiten
regularmente dentro del periodo de observación. En la gráfica la
estacionalidad quedaría representada por ejemplo por las variaciones
semanales en los rendimientos, no visibles por el periodo de información
que se está manejando.
210
Ejemplo:
211
Rendimiento de los certificados de la tesorería a 90 días.
14
Rendimiento %
12
10
8
0
1 2 3 4 5 6 7 8 9 1 11 1 1 1 15 1 17
Trimestre
Yt = bo + b1X
En donde:
212
Una vez definido el modelo, se procede a la determinación de los valores
de los coeficientes bo y b1 de la recta de regresión. En nuestro problema en
particular, la ecuación de regresión, que representa a la tendencia del
comportamiento de la tasa de rendimiento de los CETES a 90 días
aplicando las formulas correspondientes para el cálculo primero de ―b1‖
n n
n
Xi Yi
i 1 i 1
X iYi
i 1 n
b1 n
n
( X i )2
X i2 i 1
i 1 n
b0 Y b1 X
es:
Yt = 10.8553676 - 0.44595588 X
r ( signodeb1 ) r 2
Tenemos que el valor del coeficiente de correlación es de r = -0.8078, lo
que nos indica que el ajuste logrado con la recta de regresión es adecuado,
recordemos que el coeficiente de correlación es una medida de la
213
precisión lograda en el ajuste, valores del coeficiente de correlación iguales
a +1 ó -1 son la indicación de un ajuste perfecto, un valor igual a cero nos
dirá que este no existe. (nota: se deja al estudiante corroborar los valores
obtenidos de ―b1‖, ―b0‖ y ―r‖)
214
Gráfica de comparación de la recta de tendencia contra el comportamiento
real de los CETES a 90 días.
14
12
10
Rendimiento en %
Tasa real
Tendencia
8
Comportamiento real
de
6 la tasa de rendimiento
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
215
7.3 Tendencia secular
216
2º) Cómo este método se basa en la hipótesis multiplicativa, si dividimos
la serie observada Y t, por su correspondiente media móvil centrada,
eliminamos de forma conjunta las componentes del largo plazo (tendencia
y ciclo), pero la serie seguirá manteniendo el efecto de la componente
estacional.
3º) Para eliminar el efecto de la componente estacional, calcularemos las
medias aritméticas a nivel de cada estación (cuatrimestre). Estas medias
representan de forma aislada la importancia de la componente estacional.
217
Sigue los siguientes pasos:
• Se calculan las medias anuales de los datos observados y:
218
7.5 Variaciones cíclicas
Supongamos ahora que nos interesa conocer la variación que han tenido
los rendimientos respecto de la tendencia, es decir la componente cíclica,
la cual queda representada en la gráfica (Gráfica de apreciación de la
componente cíclica de los CETES a 90 días) por los valores mayores y
menores respecto de la tendencia. Si deseamos conocer el valor
numérico de este comportamiento debemos proceder como sigue:
Y
c 100
Yt
En donde: Y representa el rendimiento registrado.
219
Y t representa el rendimiento calculado con la ecuación de
tendencia.
220
15 5.51 4.17 132.26
16 5.02 3.72 134.94
17 5.07 3.27 154.85
150
140
130
Componente cíclica
120
Línea de tendencia
Porcentaje
110
100
90
80
70
60
50
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
221
fluctuaciones a la baja han sido más importantes que las
correspondientes a la alza. Esto muy importante, pues si alguna persona
compró CETES a 90 días durante el primer trimestre, podemos observar
que el rendimiento de estos bajo a continuación y apenas pudieron
igualarse los rendimientos alrededor del trimestre 16, presentando una
alza alrededor del trimestre 17, lo cual puede representar una pérdida de
tiempo y dinero para la persona que bien pudo invertir algunos otros
instrumentos que tuvieran mejores rendimientos.
(T )(C )( E )( I )
I
(T )(C )( E )
222
Cuadro 7.5 Cálculo de la componente irregular
Rendimiento Componentes
Trimestre Real tendencia cíclica temporal Irregular
Yc C E I
1 14.03 10.41 134.78 96.52 103.61
2 10.69 9.96 107.29 100.96 99.05
3 8.63 9.52 90.68 91.46 109.34
4 9.58 9.07 105.60 95.98 104.19
5 7.48 8.63 86.72 96.52 103.61
6 5.98 8.18 73.11 100.96 99.05
7 5.82 7.73 75.26 91.46 109.34
8 6.69 7.29 91.80 95.98 104.19
9 8.12 6.84 118.68 96.52 103.61
10 7.51 6.40 117.42 100.96 99.05
11 5.42 5.95 91.09 91.46 109.34
12 3.45 5.50 62.68 95.98 104.19
13 3.02 5.06 59.71 96.52 103.61
14 4.29 4.61 93.02 100.96 99.05
15 5.51 4.17 132.26 91.46 109.34
16 5.02 3.72 134.94 95.98 104.19
17 5.07 3.27 154.85
223
de los CETES a 90 días) que relaciona todos los valores se presenta
enseguida.
160
140
Cíclica
120
Irregular
Porcentaje
100
80
Tendencia
Estacional
60
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Trimestre
224
7.7 Modelos autoregresivos de
promedios móviles
225
RESUMEN
226
GLOSARIO
Componente cíclico
Componente del modelo de la serie de tiempo que causa una variación
periódica sobre y debajo de la tendencia, y la variación dura más de un
año.
Componente estacional
Componente del modelo de una serie de tiempo que muestra un patrón
periódico de un año o menos.
Componente irregular
Componente del modelo de una serie de tiempo que refleja la variación
aleatoria de los valores de la serie de tiempo, adicionales a los que se
pueden explicar con los componentes de tendencia, cíclico y estacional.
Constante de suavizamiento
Parámetro del modelo de suavizamiento exponencial, con el que se
calcula el factor de ponderación asignado al valor más reciente de la serie
de tiempo en el cálculo del valor del pronóstico.
Elaboración de escenarios
Método cualitativo de pronóstico que consiste en formar un escenario
conceptual del futuro, basado en un conjunto bien definido de supuestos.
227
Error cuadrático medio
Es un método con el que se mide la precisión de un modelo de
pronóstico. Es el promedio de la suma de las diferencias entre los valores
pronosticados y los valores reales de la serie de tiempo estando elevadas
al cuadrado esas diferencias.
Modelo autorregresivos
Modelo de serie de tiempo donde se usa una relación de regresión
basada en valores anteriores de la serie para predecir valores futuros de
la misma.
Promedios móviles
Método de pronóstico o suavizamiento de una serie de tiempo, en el que
se promedia cada grupo sucesivo de puntos de datos.
228
Promedios móviles ponderados
Método de pronóstico o suavizamiento de una serie de tiempo con el que
se calcula un promedio ponderado de los valores de datos en el pasado.
La suma de los factores de ponderación debe ser igual a uno.
Pronóstico
Proyección o predicción de valores futuros de una serie de tiempo.
Serie de tiempo
Es un conjunto de observaciones medidas en puntos sucesivos en el
tiempo, o durante periodos sucesivos en el tiempo.
Suavizamiento exponencial
Técnica de pronóstico que emplea un promedio ponderado de una serie
de tiempo en el pasado para determinar valores de una serie de tiempo
suavizada, que se pueden usar para elaborar pronósticos.
Tendencia
Desplazamiento o movimiento de la serie de tiempo, a largo plazo,
observable a través de varios periodos.
229
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
Elabora un cuadro comparativo de lo que representa cada una de las
cuatro componentes de una serie de tiempo.
Representa
Componente de
tendencia
Componente
cíclica
Componente de
estacionalidad
Componente
irregular
ACTIVIDAD 2
Elabora un resumen de la forma en que se separa la componente de
tendencia en una serie de tiempo.
230
CUESTIONARIO DE
AUTOEVALUACIÓN
231
LO QUE APRENDÍ
LO QUE APRENDÍ
1
2 13.9058
3 13.9777
4 13.9382
5 13.9145
6 13.9325
7 14.0950
8 13.9342
9 14.1675
10 14.1513
11 14.1975
12 14.3097
13 14.5404
14 14.4667
15 14.2945
16 14.1778
17 14.1392
232
EXAMEN DE
AUTOEVALUACIÓN
233
3. La componente cíclica se calcula para cada valor real obtenido mediante
la fórmula:
a) y b0 b1 X i
i
Y
b) c 100
Yt
Y
c) C
T E I
a) de la recta de regresión
b) del modelo multiplicativo de una serie de tiempo
c) de tendencia de la serie de tiempo.
a) tendencia
b) componente temporal.
c) componente irregular.
234
(T )(C )( E )( I )
6. En la expresión ( E )( I ) obtenida a partir del
(T )(C )
modelo multiplicativo de una serie de tiempo, el resultado contiene:
235
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
3. CHRISTENSEN H., Estadística paso a paso (2a. ed.) ; México; Trillas,
1990, 682 pp.
4. GARZA Tomás, Probabilidad y estadística, México; Iberoamericana,
1996, 152 pp.
5. HANKE Jonh E. y Reitsch Arthur G., Estadística para Negocios, México;
Irwin McGraw-Hill, 1997, 955 pp
236
UNIDAD 8
PRUEBAS ESTADÍSTICAS NO
PARAMÉTRICAS
237
OBJETIVO ESPECÍFICO
El alumno identificará las pruebas no paramétricas más utilizadas.
INTRODUCCIÓN
En esta unidad se revisaran las pruebas no paramétricas y su utilidad sobre
todo cuando no se conoce la distribución del cual provienen los datos, lo
cual impide hacer una estimación por intervalos de confianza o una prueba
de hipótesis.
238
TEMARIO DETALLADO
(6 HORAS)
239
LO QUE SÉ
LO QUE SÉ
x
z
b)
k
( fo fe )2
c) z
i 1 fe
240
8.1 Diferencias entre los métodos
estadísticos paramétricos y no
paramétricos
241
hay diferencias significativas entre una distribución esperada y la
estimada para la población.
242
mínimos y máximos por lo que si el número de rachas (r) es menor o
excede de esos valores críticos, se indica una ausencia de aleatoriedad.
2n1 n2 2n1 n2 n1 n2
r 2
n1 n2 n1 n2 1
Desviación estándar:
r r
z
Estadístico de prueba: r
243
Ejemplo de aplicación; en una campaña a 100 posibles compradores de
un producto especializado, se realizaron 52 ventas, 48 no ventas y 40
rachas. A un nivel de significación del 1% probar la hipótesis que la
muestra es aleatoria.
Las hipótesis son:
Ho :
La muestra es aleatoria.
H1 :
La muestra no es aleatoria.
r r
z
Estadístico de prueba: r
2n1 n2 2 52 48
r 1 1 50.92
La media es: n1 n2 52 48
La desviación estándar:
2n1n2 2n1n2 n1 n2 2 52 48 2 52 48 52 48
r 2 2
24.67 4.97
n1 n2 n1 n2 1 52 48 52 48 1
r r 40 50.92
z 2.20
Por lo tanto: r 4.97
244
8.3 La prueba del signo
245
Puesto que la distribución normal es simétrica, la media de una
distribución normal es igual a la mediana. Por consiguiente, la prueba del
signo puede emplearse para probar hipótesis sobre la media de una
población normal.
246
La prueba de los rangos con signo usa los rangos de los valores
absolutos de las diferencias pareadas, asignando el rango 1 a la
diferencia con valor absoluto mínimo, el rango 2 a la siguiente diferencia
con menor valor absoluto y así se procede sucesivamente. Se deben
descartar los rangos con diferencias de cero y en caso de valores
absolutos repetidos, a cada uno de ellos se les otorga el valor promedio
de los rangos ocupados por los valores repetidos. A cada uno de los
rangos positivos o negativos, se les asocia el signo correspondiente.
n n 1 ¨2n 1
T
Desviación estándar: 24
T T
z
y el estadístico de prueba es: T
247
Ejemplo de aplicación; se desea saber si un programa de capacitación en
cómputo en una empresa especializada, mejoró las habilidades de los
empleados en dicha materia. Por ello se observa el nivel de habilidades
antes del programa y después del programa en una muestra de 22
empleados, obteniéndose los siguientes resultados y probar la hipótesis a
un nivel de significación del 1%.
248
17 88 90 2 23 17 17
18 76 96 20 24 18 18.5
19 43 39 -4 24 19 18.5
20 90 98 8 27 20 20
21 40 60 20 30 21 21
22 50 60 10 60 22 22
n n 1 22 22 1
S T T 253.0
Comprobación: 2 2
249
4 corresponde a una diferencia 5 positiva entonces se le asigna 4.5
positivo, lo mismo para el rango 5. En el caso de los rangos 7 y 8
(correspondientes a una diferencia de 8), el promedio es 7.5 y como la
diferencia de 8 corresponde a un valor negativo y otro positivo, entonces
se le asigna un rango con signo correcto de -7.5 y 7.5.
T T
z
Estadístico de prueba: T
n n 1 22 23
T 126.5
La media es: 4 4
n n 1 2n 1 22 23 43
T 30.1
La desviación estándar: 24 24
T T 225.5 126.5
z 3.29
Por lo tanto: T 30.1
z zc
Como cae en la zona de rechazo, se puede concluir que el
programa de capacitación de computo en esta empresa si mejoró las
habilidades del personal.
250
GLOSARIO
Métodos no paramétricos
Métodos estadísticos que requieren muy pocos o ningún supuesto acerca
de las distribuciones de probabilidad de la población, y acerca del nivel de
medición. Estos métodos se pueden aplicar cuando se dispone de datos
nominales u ordinales.
Prueba de signo
Prueba estadística no paramétrica que permite identificar diferencias entre
dos poblaciones basándose en el análisis de datos nominales.
251
ACTIVIDADES DE
APRENDIZAJE
ACTIVIDAD 1
1. Una manufacturera automotriz desea conocer la preferencia de los
clientes por los colores ocre o índigo del modelo de lujo, pues sólo uno
saldrá al mercado. Se invitó a los 20 mejores vendedores para que opinaran
y se encontró que doce prefirieron el color ocre, siete el índigo y uno
indeciso. En un nivel del 10% probar si:
H0: Cualquier color gustará por igual a los clientes
H1: Hay preferencia por alguno de los colores de los
clientes
252
CUESTIONARIO DE
REFORZAMIENTO
AABBBAABBBBAABBB
253
3. ¿Pueden los vendedores considerarse igualmente efectivos?
Pruebe con un nivel de significancia de 0.05.
A,A,B,A,A,B,B,A,A,A,A,B,B,A,A,B
A,B,A,B,B,B,A,B,A,B,B,B,A,B,B,B
254
LO QUE APRENDÍ
LO QUE APRENDÍ
Explica la diferencia entre una prueba estadística paramétrica y una
prueba estadística no paramétrica.
255
EXAMEN DE
AUTOEVALUACIÓN
256
3. Estas pruebas son útiles por ejemplo cuando el tipo de datos es
nominal u ordinal.
a) la prueba de los signos
b) Las pruebas no paramétricas
c) Prueba de Mann-Whitney-Wilcoxon
257
MESOGRAFÍA
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
1. Ato Manuel y López Juan J., Fundamentos de estadística con
SYSTAT, México; Addison Wesley Iberoamericana, 1996, 630 pp.
2. Christensen H., Estadística paso a paso (2a. ed.) ; México; Trillas, 1990,
682 pp.
3. Garza Tomás, Probabilidad y estadística, México; Iberoamericana, 1996,
152 pp.
4. Hanke Jonh E. y Reitsch Arthur G., Estadística para Negocios, México;
Irwin McGraw-Hill, 1997, 955 pp.
5. Hanke Jonh E. y Reitsch Arthur G. Pronósticos en los Negocios, México;
Prentice Hall, 1996, 605 pp.
258
6. Hildebran y Lyman. Estadística aplicada a la administración y a la
economía. Addison Wesley, México, 1998 953 pp
7. Kazmier L. y A. Díaz Mata, Estadística aplicada a la administración y
economía, México; McGraw-Hill, 1998, 411 pp.
8. Mendenhall W. y R.L.Sheaffer, Estadística matemática con aplicaciones,
México; Iberoamérica, 1986.
9. Meyer Paul L. Probabilidad y aplicaciones estadísticas, México; Addison
Wesley Iberoamericana, 2002, 854 pp.
10. Scheaffer R. Y W. Mndenhall, Elementos de Muestreo, México;
Iberoamericana, 1987, 321 pp.
11. Weimer Richard E., Estadística, México; Cecsa, 1996, 839 pp.
259
RESPUESTAS A LOS EXÁMENES
DE AUTOEVALUACIÓN
U1 U2 U3 U4 U5 U6 U7 U8
E1 E2 E1 E2 E1 E1 a E1 E1 E1
1. d v v d b b a a a a
2. c v f b a b a c c c
3. a f v b c c a b b b
4. b f v d b b c a
5. d v v c a a b
6. d v v c c a
7. b f f d b
8. a f b
9. c v d
10. b e
260