EstadísticaYProbabilidadExcel (Vargas) PDF
EstadísticaYProbabilidadExcel (Vargas) PDF
EstadísticaYProbabilidadExcel (Vargas) PDF
ESTADÍSTICA II
PROGRAMA ADMINISTRACIÓN PÚBLICA
TERRITORIAL
Director
HONORIO MIGUEL HENRIQUEZ PINEDO
Subdirector académico
CARLOS ROBERTO CUBIDES OLARTE
Decano de pregrado
JAIME ANTONIO QUICENO GUERRERO
2
INDICE DE CONTENIDOS
3
6.1 Intervalos de confianza.
6.2 Estimación para la media poblacional. Muestras grandes.
6.3 Estimación para la media poblacional. Muestras pequeñas.
6.4 Estimación de una proporción de poblacional. Muestras grandes.
6.5 Estimación de una proporción de la población Muestras pequeñas.
6.6 Análisis de sensibilidad en Excel para la estimación del intervalo.
4
DE LOS NUCLEOS TEMÁTICOS Y PROBLEMÁTICOS
Espacio–
Problemática
Tiempo y Pública
Territorio
ADMINISTRACIÓN
PÚBLICA
Gestión del TERRITORIAL Problemática
Desarrollo del Estado y
del Poder
Economía de Organizaciones
lo Público Públicas
Formación
General
Cada uno de los siete núcleos temáticos que componen el programa tiene una
valoración relativa en número de créditos y, en consecuencia, varía también en
el número de asignaturas que lo conjugan. El primer momento en cualquier
proceso de formación ha de establecer las particularidades del programa, de
ahí que sea necesario dar a conocer los núcleos temáticos con su respectiva
valoración en número de créditos: Problemática pública, once (11) créditos;
Problemática del estado y del poder, 23 créditos; Organizaciones públicas, 24
créditos; Espacio–tiempo y territorio, 22 créditos; Gestión del desarrollo, 16
créditos; Economía de lo público, 18 créditos; y Formación general, 21 créditos.
5
EL TRABAJO DEL TUTOR
6
E
STADÍSTICA II
7
INTRODUCCION:
En el módulo anterior de estadística se vieron los conceptos y herramientas
para recopilar datos, procesarlos, analizarlos y analizar los resultados.
Generalmente estos datos corresponden a hechos cumplidos, pero a partir de
ellos se debe mirar los que vendría hacia el futuro con el comportamiento de
las mismas variables. Las organizaciones públicas y privadas toman decisiones
permanentemente basándose en los resultados históricos; pero los resultados
se verán en el futuro por lo que la toma de decisiones se vuelve incierta y llena
de incertidumbre.
En este módulo ordenaremos nuestro conocimiento para darle valores a la
posibilidad que ocurran esos hechos futuros y con otras herramientas
estadísticas le daremos valor a la incertidumbre y la certeza que ocurran esos
eventos.
La probabilidad y otros parámetros de medición hacia el futuro son elementos
fundamentales en los ejecutivos privados y funcionarios públicos que tienen su
hombro la responsabilidad de planear, dirigir y programar la ejecución de las
actividades de su entorno, en beneficio de una sociedad, familia o empresa.
Objetivos
Formar el participante en la utilización de medias que analizan hacia el futuro
los resultados de hechos. El asistente adquirirá los conceptos y herramientas
que le permitirán ser un usuario casi permanente de las probabilidades, el
muestreo, las estimaciones, las pruebas de hipótesis, los modelos de
regresión lineal o lineal.
Objetivos específicos.
• Conceptualizar los principios teóricos básicos de la inferencia estadística.
• Aplicar las fases metodológicas de una investigación por muestreo.
• Estimar promedios poblacionales, totales, proporciones y varianzas
• Determinar tamaños de muestra.
• Revisar la fundamentación de los procedimientos de prueba de hipótesis.
• Estudiar la correlación de Pearson entre parejas de variables.
• Estudiar la fundamentación de los modelos de regresión como técnica de
análisis econométrico.
• Analizar el comportamiento de series cronológicas económicas y sociales.
• Proyectar variables económicas utilizando los modelos de regresión lineal y
no lineal.
8
Inferir comportamiento de poblaciones (datos reales de un problema) a partir de
muestras aleatorias.
Identificar la distribución de probabilidades, en las situaciones que se viven a
diario en las empresas.
Utilizar correctamente un software estadístico, e interpretar acertadamente los
resultados para la toma de decisión ante una situación real del mercadeo y la
logística.
Mapa conceptual.
Metodología.
Evaluación
9
UNIDAD 1. ESTADÍSTICA DESCRIPTIVA.
Así como los abogados tienen "reglas de evidencia" y los contadores "prácticas
de uso común", las personas que trabajan con datos numéricos siguen ciertos
lineamientos estándares.
10
objetos, como las llantas producidas durante una semana en una fábrica, o
todas las truchas que habitan en una presa. Una población también puede
estar formada por un grupo de medidas, como podrían ser los salarios de los
empleados, o las estaturas de los alumnos de un curso.
Simbología Básica:
ni Frecuencia absoluta
hi Frecuencia relativa
Ni Frecuencia absoluta acumulada
Hi Frecuencia relativa acumulada
Ejemplo 1
11
Ejemplo 2
12
Fuente: archivo Frecuencias.xls; hoja: Ejemplo 1
13
1.4 Medidas de dispersión en Excel.
n n n ⎜ n ⎟
⎝ ⎠
∑ (X − X) ∑ (X − X ) * ni
2 2
n −1 n −1
Ejemplo 5:
14
Fuente: Archivo: Medidas de posición y dispersion.xls; Hoja: ejemplo 4
15
UNIDAD 2. TEORÍA DE PROBABILIDADES.
Los encargados de tomar decisiones no saben con certeza lo que puede ocurrir
en un futuro cercano o lejano. Sin embargo la decisión la tiene que tomar. Por
ejemplo un fabricante ha desarrollado un nuevo producto basado en la
determinación de las necesidades del mercado. Se desea saber si el mercado
comprará o no el producto. Una forma de minimizar el riesgo de tomar una
decisión incorrecta sería contratar a una empresa de encuestas para que tome
una muestra de 100 o 1200 o 2000 elementos de la población y preguntarle a
cada persona cómo reaccionaría ante el nuevo producto. Otro ejemplo podría
darse cuando el director de un departamento de Planeación de una entidad
oficial no sabe cuánto presupuestar para la reparación de vías. Debe tomar
datos de las reparaciones anteriores y predecir aproximadamente el valor a
presupuestar.
Pero, la probabilidad que el año termine bien es una medida cuyo valor
dependerá de varios factores. Una persona que se acaba de ganar el Baloto
dirá que es muy cercana a uno, pero una víctima de una pirámide financiera
dirá que está cercana a 0.
Ejemplo:
Experimento Aleatorio Posibles resultados Espacio Muestral
Jugar un partido de Ganar, empatar, S= {ganar, empatar,
futbol perder perder}
16
Lanzar un Dado 1, 2, 3, 4, 5, 6 S= {1, 2, 3, 4, 5, 6}
Lanzar una moneda Cara, Sello S= {cara, sello}
17
Eventos disjuntos o excluyentes Eventos no disjuntos
Complemento.
A’ se conoce como el complemento de un evento, donde el
complemento donde A’ = {x ∈Ω / x∉ A}
Intersección
A ∩B=∅ A ∩B
Unión de eventos.
AUB AUB
18
2.5.1 Se denomina permutación a las diferentes ordenaciones que se
pueden hacer con un conjunto de eventos. (a1, a2, a3, …, an). El número de
permutaciones que se pueden hace con n elementos es n!, donde
n ! = 1 x 2 x 3 x ……. x n
El número de permutaciones de r elementos que se pueden tomar de un
conjunto de n elementos es
n!
n Pr = n x (n - 1) x (n - 2) x......x (n - r + 1) =
(n - r )!
Ejemplo. Una junta está compuesta por 5 vocales de los cuales se debe elegir
el presidente, el secretario y el fiscal. El número de forma como se puede
formar esa junta es
5! 120
5P3 = 5 x 4 x 3 = 60 = = = 60
(5 − 3) ! 2
En Excel =PERMUTACIONES(5;3)
⎛n⎞ n!
⎜ ⎟ = n Cr =
⎝r⎠ (n − r )!*r !
Ejemplo. De junta compuesta por 10 miembros se va a sacar la comisión de
empalme compuesta por 4 personas. ¿De cuántas formas se puede sacar esa
comisión?
⎛n⎞ n!
⎜ ⎟ = n Cr =
⎝r⎠ (n − r )!*r !
19
⎛ 10 ⎞ 10!
⎜ ⎟ =10 C 4 = = 5040
⎝4⎠ (10 − 4)!*4!
En Excel =PERMUTACIONES(10;4)
20
UNIDAD 3. DISTRIBUCIONES DE PROBABILIDAD EN EXCEL
Según el tipo de valor que toma la variable discretas, reales y continuas. Las
variables discretas son aquellas cuyos valores son números enteros. Las
variables reales son las que toman valores decimales. La variables continuas
son las que toman valores en un intervalo.
21
En ella observamos que esas considerados todos los posibles valores de la
variable y que las suma de estas probabilidad es 1.
i =1 i =1
µ = E ( X ) = ∑ P( X i ) * X i ; con ∑ P( X ) = 1
i
m m
22
3.2.2 Varianza esperada
m
Ejemplo. Varianza para el lanzamiento de las monedas
La variable binomial es una variable aleatoria discreta, sólo puede tomar los
valores 0, 1, 2, 3, 4, ..., n suponiendo que se han realizado n pruebas. Como
hay que considerar todas las maneras posibles de obtener x-éxitos y (n-x)
fracasos debemos calcular éstas por combinaciones (número combinatorio n
sobre x).
23
La función de probabilidad binomial está dada por
⎛n⎞
P ( X = x) = ⎜ ⎟ p x + q n− x ; con x = 1,2,3,.....
⎝x⎠
Ejemplo:
En una universidad el 20% de los alumnos son empleados oficiales. Se
selecciona una muestra de 20 alumnos. Cuál es la probabilidad que en la
muestra haya 0, 1, 2, 3, etc., empleados oficiales.
24
Repita el ejercicio con una probabilidad de p = 0.5
25
Repetir el ejercicio suponiendo que el número de empleados oficiales es 20 y
no oficiales, es 20
26
3.3.3 Distribución de Poisson
La llamada distribución de probabilidad de Poisson describe la cantidad de
veces que ocurre un evento en un intervalo de tiempo determinado o de
espacio o de volumen. El valor de la probabilidad está dada por la siguiente
función.
e - λ * λx
P(X = x) = ; para x = 0,1,2,3,.........
x!
12 15 10 12 15 18 15 12
11 15 16 14 13 16 17 13
14 18 12 14 16 15 14 12
27
Con estos datos se pueden resolver preguntas como: ¿Cuál es la probabilidad
que en un intervalo de 15 minutos lleguen exactamente 10 clientes?
e -14.125 *14.12510
P(X = 10) = = 0.06393107
10!
En Excel =POISSON(10;14.125;0)
28
3.4 Taller en Excel.
29
UNIDAD 4. DISTRIBUCIÓN DE PROBABILIDAD NORMAL
30
Para entender el comportamiento de la distribución normal, tomemos la
siguiente distribución de Probabilidad.
x ( x−µ )2
1 −
P ( X ≤ x) = ∫ e 2σ 2
dx
−∞σ 2π
31
Donde µ es la media y σ es la desviación estándar y σ2 es la varianza.
Xi − X
=Z Es el número de dispersiones de la
σ
variable medida en desviaciones estándar. Esta medida se conoce como Z y el
procedimiento se le conoce como estandarización.
Tabla N° 1
32
Tabla N° 2
Tabla N° 3
4 − 3.5
X = 3.5; σ = 1.1 X i = 4; Z = = 0.45
1.1
33
¿Cuál es la probabilidad que en un día se vendan 2.8 o menos millones de
pesos?
2.8 − 3.5
X = 3.5; σ = 1.1 X i = 2.8; Z = = −0.67
1.1
3.8 − 3.5
X = 3.5; σ = 1.1 X i = 3.8; Z = = 0.27
1.1
34
P(Xi≥3.8)=1-P(X≤3.8) = P(Z ≥ 0.27) =1–P(Z < 0.27) = 0.6064199 = 0.3935801
3.0 − 3.5
X = 3.5; σ = 1.1 X i = 30; Z = = −0.45
1.1
4.0 − 3.5
X = 3.5; σ = 1.1 X i = 4; Z = = 0.45
1.1
=DISTR.NORM(4;3.5;1.1;1) = 0.675281858
=DISTR.NORM(3.5;3.5;1.1;1) = 0.262269718
35
36
UNIDAD 5. MUESTREO Y DISTRIBUCIONES MUESTRALES.
5.1 Muestreo
El análisis de la información que resultan de los procesos de las organizaciones
es importante para la toma de decisiones y controlar la gestión.
Cuando se aplica esta técnica se está expuesto a que los valores de la muestra
no correspondan con los parámetros de población, es decir se está expuesto a
lo que se conoce como el error del muestreo. Con la muestra adecuada SE
trata de conocer los rasgos de la los parámetros poblacionales.
37
o Muestreo aleatorio sistemático
o Muestreo aleatorio estratificado
o Muestreo aleatorio por conglomerados
38
Una muestra de conglomerados, usualmente produce un mayor error muestral
que una muestra aleatoria simple del mismo tamaño. En una localidad pueden
vivir gente pobre como también pueden vivir puede vivir gente acomodada.
Como ejemplo podemos suponer que una población está compuesta por cinco
elementos cuyos valores son S = {1,2,3,4,5}.
39
Se observa que la media Poblacional (µ) es igual a la media de todas la media
de tamaño 2 ( ( µ X = 3.0) = 3.0).
No ocurre lo mismo con la varianza, pues la varianza poblacional es 2.0; σ2 =
2.0, mientras que la varianza de las medias muestrales es 1.0
σ2 2
σ2 = = =1
X
n 2
σ2 σ
Si σ 2 = entonces σ = ,
X
n n
σ
donde L es el error es tan dar del muestreo para poblaciones inf initas.
n
40
Se observa que la media muestral es igual a la media poblacional µ X = µ
Pero la relación entre la varianza de las medias muestrales y la varianza
poblacional es
σ2 N-n N-n
σ X2 = * ; donde ; se le conoce como factor de correción para población finita
n N -1 N -1
41
El mismo procedimiento se puede aplicar la misma población pero tomando
muestras de tamaño 3.
42
la distribución original de la cual se toma la muestra. En otras palabras, el
teorema de límite central es cierto para todas las distribuciones.
43
Ahora trataremos de resolver a pregunta ¿Cuál es el número adecuado de
elemento que se debe analizar u menor error?
Z12−α / 2 * σ 2
n=
E2 Donde Z es el nivel de confianza y E es el error estándar
permitido.
44
Tamaño de la muestra para estimar la media poblacional para poblaciones
finitas está dada por
N 2 * Z12−α / 2 * σ 2
n= 2
E *( N − 1) + Z12−α / 2 * σ 2 Donde Z es el nivel de confianza y E es el error
Z12−α / 2 * P * Q
n=
ε2 Donde Z es el nivel de confianza, P es la probabilidad de
N 2 * Z12−α / 2 * P * Q
n= 2
ε *( N − 1) + Z12−α / 2 * P * Q Donde Z es el nivel de confianza, P es la
Ejemplo 1. Encuestas pasadas indican que los clientes de una empresa pedían
en promedio 2500 unidades con una desviación de 600 unidades. Para
actualizar la opinión de los clientes hacia la empresa se va a aplicar una
encuesta a una parte de los elementos de la población. De qué tamaño debe
ser la muestra si se quiere un nivel de confianza del 90% y un error de 100.
1.642 * 6002
n= = 96.82; Se deben aplicar 97 encuestas.
1002
45
que realice una encuesta que tenga un nivel de confianza del 0.95 y un error
del 5%. ¿De qué tamaño deberá de ser la muestra?
46
Unidad 6. Estimación por intervalo.
47
El intervalo de confianza Es el conjunto de valores obtenido a partir de los
datos muestrales en el que hay una determinada probabilidad de que se
encuentre el parámetro poblacional. Esta probabilidad se le conoce como el
nivel de confianza.
Por ejemplo, en una encuesta se encontró que en una determinada región el
ingreso mensual promedio de los trabajadores de la construcción es 2.5 SMLM.
Un intervalo podrá ser que el salario promedio global este entre 2 y 3 SMLM. Y
¿cuál es la seguridad que eso sea así? Se podrá indicar que se tiene una
seguridad del 90% que eso es así.
En la distribución normal P(-1.96 < z < 1.96) = 0.95, lo que indica que si una
variable tiene distribución normal N(µ; σ), entonces el 95% de las muestras
X −µ σ
cumplen que − 1.96 ≤ ≤ 1.96 , donde σ X = , error estándar del
σX n
muestreo
σ σ
Despejando se tiene que X − 1.96 * ≤ µ ≤ X + 1.96 * con una probabilidad
n n
de 1-α
48
6.2 Estimación para la media poblacional. Muestras grandes.
Cuando el tamaño de la muestra es grande o la variable tiene distribución
normal, el intervalo de confianza está dado por
σ σ
X − Zα / 2 * ≤ µ ≤ X + Zα / 2 *
n n
⎡ σ σ ⎤
P ⎢ X − Zα / 2 * ≤ µ ≤ X + Zα / 2 * = 1−α
⎣ n n ⎥⎦
⎡ 5 5 ⎤
P ⎢14.6 − 1.28 * ≤ µ ≤ 14.6 + 1.28 * ⎥ = 0.80
⎣ 1600 1600 ⎦
49
6.3 Estimación para la media poblacional. Muestras pequeñas.
Cuando el número de observaciones es menor de 30, la estimación del
intervalo se basa en las suposiciones que si la población es normal o que si se
conoce ls desviación estándar de la población.
σ σ
X − Zα / 2 * ≤ µ ≤ X + Zα / 2 *
n n
50
Para la estimación del intervalo de confianza, el valor de t depende de los
grados de libertad, n-1, (fila) y del nivel de confianza.
s s ⎡ s s ⎤
X −t* ≤ µ ≤ X +t* ; P⎢ X − t * ≤ µ ≤ X +t* ⎥ = 1−α
n n ⎣ n n⎦
51
para la media poblacional.
En ese caso
n = 10; X = 2.5; s = 0.8 horas;1 − α = 0.95, por lo tan to; t 9;0.95 = 2.262
⎡ 0 .8 0. 8 ⎤
P ⎢2.5 − 2.262 * ≤ µ ≤ 2.5 + 2.262 * ⎥ = 0.95
⎣ 10 10 ⎦
P[1.92775 ≤ µ ≤ 3.0722] = 0.95
Se estima que la población debe ver en promedio entre 1.93 horas y 3.07 horas
de televisión al día, con un nivel de confianza del 95%
p * (1 − p ) p * (1 − p ) ⎡ p * (1 − p ) p * (1 − p ) ⎤
p−Z* ≤ µ ≤ p+Z* ; P⎢ p − Z * ≤µ ≤ X +Z* ⎥ = 1−α
n n ⎣⎢ n n ⎦⎥
número de éxitos
Recuerde que p =
n
Ejemplo. La cadena de televisión TVK está considerando la posibilidad de
sustituir una de sus series policiales por una serie de comedia con orientación
familiar. Antes de tomar una decisión, los directores de la red toman una
muestra de 400 televidentes. Después de ver la nueva serie, 250 indican que sí
la verían y sugieren que reemplace a la serie policíaca. Estime el valor de la
proporción poblacional con un nivel de 99%
n = 400; X = 250; p = 400/250 = 0.625; q = 1-0.625 = 0.375; 1- α = 0.99; Z
0.995 = 2.58
52
Entre el 60.08% y el 64.92% de los televidentes aceptna el cambio de
programa
p * (1 − p ) p * (1 − p ) ⎡ p * (1 − p ) p * (1 − p ) ⎤
p −t* ≤ µ ≤ p+t* ; P⎢ p − t * ≤ µ ≤ p+t* ⎥ = 1−α
n n ⎢⎣ n n ⎥⎦
⎡ 0 .8 * 0 .2 0 .8 * 0 .2 ⎤
P ⎢0.80 − 2.0639 * ≤ µ ≤ 0.80 + 2.0639 * ⎥ = 0.95
⎣ 25 25 ⎦
53
6.7 Análisis de sensibilidad en Excel para la estimación del intervalo.
54
UNIDAD 7. PRUEBA DE HIPÓTESIS
En caso que no se logre tomar como válida la hipótesis nula se debe tener una
afirmación alterna que se debe dar como válidas y conocida cono la hipótesis
alterna que se denota como H1
55
H0 : ≥ 48 H1 : < 48
Luego de tener H0 y H1 se procede a tomar una muestra aleatoria de baterías y
medir su vida media.
Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se
calcula la información, como el promedio, la proporción, etc. Esta información
muestral se llama estadística de prueba.
Los valores más usados para hacer prueba de hipótesis es 1%, 5% y 10%.
56
7.4 Prueba de Hipótesis Unilaterales y Bilaterales sobre la Media
Debido a que los dos errores anteriores a la vez son imposibles de controlar,
vamos a fijarnos solamente en el nivel de significación, este es el que nos
interesa ya que la hipótesis alternativa que estamos interesados en probar y no
queremos aceptarla si en realidad no es cierta, es decir, si aceptamos la
hipótesis alternativa queremos equivocarnos con un margen de error muy
pequeño.
Ejemplos Para H1: µ > valor aceptado, la región de rechazo está dada
α por:
α/2 α/2
57
(2-colas, Z* ó t*)
.05/2 .05/2
.02
De la tabla de la distribución
.05/2=0.025 .05/2=0.025 normal, la
P(Z<z) =.025 corresponde a un
valor Z= -1.96. Por simetría la
-1.96 1.96
Solución:
a. Del ejemplo 1(a), α = .05, y υ = 14, tenemos:
58
De la tabla de la distribución t, la
.05/2=0.025 .05/2=0.025 P(T<t) =.025 corresponde a un
valor t= -2.086. Por simetría la
P(T>t)=.025 corresponde a t=
-2.086 2.086
d. H0 : p ≥ .6 e. H0 : µ ≥ 4
H1 : p < .6 H1 : µ < 4
EJERCICIOS
En los ejercicios (1-6) determine si la región de rechazo para la hipótesis nula
está en la cola izquierda, en la cola derecha, o ambas colas. Para el nivel de
significancia α dibuje la región de rechazo.
1. H0 : µ ≤ 11; H1 : µ > 11 2. H0 :µ ≥ 5.8; H1 : µ < 5.8
3. H0 : p = 0.4; H1 : p ≠ 0.4 4. H0 : µ = 110; H1 : µ ≠ 110
5. H0 : p ≥ 0.3; H1 : p < 0.3 6. H0 : p ≥ 0.8; H1 : p < 0.8
8. α a) z, si α = .01 b) t, si α = .05 y υ = 13
9. α a) z, si α = .02 b) t, si α = .01 y υ = 5
α 59
10. a) z, si α = .025 b) t, si α = .01 y υ = 9
60
7.4.2 Muestras Pequeñas
61
Así: conocemos que x ⇒ N ⎡u , σ ⎤ de lo que deducimos que
⎢⎣ n ⎥⎦
x−u
⇒ N [0,1] de forma que la hipótesis nula es: H0: µ = Κ.
σ
n
x−u
El estadístico está dado por: Z = .
σ
n
5.
5−7
6. Realizamos la prueba estadística: Z = = −10
2
100
7. Dado que Z=-10 y no pertenece a la región de aceptación estamos en
condiciones de rechazar la hipótesis nula, luego aceptar la alternativa :
µ0 ≠ 7.
62
%. ¿Hay evidencia de que el ingreso diario promedio sea menor del que
afirma el presente dueño?.
5.
625 − 675
6. Realizamos la prueba estadística: Z = = −3.65
75
30
7. Dado que Z=-3.65 y no pertenece a la región de aceptación estamos en
condiciones de rechazar la hipótesis nula, luego aceptar la alternativa:
µ < 7.
X −µ
En este caso el estadístico de prueba será t =
s
n
63
Ejemplo . Se escoge a 17 individuos al azar y se les mide, resultando que su
estatura media es de 1,71 metros con desviación típica de 0,02 .Contrastar
la hipótesis de que la estatura media nacional sea de 1.75 metros si
utilizamos un nivel del significación del 5%. Se supone normalidad
1.71 − 1.75
5. Se calcula el estadístico de prueba. t = = −8.25
0.02
17
6. Dado que t=-8.25 y no pertenece a la región de aceptación estamos en
condiciones de rechazar la hipótesis nula, luego aceptar la alternativa:
µ ≠ 1.75.
H0: P = p0.
H1: p ≠ p0.
H0: p ≤ p0.
H1: p > p0.
H0: p ≥ p0.
H1: p < p0.
64
P − p0
Z=
p 0 (1 − p0 )
n
x
Donde P = (proporción muestral)
n
1. H0: p = 0.3
H1: p ≠ 0.30
3. Z* = +/- 1.96
65
que al menos el 50 % de los consumidores verá con buenos ojos la innovación.
Se realiza un sondeo de mercado y resulta que de 100 consumidores
encuestados 40 son favorables a la innovación.
Para el punto a)
Aplicando el procedimiento para probar una hipótesis tenemos:
1. H0: p ≤ 0.5
H1: p > 0.5
3. Z = 2.33
40
5. Realizamos la prueba estadística: P = = 0.4
100
P − p0 0.4 − 0.5
Z= = = −2
p0 (1 − p0 ) 0.5(1 − 0.5)
n 100
Para el punto b)
66
Aplicando el procedimiento para probar una hipótesis tenemos:
1. H0: p ≤ 0.3
H1: p > 0.3
3. Z = 2.33
Analizaremos en forma completa los errores Tipo I y Tipo II, con respecto a las
prueba de una media hipotética. Sin embargo los conceptos que se ilustran
aquí son aplicables también a otros modelos de pruebas de hipótesis.
67
La única forma en que se puede determinar la probabilidad del error Tipo II
( β ) es con respecto a un valor específico incluido dentro del rango de la
hipótesis alternativa.
News & World Report publicó un artículo sobre la carrera de éxitos de Wal-
Mart. Actualmente es la mayor cadena de ventas al por menor de la nación.
Empezó con una sola tienda de descuento en la pequeña localidad de Rogers,
Arkansas, y a crecido hasta poseer 1300 tiendas en 25 estados. Este éxito le
ha valido a Sam Walton, fundador y mayor accionista, el título del hombre más
rico de América. Las ventas anuales se cifran en 15 millones de dólares por
tienda.
a) Si se elige al azar una muestra de 120 tiendas y se hallan unas ventas
medias de 15.39 millones de dólares, con una desviación estándar de
2.9 millones de dólares. Pruebe la hipótesis µ = 15 millones con un nivel
de significancia del 10%
b) Si la µ es en realidad 14.8 millones de dólares, ¿Cuál es la probabilidad
de cometer el error Tipo II.
Datos
n = 120
X = 15.39 millones
σ = 2.9 millones
α = .10
1.Establecer la hipótesis
Ho: µ = 15
H1: µ ≠ 15
68
X −µ
4. Calcular la estadística de prueba Z = el valor de la media poblacional
σ
n
15.39 − 15
es el que esta a prueba en la hipótesis por lo tanto Z = = 1.47
2.9
120
5. Conclusión. Existe evidencia para decir que las ganancias anuales por
tienda son de 15 millones de dólares por tienda con un nivel de significancia
de 0.10.
69
70
UNIDAD 8. REGRESIÓN Y CORRELACIÓN SIMPLES.
En la Estadística descriptiva se analizó el comportamiento de una variable
aleatoria. En cada variable se hace un análisis y luego se buscó hacer un
estimado a cerca de un parámetro poblacional utilizando las técnicas de
Estimación por intervalo o un aprueba de hipótesis utilizando las distribuciones
de probabilidad.
Ahora se buscará analizar dos variables que de alguna forma podrían tener un
relación donde el resultado de una esta ligado al resultado de la otra variable.
El espacio muestral de un experimento con dos variables consiste en cierto
conjunto de pares ordenados de medidas. Es decir, se hacen dos
observaciones en cada prueba. Por ejemplo, en un almacén se puede observar
los descuentos y el volumen de ventas. Otro ejemplo podría ser que a cada
estudiante se observara su estatura y el peso. La tabulación de los datos
podría tener las siguientes tablas de resultados.
Ejemplo 1:
Ejemplo 2:
71
altos y que los padres bajos mostraban tendencia a tener hijos bajos. Pero con
todo, la estatura promedio de los hijos de padres muy altos era menor que la
estatura promedio de sus padres, en tanto que los hijos de padres muy bajos,
en promedio, eran más altos que sus padres. Galton llamó esta tendencia hacia
la estatura promedio de todos los hombres con el nombre de regresión.
Asociaciones parecidas en otros varios fenómenos fueron observadas por
Galton, quien entonces las generalizó como una ley universal de
comportamiento entre dos o más variables asociadas.
El análisis de la regresión se clasifica generalmente en dos tipos, simple y
múltiple. La regresión simple es aquella en que entran solamente dos variables,
tales como la regresión de Y respecto a X antes mencionada. La regresión
múltiple es aquella en la que intervienen tres o más variables, una de las cuales
es la variable dependiente, la que se va a asociar con los valores de todas las
demás.
Por demás, el estudio se restringirá a la regresión simple solamente o sea
aquella en que la ecuación que describe la relación entre X y Y es lineal y se
representa gráficamente por una recta. A veces ocurre que una ecuación de
regresión que describe de la mejor manera posible la relación entre variables
resulta curvilínea; su representación geométrica es entonces una curva en vez
de una recta.
Cuando se encuentra que unas variables están relacionadas entre sí, suele ser
útil averiguar cuan estrecha es la relación. El grado de relación entre éstas se
denomina también correlación entre las variables. El problema de correlación
está íntimamente asociado al de la regresión y es parte integrante del análisis
de dos variables.
El análisis de correlación es el conjunto de técnicas estadísticas empleados
para medir la intensidad de la asociación entre dos variables. El objetivo es
determinar que tan intensa es la relación entre las dos variables.
72
35
30
25
Ventas
20
15
10
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
Descuentos (%)
100
90
80
Peso (Kgs)
70
60
50
40
155 160 165 170 175 180 185
Estatura (cm s)
73
2. Se supone que la relación entre X y Y. está dada por la ecuación: Yi = α +
βXi + єi, donde α, β son los parámetros poblacionales y єi es el error por la
diferencia entre Yi y el valor esperado de Y como variable aleatoria
determinada por el valor de X en particular. La variable dependiente es la que
se predice o calcula mientras que la independiente es la base del cálculo.
α es la intersección de la recta con el eje Y y β es la pendiente de la recta de
regresión. Cuando β es negativo, la recta es decreciente y si β es positivo, la
recta de regresión es creciente. Otros autores se refieren al modelo de
regresión lineal con la ecuación Y = A + B*X
35
30
25
Ventas
20
15
10 y = 10,201 + 5,2122x
5
0
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
Descuentos (%)
100
90
y = 1,4779x - 180,4
80
Peso (Kgs)
70
60
50
40
155 160 165 170 175 180 185
Estatura (cm s)
1 2 3 4
74
2. Tendencia lineal creciente
3. Tendencia no-lineal creciente
4. Tendencia lineal decreciente.
Las fórmulas de α y β
Donde
n∑ ( X i Yi ) − (∑ X i )(∑ Yi ) ∑Y ∑X
β= ; α= −β* = Y − βX
i i
n(∑ X i2 ) − (∑ X i )
2
n n
240.13 26,5
α= − 5,21119947 * = 10.2033214
10 10
75
Trazado de la línea de regresión
35
30
25
Ventas
20
15
10 y = 10,201 + 5,2122x
5
0
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
Descuentos (%)
Debido a que no hay diferencia entre los valores observados y los valores
pronosticados, no existe error en esta estimación.
Obtener una predicción perfecta en los aspectos de economía y administración
es prácticamente imposible. Por ejemplo, los ingresos anuales provenientes de
ventas de gasolina (Y) con base en los registros de automóviles (X) hasta cierta
fecha, sin duda podrían aproximarse con gran exactitud, pero el pronóstico no
sería preciso con redondeo a unidades monetarias enteras, o tal vez hasta el
millar de unidades monetarias. Aun los pronósticos de resistencia a la tensión
mecánica de los alambres de acero, con base en el diámetro externo de los
mismos, no siempre son exactos, debido a ligeras diferencias en la
composición del acero.
76
Entonces, lo que se necesita es una medida que indique qué tan preciso es el
pronóstico de Y con base en X o, por el contrario, cuan inexacta podría ser la
predicción. A esta medida se le denomina error estándar de estimación, el
cual se representa por sx,y (es el mismo concepto que el de la desviación
estándar). La desviación estándar mide la dispersión respecto a la línea de
regresión.
Error estándar de estimación. Es la medida de la dispersión de los valores
observados, con respecto a la línea de regresión.
El error estándar de estimación se determina aplicando la siguiente ecuación.
Obsérvese que ésta es muy semejante a la de la desviación estándar de una
muestra.
∑ (Y − Yˆ )
2
10,83506
ERROR ESTANDAR DE LA ESTIMACION : S Y , X = = 1.163779599
8
Las desviaciones son las desviaciones verticales con respecto a la
Y − Yˆ
recta de regresión. Deben sumar cero. Uno puntos estarán por encima de la
i
∑Y 2
− α (∑ Yi ) − β (∑ X i * Yi )
ERROR ESTANDAR DE LA ESTIMACION : S Y , X =
i
n−2
77
8.3 Coeficiente de correlación.
Es el valor que mide de laguna manera la intensidad de la relación entre dos
conjuntos de variables.
78
10 * 675,6630 − 26,5 * 240,13
r= = 0.974564139
(10 * 77,770 − 26,5 )* (10 * 5981.9733 − 240,13
2 2
79
Ventas ( millones $ )
36,00
31,00
26,00
21,00
16,00
11,00
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
80
8.5 Modelos de regresión no lineal
81
EJERCICIO
82
3. Taller. Realice el pronóstico para los años 6, 7, 8, 9 y 10.para los siguientes
datos
83
84
85
86
87
RAFAEL VARGAS BARRERA
Profesor ESAP
Matemático
Especialista en Costos y Control de Gestión
Master en finanzas
[email protected]
88