Ejercicios Estadistica
Ejercicios Estadistica
Ejercicios Estadistica
Definiciones
Estadística
Es la parte de las Matemáticas que se encarga del estudio de una determinada
característica en una población, recogiendo los datos, organizándolos en tablas,
representándolos gráficamente y analizándolos para sacar conclusiones de dicha
población.
Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para
recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y
tomar decisiones razonables basadas en tal análisis.
Objetivos de la estadística
La estadística como ciencia se encarga de recopilar, e interpretar datos que en el futuro
servirán para proyectar posibles problemáticas futuras, consiguiendo según estos datos,
la solución más viable y rápida.
El objetivo de la estadística es mejorar la comprensión de hechos a partir de
datos. (Moore, p.267)
El objetivo básico de la estadística es hacer inferencia acerca de una población con base
a la información contenida en una muestra, ¿qué significa esto?
El término inferir se aplica a llegar a una conclusión basada en evidencias existentes,
todo mediante un proceso de pensamiento lógico que considera todos los factores
presentes de manera objetiva y fuente confiable, para luego tomar una decisión o
determinación informada
Tipos de Estadística
Estadística Descriptica
En el ámbito científico, se conoce con el nombre de Estadística Descriptiva a la disciplina
matemática que se encarga de recolectar, analizar, clasificar, graficar y describir las
propiedades de los distintos datos matemáticos de una población. Así mismo, por lo
general, la Estadística Descriptiva es tenida como la disciplina que procesa datos, a fin de
prepararlos para su uso en tablas, gráficas o medidas numéricas, que permiten entonces
el análisis de la información numérica, a fin de entender sus característica
POBLACIÓN Y MUESTRA
La población
Representa el conjunto grande de individuos que deseamos estudiar y generalmente
suele ser inaccesible.
Es, en definitiva, un colectivo homogéneo que reúne unas características determinadas.
La muestra
Es el conjunto menor de individuos (subconjunto de la población accesible y limitado
sobre el que realizamos las mediciones o el experimento con la idea de obtener
conclusiones generalizables a la población).
La muestra debe ser representativa de la población y con ello queremos decir que
cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de
ser elegido.
Datos Estadísticos
Los datos estadísticos, en este marco, son los valores que se obtienen al llevar a cabo un
estudio de tipo estadístico. Se trata del producto de la observación de aquel fenómeno
que se pretende analizar.
Para que resulten útiles, los datos estadísticos deben organizarse y considerarse a partir de
un contexto. Es importante tener en cuenta que el procesamiento de los datos
estadísticos es lo que genera información. El dato por sí mismo, considerado como algo
aislado, carece de interés.
Variables estadísticas
Variable es una palabra que representa a aquello que varía o que está sujeto a algún tipo
de cambio. Se trata de algo que se caracteriza por ser inestable, inconstante y mudable
Una variable estadística es el conjunto de valores que puede tomar cierta característica de
la población sobre la que se realiza el estudio estadístico y sobre la que es posible su
medición. Estas variables pueden ser: la edad, el peso, las notas de un examen, los
ingresos mensuales, las horas de sueño de un paciente en una semana, el precio medio del
alquiler en las viviendas de un barrio de una ciudad, etc.
Variable cualitativa
Las variables cualitativas se refieren a características o cualidades que no pueden ser
medidas con números. Podemos distinguir dos tipos:
Variable cualitativa nominal
Variable cualitativa ordinal
Variable binaria o dicotómica
Variable cuantitativa
Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden
realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:
Variable discreta
Variable continúa
Variable discreta
La variable solo puede tomar valores en número determinado de valores. En cada
intervalo de valores la variable solo puede tomar un valor.
Las variables discretas se caracterizan por contar únicamente valores finitos. De esta
manera, las variables cuantitativas discretas son aquellas que sólo tienen en cuenta
números dentro de una escala de valores que pueden ser separados entre sí, indicando
valores específicos
El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Canastas en un partido (20; 21; 22; pero no 21,5)
– Hijos por familia (0, 1, 2, 3,…)
Variable continúa
Las variables continuas por su parte son aquellas que pueden tomar un número infinito de
valores dentro de dos números, es decir, cuentan con la asignación de número decimales.
Su precisión varía dependiendo del instrumento que se use para medirlas.
La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
– Peso (53,53 kg; 89,4 kg,…)
Ejemplos
Se realiza un estudio estadístico sobre la relación de los pacientes que tienen asma
respecto a ciertas variables también estudiadas. Suponemos que existe una variable
binaria en el estudio que indica si los individuos son o no fumadores. El investigador puede
establecer la hipótesis de que el tabaco influye en los pacientes generando el asma.
Utilizaría la variable “fumador” como variable independiente para confirmar su relación
con la variable dependiente “asma”.
En un estudio estadístico realizado en un instituto se intenta hacer ver a los alumnos que
estudiar día a día influye positivamente en las notas obtenidas. Se considera como variable
independiente (o explicativa) la variable “promedio de horas de estudio” y como variable
dependiente las “notas obtenidas por cada alumno”.
Pregunta
¿Qué es una muestra?
Ejemplo
Para estudiar cuál es el candidato presidencial por el cual votarán los peruanos en las
próximas elecciones, se toma una muestra de 3500 personas de todo el país. La pregunta
es la siguiente, ¿por quién votará en las próximas elecciones presidenciales? Determine
la población y la muestra.
En este caso, la población sería la población electoral del país, es decir, peruanos con
derecho a voto.
La muestra sería el conjunto de 3500 peruanos que forman parte de la población.
Muestra aleatoria
En estadística, una muestra es la selección de un numero de observaciones de a partir de
una población objeto de investigación; una muestra aleatoria es cuando la elección sigue
un método impredecible. El muestreo aleatorio puede referirse también a tomar una serie
de observaciones independientes de la misma distribución de probabilidad.
Tipos de muestra aleatoria
Muestra aleatoria simple se selecciona directo cuando todas las potenciales observaciones
de la población son equiponderables.
Una muestra auto-ponderada, es aquella en la que cada individuo o un objeto, en la
población de interés tienen la misma oportunidad de ser seleccionadas para la muestra.
Las muestras aleatorias simples son auto-ponderadas.
El muestreo estratificado implica seleccionar muestras independientes de un número de
subpoblaciones, grupo o estratos dentro de la población. Por ejemplo, si queremos
analizar los datos de unas elecciones por género o por grupo de edad, deberemos
cerciorarnos de obtener muestras representativas de todas las subpoblaciones.
El muestreo por clusters, consiste en seleccionar las observaciones de la muestra por
grupos con intereses relacionados. Por ejemplo, si se plantea conocer la opinión pública de
un trasvase en un rio, deberemos hacer dos clusters aquello de la zona beneficiada
(reciben el agua del rio) y aquellos de la zona perjudicada (tendrán menos caudal en el
rio). El análisis de muestras por cluster debe tener en cuenta la correlación intra-grupo que
refleja el hecho de que las unidades en la misma agrupación es probable que sean más
similares que dos unidades escogido al azar.
PARÁMETRO No. 2
Medidas de centralización
Nos indican en torno a qué valor (centro) se distribuyen los datos.
Las medidas de centralización son:
Media aritmética
La media es el valor promedio de la distribución.
Mediana
La mediana es la puntación de la escala que separa la mitad superior de la distribución
y la inferior, es decir divide la serie de datos en dos partes iguales.
Moda
La moda es el valor que más se repite en una distribución.
Hay muchas formas distintas de determinar el centro; por lo tanto, tenemos diferentes
definiciones de las medidas de tendencia central, incluyendo media, mediana, moda y mitad
del rango. Comenzaremos con la media
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el
puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos
diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más
grupos
MEDIA ARITMETICA
Medida de tendencia central que se obtiene sumando los puntajes y dividendo el total entre
el número de puntajes
La media (aritmética) generalmente es la más importante de todas las medidas numéricas
utilizadas para describir datos; constituye lo que la mayoría de la gente denomina promedio
Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus
bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales
entre cada uno de ellos
.
Fórmula
LA MEDIANA
Medida de tendencia central que implica el valor que está en medio, cuando los valores
originales de los datos se presentan en orden de magnitud creciente (o decreciente).
LA MODA
La moda es la medida de tendencia central que se define como aquel valor nominal que
tiene la frecuencia mayor. Por lo tanto, una distribución de frecuencias puede tener más
de una moda o, inclusive, no tener moda cuando todos los datos tienen frecuencia 1.
La moda se simboliza con sus dos primeras iniciales: Mo
Se dice que cuando un conjunto de datos tiene una moda la muestra es unimodal,
Cuando dos valores ocurren con la misma frecuencia y ésta es la más alta, ambos valores
son modas, por lo que el conjunto de datos es bimodal.
● Cuando más de dos valores ocurren con la misma frecuencia y ésta es la más alta, todos
los valores son modas, por lo que el conjunto de datos es multimodal.
● Cuando ningún valor se repite, se dice que no hay moda. amodal
EJEMPLO Calcule las modas de los siguientes conjuntos de datos.
a. 5.40 1.10 0.42 0.73 0.48 1.10
b. 27 27 27 55 55 55 88 88 99
c. 1 2 3 6 7 8 9 10
Medidas de posición
Las medidas de posición dividen un conjunto de datos en grupos con el mismo número de
individuos.
Para calcular las medidas de posición es necesario que los datos estén ordenados
de menor a mayor.
La medidas de posición son:
Cuartiles
Los cuartiles dividen la serie de datos en cuatro partes iguales.
Deciles
Los deciles dividen la serie de datos en diez partes iguales.
Percentiles
Los percentiles dividen la serie de datos en cien partes iguales.
Medidas de dispersión
Las medidas de dispersión nos informan sobre cuanto se alejan del centro los valores de la
distribución.
Las medidas de dispersión son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los valores de una distribución
estadística.
Desviación media
La desviación media es la media aritmética de los valores absolutos de
las desviaciones respecto a la media.
Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media.
Desviación típica
La desviación típica es la raíz cuadrada de la varianza.
Ejemplo
Desviación estándar
(denotada con el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una
medida de dispersión para variables de razón (variables cuantitativas o cantidades racionales) y de
intervalo. Se define como la raíz cuadrada de la varianza de la variable.
Su formula
Distribución muestral
DISTRIBUCIÓN MUESTRAL Una distribución muestral es una distribución
de Probabilidad de una estadística muestral calculada a partir de todas las muestras
posibles de tamaño "n" elegidas al azar de una población determinada. Generalmente nos
interesa conocer una o más de los siguientes características de la distribución muestral. 1.-
Su forma funcional (como aparece en su representación gráfica). 2.- Su media. 3.- Su
desviación estándar (error estándar)
Parámetro
Parámetro: Es una cantidad numérica calculada sobre una población y resume los
valores que esta toma en algún atributo.
Intenta resumir toda la información que hay en la población en unos pocos
números (parámetros) ejemplo: la altura media de los sujetos.
Estadístico
Estadístico: Es una cantidad numérica calculada sobre la muestra que resume su
información sobre algún aspecto. Se usa para aproximar un parámetro.
Estimación
En inferencia estadística se llama estimación al conjunto de técnicas que
permiten dar un valor aproximado de un parámetro de una población a partir de los
datos proporcionados por una muestra.
Por ejemplo, una estimación de la media de una determinada característica de
una población de tamaño N podría ser la media de esa misma característica para
una muestra de tamaño
Incluso si se conoce toda la población, con fines ilustrativos, tomamos todas las
muestras aleatorias posibles de la población que contengan 3 calabazas (20
muestras aleatorias). Luego, calculamos la media de cada muestra. La distribución
de muestreo de las medias de las muestras es descrita por todas las medias de
muestra de cada muestra aleatoria posible de 3 calabazas, lo cual se refleja en la
siguiente tabla.
Distribución Normal
ejemplo
Por ejemplo, si se desea encontrar la probabilidad de que la variable estandarizada z, tome
un valor entre 0 y 1,50; hay que encontrar el área bajo la curva entre z = 0 y z = 1,50.
a) P(0 ≤ Z ≤ 1,25).
b) P(Z ≥ 1,25).
c) P(Z ≤ −1,25).
d) P(0 ≤ Z ≤ 1,33).
a) P(0 ≤ Z ≤ 1,25). Rpta: 0,3944
b) P(Z ≥ 1,25). Rpta: 0,1056
c) P(Z ≤ −1,25). Rpta: 0,1056
d) P(0 ≤ Z ≤ 1,33). Rpta: 0,4082
Ejemplo: Se supone que los resultados de un examen siguen una distribución normal con
media 78 y desviación típica 36. Se pide:
1. ¿Cuál es la probabilidad de que una persona que se presenta el examen obtenga una
calificación superior a 72?
Respuestas
476 estudiantes
0
11
El teorema central del límite (TCL) es una teoría estadística que establece que, dada
una muestra suficientemente grande de la población, la distribución de las medias
muestrales seguirá una distribución normal.
Además, el TCL afirma que a medida que el tamaño de la muestra se incrementa, la media
muestral se acercará a la media de la población. Por tanto, mediante el TCL podemos
definir la distribución de la media muestral de una determinada población con
una varianza conocida. De manera que la distribución seguirá una distribución normal si el
tamaño de la muestra es lo suficientemente grande.
Ejercicios de aplicación
Ejemplo: Una empresa de mensajería que opera en la ciudad tarda una media de 35
minutos en llevar un paquete, con una desviación típica de 8 minutos. Supongamos que
durante el día de hoy han repartido doscientos paquetes.
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 35 y
36 minutos?
b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan estado más
de 115 horas?
Por el teorema del límite central sabemos que la media muestral se comporta como una
𝑆=√(𝜎^2/𝑛)=𝜎/√𝑛=8/√200=0.5656
normal de esperanza 35 y desviación típica:
P [ 35 ≤ 𝑋 ̅ ≤ 36 ]
P [ 0 ≤ Z ≤ 1.768 ]
P = 0.4616
Tenemos una probabilidad del 0,4616 de que la media del tiempo de entrega de hoy haya
estado entre 35 y 36 minutos.
b). Por lo que respecta a la segunda pregunta, de entrada debemos pasar las horas a
minutos, ya que ésta es la unidad con la que nos viene dada la variable. Observa que 115
horas por 60 minutos nos dan 6.900 minutos. Se nos pide que calculemos la probabilidad
siguiente:
P [ ̅ ≥ 6900/200 ]
P [ ̅ ≥ 34.5 ]
P [ Z ≥ -0.884 ]
P [ Z ≤ 0.884 ]
P = 0.5 + 0.3106 = 0.8106
ESTIMACIÓN DE PARÁMETROS No. 4
Intervalo de confianza
Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de
confianza específico.
Nivel de confianza
Probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza.
Error de estimación admisible
Que estará relacionado con el radio del intervalo de confianza
Estimación puntual
La estimación de parámetros tiene por finalidad asignar valores a los parámetros
poblacionales a partir de los estadísticos obtenidos en las muestras. Dicho de otra
manera, la finalidad de la estimación de parámetros es caracterizar las poblaciones a
partir de la información de las muestras (por ejemplo, inferir el valor de la Media de la
población a partir de los datos de la muestra).
Si la muestra es representativa de la población, podemos esperar que los estadísticos
calculados en las muestras tengan valores semejantes a los parámetros poblacionales, y
la estimación consiste en asignar los valores de los estadísticos muestrales a los
parámetros poblacionales. Los estadísticos con que obtenemos las estimaciones se
denominan estimadores.
La estadística provee técnicas que permiten obtener conclusiones generales a partir de
un conjunto limitado – pero representativo – de datos. Cuando inferimos no tenemos
garantía de que la conclusión que obtenemos sea exactamente correcta. Sin embargo, la
estadística permite cuantificar el error asociado a la estimación.
El objetivo de la estimación puntual es usar una muestra para obtener números que, en
algún sentido, sean los que mejor representan a los verdaderos valores de los
parámetros de interés.
Notaci´on: θ = parametro que se quiere estimar θ ˆ = estimador de θ
Características estimadores
Sesgo: se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor
esperado) del estimador y el verdadero valor del parámetro a estimar. Es deseable que
un estimador sea insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Por ejemplo, si se desea estimar la media de una población, la media aritmética de la
muestra es un estimador insesgado de la misma, ya que su esperanza (valor esperado) es
igual a la media de la población.
Ejemplo
En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho tres
muestreos aleatorios (número de muestras= 100) con los siguientes resultados:
vemos que el muestreo en que n=100 la Media de las Medias muestrales toma el mismo
valor que la Media de la población.
EFICIENCIA:
Un estimador es más eficiente o preciso que otro, si la varianza del primero es menor
que la del segundo.
SUFICIENTE
Se dice que un estimador es suficiente cuando resume toda la información relevante
contenida en la muestra, de forma que ningún otro estimador pueda proporcionar
información adicional sobre el parámetro desconocido de la población
CONVERGENCIA:
Para estudiar las características de un estimador no solo basta con saber el sesgo y la
varianza, sino que además es útil hacer un análisis de su comportamiento y estabilidad
en el largo plazo, esto es, su comportamiento asintótico. Cuando hablamos de
estabilidad en largo plazo, se viene a la mente el concepto de convergencia. Luego,
podemos construir sucesiones de estimadores y estudiar el fenómeno de la
convergencia.
n=20 X=12
La estimación puntual es p=12/20=0,6
Ante las limitaciones que presenta la estimación puntual se puede hacer uso de otro
método de estimación, la estimación por intervalos, éste es un procedimiento
alternativo cuando la estimación puntual no es capaz de proporcionar información
eficiente para describir el comportamiento de una característica de la población.
La estimación por intervalos es un procedimiento de la estadística inferencial
mediante el cual se realizan cálculos con los datos de una muestra cuyo resultado
son dos valores números que definen un rango, intervalo o conjunto numérico que
servirá para estimar el parámetro poblacional.
IC = [ x −𝑒 ;𝑥+𝑒 ]
_ _
e = zα/ 2.σ
√n
El nivel de confianza
El nivel de confianza sirve para determinar el valor de Zα/ 2. Para esto, uno determina un
nivel de confianza considerable, por ejemplo, 90%, 95%, 98% o 99%. Este nivel de
confianza se define como (1 – α)% y señala el porcentaje de todos los intervalos que se
pueden construir con todas las medias muestrales posibles que contendrán al verdadero
valor de la media poblacional. Cabe señalar que se define como el nivel de significancia
y representa la probabilidad de que el parámetro μ no se encuentre considerado dentro
del intervalo estimado. Los niveles de confianza más comunes y sus respectivos valores
de Z α/ 2 son:
Ejemplo 1
Una máquina de refrescos está ajustada de tal manera que la cantidad de líquido
despachada se distribuye aproximadamente en forma normal con una desviación
estándar igual a 0.15 litros. Si se toma una muestra de 25 refrescos cuya media fue de
2.25 litros, ¿cuál sería el intervalo de confianza de 95% para la media de todos los
refrescos que sirva esta máquina?
n = 25
X = 2.25
𝜎= 0.15
Z α/ 2 = 1.96