Probabilidad y Estadistica Bloque 1 Guia
Probabilidad y Estadistica Bloque 1 Guia
Probabilidad y Estadistica Bloque 1 Guia
Probabilidad y
estadística
Profesora Rita García Rentería
Bloque I. Estadística 2
1.1. Introducción 2
1.2. Poblaciones y muestras 2
1.3. Tipos de muestreo 2
1.3.1. Muestreo aleatorio simple 3
1.3.2. Muestreo estratificado 3
1.3.3. Muestreo sistemático con iniciación aleatoria 3
1.3.4. Muestreo por conglomerados 4
1.4. Tablas de frecuencia 4
Frecuencia 4
Frecuencia relativa 4
1.5. Diagramas de línea, histogramas, polígonos de frecuencia y ojivas. 5
1.6. Medidas de tendencia central y dispersión 5
1.7. Ejercicios 6
Referencias 8
1
Bloque I. Estadística
1.1. Introducción
La estadística nos permite analizar datos y transformarlos en información útil que puede ser
analizada. El análisis permite tomar decisiones e inferir características cualitativas o
cuantitativas de un conjunto.
Las variables (Rodríguez Ojeda, 2007) son características observadas de los elementos a
analizar, que toman diferentes valores. Si la característica observada puede ser descrita en
valores numéricos, se denomina variable cuantitativa, mientras que las características que
describen cualidades que no pueden ser medidas con números, se denominan variables
cualitativas.
Según el objetivo estadístico del estudio, el muestro se clasifica en dos grandes grupos:
muestreos probabilísticos (o aleatorios) y no probabilísticos. Dado que los métodos no
probabilísticos no brindan certeza de que la muestra extraída sea representativa, no sirven
para realizar generalizaciones de la población, por lo que no profundizaremos en estos
métodos, como son “muestreo por cuotas” y “muestreo intencional o de conveniencia”.
Los métodos de muestreo probabilísticos son los más recomendados, pues “cada uno de los
elementos de la población [tienen] la misma probabilidad de ser seleccionados” (Pineda, De
Alvarado, & De Canales, 1994), así la muestra es representativa. Estos métodos se explican
en la siguiente sección.
2
1.3.1. Muestreo aleatorio simple
Es el más utilizado. Se le conoce como “sorteo”. Podemos explicarlo en sencillos pasos:
1. Identificar y definir población. Crear una lista de todas sus unidades o elementos.
2. Determinar el número de elementos que conformarán la muestra.
3. Anotar todos los elementos enlistados de la población, cada uno en una
ficha o cartón. Las fichas se colocan en una bolsa o recipiente.
4. Cada unidad que se extrae de la bolsa es una unidad de la muestra.
5. Se continúa hasta obtener las unidades que requiere la muestra. Fig. 1. Ejemplo de
Este procedimiento (similar a sacar de su bolsa las fichas de Scrabble, o selección de fichas
con "Scrabble".
Bingo) es útil para poblaciones pequeñas, no para poblaciones grandes.
Otro procedimiento para seleccionar esta metodología consiste en el uso números aleatorios.
El procedimiento también necesita generar una lista de todos los elementos de la población,
con la diferencia que a cada elemento se le asigna un número consecutivo. Con la ayuda de
tablas de números aleatorios (Fig. 2) o con la función de Excel: =Aleatorio (), se genera un
número aleatorio, que corresponderá al número asignado al elemento de la población que
será tomado como muestra. Se generan tantos números aleatorios como elementos
muestrales sean necesarios. Los números repetidos no deben ser considerados, se debe
generar otro número (no repetir muestra).
3
1.3.4. Muestreo por conglomerados
Cuando no se cuenta con una lista detallada y enumerada de cada una de las unidades de la
población, la muestra selecciona como unidad a un conglomerado o subgrupo como muestra.
Puede sonar similar al muestreo estratificado, pero la diferencia es que en el muestreo
estratificado el investigador define las características con que se integran los estratos (edad,
género, colonia) y en el muestreo por conglomerados, la división de los subgrupos está dada
por una delimitación física que no define el investigador, por ejemplo, una unidad hospitalaria,
un área universitaria, una caja de determinado producto o las urnas electorales (Arias-Gómez,
Villasís-Keever, & Miranda-Novales, 2016).
Frecuencia
Supongamos que tenemos la información de la variable X, que toma valores x1, x2, x3, …, xn,
estos pueden repetirse uno o más veces. La frecuencia total (N) es el número total de
observaciones o valores que toma X. El número de veces que cada valor se repite es la
frecuencia absoluta o simplemente frecuencia (n). La suma de todas las frecuencias es igual
a la frecuencia total. Representado por la ec.1: ∑𝑛𝑖=1 𝑛𝑖 = 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑛 = 𝑁
(Montero Lorenzo, 2007).
Frecuencia relativa
La frecuencia relativa indica la relevancia que tiene cada frecuencia absoluta sobre la
totalidad de las observaciones, se calcula como el cociente de la frecuencia absoluta entre la
𝑛
frecuencia total: 𝑓𝑖 = 𝑖 (Montero Lorenzo, 2007). Si multiplicamos la frecuencia relativa por
𝑁
100, podríamos observar, en términos de porcentaje, qué tanto representa cada frecuencia
del total de los datos. La suma de todas las frecuencias relativas es igual a 1.
El siguiente es un ejemplo de elaboración de tabla de frecuencia: Una empresa de
electrónicos vende diferentes tabletas a precios variados. Un supervisor evalúa qué rangos
de precios se manejan. Se enlistan los precios a continuación:
Tabla 1 y 2. Elaboración de tablas de frecuencia. Tabla de frecuencias de los precios de tabletas
Precio de las tabletas electrónicas en $ MXN Valor Frecuencia Frec. Relativa
2700 3500 2100 2500 1950 4 0.20
1950 2100 4200 2700 2100 4 0.20
1950 2700 1950 1950 2500 1 0.05
2100 4200 3500 3500 2700 3 0.15
3500 2100 4800 4200 3500 5 0.25
4200 3 0.15
Frecuencia total: 20 1
La tabla nos explica que el precio de $ 3,500 es el que más se repite, y vender esas 5 tabletas,
representaría el 25 % (fr = 0.25) del total de ganancias que generaría la venta de todas las
tabletas.
4
1.5. Diagramas de línea, histogramas, polígonos de frecuencia
y ojivas.
Los gráficos sirven para representar visualmente los conjuntos de datos que se analizan. La
selección del gráfico que represente mejor al conjunto de datos dependerá del objetivo del
estudio y la naturaleza de los datos (cualitativos o cuantitativos).
Los diagramas de línea (fig. 3) se componen de puntos (que representan a cada dato) que
son unidos por segmentos lineales. Es útil para analizar los cambios de tendencia de los datos
cuantitativos, con respecto al tiempo. Cada dato se representa con una coordenada (X, Y),
en el eje X se coloca la escala temporal, en el eje Y se grafica la frecuencia absoluta.
Los histogramas (fig. 4) son la forma más común de representar la frecuencia. Comúnmente
se representa en el eje X los intervalos de clase en los que se encuentran los datos. Sobre
ese eje se construye un rectángulo cuya altura corresponde a la frecuencia (absoluta o
relativa). Un gráfico similar, es el de barras; este es utilizado para representar datos
cualitativos. En el eje X se indica la cualidad o característica y en el eje Y, la frecuencia de
cada observación (Montero Lorenzo, 2007).
Por último, la ojiva (fig. 6) grafica la frecuencia acumulada, esta se compone de la frecuencia
absoluta de la clase más la frecuencia absoluta de las clases anteriores.
5
Tabla 2.Medidas de tendencia central y dispersión.
𝑛
𝑥̅ = Media muestral
n = número de
observaciones
Mediana Valor Impar: 1,5,2,5,4
central de Ordenados: 1,2,4,5,5
los datos 𝑋̃ = 4
(en escala Par: 1,5,2,5,4,6
̃
ordenada). 𝑋 = Mediana Ordenados: 1,2,4,5,5,6
𝑋 = Número en el centro 1
de la escala. 𝑋̃ = (4 + 5) = 4.5
2
Varianza Cuantifica 2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 Si: 3,2,3,4; 𝑥̅ = 3
qué tanto 𝑆 =
𝑛−1
se alejan 𝑆 2 = Varianza 𝑆2 =
los datos 𝑥𝑖 = cada dato de la (3 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2
con 4−1
muestra 2
respecto a 𝑥̅ = Media muestral 𝑆 = 0.66
la media n= número de
observaciones
Desviación Es la raíz 𝑆 = +√𝑆 2 Si: 3,2,3,4; 𝑥̅ = 3; 𝑆 2 = 0.67
estándar cuadrada O bien:
(positiva) 𝑆 = √0.67 = 0.82
de la ∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑆 = √ 𝑖=1
varianza 𝑛−1
6
Ordenador
A B C
50 30 60
2. En la misma evaluación identifican que hay ocasiones en que el mismo ordenador tarda
mucho en encender y en ocasiones no tarda tanto. Calcula el rango de cada ordenador.
3. La varianza y la desviación estándar nos ayuda a identificar qué tanto se dispersan los
datos (pertenece a las medidas de dispersión). Calcúlalas para los tiempos de cada
ordenador. Identifica cuál es el ordenador que, en general, presenta más diferencias
entre sus valores máximos y sus valores mínimos (sus datos se alejan más de la media),
estará dado por el grupo de datos que presente mayor varianza y desviación estándar.
5. Por último, del ordenador elegido en la pregunta 1, concluye si, con base en la media,
la desviación estándar y la Moda, es correcto elegirlo o si escogerías otro. Justifica la
respuesta.
6. Calcula Todas las medidas de tendencia central y dispersión para los siguientes datos:
a) 96,171,202,178,147,157,185,90,116,172,141,149,206,175,123
b) 4, 6, 3, 3, 4, 5, 4, 4, 2, 4, 1, 4.
7
Referencias
Arias-Gómez, J., Villasís-Keever, M. Á., & Miranda-Novales, M. G. (2016). El protocolo de
investigación III: la población de estudio. Revista Alergia México, 201-206.