Probabilidad y Estadistica Bloque 1 Guia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

Guía de estudio.

Probabilidad y
estadística
Profesora Rita García Rentería

Bloque I. Estadística 2
1.1. Introducción 2
1.2. Poblaciones y muestras 2
1.3. Tipos de muestreo 2
1.3.1. Muestreo aleatorio simple 3
1.3.2. Muestreo estratificado 3
1.3.3. Muestreo sistemático con iniciación aleatoria 3
1.3.4. Muestreo por conglomerados 4
1.4. Tablas de frecuencia 4
Frecuencia 4
Frecuencia relativa 4
1.5. Diagramas de línea, histogramas, polígonos de frecuencia y ojivas. 5
1.6. Medidas de tendencia central y dispersión 5
1.7. Ejercicios 6
Referencias 8

1
Bloque I. Estadística

1.1. Introducción
La estadística nos permite analizar datos y transformarlos en información útil que puede ser
analizada. El análisis permite tomar decisiones e inferir características cualitativas o
cuantitativas de un conjunto.

Las variables (Rodríguez Ojeda, 2007) son características observadas de los elementos a
analizar, que toman diferentes valores. Si la característica observada puede ser descrita en
valores numéricos, se denomina variable cuantitativa, mientras que las características que
describen cualidades que no pueden ser medidas con números, se denominan variables
cualitativas.

1.2. Poblaciones y muestras


Una población es el conjunto total de objetos que comparten alguna característica que se
quiere analizar. Una muestra es un subconjunto de la población, cuya información pretende
describir a la población. Por ejemplo, un fabricante de USB produce 30,000 unidades al día
(población). El área de calidad debe inspeccionar que las USB cumplan con las
especificaciones de fabricación y no tengan defectos. Como no es posible analizar todas las
USB producidas, se le indica al personal de inspección que tome una muestra de 300
unidades. Con la cual se tomará la decisión de liberar el producto terminado o rechazar la
producción.

1.3. Tipos de muestreo


El muestreo es importante para asegurar la confiabilidad de los datos analizados. Debemos
definir claramente cuál es nuestra población y qué tipo de características se usarán para
describirla.

Según el objetivo estadístico del estudio, el muestro se clasifica en dos grandes grupos:
muestreos probabilísticos (o aleatorios) y no probabilísticos. Dado que los métodos no
probabilísticos no brindan certeza de que la muestra extraída sea representativa, no sirven
para realizar generalizaciones de la población, por lo que no profundizaremos en estos
métodos, como son “muestreo por cuotas” y “muestreo intencional o de conveniencia”.

Los métodos de muestreo probabilísticos son los más recomendados, pues “cada uno de los
elementos de la población [tienen] la misma probabilidad de ser seleccionados” (Pineda, De
Alvarado, & De Canales, 1994), así la muestra es representativa. Estos métodos se explican
en la siguiente sección.

2
1.3.1. Muestreo aleatorio simple
Es el más utilizado. Se le conoce como “sorteo”. Podemos explicarlo en sencillos pasos:
1. Identificar y definir población. Crear una lista de todas sus unidades o elementos.
2. Determinar el número de elementos que conformarán la muestra.
3. Anotar todos los elementos enlistados de la población, cada uno en una
ficha o cartón. Las fichas se colocan en una bolsa o recipiente.
4. Cada unidad que se extrae de la bolsa es una unidad de la muestra.
5. Se continúa hasta obtener las unidades que requiere la muestra. Fig. 1. Ejemplo de
Este procedimiento (similar a sacar de su bolsa las fichas de Scrabble, o selección de fichas
con "Scrabble".
Bingo) es útil para poblaciones pequeñas, no para poblaciones grandes.

Otro procedimiento para seleccionar esta metodología consiste en el uso números aleatorios.
El procedimiento también necesita generar una lista de todos los elementos de la población,
con la diferencia que a cada elemento se le asigna un número consecutivo. Con la ayuda de
tablas de números aleatorios (Fig. 2) o con la función de Excel: =Aleatorio (), se genera un
número aleatorio, que corresponderá al número asignado al elemento de la población que
será tomado como muestra. Se generan tantos números aleatorios como elementos
muestrales sean necesarios. Los números repetidos no deben ser considerados, se debe
generar otro número (no repetir muestra).

Fig. 2. Tabla de números aleatorios (Pineda, De Alvarado, & De Canales, 1994).

1.3.2. Muestreo estratificado


La población se divide en categorías diferentes entre sí (estratos) cuyos elementos comparten
alguna característica. Debe asegurarse que todos los estratos de interés estarán
representados adecuadamente en la muestra. (Arias-Gómez, Villasís-Keever, & Miranda-
Novales, 2016). Una vez definidos los estratos, se selecciona el número de muestras
necesario de cada grupo hasta conformar el total de la muestra calculado. Este método es
útil en poblaciones grandes.

1.3.3. Muestreo sistemático con iniciación aleatoria


El procedimiento es similar al aleatorio simple: se enumeran los componentes de la población
en una lista, se seleccionan los componentes de acuerdo con un “número de selección
sistemático”, que se calcula (Pineda, De Alvarado, & De Canales, 1994) dividiendo la
población (N) entre el número de muestra (n). Por ejemplo: N=500, n=100, N/n= 500/100 = 5.
Con el número de selección calculado, se define un número aleatorio de iniciación, menor al
calculado, por ejemplo 4. Esa es la primera muestra. La segunda muestra corresponde al
número 4 sumando el número de selección sistemático (5, en este caso), por lo que la
siguiente muestra es la número 9, la siguiente 13 y así sucesivamente.

3
1.3.4. Muestreo por conglomerados
Cuando no se cuenta con una lista detallada y enumerada de cada una de las unidades de la
población, la muestra selecciona como unidad a un conglomerado o subgrupo como muestra.
Puede sonar similar al muestreo estratificado, pero la diferencia es que en el muestreo
estratificado el investigador define las características con que se integran los estratos (edad,
género, colonia) y en el muestreo por conglomerados, la división de los subgrupos está dada
por una delimitación física que no define el investigador, por ejemplo, una unidad hospitalaria,
un área universitaria, una caja de determinado producto o las urnas electorales (Arias-Gómez,
Villasís-Keever, & Miranda-Novales, 2016).

1.4. Tablas de frecuencia


La información obtenida acerca de los diferentes valores que toman las variables de estudio
pueden ordenarse en tablas de frecuencia. Para entender sus componentes debemos
conocer los tipos de frecuencia.

Frecuencia
Supongamos que tenemos la información de la variable X, que toma valores x1, x2, x3, …, xn,
estos pueden repetirse uno o más veces. La frecuencia total (N) es el número total de
observaciones o valores que toma X. El número de veces que cada valor se repite es la
frecuencia absoluta o simplemente frecuencia (n). La suma de todas las frecuencias es igual
a la frecuencia total. Representado por la ec.1: ∑𝑛𝑖=1 𝑛𝑖 = 𝑛1 + 𝑛2 + 𝑛3 + ⋯ + 𝑛𝑛 = 𝑁
(Montero Lorenzo, 2007).

Frecuencia relativa
La frecuencia relativa indica la relevancia que tiene cada frecuencia absoluta sobre la
totalidad de las observaciones, se calcula como el cociente de la frecuencia absoluta entre la
𝑛
frecuencia total: 𝑓𝑖 = 𝑖 (Montero Lorenzo, 2007). Si multiplicamos la frecuencia relativa por
𝑁
100, podríamos observar, en términos de porcentaje, qué tanto representa cada frecuencia
del total de los datos. La suma de todas las frecuencias relativas es igual a 1.
El siguiente es un ejemplo de elaboración de tabla de frecuencia: Una empresa de
electrónicos vende diferentes tabletas a precios variados. Un supervisor evalúa qué rangos
de precios se manejan. Se enlistan los precios a continuación:
Tabla 1 y 2. Elaboración de tablas de frecuencia. Tabla de frecuencias de los precios de tabletas
Precio de las tabletas electrónicas en $ MXN Valor Frecuencia Frec. Relativa
2700 3500 2100 2500 1950 4 0.20
1950 2100 4200 2700 2100 4 0.20
1950 2700 1950 1950 2500 1 0.05
2100 4200 3500 3500 2700 3 0.15
3500 2100 4800 4200 3500 5 0.25
4200 3 0.15
Frecuencia total: 20 1

La tabla nos explica que el precio de $ 3,500 es el que más se repite, y vender esas 5 tabletas,
representaría el 25 % (fr = 0.25) del total de ganancias que generaría la venta de todas las
tabletas.

4
1.5. Diagramas de línea, histogramas, polígonos de frecuencia
y ojivas.
Los gráficos sirven para representar visualmente los conjuntos de datos que se analizan. La
selección del gráfico que represente mejor al conjunto de datos dependerá del objetivo del
estudio y la naturaleza de los datos (cualitativos o cuantitativos).

Los diagramas de línea (fig. 3) se componen de puntos (que representan a cada dato) que
son unidos por segmentos lineales. Es útil para analizar los cambios de tendencia de los datos
cuantitativos, con respecto al tiempo. Cada dato se representa con una coordenada (X, Y),
en el eje X se coloca la escala temporal, en el eje Y se grafica la frecuencia absoluta.

Los histogramas (fig. 4) son la forma más común de representar la frecuencia. Comúnmente
se representa en el eje X los intervalos de clase en los que se encuentran los datos. Sobre
ese eje se construye un rectángulo cuya altura corresponde a la frecuencia (absoluta o
relativa). Un gráfico similar, es el de barras; este es utilizado para representar datos
cualitativos. En el eje X se indica la cualidad o característica y en el eje Y, la frecuencia de
cada observación (Montero Lorenzo, 2007).

El polígono de frecuencia (fig. 5) representa un perfil de la distribución de los datos. Se


construye conectando los puntos medios de cada clase (de las clases representadas en
histograma).

Por último, la ojiva (fig. 6) grafica la frecuencia acumulada, esta se compone de la frecuencia
absoluta de la clase más la frecuencia absoluta de las clases anteriores.

Fig. 4. Diagrama lineal Fig. 3. Histograma

Fig. 5. Polígono de frecuencias Fig. 6. Ojiva

1.6. Medidas de tendencia central y dispersión


Las medidas de tendencia central son números que representan alrededor de qué valor se
concentran los datos. Por otro lado, las medidas de dispersión indican qué tanto las
observaciones pueden presentar valores alejados a la tendencia central, es decir, qué tan
dispersos son los datos. Las medidas y sus definiciones se encuentran en la siguiente tabla:

5
Tabla 2.Medidas de tendencia central y dispersión.

Nombre Descripción Cálculo Ejemplo


Media Promedio 𝑥̅ Si: 1,5,2,5; n=4
𝑛
aritmético 1
de los = ∑ 𝑥𝑖 1+5+2+5
𝑛 𝑥̅ = = 3.25
datos (xi). 𝑖=1 4
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
=
Medidas de tendencia central

𝑛
𝑥̅ = Media muestral
n = número de
observaciones
Mediana Valor Impar: 1,5,2,5,4
central de Ordenados: 1,2,4,5,5
los datos 𝑋̃ = 4
(en escala Par: 1,5,2,5,4,6
̃
ordenada). 𝑋 = Mediana Ordenados: 1,2,4,5,5,6
𝑋 = Número en el centro 1
de la escala. 𝑋̃ = (4 + 5) = 4.5
2

Moda Valor con Se identifica el número Si: 1,5,2,5,4,6


mayor que más se repite. Puede Mo= 5
frecuencia. no haber moda o haber
varias.
Rango Diferencia Si: 2,6,11,8,11,4,7,5
entre el
mayor y el 𝑅 = 𝑋(𝑛) − 𝑋(1) 𝑅 = 11 − 2 = 9
menor valor
de una
muestra.
Medidas de dispersión

Varianza Cuantifica 2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 Si: 3,2,3,4; 𝑥̅ = 3
qué tanto 𝑆 =
𝑛−1
se alejan 𝑆 2 = Varianza 𝑆2 =
los datos 𝑥𝑖 = cada dato de la (3 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2
con 4−1
muestra 2
respecto a 𝑥̅ = Media muestral 𝑆 = 0.66
la media n= número de
observaciones
Desviación Es la raíz 𝑆 = +√𝑆 2 Si: 3,2,3,4; 𝑥̅ = 3; 𝑆 2 = 0.67
estándar cuadrada O bien:
(positiva) 𝑆 = √0.67 = 0.82
de la ∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑆 = √ 𝑖=1
varianza 𝑛−1

1.7. Ejercicios sugeridos


1. Una oficina busca comprar un equipo de cómputo, tiene 3 opciones de ordenadores.
Elegirán el que tarde menos tiempo en encender. Tomarán el tiempo de los 3 ordenadores,
cada uno 10 veces, desde que se pulsa el botón de inicio, hasta que aparece la opción de
"inicio de sesión". Calcula y compara la media de cada ordenador e identifica cuál es el que
tarda menos tiempo en promedio, ese será el ordenador elegido. ¿Cuál es?

6
Ordenador
A B C
50 30 60

Tiempo de encendido (s)


80 40 80
40 30 100
50 40 120
50 40 40
40 60 30
80 50 120
90 40 40
30 30 120
90 60 40

2. En la misma evaluación identifican que hay ocasiones en que el mismo ordenador tarda
mucho en encender y en ocasiones no tarda tanto. Calcula el rango de cada ordenador.

3. La varianza y la desviación estándar nos ayuda a identificar qué tanto se dispersan los
datos (pertenece a las medidas de dispersión). Calcúlalas para los tiempos de cada
ordenador. Identifica cuál es el ordenador que, en general, presenta más diferencias
entre sus valores máximos y sus valores mínimos (sus datos se alejan más de la media),
estará dado por el grupo de datos que presente mayor varianza y desviación estándar.

4. Se busca identificar si hay un valor de tiempo de encendido que presente mayor


repetición o frecuencia, pues ese tiempo es el que más se repetirá durante su uso.
Calcula la moda de cada ordenador.

5. Por último, del ordenador elegido en la pregunta 1, concluye si, con base en la media,
la desviación estándar y la Moda, es correcto elegirlo o si escogerías otro. Justifica la
respuesta.

6. Calcula Todas las medidas de tendencia central y dispersión para los siguientes datos:
a) 96,171,202,178,147,157,185,90,116,172,141,149,206,175,123
b) 4, 6, 3, 3, 4, 5, 4, 4, 2, 4, 1, 4.

7. Elabora una tabla de frecuencia y gráficos de histograma, polígono de frecuencia y ojiva


para los siguientes datos: 10, 10, 50, 20, 30, 10, 40, 10, 60, 50, 10, 30, 20, 40, 50, 60,
10, 30, 50, 30, 60, 70. Los grupos del histograma serán: 10, 20, 30, 40, 50 y 60, es decir,
no estratificar. Calcula todas sus medidas de tendencia central y dispersión.

7
Referencias
Arias-Gómez, J., Villasís-Keever, M. Á., & Miranda-Novales, M. G. (2016). El protocolo de
investigación III: la población de estudio. Revista Alergia México, 201-206.

Montero Lorenzo, J. M. (2007). Estadística Descriptiva. Madrid, España: Editorial Paraninfo.

Pineda, B., De Alvarado, E. L., & De Canales, F. (1994). Metodología de la investigación,


manual para el desarrollo de personal de salud (2a edición ed.). Washington D.C.,
Estados Unidos: Organización Panamericana de la Salud.

Rodríguez Ojeda, L. (2007). Probabilidad y estadística básica para ingenieros. Guayaquil,


Ecuador: Instituto de Ciencias Matemáticas. Escuela Superior Politécnica del Litoral.

También podría gustarte