Organización de Datos
Organización de Datos
Organización de Datos
Organización de Datos
Unidad 1:
Naturaleza y objeto de la Estadística: Poblaciones y muestras. Variables: concepto y clasifi-
cación.
Organización y presentación de datos univariables: Recopilación, tabulación, análisis, inter-
pretación y representación gráfica de datos estadísticos. Series simples y series de frecuen-
cias, para variables discretas y continuas. Distribuciones de frecuencias absolutas, relativas y
acumuladas. Gráficos.
Estudia problemas
referidos a una
es el conjunto de indi-
Que es viduos u objetos en los
Población
cuales un investigador
En algunos casos
está interesado.
se considera una
Datos
Se realiza el
ANÁLISIS EXPLORATORIO
(ESTADÍSTICA DESCRIPTIVA)
Organización Procesamiento
y resumen (Gráficas y medidas descriptivas)
Diagrama 1
Cualitativa Numérica
o o
categórica cuantitativa
DISCRETA CONTINUA
Diagrama 2
Las variables se simbolizan con una letra mayúscula y los valores que toma la variable con la misma
letra en minúscula y con subíndices.
Por ejemplo si queremos clasificar las siguientes variables e indicar la escala de medición:
a) Cantidad de alumnas egresadas del Colegio de Huerto durante los últimos diez años.
b) Temperatura diaria de Jujuy durante el mes de Julio de 2000.
c) Lugar de nacimiento de las personas que viven en San Salvador de Jujuy.
d) Nivel educacional de los padres de los alumnos de Ingeniería.
X: Cantidad de alumnas egresadas del Colegio de Huerto durante los últimos diez años.
La cantidad de egresadas puede ser 42, 58, etc. Son cantidades enteras que provienen de contar a las
alumnas egresadas. Entonces la variable es cuantitativa discreta.
Para el caso en que los valores de la variable están asociados a distintas categorías o
cualidades, la variable es categórica o cualitativa.
b) Tabla de frecuencias
Una tabla de frecuencias para variables categóricas es una tabla que asocia cada
categoría de la variable con el número de veces que se repite dicha categoría. Esta tabla
también se denomina tabla de distribución de frecuencias.
Los datos cualitativos o categóricos se ordenan en frecuencias absolutas, frecuencias
. relativas y relativas porcentuales
c) Representación gráfica
La tabla de frecuencia anterior se puede representar por medio de un gráfico de barras horizontales.
Contabilidad
Área de preferencia
Matemática
Economía
d) Para contestar esta pregunta observamos la tabla de frecuencias o el gráfico y se concluye que el
área de preferencia que predomina es el de Economía.
15 16 18 18 15 15 17 20 17 20
20 17 18 18 16 16 17 20 17 20
22 18 19 19 15 21 18 21 16 21
15 20 16 18 16 21 19 19 19 21
18 18 17 19 20 17 19 19 17 22
Solución
a) Definición de la variable
X: Cantidad de plantas atacadas por cierto hongo.
Clasificación
Cómo cada valor que toma la variable proviene de contar las plantas, entonces la variable es
numérica discreta.
Escala de medición
Si teóricamente X tomara el valor 0, entonces 0 indica la ausencia de plantas atacadas por
hongos, entonces la escala de medición es de razón.
Tabla III.- Tabla genérica de distribución de frecuencias de una variable cuantitativa discreta para
una muestra de tamaño = n
Totales fi = n ri = 1 100
Tabla IV.- Distribución del número de plantas de naranjas atacadas por un cierto hongo
En nuestro problema, los valores que toma la variable X son: 15, 16, 17, ........25 plantas ataca-
das por el hongo.
Frecuencia absoluta
Las frecuencias absolutas se obtienen observando las veces que se repite cada valor de la
variable.
Interpretación:
f1 = 5, significa: 5 plantaciones de las observadas tienen 15 plantas de naranjas atacadas por cierto
hongo.
f2 = 6, significa: 6 plantaciones de las observadas tienen 16 plantas de naranjas atacadas por cierto
hongo.
Frecuencia relativa
Interpretación
0.1 es la proporción de plantaciones de la muestra que tiene 15 plantas atacadas.
0.12 es la proporción de plantaciones de la muestra que tiene 16 plantas atacadas.
La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (ab-
solutas o relativas ) de los valores menores o iguales al valor que se está considerando.
Interpretación
11 significa que: 11 plantaciones poseen 16 plantas atacadas o menos.
19 significa que: 19 plantaciones poseen a lo sumo17 plantas atacadas.
F’1 = f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 = n = 50
F’2 = f2 + f3 + f4 + f5 + f6 + f7 + f8 = 6 + 8 + 9 + 8 + 7 + 5 + 2 = 45
F’8 = f8 = 2
Interpretación
F’2 = 45 significa que: 45 plantaciones de la muestra tienen 16 o más plantas atacadas por el hongo.
F’4 = 31 significa que: 31 plantaciones de la muestra tienen 18 o más plantas atacadas por el hongo.
En forma similar se calculan las frecuencias relativas acumuladas.
Representación gráfica
Por tratarse de una variable discreta, la distribución de las frecuencias absolutas y relativas se
realiza a través del gráfico de bastones; las frecuencias acumuladas a través del gráfico de escalones.
Gráfico de bastones:
El gráfico de bastones se usa para representar a las distintas distribuciones de frecuencias co-
rrespondientes a datos discretos.
Sobre el eje de abscisas o de las “x” se representan los valores de la variable; en nuestro pro-
blema la cantidad de plantas atacadas. Sobre el eje de las ordenadas o de las “y”, las frecuencias
absolutas, las frecuencias relativas o las porcentuales.
Sobre cada valor de la variable se levanta un segmento vertical de longitud igual a la frecuencia ab-
soluta (o la relativa, o la porcentual) del valor correspondiente.
fi
8
Nº de plantaciones
15 16 17 18 19 20 21 22 xi
Cantidad de plantas atacadas
Interpretación: La mayoría de las plantaciones tienen entre 17 y 20 plantas de naranjas atacadas por
un cierto hongo.
ri
0.18
Prop. Del nº de plantaciones
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
15 16 17 18 19 20 21 22 xi
Cantidad de plantas atacadas
Gráfico de escalones
Las frecuencias acumuladas (absolutas, relativas o porcentuales) “Mayor que” y “Menor
que” de una variable discreta se representan por el gráfico de escalones.
Sobre el eje horizontal de la “x” se representas cada uno de los valores de la variable, en nuestro
problema: cantidad de plantas atacadas. Por cada uno de estos valores se levanta un segmento verti-
cal igual a la frecuencia acumulada y se completan con tramos horizontales hasta el valor inmediato
siguiente.
Ri
Frec. Relativas Acumuladas 1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
15 16 17 18 19 20 21 22 xi
Cantidad de plantas atacadas
R’i
1
Frec. Relativas Acumuladas
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
15 16 17 18 19 20 21 22 xi
Problema 3
Suponga que se han registrado 50 observaciones referentes a los pesos de 50 lingotes de acero
producidos por SIDER, la muestra fue obtenida de la producción semanal y las unidades están dadas
en Kg.
94.5 93.0 95.5 95.3 92.4 94.4 92.8 93.2 93.6 95.5
92.9 93.6 95.7 93.8 94.8 93.9 92.7 91.6 93.6 93.7
94.2 95.7 94.7 94.3 92.7 94.5 96.2 95.4 93.7 91.9
94.7 92.7 95.0 93.0 92.9 93.7 92.7 93.3 94.6 96.4
94.1 93.7 94.2 93.7 94.0 93.9 93.6 94.6 92.3 94.4
Solución
a) Definición de la variable
La variable X es: Peso de lingotes de acero expresado en Kg.
Clasificación: Los valores que toma la variable son valores numéricos que resultan de realizar medi-
ciones, entonces se trata de una variable numérica o cuantitativa continua.
Escala de medición: El valor de 0 Kg. indicaría la ausencia de peso, es un cero natural, por lo que
la escala de medición corresponde a la de razón.
b) Distribución de frecuencias
Para construir una tabla de distribución de frecuencias recordaremos que:
“Una distribución de frecuencias es una tabla de resumen en la que los datos se agrupan o
arreglan en clases o categorías ordenadas en forma numérica, establecidas de modo conve-
niente” 1
Como se trata de una variable continua, y que teóricamente la magnitud peso de la variable
puede tomar una infinidad de valores y que entre dos pesos de la variables puede existir otro peso, la
organización de los datos o tabla de distribución de frecuencias contiene intervalos de clase.
“Al construir la tabla de distribución de frecuencias, se debe prestar atención a:
1. Seleccionar el número apropiado de clases para la tabla.
2. Obtener un intervalo de clase o “ancho” apropiados para cada clase.
3. Establecer los límites y las fronteras de cada clase para evitar superposición." 2
Una tabla de distribución de frecuencias de una variable continua es como la que sigue:
Tabla V.- Tabla de distribución de frecuencias de una variable continua para una muestra n.
Intervalos Marca de Frec. Frec. Abs. Frec. Frecuenc. Frec. Rel. Frec. Rel. Frec. Frec. Frec.
de clase clase Abs. Acumul. Abs. Relativa Acumul. Acumul. Porcent. Porc. Porc.
Li – Ls x’i fi Menor Acumul. f Menor Mayor ri % Acumul. Acumul.
que Mayor ri = i que que Menor Mayor
que n que que
Fi Ri R’i
F’i Ri % R’i %
L0 – L1 x’1 f1 F1 F’1 = n r1 R1 R’1 = 1 r1 % R1 % R’1%=100
L1 – L2 x’2 f2 F2 F’2 r2 R2 R’2 r2 % R2 % R’2 %
……. ……... …. ….. …… ...... .... ..….. … ... ....
Lm-1 – Lm x’m fm Fm = n F’m= fm rm Rm = 1 R’m= rm rm % Rm%=100 R’m %=rm
Totales n 1 100
1, 2
Berenson, M.L.- Levine, D.M. Estadística para Administración y Economía. Conceptos y Aplicaciones.
Dra. Ing. Gisella Mautino 15
Probabilidad y Estadística –
Organización de Datos
Al observar los datos del problema, puede verse que el mayor valor que toma la variable pe-
so de los lingotes de acero es de 96.4 Kg. y el menor valor es 91.6 Kg.
El rango o recorrido r = xi máx. – xi mín. = 96.4 Kg. – 91.6 Kg. = 4.8 Kg., que es la amplitud total.
“El rango se define como la diferencia que existe entre el mayor y el menor valor observado
que toma la variable en estudio”.2
La decisión sobre la cantidad de intervalos y la amplitud de cada uno de ellos es arbitraria, depende
del problema en cuestión y en última instancia del investigador. Los intervalos de clase pueden ser
de igual o distinta amplitud dependiendo del problema o el criterio del investigador. Generalmente
se utiliza entre 5 y 15 clases.
- En nuestro problema está establecido que debemos considerar 5 intervalos de igual amplitud.
La amplitud o ancho del intervalo = amplitud total o rango / nº de intervalos
Amplitud = 4.8 Kg. / 5 = 0.96 1
Trabajar con 0.96 resultaría dificultoso por lo que es conveniente trabajar con el entero más próxi-
mo.
Ampliamos el rango o recorrido de datos original [91.6 , 96.4], por otro que lo contenga y que sea
múltiplo de 5. El rango ampliado y que contiene al original es (91.5 , 96.5).
Segundo intervalo: El límite superior del primero pasa ser límite inferior del segundo, sumándole a
éste el ancho del intervalo se obtiene el límite superior: 92.5 – 93.5.
Con el mismo procedimiento se obtienen los demás intervalos.
2
Universidad Nacional de Córdoba. Curso de Posgrado. “ESTADÍSTICA APLICADA A LA INVESTIGACIÓN”
Dra. Ing. Gisella Mautino 16
Probabilidad y Estadística –
Organización de Datos
Tabla VI.- Tabla de distribución de frecuencias de los pesos de los 50 lingotes de acero
Intervalo Marca Frec. Frec. Abs. Frec. Abs. Frec. Frec. Rel. Frec. Rel. Frec. Frec. Porc. Frec. Porc.
de clase de clase Abs. Acumul. Acumul. Rel. Acumul. Acumul. Porcent. Acumul. Acumul.
Li – Ls x’i fi Menor que Mayor que ri Menor que Mayor que ri % Menor que Mayor que
Fi F’i Ri R’i Ri % R’i %
91.5 – 92.5 92 4 4 50 0.08 0.08 1 8 8 100
Totales 50 1 100
Frecuencias
Se pueden calcular, además de las frecuencias absolutas, las relativas o las porcentuales,
según el problema en estudio requiera proporciones o porcentajes respectivamente.
- En nuestro problema calcularemos todas las frecuencias ya que no se especifica cual se prefiere.
El cálculo de frecuencias relativas y acumuladas se realiza del mismo modo que se trabajó
con la variable discreta.
Para las frecuencias absolutas se consideran la cantidad de lingotes de acero contenidos en cada in-
tervalo.
Interpretaciones
Frecuencia absoluta
4 lingotes de acero pesan menos de 92.5
20 lingotes pesan 93.5 Kg. o más, pero menos de 94.5
La marca de clase
La marca de clase es el punto medio del intervalo de clase, es el valor utilizado para repre-
sentar todos los datos resumidos en el intervalo en particular.
Por ejemplo, para el primer intervalo:
91.5 92.5
92 y así se calcula para el resto de los intervalos.
2
Gráfica de datos
Los histogramas y los polígonos de frecuencias se utilizan para representar gráficamente
las distribuciones de frecuencias absolutas, relativas y porcentuales de datos cuantitativos continuos
agrupados en clases. Los histogramas son gráficas de barras verticales.
Para las frecuencias acumuladas “Menor que” y “Mayor que” se usan polígonos llamados
ojivas.
fi
20
Frecuencia Absoluta
15
10
5 9
0
91.5 92.5 93.5 94.5 95.5 96.5
Peso en Kg.
Gráfico 6: Histograma y polígono de frecuencias absolutas del peso de los lingotes de acero.
%
100
100
88
80
Frec. Porcentual Acumulada
70
60
40
30
20
0
91.5 92..5 93.5 94.5 95.5 96.5
Peso en Kg.
Gráfico 7: Polígonos de frecuencias acumuladas: Ojiva. Frecuencias porcentuales acumuladas “Menor que”
%
100
100
92
Frec. Porcentual Acumulada
80
70
60
40
30
20
12
0
91.5 92..5 93.5 94.5 95.5 96.5
Peso en Kg.
Gráfico 8: Ojiva. Frecuencias porcentuales acumuladas “Mayor que”
Responder d) e) f).
Dra. Ing. Gisella Mautino 20
Probabilidad y Estadística –
Organización de Datos
Inicio
Variable
No
▪ Gráfico de bastones
La variable es ¿Es cuanti- Si ¿Es dis- Si
▪ Gráfico de escalones
categórica tativa? creta?
No
▪ Histograma
Barras hori- La variable ▪ Polígono de
zontales es continua frecuencias
▪ Ojiva
Diagrama 3