Separata 1 PDF

Fundamentos de Probabilidad Mgt. Rina M.
Zamalloa Cornejo
INTRODUCCION
La importancia de la probabilidad radica en que, mediante este recurso matemático, es posible ajustar
de la manera más exacta posible los imponderables debidos al azar en los más variados campos tanto
de la ciencia como de la vida cotidiana en la que generalmente se toma decisiones en situaciones en
donde la incertidumbre, el azar y el riesgo, son relevantes.
La Probabilidad tiene ganado un lugar por su importancia en el marco de la historia de las ideas
científicas, por sus complejas relaciones entre intuiciones y teorías normativas y por su prolífica
relación entre teorías y aplicaciones. Para la Probabilidad en el aula se propone trabajar con problemas
que permitan promover la discusión de los elementos básicos de la naturaleza aleatoria del fenómeno a
modelar, vincular la Probabilidad con otras ramas de la matemática y confrontar los resultados
obtenidos con situaciones reales. Se discute y enfatiza la importancia que tienen las distintas
interpretaciones de la Probabilidad tanto en la asignación de probabilidades como en el análisis de
resultados.
PRIMERA UNIDAD DIDACTICA

ESTADÍSTICA DESCRIPTIVA
INTRODUCCION
Iniciamos este capítulo con la definición de algunos conceptos elementales y básicos, y sin
embargo pilares, para una comprensión intuitiva y real de lo que es la Estadística. Pretendemos
introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y
clasificar las características en estudio, enseñarle a organizar y tabular las medidas obtenidas mediante
la construcción de tablas de frecuencia y por último los métodos para elaborar una imagen que sea
capaz de mostrar gráficamente unos resultados.
DEFINICION DE ESTADISTICA
Como establece M.G. Kendall, definir en que consiste o qué es la Estadística ha sido una
materia que ha dividido a lo largo de la historia a los propios estadísticos. Desde Quetelet que la
consideraba la reina de las ciencias hasta autores que la definen como una técnica más, al servicio de
otras ramas del conocimiento. La característica común ha sido la multiplicidad de definiciones que se
han escrito sobre estadística. W.F. Willcox, en 1935, reúne 115 definiciones y aporta una más para
sustituirlas, sin lograrlo. El número de definiciones de estadística ha seguido aumentando.
La estadística es la rama de las matemáticas que describe los fenómenos donde no hay un
componente absoluto, es decir es discreta, y sus modelos son estocásticos. La estadística ayuda a todas
1
Fundamentos de Probabilidad Mgt. Rina M. Zamalloa Cornejo
las demás ciencias a generar modelos matemáticos "generales" donde se haya considerado el
componente aleatorio.
Es una disciplina de estudio relacionada con la recopilación, organización y resumen de datos y
la obtención de inferencias a partir de esos datos.
La Estadística es una disciplina científica que se dedica a la recopilación, descripción, análisis e
interpretación de datos y, por ello, constituye la metodología científica que permite transformar datos
en información. Esto la hace especialmente atractiva, ya que en cualquier sociedad desarrollada existe
una inmensa variedad de problemas cuya solución sólo es posible mediante la utilización de técnicas
estadísticas.
En una forma práctica, la estadística proporciona los métodos científicos para la recopilación,
organización, resumen, representación y análisis de datos o hechos, que se presten a una evaluación
numérica; tales como: fenómenos sociales, económicos, políticos, culturales, etc.
La estadística se clasifica en estadística descriptiva y estadística inferencial.
Estadística descriptiva:
Describe, analiza y representa un grupo de datos utilizando métodos numéricos, tabulares y/o
gráficos que resumen y presentan la información contenida en ellos. Se puede definir como aquel
método que contiene la recolección, organización, presentación y resumen de una serie de datos. El
análisis que se realiza se limita en sí mismo a los datos recolectados y no se puede realiza inferencia
alguna o generalizaciones alguna, acerca de la población de donde provienen esos datos estadísticos; es
decir a partir de una muestra de datos (recogida según una técnica concreta), es la descripción de las
características más importantes, entendiendo como características, aquellas cantidades que nos
proporcionen información sobre el tema de interés del cual hacemos el estudio.
Estadística inferencial:
Es aquella rama de la estadística que apoyándose en el cálculo de probabilidades y a partir de
datos muéstrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un
conjunto mayor de datos. Puede definirse como aquella rama de la estadística que hace posible la
estimación de una característica de una población o la toma de una decisión referente a una población,
fundamentándose sólo en los resultados de la muestra.
2
DETERMINACIÓN DE LA POBLACIÓN Y MUESTRA

Población:
Estadísticamente, la población se define como un conjunto de individuos o de objetos que
poseen una o varias características comunes que interesan al investigador. No se refiere esta definición
únicamente a los seres vivientes; una población puede estar constituida por los habitantes de un país o
por lo peces de un estanque, así como por los establecimientos comerciales de un barrio o las unidades
de vivienda de una ciudad. Al número de elementos de la población se denota por N.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el
término infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces
dentro de un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser
considerado como infinito.
Muestra:
Conjunto de elementos que forman parte de población. La muestra representa a esta población.
También se puede definir como el subconjunto de la población a la cual se le efectúa la
medición con el fin de estudiar las propiedades del conjunto del cual es obtenida. Existen diversos
métodos para calcular el tamaño de la muestra y también para tomar los elementos que la conforman,
la muestra debe ser representativa de la población y sus elementos escogidos al azar para asegurar la
objetividad de la investigación.
Se llama muestreo al procedimiento científico que se utiliza para la obtención de muestras
estadísticamente significativas de una población que permitirá estimar los parámetros poblacionales
con un grado de confianza fijado previamente.
Tamaño muestral: Es el número de elementos u observaciones que tomamos en la muestra, se

denota por n.
3
Un procedimiento estadístico descriptivo no hace referencia a muestra ni a población. Los

conceptos de población y muestra están íntimamente ligados y tiene sentido determinarlos cuando se
va a proceder a realizar lo que se conoce como inferencia estadística.
La inferencia estadística realiza un estudio sobre una o varias muestras extraídas de una
población o universo y las conclusiones a las que se arriban son aplicables a todos los elementos de
dicha población.
Estas conclusiones se aplican a todos los elementos de la población, pero ello no quiere decir
que todos (absolutamente todos) tienen que cumplir con las características determinadas. Para ello se
utiliza la teoría de probabilidades, en el trabajo estadístico de un estudio las pruebas se diseñan de
modo que se puede determinar con qué grado de probabilidad se encontrarán las características
determinadas en la muestra, entre los elementos que componen la población.
VARIABLE
Es la característica de la población que interesa al investigador y se está midiendo. Existen dos
categorías o tipo de variables:
Variable cualitativa: Es aquella que expresa un atributo o característica, ejemplo: estado civil,
, etc.
o Variable nominal es cuando sus valores representan categorías que no obedecen a una
clasificación intrínseca, ejemplo: sexo, color de ojos, estado civil, etc.
o Variable ordinal este tipo de variable puede tomar distintos valores ordenados según
una escala preestablecida, ejemplo: grado de instrucción, nivel de satisfacción, etc.
Variable cuantitativa: Es aquella que podemos expresar numéricamente: edad, peso, nº. de
hijos, etc. Esta a su vez la podemos subdividir en:
o Variable discreta, aquella que entre dos valores próximos no puede tomar ningún
valor. Ejemplos: el número de hijos de una familia, el de obreros de una fabrica, el de
alumnos de la universidad, etc.
o Variable continua la que puede tomar los infinitos valores de un intervalo. En muchas
ocasiones la diferencia es más teórica que práctica, ya que los aparatos de medida
dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura,
distancias, etc.
4
La variable se denota por las mayúsculas de letras finales del alfabeto castellano X, Y, Z. A su vez
cada una de estas variables puede tomar distintos valores y se denota por las letras minúsculas x, y, z,
etc. o colocando un subíndice en las letras minúsculas, que indica orden.
PARÁMETRO Y ESTADÍGRAFO
Existen medidas para realizar descripciones cuantitativas de los conjuntos de datos de
poblaciones, o de sus muestras, diferenciándose entre ellas las que se refieren a las mismas
poblaciones y a las muestras.
o PARÁMETRO – Es una medida resumen que se obtiene a base de los datos de una población es
decir que cuantifica una característica de esa población. Nos referimos a las funciones, tales como las
medias, desviaciones típicas, momentos, coeficientes de correlación, etc. Los parámetros son
cantidades, las cuales son constantes para distribuciones en particular, pero pueden tomar diferentes
valores para diferentes miembros de familias de distribuciones del mismo tipo.
➢  media poblacional
➢  2 varianza poblacional
➢ p proporción poblacional
o ESTADÍGRAFO – Un estadístico o estadígrafo es una medida resumen cuyo valor se puede

calcular a partir de datos muestrales.
➢ X media muestral
➢ S 2 varianza muestral
➢ p̂ proporción muestral
Antes de obtener datos, hay incertidumbre en cuanto a que valor resulta de cualquier estadística
particular, por lo tanto, un estadístico es una variable aleatoria y estará denotada por una letra
mayúscula; una minúscula se emplea para representar el valor calculado u observado de la estadística
para toda la población, entonces se le considera como un parámetro.
Cuando se llevan a cabo investigaciones y sus resultados son comprobados como ciertos y los
mismos se generalizan o se aplican a la población, se da entonces la inferencia estadística como un
procedimiento mediante el cuál se estiman los parámetros, por ejemplo una media muestral es un
estadígrafo que estima la media de la población, que es un parámetro.
5
ETAPAS DEL METODO ESTADISTICO

Una vez que se haya seleccionado el asunto o problema a investigar se procede a redactar el
proyecto según los criterios que siguen a continuación.
Para el planeamiento de una investigación, por norma general, se siguen las siguientes etapas:
➢ Planteamiento del problema.
➢ Fijación de los objetivos.
➢ Formulación de la hipótesis.
➢ Definición de la unidad de observación y de la unidad de medida.
➢ Determinación de la población y de la muestra.
➢ La recolección.
➢ Crítica, clasificación y ordenación.
➢ Tabulación.
➢ Presentación.
➢ Análisis.
➢ Publicación.
PLANTEAMIENTO DEL PROBLEMA

Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se
pretende estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre
el o los fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas,
la revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por
investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se debe
hacer una ubicación histórica y teórica del problema.
FIJACIÓN DE LOS OBJETIVOS

Luego de tener claro lo que se pretende investigar, Debemos presupuestar hasta dónde
queremos llegar; en otras palabras, debemos fijar cuales son nuestras metas y objetivos. Estos deben
plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe, además, establecerse
diferenciación entre lo de corto, mediano y largo plazo, así como entre los objetivos generales y los
específicos.
PROPÓSITO Y JUSTIFICACIÓN DE LA INVESTIGACIÓN

Debe indicarse porqué se quiere llevar a cabo la investigación y establecerse un argumento
donde se expone la importancia, cómo ésta contribuye al mejoramiento de la calidad de vida en la
6
comunidad y si se tratará del de la educación, como la misma contribuye al proceso enseñanza

aprendizaje, entre otras.
FORMULACIÓN DE LAS HIPÓTESIS

Una hipótesis es ante todo una explicación provisional de los hechos objeto de estudio, y su
formulación depende del conocimiento que el investigador posea sobre la población investigada. Una
hipótesis estadística debe ser susceptible de docimar, esto es, debe poderse probar para su aceptación o
rechazo.
Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el
propósito de rechazarla, se llama Hipótesis de Nula y se representa por H0; a su hipótesis contraria se
le llama Hipótesis Alterna (H1).
REVISIÓN DE LA LITERATURA
Se ausculta y se dispone qué estudios e investigaciones se han realizado sobre el asunto o
problema a investigar. Pueden considerarse estudios e investigaciones relacionadas, o sea, no
necesariamente tienen que ser tan similares como la investigación que se propone. Deben de
disponerse en orden cronológico comenzando con las menos recientes y terminar con las actuales.
También hay que considerar, si hay tres preguntas de investigación, presentar los estudios según el
orden de las preguntas. Puede también presentarse los estudios según las variables de la investigación
propuesta.
DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA

La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la
población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de
cuentas, es a ellas a las que se les hará la medición.
La unidad de observación puede estar constituida por uno o varios individuos u objetos y
denominarse respectivamente simple o compleja.
El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el
equipo de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo
qué unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc. asociado a
la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales se ha de
efectuar la toma de la información.
7
METODOLOGÍA
Diseño: Mediante la presentación de un flujograma se ilustra las partes o componentes de la
investigación demostrando así mismo el procedimiento de cómo se va a llevar a cabo la investigación.
Población y muestra: Se describe la población y el lugar donde se llevará a cabo la investigación y si

es necesario se seleccionará una muestra. Es cuestión de presentar un perfil de los sujetos bajo la
investigación y puede ilustrarse con una tabla y/o gráfica.
Instrumentos: Debe describir los instrumentos o medios de cómo va a recoger los datos para la
investigación. Ya sea pruebas, cuestionarios o listas de cotejo, etc., debe de describirlos indicando su
magnitud en números de reactivos… indicar cuánto tiempo toma en contestarse…
Los instrumentos van a estar determinados según las preguntas de investigación propuestas en la
primera parte.
Debe de procurar por la validez y la confiabilidad de los instrumentos e informarla.
Análisis estadístico: Indicar que tipo de estadísticas se va a calcular y qué análisis se va llevar a cabo.
Esto dependerá según las preguntas de investigación establecidas en la primera parte de la propuesta.
LA RECOLECCIÓN
Una de las etapas más importantes de la investigación es la recolección de la información, la
cual ha de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras
piloto en las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la
variabilidad de la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una
estimación de los parámetros con la precisión establecida. El establecimiento de las fuentes y cauces
de información, así como la cantidad y complejidad de las preguntas, de acuerdo con los objetivos de
la investigación son decisiones que se han de tomar teniendo en cuenta la disponibilidad de los
recursos financieros, humanos y de tiempo y las limitaciones que se tengan en la zona geográfica, el
grado de desarrollo, la ausencia de técnica, etc. Es, entonces, descubrir dónde está la información y
cómo y a qué "costo" se puede conseguir; es determinar si la encuesta se debe aplicar por teléfono, por
correo, o si se necesitan agentes directos que recojan la información; establecer su número óptimo y
preparar su entrenamiento adecuado.
CRITICA, CLASIFICACIÓN Y ORDENACIÓN

Después de haber reunido toda la información pertinente, se necesita la depuración de los datos
recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población
8
por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las
preguntas, respuestas al margen, etc.
Separado el material de "desecho" con la información depurada se procede a establecer las
clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces
necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de las
diferentes variables que intervienen en la investigación.
El avance tecnológico y la popularización de los computadores hacen que estas tareas,
manualmente dispendiosas, puedan ser realizadas en corto tiempo.
PRESENTACIÓN DE LA INFORMACION
Una vez recolectados los datos es necesario organizarlos, clasificarlos y resumirlos
adecuadamente, de manera tal que posibilite un mejor análisis de la información obtenida. Un recurso
muy útil para este fin lo constituye las medidas resumen.
Se presentan los hallazgos según el orden que fueron formuladas las preguntas, las hipótesis,
objetivos de la investigación. Se presentan los datos estadísticos, por medio de tablas y/o gráficas en la
forma más objetiva posible o medidas cuantitativas resumen. No debe hacerse ningún juicio o
comentario. Sólo se presentan los datos y hechos con sus estadísticas correspondientes.
Una información estadística adquiere más claridad cuando se presenta en la forma adecuada.
Los cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se
van a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos
redundantes que, antes que claridad, crean confusión.
Además, la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no
sólo en función de las variables que relaciona, sino del lector a quien va dirigido el informe
DISCUSIÓN Y ANÁLISIS DE RESULTADOS

Se discuten los hallazgos con su respectivo análisis estadístico según el orden que fueron
formuladas las preguntas o hipótesis de la investigación. En esta discusión de resultados se relacionan
los hallazgos con los estudios e investigaciones referidas en la sección de la revisión de literatura, se
indican las implicaciones y recomendaciones que suelen surgir a partir de los hallazgos de la
investigación. Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de
los parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el
ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las
conclusiones definitivas.
9
PUBLICACIÓN
Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del
mismo problema a quienes se les puede aportar información, conocimientos y otros puntos de vista
acerca de él.
TÉCNICAS PARA LA OBTENCIÓN DE DATOS

En las diferentes ramas de la ciencia existen numerosas técnicas para la obtención de datos,
para lo cual se emplean diversos, y a veces muy complejos instrumentos, que son del dominio de las
diferentes especialidades. Además, existen otras técnicas más generales y de amplio uso destinadas a
recopilar información referida de forma oral o escrita, por los individuos estudiados.
Entre estas podemos destacar:
El censo: Esta técnica consiste en la obtención de datos procedentes de todos los elementos de la
población u objeto de estudio, en un tiempo determinado y siguiendo un cuestionario previamente
elaborado.
La encuesta: Se diferencia del censo en que la encuesta se aplica solo a una muestra de la población u
objeto de estudio.
La entrevista: Es la técnica de obtención de información a través del diálogo, por lo que requiere de
ciertas habilidades por parte del entrevistador. La entrevista puede o no, estar estructurada a partir de
un cuestionario.
El registro: Consiste en recoger información sobre determinadas variables en forma sistemática y

continua o periódica.
INSTRUMENTOS PARA LA RECOLECCIÓN DE DATOS

Cuestionario: Es un instrumento imprescindible para el censo y la encuesta, y como se dijo antes, su
uso es opcional en la entrevista. Consiste en una serie de preguntas específicas, que permiten evaluar
una o varias de las variables definidas en el estudio.
Planilla de recolección de datos: Es un instrumento muy utilizado con la finalidad de facilitar la

recopilación referente a cada elemento de la muestra o población. La información obtenida, como
resultado de las mediciones de las variables, es recogida en una planilla específicamente diseñada al
efecto.
10
Base de Datos: Es la forma organizada y estructurada de recopilar la información obtenida de todos los
elementos estudiados. Las "Sabanas de Datos" utilizadas hasta hace un tiempo han sido sustituidas
progresivamente por diversos programas de aplicación de la computación por cuanto facilitan y
agilizan espectacularmente el procesamiento de la información.
DISTRIBUCION DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS
INTRODUCCION
Una distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de
los datos estadísticos, asignando a cada dato su frecuencia correspondiente
DEFINICIONES
Uno de los primeros pasos que se realiza en cualquier estudio estadístico es la tabulación de
resultados, es decir, recoger la información de la muestra resumida en una tabla en la que a cada valor
de la variable se le asocian determinados números que representan el número de veces que ha
aparecido, su proporción con respecto a otros valores de la variable, etc. Estos números se denominan
frecuencias.
En el caso de variables cuantitativas, existen dos posibilidades:
Si la variable es discreta, las clases serán valores numéricos y1 , y2 , yk .
Si la variable es continua las clases vendrán definidas mediante lo que denominamos intervalos. En
este caso, las modalidades que contiene una clase son todos los valores numéricos posibles contenidos
en el intervalo, el cual viene normalmente definido de la forma:  y 'i −1 − y 'i ) donde y 'i −1 es el límite
inferior y y 'i es el límite superior del intervalo.
Así tenemos los siguientes tipos de frecuencia:

Frecuencia absoluta , frecuencia absoluta acumulada, frecuencia relativa y frecuencia relativa
acumulada
Consideramos una variable estadística Y que, en una muestra de tamaño n extraída de una
población estadística, toma los valores y1  y2  .......  yk , definimos los siguientes conceptos:
11
Llamamos tamaño muestral al número de observaciones realizadas, es

Tamaño de la decir, al número total de datos.
n
muestra k
n
i =1
i = n1 + n2 + ..........+ nk = n
Llamamos frecuencia absoluta de un valor yi de la variable estadística

Y al número de veces que aparece repetido dicho valor en el conjunto
Frecuencia de las observaciones realizadas.
ni
Absoluta k
n
i =1
i = n ; 0  ni  n i = 1, 2, ......., k
Llamamos frecuencia absoluta acumulada en el valor yi a la suma de

las frecuencias absolutas de los valores inferiores o iguales a él.
Evidentemente, los valores yi han de estar ordenados de forma
creciente, como ya se ha indicado, y la frecuencia absoluta acumulada
Frecuencia
del último valor será igual a n.
Absoluta Ni i
Acumulada Ni =  n j = n1 + n2 + .......... + ni
j =1
Nk = n
Llamamos frecuencia relativa de un valor yi de la variable estadística

Y al cociente entre la frecuencia absoluta y el número de observaciones
Frecuencia Relativa hi realizadas.
k
ni
hi =
n
; h
i =1
i = h1 + h2 + ..........+ hk = 1 ; 0  hi  1
Llamamos frecuencia relativa acumulada en el punto yi al cociente

entre la frecuencia absoluta acumulada y el número de observaciones
realizadas.
Frecuencia Relativa i
Hi H i =  h j = h1 + h2 + .......... + h j
Acumulada j =1
Ni
Hi = ; Hk = 1
n
12
TABLAS DE DISTRIBUCION DE FRECUENCIAS PARA DATOS DISCRETOS
yi ni Ni hi Hi
y1 n1 N1 = n1 n1 N1
h1 = H1 = h1 =
n n
y2 n2 N2 = n1 + n2 n2 N2
h2 = H 2 = h1 + h2 =
n n
yk nk Nk = n1 + n2 + + nk = n nk Nk
hk = H k = h1 + h2 + + hk = =1
n n
Ejercicio
Se quiere saber el número de hijos por matrimonio de una villa. Para este propósito, se elige una
muestra representativa de 50 matrimonios de ella. Se obtienen los siguientes datos:
0 2 1 2 2 0 1 2 1 3 2 3 2
2 2 1 2 4 2 0 3 3 3 0 2 1
4 3 1 3 2 3 3 3 4 2 2 4 2
3 3 2 3 3 2 2 4 2 2 3
Elaborar una tabla de distribución de frecuencias.
Solución
yi ni Ni hi Hi
0 4 4 0,08 0,08
1 6 10 0,12 0,20
2 20 30 0,40 0,60
3 15 45 0,30 0,90
4 5 50 0,10 1
50 1
TABLAS DE DISTRIBUCION DE FRECUENCIAS PARA DATOS CONTINUOS

Agrupamos los valores de la variable estadística en intervalos de clase contiguos y elegidos
convenientemente para no perder mucha información. No existe un criterio claro de cuál debe ser el
número de intervalos que debemos escoger, algunos estadísticos establecen que el número de clases
debe ser, aproximadamente igual a la raíz cuadrada positiva del número de datos. Normalmente, el
13
número de intervalos de clase se suele fijar entre 5 y 20, de tal manera que en cada clase se tengan, al
menos, 5 observaciones. De todas formas, el investigador los acomodará a las condiciones específicas
del problema estadístico objeto de estudio (se tomarán tantos intervalos traslapados como sean
necesarios para recubrir todo el recorrido de la variable).
Los extremos de los intervalos de clase se denominan límites inferior y superior  y 'i −1 − y 'i ) y
sus puntos medios yi marcas de clase (valor que nos representa la información que contiene un
intervalo).
Como cada observación debe quedar perfectamente encasillada en uno y sólo un intervalo de
clase, debemos decidir a qué intervalos pertenecen los extremos de las clases, por lo que habrán de
tomarse intervalos semiabiertos o tomando el extremo de cada clase con un decimal más que las
observaciones. Con el fin de que la clasificación esté bien hecha, los intervalos se deben construir de
manera que el límite superior de una clase coincida con el límite inferior de la siguiente, y además,
adoptando el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha.
Por otro lado tenemos la amplitud de cada intervalo, que puede ser constante o variable. Si
procuramos que todas las clases tengan la misma amplitud y los límites de cada clase sean números
redondos (múltiplos p. ej. de 5) conseguiremos simplificar mucho los cálculos (siempre y cuando no se
pierda demasiada información con estas consideraciones).
Debemos observar un hecho importante, se entiende que cuando hacemos una agrupación en
intervalos de clase, para nosotros solamente cuenta el número de observaciones que caen dentro de
cada uno de los intervalos y no la colocación en su interior, es decir, suponemos que la distribución de
estos valores en el intervalo es homogénea, en esto radica la pérdida de información que supone
agrupar los datos de las observaciones.
N°  y 'i−1 − y 'i ) yi ni Ni hi Hi
1  y '0 − y '1 )
y1 =
y '0 + y '1 n1 N1 = n1
h1 =
n1
H1 = h1 =
N1
2 n n
2  y '1 − y '2 )
y2 =
y '1 + y '2 n2 N2 = n1 + n2
h2 =
n2
H 2 = h1 + h2 =
N2
2 n n
k  y 'k −1 − y 'k ) yk =
y 'k −1 + y 'k nk Nk = n1 + n2 + + nk = n
hk =
nk
H k = h1 + h2 + + hk =
Nk
=1
2 n n
14
MAS DEFINICIONES
➢ RANGO (R): Es el intervalo en que se distribuyen los datos y se determina restándole el mayor
valor observado el menor valor observado:
R = XMax - XMin
➢ AMPLITUD DE CLASE: Para una distribución de frecuencias que tiene clases del mismo
tamaño, la amplitud de clase se obtiene restando el límite inferior de una clase del límite
superior de la misma clase: Ci = y 'i − y 'i −1
R
Si la tabla de distribución de frecuencias tiene amplitud constante entonces: C =
K
➢ MARCA DE CLASE (punto medio): punto que divide a la clase en dos partes iguales. Es el
promedio entre los límites superior e inferior de la clase.
y 'i −1 + y 'i
yi =
2
La marca de clase no es más que una forma abreviada de representar un intervalo
mediante uno de sus puntos. Por ello hemos tomado como representante, el punto medio del
mismo. Esto está plenamente justificado, si recordamos que cuando se mide una variable
continua como el peso, la cantidad con cierto número de decimales que expresa esta medición,
no es el valor exacto de la variable, sino una medida que contiene cierto margen de error, y por
tanto representa a todo un intervalo del cual ella es el centro.
CRITERIOS DE ELECCIÓN DE EL NÚMERO DE INTERVALOS DE CLASE Y LA

AMPLITUD
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios
problemas como son el número de intervalos a elegir y sus tamaños respectivos.
El número de intervalos, k, a utilizar y el tamaño de la amplitud, C no está determinado de
forma fija y por tanto tomaremos un k y el valor de C que nos permita trabajar cómodamente y ver
bien la estructura de los datos.
1. No existe ninguna ley que defina cómo obtener el número de intervalos de clase, pero la
experiencia recomienda que no sea menor que 5 ni mayor que 20. Por lo tanto, la amplitud de
R R
clase puede ser: C  .
20 5
2. Si n  25  k = 5 . Si n  25  k = n
15
R
Amplitud: C = yí − yí −1 = LS − LI o C=
k
3. Regla de Sturges: k = 1 + 3,32log n

R
Amplitud: C = yí − yí −1 = LS − LI o C=
k
Ejercicio
En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a la libra más próxima) de
los bebés nacidos durante un cierto intervalo de tiempo en un hospital:
3, 8, 4, 14, 8, 6, 7, 9,13, 8, 10, 9, 7, 11, 10, 8, 5, 9, 6, 2, 13, 6, 3, 7, 6, 9, 12, 4, 7, 12, 8, 8, 9, 15, 8, 9,
10, 8, 5, 8, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
Construir una distribución de frecuencias de estos pesos.
Solución: R = 15 − 2 = 13
R R 13 13
1. 20  C  5  20  C  5
0, 7  C  2, 6
2. n  25  k = n
n = 50  k = 50 = 7, 071  7
R 13
C= = = 1,8  2
k 7
3. Regla de Sturges: k = 1 + 3,32log n = 1 + 3,32log50 = 6,64 k 7

R 13
Amplitud: C = = = 1,8  2
k 7
N°  y 'i−1 − y 'i ) yi ni Ni hi Hi
1 2-4 3 3 3 0,06 0,06
2 4-6 5 7 10 0,14 0,20
3 6–8 7 12 22 0,24 0,44
4 8 – 10 9 17 39 0,34 0,78
5 10 – 12 11 5 44 0,10 0,88
6 12 – 14 13 4 48 0,08 0,96
7 14 - 16 15 2 50 0,04 1
50 1
16
GRÁFICOS
1. HISTOGRAMA
El histograma es la representación gráfica en el plano coordenado de las características
concentradas en la tabla de la distribución de una variable cuantitativa continua, que representa
frecuencias mediante el volumen de las áreas. Un histograma consiste en un conjunto de rectángulos
con:
(a) En el eje de las abscisas (horizontal) se representan las clases con centros en las marcas de clase y
longitudes iguales a los tamaños de los intervalos de clase.
(b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas o relativas.
En el caso de un histograma para intervalos desiguales sólo se señalizan los valores sobre el eje
horizontal, el eje vertical no tiene sentido porque las frecuencias corresponden al área de cada
rectángulo.
Formas típicas de histogramas relacionadas con curvas de frecuencias
En el siguiente apartado se presentan varias formas de histogramas que responden a patrones de

comportamiento típico. A su lado podemos encontrar curvas de frecuencia que aparecen normalmente
en la práctica y que se relacionan con estos histogramas ya que representan a datos con características
muy parecidas.
Histograma 1: corresponde a la forma de campana habitual que representa la variabilidad debida a

causas aleatorias. A su lado podemos apreciar una curva de frecuencias simétricas o en forma de
campana, se caracteriza porque las observaciones equidistantes del máximo central tienen la misma
frecuencia. En este caso corresponde con la curva de la normal o Gaussiana.
Histograma 2: con dos máximos diferenciados, responde a una distribución denominada bimodal y
se presenta cuando están mezclados datos de distinto origen centrados en valores distintos. De igual
manera la curva de frecuencia bimodal tiene dos máximos, ya que representan a la misma colección de
datos.
17
Histograma 3: se denomina, por su forma, sesgado a la derecha, y responde a la variabilidad que

presenta ciertas variables que no siguen una ley normal, como los tiempos de vida. En las curvas de
frecuencias poco asimétricas, o sesgadas, la cola de la curva a un lado del máximo central es más larga
que al otro lado. Si la cola mayor está a la derecha, la curva se dice asimétrica a la derecha o de
asimétrica positiva.
Histograma 4: parece faltarle una parte y por ello se le llama censurado o sesgado (en este caso, a
la izquierda). No representa una variabilidad natural y por tanto hay que sospechar que se han
eliminado algunos valores. Igual ocurre con las curvas de frecuencias poco asimétricas o sesgadas a la
izquierda o de asimetría negativa.
18
Histogramas 5: en el cual aparecen datos que no siguen el patrón de comportamiento general

(anomalías, errores, etc...). Su variabilidad puede atribuirse a alguna causa asignable que deberá ser
identificada y eliminada.
2. POLÍGONOS DE FRECUENCIA
El polígono de frecuencias es una representación gráfica de la distribución de frecuencias que
resulta esencialmente equivalente al histograma y se obtiene uniendo mediante segmentos los centros
de las bases superiores de los rectángulos del histograma (es decir, los puntos de las marcas de clase).
3. POLIGONO DE FRECUENCIA ACUMULADA U OJIVA

Su objetivo, al igual que el histograma y el polígono de frecuencias es representar distribuciones
de frecuencias de variables cuantitativas continuas, pero sólo para frecuencias acumuladas.
Se unen los extremos superiores de las bases superiores de los rectángulos de la distribución del
histograma de frecuencias acumuladas.
La diferencia con el polígono de frecuencia es que la frecuencia acumulada no se plotea sobre el
punto medio de la clase, sino al final de la misma, ya que representa el número de individuos
acumulados hasta esa clase. Como el valor de la frecuencia acumulada es mayor a medida que
19
avanzamos en la distribución, la poligonal que se obtiene siempre va a ser creciente y esa forma
particular de la misma es la que ha hecho que se le dé también el nombre de ojiva.
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN

INTRODUCCION
En este capítulo consideraremos datos correspondientes a un solo carácter, el cual, como antes
dijimos llamaremos variable estadística. Todo análisis estadístico se inicia con una primera fase
descriptiva de los datos, ésta tiene por objeto sintetizar la información mediante el cálculo de medidas
estadísticas o medidas resumen que hacen referencia al análisis de una sola variable (análisis
unidimensional).
MEDIDAS DE TENDENCIA CENTRAL

Aunque se organicen los datos en una forma útil y significativa es preciso disponer de los datos
de forma tal que puedan presentarse proposiciones cuantitativas (Haber y Runyon, 1992). Una forma
útil de describir a un grupo en su totalidad es encontrar un número que lo represente (Levin, 1979). Se
ha observado que una de las características que se presenta en múltiples distribuciones de frecuencias
es que los datos se acumulan alrededor de un valor central situado entre los dos extremos de la variable
que se estudia (Haber y Runyon, 1992). En la investigación social, ese valor se conoce como una
medida de tendencia central, ya que está generalmente localizada hacia el medio o centro de una
distribución en la que la mayoría de los puntajes tienden a concentrarse (Levin, 1979). La tendencia
central es un índice de localización central empleado en la descripción de las distribuciones de
frecuencias. La capacidad de localizar un punto de tendencia central puede ser muy útil para el
investigador. Por ejemplo, podrá reducir una masa de datos a un simple valor cuantitativo que llegará
a ser comprendido y comunicado a otros especialistas.
Puesto que el centro de una distribución puede ser definido de diferentes maneras, habrá también
diferentes medidas de tendencia central. Las medidas de tendencia central comúnmente empleadas
son:
Media aritmética
20
Mediana
Moda
Media geométrica
Media armónica
Los fractiles – Cuartil, Decil y Percentil
MEDIA ARITMÉTICA
MEDIA ARITMÉTICA O PROMEDIO

La media aritmética o promedio es la medida de tendencia central comúnmente utilizada.
Es el centro de gravedad, el punto alrededor del cual los valores se aglutinan. Usted
probablemente estará íntimamente familiarizado con la media, porque siempre que obtiene un
"promedio" de calificaciones (notas) donde suman los valores de las notas y se divide por el número
total de notas se calcula la media aritmética.
La media aritmética es la sumatoria de todos los valores observados dividida entre el número
de valores que se sumaron. La media aritmética obtenida de la población se representa con la letra
griega μ y la media aritmética obtenida de la muestra se representa con la letra latina X .
➢ Media para datos no agrupados: Para datos no agrupados, la media de una muestra es la
suma de todos los valores divididos entre el número total de los mismos:
n
x i
x1 + x2 + ....... + xn
X = i =1
=
n n
Ejemplo
Una variable de interés en un estudio del cangrejo Xanthidae (pequeño cangrejo que habita en las
proximidades de Gloucester Point, Virginia) es el número de huevos puestos por individuo. Las
siguientes son las observaciones obtenidas para 45 cangrejos: 1959, 4534, 2802, 2462 y 3412. Calcular
el número medio de huevos puestos.
Solución
n
x i
1959 + 4534 + 2802 + 2462 + 3412
X = i =1
=
n 5
X = 3033,8 huevos
21
➢ Media para datos agrupados - Si los datos vienen agrupados en una tabla de frecuencias, la
k
n y i i
n1 y1 + n2 y2 + ....... + nk yk
expresión de la media es: Y = i =1
=
n n
Ejemplo
1. Una muestra de diez mercados dio el número total de infectados por COVID-19. Calcule el número
medio de infectados.
yi ni Ni ni yi
0 1 1 0
1 2 3 2
2 4 7 8
3 2 9 6
4 1 10 4
total 10 20
Solución:
n
 ni yi
20
i =1
Y = = = 2
n 10
2. En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a la

libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital
 y 'i−1 − y 'i ) yi ni yi ni
2 - 4 3 3 9
4 - 6 5 7 35
6 - 8 7 12 84
8 - 10 9 17 153
10 - 12 11 5 55
12 - 14 13 4 52
14 - 16 15 2 30
50 418
¿Calcular el peso medio de los bebes?
Solución:
n
 ni yi
418
i =1
Y = = = 8,36
n 50
22
MEDIA PARA SUBMUESTRAS
Sean X 1 , X 2 , ....., X m muestras de tamaños n1 , n2 , ....., nm . La media

m
m n X j j
aritmética de las n = n j es X = j =1
m
.
j =1
n j =1
j
MEDIA ARITMÉTICA PONDERADA

La media aritmética ponderada exige multiplicar cada valor de la variable por un número que
expresa la significación mayor o menor que tiene dentro del conjunto de valores observados. Estos
números se denominan pesos o ponderaciones. Debe tenerse bien presente que tales números no son
frecuencias:
m
w i xi
Xp = i =1
m
w
i =1
i
Ejemplo
- Supongamos tres variedades de naranja, que se venden a 6, a 8 y a 9 pesos. El precio medio (media
6+8+9
aritmética simple) es: X = = 7, 66
3
- Si las cantidades de cada clase de naranja son, respectivamente, 125, 72 y 3 la media ponderada es:
6x125+8x72+3x9
Xp =
125+72+3
PROPIEDADES DE LA MEDIA ARITMÉTICA

1. Todo conjunto de datos cuantitativos tiene un valor medio.
2. Al evaluar la media se incluyen todos los valores.
3. Los valores extremos influyen en la media aritmética y en algunos casos pueden distorsionarla
tanto que resulte inconveniente como una medida de tendencia central.
4. Un conjunto de valores sólo tiene una media.
5. La cantidad de datos a evaluar rara vez afecta la media.
6. M  c  = c
7. M  cX  = c M  X 
8. M  aX  b  = a M  X   b
23
9. La media es la única medida de ubicación donde la suma de las desviaciones de cada valor con
n
respecto a la media, siempre es cero: ( x − X ) = 0 .
i =1
i
10. La media aritmética de los valores de una variable no varía si todas las frecuencias de su
distribución se multiplican o dividen por un mismo número.
MEDIANA
La mediana, a diferencia de la media no busca el valor central del recorrido de la variable según
la cantidad de observaciones, sino que busca determinar el valor que tiene aquella observación que
divide la cantidad de observaciones en dos mitades iguales. Por lo tanto es necesario atender a la
ordenación de los datos, y debido a ello, este cálculo depende de la posición relativa de los valores
obtenidos. Es necesario, antes que nada, ordenar los datos de menor a mayor (o viceversa).
Primer caso - Variable discreta y n impar
La mediana es el valor del dato central, es decir M e = X n +1
2
Ejemplo
Calcule la mediana para la edad de una muestra de cinco estudiantes: 21, 25, 19, 20 y 22.
Solución:
Al ordenar los datos de manera ascendente y es n impar quedan: 19, 20, 21, 22, 25 entonces la mediana
es 21.
Segundo caso - Variable discreta y n par

La mediana es el valor el valor de la semisuma de los valores de los dos datos centrales, es decir
Xn + Xn
+1
Me = 2 2
2
Ejemplo
1. Los siguientes datos corresponden la cantidad de hemoglobina en el primer trimestre de 8 mujeres
gestantes 11,4; 11,1; 11,2; 11,3; 11,2; 11,4; 11,5; 11,2 gr/lt
Solución:
Ordenando los datos de mayor a menor valor: 11,1; 11,2; 11,2; 11,2; 11,3; 11,4; 11,4; 11,5. Se observa
que en la parte central de los datos no hay dato alguno por lo que la mediana se determina con el
promedio de los datos subrayados, entonces:
X4 + X5
Me =
2
24
11, 2 + 11,3
Me = = 11, 25 gr/lt
2
2. Una muestra de diez mercados dio el número total de infectados por COVID-19. Calcule la
mediana de los infectados.
xi ni N
0 1 1
1 2 3
2 4 7
3 2 9
4 1 10
total 10
Solución:
Xn + Xn
+1
Como n es par: M e = 2 2
2
- Primero se debe calcular las posiciones:
n 10 n 10
= = 5 y +1 = + 1 =6
2 2 2 2
Luego ubicar estas posiciones en las frecuencias absolutas acumuladas de la tabla de distribución de
frecuencias y reemplazar en la fórmula:
Xn + Xn
+1 2 + 2
Me = 2 2
= = 2
2 2
Nota: Es imprescindible para calcular el valor de la mediana el que primero se ordenen los datos en
cuanto a su magnitud, ya que, de no hacerlo se incurriría en un grave error.
Tercer caso - Variable continua

Cálculo a partir de frecuencias absolutas: La mediana se ubicará en el intervalo donde las frecuencias
absolutas toman el valor n / 2 ; que es lo mismo que decir que la mediana de una distribución se
ubicará el intervalo en el cual la frecuencia absoluta acumulada alcanza el 50% de los datos.
n 
 − Ni −1 
Por lo tanto, la fórmula para calcular la mediana sería: M e = yi' −1 + C  
2
( Ni − Ni −1 )
1 
 − H i −1 
- Cálculo a partir de la frecuencia relativa: M e = yi' −1 + C  
2
( H i − H i −1 )
25
Ejemplo:
En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a la libra
más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital
 y 'i−1 − y 'i ) yi ni Ni
2 - 4 3 3 3
4 - 6 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
¿Calcular la mediana del peso de los bebés recién nacidos?
Solución:
n 
 − Ni −1 
M e = yi' −1 + C 
2  = 8 + 2 ( 25 − 22 ) = 8,35
( Ni − Ni −1 ) ( 39 − 22 )
PROPIEDADES DE LA MEDIANA
1. La mediana es única para cada conjunto de datos.
2. No se ve afectada por valores muy grandes o muy pequeños, y por lo tanto es una medida valiosa de
tendencia central cuando ocurren.
3. Puede obtenerse para datos de nivel de razón, de intervalo y ordinal. Puede calcularse para una
distribución de frecuencias con una clase de extremo abierto, si la mediana no se encuentra en una de
estas clases.
MODA
La moda se define como aquel valor o valores que más se repiten o que tienen mayor
frecuencia entre los datos que se han obtenido en una muestra, la muestra de una población nos genera
la distribución de los datos una vez que estos se han graficado y en esta gráfica es posible observar la
moda o modas de la misma, es por esto que una distribución de datos puede ser amodal (carece de
moda), unimodal (tiene una sola moda), bimodal (tiene dos modas) o polimodal (tiene más de dos
modas).
La medida de tendencia central más fácil de obtener es la moda. Esto es cierto debido a que la
moda puede encontrarse simplemente por inspección más que por cálculos (Levin, 1979).
En el caso de que la variable sea continua se utiliza la siguiente expresión para calcular la
moda:
26
 1 
M 0 = y 'i −1 + c  donde: 1 = ni − ni −1 2 = ni − ni +1
 1 +  2 
Ejemplo
1. Las calificaciones de un examen de diez estudiantes son: 81, 93, 84, 75, 68, 87, 81, 75, 81, 87.
Solución
Como la calificación 81 es la que más ocurre, la calificación modal es 81, M 0 = 81
2. Una muestra de diez cines en una gran área metropolitana dio el número total de películas
exhibidas la semana anterior. Calcule la moda de las películas proyectadas.
xi ni
0 1
1 2
2 4
3 2
4 1
total 10
Solución:
Como el número de películas que tiene mayor frecuencia es 2, entonces:
M0 = 2
libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital
 y 'i−1 − y 'i ) ni
2 - 4 3
4 - 6 7
6 - 8 12
8 - 10 17
10 - 12 5
12 - 14 4
14 - 16 2
50
Calcular el peso de los bebés recién nacidos que está de moda.
Solución
1 = ni − ni−1 = 17 − 12 = 5 2 = ni − ni +1 = 17 − 5 = 12
 1   5 
M 0 = y 'i −1 + c   = 8 + 2  = 8,59
 1 +  2   5 + 12 
27
RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA

Las distribuciones pueden describirse según la forma que asume su gráfica. Cuando se
construye el polígono de frecuencias la gráfica tiene una forma que puede ser simétrica o asimétrica.
Distribuciones simétricas: Se dice que la distribución es simétrica si se puede dividir en dos

mitades que parecen ser la imagen una de la otra. En estos casos las frecuencias en los extremos de la
distribución son idénticas es decir el sesgo es cero. También en distribuciones unimodales cuando la
media, la moda y la mediana coinciden la distribución es simétrica.
Distribuciones asimétricas: Se dice que la distribución unimodal es asimétrica cuando la media, la

moda y la mediana no coinciden.
Distribución asimétrica sesgada hacia la derecha - Si la distribución tiene algunos valores extremos
altos, entonces en la gráfica se nota una cola larga y fina hacia la derecha de la distribución y cuando
en distribuciones unimodales, la media es mayor que la mediana y estas a la vez son mayores que la
moda entonces, se dice que la distribución está sesgada positivamente o que tiene un sesgo a la
derecha.
Distribución asimétrica sesgada hacia la izquierda - Si la distribución tiene algunos valores extremos
muy bajos, entonces en la gráfica se nota una cola larga y fina hacia la izquierda de la distribución y
cuando en distribuciones unimodales, la media es menor que la mediana y estas a su vez son menores
que la moda entonces, se dice que la distribución está sesgada negativamente o que tiene un sesgo a la
izquierda.
28
FRACTILES
CUARTIL
La mediana, como vimos separa en dos mitades el conjunto ordenado de observaciones.
Podemos aún dividir cada mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de
esas divisiones se conoce como Cuartil y lo simbolizaremos mediante la letra Q agregando un
subíndice según a cuál de los cuatro cuartiles nos estemos refiriendo.
De aquí diremos que el cuartil divide al conjunto de observaciones en cuatro partes iguales.
- Se llama primer cuartil Q1 a la mediana de la mitad que contiene los datos más pequeños. Este
cuartil, corresponde al menor valor que supera – o que deja por debajo de él- a la cuarta parte de los
datos.
- Se llama segundo cuartil Q2 a la mediana.
- Se llama tercer cuartil Q3 a la mediana de la mitad formada por las observaciones más grandes. El
tercer cuartil es el menor valor que supera – o que deja por debajo de él- a las tres cuartas partes de las
observaciones.
Qj = X n + 1 para j = 1, 2 y 3
x j
4

X jn + X j n
+ 1
Qj = 4 4
para j = 1, 2 y 3
2
 jn 
 − Ni −1 
Q j = y 'i −1 + C  4  para j = 1, 2, 3
( Ni − Ni −1 )
29
Ejemplo
Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles.
yi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solución:
Xn + Xn
+ 1 X 25 + X 26 2+2
1. Primer cuartil: Q1 = 4 4
= = =2
2 2 2
X2n + X 2n
+ 1 X 50 + X 51 3+3
2. Segundo cuartil: Q2 = 4 4
= = =3
2 2 2
X3n + X 3n
+ 1 X 75 + X 76 3+3
3. Tercer cuartil: Q3 = 4 4
= = =3
2 2 2
Ejemplo:
 y 'i−1 − y 'i ) yi ni Ni
2 - 4 3 3 3
4 - 6 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
Calcular el segundo cuartil del peso de los bebés recién nacidos
30
Solución:
 jn 
 − Ni −1 
Q j = yi' −1 + C  
4
( Ni − Ni −1 )
Q2 = 8 + 2
( 25 − 22 ) = 8,35
( 39 − 22 )
DECIL
Divide al conjunto de observaciones ordenadas en diez partes iguales
Dj = X n + 1 para j = 1, 2, …., 9
x j
10

Xj n +Xj n
+ 1
Dj = 10 10
para j = 1, 2, …., 9
2

 jn 
 − Ni −1 
D j = y 'i −1 + C  
10
para j = 1, 2, …., 9
( Ni − Ni −1 )
Ejemplo:
 y 'i−1 − y 'i ) yi ni Ni
2 - 4 3 3 3
4 - 6 5 7 10
6 - 8 7 12 22
8 - 10 9 17 39
10 - 12 11 5 44
12 - 14 13 4 48
14 - 16 15 2 50
50
Calcular aquel peso que es mayor que el 80% de los pesos de los bebés recién nacidos.
31
Solución
 jn 
 − Ni −1 
D j = yi' −1 + C  
10
( Ni − Ni −1 )
D8 = 10 + 2
( 40 − 39 ) = 10, 40
( 44 − 39 )
PERCENTIL
Divide al conjunto de observaciones ordenadas en 100 partes iguales
Pj = X n + 1 para j = 1, 2, …., 99
x j
100

Xj n +Xj n
+ 1
Pji = 100 100
para j = 1, 2, …., 99
2

 jn 
 − Ni −1 
Pj = y 'i −1 + C  
100
para j = 1, 2, …., 99
( Ni − Ni −1 )
MEDIDAS DE DISPERSION
Una de las funciones de la estadística se relaciona con el cálculo de la variabilidad. Conocer
las medidas de dispersión (variación) es de suma importancia, ya que la no consideración de
diferencias puede conducir a errores de juicio en la toma de decisiones (Sánchez, 1992). Una medida
particular de tendencia central da lugar a un valor que, en cierto sentido, "representa" a todos los
valores que toma la variable estadística en estudio (Glass & Stanley, 1974). Sin embargo, cuando se
usa cualquier medida de tendencia central, ésta nos da sólo un cuadro incompleto de un conjunto de
datos y, por consiguiente, podría conducir a conclusiones erróneas o distorsionadas (Levin, 1979),
porque este proceso pasa por alto las diferencias entre las puntuaciones en sí (Glass & Stanley, 1974).
Sería incorrecto concluir que dos conjuntos de datos son iguales sólo porque tienen las mismas
medidas de tendencia central, es decir, que el valor de la media aritmética sea el mismo para ambos
conjuntos cuando la distancia de los datos de ambos conjuntos se distribuyen de una forma diferente
(Elorza, 1987).
32
Para describir una distribución en forma más completa o para interpretar con más detalle una
calificación, necesitamos información adicional acerca de la dispersión de las calificaciones con
respecto a nuestra medida de tendencia central (Haber & Runyon, 1992). Es necesario un índice de
cómo están diseminados los valores alrededor del centro de la distribución. A tales distancias se les
suele denominar medidas de dispersión o variación.
Las medidas de dispersión, también conocidas como medidas de variación o variabilidad,
indican el grado en que los sujetos se dispersan respecto al centro de la distribución. A través de las
mismas el investigador verifica cuán homogéneos, parecidos o estables son los elementos bajo estudio,
en contraste con otros grupos de interés (Sánchez, 1992). Si todos los valores son los mismos, no
existe dispersión; si no todos son los mismos, hay dispersión en los datos. La magnitud de la
dispersión puede ser pequeña, cuando los valores, aunque diferentes, están próximos entre sí y si los
valores están ampliamente separados, la dispersión es mayor.
Las medidas de dispersión o variabilidad más conocidas son:

Rango o recorrido
Varianza y Desviación estándar
Coeficiente de variación
RANGO
Una manera de medir la variación en un conjunto de valores es calculando el rango. El rango
es la más sencilla y directa de las medidas de dispersión (Runyon & Haber, 1992) y a la vez la menos
confiable (Sánchez, 1992). Se trata simplemente de la distancia entre el valor menor y el valor mayor
en un conjunto de observaciones. El hecho de que sólo tome en consideración dos valores, hace que la
medida sea muy pobre. Nótese que, si hay un valor extremo en la distribución, se tendrá la impresión
de que la dispersión es grande cuando, en realidad, si hiciéramos caso omiso de esa calificación,
podríamos encontrar que dicha distribución es, por el contrario, una distribución "compacta". El rango
o recorrido refleja únicamente las dos calificaciones extremas de la distribución (Runyon & Haber,
1992), es decir, solamente dos puntuaciones exactas de un grupo son las que los determina, ignorando
así, todas las demás puntuaciones.
El rango no puede darnos una idea precisa con respecto a la dispersión y en el mejor de los
casos, debe considerarse sólo como un índice preliminar o muy aproximado (Levin, 1977). Puede
expresarse de la siguiente manera:
R = XMax - XMin
33
Xmax = valor máximo de los datos observados

Xmin = valor mínimo de los datos observados
VARIANZA Y DESVIACIÓN ESTÁNDAR

La desviación estándar es la medida de dispersión más adecuada para la estadística descriptiva
(Haber & Runyon, 1992). Tanto en la escala de intervalo como en las de razones, la varianza y la
desviación estándar son las mejores medidas de dispersión. Toman en consideración todos los valores
y controlan por el efecto de valores extremos. La desviación estándar permite una interpretación
precisa de las calificaciones dentro de una distribución (Runyon & Haber, 1992). Si todos los sujetos
son iguales en una característica (por ejemplo, índice académico), entonces el resultado será igual a
cero. Por el contrario, si aumentan las diferencias, aumentará el índice, alejándose más y más del
punto cero. La varianza se define como las desviaciones cuadradas medias respecto a la media.
VARIANZA
La varianza también está definida como el promedio de las diferencias elevadas al cuadrado
entre cada valor que se tiene en la muestra (xi) y la media aritmética X .
(x − X )
i
2
1  k 2 
- Varianza para datos no agrupados: S 2 = =   xi − nX 2 
n −1 n − 1  i =1 
k
 ni ( yi − Y )2
1  k 2
  ni yi − nY 
i =1
- Varianza para datos agrupados: S2 = = 2
n −1 n − 1  i =1 
m m
 (n − 1)S +  n ( X
i i
2
i i − X )2
- Varianza para submuestras: S2 = i =1 i =1
n −1
Ejemplo:
1. Los siguientes datos son la cantidad de glucosa en miligramos encontrada en muestras de sangre de
algunos pacientes, 14.2, 12.1, 15.6, 18.1, 14.3, determine su varianza.
Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como ya se ha hecho
anteriormente.
− 14.2 + 12.1 + 15.6 + 18.1 + 14.3 74.3
x= = = 14.86mg
5 5
34
2 2 2
( 14.2 − 14.86 ) + ( 12.1 − 14.86 ) + .... + ( 14.3 − 14.86 )
s2 = =
5 −1
0.4356 + 7.6176 + 0.5476 + 10.4976 + 0.3136 19.412 2

s2 = = = 4.853mg
4 4

libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital. Calcular
la varianza del peso de los bebés recién nacidos.
Solución
 y 'i−1 − y 'i ) yi ni ni yi2

2 - 4 3 3 27
4 - 6 5 7 175
6 - 8 7 12 588
8 - 10 9 17 1377
10 - 12 11 5 605
12 - 14 13 4 676
14 - 16 15 2 450
50 3898
k
 ni ( yi − Y )2
1  k 2
S2 = i =1
n −1
=   ni yi − nY  =
n − 1  i =1
2 1
( )
3898 − 8,362 = 78,12lb2
 49
Desviación estándar
Es la desviación o diferencia promedio que existe entre cada valor de la muestra y la media aritmética
de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.
S = S2
Ejemplo
Por tanto la desviación estándar de los ejercicios anteriores serían:
1. S = S 2 = 4,853 = 2, 20 mg
La interpretación de este resultado sería, que la cantidad de glucosa encontrada en la muestra es en
promedio de 14.86 miligramos y que la cantidad de glucosa en la muestra se aleja o dispersa en
promedio 2.20 mg alrededor de la media.
2. S = S 2 = 78,12 = 8,84 lb
Existe una dispersión de 8,84 lb en el peso de los bebés recién nacidos respecto al promedio.
35
COEFICIENTE DE VARIACION
Otra medida de dispersión que se suele utilizar es el coeficiente de variación (CV). Es una
medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la
media y multiplicando el cociente por 100.
S
CV = x 100%
X
Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más
grupos o comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de
escala. Sirve para comparar variables que están a distintas escalas pero que están correlacionadas
estadísticamente y sustantivamente con un factor en común. Es decir, ambas variables tienen una
relación causal con ese factor.
Es importante que todos los valores sean positivos y su media por tanto un valor positivo. A
mayor valor de C.V. mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor
homogeneidad en los valores de la variable
Ejemplo
Si tenemos el peso de 5 pacientes 70, 60, 56, 83 y 79 Kg y la TAS de los mismos 150, 170, 135, 180 y
195 mmHg. ¿Qué distribución es más dispersa, el peso o la tensión arterial?
Solución:
X peso = 69, 6 S peso = 11, 675
X TAS = 166 STAS = 23,822
Si comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial
(TAS) es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de
medidas diferentes, por lo que calculamos los coeficientes de variación:
S 11, 675
CVpeso = = = 0,168
X 69, 6
S 23,822
CVTAS = = = 0,1435
X 166
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
36

Separata 1 PDF

Cargado por

Copyright:

Formatos disponibles

Separata 1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Separata 1 PDF

Cargado por

Copyright:

Formatos disponibles

Fundamentos de Probabilidad Mgt. Rina M.

PRIMERA UNIDAD DIDACTICA

La estadística se clasifica en estadística descriptiva y estadística inferencial.

DETERMINACIÓN DE LA POBLACIÓN Y MUESTRA

Tamaño muestral: Es el número de elementos u observaciones que tomamos en la muestra, se

Un procedimiento estadístico descriptivo no hace referencia a muestra ni a población. Los

o ESTADÍGRAFO – Un estadístico o estadígrafo es una medida resumen cuyo valor se puede

ETAPAS DEL METODO ESTADISTICO

PLANTEAMIENTO DEL PROBLEMA

FIJACIÓN DE LOS OBJETIVOS

PROPÓSITO Y JUSTIFICACIÓN DE LA INVESTIGACIÓN

comunidad y si se tratará del de la educación, como la misma contribuye al proceso enseñanza

FORMULACIÓN DE LAS HIPÓTESIS

DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE MEDIDA

Población y muestra: Se describe la población y el lugar donde se llevará a cabo la investigación y si

CRITICA, CLASIFICACIÓN Y ORDENACIÓN

DISCUSIÓN Y ANÁLISIS DE RESULTADOS

TÉCNICAS PARA LA OBTENCIÓN DE DATOS

El registro: Consiste en recoger información sobre determinadas variables en forma sistemática y

INSTRUMENTOS PARA LA RECOLECCIÓN DE DATOS

Planilla de recolección de datos: Es un instrumento muy utilizado con la finalidad de facilitar la

DISTRIBUCION DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS

inferior y y 'i es el límite superior del intervalo.

Así tenemos los siguientes tipos de frecuencia:

Llamamos tamaño muestral al número de observaciones realizadas, es

Llamamos frecuencia absoluta de un valor yi de la variable estadística

Llamamos frecuencia absoluta acumulada en el valor yi a la suma de

Llamamos frecuencia relativa de un valor yi de la variable estadística

Llamamos frecuencia relativa acumulada en el punto yi al cociente

TABLAS DE DISTRIBUCION DE FRECUENCIAS PARA DATOS DISCRETOS

TABLAS DE DISTRIBUCION DE FRECUENCIAS PARA DATOS CONTINUOS

CRITERIOS DE ELECCIÓN DE EL NÚMERO DE INTERVALOS DE CLASE Y LA

3. Regla de Sturges: k = 1 + 3,32log n

3. Regla de Sturges: k = 1 + 3,32log n = 1 + 3,32log50 = 6,64 k 7

Formas típicas de histogramas relacionadas con curvas de frecuencias

En el siguiente apartado se presentan varias formas de histogramas que responden a patrones de

Histograma 1: corresponde a la forma de campana habitual que representa la variabilidad debida a

Histograma 3: se denomina, por su forma, sesgado a la derecha, y responde a la variabilidad que

Histogramas 5: en el cual aparecen datos que no siguen el patrón de comportamiento general

3. POLIGONO DE FRECUENCIA ACUMULADA U OJIVA

MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN

MEDIDAS DE TENDENCIA CENTRAL

MEDIA ARITMÉTICA O PROMEDIO

2. En la siguiente tabla de distribución de frecuencias, se proporcionan los pesos (redondeados a la

MEDIA PARA SUBMUESTRAS

Sean X 1 , X 2 , ....., X m muestras de tamaños n1 , n2 , ....., nm . La media

MEDIA ARITMÉTICA PONDERADA

PROPIEDADES DE LA MEDIA ARITMÉTICA

Segundo caso - Variable discreta y n par

Tercer caso - Variable continua

Calcular el peso de los bebés recién nacidos que está de moda.

RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA

Distribuciones simétricas: Se dice que la distribución es simétrica si se puede dividir en dos

Distribuciones asimétricas: Se dice que la distribución unimodal es asimétrica cuando la media, la

Segundo caso - Variable discreta y n par

Calcular el segundo cuartil del peso de los bebés recién nacidos

Segundo caso - Variable discreta y n par

Tercer caso - Variable continua

Segundo caso - Variable discreta y n par