Medidas de Dispersión DA

4
SEMESTRE
Estadística y
Probabilidades
Tecnologías de la Información
Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

EVOLUCIÓN DE LA ESTADÍSTICA EN EL TIEMPO
La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un proceso largo
de desarrollo y evolución, desde hechos de simple recolección de datos hasta la diversidad y
rigurosa interpretación de los datos que se dan hoy en día.
La palabra estadística proviene del latín “statisticus” que significa “del Estado”; es decir,
correspondiente al gobierno. Por mucho tiempo, la estadística se refería a información numérica
sobre los estados o territorios políticos. Como se conoce hoy en día, requirió de varios siglos para
desarrollarse y de la intervención de muchas personas, teniendo como impulso la resolución de
problemas prácticos planteados por la dinámica social de la época y teniendo siempre como objeto
de estudio a la variación, es decir, la motivación la ha constituido el análisis de los valores que
toman las diferentes variables de estudio a través de las cuales se analiza una población.
La historia de la estadística se puede resumir en tres etapas. A continuación, se presentan los

aspectos más importantes de cada una:
Primera Etapa: Los Censos
Desde que los pueblos se organizaron como Estados, sus gobernantes necesitaron estar
informados sobre aspectos relativos a la cantidad o distribución de la información, nacimientos o
defunciones, producción agrícola o ganadera, bienes muebles, bienes inmuebles, efectivos
militares, etc., con el objeto de recaudar impuestos o de analizar las condiciones de vida de la
población, la estadística se convierte entonces en un importante instrumento del Estado.
Desde el momento en que se constituye una autoridad política, la necesidad de realizar inventarios
de una forma regular a la población y las riquezas existentes en el territorio está ligada a la
conciencia de soberanía y a los primeros esfuerzos administrativos.
Génesis de la Estadística: Con base en los descubrimientos y sus evidencias sobre la recolección
de datos referentes a población, bienes y producción, los orígenes de la estadística se remontan a
civilizaciones muy antiguas tales como la Babilónica (5,000 años a.C.), Egipcia (3,000 años a.
C.), China (2,200 años a.C.), Hindú (400 años a.C.), Romana (400 años a.C.), Griega (300 años
a.C.). No hay que olvidar que fue un censo lo que motivó el viaje de José y María a Belén, trayecto
en el cual nace Jesús.
Por más de mil años, posteriores a la caída del imperio romano de occidente, se puede decir que,

salvo excepciones (Guillermo el conquistador, recopiló el libro del Gran Catastro, un documento
de la propiedad, extensión y valor de las tierras de Inglaterra, y los trabajos similares impulsados
por Carlomagno en Francia), no se presentaron avances significativos en el desarrollo de la
estadística.
El primer censo del que se tiene noticia en México, data del año 1,116, cuando el rey Chichimeca
Xólotl ordenó que fueran contados todos sus súbditos, totalizando 3,200,000 personas. En 1794,
según noticias enviadas al Virreinato, la Intendencia de Sonora, contaba con 20,473 varones y
17,832 mujeres, o sea un total de 38,305 individuos.
Segunda Etapa: De la descripción de los conjuntos a la Aritmética

Política
La estadística da un gran salto cualitativo a mediados del siglo XVII,

debido a que los datos recopilados empiezan a ser utilizados por los
bancos y por las nacientes compañías de seguros europeas; por otro lado,
se inventa en Inglaterra el concepto de “Aritmética Política” y se
empiezan a “matematizar” otras disciplinas, que hasta entonces eran sólo
descriptivas, tales como la demografía, la economía y las ciencias
sociales.
Para los aritméticos políticos, la estadística era el arte de gobernar, su

John Graunt
función era de servir de ojos y oídos al gobierno. En esta época proliferan
(1620-1674)
las tablas numéricas, lo cual permitió observar la frecuencia de distintos
sucesos y el descubrimiento de leyes estadísticas. Son ejemplos notables los estudios de John
Graunt sobre tablas de mortalidad y esperanza de vida, y los de Edmund Halley para resolver el
problema de las rentas vitalicias de las compañías de seguros.
John Graunt encabeza una tendencia conocida como Estadística Investigadora. Buscaban fijar en
números los fenómenos sociales y políticos cuyas leyes empíricas procuraban. Para su tiempo esto
fue atrevido, casi imposible; pero el mérito de ellos es de ser los primeros en buscar las leyes
cuantitativas que rigen la sociedad.
Gracias a Vito Seckendorff, y sobre todo de German Conring al que se le considera como fundador
de la Estadística: la descripción de los hechos notables de un Estado. Conring perfeccionó y
mejoró notablemente la tendencia nueva, sistematizando los conocimientos y los datos. El mejor
de sus seguidores fue Godofredo Achenwall, quien consolidó definitivamente los postulados de
esta nueva ciencia y también de haberle dado el nombre de Estadística.

Tercera Etapa: Estadística y Cálculo de Probabilidades
Otro impulso más al desarrollo de la estadística y la probabilidad

es debido a los trabajos realizados por Jakob Bernoulli y Siméon
Denis Poisson sobre las leyes de los grandes números. Este
teorema fue el primer intento para deducir medidas estadísticas a
partir de probabilidades individuales. El problema de ajustar
modelos matemáticos a datos recopilados, recibió gran interés
por extraordinarios matemáticos, durante los siglos XVIII y XIX,
tales como Leonard Euler, Thomas Simpson, Joseph Louis
Lagrange, Adrien Legendre. En particular Karl Friedrich Gauss
y Pierre Simon de Laplace desarrollaron la teoría de los errores
en las mediciones y junto con Legendre, la teoría de los mínimos
cuadrados, la estadística logra con estos descubrimientos, una Karl Friedrich Gauss
relevancia científica creciente. (1777-1855)
Poco a poco se han creado sociedades e institutos estadísticos para organizar los datos
seleccionados; la primera de ellas surge en Francia en 1800. Esto ha permitido comparar las
estadísticas de cada país con relación a los demás, con el propósito de saber qué factores influyen
en el crecimiento económico. Esto promovió el surgimiento del primer congreso internacional de
estadística, efectuado en Bruselas en 1853 y organizado por Lambert Adolphe Jaques Quetelet,
quien aplica la estadística a las ciencias sociales e implementa el método estadístico de su época
a las diversas ramas de la ciencia.
En 1882 se creó en nuestro país la Dirección General de Estadística (DGE), el antecedente de lo

que hoy es el INEGI. El decreto en cuestión hacía constar que esta oficina debía encargarse de
“pedir, compilar, clasificar y publicar periódicamente, por cuadros comparativos, todos los datos
concernientes a este ramo”, refiriéndose a los de fomento, colonización, industria y comercio.
Con el objetivo de homogenizar los métodos utilizados en la recopilación y procesamiento de la

información, así como en la interpretación de resultados, nace en 1885, el Instituto Internacional
de Estadística, que invita a los gobiernos de todos los países, al uso correcto de la estadística en la
solución de problemas económicos y sociales.

Una vez sentadas las bases de la teoría de la probabilidad, el nacimiento de la estadística moderna
y su empleo en el análisis de experimentos, se puede situar en los trabajos de Francis Galton,
concibiendo el método de regresión y correlación, y Karl
Pearson, que publicó en 1892 el libro The Grammar of Science,
un clásico en la filosofía de la ciencia y fue él quien ideó el
conocido test de chi2. Pero es Ronald Arnold Fisher, sin lugar a
dudas, la figura más influyente de la estadística moderna,
situándola como una poderosa herramienta para la planificación
y análisis de experimentos. Fue pionero en el desarrollo de
numerosas técnicas de análisis estadísticos y en la introducción
de métodos para la estimación de parámetros, desarrolló la
teoría de muestras pequeñas bajo normalidad, que con el
Ronald Arnold Fisher nombre de análisis de varianza y covarianza, tuvo un gran
(1890-1962)
impacto en la teoría y aplicación de la estadística. Su libro
Statistical Methods for Research Workers publicado en 1925 ha sido probablemente el libro de
estadística más utilizado durante mucho tiempo.
Un ejemplo evidente que muestra que los desarrollos de la estadística han surgido como respuesta
a necesidades prácticas, son los trabajos desarrollados por William Sealy Gosset abordando
problemas sobre variedades de cebada y concibiendo su famosa distribución “t de Student”, sus
trabajos fueron completados y formalizados por Fisher. El hijo de Karl Pearson, Egon Pearson y
el matemático Jerzy Neyman pueden considerarse los fundadores de las pruebas modernas de
contraste de hipótesis.
Es importante citar la participación activa y fructífera de matemáticos y estadísticos rusos que

con su aportación e influencia han permitido desarrollar y formalizar los métodos y teorías de la
probabilidad y la estadística, cabe destacar las figuras de Pafnut Chebychev y Andrei Markov y
posteriormente, Alexander Khinchi y Andrey Kolmogorov. Actualmente se puede decir que la
Estadística es la ciencia que proporciona métodos para recopilar, organizar, presentar, resumir,
analizar e interpretar información y poder tomar decisiones con cierto grado de confiabilidad.
Hoy, la Estadística, junto con el cálculo de probabilidades, constituyen una rama fundamental de
las matemáticas, con aplicaciones en casi todas las actividades humanas: física, astronomía,
biología, genética, medicina, agricultura, química, y muchas más; en todas estas ciencias se hacen
predicciones, encuestas, controles de calidad, estimaciones o verificaciones de hipótesis con
respecto a parámetros poblacionales, todo ello ha permitido lograr avances científicos y
tecnológicos; que a través de los años, han coadyuvado al desarrollo y bienestar social.

Importancia de la Ciencia
Los conceptos y argumentos de la estadística se utilizan en la actualidad en un gran número de

ocupaciones. Las técnicas estadísticas constituyen una parte integral de las actividades de
investigación en distintas áreas del saber humano. La persona que comprenda los conceptos
estadísticos y su metodología obtendrá mejor provecho de ellos.
La estadística día con a día gana terreno en su aplicación en toda actividad humana por simple
que ésta sea.
La estadística se aplica en los programas de Gobierno, Ingeniería, Agronomía, Economía,

Medicina, Biología, Psicología, Pedagogía, Sociología, Física, Astronomía, Educación, etcétera;
no hay alguna ciencia que no la requiera o profesión que no la aplique.
A continuación, se citan algunos ejemplos de la utilidad de la estadística:
1. En las agencias gubernamentales, tanto federales, estatales o municipales utilizan la

estadística para realizar planes y programas para el futuro.
2. En el campo de la ingeniería se aplica en muchas de sus actividades tales como:
• La planeación de la producción.
• El control de calidad.
• Las ventas.
• El almacén.
3. En la Sociología se aplica para comparar el comportamiento de grupos socioeconómicos

y culturales y en el estudio de su conducta.
4. En el campo económico su uso es fundamental para informar el desarrollo económico de

una empresa o de un país que da a conocer los índices económicos relativos a la
producción, a la mano de obra, índices de precios para el consumidor, las fluctuaciones
del mercado bursátil, las tasas de interés, el índice de inflación, el costo de la vida,
etcétera. Todos estos aspectos que se estudian, se reportan e informan, no solamente
describen el estado actual de la economía sino que trazan y predicen el camino de las
futuras tendencias. Así mismo sirve a los encargados de las agencias, para tomar

decisiones acertadas en sus operaciones.
5. En el campo demográfico la Estadística se aplica en los registros de los hechos de la vida

diaria, tales como:
• Nacimientos.
• Defunciones.
• Matrimonios.
• Divorcios.
• Adopciones.
6. En materia de población los datos aportan una buena ayuda para fijar la política de
estímulos al control de la natalidad, dirigir la inmigración o emigración, establecer los
planes de lucha contra las enfermedades epidémicas o plagas que azotan los campos,
etcétera.
7. En el campo educativo la Estadística contribuye al conocimiento de las condiciones

fisiológicas, psicológicas y sociales de los alumnos y de los profesores. Al
perfeccionamiento de los métodos de enseñanza, de evaluación, a la efectividad de
programas de tutorías, la necesidad de reformas curriculares en función de los
requerimientos sociales reales, etc.
8. En la industria la utilizan para el control de calidad, la implementación de incentivos a la

producción, entre otros.
9. En la agricultura, se emplea en actividades como experimentos sobre la reproducción de

plantas y animales entre otras cosas. También se usa la Estadística para determinar los
efectos de clases de semillas, insecticidas y fertilizantes en el campo.
10. En la Biología se emplean métodos estadísticos para estudiar las reacciones de las plantas
y los animales ante diferentes períodos ambientales y para investigar la herencia. Las leyes
de Mendel sobre la herencia en donde los factores hereditarios se atribuyen a unidades
llamadas genes y al estudio sistemático de los cruzamientos entre individuos portadores
de genes diferentes, lo que ha permitido precisar de qué manera los genes se separan o se
reúnen en las generaciones sucesivas. La verificación de las hipótesis formuladas por
Mendel y sus continuadores necesitó el empleo de la Estadística.

11. En la medicina, los resultados que se obtienen sobre la efectividad de fármacos se
analizan por medio de métodos estadísticos. Los médicos
investigadores se ayudan del análisis estadístico para
evaluar la efectividad de tratamientos aplicados. La
Estadística también se aplica en el establecimiento y
evaluación de los procedimientos de medida o clasificación
de individuos con el propósito de establecer la especificidad
y sensibilidad a las enfermedades. En el Sector Salud, los
técnicos de la salud la utilizan para planear la localización y el tamaño de los hospitales
y de otras dependencias de sanidad. También se aplica en la investigación sobre las
características de los habitantes de una localidad, sobre el diagnóstico y la posible fuente
de un caso de enfermedad transmisible; sobre la proporción de personas enfermas en un
momento determinado, de ciertos padecimientos de una localidad, sobre la proporción de
enfermos de influenza en dos grupos, uno vacunado contra el padecimiento y el otro no.
También se aplica en cualquier otro tipo de investigación similar a éste.
12. En la Psicología se aplican los conceptos y técnicas de la estadística para medir y

comparar la conducta, las actitudes, la inteligencia y las aptitudes de las personas.
13. En los negocios se pueden predecir los volúmenes de venta, medir las reacciones de los
consumidores ante los nuevos productos, probar la efectividad de una campaña
publicitaria.
14. En la Física se utiliza la Estadística para obtener datos y probar hipótesis.
15. En el Deporte se ocupa para determinar el impacto de una nueva dieta alimenticia en el
rendimiento de atletas o someter a prueba la efectividad de dos o más técnicas de
ejercitación y práctica de un deporte.
16. El Mundo Político, todo intento de buen gobierno exige, dejando a un lado los
presupuestos ideológicos, algo tan simple y complejo a la vez como es el conocer sobre
qué realidad se gobierna; exige el estar perfectamente informado de las posiciones
objetivas de partida para desde ellas, tomar las medidas adecuadas a fin de dirigir la
sociedad a esa meta Es claro que cuanto más, correcto y veraz sea este conocimiento de
la realidad, las medidas de gobierno serán también más correctas., el conocimiento de la
realidad para los fines del buen gobierno pasa por su cuantificación, o que es equivalente,
por la obtención de estadísticas.

División de la Estadística
La Estadística es el estudio científico relativo al conjunto de métodos y técnicas encaminados a

al análisis de fenómenos conocidos e inciertos a través de la obtención, representación y análisis
de observaciones numéricas o categóricas, así como inferir generalizaciones acerca de las
características para los colectivos de interés y tomar las decisiones más acertadas en el campo de
su aplicación.
Su clasificación en el campo de la ciencia se detalla como sigue:
1. Estadística Paramétrica: estudia modelos específicos de distribución donde deben cumplirse

ciertos supuestos acerca de los parámetros de la población en función de una muestra
investigada, supuestos obligatorios a cumplirse ya que la validez de los resultados de una
investigación que utiliza técnicas paramétricas depende de su comprobación.

Este grupo prioritario de la Estadística se subdivide en:
Estadística Descriptiva: Ciencia que recopila, organiza e interpreta la información

numérica ó cualitativa. Tiene como propósito presentar resúmenes de un conjunto de
datos y poner de manifiesto sus características principales, mediante representaciones
tabulares o gráficas y complementándolos con medidas descriptivas de centralización,
dispersión o de posición. Los datos se usan para fines comparativos, y no se utilizan
principios de la teoría de la probabilidad. El interés se centra en describir el conjunto dado
de datos y no se plantea el extender las conclusiones a otros datos diferentes o bien, a una
población.
Estadística Inferencial: Conjunto de técnicas que se utiliza para obtener conclusiones

que sobrepasan los límites del conocimiento aportado por los datos, busca obtener
información de un colectivo mediante un metódico procedimiento del manejo de datos
de la muestra. En sus particularidades la Inferencia distingue la estimación de
parámetros y las pruebas de hipótesis con respecto a características estadísticas de una
población.
Dentro de cada una de las subdivisiones adjuntas se presentan grupos de estudio

univariados, bivariados y multivariados haciendo referencia a la manipulación de una,
dos y tres o más variables en adelante respectivamente.
2. Estadística no Paramétrica: se encarga del estudio de distribuciones no específicas y no

requiere de la comprobación de supuestos sobre los parámetros de la población; sin embargo
previo a la aplicación de técnicas no paramétricas se comprueba la existencia de aleatoriedad
de las observaciones captadas en una muestra.

Terminología Estadística
Unidad Estadística:
Elemento indivisible del cual se obtiene el carácter cuantitativo o cualitativo, se refiere al objeto
principal de la investigación que pueden ser los seres vivos, objetos o situaciones experimentales.
Ejemplo:
Estudiantes, vehículos, lluvia.
Colectivo o Población:
Conjunto de unidades estadísticas con alguna característica en común.

Ejemplo:
Estudiantes de la carrera de Tecnologías de la Información.
Colectivo estadístico:
Conjunto de unidades estadísticas con alguna característica en común delimitados en tiempo y

espacio.
Ejemplo:
Estudiantes de la carrera de Tecnologías de la Información

en el período mayo 2020 – octubre 2020.

Muestra:
Subconjunto representativo de la población estadística tomada para estudiar las características de

la misma. Al número de elementos de la muestra se le llama tamaño de la muestra.
Ejemplo:
Estudiantes de cuarto semestre de la carrera de Tecnologías de la Información

Parámetro:
Medida calculada a partir de todos los caracteres extraídos de un colectivo.

Ejemplo:
Promedio de edad de los estudiantes de la carrera de Tecnologías de la Información

Estadístico:
Medida calculada a partir de todos los caracteres extraídos de una muestra.

Ejemplo:
Promedio de edad de los estudiantes de cuarto semestre de la carrera de Tecnologías de la

Información en el período mayo 2020 – octubre 2020.

Datos y Variables
Carácter o Dato: Es una característica observada o medida en una unidad estadística, los
caracteres pueden ser: cualitativos (categóricos), o cuantitativos (numéricos).
Ejemplo
El conjunto de caracteres induce una Variable, por tanto, al presentar dos tipos de caracteres se
generan a la par dos tipos de variables cualitativas (conjunto de caracteres categóricos o cadenas
de texto) y cuantitativas (conjunto de caracteres numéricos). El conjunto de caracteres se conoce
como dominio de la variable.

Las variables son herramientas fundamentales para el análisis estadístico ya que la información
se realiza sobre los valores de las variables.
Variables Cualitativas
Conocidas como mudables estadísticas, son aquellas cuyos caracteres son del tipo categórico, es
decir, indican categorías, etiquetas alfanuméricas o "nombres".
Ejemplo
Tipo de deporte: Fútbol, Basquetbol, Volibol, Natación, Beisbol

Grado escolar: Primaria, Secundaria, Bachillerato, Maestría, Doctorado
Según el número de caracteres, las variables cualitativas se clasifican en:
Dicotómicas El dominio de la variable admite dos caracteres únicamente. Ejemplo
Sexo: Hombre, Mujer

Estado de un artefacto: Bueno, Malo
Politómicas El dominio de la variable admite tres o más caracteres. Ejemplo
Semestre: Primero, Segundo, Tercero, Cuarto, etc.

Etnia: Montubio, Mestizo, Indígena, Blanco, etc.
Variables Cuantitativas
Conocidas como variables estrictamente estadísticas son aquellas cuyos caracteres son del tipo
numérico.
Ejemplo
Peso (kg): 65, 70, 58, 45

Ingresos ($): 420.34, 1020, 2130.75, 670
Las variables cuantitativas se clasifican en:

Discretas: variables que entre uno y otro valor que puedan tomar, quedan espacios vacíos.
En lo general, toman valores enteros. Ejemplo
Número de hermanos: 1, 3, 4, 8, 0
Cantidad de alumnos por semestre: 34, 45, 28, 23
Continuas: son aquellas que toman cualquier valor numérico entero, fraccionario o,
incluso, irracional. Teóricamente, se cubren todos los posibles valores en un intervalo. Este
tipo de variable se obtiene principalmente a través de mediciones y está sujeta a la precisión
de los instrumentos de medición. Ejemplo
Estatura de los alumnos (cm): 160, 155, 148, 167

Calificación en una prueba (pts): 15.5, 13, 20, 18.7
En general cuando se habla de variables se presenta el siguiente resumen:

Escalas de Medida
La selección de la prueba estadística depende de varios factores, y uno de ellos es la escala de

medida de una variable. En seguida se describe los cuatro métodos de medición: nominal, ordinal,
de intervalo y de razón.
Escala nominal o clasificatoria
Se dice que una variable cualitativa se mide mediante una escala nominal, o es de tipo nominal,
si sus valores son etiquetas o atributos y no existe un orden entre ellos. Cada uno de los caracteres
agrupa a un grupo mutuamente excluyente y la única relación implicada es la de equivalencia (=).
Ejemplos
Género: masculino, femenino

Estado civil: soltero, casado, viudo, divorciado
Escala ordinal o de rango
Se dice que una variable cualitativa se mide mediante una escala ordinal, o es de tipo ordinal, si
sus valores son etiquetas o atributos, pero existe un cierto orden entre ellos. Cada uno de los
caracteres agrupa a un grupo mutuamente excluyente y la relación implicada es la de equivalencia
(=) dentro de cada grupo y la de mayor que (>) entre grupos.
Ejemplos
Nivel de Instrucción: Primaria, Secundaria, Pregrado, Maestría, PhD

Autoridades de una institución: Docente, Director, Vicedecano, Decano, Rector

Escala de intervalo
Se dice que una variable cuantitativa se mide mediante una escala de intervalo si existe una noción
de distancia entre los valores de la variable, aunque no se pueden realizar operaciones numéricas
y el cero en el dominio de la variable es relativo.
Ejemplos
Temperatura: 0º C, indica el punto de congelación del agua.

Talla de Ropa: Talla 0, es la talla de ropa para recién nacidos.
Escala de razón
Se dice que una variable cuantitativa se mide mediante una escala de razón si los valores de la
variable tienen un sentido físico y existe el cero absoluto.
Ejemplos
Distancia recorrida en un viaje (km): 0 km, indica la ausencia de desplazamiento

Consumo de agua (ltrs): 0 ltrs, no hubo consumo de agua

ESTADÍSTICA DESCRIPTIVA
La estadística descriptiva es un conjunto de técnicas y procedimientos estadísticos que ayudan a

recopilar, organizar, analizar y representar la información de un conjunto de datos. A
continuación, se muestran los elementos utilizados en cada sección.
Distribuciones de Frecuencias
Herramientas utilizadas para el resumen de los datos almacenados en variables cualitativas o

cuantitativas en tablas de frecuencias, de manera que se ponga de manifiesto la localización,
dispersión de las observaciones.
1. Distribución estadística unitaria
La información de la variable medida en las unidades estadísticas se dispone a través de un vector

fila o un vector columna ya sea para el caso de una variable cualitativa o cuantitativa,
generalmente a esta forma de mostrar los caracteres de la variable se lo conoce como datos en
bruto.
𝐗𝒊
𝐱𝟏
𝐱𝟐
⋮
𝐱𝐤

Ejemplo
Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows
El conjunto de distribuciones estadísticas unitarias forma una matriz de datos de dimensión k*p,
donde k son las unidades estadísticas y p son las variables.
i 𝐗𝟏 𝐗𝟐 𝐗𝟑 ⋯ 𝐗𝐩
1 x11 x12 x13 ⋯ x1p
2 x21 x22 x23 ⋯ x2p
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
k xk1 xk2 xk3 ⋯ xkp
Ejemplo
Tiempo de duración de la batería Memoria RAM Sistema

Computador Marca
(horas) (GB) Operativo
1 10 8 Windows HP
2 10 4 Linux Dell
3 8 6 Windows Mac
4 12 4 Windows Asus
Una de las pruebas a ejecutar sobre las matrices de datos es el análisis de confiabilidad ya que la
mayoría de estas se forman luego de la aplicación y tabulación de encuestas o entrevistas, las
técnicas de confiabilidad evalúan la confiabilidad de las preguntas descritas en los cuestionarios
y una de las más conocidas es el Alpha de Cronbach.
Alpha de Cronbach
El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el promedio de

las correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la posibilidad de
evaluar cuánto mejoraría (o empeoraría) la fiabilidad de la prueba si se excluyera un determinado
ítem (pregunta), para el cálculo de la medida solo se evalúan aquellas preguntas cuyas respuestas
son categorías de escala nominal u ordinal (variables cualitativas).

El mayor valor teórico del Alfa de Cronbach.es 1, si el instrumento asocia una medida de 0.6 se
considera un instrumento aceptable; sin embargo, para estudios de medicina o del área de salud
se sugiere que la fiabilidad del instrumento sea por lo menos 0.8.
Luego de evaluar la fiabilidad en una encuesta de 5 preguntas con el uso de SPSS, se muestra la
siguiente tabla.
Se observa que el valor de alfa es de 0.597, se encuentra por debajo, pero ya veremos que existen
posibilidades de elevar la fiabilidad del índice.
“Alfa de Cronbach si se elimina el elemento”, equivale al valor de Alfa si eliminamos cada uno
de los ítems. Así, por ejemplo, si eliminamos el ítem 3, el Alfa mejoraría a 0.762.
2. Distribución estadística de frecuencias sin clases
Esta distribución es muy usada cuando el tamaño de la muestra (n) es muy grande y se requiere
resumir la información de una variable cualitativa o cuantitativa. Para la construcción de la tabla
resumen asociada a una variable cuantitativa, es necesario que los caracteres se encuentren
ordenados de forma ascendente, en el caso de tratarse de una variable cualitativa se mantendrá el
orden jerárquico apropiado si la escala de medida de la variable es ordinal.

Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Variable
Absoluta Relativa Acumulada Acumulada
X
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
n1
𝐱𝟏 n1 f1 = N1 = n1 F1 = f1
n
n2
𝐱𝟐 n2 f2 = N2 = N1 + n2 F2 = F1 + f2
n
⋮ ⋮ ⋮ ⋮ ⋮
nk
𝐱𝐤 nk fk = Nk = N𝑘−1 + nk Fk = Fk−1 + f𝑘
n
Total n 1
La frecuencia absoluta del caracter 𝐱 𝐢 es el número de veces que aparece repetido el caracter en
la recopilación de datos y se lo representa por 𝐧𝐢 ; además de la suma de la columna se obtiene el
tamaño de la muestra
𝐧 = ∑ 𝐧𝐢
𝐢=𝟏
La frecuencia relativa del caracter 𝐱 𝐢 es el cociente entre la frecuencia absoluta del caracter 𝐱 𝐢 y
el número total de datos n. Se representa por 𝐟𝐢 y, evidentemente, es la proporción de aparición
de cada caracter con respecto al total.
𝐧𝐢
𝐟𝐢 =
𝐧
Además,
∑ 𝐟𝐢 = 𝟏
𝐢=𝟏
En relación a las frecuencias acumuladas, cumplen dos propiedades triviales como consecuencia
de las sumas acumulativas de las frecuencias absolutas 𝐧𝐢 y frecuencias relativas 𝐟𝐢 donde se
produce que:
𝐍𝐤 = 𝐧 𝐲 𝐅𝐤 = 𝟏
Ejemplos

Variable Cuantitativa
Número de Usuarios en
Barrio Facebook
1 148 12 0,286 12 0,286
2 155 15 0,357 27 0,643
3 160 10 0,238 37 0,881
4 167 5 0,119 42 1,000
Total 42 1,000
Variable Cualitativa
Marcas de
Computadores
Hp 11 0,733 11 0,733
Dell 2 0,133 13 0,867
Asus 1 0,067 14 0,933
Samsung 1 0,067 15 1,000
Total 15 1.000
De las tablas presentes se puede analizar varios puntos de información por ejemplo conocer el
porcentaje de caracteres específicos:
Variable Cuantitativa: El barrio 2 alberga el 35.7% de usuarios afiliados a Facebook

Variable Cualitativa: La marca de computador más usada en el mercado es Hp con un 73,3%
3. Distribución estadística de frecuencia con clases
Esta distribución es usada para resumir la información de una variable cuantitativa continua, a
través de clases o intervalos. La construcción de la tabla cuenta con el siguiente procedimiento.
a. Calcular el Rango de los caracteres
R = X máx − Xmín
b. Determinar el número de intervalos o clases
k = √n

c. Calcular la amplitud de la clase
R
A =
k
El límite inferior de la primera clase es igual al carácter mínimo de la variable y el límite superior
de la última clase debe ser igual al carácter máximo de la variable. Esta observación garantiza que
todos los caracteres de la variable se encuentren formando parte de las tabulaciones.
Li1 = Xmín y Lsk = X máx
Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa

Clases o Intervalos
Absoluta Relativa Acumulada Acumulada
𝐋𝐢 𝐋𝐬
n1
𝐋𝐢𝟏 Ls1 n1 f1 = N1 = n1 F1 = f1
n
n2
𝐋𝐬𝟏 Ls2 n2 f2 = N2 = N1 + n2 F2 = F1 + f2
n
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
nk
𝐋𝐬𝐤−𝟏 Lsk nk fk = Nk = N𝑘−1 + nk Fk = Fk−1 + f𝑘
n
Total n 1
Ejemplo
Tiempos de Simulación
(minutos)
140 143 8 0,160 8 0,160
143 146 5 0,100 13 0,260
146 149 13 0,260 26 0,520
149 152 3 0,060 29 0,580
152 155 10 0,200 39 0,780
155 158 8 0,160 47 0,940
158 161 3 0,060 50 1
Total 50 1
De manera semejante a la distribución anterior en la tabla de frecuencias con intervalos de la

variable Tiempo de Simulación se puede observar que el 26% de tiempos se encuentran ene le
intervalo de 146 a 149 minutos.

DATOS NO AGRUPADOS
Representaciones Gráficas
Las representaciones gráficas muestran de forma rápida el comportamiento de la variable y

permiten transmitir de manera más sencilla los resultados hallados. Cuando los caracteres de
variables cuantitativas se encuentran sin agrupación se pueden construir diagramas de caja y
diagramas de puntos.
1. Diagramas de caja
El diagrama de caja es una presentación visual que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o asimetría y
la identificación de observaciones atípicas. Este gráfico es el más adecuado para analizar la
información de una variable cuantitativa.
Este gráfico se puede construir de forma manual a partir del uso de las medidas de posición no
central y a través de software estadístico.

2. Diagramas de puntos
Un diagrama de puntos es una forma de resumir la información de una variable cuantitativa cuyo
dominio almacene hasta un máximo de 30 caracteres dispuestos en una recta numérica.
Este gráfico permite analizar:
• La localización general de las observaciones.

• La dispersión de las observaciones.
• La presencia de observaciones inusuales o valores atípicos.
• El tipo de distribución de la variable según su disposición debajo de campanas.
Según el agrupamiento de los caracteres en la recta numérica los puntos pueden ajustarse a
distribuciones Platicúrtica, Mesocúrtica y Leptocúrtica
Se aconseja utilizar el gráfico para representar hasta un máximo de 30 caracteres ya que con una
mayor cantidad de información se tiende a confundir el tipo de distribución a la que se ajusta una
variable.
Ejemplo
Graficar un diagrama de puntos para la variable Tiempo de duración de las baterías (horas)
Tiempo de duración de la batería

(horas)
19
22
35
18
17

Tiempo de duración de la batería
La gráfica indica que los datos están agrupados cerca de las 18 horas y su recorrido va desde el
17 hasta 35 horas, el carácter 35 horas puede ser considerado como atípico por encontrase alejado
de los demás tiempos de duración.
Pruebas de Normalidad
Para la comprobación del ajuste de una variable cuantitativa a una ley de probabilidad normal
existen varias maneras de inspeccionar la normalidad univariante y para ello seguido se muestran
las siguientes técnicas:
1. Pruebas Gráficas
Gráfico de Probabilidad Normal
Un gráfico cuantil cuantil permite observar cuan cerca está la distribución de un conjunto
de datos a alguna distribución ideal o comparar la distribución de dos conjuntos de datos.
La forma del gráfico debería ser idealmente una línea recta específica; sin embargo si los
puntos se disponen en forma de "U" o con alguna curvatura, ello se debe a que la
distribución es asimétrica, mientras que si se presentan en forma de "S" significará que los
datos son heterogéneos

Diagrama de Caja
El diagrama de caja permite inspeccionar de forma robusta el ajuste de una variable a una
ley de probabilidad normal, tras el análisis de la presencia de asimetría. Existirá asimetría
positiva si la mediana está más cerca de la parte inferior de la caja y asimetría negativa si
la mediana está más cerca de la parte superior de la caja, tomando en cuenta que cuanto
más larga sea la caja y los bigotes, el conjunto de datos contará con mayor variabilidad,
contrario a los detalles anteriores si la mediana fracciona la caja en partes iguales y los
bigotes muestran la misma longitud entonces la variable es simétrica lo que es sinónimo de
presencia de normalidad

2. Contraste de Kolmogorov Smirnov
Este contraste compara la función de distribución empírica muestral con la teórica de una
población normal, de manera que se rechazaría la hipótesis nula de normalidad cuando el valor
experimental del estadístico (que sería la mayor diferencia registrada entre ambas funciones) es
significativamente grande. Este contraste no resulta muy apropiado para estudios de medicina y
economía ya que sin importar el tamaño de muestra casi la totalidad de variables analizadas siguen
una ley normal a pesar que los contrastes gráficos muestren lo contrario. No se muestra el
procedimiento de esta prueba ya que sigue el mismo modelo de la siguiente técnica.
3. Contraste de Kolmogorov Smirnov con la corrección de Lilliefors
Con efectos de corregir el problema anterior, Lilliefors propuso una nueva tabla de valores críticos
en donde los intervalos de aceptación se redujeron con el fin de ajustar de mejor manera a las
variables, la potencia de esta prueba radica en el análisis de variables con tamaño de muestra
superior a 50 datos. Su contraste se detalla a continuación:
a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal
b. Nivel de Significancia
α = 0.05
c. Estadístico de Prueba
D = máx (|Fi − ∅(Zi )| o |Fi − 1 − ∅(Zi )|)
d. Región de Rechazo
D ≥ Dn,∝ Rechazar H0
valor p ≤ α Rechazar H0
e. Decisión
Se indica si la variable en análisis se ajusta o no a la distribución normal

4. Contraste de Shapiro Wilk
Esta prueba mide el grado de ajuste a una recta de las observaciones de la muestra (x1, x2,
x3, … , xn) representadas en un gráfico de probabilidad normal. Es el más adecuado cuando el
tamaño de muestra es pequeño (inferior o igual a 50) y no requiere que los parámetros de la
distribución estén especificados. Su contraste se detalla a continuación:
α = 0.05
b2
W= ̅)2
∑ni=1(xi − X
El término b = ∑ki=1 ai [X (n−i+1) − Xi ] siendo ai el valor de los coeficientes

que se encuentran tabulados en la tabla A; mientras que [X(n−i+1) − Xi ]son
las diferencias sucesivas que se obtienen al restar el primer valor al último
valor, el segundo al penúltimo
W ≤ W∝,n Rechazar H0
e. Decisión

5. Contraste de Anderson Darling
Esta prueba evalúa el ajuste a cualquier distribución de probabilidades mediante la comparación

entre una distribución empírica y una distribución teórica definida en la hipótesis nula. Su
contraste se detalla a continuación:
α = 0.05
n
1
A2 = −n − S donde S = ∑(2i − 1)[ln F(Yi ) + ln (1 − F(Yn+1−i) ))]
n
i=1
Donde n es el número de observaciones, F(Y) es la distribución de

probabilidades acumulada normal con media y varianza especificadas a partir
de la muestra y Yi son los datos obtenidos en la muestra, ordenados
ascendentemente.
A2 ≥ A2T Rechazar H0
Esta prueba no dispone de tablas para todos los casos. A continuación, se

presenta los valores críticos asociados a los posibles niveles de significancia
al momento de contrastar normalidad.
α 0.1 0.05 0.025 0.01

A2T 0.631 0.752 0.873 1.035
e. Decisión

DATOS AGRUPADOS
Representaciones Gráficas
Existen representaciones gráficas que permiten sintetizar la información de variables que se

encuentran distribuidas en tablas de frecuencias con y sin intervalos como los que se muestran a
continuación:
1. Diagramas de barras
El diagrama de barras es un gráfico de uso estricto para variables cualitativas, los caracteres se
exhiben mediante rectángulos, del mismo ancho, cada uno de los cuales representa una categoría
particular. La longitud (y por lo tanto el área) de cada rectángulo es proporcional al número de
casos en la categoría que representa. Si los caracteres son nominales, las categorías se pueden
colocar en cualquier orden; pero si los caracteres son ordinales, las categorías deben estar
ordenadas. Para la construcción del gráfico se requiere de la siguiente información
Variable Cualitativa Frecuencia Absoluta Frecuencia Relativa

X 𝐧𝐢 𝐟𝐢
𝐱𝟏 n1 f1
𝐱𝟐 n2 f2
⋮ ⋮ ⋮
𝐱𝐤 nk fk
Total n 1
Con el gráfico de barras se distinguen las características más frecuentes de un proceso; mente se

presentan en un proceso. También, tiene la ventaja de que se pueden realizar gráficos de barras
agrupadas, con el objetivo de realizar comparaciones.
Ejemplo
En un estudio de investigación de mercados se requiere conocer cuál es la marca de computador
que mayor demanda presenta en el mercado de consumidores, para ello se solicitó el análisis de
las marcas Mac, Hp, Asus, Toshiba y Samsung. Construir un diagrama de barras para identificar
la mayor marca de demanda.
Marca del Computador 𝐧𝐢 𝐟𝐢

Hp 135 0.41
Mac 76 0.23
Asus 53 0.16
Samsung 43 0.13
Toshiba 19 0.05
326 1
La marca de computador más usado es Hp, sin embargo, entre la marcas Asus y Samsung
mantienen una demanda semejante.
2. Diagramas de sectores
Al igual que el diagrama de barras el gráfico de sectores solo se usa para resumir variables
cualitativas que no almacenen una cantidad superior a 6 categorías, para su construcción se
necesita de la siguiente información:

Variable Cualitativa Frecuencia Absoluta Frecuencia Relativa Ángulo
X 𝐧𝐢 𝐟𝐢 ∡𝐢
𝐱𝟏 n1 f1 ∡1
𝐱𝟐 n2 f2 ∡2
⋮ ⋮ ⋮ ⋮
𝐱𝐤 nk fk ∡k
Total n 1 360
Un gráfico de sectores es un círculo dividido en segmentos, donde el área de cada uno de los
sectores es proporcional a la frecuencia relativa de esa categoría. El ángulo central de la categoría
es igual a ∡i = fi ∗ 360
Ejemplo
En un estudio de control de calidad se requiere conocer cuál es la marca de computador más usado
en el mercado de consumo. Construir un diagrama de sectores para identificar la marca de mayor
demanda
Marca del Computador 𝐧𝐢 𝐟𝐢 ∡𝐢

Hp 135 0.42 150
Mac 76 0.23 84
Asus 53 0.16 59
Samsung 43 0.13 48
Toshiba 19 0.06 19
326 1 360

El gráfico de sectores confirma la misma información que el diagrama de barras donde se
visualiza por segunda ver que la marca de computador más usado es Hp y que las marcas Asus y
Samsung mantienen una demanda semejante.
3. Histogramas
Un histograrna es un conjunto de rectángulos que resumen la información de una variable

cuantitativa continua, cada uno de los cuales representa un intervalo de agrupación. Sus bases son
iguales al intervalo de clase empleado en la distribución de frecuencias y las alturas son
proporcionales a la frecuencia absoluta o relativa de la clase.
Clases Frecuencia Absoluta Marca de Clase

𝐧𝐢 𝐜𝐢
𝑳𝐢𝟏 𝐿s1 n1 c1
𝑳𝒔𝟏 𝐿𝑠2 n2 c2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk ck
Total n

Dentro del gráfico de puede analizar las medidas de tendencia central, en torno a la moda, permite
identificar el número de modas presentes en la variable, en cuanto a las medidas de dispersión se
visibiliza la mayor o menor dispersión de los caracteres y se tiende a distinguir con facilidad la
presencia o ausencia de simetría en la variable.
Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están listas
para la distribución al público. Resuma la información recolectada a través de un histograma.
Pesos 𝐜𝐢
𝐧𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
Histograma
300,0000
Frecuencia Relativa
250,0000
200,0000
150,0000
100,0000
50,0000
0,0000
1300,0 1500,0 1700,0 1900,0
Marca de clase
El histograma de los pesos de queso indica que no es una variable simétrica, y cuenta con tan solo
una moda, la longitud de las barras anticipa la presencia de grande variación entre los pesos.
4. Gráfico de Dispersión
El diagrama de dispersión es un gráfico bivariado que permite estudiar las relaciones entre dos
variables cuantitativas X e Y. El diagrama muestra estos pares como una nube de puntos para
análisis de las relaciones entre:

• Dos factores o causas relacionadas con la calidad.
• Dos problemas de calidad.
• Un problema de calidad y su posible causa.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las nubes.
• Una relación positiva entre X e Y significa que los valores crecientes de X están asociados
con los valores crecientes de Y.
• Una relación negativa entre X e Y significa que los valores crecientes de X están asociados
con los valores decrecientes de Y.

MEDIDAS DE TENDENCIA CENTRAL
Entre las medidas características de una distribución destacan las llamadas medidas de
centralización, que nos indicarán el valor promedio de los datos, o en torno a qué valor se
distribuyen estos. Si la variable se muestra a través de una distribución estadística de frecuencias
unitarias (datos sin agrupar) las medidas de tendencia se calculan según las fórmulas siguientes:
Media Aritmética
Cuando se cuenta con una muestra de tamaño n, donde la variable cuantitativa X toma los valores
x1 , x2 , x3 , … , x𝑘 . La media aritmética x̅, es la suma de los caracteres de la variable dividida para
su el tamaño de muestra. Su función es:
x1 + x 2 + x 3 + ⋯ + x 𝑘
x̅ =
n
equivalente a
∑ki=1 xi
x̅ =
n
Donde xi son los caracteres de la variable y n es el tamaño de muestra.
La media aritmética es una medida dimensional y representa el punto central del dominio de la
variable cuantitativa. No es una medida significativa ante la presencia de valores atípicos.
Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.
Número de usuarios en Twiter

(personas)
19
22
35
18
17
19 + 22 + 35 + 18 + 17
x̅ = = 22 personas
5
El promedio del número de usuarios en Twiter por manzana es de 22 personas

Mediana
Supongamos nuevamente que tenemos una colección de n caracteres x1 , x2 , x3 , … , xn

condensados en una variable cuantitativa X, esta variable debe ser ordenada de forma ascendente
x1 ≤ x2 ≤ x3 ≤ … ≤ x𝑘 incluyendo las repeticiones para proceder al cálculo de la medida.
La mediana es el valor central del dominio de la variable cuantitativa y separa al conjunto de

caracteres ordenados en dos partes iguales. Es una medida significativa ante la presencia de
valores atípicos.
Su función depende de la cantidad de caracteres en la variable:

a. Si el tamaño de muestra n es par la mediana se calcula como sigue:
(x(n) + x (n)+1)
2 2
x̃ =
2
n n
Donde x es el carácter ordenado que se ubica en la posición y ( ) + 1 (n es el tamaño
2 2
de la muestra)
Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.

(personas)
19
22
35
18
Variable ordenada

(personas)
18
19
22
35
(x 4 +x 4 )
(2) (2)+1 (x2 + x3 ) (19 + 22)
x̃ = = = = 20.5 ~ 21 personas
2 2 2
La mediana del número de usuarios en Twiter por manzana es de 21 personas
b. Si el tamaño de muestra n es impar la mediana se calcula como sigue:
x̃ = x(n−1)+1
2
n−1
Donde x es el carácter ordenado que se ubica en la posición (n es el tamaño de
2
muestra)
Ejercicio
Calcular la mediana del número de usuarios en Twiter por manzana tomados de un estudio
del uso de redes sociales.

(personas)
19
22
35
18
17
Variable ordenada

(personas)
17
18
19
22
35
x̃ = x(5−1)+1 = x3 = 19 personas
2
La mediana del número de usuarios en Twiter por manzana es de 19 personas
Moda
La moda es el valor que aparece con mayor frecuencia en el conjunto de datos. A diferencia de la
media y mediana, la moda se puede calcular tanto para variables cuantitativas como cualitativas.
Ejemplos
Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows
La moda de la variable cuantitativa “Memoria RAM” es 4GB, en cuanto a la variable cualitativa

“Sistema Operativo” el caracter más frecuente es Windows.
Consideraciones:
• En el caso de no existir un caracter con frecuencia mayor al resto, la variable en análisis

es amodal.
• La moda puede existir y ser única, como en los ejemplos anteriores caracterizando a una
variable como unimodal, sin embargo, pueden existir dos o más modas, es decir, pueden
existir dos o más valores que aparecen con la misma frecuencia máxima en el conjunto
de datos. En este caso se dice que la variable es bimodal o multimodal, según sea el caso.

La variable cuantitativa presenta simetría perfecta, sinónimo de ajuste a una ley de probabilidad
normal si la
Media = Mediana = Moda
Si la Media > Mediana > Moda la variable tiene problemas de asimetría positiva.
Si la Media < Mediana < Moda la variable tiene problemas de asimetría negativa.
Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de tendencia central sigue el siguiente proceso
1. Media Aritmética
• Si la variable se muestra a través de una distribución estadística de frecuencias sin clases

la media aritmética se calcula por:
Variable Frecuencia Absoluta

X 𝐧𝐢
𝐱𝟏 n1
𝐱𝟐 n2
⋮ ⋮
𝐱𝐤 nk
Total n
∑𝑘𝑖=1 xi ∗ ni
x̅ =
n
Donde xi son los caracteres de la variable, ni son las frecuencias absolutas y n es el tamaño
de muestra.

Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos en cada
chip, con la información recolectada se solicita calcular la media de los defectos hallados
en los productos.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
(0 ∗ 25) + (1 ∗ 43) + (2 ∗ 27) + (3 ∗ 12) 133

x̅ = = = 1.24 ~ 1 defecto
107 107
La planta de producción encontró un promedio de un defecto por chip.
• Si la variable se muestra a través de una distribución estadística de frecuencias con clases

la media aritmética se calcula por:

𝐧𝐢 𝐜𝐢
⋮ ⋮ ⋮ ⋮
Total n
∑𝑘𝑖=1 ci ∗ ni
x̅ =
n
Donde ci es la marca de clase de la variable, ni son las frecuencias absolutas y n es el

tamaño de muestra.
lim. inferiori + lim. superior𝑖

ci =
2
Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips

que están listos para la distribución al público. Calcular la longitud promedio de los
chips
Longitud 𝐜𝐢
𝐧𝐢
(mm)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
(1300 ∗ 100) + (1500 ∗ 85) + (1700 ∗ 55) + (1900 ∗ 35) 133

x̅ = = = 1518.1 mm
275 275
La longitud promedio de los chips fue de 1518.1 mm.
2. Mediana

la mediana empieza su cálculo al identificar la clase mediana definida por:
n
Clase mediana =
2
El valor registrado para la clase mediana se busca en la columna de la frecuencia

absoluta acumulada.
Frecuencia Absoluta
Acumulada
X 𝐧𝐢
𝐍𝐢
𝐱𝟏 n1 N1
𝐱𝟐 n2 N2
⋮ ⋮ ⋮
𝐱𝐤 nk Nk
Total n
Y es que el valor de la mediana 𝐱̃ es el carácter que se ubica en el reglón de la frecuencia

absoluta acumulada Ni previamente identificada.

Ejemplo
chip, con la información recolectada se solicita hallar la mediana de los defectos hallados
en los productos.
Número de
𝐧𝐢 𝐍𝐢
Defectos
0 25 25
1 43 68
2 27 95
3 12 107
Total 107
107
Clase mediana = = 53.5
2
x̃ = 1 defecto
La planta de producción encontró como mediana, un defecto por chip.

la mediana empieza su cálculo al identificar la clase mediana definida por:
n
Clase mediana =
2
El valor hallado se buscará en la columna de la frecuencia absoluta acumulada Ni
Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n
n
− Ni−1
2
x̃ = Li + A
ni
Donde Li es el límite inferior de la clase mediana, Ni−1 es la frecuencia absoluta

acumulada anterior a la clase mediana, ni es la frecuencia absoluta de la clase mediana
y A es la amplitud de la clase.

Ejemplo
que están listos para la distribución al público. Hallar la longitud mediana de los chips
Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275
275
Clase mediana = = 137.5
2
275
− 100
2
x̃ = 1400 + ∗ 200
85
La longitud mediana de los chips fue 1488.23mm
3. Moda

la moda es el carácter que asocia la mayor frecuencia absoluta.
Ejemplo
chip, con la información recolectada se solicita hallar la moda de los defectos hallados en
los productos.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
La planta de producción encontró que la cantidad de defectos más frecuentes en los chips
fue 1.

la moda se calcula tras identificar la clase modal (frecuencia absoluta mayor)
Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
𝑳𝒔𝟐 𝐿𝑠3 n3 N3
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n
d1
Mo = Li + A
d1 + d2
Donde Li es el límite inferior de la clase modal, d1 es la diferencia entre la Ni de la clase

modal y Ni−1 , d2 es la diferencia entre la Ni+1 y Ni de la clase modal y A es la amplitud
de la clase.
Ejemplo
que están listos para la distribución al público. Calcular la moda de la longitud de los
chips
Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275
d1 = 100 − 0 = 100 y d2 = 185 − 100 = 85
100
Mo = 1200 + ∗ 200 = 1270.17mm
100 + 85
La longitud modal de los chips fue de 1270.17mm.

MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican la variabilidad de los caracteres en torno a su valor promedio
(generalmente la media aritmética), de tal forma que se puede detectar si los caracteres se
encuentran muy o poco esparcidos en torno al valor central.
Varianza
La varianza es una medida adimensional, definida por el promedio de la distancia al cuadrado de

cada uno de los datos xi respecto de la media x̅. Se calcula de la forma siguiente:
∑ki=1(xi − x̅)2
s2 =
n−1
Es importante considerar que cuando la función se divide para n -1 se están analizando muestras,
y si se divide para n el análisis es para la población.
Ejercicio
Calcular la varianza del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
s2 = = 54.7
5−1
Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central
La varianza del número de usuarios en Twiter por manzana es de 54.7

Desviación estándar
A la raíz cuadrada positiva de la varianza se le llama desviación estándar o desviación típica, y se

le denota por la letra s. Así, para su cálculo se usa la siguiente fórmula:
∑ki=1(xi − x̅)2
𝑠=√
n−1
Esta medida dimensional permite analizar el grado de alejamiento entre cada uno de los
caracteres de la variable con respecto a la media aritmética.
Ejercicio
Calcular la desviación estándar del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
𝑠=√ = 7.39 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
5−1
Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central
La desviación estándar del número de usuarios en Twiter por manzana fue de 7 personas lo que
indica que la media del número de usuarios en Twiter puede variar entre 22 ± 7 personas
Rango
El rango de una variable cuantitativa X formada por x1 , x2 , x3 , … , xk caracteres se define como la

longitud entre el carácter mínimo y el máximo, su función viene dada por:

R = Xmáx − Xmín
Esta medida se utiliza para el cálculo aproximado de la desviación estándar bajo los siguientes
criterios
R R
s≈ si n ≤ 16 s≈ si 16 < n ≤ 100
√n 4
R R
s≈ si 100 < n ≤ 400 s≈ si n > 400
5 6
Ejercicio
Calcular el rango del número de usuarios en Twiter por manzana tomados de un estudio del uso
de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
R = 35 − 17 = 18 personas
La amplitud del número de usuarios en Twiter por manzana fue de 18 personas
Coeficiente de Variación
Sea X una variable cuantitativa formada por x1 , x2 , x3 , … , xk caracteres donde x

̅ es su media y s
su desviación estándar, el coeficiente de variación se define por:
s
CV = ∗ 100
x̅
El coeﬁciente de variación calculado para una única variable permite identificar si los caracteres
son homogéneos o heterogéneos. Si el CV es mayor al 20% los caracteres serán heterogéneos.

Por otro lado sirve para comparar la dispersión de dos o más conjuntos de datos de variables
cuantitativas.
Ejercicio
Calcular el coeficiente de variación del número de usuarios en Twiter por manzana tomados de
un estudio del uso de redes sociales.
Número de usuarios
en Twiter
(personas)
19
22
35
18
17
7 personas
CV = ∗ 100 = 31.8%
22 personas
La variable número de usuarios en Twiter almacena datos heterogéneos.
Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de dispersión sigue el siguiente proceso
1. Desviación estándar

la desviación estándar se calcula por:

X 𝐧𝐢
𝐱𝟏 n1
𝐱𝟐 n2
⋮ ⋮
𝐱𝐤 nk
Total n

∑ki=1 ni (xi − x̅)2
𝑠=√
n−1
Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos, con la
información recolectada se solicita calcular la desviación estándar de defectos hallados
en los productos.
Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107
x̅ = 1 defecto
25(0 − 1)2 + 43(1 − 1)2 + 27(2 − 1)2 + 12(3 − 1)2

s=√ = 10 defectos
107 − 1
La planta de producción encontró una desviación de 10 defectos con respecto a la media

por lo que el número de defectos en chips puede variar entre 1 ± 10 defcctos (en casos como
este el intervalo inferior se descarta ya que no existen -9 defectos y se considera como 0).

la desviación estándar se calcula por:

𝐧𝐢 𝐜𝐢
⋮ ⋮ ⋮ ⋮
Total n

∑ki=1 ni (ci − x̅)2
𝑠=√
n−1
Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están
listas para la distribución al público. Calcular la desviación estándar del peso de los
quesos.
Pesos
𝐧𝐢 𝐜𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275
x̅ = 1518.1 gr
100(1300 − 1518.1)2 + 85(1500 − 1518.1)2 + 55(1700 − 1518.1)2 + 35(1900 − 1518.1)2

s=√
275 − 1
s = 206.72 gr
La planta de producción encontró una desviación de 206.72 gr con respecto a la media por
lo que el promedio del peso transportado puede variar entre 1518.1 ± 206.72 gr.
Observación:
Las fórmulas del rango y coeficiente de variación no sufren cambios por lo no existe necesidad
de proponer nuevas fórmulas para sus cálculos, en cuanto a la varianza no se la estudia en este
apartado considerando que es una medida adimensional.

Medidas de Dispersión DA

Cargado por

Copyright:

Formatos disponibles

Medidas de Dispersión DA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Medidas de Dispersión DA

Cargado por

Copyright:

Formatos disponibles

4

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

La historia de la estadística se puede resumir en tres etapas. A continuación, se presentan los

Primera Etapa: Los Censos

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Segunda Etapa: De la descripción de los conjuntos a la Aritmética

La estadística da un gran salto cualitativo a mediados del siglo XVII,

Para los aritméticos políticos, la estadística era el arte de gobernar, su

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Otro impulso más al desarrollo de la estadística y la probabilidad

En 1882 se creó en nuestro país la Dirección General de Estadística (DGE), el antecedente de lo

Con el objetivo de homogenizar los métodos utilizados en la recopilación y procesamiento de la

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Es importante citar la participación activa y fructífera de matemáticos y estadísticos rusos que

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Los conceptos y argumentos de la estadística se utilizan en la actualidad en un gran número de

La estadística se aplica en los programas de Gobierno, Ingeniería, Agronomía, Economía,

A continuación, se citan algunos ejemplos de la utilidad de la estadística:

1. En las agencias gubernamentales, tanto federales, estatales o municipales utilizan la

2. En el campo de la ingeniería se aplica en muchas de sus actividades tales como:

3. En la Sociología se aplica para comparar el comportamiento de grupos socioeconómicos

4. En el campo económico su uso es fundamental para informar el desarrollo económico de

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

5. En el campo demográfico la Estadística se aplica en los registros de los hechos de la vida

7. En el campo educativo la Estadística contribuye al conocimiento de las condiciones

8. En la industria la utilizan para el control de calidad, la implementación de incentivos a la

9. En la agricultura, se emplea en actividades como experimentos sobre la reproducción de

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

12. En la Psicología se aplican los conceptos y técnicas de la estadística para medir y

14. En la Física se utiliza la Estadística para obtener datos y probar hipótesis.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

La Estadística es el estudio científico relativo al conjunto de métodos y técnicas encaminados a

Su clasificación en el campo de la ciencia se detalla como sigue:

1. Estadística Paramétrica: estudia modelos específicos de distribución donde deben cumplirse

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Estadística Descriptiva: Ciencia que recopila, organiza e interpreta la información

Estadística Inferencial: Conjunto de técnicas que se utiliza para obtener conclusiones

Dentro de cada una de las subdivisiones adjuntas se presentan grupos de estudio

2. Estadística no Paramétrica: se encarga del estudio de distribuciones no específicas y no

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Estudiantes, vehículos, lluvia.

Conjunto de unidades estadísticas con alguna característica en común.

Estudiantes de la carrera de Tecnologías de la Información.

Conjunto de unidades estadísticas con alguna característica en común delimitados en tiempo y

Estudiantes de la carrera de Tecnologías de la Información

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Subconjunto representativo de la población estadística tomada para estudiar las características de

Estudiantes de cuarto semestre de la carrera de Tecnologías de la Información

Medida calculada a partir de todos los caracteres extraídos de un colectivo.

Promedio de edad de los estudiantes de la carrera de Tecnologías de la Información

Medida calculada a partir de todos los caracteres extraídos de una muestra.

Promedio de edad de los estudiantes de cuarto semestre de la carrera de Tecnologías de la

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

Tipo de deporte: Fútbol, Basquetbol, Volibol, Natación, Beisbol

Según el número de caracteres, las variables cualitativas se clasifican en:

Dicotómicas El dominio de la variable admite dos caracteres únicamente. Ejemplo

Sexo: Hombre, Mujer

Politómicas El dominio de la variable admite tres o más caracteres. Ejemplo