1165 - U3 - A5 Caracteristicas de La Informacion Contable

Estadística, probabilidad e
inferencia
Juan Jesús Cañas Escamilla
José Román Galo Sánchez

Estadística, probabilidad e
inferencia
INTERACTIVO
Red Educativa Digital Descartes
Fondo Editorial RED Descartes
Córdoba (España)
2022
Título de la obra:
Estadística, probabilidad e inferencia
Interactivo
Autores:
Editor técnico:
Juan Guillermo Rivera Berrío
Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.
Núcleo del libro interactivo: julio 2022.
Recursos interactivos: DescartesJS
Fuentes: Lato y UbuntuMono
Fórmulas matemáticas: KATEX
Red Educativa Digital Descartes
Córdoba (España)
[email protected]
https://proyectodescartes.org
Proyecto iCartesiLibri
https://proyectodescartes.org/iCartesiLibri/index.htm
ISBN: 978-84-18834-44-8
Esta obra está bajo una licencia Creative Commons 4.0 internacional: Reconocimiento-No Comercial-Compartir Igual.
Tabla de contenido
Prefacio 9
1. Estadística unidimensional 11
1.1 Introducción 13
1.1.1 Un poco de historia 14
1.1.2 Definición de Estadística 20
1.2 Conceptos generales 22
1.3 Tabulación y gráficos estadísticos 25
1.3.1 Tabulación de datos y gráficos estadísticos 27
1.3.2 Gráficos estadísticos 32
1.4 Medidas de centralización y de posición 38
1.4.1 Media aritmética 39
1.4.2 Mediana 44
1.4.3 Moda 47
1.4.4 Cuartiles 52
1.4.5 Diagrama de caja y bigotes (Box-whisker) 56
1.5 Medidas de dispersión 63
1.5.1 Rango y desviación media 64
1.5.2 Varianza 66
1.5.3 Desviación típica 68
1.5.4 Coeficiente de variación de Pearson 73
1.6 Manejo de calculadora 77
1.7 Problemas resueltos 82
2. Estadística bidimensional 85
2.1 Introducción. Variable estadística bidimensional 87
iii
2.2 Tabulación de una variable bidimensional 90
2.3 Diagrama de dispersión 91
2.4 Correlación 94
2.4.1 Covarianza 97
2.4.2 Coeficiente de correlación lineal 99
2.5 Concepto de regresión. Método de los mínimos cuadrados 102
2.5.1 Rectas de Regresión 104
2.5.2 Estimaciones 109
3. Combinatoria 115
3.2 Principio general de recuento 121
3.3 Variaciones sin repetición 123
3.4 Variaciones con repetición 126
3.5 Permutaciones sin repetición 129
3.6 Permutaciones con repetición 132
3.7 Combinaciones sin repetición 136
3.8 Combinaciones con repetición 142
3.9 Resumen 146
3.11 Créditos del capítulo 151
4. Probabilidad 153
4.2 Experimentos aleatorios y deterministas 158
4.2.1 Espacio muestral 159
4.2.2 Sucesos y tipos de sucesos 162
iv
4.3 Operaciones con sucesos 163
4.3.1 Álgebra de Boole de sucesos 167
4.3.2 Sistema completo de sucesos 169
4.4 Concepto de probabilidad 171
4.4.1 Definición de Bernoulli 171
4.4.2 Definición de Laplace 172
4.4.3 Definición de Kolmogorov 172
4.5 Probabilidad condicionada 175
4.5.1 Concepto de probabilidad condicionada 177
4.5.2 Criterio de independencia de sucesos 180
4.6 Teorema de la probabilidad total 182
4.7 Teorema de Bayes 184
5. Variable Estadística Discreta 193
5.2 Función de probabilidad. Propiedades y parámetros 198
asociados
5.3 Distribución binomial 206
5.3.1 Función de probabilidad de la distribución binomial 211
5.3.2 Parámetros de la distribución binomial 214
5.3.3 Ajuste de una serie de datos a una binomial 220
5.4 Otras distribuciones discretas 222
5.4.1 Distribución hipergeométrica 223
5.4.2 Distribución de Poisson 228
5.4.3 Distribución Geométrica 233
5.4.4 Distribución binomial negativa 236
v
5.4.5 Distribución uniforme 240
6. Distribución Normal 245
6.1.1 Idea intuitiva de función de densidad 247
6.1.2 Definición de Función de densidad 249
6.2 La distribución normal 251
6.2.1 La distribución normal cero uno 255
6.2.2 Tipificación 257
6.3 Manejo de la tabla de la N(0,1) 260
6.3.1 Probabilidad p(Z < a). Barrido a la izquierda 263
6.3.2 Probabilidad p(Z > a). Barrido a la derecha 264
6.3.3 Franja entre dos valores 265
6.4 Manejo inverso de la tabla de la N (0, 1) 268
6.4.1 Calculo del valor za tal que p(z < za ) = k

269
6.4.2 Cálculo del valor za tal que p(z > za ) = k

271
6.4.3 Cálculo del valor za tal que p(−za < z < za ) = k

273
6.5 Aproximación de una binomial por una normal 275
7. Inferencia EstadísticaMuestreo 285
7.2 Muestreo probabilístico. Tipos de muestreo 288
7.3 Distribución en el muestreo de la proporción 301
7.4 Distribución en el muestreo de las medias muestrales 304
vi
7.5 Teorema central del límite 308
8. Inferencia estadística Intervalos de confianza 317
8.2 Estimación. Estimación puntual y estimación por intervalos 320
8.3 Intervalos de confianza 323
8.4 Error máximo admisible 338
8.5 Tamaños muestrales 344
8.7 Formulario resumen 354
9. Contraste de Hipótesis 359
9.2 Hipótesis nula y alternativa. Tipos de contraste 364
9.3 Planteamiento general de un problema de contraste 368
9.4 Error en un contraste de hipótesis 390
vii
Pierre-Simon Laplace (Normandía, Francia, 23 de marzo de 17491- París, 5 de marzo de
1827) fue un astrónomo, físico y matemático francés, como estadístico sentó las bases de
la teoría analítica de la probabilidad (Crédito: Jean-Baptiste Paulin Guérin -
http://www.photo.rmn.fr/, Dominio público, https://es.wikipedia.org/)
Prefacio
Este libro digital interactivo se ha diseñado utilizando el editor de
DescartesJS, de tal forma que se pueda leer en ordenadores y
dispositivos móviles sin necesidad de instalar ningún programa o
plugin.
La herramienta Descartes se caracteriza por una innata interactividad,

por permitir realizar representaciones de objetos bi y tridimensionales,
por gestionar expresiones de texto y de fórmulas, por integrar objetos
multimedia como imágenes, audios y vídeos, por tener la posibilidad de
reflejar casos concretos y también potenciar la conceptualización de
tareas y procedimientos mediante la utilización de semillas aleatorias y
controles numéricos, gráficos y de texto, y con ellos poder abordar la
evaluación de manera automática, tanto la correctiva como la
formativa. Con Descartes es posible el diseño y desarrollo de objetos
educativos que promueven el aprendizaje significativo, posibilitando
esa deseada construcción del conocimiento.1
El libro es una tercera versión del publicado por los mismos autores
en el proyecto iCartesiLibri (Estadistica Probabilidad e Inferencia).
1
Véase https://proyectodescartes.org/iCartesiLibri/descripcion.htm.
9
Parte I
Estadística unidimensional
José R. Galo Sánchez

Francis Galton (Birmingham, 16 de febrero de 1822 - Haslemere, Surrey, 17 de enero de
1911) fue un polímata, antropólogo, geógrafo, explorador, inventor, meteorólogo,
estadístico, psicólogo y eugenista británico, creó el concepto estadístico de correlación y
regresión hacia la media (Crédito: Eveleen Myers - http://www.npg.org.uk/collections/,
Dominio público, https://es.wikipedia.org/).
1.1 Introducción
Vivimos en un mundo que cambia de forma acelerada. Todos
formamos parte de una monumental gran base de datos a la que
continuamente acceden y utilizan desde los estados y grandes
multinacionales hasta el negocio más pequeño o el individuo más
alejado de la última aldea de cualquier país. Ya nada es ajeno a nadie.
Lo que ocurre en cualquier lugar del mundo es presentado por los
medios de comunicación prácticamente en directo en los salones de
las casas o en los teléfonos inteligentes de cada individuo,
estableciéndose así multitud de interrelaciones que avivan la
interdependencia de todos y todo termina por influir de un modo u
otro en el resto. Esta nueva situación de aldea global proporciona a la
estadística un nuevo y mayor protagonismo en prácticamente todos
los aspectos de la vida.
Todas las ciencias, animadas por las nuevas posibilidades que

permiten el manejo y la rápida transmisión de imponentes bases de
datos utilizan a la estadística como herramienta básica de su
espectacular desarrollo.
Este nuevo contexto nos sitúa en un punto de partida inicial

motivante para iniciar nuestro curso.
Como ya se ha mencionado, el primer contacto que se suele tener con

la Estadística suele ser a través de los medios de comunicación. La
lectura rápida de cualquier periódico enfoca nuestra atención en los
titulares y en la imagen de portada. Es aquí donde se suelen presentar
las tablas y gráficos estadísticos que tienen la gran virtud de actuar
como elemento acaparador de atención, aunando tanto una capacidad
importante de información como una gran facilidad y sencillez a la
hora del descifrado de la misma.
13
Esta primera idea que todos tenemos puede suponer un aceptable
punto de partida inicial para comenzar nuestro curso.
La palabra Estadística etimológicamente deriva de la palabra "status",

que significa estado o situación.
Vamos a reflejar algunas pinceladas rápidas sobre la aparición de la

Estadística, o algo parecido a ella, en algunos momentos históricos.
1.1.1 Un poco de historia
Seguramente para encontrar pistas sobre el origen de la estadística,

tendríamos que remontarnos a antes del comienzo mismo de la
propia Historia. Restos arqueológicos y monumentos prehistóricos
contienen signos y muescas que pueden interpretarse como
referencias a posibles anotaciones sobre cantidades, probablemente
de ganado y caza que pueden indicarnos un rudimentario sistema de
control sobre determinados datos.
14
En muchos monumentos egipcios se encontraron interesantes
estelas, jeroglíficos, en una palabra, "documentos" en los que se
puede interpretar una gran organización y administración estatal en
lo que se refiere a contabilización de riqueza agrícola, ganadera e
industrial, así como a movimientos poblacionales, censos, etc.
En la cultura asiria o mesopotámica se conservan tablillas con

inscripciones cuneiformes sobre importantes datos estadísticos
referentes a producciones agrícolas, ganaderas, así como también
datos sobre contabilidad, medicina, astronomía, etc.
15
En la Biblia también podemos encontrar referencias estadísticas. Así
por ejemplo, en uno de los libros del Pentateuco, bajo el nombre de
Números, puede leerse lo que podría interpretarse como el censo
que realizó Moisés después de la salida de Egipto.
“Haz un censo general de toda la asamblea de los hijos de Israel, por

familias y por linajes, describiendo por cabezas los nombres de todos
los varones aptos para el servicio de armas en Israel”.
En China aparecen innumerables documentos con referencias a

poblaciones, censos, recuentos bienes agrícolas, ganaderos, de origen
militar. Por ejemplo, en uno de sus clásicos "Shu-King" escrito hacia el
año 550 a.C., Cunfucio nos narra cómo el Rey Yao en el año 2238
mandó hacer una estadística agrícola, industrial y comercial en todos
sus dominios.
16
Grecia, la cuna del pensamiento occidental, también tuvo
importantes observaciones estadísticas en lo que refiere a
distribución de terreno, servicio militar, etc.
Es en Roma donde puede decirse que la Estadística adquiere un gran

desarrollo. La burocracia romana utiliza la Estadística como
instrumento de apoyo a la gran capacidad organizativa política,
jurídica y administrativa del imperio. Una muestra es el Census que
se realizaba cada 5 años y que tenía por objeto no sólo saber el
número de habitantes, sino también su cantidad de bienes. El propio
origen de la cultura cristiana está ligado a uno de los censos romanos
La Iglesia, después del Concilio de Trento estableció la obligación de

la inscripción de nacimientos, matrimonio y defunciones de la
población cristiana, con lo que se erige como creadora y también
custodia de una impresionante base de datos de los cuales se han
servido posteriormente las ciencias sociales para la elaboración de
multitud de estudios.
17
En la edad moderna se produce un gran desarrollo científico-
matemático que enriquece mucho a la Estadística. Científicos
importantes de esta época como Copérnico, Galileo, Bacon,
Descartes…, contribuyen al desarrollo de lo que se conoce como el
método científico donde la estadística tiene un papel fundamental.
Blaise Pascal y Christiaan Huygens, en el siglo XVII, realizan trabajos

con bases de datos relativas a nacimientos y defunciones y la
influencia de causas naturales y sociales en estas variables.
En el siglo XIX la estadística entra en una nueva fase de su desarrollo

con el auge y generalización del método científico en todas las
ciencias, tanto naturales como sociales. Figuras muy relevantes de
esta época serían Francis Galton (1822 - 1911) y Karl Pearson (1857
– 1936), verdaderos pioneros de la estadística moderna.
18
Siguiendo los pasos de Galton, Ronald Fisher (1890 – 1962), en su
publicación Métodos estadísticos para investigadores establece los
fundamentos de la metodología estadística actual.
Con la aparición de los ordenadores, en la segunda mitad del siglo XX,

la estadística entra en una nueva era en la que metodología gira hacia
técnicas de computación rápidas e iterativas que permiten actuar
sobre grandes bases de datos en muy poco tiempo. Los paquetes
estadísticos se popularizan y su aplicación en las distintas ciencias
también.
Así pues, la estadística aparece a lo largo de la historia como un

poderoso instrumento utilizado por gobiernos e instituciones así
como tambien elemento auxiliar de las distintas ciencias, ayudando a
estas a desentrañar las grandes preguntas que la curiosidad del ser
humano siempre ha perseguido; es decir: qué variables intervienen
en un fenómeno, que leyes permiten el comportamiento de las
mismas y qué relación de dependencia hay entre ellas.
19
Video
En el siguiente vídeo, elaborado por la UNED, podemos ver una
historia de la Estadística.
Video 1.1. Vídeo enlazado desde YouTube, licencia de YouTube estándar
1.1.2 Definición de Estadística
La estadística, en general, es la ciencia que trata de la recopilación,

organización presentación, análisis e interpretación de datos que
intervienen en un fenómeno, con el fin de realizar una perfecta
descripción y en gran parte inferir resultados o tomar decisiones.
20
Dentro de la estadística se distinguen dos ramas fundamentales,
Estadística Descriptiva: Puede decirse que la estadística

descriptiva trata fundamentalmente la presentación de datos en
forma de tablas y gráficas. El cálculo de parámetros definidores y
transcriptores de muchas de las características de la población
estudiada. Mediante la Estadística Descriptiva emprendemos
actividades relacionadas con la presentación y diseño de gráficos
que resumen e implementan la información pero sin factores
adicionales que vayan más allá de la propia descripción
Estadística Inferencial: Teniendo como origen el estudio de las
muestras, la estadística inferencial trata de deducir a partir de ellas
aspectos generales de la población. Como consecuencia dedicará un
énfasis especial al estudio de los métodos que permitirán la
realización de dichas generalizaciones así como al grado de
fiabilidad de las mismas.
Escena 1.1. Escena desarrollada por Héctor Javier Herrera Mejía y John Jairo García Mora.
21
En la anterior escena interactiva tienes una introducción a la
Estadística.
1.2 Conceptos generales

A continuación recordamos algunos de los conceptos generales
relacionados con la estadística.
Es obvio que todo estudio estadístico ha de estar referido a un

conjunto o colección de objetos. Este conjunto de personas o cosas es
lo que denominaremos población.
Cada uno de estos objetos que forman parte de la población se

denominan elemento o individuo. En sentido estadístico un
individuo puede ser algo con existencia real, como un automóvil o
una casa, o algo mucho más abstracto como la temperatura, una
opinión, un voto, un sentimiento o un intervalo de tiempo.
A su vez, cada elemento de la población tiene una serie de

características que pueden ser objeto del estudio estadístico
(carácter). Así, por ejemplo, si consideramos como elemento a una
persona, podemos distinguir en ella multitud de caracteres como el
sexo, la edad, estatura, peso, color de pelo, nivel de estudios, etc.
Normalmente en un estudio estadístico hay muchos condicionantes y

de distinta naturaleza que impiden trabajar con todos los elementos
de la población, por tanto, se suele recurrir a un subconjunto de la
misma.
Una muestra es cualquier subconjunto de una población. Cuando los

elementos que componen la muestra están escogidos aleatoriamente
y todos los elementos tienen la misma probabilidad de ser elegidos
diremos que la muestra es aleatoria simple.
22
Variables Cualitativas o Atributos. Los atributos son aquellos
caracteres que no pueden ser descritos numéricamente, (al menos
en principio). Para su descripción utilizamos la palabra, el
sustantivo, adjetivo y adverbio fundamentalmente. Por ejemplo:
Sexo profesión, estado civil, color de ojos, color de pelo,
nacionalidad, etc.
A su vez se pueden clasificar en:
Ordenables: Aquellas que sugieren una ordenación o son

susceptibles de ella, por ejemplo la graduación militar, El nivel
de estudios o grado de satisfacción.
No ordenables: Aquellas que sólo admiten una mera
ordenación alfabética, pero no establece orden por su
naturaleza, por ejemplo el color de pelo, sexo o estado civil.
Variables Cuantitativas. Son las que pueden ser descritas por
medio de números.
Dentro de éstas a su vez se pueden destacar:
Cuantitativas discretas. Aquellas a las que se les puede asociar

un número entero, es decir, aquellas que por su naturaleza no
admiten un fraccionamiento de la unidad, por ejemplo
número de hermanos, páginas de un libro, etc.
23
Cuantitativas continuas. Aquellas que no se pueden expresar
solamente mediante un número entero, es decir, aquellas que
por su naturaleza admiten que entre dos valores cualesquiera
la variable pueda tomar cualquier valor intermedio, por
ejemplo peso, tiempo. etc…
No obstante, en muchos casos el tratamiento estadístico hace

que variables discretas sean tratadas como si fuesen continuas.
Esto ocurre por ejemplo en casos en los que la variable toma un
gran número distinto de valores enteros.
En las siguientes escenas del subproyecto ED@D (Educación Digital

con Descartes) de la RED Descartes podrás practicar un poco con los
conceptos anteriores.
Escena 1.2. Escena desarrollada por Juan Jesús Cañas Escamilla(RED Descartes)
24
1.3 Tabulación y gráficos estadísticos

El paso siguiente a la recogida de datos en un trabajo de campo es
una primera presentación de los mismos de manera que dicha
representación sea fácil de visualizar, sencilla de interpretar y
directa. Estas cualidades se reflejan bastante bien en las tablas
estadísticas. Las listas, boletines y actas de notas, clasificación de
equipos con puntuaciones, detalles de los goles, todo son en realidad
tabulaciones de datos.
Con bastante frecuencia y como complemento a las tablas se recurre

a los gráficos estadísticos. La mayor parte de la información que
recibimos hoy en día proviene fundamentalmente de los medios de
comunicación de masas.
25
En prensa, internet y televisión fundamentalmente, y también en las
ciencias sociales, se recurre de manera muy habitual a los gráficos
estadísticos (pictogramas, climogramas, pirámides de población,
diagramas de barras, de sectores) como elementos aglutinadores de
la información a la par que fáciles de descifrar. Los gráficos
estadísticos por tanto, constituyen también una herramienta
fundamental en lo que se refiere a una primera información sencilla y
rápida de las características más elementales de una distribución
estadística.
26
1.3.1 Tabulación de datos y gráficos estadísticos
Cualquier estudio estadístico comienza con la recogida de datos. Esta

recogida puede ser física y directa o virtual mediante la importación
de ficheros procedentes de distintas instituciones u organismos.
El segundo paso es la presentación de estos datos de forma sencilla,

coherente y a ser posible atractiva para el lector. En este sentido, la
estadística dispone los datos generalmente en tablas y se ayuda, a su
vez, en muchas ocasiones de gráficos que resumen o aclaran aspectos
reseñables de la distribución.
La forma más sencilla de tabular una variable estadística es mediante

columnas. En la primera se proponen los distintos valores,
generalmente ordenados, de la variable estadística o del
correspondiente atributo. En la segunda, la cuantificación de esos
valores en nuestro estudio, esto es las frecuencias absolutas. De esta
forma efectuamos una tabulación mínima.
Desde el punto de vista didáctico, la tabulación se completa con

varias columnas más en las que se anotan también las frecuencias
relativas, y las acumuladas, tanto absolutas como relativas.
27
Generalmente las tablas que nos encontraremos reunirán la
información mínima necesaria para la representación gráfica y el
cálculo de parámetros estadísticos fundamentales en una
distribución.
Para el caso de un carácter cualitativo:
En la primera columna aparecen las distintas modalidades del

caracter.
En la segunda las correspondientes frecuencias absolutas.
Puede aparecer una tercera columna reservada para las
frecuencias relativas o si se desea para los porcentajes.
Observa lo anterior en la siguiente imagen:
Y ahora realiza algunos ejercicios de tabulación en la siguiente

escena interactiva.
28
Para el caso de una variable discreta
En la primera columna aparecen los valores de la variable

En la segunda columna las frecuencias absolutas.
En la tercera el producto de valores de la variable por sus
correspondientes frecuencias absolutas. Esta columna sirve
para el cálculo de la media aritmética.
En la cuarta columna el producto de los cuadrados de los
valores de la variable por sus respectivas frecuencias. Esta
columna nos permite calcular la varianza y desviación típica.
En la quinta columna aparecen los valores de las frecuencias
acumuladas. Esta columna interviene en el cálculo de todas las
medidas de posición; mediana, cuartiles, percentiles...
29
Observa una tabulación mínima en la siguiente imagen:
Y ahora realiza algunos ejercicios de tabulación en la escena

interactiva presentada en la siguiente página.
Para el caso de una variable continua:
La tabla anterior de variable discreta se complementa con las

columnas primera y segunda que corresponderán a los valores
del límite inferior y límite superior de los intervalos.
Una cuarta columna en la que aparecen las marcas de clase,
(puntos medios de cada intervalo), estos valores serán los que
representen a cada intervalo en los cálculos de media
aritmética, varianza y desviación típica.
Cuando la amplitud de los intervalos no es la misma, se añade
una columna más en la que se representan las frecuencias
absolutas normalizadas (división entre frecuencia absoluta y
amplitud del intervalo). Esta columna es la que se utiliza para
el cálculo de la moda en este caso especial de diferente
amplitud de los intervalos.
30
Observa una tabulación mínima en la siguiente imagen:
Y ahora realiza algunos ejercicios de tabulación en la siguiente

escena interactiva.
31
Escena 1.6. Escena desarrollada por José Ireno Fernández Rubio, María José García
Cebrian y Consolación Ruiz Gil(RED Descartes)
1.3.2 Gráficos estadísticos
Diagramas de barras
El diagrama de barras es, junto al de sectores, el gráfico más utilizado

para variable cualitativa y cuantitativa discreta. Se utiliza como
complemento a la tabla de frecuencias o incluso en algunos casos
como sustitución de ésta.
32
En el eje de abscisas se sitúan a igual distancia los distintos atributos
o bien los valores discretos de la variable y posteriormente a partir
de cada atributo o valor discretos se levantan barras de igual grosor y
cuya altura sea la de la correspondiente frecuencia absoluta
observada.
En la siguiente escena puedes observar como se construyen

diagramas de barras y practicar realizando algunos ejemplos.
Y ahora practica en la escena interactiva de la siguiente página,

realizando tú los gráficos.
33
Diagrama de sectores
Tiene la misma filosofía de construcción que el diagrama de barras

pero la representación en sectores circulares, figuradamente trozos
de tarta. Requiere previamente que mediante proporcionalidaad
directa asignemos a cada fecuencia absoluta un determinado ángulo.
En las siguientes escenas puedes observar como se construyen

diagramas de sectores (pasa el ratón por los recuadros de colores).
34
Y ahora practica realizando tú los gráficos.
35
Histograma
Este tipo de gráfico es el que se utiliza con más frecuencia en el caso

de variables cuantitativas continuas. Los datos se representan
mediante rectángulos de base igual a la amplitud del intervalo y
altura igual a la frecuencia absoluta si todos los intervalos tienen la
misma amplitud.
Si no se cumple esta premisa de igualdad de amplitud, las alturas de

los rectángulos serán calculadas de tal manera
que el área total de cada rectángulo
represente o sea proporcional a la
correspondiente frecuencia absoluta,
esto habitualmente se conoce con el
nombre de normalidar las frecuencias,
(dividir cada frecuencia entre la amplitud
del intervalo).
Si se unen los centros de los segmentos
superiores de cada rectángulo, se obtiene
una figura poligonal conocida como
Polígono de frecuencias.
Cuando realizamos los gráficos anteriores utilizando
las frecuencias acumuladas obtenemos el denominado
histograma de frecuencias acumuladas y el
polígono de fecuencias acumuladas.
En la escena de la siguiente página, puedes generar
datos, hacer el recuento y ver el histograma
correspondiente.
36
También se traza el histograma de las frecuencias acumuladas, en
cada dato se acumula la frecuencia de los datos anteriores.
Cebrian y Consolación Ruiz Gil (RED Descartes)
37
1.4 Medidas de centralización y de posición
Todos sabemos lo que significa la nota media de los exámenes de un
curso, o el hermano mediano en una familia o seguir la moda en
cuanto a determinada tendencia. En estadística vamos a estudiar
ciertos valores que resuman la tendencia habitual o central de los
datos de una distribución. A los parámetros o medidas estadísticas
que informan sobre la tendencia habitual o central de los datos de
una distribución se les denomina en estadística medidas de
tendencia central. Las más utilizadas son la media aritmética, la
mediana y la moda.
38
1.4.1 Media aritmética
La palabra media, se ha incorporado al diccionario de cualquier

persona. Continuamente nos estamos refiriendo a ella desde todos
los órdenaes de la vida. hablamos de gasto medio, de sueldo medio,
consumo eléctrico medio, notas medias, estar por encima de la media
en consumo de tal cosa, inflacción media etc... En estadística la
definición de media aritmética es muy sencilla. La media aritmética se
define como la suma de todos los datos dividida entre el número total
de los mismos. A veces no dispondremos de los valores concretos de
los datos sino de una agrupación de los mismos en intervalos. En
estos casos tendremos que elegir un valor de cada intervalo y que
intervendrá en representación del mismo en el cálculo de la media.
Como habitualmente dispondremos de una tabla de datos con sus
correspondientes frecuencias absolutas, aplicaremos la siguiente
fórmula:
39
ˉ = x1 ⋅ f1 + x2 ⋅ f2 + ⋯ + xn ⋅ fn
X

N
Abreviadamente:
n
ˉ = ∑i=1 xi ⋅ fi
X

De la propia definición de media aritmética se desprenden algunas

características y comentarios acerca de este parámetro, como por
ejemplo:
El sumatorio de las restas de cada término respecto de la media es

igual a cero.
Si todos los datos de una distribución son iguales, la media
aritmética coincide con dicho dato.
La media no tiene porqué ser un valor propio de la variable.

Es muy sensible a cambios y valores extremos en los datos.
Se comporta de forma natural en relación a las operaciones
aritméticas suma y producto por un escalar; es decir si a todos los
datos de una distribución se les suma una misma cantidad, la media
resultante sería la anterior más dicha cantidad. Si multiplicamos
(dividimos) todos los datos de una distribución por una cantidad
distinta de cero, la media resultante sería la anterior multiplicada
(dividida) por dicha cantidad. En resumen:
X′ = a ⋅ X ⟹ X ˉ′ = a ⋅ X
ˉ ⋅b
a, b ∈ R
a= 0
40
Para el caso de variable continua, sola-
mente tenemos que sustituir xi por ci ,

siendo ésta última la marca de clase de

cada intervalo; es decir, el punto medio o n
valor central de cada intervalo. Por ˉ = i=1 ci ⋅ fi
X
∑
abuso de lenguaje se suele utilizar N

indistintamente también para variables
continuas el símbolo xi para las marcas

de clase
Practica con el cálculo de la media para variable discreta.
Escena 1.12. Escena desarrollada por José Ireno Fernández Rubio (RED Descartes)
41
Observa ejemplos para el cálculo de la media para variable discreta y
continua.
42
En esta otra escena puedes ver más ejemplos.
Cebrian y Consolación Ruiz Gil (RED Descartes)
43
Para completar el estudio sobre la media también puedes consultar
más información sobre la Media ponderada pulsando sobre la
imagen siguiente:
y sobre la Media geométrica y la Media armónica pulsando sobre

esta otra imagen:
1.4.2 Mediana
Todo el mundo entiende cuál es el hijo mediano de un matrimonio o lo

que significa tener una altura mediana.
44
Estamos ante un parámetro que prioriza más la posición que ocupa el
dato en cuestión que el propio valor en sí mismo.
Supongamos tres hermanos de 2, 7 y 10 años respectivamente. La

mediana en este caso es 7. Si otra familia también tiene tres hijos de
6, 7 y 15 años, la mediana también es 7. Hemos cambiado los datos
extremos y sin embargo la mediana no ha variado. Se define la
mediana como aquel valor de la variable estadística que deja el 50%
de observaciones inferiores a él; así pues, la mediana divide en dos
partes iguales a la distribución estadística. A partir de la definición se
pueden extraer unas primeras propiedades de la mediana:
Como medida descriptiva no se ve afectada tanto como la media

por la presencia de valores extremos.
Es de cálculo rápido, al menos en el caso discreto, y de fácil
interpretación.
Como inconveniente también hay que decir que tiene propiedades
matemáticas complicadas que hacen que se utilice poco en
inferencia estadística.
En el caso continuo se puede razonar exactamente igual

identificando en este caso el intervalo mediana.
Si queremos asociar a la mediana un valor representativo del

intervalo, muchos autores señalan simplemente la marca de clase de
dicho intervalo y otros están de acuerdo en utilizar una fórmula que
interpola linealmente el valor en el intervalo en el que se encuentre la
mediana.
45
N
2 − Fi−1
M e = Li−1 + ⋅a

fi

Li−1 = Lˊımite inferior del intervalo mediana

a = Amplitud del intervalo mediana
Fi−1 = Frecuencia acumulada anterior al intervalo mediana

fi = Frecuencia absoluta del intervalo mediana

N = Total de datos
En la siguiente escena
puedes practicar con el
cálculo de la mediana en
casos muy sencillos,
(pocos datos) y en otros
en los que es necesaria la
tabulación de los datos.
Puedes también
observar el polígono de
frecuencias acumuladas
y la interpretación
gráfica de la mediana que
se hace sobre este
polígono en caso de
variable discreta.
Escena 1.15. Escena desarrollada por Juan Jesús Cañas

Escamilla(RED Descartes)
En la siguiente escena puedes realizar ejercicios de cálculo de la

mediana para caso discreto y del intervalo mediana para el caso
continuo.
46
Nota: Para realizar ejercicios con la calculadora pasa al apartado

número 6 de este tema.
1.4.3 Moda
Cuando alguien nos dice que determinada cosa está de moda, por
ejemplo un equipo de fútbol, una canción, una prenda de vestir, un
oficio, una tendencia u opinión política, etc., entendemos que ese algo
es muy frecuente en nuestro entorno y que por tanto nos lo vamos a
encontrar con mucha frecuencia.
47
Se define la moda como el valor de la variable estadística que tiene la
frecuencia absoluta más alta. Si existen varios valores con esta
característica, entonces se dice que la distribución tiene varias modas
(distribución plurimodal).
Esta medida de centralización se puede calcular también en el caso

de un carácter cualitativo y es sin duda la de más fácil cálculo. Se
suele utilizar como complemento a la media aritmética y mediana ya
que por sí sola no aporta una información determinante de la
distribución.
Como principales características de la moda se pueden mencionar:
Es el único parámetro que tiene sentido también para

variables cualitativas.
No es tan sensible como la media aritmética a valores
extremos.
En el caso de variable continua se puede hablar de intervalo modal. Si

queremos asociar un valor concreto del intervalo, algunos autores
acuerdan utilizar la marca de clase y otros, cuando la amplitud de los
intervalos es la misma, una fórmula que interpola linealmente el valor
en el intervalo a partir de los intervalos anterior y posterior.
48
D1
M o = Li−1 + a ⋅

D1 + D2

Li−1 = Lˊımite inferior del intervalo modal

a = Amplitud de los intervalos
D1 = Diferencia de la frecuencia absoluta entre el intervalo modal

y el anterior

D2 = Diferencia de la frecuencia absoluta entre el intervalo modal

y el siguiente
En la siguiente escena puedes practicar con el cálculo de la moda para

variable discreta. También puedes relacionar el valor modal con el
diagrama de barras en cada ejercicio que realices.
49
En la siguiente escena puedes practicar con el cálculo del intervalo
modal para variable continua en el caso en que los intervalos tengan
la misma amplitud. También en la escena puedes relacionar el valor
modal con el histograma de frecuencias absolutas.
Escena 1.18. Escena desarrollada por José Ireno Fernández Rubio(RED Descartes)
¿Cómo proceder cuando en una variable continua los intervalos de

agrupación de los datos no son todos de la misma amplitud? Pulsa
sobre la siguiente imagen y podrás verlo:
50
En las siguientes escenas puedes practicar con el cálculo de la moda y
resto de parámetros para variables discretas, continuas y también
continuas con intervalos de diferente amplitud. Es conveniente que
realices algunos ejercicios de forma manual y que compruebes los
resultados con los que se obtienen en la escena.
Variable discreta
51
Variable continua
Nota: Para realizar ejercicios con la calculadora pasa al apartado

número 6 de este capítulo.
1.4.4 Cuartiles
Hay ciertos valores en una distribución estadística que si se

sobrepasan por exceso o por defecto pueden ser signo de alguna
disfunción. Pensemos en el caso de los controles de crecimiento del
feto en el embarazo o en los valores de seguridad de azúcar o
colesterol en sangre.
52
Estos valores en estadística están relacionados con los parámetros
de posición.
Los cuartiles constituyen las más populares de las medidas de

localización. Se utilizan continuamente en multitud de disciplinas y
representan valores estratégicos en cualquier distribución
estadística ya que siguiendo el mismo patrón que la mediana, dividen
a dicha distribución de tal forma que:
El primer cuartil Q1 es el valor de la variable que deja por debajo de

ella al 25% de los valores de la población.

53
El segundo cuartil Q2 o M e es el valor de la variable que deja por

debajo al 50% de la población. Coincide con la mediana.

El tercer cuartil Q3 es el valor de la variable que deja por debajo de

ella al 75% de la población.
Para la variable continua, se puede razonar exactamente de la misma

forma, identificando en este caso el intervalo cuartil primero o tercero.
Si queremos asociar valores representativos del intervalo a los
cuartiles, muchos autores señalan simplemente la marca de clase de
dichos intervalos y otros están de acuerdo en utilizar una fórmula que
interpola linealmente los valores en los correspondientes intervalos.
N
4 − Fi−1
Q1 = Li−1 + ⋅a

fi
Li−1 = Lˊımite inferior del intervalo Q1
a = Amplitud del intervalo Q1
Fi−1 = Frecuencia acumulada anterior a Q1
fi = Frecuencia absoluta del intervalo Q1
N = Total de datos
3⋅ N
4
− Fi−1
Q3 = Li−1 + ⋅a

fi

Li−1 = Lˊımite inferior del intervalo Q3
a = Amplitud del intervalo Q3
Fi−1 = Frecuencia acumulada anterior a Q3
fi = Frecuencia absoluta del intervalo Q3
N = Total de datos
54
En las escenas de cálculo de la moda, para variables discreta o
continua, del apartado anterior, puedes introducir datos y calcular,
además de los cuartiles y percentiles, los demás parámetros
estadísticos.
En la siguiente escena puedes practicar con el cálculo de cuartiles

para variable discreta y continua.
55
Ahora puedes experimentar cómo los valores atípicos influyen
sensiblemente en la media y en los cuartiles, y esa influencia es
menor para la mediana.
Escena 1.22. Escena desarrollada por osé R. Galo Sánchez (RED Descartes)
1.4.5 Diagrama de caja y bigotes (Box-whisker)
Este tipo de diagramas lo han popularizado mucho los distintos

paquetes estadísticos que circulan por el universo informático y
algunas calculadoras científicas, que en su modo de estadística, son
capaces de generarlos. Se trata de un dibujo muy sencillo que refleja
también de forma muy simple muchas de las características de la
distribución.
56
Se construyen fundamentalmente a partir de la información que
ofrecen la mediana y los cuartiles primero y tercero. Son los
denominados diagramas de caja y bigotes. Para la construcción
del rectángulo, la caja, solamente necesitamos las cotas que serán los
valores de Q1 y Q3 y para la longitud de los bigotes los valores

mínimo y máximo de la distribución. Los segmentos se dibujaran de

forma continua o no dependiendo de la presencia de lo que se
denominarán valores atípicos.
Para empezar, en la escena de la siguiente página puedes construir el

diagrama con unos pocos datos.
57
Escena 1.23. Escena desarrollada por Juan Guillermo Rivera Berrío (RED
Descartes)
58
En la siguiente escena podemos ver con más detalle cómo
se construye este tipo de diagramas.
Escena 1.24. Escena desarrollada por María José García Cebrian (RED Descartes)
59
Ahora puedes practicar y comprobar si has comprendido el
significado y los elementos de los diagramas de cajas y bigotes.
Escena 1.25. Escena desarrollada por María José García Cebrian (RED Descartes)
Valores atípicos
La representación gráfica de los datos de una distribución estadística

mediante los box-whisker se ha popularizado mucho y ofrece una
primera visión gráfica muy acertada de las características principales
de los elementos de la distribución.
El diagrama de cajas y bigotes nos proporciona información de cómo

se encuentran concentrados los datos.
60
Sin embargo para saber si hay algún valor más alejado o atípico que
pueda influir distorsionando el estudio de los diferentes parámetros
estadísticos, algunos autores consideran el siguiente criterio para
distinguir y localizar a dichos posibles valores atípicos
⎧x > Q3 + 1, 5 ⋅ (Q3 − Q1 )
x es valor atˊıpico ⟺ ⎨o

⎩

x < Q1 − 1, 5 ⋅ (Q3 − Q1 )

Cuando existen estos valores, el convenio que existe es dibujarlos en

el box-whisker como puntos aislados en lugar de unirlos de forma
continua mediante un segmento.
En la animación de la siguiente página puedes observar cómo se

detectan los valores atípicos aplicando el criterio anterior.
Animación 1.1. Animación desarrollada por (RED Descartes)
61
Veamos otro ejemplo:
Supongamos que en una clase se pregunta por el número de

hermanos que tienen los alumnos y se distribuyen los datos en la
siguiente tabla. Nos preguntamos si alguno de los datos de la tabla
puede considerarse atípico o aislado.
No de Frecuencia
Frecuencia
hermanos acumulada
0 2 2
1 8 10
2 15 25
3 6 31
7 1 32
9 1 33
3 33 ⋅ 3
= 8, 25 ⟹ Q1 = 1
= 24, 75 ⟹ Q3 = 2
4 4

Valores aislados por la izquierda
x < Q1 − 1, 5 ⋅ (Q3 − Q1 ) ⟹ x < 1 − 1, 5 ⋅ (2 − 1) ⟹ x < −0, 5

No hay valores aislados por la izquierda
Valores aislados por la derecha
x > Q1 + 1, 5 ⋅ (Q3 − Q1 ) ⟹ x > 2 + 1, 5 ⋅ (2 − 1) ⟹ x > 3, 5

x = 7 y x = 9 serían valores aislados por la derecha.
62
1.5 Medidas de dispersión
Un alumno tiene tres exámenes con notas 6, 5 y 4 y otro alumno con
notas 1, 5 y 9. Las notas medias de ambos es 5 y la mediana también 5
, sin embargo estos parámetros no describen las características de
ambas distribuciones puesto que se observa claramente que las
notas del primer alumno son más homogéneas que las del segundo.
Por lo general, las medidas de centralización no detectan ciertas

circunstancias de la distribución que son muy importantes y que
deben tenerse en cuenta en lo que respecta a la descripción de dicha
distribución. Las medidas de dispersión indican si los datos están
más o menos agrupados respecto de las medidas de centralización.
Fundamentalmente respecto a la media aritmética.
63
1.5.1 Rango y desviación media
En muchos procesos de fabricación se requiere mucha precisión en

las medidas de determinadas piezas. Es extremadamente difícil
conseguir medidas exactas puesto que toda máquina construida por
el hombre es susceptible del error, no existe la máquina de precisión
perfecta. Sin embargo, a pesar de estas mínimas diferencias, hay
algunas piezas que deben rechazarse puesto que no cumplen con los
criterios de medición que establecen. ¿Hasta qué punto las
diferencias observadas son admisibles, pues no ocasionan ningún
tipo de problema en el engranaje de dichas piezas? En estos criterios
aparecen involucradas las medidas de dispersión, y entre ellas el
rango y la desviación media.
Llamamos rango o recorrido, a la diferencia entre el mayor y el

menor valor de la variable, indica la longitud del intervalo en el que se
hallan todos los datos de la distribución. El rango es una medida de
dispersión importante aunque insuficiente para valorar
convenientemente la homogeneidad de los datos, de ahí que deba
complementarse con otras medidas.
64
En este sentido encontramos la variación media que nos sirve para
calcular cuánto se desvían en promedio los datos de la media
aritmética. Se define como la media de los valores absolutos de las
diferencias entre la media aritmética y los diferentes datos. No es
una de las medidas de dispersión más usuales.
ˉ ∣ ⋅ fi
∑i=1 ∣∣xi − X
n
Dm =

∣
N

En la siguiente escena puedes practicar con el cálculo del rango y la

desviación media de variable tanto discreta como continua.
65
1.5.2 Varianza
La medida de dispersión más popularizada es sin duda la varianza.

La filosofía de esta medida es la misma que la de la desviación media;
esto es, detectar las variaciones de cada valor respecto a la media
aritmética. Sin embargo para ello en lugar de utilizar el valor
absoluto, eleva esas diferencias al cuadrado, con ello evita posibles
compensaciones, dado que todos los términos son positivos, y
además al elevarlas al cuadrado amplifica estas diferencias si son
mayores a uno en valor absoluto y las minora en caso de ser menores
de uno (también en valor absoluto). Por último, considera el
promedio de dichas diferencias al que denomina varianza.
Del mismo modo que ocurre para la media, la varianza es un

parámetro muy sensible a las puntuaciones extremas. Ademas, las
unidades en que se mide no son las mismas que las de los datos de la
distribución.
Comparando con el mismo tipo de datos, una varianza elevada

significa que los datos están más dispersos. Mientras que un valor de
la varianza bajo indica que los valores están por lo general más
próximos a la media.
Un valor de la varianza igual a cero implicaría que todos los valores

son iguales, y por lo tanto también coinciden con la media aritmética.
n ˉ ) ⋅ fi
∑i=1 (xi − X
2 2
S =σ =

66
Algunas propiedades de la varianza:
La varianza es un valor siempre positivo.
Var(X) > 0
Si a todos los datos se les suma una constante, la varianza de

esos datos sigue siendo la misma.
Var(X + b) = V (X)
Si todos los datos se multiplican por una constante, la varianza

queda multiplicada por el cuadrado de la constante.
Var(a ⋅ X) = a2 ⋅ V (X)
Las dos propiedades anteriores suelen resumirse de la

siguiente forma:
Var(a ⋅ X + b) = a2 ⋅ V (X)
Si se disponen de dos variables independientes
Var(X + Y ) = Var(X) + Var(Y )
cuando X e Y son independientes
A partir de la definición de la varianza, si se desarrolla la expresión y

simplificando los resultados se obtiene otra expresión para la misma
que permite un cálculo más directo y sencillo.
67
n
∑i=1 x2i ⋅ fi 2
2
S =σ = 2
− (X
ˉ)

Suele recordarse diciendo:
"La varianza es igual a la media de los cuadrados menos el cuadrado de la

media"
El principal inconveniente que presenta la varianza es que las

unidades no son las mismas que las de los datos de la distribución (se
ha elevado al cuadrado). Esto se solventa con la definición de un
nuevo parámetro que se calculará a partir del anterior que es la
desviación típica y que definimos en el siguiente apartado.
1.5.3 Desviación típica.
La estadística ha irrumpido en todas las facetas de la vida. En el

mundo del deporte también desde hace tiempo. Los ojeadores y
cazatalentos americanos fundamentalmente de baloncesto o de
beisbol utilizan las estadísticas de los jugadores como elementos
clave a la hora de negociar traspasos o contratos. Dentro de los
parámetros que se estudian en cada jugador, la desviación típica en
alguna de las facetas del juego pueden ser un magnífico elemento que
defina un jugador como muy seguro o como irregular.
El término desviación típica fue incorporado a la estadística por

Karl Pearson en 1894. La principal ventaja que representa la
desviación típica respecto a la varianza es que su unidad de medida
es la misma que la de los datos. Esto hace mucho más sencilla la
posible interpretación.
68
La desviación típica es una medida del grado de dispersión de las
observaciones alrededor de su valor medio, se define como la raíz
cuadrada positiva de la varianza. Tiene el mismo cometido que ésta y
además la ventaja de que las unidades en las que se mide son las
mismas que las de los datos de la distribución. Puede considerarse la
medida de dispersión por excelencia y aparece como tecla o función
directa en cualquier calculadora o programa estadístico.
Si partimos de la definición de varianza, la fórmula para el cálculo de

la desviación típica sería:
2
∑i=1 (xi − X
ˉ ) ⋅ fi
n

S=σ=
De la misma forma que en el apartado anterior, si desarrollamos y

simplificamos la expresión anterior se llega a otra mucho más simple
que es la que se utiliza en la práctica y cuya expresión es:
n
∑i=1 x2i ⋅ fi 2
S=σ= − (X )
ˉ

N

Obviamente, cuanto mayor sea la desviación típica, mayor será la

dispersión de los valores de la distribución respecto a la media
aritmética y, por tanto, bajará el nivel de representatividad de ésta
con respecto a las observaciones.
69
Algunas propiedades de la desviación típica son las siguientes:
La desviación típica siempre es mayor o igual que cero.
S(X) = Sx = Var(X) ≥ 0

La desviación típica no varía si a todos los datos le sumamos o

restamos la misma cantidad
S(X + b) = S(X)
Si multiplicamos todos los datos de la distribución por una

cantidad, la desviación típica también queda multiplicada por
dicha cantidad
S(a ⋅ X) = a ⋅ S(X)
Las dos propiedades anteriores se suelen resumir en:
S(a ⋅ X + b) = a ⋅ S(X)
En general, la desviación típica está menos influida por las

fluctuaciones de los datos que las demás medidas de
dispersión.
En la página siguiente presentamos dos escenas interactivas. En la

primera, además de la desviación típica, puedes practicar calculando
la varianza de distintas series de datos, tanto para variable discreta
como continua. En la segunda escena puedes practicar con el cálculo
de la desviación típica de variables discretas y continuas.
70
Recuerda que puedes ampliar las escenas, para interactuar con ellas
en una ventana aparte.
71
Puedes practicar con el cálculo de parámetros de dispersión en

ejercicios que tú mismo puedes plantear en el apartado sexto: "6.
Manejo de Calculadora".
72
1.5.4 Coeficiente de variación de Pearson.
Qué es más homogénea, una población de perros con desviación

típica 2Kg u otra de vacas de desviación típica 5Kg ?
Si se realiza un estudio estadístico en dos poblaciones diferentes, y

queremos comparar resultados, no se puede acudir simplemente al
valor de la desviación típica para ver la mayor o menor
homogeneidad de los datos, es decir, el valor numérico por sí solo no
nos indicará que distribución de datos está más o menos dispersa.
Recurrimos para ello a otro parámetro, llamado coeficiente de

variación y que se define como el cociente entre la desviación
típica y la media de una población. Es un coeficiente carente de
unidades y sirve para comparar la dispersión de dos poblaciones
distintas, correspondiendo a la población más homogénea un
coeficiente de variación menor y a la menos homogénea un
coeficiente de variación mayor.
σ
CV = ˉ
73
Practica con el cálculo del coeficiente de variación, en la siguiente
escena.
Puntuaciones típicas o normalizadas
Antonio obtuvo una nota en Matemáticas de 6, 75 en una clase en la

que la media del examen fué 7, 25 y la desviación típica 1, 75. Alberto
en cambio obtuvo una nota de 5, 75 en una clase en la que la media
fue de 4, 75 y la desviación típica de 2. Si suponemos que el profesor
era el mismo, podríamos pensar comparativamente con su clase que
nota es mejor, la de Antonio o la de Alberto. En este sentido, las
puntuaciones típicas sirven para comparar datos correspondientes
de distintas poblaciones.
74
Estas puntuaciones típicas son valores que resultan de dividir la
diferencia de cada valor menos la media entre la desviación típica de
la población. A este proceso también se le suele denominar
tipificación. Una vez efectuada la tipificación obtendremos una
variable estadística cuya media aritmética es cero y cuya desviación
típica es uno.
Las puntuaciones típicas son el resultado de dividir las puntuaciones

diferenciales entre la desviación típica. Este proceso se llama
tipificación.
x−X ˉ
z=
Sx
Escena 1.30. Escena desarrollada por José R. Galo Sánchez (RED Descartes)
75
En la escena anterior, puedes observar, mediante la normalización de
datos, la comparación de las notas dadas a 100 alumnos por dos
profesores. Se presentan cuatro situaciones.
¿Quieres efectuar la comparación de las notas de dos profesores

tuyos? Puedes hacerlo en la siguiente escena, la cual también puedes
utilizar como simulador de situaciones.
x−X ˉ
z=
Sx
76
1.6 Manejo de calculadora.
La utilización de calculadoras en ejercicios de estadística es

obviamente fundamental, tanto si se hacen manualmente (utilización
de la calculadora para largas operaciones elementales habituales en
este tipo de ejercicios), o si se quieren aprovechar otras ventajas
directas del modo estadístico. Cualquier calculadora científica ofrece
de forma directa el cálculo de los parámetros estadísticos más
usuales.
77
Dependiendo del modelo, debes consultar el manual de uso para
aprender a disponer la calculadora en modo ESTADISTICA
UNIDIMENSIONAL y la forma en la que han de introducirse los
datos. Este proceso de introducción de datos es el que suele variar de
un modelo a otro, aunque en la mayoría el procedimiento es sencillo.
La calculadora de la RED DESCARTES, no tiene un condicionante

material físico como las habituales del mercado, tiene un
funcionamiento muy sencillo y alguna ventaja adicional con los
modelos más simples que normalmente son de las que dispone el
alumnado. Comentamos un poco la forma de trabajar con esta
calculadora.
En primer lugar debemos acceder al MODO ESTADÍSTICA

UNIDIMENSIONAL. Para ello simplemente pulsamos la tecla
"STD".
78
Una vez pulsada esta tecla aparece otra pantalla con el título
"Cálculos estadísticos".
Para la introducción de datos se procede insertando en la

primera fila los valores de la variable separados por coma.
Posteriormente en la segunda fila introduciremos sus
respectivas frecuencias absolutas, también separadas por
coma.
Una vez que compruebas que los datos son correctos,
pulsando el botón "Calcula" y aparecerá la pantalla de
resultados.
79
En la pantalla de resultados observarás:
Lista de datos ordenados.

Total de datos introducidos.
Media aritmética.
Mediana (discreta).
Moda (discreta).
Suma total de datos al cuadrado, (útil si quiero comprobar un
ejercicio realizado manualmente construyendo una tabla).
Suma total de datos, (útil si quiero comprobar un ejercicio
realizado manualmente construyendo una tabla).
Varianza poblacional.
Desviación típica poblacional.
Cuasi varianza, (útil en ejercicios de inferencia).
Cuasi desviación típica, (útil en ejercicios de inferencia).
En las siguientes escenas, diseñadas por Juan Jesús Cañas Escamilla,

puedes plantear los ejercicios de variable discreta y continua con los
datos que prefieras, inventados o procedentes de algún problema
concreto. Las escenas admiten tabulaciones de hasta 36 filas.
Una vez introducidos los datos al pulsar el control "Actualizar", se

completa toda la tabla con todos los valores necesarios para el
cálculo de los parámetros estadísticos. Si pulsas el control "Ver
parámetros" puedes acceder al valor de dichos parámetros; media,
mediana, moda, percentiles, desviación típica además de los
diagramas de barras e histogramas de frecuencias relativas y
relativas acumuladas.
80
Variable discreta
Variable continua
81
1.7 Problemas resueltos
A continuación tienes el enunciado de diferentes problemas.
Trabájalos y una vez los hayas resuelto puedes hacer clic sobre el
botón para ver la solución.
82
1.8 Créditos del capítulo
83
Parte II
Estadística bidimensional

Karl Pearson (Londres, 27 de marzo de 1857, 27 de abril de 1936) fue un prominente
científico, matemático y pensador socialista británico, que estableció la disciplina de la
estadística matemática. Fue el fundador de la bioestadística, https://es.wikipedia.org/).
2.1 Introducción. Variable estadística
bidimensional.
Los agricultores suelen anticipar como va a ir la cosecha teniendo
en cuenta la evolución de las precipitaciones en determinados
días del año, son las denominadas cabañuelas. Están analizando
por tanto la aparente estrecha relación existente entre esas dos
variables.
La nota de un alumno de segundo de bachillerato en una
asignatura y la que obtiene después en selectividad en la misma
materia también suelen guardar una “estrecha relación”.
La estatura y el peso de una población de individuos suelen estar
bastante relacionadas.
Las horas de estudio y la nota final obtenida en un examen por
supuesto suelen estar muy relacionadas de forma directa.
Lo que ocurre con las cotizaciones de ciertos valores en la bolsa
de Tokio y lo que después pasa en las bolsas europeas.
Las horas de entrenamiento de un atleta y las marcas obtenidas
también están muy relacionadas.
Los médicos están hartos de alertarnos de la altísima relación
entre el consumo de tabaco y la incidencia del cáncer de pulmón.
Las notas obtenidas por un alumno en las materias de
Matmáticas y Física, históricamente están muy relacionadas.
Una persona supersticiosa relaciona constantemente aunque de
forma irracional variables causa efecto en muchas circunstancias
de su vida.
En definitiva, el hombre siempre ha intentado buscar relaciones entre

magnitudes de manera que conocida una de ellas, generalmente la
menos “costosa”, le permita inferir lo más acertadamente posible los
valores de la otra magnitud.
87
En este sentido la Estadística también ofrece su ayuda y aborda con
bastante éxito esta empresa.
Así pues, en muchas ocasiones un trabajo estadístico necesita

estudiar sobre cada individuo varias variables con el objeto de
encontrar una posible relación entre las mismas.
Cuando sobre una población estudiamos simultáneamente dos

variables estadísticas, al conjunto de los pares de valores
correspondientes a cada individuo se denomina distribución
bidimensional.
EJEMPLO 1
Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas

en la siguiente tabla:
88
MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9
LENGUA 2 2 5 6 5 7 5 8 7 10
Los pares de valores {(2,2), (4,2), (5,5), ..., (8,7), (9,10)}, forman la
distribución bidimensional.
EJEMPLO 2
Vamos a estudiar en los últimos doce años las precipitaciones medias

en nuestro país, en litros por metro cuadrado y la producción de
aceite en miles de toneladas métricas. Los datos aparecen reflejados
en la siguiente tabla:
EJEMPLO 3
En una clase de 30 alumnos y alumnas se ha realizado un estudio

sobre el número de horas diarias de estudio X y el número de
asignaturas suspensas al final de curso Se obtuvieron los siguientes
datos:
(2, 0), (2, 2), (0, 5), (2, 1), (1, 2), (2, 1), (3, 1), (4, 0), (0, 4), (2, 2),
(2, 1), (2, 1), (4, 0), (3, 1), (2, 4), (2, 1), (1, 2), (2, 1), (2, 0), (3, 0),
(3, 1), (2, 2), (2, 2), (2, 1), (0, 5), (1, 3), (2, 2), (2, 1), (1, 3), (1, 4)
89
2.2 Tabulación de una variable bidimensional.
Una vez que hemos recogido todos los datos, la mejor forma de
estudiarlos es disponerlos en una tabla estadística. Existen
fundamentalmente dos tipos de tabulación para variables
bidimensionales.
Tabla bidimensional simple. Está formada por tres filas o columnas

en las que se representan ordenadamente los valores de las variables
y sus frecuencias. La tabulación suele hacerse ordenando los datos de
menor a mayor respecto a una de las variables. En caso de que todas
las frecuencias sean iguales a uno, se puede omitir la fila o columna
correspondiente a las mismas.
X1 Y1 f1
X2 Y2 f2
⋯ ⋯ ⋯
⋯ ⋯ ⋯
Xm Ym fm
Tabla de doble entrada. Está formada por tantas filas y columnas

como valores tengamos de cada una de las variables, añadiendo una
fila y una columna más para representar los totales. Está indicada
para casos con bastantes datos, en los que para cada valor de una
variable, existen varios valores de la otra.
Escogiendo la primera y la última fila, tenemos la tabla estadística

correspondiente a la primera variable unidimensional. Con la primera
y última columnas construimos la tabla correspondiente a la segunda
variable unidimensional.
90
Estas dos distribuciones reciben el nombre de distribuciones
marginales. En la última celda aparecerá el total de la última fila y de
la última columna, es decir, el número total de elementos estudiados
(N ).
Además, en esta tabla puede resultar de interés estudiar

distribuciones unidimensionales correspondientes a un valor
determinado de alguna de las variables, llamadas distribuciones
condicionadas.
2.3 Diagrama de dispersión.

En el caso en el que todas las frecuencias absolutas de cada valor
(xi , yi ) sean unitarias, un diagrama de dispersión consiste en

hacer corresponder de forma cartesiana los valores de la variable

bidimensional con los puntos del plano. Para representar el dato
correspondiente al par (xi , yi ), colocaremos un punto en esas

mismas coordenadas.
91
En el caso en el que existan frecuencias absolutas distintas de uno. Se
puede utilizar el denominado prismograma. Es similar a un diagrama
de barras o de rectángulos, pero intentando darle un aspecto
tridimensional.
Representamos tres ejes (igual que representamos los ejes x, y, z ).

En el eje vertical representamos las frecuencias y en los otros los
valores de las variables X e Y . Para cada par de valores (xi , yj ),

representamos un prisma o una barra vertical de altura igual a su

frecuencia. Este gráfico no se utiliza apenas porque su interpretación
suele ser complicada.
92
Nota: Como alternativa al prismograma, se puede utilizar un
diagrama de puntos en los que de forma “artesanal” se disponga en
las coordenadas de cada valor, tantos puntos como indique su
frecuencia absoluta.
O también un diagrama de puntos de mayor o menor grosor según

sea la frecuencia absoluta.
93
2.4 Correlación.
El objetivo de cualquier estudio bidimensional es observar si existe
algún tipo de relación entre las dos variables estudiadas. La relación
entre las dos variables cuantitativas queda reflejada mediante la
función a la que parece acercarse la nube de puntos representada en
el diagrama de dispersión. Prestaremos una especial atención a
relación lineal aunque puedan existir otras interesantes como la
cuadrática, exponencial, etc.
Correlación curvilínea. La nube de puntos del diagrama de

dispersión están situados alrededor de una línea curva.
Correlación lineal. La nube de puntos del diagrama de dispersión

están situados alrededor de una línea recta.
Correlación lineal positiva. El caso especial de correlación lineal

en el que al crecer una variable, crece también la otra.
94
Correlación lineal negativa. El caso especial de correlación lineal
en el que al crecer una variable, la otra decrece.
Ausencia de correlación.. El caso en el que la nube de puntos del

diagrama de dispersión, no se aproxima a ningún tipo de función.
Los principales componentes elementales de una línea de ajuste y,

por lo tanto, de una correlación, son la forma, la fuerza y el sentido.
La forma establece el tipo de línea que que mejor adapta o

ajusta la nube de puntos. La línea recta, la parábola, la función
exponencial, etc.
95
La fuerza menor o mayor según los casos, mide el grado de
bondad o grado en el que la función línea representa a la nube
de puntos. En el caso de correlación lineal, si la nube es
estrecha y alargada, esto indica que la relación es fuerte; si la
nube de puntos tiene una tendencia elíptica o circular, la
relación es débil.
El sentido mide la variación de los valores de una variable con
respecto a la otra. En el caso de correlación lineal, si al crecer
los valores de la primera, lo hacen también los de la segunda, la
relación es directa (pendiente positiva); si al crecer los valores
de A disminuyen los de B , la relación es inversa (pendiente
negativa).
Video
A continuación tenemos un vídeo que nos introduce en la idea general
de relación entre variables o correlación.

96
2.4.1 Covarianza.
Hasta ahora hemos hablado de correlación entre variables y del caso

particular que nos ocuparemos en este tema como es el de la
correlación lineal en un sentido global y difuso. Hemos mencionado
en algún momento que la correlación puede ser fuerte o débil,
positiva o negativa, sin embargo ¿qué entenderemos por fuerte o
débil?, ¿cómo mediremos esta correlación? Nos hace falta un
indicador o medidor que nos permita condensar en un parámetro
todas estas facetas de la correlación. En este sentido vamos a
estudiar un parámetro que será crucial en la cuantificación de la
correlación lineal. A este nuevo parámetro lo denominamos
covarianza y se define como:
∑i=1 ∑j=1 (xi − X

ˉ ) ⋅ (yj − Yˉ ) ⋅ fij
n m

σxy =
N

La fórmula anterior es de difícil cálculo. Como ocurría en el caso de la

varianza, desarrollando y simplificando la expresión anterior se llega
a otra mucho más sencilla en lo que respecta al cálculo práctico y que
es la que se utiliza normalmente en cualquier tipo de problema.
n m
∑i=1 ∑j=1 xi ⋅ yj ⋅ fij
ˉ ⋅ Yˉ

σxy =
−X
N
A pesar de disponer de las fórmulas anteriores, es muy importante

que aprendas a utilizar tu calculadora para la realización de los
problemas prácticos.
97
Lo más importante para la utilización de las calculadoras es la
introducción de datos en el modo estadística, que todos los modelos
de calculadora científica tienen.
En el caso de la calculadora Descartes, la introducción de datos es

muy simple:
Teclea el botón "STD2"" y directamente te llevará a una pantalla

con la opción de "INTRODUCIÓN DE DATOS".
Se abren tres espacios; uno para X , otro para Y y otro para las
frecuencias. Deberás introducir los datos correspondientes
separados por una coma. Si no hay frecuencias es que todas valen
uno.
Una vez introducidos los datos, elige la opción "ESCOGE TIPO
DE AJUSTE". En nuestro caso el "Modelo lineal".
Ahora solamente tienenes que teclear "VER RESULTADOS". Aquí
aparecerán todos los parámetros que necesitas, entre ellos la
covarianza.
Puedes practicar con la calculadora de Descartes (haz clic en el icono

de herramientas), aplicándola a ejemplos concretos.
98
2.4.2 Coeficiente de correlación lineal.
Se define este coeficiente como el cociente entre la covarianza y el

producto de las desviaciones típicas de ambas variables, es decir:
σxy
r=

σx ⋅ σy

Karl Pearson
99
Este coeficiente tomará siempre valores comprendidos entre -1 y 1 y
según sean estos, podremos deducir que:
Si r = 1, existe dependencia funcional, todos los puntos del

diagrama de dispersión están situados en una línea recta
creciente.
Si 0 < r < 1, la correlación es positiva y será más fuerte
según se aproxime a 1
Si r = 0 o próximo a cero, no existe correlación lineal, pero
puede existir correlación curvilínea.
Si −1 < r < 0, la correlación es negativa y será más

fuerte según se aproxime a -1.
Si r = −1, existe dependencia funcional, todos los
puntos del diagrama de dispersión están situados en
una línea recta decreciente.
En la siguiente escena puedes observar y relacionar una nube de

puntos con su correspondiente coeficiente de correlación lineal. La
escena te permite tanto elegir el número de puntos con el que
quieres trabajar como la modificación de la posición de dichos puntos
ya que se trata de controles gráficos que se pueden mover
simplemente pulsando y arrastrando. Puedes comprobar que
determinadas formas curvilíneas (dependencia casi funcional), sin
embargo toman como coeficiente de correlación lineal números
próximos a cero. Es interesante que manipules la escena y observes
qué ocurre con el coeficiente de correlación lineal. Extrae tus propias
conclusiones.
A continuación de la escena, tenemos en un vídeo una clase de la

Universidad de Salamanca sobre la correlación lineal.
100
Nube de puntos y valores del coeficiente de correlación lineal
Video
Video 2.2. Coeficiente de correlación de Pearson
101
2.5 Concepto de regresión. Método de los
mínimos cuadrados.
Podemos decir que la regresión lineal es una técnica estadística
que trata de estudiar la relación entre varias variables estadísticas.
Cuando solamente tenemos dos variables diremos que estamos en
regresión lineal simple. En investigación, el análisis de
regresión se utiliza para predecir una de las variables a partir de la
otra u otras.
Cuando la nube de puntos de un diagrama de dispersión nos informe

de una posible correlación lineal, el análisis de regresión tendrá como
gran objetivo la predicción de valores para la variable dependiente (
Y ) a partir de los valores de la variable independiente (X ) utilizando
para ello una función (una recta) que aproximará lo mejor posible a la
nube de puntos.
El método que se utiliza para la localización de esta recta es el

llamado de los mínimos cuadrados.
Para el caso anterior, el método consiste en considerar la función que

determinaría la suma de todas las distancias verticales (coordenada
yi ), elevadas al cuadrado para evitar que las positivas y negativas se

contrarresten, entre cada punto y su proyección vertical sobre la

hipotética recta. A esta función posteriormente se le calcula dónde
alcanzaría el mínimo.
El método de mínimos cuadrados
El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi

descubrió el planeta enano Ceres. Fue capaz de seguir su órbita
durante 40 días.
102
Durante el curso de ese año muchos científicos intentaron estimar su
trayectoria con base en las observaciones de Piazzi, pero resolver las
ecuaciones no lineales de Kepler de movimiento es muy difícil.
La mayoría de las evaluaciones fueron inútiles y el único cálculo

suficientemente preciso que permitió a Franz Xaver von Zach,
astrónomo alemán, reencontrar al final de ese año a Ceres fue el de
Carl Friedrich Gauss. Gauss por entonces era un joven de 24 años,
pero los fundamentos de su enfoque ya los había planteado en 1795,
cuando tenía 18 años. Sin embargo, su método de mínimos cuadrados
no se publicó sino hasta 1809 en el segundo volumen de su trabajo
sobre mecánica celeste, "Theoria Motus Corporum Coelestium in
sectionibus conicis solem ambientium"".
El francés Adrien-Marie Legendre desarrolló el mismo método de

forma independiente en 1805.
Video 2.3. Vídeo enlazado desde YouTube, licencia de YouTube

estándar
103
2.5.1 Rectas de Regresión.
Como se ha mencionado anteriormente, en los casos en los que se

observe cierto grado de correlación lineal, intentaremos aproximar la
nube de puntos mediante una recta. A estas líneas se les llaman
rectas de regresión. Dependiendo del procedimiento de
minimización de distancias que se emplee, bien sean verticales u
horizontales, y utilizando el procedimiento de mínimos cuadrados
obtendremos dos tipos de recta:
Recta de regresión de Y sobre X
σxy
y − Yˉ = 2 ⋅ (x − X
ˉ)
σx

Recta de regresión de X sobre Y
ˉ = σxy ⋅ (y − Yˉ )
x−X

σy2

Como puedes observar, se trata de las clásica expresión de una recta

en su forma punto pendiente.
La obtención de las expresiones de las rectas anteriores no es

sencilla. Como características fáciles de descubrir podemos señalar
que el signo de la pendiente depende únicamente de la covarianza en
ambas expresiones y que ambas pasan por el punto común:
ˉ , Yˉ )
(X
104
En la siguiente escena puedes practicar con el cálculo de todos los
parámetros relacionados con la regresión en variables
bidimensionales. Puedes introducir los datos que desees
seleccionando previamente las filas que necesites (máximo de 36).
Sigue las instrucciones y podrás comprobar el valor de todos los
parámetros y la representación gráfica de la nube de puntos y de las
dos rectas de regresión.
Es importante que practiques y construyas tablas tú mismo y que la

escena te sirva de apoyo y comprobación de resultados. También
convendría que supieras utilizar tu calculadora y usarla en los
problemas prácticos. En este sentido, ten en cuenta que lo que puede
variar en cada calculadora es la introducción de los datos.
105
Una vez que conozcas este procedimiento, el resto suele ser muy
parecido. Como ejemplo, recordar el caso de la calculadora
DESCARTES (ver el apartado 2.4.1). Realiza algún ejercicio de
regresión utilizando la calculadora para variable bidimensional de
DESCARTES.
Video
En el siguiente video puedes asistir a una clase sobre regresión lineal
106
En la siguiente escena puedes manipular la nube de puntos y
observar como varía el ajuste por mínimos cuadrados y como
cambian las rectas de regresión.
Escena 2.3. Escena desarrollada por Juan Jesús Cañas Escamilla y José R. Galo Sánchez
(RED Descartes)
Una de las primeras acciones que se realizan en cualquier estudio

estadístico es la depuración de los datos, localizando y decidiendo si
los elementos anómalos que se denominan en la literatura científica
como "outliers" o valores atípicos, deben tenerse en cuenta en la
realización del estudio o no.
107
La siguiente escena sirve para analizar la influencia que puede tener
la variación de un solo dato en un análisis estadístico, en concreto en
la regresión lineal.
En la escena aparece una nube de puntos, el número de ellos se

puede elegir mediante el control "número de puntos". A veces la nube
aparece muy dispersa y aunque es posible realizar un ajuste lineal las
conclusiones estadísticas serían muy poco o nada fiables, pero puede
cambiarse sin más que pulsar el botón "Inicio". Uno de los puntos es
un control gráfico que puede moverse y desplazarse a voluntad
utilizando los dos controles situados abajo o directamente pulsando y
arrastrando. Con el botón "ver rectas" se observa la solución global
del problema. Mediante el botón "ver tabla" se pueden observar los
datos reales del problema.
Con el botón "ver parámetros" puedes identificar todos los

parámetros calculados y necesarios para el modelo de regresión.
También se dispone de un botón para ver cómo varía el ángulo de las
dos rectas y otro para un gráfico que relaciona el coeficiente de
correlación y el ángulo al desplazar el punto variable. Haz clic en la
imagen para abrir la escena.
108
2.5.2 Estimaciones.
Una vez que conocemos la mayor o menor relación entre las variables
mediante el coeficiente de correlación lineal y que hemos calculado
las rectas de regresión, podemos utilizarlas para predecir el valor de
una de las variables a partir de la otra. La fiabilidad de la estimación
depende fundamentalmente de dos consideraciones:
La primera que exista correlación lineal entre ambas variables.

El dato será tanto más fiable cuanto más se aproxime el
coeficiente de correlación lineal a 1 o a −1.
La segunda que las rectas de regresión se han obtenido para
unos valores concretos de X y de Y . Aunque exista una
correlación lineal fuerte, si intentamos hacer predicciones
para valores de las variables lejanos a los estudiados, las
estimaciones tampoco serán fiables y podemos llevarnos
sorpresas.
Si se quiere estimar Y para un determinado valor de X

emplearemos la recta de regresión de Y sobre X .
Si se quiere estimar X para un determinado valor de Y
emplearemos la recta de regresión de X sobre Y .
109
En la siguiente escena puedes realizar estimaciones para ejercicios
concretos. Puedes introducir los valores de X , de Y y las frecuencias
que desees. Una vez introducidos los datos sólo tienes que seguir las
indicaciones que se dan en la escena y realizar las estimaciones que
quieras, tanto para la variable X como para la variable Y .
110
111
112
Parte III
Combinatoria

Percy Alexander MacMahon (26 de septiembre de 1854 - 25 de diciembre de 1929) fue
un matemático que se destacó especialmente en el campo de las particiones de números
y la combinatoria enumerativa, https://es.wikipedia.org/).
3.1 Introducción
En muchas ocasiones, en la vida real nos vemos en la necesidad de
contar. Esta acción aparentemente sencilla puede llegar a ser muy
complicada. El hecho de contar objetos presentes y observables
directamente es muy simple, pero pensemos en situaciones donde la
mera observación no basta. Imagina como contar todas las matrículas
de automovil que pueden construirse con tres letras y cuatro
números, imagina que necesitas conocer todos los signos de 5
elementos que se pueden formar con un punto y una raya, o todas las
posibles banderas de tres franjas horizontales de distintos colores, ...
Como ves las situaciones son incontables y como ves también la

expresión que continuamente aparece en este tipo de contexto es
¿CUÁNTOS...?
La parte de las matemáticas que se dedica al estudio de este tipo de

situaciones es la Combinatoria. Esta teoría nos proporcionará las
técnicas y fórmulas que permitan encontrar respuestas a muchos
problemas como los anteriores. En combinatoria las cuestiones
planteadas se analizan fundamentalmente atendiendo a las siguientes
preguntas:
Elementos de que disponemos para formar los grupos.

Elementos que debe contener cada grupo.

Posibilidad de repetir elementos (o no) en los grupos.

La importancia o indiferencia en cuanto al orden en que aparecen

los elementos en las agrupaciones.
117
Es evidente también que con un manejo aceptable de las técnicas de
recuento que analizaremos en esta unidad; se pueden abordar de una
forma más interesante problemas de probabilidad en los que el único
enfoque posible sea el concepto de probabilidad en el sentido clásico
de Laplace y nos veamos obligados a contar casos posibles y
favorables.
A continuación tenemos tres vídeos que nos pueden ayudar a

introducirnos en la combinatoria y su aplicación en la probabilidad.
Video
118
Videos
119
A continuación veamos una curiosidad que relaciona la combinatoria
con la filosofía. Imaginemos que el libro definitivo, el que explica las
verdades universales existe y que tiene por ejemplo 100 páginas. Con
este simple supuesto, la combinatoria nos dice que dicho libro, en
realidad es el fruto de una variación con repetición de 30 elementos (
26 letras, el espacio entre palabras, el punto, la coma y los dos
puntos) tomados de n en n (donde n es el total de signos que se
podrían introducir en 100 páginas). En realidad las posibles
agrupaciones son inimaginables , pero eso sí finitas.
Bueno ¡pues a trabajar! Pongamos a escribir a 1000, 10000, 1000000

monos y tarde o temprano alguno de los monos será el autor de la
obra definitiva. Será cuestion de descubrir la variación con repetición
"ganadora". Esta anécdota es conocida como el teorema de los mil o
de los infinitos monos y relaciona a estos monos con las obras de
Shakespeare. Observa el siguiente vídeo:
120
3.2 Principio general de recuento
Las estafas piramidales, la extensión de rumores, las visitas a una
página web,..., a menudo manejan o conducen a números
escandalosamente grandes. Las circunstancias anteriores y muchas
otras tienen como motor de transmisión algo tan simple como el
"boca a boca", de manera que números pequeños conducen al final a
situaciones inabarcables como resultado del principio general de
recuento. También la base sobre la que se apoya el edificio de la
teoría combinatoria es el principio general de recuento que a su vez
es el mismo principio de cardinalidad del producto cartesiano en la
teoría de conjuntos.
Si un experimento puede realizarse de n formas diferentes y un

segundo experimento puede hacerlo de m formas diferentes;
entonces los dos experimentos juntos se pueden realizar de n × m
formas diferentes.
121
En el lenguaje de teoría de conjuntos se expresa como:
} ⟹ Card(A × B) = n ⋅ m
Card(A) =n
=m

Card(B9
Card representa o significa cardinal, es decir, número de elementos

del conjunto.
A × B significa producto cartesiano.
Card(A) significa cardinal de A, es decir número de elementos de
A.
Card(B) significa cardinal de B , es decir número de elementos de
B.
Veamos un par de ejemplos:
Ana tiene en su armario 6 camisetas, 9 pantalones de deporte y 8

pares de zapatillas. Piensa si sería posible no repetir indumentaria
durante todos los días del año.
Aplicando el principio general de recuento: Identificamos

indumentaria con (C × P × Z); es decir el producto cartesiano de
la terna de conjuntos C (camisetas), P (pantalones), y Z (zapatillas).
El número de indumentarias sería pués 6 × 9 × 8 = 432

indumentarias diferentes.
Un conocido restaurante afirma que el cliente puede comer durante

dos años sin repetir el menú. En la carta aparecen 8 primeros platos,
15 segundos y 8 postres. Analiza si se trata de una propaganda
cierta o no.
Identificamos menú con (PP × SP × P ), es decir, el producto

cartesiano de la terna de conjuntos PP (primer plato), SP (segundo
plato), y P (postre).
El número de menús diferentes sería pués 8 × 15 × 8 = 960, por

tanto mucho más de dos años sin repetir menú.
122
Video
Observa el siguiente vídeo sobre el principio general de recuento:
3.3 Variaciones sin repetición

Supongamos que a un concurso literario en el que se conceden tres
premios distintos, se presentan ocho escritores. Nos preguntamos
por las distintas formas en las que se pueden conceder estos premios.
Este problema sin duda se puede resolver sin necesidad de

conocimientos previos sobre combinatoria.
123
Pensemos que disponemos de tres puestos. Para el primero se puede
elegir a cualquiera de los ocho participantes. Para el segundo, no
puedo elegir al que ya está elegido para el primero, por tanto
solamente podremos elegirlo entre los siete restantes. Para el
tercero, siguiendo el mismo razonamiento nos quedarán seis
participantes. Ahora aplicando el principio general de recuento al
conjunto (P 1 × P 2 × P 3), el total de resultados posibles para el
reparto de los tres premio sería: 8 × 7 × 6 = 336.
En combinatoria, denominamos variaciones ordinarias o sin

repetición de n elementos tomados de m en m (siendo m menor o
igual que n) a cada uno de los distintos grupos de m elementos
escogidos de entre los n, de manera que:
En cada grupo, los m elementos sean distintos.

Dos grupos son distintos, si difieren en algún elemento o en el

orden de colocación.
El número de variaciones ordinarias lo representamos Vn,m y se
calcula:
124
Vn,m = n ⋅ (n − 1) ⋅ (n − 2) ⋅ ⋯ ⋅ (n − m + 1)

En la siguiente escena puedes practicar con la formación de algunas

variaciones sin repetición. A medida que practicas irás descubriendo
como se van construyendo, sus características y la idea que permite
calcular el número total de variaciones sin repetición.
125
3.4 Variaciones con repetición
Dentro de los juegos de apuestas más populares en España se
encuentra sin duda la quiniela de fútbol. ¿Cuántos resultados
posibles pueden darse en catorce encuentros entre equipos de
primera y segunda división?. Este problema puede resolverse
también sin conocimientos previos de combinatoria.
Imaginamos que cada resultado es un grupo de 14 símbolos y que

dichos símbolos solamente pueden ser 1, X o 2. Así para el primer
signo que pongamos tendremos 3 posibilidades, para el segundo
también otras 3 y así sucesivamente hasta llegar al símbolo 14. Ahora
no tenemos más que aplicar otra vez el principio general de recuento
al conjunto (P1 × P2 × ⋯ × P14 ).

126
Piensa también por ejemplo en:
Un entrenador de fútbol dispone en la plantilla de su equipo

de 7 delanteros de la misma calidad y que pueden actuar
indistintamente en los tres puestos de ataque del equipo.
¿Cuántas delanteras distintas podría confeccionar?
¿De cuántas maneras diferentes se pueden repartir tres
premios distintos entre Juan, Pedro, María, Alicia y Pilar?
En combinatoria denominamos variaciones con repetición de n

elementos tomados de m en m, (obsérvese que no hay restricción
alguna en cuanto a los valores de n y m), a los distintos grupos de m
elementos, repetidos o no, que se pueden formar. Considerando:
En cada grupo hay m elementos repetidos o no.
Dos agrupaciones son diferentes si difieren en algún elemento

o en el orden de colocación.
Al número de variaciones con repetición lo denotaremos, V Rn,m y se

calcula:
V Rn,m = nm


variaciones con repetición. A medida que practicas irás descubriendo
cómo se van construyendo, sus características y la idea que permite
calcular el número total de variaciones con repetición.
127
Observa que para 3 elementos, tomados de 2 en 2, el número de

variaciones es 32 :
128
3.5 Permutaciones sin repetición
Imaginemos cuatro amigos que deciden fotografiarse juntos en una
fiesta para conservar el momento. Si deciden que la fotografía sea de
los cuatros en línea. ¿De cuántas formas diferentes podrán realizar la
fotografía?.
Un primer análisis de la situación

nos sitúa el problema al mismo
nivel del que se resolvió en el
epígrafe correspondiente a las
variaciones sin repetición. En
realidad se trata del mismo
razonamiento. La primera
posición la pueden ocupar
cualquiera de los cuatro amigos.
La segunda la pueden ocupar
cualquiera menos el que ocupó la
primera, es decir tres
posibilidades , y así seguiremos
hasta la cuarta posición que
podrá ser ocupada por una
persona. Aplicando ahora el
principio general de recuento al
conjunto (B1 × B2 × B3 × B4 ), el número de posibles agrupaciones

sería 4 × 3 × 2 × 1 = 24 resultados distintos.
Existen muchas situaciones en las que se puede aplicar el mismo

razonamiento.
¿De cuántas formas diferentes se pueden sentar 5 amigos en

una fila de cinco butacas en un cine?
129
Un técnico de sonido tiene que unir 10 terminales en 10
conexiones. Si lo hiciera al azar, ¿ de cuántas formas diferentes
podría completar las conexiones?
¿De cuántas formas diferentes se pueden introducir 4 cartas
diferentes en 4 sobres distinto?
Video
130
Denominamos permutaciones ordinarias o sin repetición de n
elementos, a cada uno de los distintos grupos que pueden formarse
de manera que:
En cada grupo entran todos los n elementos.
Un grupo se diferencia de otro únicamente en el orden de

colocación de los elementos.
Al número de permutaciones ordinarias de n elementos lo

representaremos por Pn y se calcula:

Pn = n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ 3 ⋅ 2 ⋅ 1

a este número se le denomina factorial de n y se representa como n!

Se utiliza tanto, que aparece como tecla directa en todas las
calculadoras científicas.
n! = n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ 3 ⋅ 2 ⋅ 1
Si n = 0 ⟹ 0! = 1
Si n = 1 ⟹ 1! = 1

permutaciones sin repetición. A medida que practicas irás
descubriendo como se van construyendo, sus características y la idea
que permite calcular el número total de permutaciones sin
repetición.
131
3.6 Permutaciones con repetición

Supongamos que disponemos de 3 vasos azules iguales, 2 vasos
iguales amarillos y 1 naranja. Si quisiéramos ponerlos en línea recta
en una estantería. ¿De cuántas formas distintas lo podríamos hacer?
Para ayudar a contar todos los casos y ayudándonos de que

conocemos las permutaciones sin repetición, vamos a pegar en la
parte opuesta, la que vemos, etiquetas que identifiquen y distingan
como distintos a todos los vasos. De esta forma disponemos de 6
vasos distintos que se pueden ordenar de 6! formas distintas.
132
Es decir, que si giramos los vasos para que se vean las etiquetas
distinquiríamos todas las permutaciones, pero si no vemos las
etiquetas, ordenaciones que antes eran distintas las veríamos iguales.
133
Las permutaciones anteriores serían identificadas como:
La idea, por tanto, para contar las permutaciones con repetición es

identificar como una sola agrupación las, en nuestro caso, 2! y 3!
reordenaciones que no distinguiríamos. No se distinguirían por tanto
(2! × 3! × 1!) permutaciones
A continuación puedes observar como se irían confeccionando

algunas de las permutaciones con repetición de 6 elementos de los
que uno se repite tres veces, otro dos veces y otro una vez:
134
Denominamos permutaciones con repetición de n elementos en los
que uno de ellos se repite a veces, otro b veces y así hasta el último
que se repite k veces, donde (a + b + c + ⋅k = n) a todas las
ordenaciones posibles de estos n elementos.
Consideramos dos ordenaciones distintas si difieren en el orden de

colocación de algún elemento (distinguible).
Denotaremos a este tipo de permutación como:
Pna,b,c,⋅k
y se calcula como:
n!
Pna,b,c,⋅k =
a! ⋅ b! ⋅ c! ⋅ ... ⋅ k!

En la siguiente escena puedes practicar con ejemplos de formación

de algunas permutaciones con repetición.
135
3.7 Combinaciones sin repetición

Existen muchas situaciones en las que el orden deja de ser
determinante. Pensemos en un pintor que dispone de cinco colores,
rojo, azul, verde, negro y blanco. Desea conseguir nuevos colores
mezclando cantidades iguales de tres colores diferentes de los cinco
que dispone en su paleta. El orden en que mezcle los colores
seleccionados no es significativo, es decir, el resultado de mezclar
rojo, blanco y verde es exactamente el mismo que el de mezclar
verde, blanco y rojo.
136
Así pues, todas las permutaciones de estos tres colores se deberían
analizar como una sola agrupación. Por tanto, para localizar todos los
posibles colores resultantes de la mezcla de tres de los cinco de que
disponemos, V5,3 entre las P3 .

A este tipo de agrupación la denominaremos Combinación sin

repetición
Existen otras muchas situaciones parecidas en las que necesitamos

conocer el número de agrupaciones en las que NO IMPORTA EL
ORDEN. Por ejemplo:
Seleccionar cuatro alumnos de una clase que irán de excursión

Repartir cinco entradas entre diez amigos para ir a un concierto.
Juego de la lotería primitiva
entre otras muchas más.
137
Denominamos combinaciones ordinarias o sin repetición de n
elementos tomados de m en m, (siendo m menor o igual que n) a las
distintas agrupaciones de m elementos de manera que:
En cada grupo entren m elementos distintos
Dos grupos son distintos si difieren en algún elemento. El

número de combinaciones ordinarias de m elementos
tomados de m en m , lo denotaremos Cn,m y se calcula:

Cn,m = ( ) =
n n!
m! ⋅ (n − m)!

Se puede observar fácilmente que: las combinaciones sin repetición

de n elementos tomados de m en m, podrían formarse a partir de
considerar las variaciones sin repetición de n elementos tomados de
m en m y posteriormente identificar las posibles reordenaciones de
una agrupación, (permutaciones de m elementos), como una única ya
que el orden no interviene en la agrupación que estamos
considerando; esto es:
Vn,m
Vn,m = Cn,m ⋅ Pm ⟹ Cn,m =

Pm
138
Video
En el siguiente video podemos observar el planteamiento de un

problema que requiere de la combinatoria y su solución.

de algunas combinaciones sin repetición.
139
Escena 3.5. Escena desarrollada por Juan Jesús Cañas Escamilla Y Juan Guillermo
Rivera Berrío(RED Descartes)
Propiedades de los números combinatorios
Los números combinatorios aparecen muy frecuentemente en

multitud de situaciones en Matemáticas, Física, Biología, etc...Figuran
como tecla directa en cualquier calculadora científica. Como
propiedades más interesantes merecen destacarse:
1.( ) = 1
n
0

2.( ) = 1
n
n

140
3.( ) = n
n
1

4.( ) = ( )
n n
n−m

m
n+1
5.( ) + ( )=( )
n n
m m+1 m+1

Cuando no existían calculadoras científicas, el cálculo de números

combinatorios requería de un trabajo complicado. El triángulo de
Pascal permitía de una forma recurrente y muy fácil calcular
cualquier número combinatorio, aunque es verdad que para
cantidades elevadas también era bastante engorroso.
En la siguiente escena puedes ver muchas líneas del triángulo de

Pascal y unas propiedades curiosas.
Escena 3.6. Escena desarrollada por Miguel Ángel Cabezón Ochoa (RED Descartes)
141
Binomio de Newton
Una de las aplicaciones más interesantes desde el punto de vista

algebraico para los matemáticos, constituye el desarrollo de las
distintas potencias de un binomio. Conocido como binomio de
Newton, utiliza los números combinatorios y sus propiedades para
desarrollar de forma fácil y directa la potencia natural de cualquier
expresión del tipo:
3.8 Combinaciones con repetición

Supongamos que un amigo nos invita a merendar a su casa. Como a
las seis personas que estaremos en la merienda nos gustan los
pasteles, quiero llevar media docena que compraré en la pastelería de
la esquina. Al entrar en el establecimiento, la oferta es impresionante.
Hay mucha variedad, piononos de Rute, piononos de Santa fé,
milhojas, brazo de gitano, bizcotelas, borrachos, etc. En total la oferta
es de 20 variedades de pasteles diferentes. ¿De cuántas formas
puedo hacer mi compra?
Analizando un poco el problema, en realidad no importa el orden en

que aparezcan los pastelitos en mi bandeja. Observamos también que
pueden repetirse pasteles, incluso se podría comprar una bandeja de
seis dulces iguales.
142
Estamos por tanto ante una combinación (no importa el orden), y con
posibilidad de repetición. Estamos ante una combinación con
repetición de 20 elementos tomados de 6 en 6: CR20,6 .
Denominamos combinaciones con repetición de n elementos

tomados de m en m (ninguna limitación con respecto a n y m), a las
distintas agrupaciones de m elementos elegidos de entre los n de
manera que:
En cada grupo entren m elementos repetidos o no
Dos grupos son distintos si difieren en algún elemento.
El número de combinaciones ordinarias de n elementos tomados de

m en m, lo denotaremos CRn,m y se calcula:
n+m−1
CRn,m = (
)
143
Para explicar la fórmula anterior vamos a desarrollar un método de
codificación que nos ayude sobre un ejemplo concreto y que sea un
poco más fácil que el del principio. Supongamos que en un
restaurante se ofrecen cuatro posibilidades de menús; digamos
A, B, C y D. Si un grupo de 6 amigos decide hacer un pedido,
calculemos todos los casos distintos que podrían realizarse. Desde el
punto de vista combinatorio, estamos ante combinaciones con
repetición de cuatro elementos tomados de seis en seis.
En primer lugar utilizamos tres líneas (rayas) para separar las cuatro
posibles opciones de los distintos menús. También utilizaremos el
.
símbolo( ) (punto) para significar el pedido de cada persona. De esta
forma, el pedido de por ejemplo cuatro menús A y dos menús B lo
codificaríamos:
Es decir, el código del pedido sería:
Si por ejemplo quisiéramos expresar el pedido de seis menús D su

codificación sería la siguiente:
144
La posición inversa también se manifiesta asequible, es decir,
descifrar cualquier código que se confeccione con tres rayas y seis
puntos como un determinado y único pedido también sería sencillo.
Por ejemplo si queremos descifrar el código ..∣..∣∣.., lo podríamos
interpretar como dos menús A, dos menús B , ningún menú C y dos
menús D .
Veamos algún ejemplo más de codificación:
Se ha establecido por tanto una correspondencia biunívoca entre las

combinaciones con repetición de cuatro elementos tomados de seis
en seis y las distintas agrupaciones de seis puntos y tres rayas; esto
es, las permutaciones con repetición de 9 elementos donde uno se
repite tres veces y otro seis. A su vez, este tipo de agrupación, podría
ser considerada como una combinación de 9 elementos tomados de 6
en 6.
9! 9 4+6−1
CR4,6 = P R96,3 = =( )=( )
6! ⋅ 3! 6 6


de algunas combinaciones con repetición.
145
Escena 3.7. Escena desarrollada por Juan Jesús Cañas Escamilla (RED Descartes)
3.9 Resumen
En el siguiente video puedes observar de forma resumida todos los
casos de agrupaciones enumerados en este tema.
Desde el punto de vista práctico, es muy importante tener las ideas

muy claras sobre el tipo de conjunto al que nos estemos refiriendo en
cualquier problema de combinatoria.
146
Video
También conviene saber que a menudo los problemas de este tipo no

son puros, es decir no se trata de combinaciones puras o variaciones
puras,sino que tendremos que aplicar las técnicas de recuento y
también la lógica y la particular creatividad que requiera la situación.
En este sentido la siguiente escena te ayudará a manejar estos
contextos en los que está involucrada la combinatoria.
147
El siguiente cuadro resumen con ejemplos también puede servirte de

ayuda (haz clic en la imagen).
148
Video
Para empezar a hacer problemas, puedes ver el siguiente vídeo:
149
150
151
Parte IV
Probabilidad

Christiaan Huygens (La Haya, 14 de abril de 1629 - ibídem, 8 de julio de 1695) fue un
astrónomo, físico, matemático e inventor neerlandés. Hizo aportes importantes en la
teoría de la probabilidad, fue miembro de la Royal Society (https://es.wikipedia.org/).
Crédito imagen: Caspar Netscher , Dominio Púublico.
4.1 Introducción
La innata curiosidad del ser humano, ha hecho que desde siempre el
hombre se haya interesado tanto por el motivo por el que ocurren los
fenómenos como por adivinar lo que deparará el futuro. Para ello ha
recurrido a todo, astrólogos, profetas, adivinadores, brujos…,
utilizando los métodos más inverosímiles; desde la superstición, la
observación e interpretación de los vuelos de aves, la lectura de
vísceras de animales sacrificados, la magia y rituales sacerdotales
hasta las más sofisticadas formulaciones en las teorías más recientes.
En muchas ocasiones el éxito ha sido completo

de manera que ante unas determinadas
condiciones iniciales se pueden concluir unos
resultados determinados completos y precisos.
Sin embargo existen experiencias que escapan
al determinismo, es como si no se pudieran
someter a las leyes que el hombre ha
descubierto y que por tanto imposibilitan ante
una determinada situación o experiencia
concluir un resultado determinado. Estamos en
un contexto tan difícil y extraño en el que las
reglas dependen de tantos parámetros que Chevalier de Mère
hacen inviable la predicción o quizás ni siquiera

existan estas reglas. Estamos en el territorio del
azar Se dice que el origen de la probabilidad es
un tanto accidental y fruto de las disquisiciones
sobre una determinada jugada de dados que
obsesionaba a un antiguo escritor y jugador
francés del siglo XVII, Antoine Gombaud,
conocido por Chevalier de Mère, amigo del
matemático también francés Blaise Pascal al Blaise Pascal
cuál pedía consejo respecto a las garantías de
éxito que ofrecía dicha jugada.
155
Video
En el siguiente vídeo se plantea el denominado problema del

caballero de Mére. Se inicia en el instante que comienza a plantearse
el mismo, pero si quieres puedes verlo desde su inicio.
El problema de Mére
La historia se pone de acuerdo en que el cruce de correspondencia
respecto a dicho problema que establecen Pascal y el genial abogado
y matemático también francés Pierre de Fermat, puede considerarse
como origen de esta teoría.
156
Posteriormente es el matemático Christian Huygens quien publica en
1656 el primer libro impreso sobre probabilidad, De ratiociniis in ludo
aleae. Es sobre todo en el siglo siguiente cuando el matemático
francés Abraham de Moivre profundiza e impulsa de forma más
intensa el estudio de la probabilidad con la introducción de
importantes conceptos como el de la normal.
Video
En el siguiente vídeo podemos ver una visión de la probabilidad en el
programa REDES
157
4.2 Experimentos aleatorios y deterministas
Existen experimentos en los que conocidas las condiciones iniciales
se pueden predecir los resultados finales. Por ejemplo:
Un móvil que realiza una trayectoria con una velocidad uniforme,

emplea un determinado tiempo en recorrer un espacio. Si se repite
la experiencia y se mantiene la velocidad tardará el mismo tiempo
en recorrer dicho espacio.
Un objeto que se deja caer desde cierta altura, alcanza el suelo con
una determinada velocidad final. Si repetimos el experimento en
idénticas condiciones, se repetirán también los resultados.
Sin embargo, existen experiencias en las que no ocurre esto o por lo

menos así lo parece:
Cuando lanzamos una moneda no trucada al aire, no sabemos si va a

salir cara o cruz.
En el lanzamiento de un dado no podemos decidir cuál de las seis
caras saldrá.
Multitud de juegos, como la lotería, la quiniela, los dados, la
primitiva... tienen en común que el resultado final es impredecible.
A todos estos experimentos se les denomina aleatorios. ¿Y quién se

atreve a estudiar concienzudamente este tipo de experimentos cuyos
resultados parecen escapar de todo control y lógica? La respuesta la
encontramos, evidentemente, en las Matemáticas y sobre todo y
especialmente en algunos matemáticos. Es fundamentalmente a
partir del siglo XVIII cuando se estructuran, proponen y desarrollan
los conceptos relacionados con la probabilidad hasta cotas realmente
prodigiosas.
En este tema vamos a utilizar un vocabulario bastante específico con
158
algunos conceptos que seguramente ya conoces de cursos anteriores
pero que conviene recordar.
En el siguiente enlace puedes informarte sobre alguno de los más

importantes matemáticos que trabajaron sobre el tema así como de
sus contribuciones (haz clic sobre la imagen).
4.2.1 Espacio muestral
En cualquier experimento aleatorio la primera cosa que nos

preguntamos es sobre lo que puede pasar. ¿Qué resultados puede
ofrecer y cuáles no? Sería muy interesante disponer de todo el
abanico de posibles resultados. En este sentido, al conjunto formado
por todos los posibles resultados elementales de un experimento
aleatorio se le denomina espacio muestral de dicho experimento.
Dependiendo de como sea este conjunto, los espacios muestrales
pueden ser:
Espacio muestral discreto finito. Consta de un número finito de

elementos, por ejemplo lanzar un dado.
Espacio muestral discreto infinito. Consta de un número infinito
numerable de elementos, por ejemplo lanzar un dado hasta que
salga un cinco.
Espacio muestral continuo. Consta de un número infinito no
numerable de elementos, por ejemplo todas las medidas posibles
de espárragos extraidos aleatoriamente de una población.
159
Consideremos por ejemplo:
1. El experimento consistente en el lanzamiento de un dado y

anotar el resultado de la cara superior. El espacio muestral
sería:
E = {1, 2, 3, 4, 5, 6}
2. El experimento consistente en el lanzamiento de dos monedas

al aire. El espacio muestral o conjunto de todos los resultados
elementales posibles sería:
E = {CCC, CCF , CFC, FCC, CFF , FCF , FFC, FFF }
3. El experimento consistente en elegir aleatoriamente

cualquier número de tres cifras mediante la extracción con
reemplazamiento de bolas de una urna en la que aparecen las
diez cifras significativas. El espacio muestral sería:
E = {000, 001, ..................., 999}
4. El experimento consistente en el lanzamiento de dos dados de

los que después se escogera la mejor de las puntuaciones. El
espacio muestral sería:
E = {1, 2, 3, 4, 5, 6}
5. El experimento consistente en abrir aleatoriamente un libro y

anotar después la primera letra de la página de la izquierda. El
espacio muestral en este caso sería:
E = {A, B, ................., Z}
160
Los ejemplos que podrían exponerse son innumerables y seguro que
ya estás pensando en diversas situaciones. No obstante, de partida,
queremos que te fijes y pienses en lo que te vamos a exponer.
Observa el ejemplo (1) y el (4), el espacio muestral es el mismo, pero
¿puede considerarse el mismo?, esto es, los sucesos que aparecen sí
son los mismos pero la ocurrencia de cada suceso en el experimento
(1) no tiene el mismo comportamiento que la ocurrencia de cada
suceso en el experimento (4) ¿No te parece?
En la siguiente escena puedes observar algunos ejemplos de

experimentos aleatorios, sus espacios muestrales y cómo
construirlos.
161
4.2.2 Sucesos y tipos de sucesos
En el contexto probabilístico, denominamos suceso a cualquier

subconjunto de un espacio muestral; esto es, a cualquier posible
resultado de un experimento aleatorio.
Suceso elemental. Un suceso se dice que es un suceso

elemental si está formado por un único elemento del espacio
muestral. Por ejemplo, al tirar un dado el suceso consistente
en obtener un cinco.
Suceso compuesto. Un suceso se dice que es un suceso

compuesto si está formado por más de un elemento del
espacio muestral. En el mismo ejemplo anterior obtener un
número par, es decir, que salga un 2 o un 4 o un 6.
Entre los diferentes sucesos destacaremos los siguientes:
Suceso seguro. El suceso seguro es aquél que está formado

por todos los resultados posibles del espacio muestral (E ), es
decir aquél que se cumple siempre. Por ejemplo al tirar un
dado cúbico obtener un número del uno al seis.
Suceso imposible. El suceso imposible es aquél que no ocurre

nunca. Se expresa con el símbolo ∅. Por ejemplo, obtener un
ocho al tirar un dado cúbico.
Suceso contrario o complementario de otro suceso, Se define

el suceso contrario a A como el suceso que acontece cuando
no ocurre A. El suceso contrario a obtener un número par es
obtener uno impar. Suele denotarse como:
AC o Aˉ
162
En la escena siguiente puedes observar algunos ejemplos de un
suceso y del suceso contrario o complementario.
4.3 Operaciones con sucesos

Desde el punto de vista matemático es importantísimo definir en este
conjunto de todos los sucesos asociados a un experimento aleatorio,
operaciones matemáticas que permitan la manipulación e interacción
entre ellos.
163
Así se pueden definir en el conjunto de todos los sucesos asociados a
cualquier espacio muestral, fundamentalmente dos operaciones que
dotarán a dicho conjunto de una sólida estructura matemática
importante conocida con el nombre de Álgebra de Boole.
Unión de sucesos
Imaginemos que María y Luis celebran su cumpleaños el mismo día.

María ha decidido invitar a sus amigos y Luis a los suyos. Cotejando
las respectivas listas de invitados observaron que alguno de ellos
estaba invitado a ambas fiestas. ¿A cuál de ellas asistirían?. Este
problema puede resultar embarazoso hasta que a ambos
cumpleañeros se les ocurre la solución mágica. ¿Y si UNIMOS ambas
fiestas y la celebramos juntos. El suceso unión de A y B es el suceso
que ocurre cuando ocurre A, ocurre B u ocurren ambos. Está
formado por todos los elementos de A y todos los de B . Lo indicamos
así:
164
Intersección de sucesos
A Juan le gusta el fútbol, el baloncesto, las películas de aventuras, la
música clásica y los documentales de viajes. A su amiga Irene le van
las películas románticas, el tenis, la música disco y los documentales
de viajes. ¡Qué pocas cosas tenemos en común! exclamó Irene. Sin
embargo podríamos quedar para ver algún documental de viajes.
Efectivamente es algo que ambos adoramos. Es nuestra
INTERSECCIÓN agregó Juan.
El suceso intersección de A y B , es el suceso que ocurre cuando

ocurre A y ocurre B . Está formado por los resultados comunes a los
sucesos A y B . Lo indicamos así:
Resta de sucesos
El lunes Manuel salió con sus amigos Miguel, Pablo, María , Laura y
Sofía y se le ocurrió contar una ocurrencia muy graciosa que le paso
en su último viaje. Fue muy divertido y a todos les entusiasmó.
165
El jueves siguiente Manuel volvió a salir con otro grupo de amigos
entre los que también estaban Laura y Sofía. Manuel volvió a contar
la misma anécdota pero antes se disculpó con Laura y Sofía
diciéndoles que por favor no contaran el final. Por supuesto que al
RESTO de el grupo les resutó igual de divertida.
En realidad no se trata de una nueva operación ya que se define a

partir de las dos operaciones anteriores. Sin embargo dada la gran
asiduidad y el carácter fundamentalmente práctico con el que
aparece en muchas situaciones, merece la pena que hablemos de ella
en un apartado propio.
La diferencia de dos sucesos(A − B ) es el suceso que ocurre cuando

ocurren los elementos de A que no están en B .
Representamos la resta de sucesos como:
166
En relación con las operaciones unión e intersección surgen también
dos importantes tipos de sucesos.
Cuando se verifica que la intersección es vacía; (= ∅), se dice que

los sucesos A y B son dos sucesos incompatibles.
Cuando se verifica que la intersección es distinta del vacío (=
 ∅),
se dice que los sucesos A y B son dos sucesos compatibles.
Escena 4.3. Escena desarrollada por Juan Guillermo Rivera Berrío (RED Descartes)
4.3.1 Álgebra de Boole de sucesos
Consideremos un experimento aleatorio. Dicho experimento tendrá

asociado un espacio muestral (E ). Consideremos también en dicho
espacio muestral el conjunto de todos los sucesos posibles de dicho
experimento al que normalmente se le nota con la letra griega omega.
Ω
167
El conjunto de todos los sucesos de un espacio muestral, junto con las
operaciones unión e intersección definidas anteriormente, cumple
una serie de propiedades que lo dotan de una estructura matemática
conocida como álgebra de Boole.
(Ω, ∪, ∩) tiene estructura de a
ˊlgebra de Boole
En el siguiente cuadro se resumen las propiedades y consecuencias
directas más importantes que se desprenden de dicha estructura.
Dos consecuencias que se derivan de estas propiedades, son:
A ∪ ∅ = A y A ∩ ∅ = ∅
A ∪ E = E y A ∩ E = A
Una tercera consecuencia son las leyes de De Morgan, que son muy
útiles en la práctica, ya que en muchas situaciones se podrán calcular
probabilidades de un suceso a partir de las probabilidades de otros
más fáciles o bien que se den como datos. Recuerda por tanto:
A ∪ B = Aˉ ∩ B
ˉ
El
El complementario
complementario de
de la
la unión
unión es
es la
la intersección
intersección de
de
los
los complementarios
complementarios
168
A ∩ B = Aˉ ∪ B
ˉ
El
El complementario
complementario de
de la
la intersección
intersección es
es la
la unión
unión de
de
los complementarios
los complementarios
Escena 4.4. Escena desarrollada por Juan Guillermo Rivera Berrío (RED Descartes)
4.3.2 Sistema completo de sucesos
En muchas ocasiones es muy útil considerar en el espacio muestral

asociado a un experimento aleatorio una determinada partición de
dicho conjunto que permita una mayor facilidad a la hora de abordar
la probabilidad de cualquier suceso a partir de las probabilidades de
sucesos más pequeños considerados a partir de dicha partición. En
este sentido:
169
Se dice que los sucesos A1 , A2 , A3 . ⋯ , An , constituyen un sistema

completo de sucesos para un determinado experimento cuando se

cumplen:
A1 ∪ A2 ∪ ⋯ ∪ An = E

Ai ∩ Aj = ∅ para cualquier i, j

Así por ejemplo en el experimento aleatorio del lanzamiento de un

dado pueden considerarse muchas situaciones que constituyan
espacios completos de sucesos y que sean interesantes de tener en
cuenta de acuerdo al problema en concreto que se nos presente.
170
4.4 Concepto de probabilidad
La idea de probabilidad es uno de esos conceptos que cualquier ser
humano tiene preaprendido. Todos tenemos conocimiento intuitivo
de lo que supone que una cosa sea muy difícil que ocurra (acertar en
la lotería) o de algo que sea más fácil que ocurra (lanzar una moneda y
que salga cara). Otra cosa es la definición matemática. Desde el punto
de vista formal, el concepto de probabilidad se puede abordar desde
tres puntos de vista diferentes.
4.4.1 Definición de Bernoulli
La probabilidad de un suceso A de un experimento aleatorio se

puede definir como el número al que se aproximan las frecuencias
relativas de dicho suceso cuando el experimento se repite un número
indefinido de veces.
nA
p(A) = lim

n→∞ n
171
4.4.2 Definición de Laplace
Si un espacio muestral consta de un número finito de sucesos simples

y todos ellos tienen la misma posibilidad de suceder (equiprobables).
Se define la probabilidad de cualquier suceso A como:
Nu
ˊ mero de casos favorables
p(A) =
Nu
ˊ mero de casos posibles

4.4.3 Definición de Kolmogorov
Si un espacio muestral consta de un número finito de sucesos simples

y todos ellos tienen la misma posibilidad de suceder (equiprobables).
Se define la probabilidad de cualquier suceso A como:
1) p(A) ≥ 0
2) p(E) = 1
3) p(A ∪ B) = p(A) + P (B),
siendo A y B incompatible
172
Como primeras consecuencias y propiedades de la definición
axiomática tenemos:
i)i) p(Aˉ) = 1 − p(A)
ii) p(∅) = 0
ii)
iii) p(A ∪ B ) = p(A) + p(B ) − p(A ∩ B )
iii)

Generalización
Generalización
p(A ∪ B ∪ C ) = p(A) + p(B ) + P (C )

−p(A ∩ B ) − p(A ∩ C ) − p(B ∩ C )
+p(A ∩ B ∩ C )
Que
Que se
se expresan
expresan como:
como:
•• La
La probabilidad
probabilidad deldel suceso
suceso contrario a A es
uno
uno menos
menos lala probabilidad
probabilidad de A.
•• La
La probabilidad
probabilidad deldel suceso
suceso imposible es cero.
•• La
La probabilidad
probabilidad de de dos
dos sucesos
sucesos compatibles es
la
la suma
suma de
de las
las probabilidades
probabilidades de cada uno
menos
menos lala de
de la
la intersección.
intersección. Esta propiedad se
puede
puede generalizar
generalizar aa más
más de
de dos sucesos.
173
Video
En el siguiente vídeo puedes recabar algunas ideas sobre la

probabilidad.
En la siguiente escena puedes comprobar la probabilidad teórica con

la experiencia práctica. La idea es ver como la repetición del juego se
aproxima a la idealización teórica.
174
4.5 Probabilidad condicionada

- Entonces, ¿estas seguro de que vendrás?
- Te digo que sí, llueva o no llueva allí estaré.
Este final de conversación entre dos amigos nos indica que la cita se
va a producir INDEPENDIENTEMENTE de lo que ocurra con las
posibles inclemencias del tiempo. Sin embargo, existen muchas
situaciones en las que la ocurrencia de un suceso influye en la
ocurrencia o no de otro.
175
Así por ejemplo en medicina, el hecho de que una mujer sea
portadora de cierta enfermedad influye en que el próximo hijo que
tenga adquiera dicha enfermedad, o por ejemplo si una persona es
fumadora el riesgo de padecer hipertensión es mucho mayor que en
un no fumador.
En el siguiente esquema se ofrece una idea intuitiva del concepto de

probabilidad condicionada
Y en la siguiente escena podrás experimentarla. En ella se juega con

el juego de abrir y ganar o de Monty Hall2:
2
El problema de Monty Hall o paradoja de Monty Hall es un problema matemático de
probabilidad basado en el concurso televisivo estadounidense Trato hecho (Let's Make a
Deal). El problema fue planteado y resuelto por el matématico Steve Selvin en la revista
American Statistician en 1975 y posteriormente popularizado por Marilyn vos Savant en
Parade Magazine en 1990. El problema fue bautizado con el nombre del presentador de
dicho concurso, Monty Hall (https://es.wikipedia.org/).
176
Escena 4.6. Escena desarrollada por Mª José García Cebrian (RED Descartes)
4.5.1 Concepto de probabilidad condicionada
El concepto de probabilidad condicionada va ligado siempre a

sucesos compuestos, en el sentido de que la ocurrencia o no de uno
de ellos influya o no en la ocurrencia o no del otro. Imagina que
sabemos que en una urna hay sobres blancos y azules. Los sobres
blancos, casi todos tienen premio. Los sobres azules casi ninguno
tiene premio. Evidentemente si me dicen que el sobre que he elegido
es blanco, eso aumentará mis expectativas de haber conseguido
premio. Por el contrario si me dicen que el sobre elegido es azul, mis
expectativas de premio serán mucho peores.
177
Siempre que tenga sentido, se denomina probabilidad condicionada
del suceso A respecto del suceso B , (probabilidad de A condicionado
a B ) y se representa p(A/B) al cociente:
p(A ∩ B)
p(A/B) = siempre que p(B) 
=0
p(B)

De la misma forma se puede definir la probabilidad del suceso B

condicionado al suceso A como:
p(A ∩ B)
p(B/A) = siempre que p(A) 

=0
p(A)
De las definiciones anteriores se obtiene la fórmula general para la

probabilidad de la intersección de sucesos. En realidad se trata de la
formulación general para la probabilidad de la intersección de
sucesos.
p(A ∩ B) = p(A) ⋅ p(B/A)
En la siguiente escena podrás ver el cáculo de la probabilidad de

sucesos compuestos:
178
La fórmula anterior se puede generalizar para cualquier número de

sucesos:
p(A1 ∩ A2 ∩ A3 ⋯ ∩ An )

= p(A1 ) ⋅ p(A2 /A1 ) ⋅ p(A3 /A1 ∩ A2 ) ⋯ p(An /A1 ∩ ⋯ ∩ An−1 )

179
4.5.2 Criterio de independencia de sucesos
Imagina que vamos a sacar dos cartas de una baraja. Realizamos el

experimento sacando en primer lugar una de las cartas, anotamos su
valor, la devolvemos a la baraja, mezclamos bien y extraemos la
segunda carta. ¿Influye lo que ocurrió en la primera extracción en lo
que ocurirá en la segunda?
En muchas situaciones en la que la probabilidad aparece ligada a

sucesos compuestos, la ocurrencia de un suceso no influye en nada
en la ocurrencia o no del otro. Por así decirlo, no existe nada adicional
que modifique las posibilidades de ocurrencia del segundo suceso
cuando se sabe que ha ocurrido el primero; esto es, si el primero no
hubiera ocurrido, las posibilidades del segundo seguirían siendo
exactamente las mismas. En estos casos, se habla de Independencia
de los sucesos.
Cuando se cumpla que p(B/A) coincida con p(B) se dice que los
sucesos A y B son independientes. En este caso la probabilidad de la
intersección obtenida en el epígrafe anterior quedaría simplemente
como el producto de las probabilidades de cada suceso.
p(A ∩ B) = p(A) ⋅ p(B)
La fórmula anterior se conoce con el nombre de criterio de

independencia y es lo que en la práctica nos lleva a calificar sucesos
como independientes.
En el siguiente vídeo puedes recabar algunas ideas sobre sucesos

independientes y dependientes.
180
Videos
Y otro vídeo en el que se trata el tema de las predicciones.
Video 4.5. Vídeo de Rtve.es

181
4.6 Teorema de la probabilidad total
Mediante este resultado, se hace presente la clásica afirmación
"divide y vencerás". Nos preguntamos globalmente por la
probabilidad de que ocurra un suceso y contestamos a partir del
conocimiento que tenemos de las distintas probabilidades de que
ocurra dicho suceso cuando han ocurrido otros que en realidad
completan todo el espacio muestral.
Formalmente; supongamos que A1 , A2 , A3 , ⋯ An , constituyen un

sistema completo de sucesos para el espacio muestral E asociado al

experimento aleatorio considerado. Supongamos también que B es
un suceso cualquiera del espacio E , para el cuál se conocen las
probabilidades p(B/Ai ).

En estas condiciones podemos deducir que:
182
n
p(B) = ∑ p(Ai ) ⋅ p(B/Ai )
i=1
Demostración
B = (B ∩ Ai ) ∪ (B ∩ A2 ) ∪ ⋯ ∪ (b ∩ An ) unioˊn disjunta

⟹ (B ∩ Ai ) ∩ (B ∩ Ai ) = ∅

En consecuencia
p(B) = p(B ∩ A1 ) + p(B ∩ A2 ) + ⋯ + p(B ∩ An )

⟹ p(B) = p(A1 ) ⋅ p(B/A1 ) + p(B) = p(A2 ) ⋅ p(B/A2 ) +

⋯ + p(B) = p(An ) ⋅ p(B/An )
n
⟹ ∑i=1 p(Ai ) ⋅ p(B/Ai )

Por ejemplo, la clásica situación que se

presenta en los centros de secundaria.
Imagina un IES que dispone de tres
modalidades mutuamente excluyentes
de bachillerato y de dos idiomas, inglés y
francés. La modalidad A la cursa el 50%
de los alumnos, la B el 35% y la C el
15%. Se sabe también que eligen francés
el 60% de los de la modalidad A, el 90%
de los de B y el 70% de los de C . ¿Cuál
será la probabilidad de que elegido un
alumno al azar estudie inglés.
p(I) = 0, 5 ⋅ 0, 4 + 0, 35 ⋅ 0, 1 + 0, 15 ⋅ 0, 3 = 0, 28
183
En la siguiente escena puedes practicar con la probabilidad
condicionada y aplicar el Teorema de la probabilidad total.
4.7 Teorema de Bayes

¡Ha ocurrido el suceso B !, nos preguntamos cuál sería la
probabilidad de que ocurra Ai sabiendo de antemano que ha

ocurrido B . Si nos fijamos lo directo es conocer lo contrario, es decir,

las probabilidades de B condicionadas a los diferentes Ai . Por
ejemplo:
184
Se conoce, después de muchos estudios y durante muchos
años, que la probabilidad de retraso de un avión en un día
lluvioso es del 5%. Si se ha producido un retraso. ¿Cuál sería la
probabilidad de que el día sea lluvioso?.
Se conoce que la probabilidad de tener cierta enfermedad si
has dado positivo en un determinado test es del 99%. Si una
persona ha dado positivo al test. ¿Cuál sería la probabilidad de
no tener la enfermedad? (lo que se denomina un falso
positivo)
Situaciones como las anteriores son las que se van a resolver con este
segundo gran resultado relativo a la probabilidad condicionada.
Formalmente; supongamos que A1 , A2 , A3 , ⋯ An , constituyen un

sistema completo de sucesos para el espacio muestral E asociado al

experimento aleatorio considerado. Supongamos también que B es
un suceso cualquiera del espacio E , para el cuál se conocen las
probabilidades p(B/Ai ).
185
En estas condiciones podemos deducir que:
p(Ai )p(B/Ai )
p(Ai /B) =

p(A1 )p(B/A1 ) + p(A2 )p(B/A2 ) + ⋯ + p(An )p(B/An )

También puede expresarse:
p(Ai )p(B/Ai )
p(Ai /B) =

n
∑i=1 p(Ai )p(B/Ai )

Video
En el siguiente vídeo puedes recabar algunas ideas sobre el Teorema
de Bayes.
186
Una situación clásica de aplicación del teorema de Bayes es la
siguiente:
En un taller se produce la pieza X de recambio para cierto producto.

En dicho taller hay tres máquinas, A, B y C que producen el
45%, 30% y 25%, respectivamente, del total de las piezas producidas
en él. Los porcentajes de producción defectuosa de estas máquinas
son del 3%, 4% y 5%.
Seleccionamos una pieza al azar; calcula:
a) Probabilidad de que sea defectuosa.
b)Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la

probabilidad de haber sido producida por la máquina B .
c) ¿Qué máquina tiene la mayor probabilidad de haber producido la

citada pieza defectuosa?
187
a) p(Def ) = p(A) ⋅ p(Def /A) + p(B) ⋅ p(Def /B) + p(C) ⋅
p(Def /C) = 0, 45 ⋅ 0, 03 + 0, 3 ⋅ 0, 04 + 0, 25 ⋅ 0, 05 = 0, 038
p(B)⋅p(Def /B) 0,3⋅0,04
b) p(B/Def ) = p(Def ) = 0,45⋅0,03+0,3⋅0,04+0,25⋅0,05 = 0, 3158
p(A)⋅p(Def /A) 0,45⋅0,03
c) p(A/Def ) = p(Def )
= 0,45⋅0,03+0,3⋅0,04+0,25⋅0,05
= 0, 3553
p(C)⋅p(Def /C) 0,25⋅0,05
d) p(C/Def ) = p(Def )

= 0,45⋅0,03+0,3⋅0,04+0,25⋅0,05

= 0, 32894
En la siguiente escena interactiva puedes prácticar con el Teorema de

Bayes.
188
189
190
Parte V
Variable Estadística Discreta

Jacob Bernoulli (Basilea, 27 de diciembre de 1654 - ibíd. 16 de agosto de 1705), también
conocido como Jacob, Jacques o James Bernoulli, fue un destacado matemático y
científico suizo; hermano mayor de Johann Bernoulli (miembro de la familia
Bernoulli).Sus contribuciones a la geometría analítica, a la teoría de probabilidades y al
cálculo de variaciones fueron de extraordinaria importancia. (https://es.wikipedia.org/).
Crédito imagen: Niklaus Bernoulli (1662-1716) , Dominio Público.
5.1 Introducción
Concepto de variable aleatoria.
El concepto de variable aleatoria viene a dotar de una mayor potencia

matemática y de un mejor manejo y utilización del heterodoxo mundo
de los espacios muestrales ya que traslada el experimento a función y
la ocurrencia o no de un suceso con la posibilidad de que la función
tome o no unos determinados valores numéricos.
Como veremos más adelante existirán también modelos de variables

aleatorias teóricos que podrán adaptarse perfectamente a multitud
de problemas prácticos y que simplificarán mucho el tratamiento y
solución de dichas situaciones. En este sentido veremos la
importancia sobre todo de la distribución binomial.
Supongamos que lanzamos dos dados cúbicos. El espacio muestral

formado por los posibles resultados estaría compuesto por:
195
Si consideramos una función que asocie a cada resultado posible del
experimento la suma de los resultados de las caras superiores
obtenidas; esta función podría tomar los valores desde 2 hasta 12.
Ω→R
(1, 1) → 2
(1, 2) → 3
(2, 1) → 3
⋯
⋯
196
Además se puede asociar a cada valor de la variable la probabilidad
de que tome dicho valor;
1 2 3
p(X = 2) = 36 , p(X = 3) = 36
, p(X = 4) = 36
,
4 5 6
p(X = 5) = 36 , p(X = 6) = 36
p(X = 7) = 36
,
5 4 3
p(X = 8) = 36 , p(X = 9) = 36

, p(X = 10) = 36

,
2 1
p(X = 11) = 36 , p(X = 12) = 36

Se define una variable aleatoria como una función que asocia a cada
suceso de un espacio muestral un número real.
X :Ω→R
A → X(A)
Según sean los valores del recorrido de esta función, (X(A)),

podemos clasificar las variables aleatorias en:
DISCRETAS: Cuando el recorrido toma valores aislados.

CONTINUAS: Cuando el recorrido puede tomar al menos
teóricamente cualquier valor de un intervalo de la recta real.
Una variable aleatoria continua es aquella que toma valores en

un conjunto continuo (en toda la recta real, en un intervalo o en una
unión de intervalos)
Si dado un gran número de observaciones se construye un

histograma con intervalos de clase de longitud pequeña, se obtiene
una gráfica que intuitivamente tiende a una curva cada vez que
aumenta el número de observaciones, reduciendo la longitud de las
clases del histograma.
197
Supongamos que se nos ocurre el experimento aleatorio
consistente en preguntar a los alumnos de un determinado
instituto por el tiempo que tardan en desplazarse desde su casa
al centro. La variable aleatoria en este caso vendría determinada
por un intervalo de tiempo en el que al menos teóricamente
podría tomar cualquier valor entre 0 y 25 minutos
aproximadamente.
Supongamos que se nos ocurre como experimento aleatorio salir
a la calle y aleatoriamente preguntar a las personas el dinero que
se han gastado en las últimas rebajas. La variable aleatoria en
este caso vendría determinada por una gran diversidad de
valores dentro de posiblemente también un intervalo bastante
grande (0, ...).
5.2 Función de probabilidad. Propiedades y

parámetros asociados
En cualquier variable aleatoria discreta se puede definir una función
particular denominada función de probabilidad que asocia a
cada valor de la variable la probabilidad de que dicha variable tome
ese valor.
f (xi ) = p(X = xi ) = pi

De la propia definición se desprende que para que una función sea

función de probabilidad se debe cumplir que:
p(X = xi ) = pi > 0

∑i p(X = xi ) = ∑i pi = 1

198
A partir de la función de probabilidad se puede definir la denominada
función de distribución como:
F (xi ) = p(X ≤ xi )

PARÁMETROS ASOCIADOS
Media aritmética o esperanza matemática
n
X = μ = ∑ xi ⋅ pi
i=1
Varianza
n
σ 2 = ∑(xi − μ)2 ⋅ pi

i=1
Para el cálculo práctico de la varianza en problemas concretos se

suele recurrir a esta otra fórmula a la que se llega desarrollando el
cuadrado de la anterior y que resulta mucho más sencilla para el
cálculo directo.
n
σ 2 = ∑ x2i ⋅ pi − μ2

i=1
199
Desviación típica
A partir de la fórmula de la varianza y para solventar el problema de

que el parámetro venga dado en las mismas unidades de medida que
los datos de la variable se define la desviación típica como:
n
σ= ∑(xi − μ)2 ⋅ pi

i=1
De la misma forma que antes, para el cálculo práctico directo se suele

utilizar:
n
σ= ∑ x2i ⋅ pi − μ2

i=1
PROPIEDADES
Las propiedades más interesantes de la media o esperanza

matemática y de la varianza son las que tienen relación con el
comportamiento de estos parámetros con respecto a la suma y
producto por un escalar de variables aleatorias.
Propiedades de la esperanza matemática
E[a ⋅ X + b] = a ⋅ E[X] + b siendo a, b ∈ R
E[X + Y ] = E[X] + E[Y ]
200
Propiedades de la varianza
var[a ⋅ X] = a2 ⋅ var[X] siendo a ∈ R
var[a ⋅ X + b] = a2 ⋅ var[X] siendo a, b ∈ R
si XeY son independientes

→ var[X + Y ] = var[X] + var[Y ]
EJEMPLO 1
Consideramos el experimento consistente en lanzar dos dados y

observar las caras superiores. En este experimento la variable
aleatoria que definimos sería la que asigna a cada suceso la suma de
las puntuaciones de las caras superiores.
n
1 2 2 1
X = μ = ∑ xi ⋅ pi = 2 ⋅ +3⋅ + ⋯ + 11 ⋅ + 12 ⋅ =7
36 36 36 36

i=1
201
n n
σ= ∑ x2i ⋅ pi − μ2 =
∑ x2i ⋅ pi − μ2 ⟹

i=1 i=1
1 2 2 1
σ= 22 ⋅ + 32 ⋅ + ⋯ + 112 ⋅ + 122 ⋅ − 72 = 2, 42
36 36 36 36

EJEMPLO 2
Consideramos el experimento consistente en el lanzamiento de tres

monedas y la variable que asocia a cada suceso el número de cruces
obtenidas.
n
1 3 3 1
X = μ = ∑ xi ⋅ pi = 0 ⋅ + 1 ⋅ + 2 ⋅ + 3 ⋅ = 1, 5
8 8 8 8

i=1
n n
σ= ∑ x2i ⋅ pi − μ2 = ∑ x2i ⋅ pi − μ2 ⟹

i=1 i=1
1 3 3 1
σ= 02 ⋅ + 12 ⋅ + 22 ⋅ + 32 ⋅ − 1, 52 = 0, 8666
8 8 8 8

202
EJEMPLO 3
Consideramos el experimento consistente en lanzar dos dados y la

variable que asigna a cada suceso la mayor de las puntuaciones
obtenidas.
n
X = μ = ∑ xi ⋅ pi
i=1
1 3 5 7 9 11
=1⋅ +2⋅ +3⋅ +4⋅ +5⋅ +6⋅ = 4, 47
36 36 36 36 36 36

203
n n
σ= ∑ x2i ⋅ pi − μ2 =
∑ x2i ⋅ pi − μ2 ⟹

i=1 i=1
1 3 9 11
σ= 12 ⋅ + 22 ⋅ + ⋯ 52 ⋅ + 62 ⋅ − 4, 472 = 1, 41
36 36 36 36

EJEMPLO 4
Extracción de tres bolas de una urna que contiene 6 bolas blancas y 4

negras. Si consideramos la variable aleatoria número de bolas negras
extraídas.
n
12 36 216 24 6
X = μ = ∑ xi ⋅ pi = 0 ⋅ +1⋅ +2⋅ +3⋅ = = 1, 2
72 72 720 720 5

i=1
n n
σ= ∑ x2i ⋅ pi − μ2
= ∑ x2i ⋅ pi − μ2 ⟹

i=1 i=1
12 36 216 24
σ= 02 ⋅ + 12 ⋅ + 22 ⋅ + 32 ⋅ − 1, 22 = 0, 7483
72 72 720 720

204
En la siguiente escena aparecen el diagrama de barras para
frecuencias relativas del lanzamiento de dos dados un total de veces
que puedes modificar mediante el control "nº de veces".
Puedes manipular dicho control y observar qué ocurre cuando se

aumenta o disminuye, además puedes hacer la comparación con el
modelo teórico de su función de probabilidad, representada de forma
gráfica. Intenta extraer tus propias conclusiones.
205
5.3 Distribución binomial
Un experimento aleatorio se conoce

como de Bernoulli cuando solamente da
lugar a dos resultados posibles
complementarios entre sí: Éxito y
fracaso.
Personal favorable o no a cierto candidato.

Pieza defectuosa o no en un control de calidad.
Infectado o no por Coronavirus.
Las características que debe reunir un experimento para

considerarse una distribución binomial son:
1. En cada prueba que se realice solamente son posibles dos

resultados; Éxito y Fracaso.
2. El resultado de cada prueba es independiente de las
anteriores.
3. La probabilidad de éxito se mantiene constante en cada
prueba.
Si consideramos la variable X que representa el número de

éxitos obtenidos en n pruebas realizadas, se dice que esta
variable sigue una distribución binomial de parámetros n y p
(B(n, p))
206
Para la simulación de modelos de probabilidad como por ejemplo el
modelo de una distribución binomial existe un artefacto muy simple y
con bastantes aplicaciones didácticas como es el aparato de Galton.
Un aparato de Galton está constituido por un conjunto variable de

pisos huecos con topes. En el primer piso hay un sólo tope, en el
segundo dos, en el tercero tres y así sucesivamente. Si dejamos que
una bola caiga desde el primer piso, al chocar con cada tope puede ir
a la derecha o a la izquierda. En principio si no se hace nada especial
en el tope, la probabilidad de ir a la izquierda es la misma que la de ir a
la derecha.
207
Video
Observa el siguiente vídeo.
Video 5.1. Vídeo de un tablero de Galton3
En la simulación del aparato de Galton que aparece en la escena de la

siguiente página, vemos que estas probabilidades las podemos
cambiar con lo que en realidad en dicha escena simulamos toda una
familia de aparatos de Galton (ventajas del mundo virtual). Al final de
los pisos, cuyo número también es variable en la escena, aparecen
una especie de canales contenedores para recoger las bolitas.
Mediante este sencillo aparato, Galton simulaba de forma práctica

modelos teóricos de probabilidad. Si observamos el recorrido de una
bola en el aparato de Galton.
3
Véase Caja de Galton.
208
En cada bifurcación la bola puede ir a la izquierda con probabilidad p
o a la derecha con probabilidad "q = 1 − p". La variable aleatoria que
toma valor 0 si cae a la izquierda o 1 si cae a la derecha se llama de
Bernoulli y la variable X que da el número de unos al finalizar el
experimento (lugares a la derecha) se denomina binomial.
Manipula la siguiente escena cambiando los controles, conjeturando

y comprobando sobre los canales de más o menos probabilidad.
Cambia también el control que en principio aparece con valor por
defecto de 1/2.
209
Podrías simular modelos para el lanzamiento de dados, cartas, o
cualquier otra experiencia en la que aparezcan solamente dos
resultados posibles: éxito (bola que va a la derecha) y fracaso (bola
que va a la izquierda).
Otra escena interactiva la hemos obtenido del proyecto Phet de la

Universidad de Colorado4. Ambas escenas, dan cuenta del concepto
de distribución binomial, simulando el conocido aparato de Galton.
En la versión original de Galton, la probabilidad de ir a la izquierda o
la derecha en cada camino es 0.5. En esta escena podemos elegir
cualquier valor p para la probabilidad de ir a la derecha:
4
Escena descargada de Phet interactive solutions.
210
5.3.1 Función de probabilidad de la distribución
binomial
La distribución binomial constituye un modelo de probabilidad

teórico al que se adaptan multitud de situaciones y problemas de la
vida real. Conviene por tanto profundizar en este modelo teórico
para así poder transferir los resultados a las distintas situaciones
concretas.
En este sentido se puede deducir la función de probabilidad asociada

a una distribución binomial. Si consideramos una distribución
B(n, p). En la que denominamos:
ˊ xito
A=E
A = Fracaso
211
Uno de los casos en los que se obtienen "r " éxitos sería:
A A A A A⋯A A A A
Es decir primero "r " éxitos y después "n − r " fracasos.
Particularizando a 4 éxitos y 3 fracasos, para ayudarnos en la

deducción, existirían muchas situaciones en las que podría
presentarse el suceso cuatro éxitos y tres fracasos, por ejemplo:
En realidad en las agrupaciones anteriores vemos dos elementos

distintos, uno se repite 4 veces y otro 3. Esta situación es una vieja
conocida en combinatoria. Hablamos de las agrupaciones de 7
elemenos en los que uno se repite 4 veces y otro 3, esto es:
Permutaciones con repetición de 7 elementos en los que uno se
repite 4 veces y otro 3. El número de permutaciones de este tipo
vendría dado por:
7! 7! 7
= ( ) = C7,4
4,3
P7 = =
4! ⋅ 3! 4! ⋅ (7 − 4)! 4

Es decir que todos los casos posibles en los que se presentan cuatro
éxitos y tres fracasos sería el número combinatorio:
7
( )
4
212
En general, la expresión para todos los casos en los que se pueden
presentar "r " éxitos y "n − r " fracasos sería:
n! n
Pnr,n−r = = ( ) = Cn,r
r!(n − r)! r

Teniendo en cuenta que la probabilidad de éxito es "p" y la de fracaso

"(1 − p)" y la independencia de cada prueba, deducimos que la
función que nos permite calcular la probabilidad de que la variable
aleatoria X (número de éxitos obtenidos en n pruebas), sería:
n
p(X = r) = ( )pr (1 − p)n−r

r
En la siguiente escena puedes observar las representaciones gráficas
de distintas distribuciones binomiales. Puedes cambiar los valores de
la binomial que coinciden con los controles "n" y "p".
213
Observa cómo cambia la forma de la gráfica y extrae tus propias
conclusiones.
5.3.2 Parámetros de la distribución binomial
Esperanza matemática, varianza y desviación típica de

la binomial
Consideramos la variable aleatoria X que sigue una binomial

B(n, p). Recordamos que la variable aleatoria X expresa el número
de éxitos que se obtienen al realizar "n" pruebas o ensayos
independientes de Bernoulli con probabilidad "p" de éxito y "(1 − p)"
de fracaso. Esta variable puede interpretarse perfectamente como
suma de "n" variables de Bernoulli, una por cada uno de los ensayos
realizados. En consecuencia, para deducir la esperanza matemática y
la varianza de la binomial B(n, p) podemos calcular la esperanza
matemática y varianza de la variable correspondiente a un ensayo y
después aplicar las propiedades generales de dichos parámetros con
respecto a la suma de variables independientes. Para un ensayo:
E[X] = 1 ⋅ p + 0 ⋅ (1 − p) = p
var[X] = 12 ⋅ p + 02 ⋅ (1 − p) − p2 = p − p2 = p ⋅ (1 − p) = p ⋅ q
E[X + X + ⋯ + X] = E[n ⋅ X] = n ⋅ E[X]0n ⋅ p

var[X + X + ⋯ + X] = var[X] + var[X] + ⋯ + var[X] =
n ⋅ var[X] = n ⋅ p ⋅ q
al ser independientes los ensayos
214
Por tanto:
Media: μ = n ⋅ p
Varianza: σ 2 = n ⋅ p ⋅ q siendo q = 1 − p
Desviación típica: σ = n⋅p⋅q
Tabulación de la binomial
Aunque las calculadoras científicas realizan sin ningún tipo de

problema los cálculos que se derivan de la función de probabilidad de
cualquier distribución binomial, hasta hace relativamente poco
tiempo dichos cálculos resultaban muy largos y engorrosos, por este
motivo se realizaron tabulaciones para las distribuciones binomiales
más habituales y a ellas se recurría para determinar de la forma más
aproximada posible los valores concretos del problema particular.
En dichas tablas se podía localizar la probabilidad de "r " éxitos de una

varriable aleatoria B(n, p), sin más que encuadrar la columna de la
probabilidad y la fila relativa al número de pruebas.
Por ejemplo si quiero calcular para la B(5, 0.3) La probabilidad de 4

éxitos. Miraré la tabla como se indica en la figura de la siguiente
página:
215
Existen tablas muy extensas para las binomiales. La más popular era
la que condensaba en una página todas las binomiales de hasta n =
10 y distintas probabilidades comprendidas entre un valor mínimo
0, 01 y un máximo de 0,5 con paso de 0, 05.
A continuación puedes ver dicha tabla.
216
EJEMPLO:
Vamos a utilizar la tabla para resolver una situación sencilla.
Supongamos que Ramona realiza un examen tipo test de 10

preguntas con cuatro opciones cada una de las que sólo una es
correcta. Si responde de forma aleatoria a todas las preguntas.
Calcula:
217
a) Probabilidad de contestar 5 preguntas bien.
b) Probabilidad de contestar bien al menos 3 preguntas.
El problema evidentemente se puede enmarcar en una binomial de

parámetros n = 10 y p = 0, 25
a) p(x = 5) = 0, 0584
b) p(x ≥ 3) = p(x = 3) + p(x = 4) + ⋯ + p(x = 10)

0, 2503 + 0, 1460 + 0, 0584+, 0, 0162 + 0, 0031 + 0, 0004 +
0, 0 + 0, 000 = 4744
218
o también:
p(x ≥ 3) = 1 − p(< 3) = 1 − [p(x = 0) + p(x = 1) + px(x =

2)]
= 1 − (0, 0563 + 0, 1877 + 0, 2816) = 0, 4744
Video
En el siguiente vídeo podemos asistir a una clase sobre la distribución
binomial:
219
5.3.3 Ajuste de una serie de datos a una binomial
La distribución binomial es una distribución teórica que permite

resolver de forma muy directa multitud de problemas prácticos.
Algunas veces también es muy interesante observar si una serie de
datos que provienen de alguna situación, en la que no es posible una
intervención matemática deductiva concreta, son parecidos a los que
se obtendrían de forma teórica mediante una binomial de ciertos
parámetros. Si se comprueba que los valores teóricos y los reales son
aceptablemente parecidos, no en una ocasión sino en varias,
entonces parece plausible pensar que la experiencia que da lugar a
los datos pueda imaginarse teóricamente como una binomial. Esto
puede permitir inferir resultados de forma previa.
Por ejemplo:
En los grandes macroexámenes que se dan con cierta frecuencia

en este país. Dichos eventos suelen constar de varias pruebas
eliminatorias que se celebran en un cierto intervalo de tiempo. Si
del histórico de otros años se conservan porcentajes de personas
que se presentan al primero y de los que van "sobreviviendo" a
las distintas pruebas, sería muy interesante observar si el
comportamiento de este tipo de pruebas se parece al modelo
teórico de una binomial de ciertos parámetros.
La asistencias a urgencias en un hospital a lo largo de las horas de
una determinada noche.
Pensemos en las colas en las ventanillas de cierto ministerio a lo
largo de las horas de una mañana.
Fallos en la manufactura de piezas en una cadena de montaje.
Gente en la parada de cierta estación de metro a lo largo de un
intervalo horario.
220
En la siguiente escena puedes comprobar si una serie de datos se
parece a los obtenidos en una binomial y como se calcularían los
parámetros de esa binomial.
Puedes cambiar los valores del control "n" de la binomial hasta un

máximo de 8. En la escena puedes comprobar la diferencia entre los
valores esperados y los reales de forma numérica y gráfica en los
respectivos diagramas de barras.
221
5.4 Otras distribuciones discretas

La distribución binomial es sin duda la más importante de las
distribuciones de probabilidad discretas. Sin embargo existen
situaciones que no pueden ser interpretadas mediante está
distribución. Imagina por ejemplo una población de 100 personas en
las que hay por ejemplo 5 con cierta característica especial. Si se van
escogiendo personas una tras otra sin reemplazamiento,
considerando éxito si la persona tiene dicha característica y fracaso el
que no la tenga. Esta experiencia no se ajusta a una binomial ya que la
probabilidad de éxito no se mantiene constante en cada extracción.
222
Familia uniforme
Existen bastantes
situaciones
interesantes que no se
pueden enfocar bajo la
óptica directa de la
binomial. En los Familia
siguientes epígrafes se hipergeométrica
estudiarán algunas
distribuciones teóricas
discretas clásicas con
las que se pueden
abordar un gran
número de problemas
concretos.
Familia de
Poisson
5.4.1 Distribución hipergeométrica
Hasta ahora hemos analizado distribuciones que modelaban

situaciones en las que se realizaban pruebas que entrañaban una
dicotomía (proceso de Bernoulli) de manera que, en cada experiencia,
la probabilidad de obtener cada uno de los dos posibles resultados se
mantenía constante. 223
Si el proceso consistía en una serie de extracciones o selecciones ello
implicaba la reposición de cada extracción o selección, o bien la
consideración de una población muy grande (cartas en un casino). Sin
embargo, si la población es pequeña y las extracciones no se
remplazan, las probabilidades no se mantendrán constantes. La
distribución hipergeométrica viene a cubrir esta necesidad de
modelar procesos de Bernoulli con probabilidades no constantes (sin
reemplazamiento).
La distribución hipergeométrica es especialmente útil en todos

aquellos casos en los que se extraigan muestras o se realicen
experiencias repetidas sin devolución del elemento extraído o sin
retornar a la situación experimental inicial.
Es una distribución fundamental en el estudio de muestras pequeñas

de poblaciones pequeñas y en el cálculo de probabilidades de juegos
de azar.
224
Tiene grandes aplicaciones en el control de calidad para procesos
experimentales en los que no es posible retornar a la situación de
partida.
Las consideraciones a tener en cuenta en una distribución

hipergeométrica:
El proceso consta de "n" pruebas, separadas o separables de

entre un conjunto de "N " pruebas posibles.
Cada una de las pruebas puede dar únicamente dos resultados
mutuamente excluyentes.
El número de individuos que presentan la característica A
(éxito) es "k ".
En la primera prueba las probabilidades son: P (A) = p y
P (A) = q ; con p + q = 1.
En estas condiciones, se define la variable aleatoria X = “nº de

éxitos obtenidos”. La función de probabilidad de esta variable
sería:
k N −k N = tamaño de la poblacioˊn
( )⋅( )
n−x k = Nuˊ mero de individuos que...

p(X = x) = x
N n = tamaño de la muestra

( ) x = valor que toma la variable
n

La media, varianza y desviación típica de esta distribución vienen

dadas por:
225
μ=n⋅p
N −n
σ2 = n ⋅ p ⋅ q ⋅
N −1

N −n
σ= n⋅p⋅q⋅
N −1

EJEMPLO 1:
Supongamos la extracción aleatoria de 8 elementos de un conjunto

formado por 40 elementos totales (cartas baraja española) de los
cuales 10 son del tipo A (salir oro) y 30 son del tipo complementario
(no salir oro).
Si realizamos las extracciones sin devolver los elementos extraídos y

llamamos X al número de elementos del tipo A (oros obtenidos) que
extraemos en las 8 cartas; X seguirá una distribución
hipergeométrica de parámetros 40, 8, 10/40. H(40, 8, 0, 25).
Para calcular la probabilidad de obtener 4 oros:
10 30
( )⋅( )
4 4

p(X = 4) = = 0, 07
40
( )

8

226
EJEMPLO 2:
De cada 20 piezas fabricadas por una máquina, hay 2 que son

defectuosas.
Para realizar un control de calidad, se observan 15 elementos y se

rechaza el lote si hay alguna que sea defectuoso. Vamos a calcular la
probabilidad de que el lote sea rechazado.
N = 20
n = 15
X = nuˊ mero de piezas defectuosas de las 15 escogidas
p(X ≥ 1) = 1 − p(X < 1 == 1 − p(X = 0)
2 20 − 2
( )⋅( )
0 15 816 18

1− =1− = = 0, 947
20 15504 19
( )

15

Cuando N es muy grande, como criterio se suele considerar N >

10n, la distribución hipergeométrica se puede aproximar por la
binomial B(n, p) con p = k/N.
En la siguiente escena puedes observar la función de probabilidad de

la distribución hipergeométrica. Puedes cambiar los diferentes
parámetros que configuran dicha distribución y observar como
cambia esta función a medida que se varía alguno de ellos.
Extrae tus propias conclusiones. Así mismo, puedes utilizar también

la escena como calculadora directa que permite resolver situaciones
concretas que se puedan plantear en problemas específicos.
227
Lógicamente hay un límite para los valores de la población de manera
que la escena funcione con fluidez (valores menores de 200).
5.4.2 Distribución de Poisson
Hay ocasiones en las que un proceso que

podría encuadrarse dentro de lo que
conocemos como distribución binomial,
ofrece dificultades que en ocasiones
incluso hacen inviable la resolución de
un problema.
En este sentido, pensemos el caso en que la constante “p”,

probabilidad de éxito de un experimento de Bernoulli sea muy
pequeña; (lo que habitualmente se denominan casos muy raros), o
228
bien el caso en que los cálculos que se derivan de la fórmula de la
binomial sean tan farragosos que saquen de rango nuestra
calculadora. Sería importante disponer de otra alternativa más
interesante.
Por otro lado, pensemos también en situaciones en las que los

elementos de la población pueden considerarse extraordinariamente
numerosos, (coches que pasan durante un tiempo por una autopista,
metros de tela de una producción en una fábrica, individuos de un
país susceptibles de padecer cierta enfermedad, entre otros ejemplos
posibles. Un proceso de Poisson se presenta en relación con un
acontecimiento (éxito) durante un periodo de tiempo o espacio. Se
conoce que el número de éxitos en la unidad de estudio, instante
temporal o espacial determinado es
λ
y a su vez este es independiente del número de éxitos en otro
instante o espacio.
Si llamamos X=
nº de ˊexitos obtenidos en un determinado periodo. Diremos que
X sigue una distribución de Poisson.
La función de probabilidad de esta variable viene determinada por la

fórmula:
−λ λk
f (k) = p(X = k) = e ⋅
k!
229
Los parámetros media, varianza y desviación típica de esta
distribución vienen dados por
μ=λ
σ2 = λ
σ= λ
EJEMPLO 1:
Cierta enfermedad tiene probabilidad de ocurrir p = 1/100000, lo

que en Medicina se denomina prevalencia. Calcula la probabilidad de
que en una ciudad de 500000 habitantes haya más de 3 personas con
dicha enfermedad. ¿Cuál sería en dicha ciudad el número de
enfermos esperado?
Solución:
El problema se podría abordar mediante una B(500000, 0, 00001)
En este caso aproximaremos por un modelo de Poisson de parámetro
λ = 500000 ⋅ 0, 00001 = 5
p(X > 3) = 1 − p(X ≤ 3)

1 − [p(X = 0) + p(X = 1) + p(X = 2) + p(X = 3)]
e−5 ⋅ 50 e−5 ⋅ 51 e−5 ⋅ 52 e−5 ⋅ 53
=1− − − − = 0, 735
0! 1! 2! 3!

230
EJEMPLO 2:
En una carretera se producen un promedio de 2 accidentes anuales.

Calcula la probabilidad de que este año se produzcan más de 3
accidentes.
Poisson de paraˊmetro λ = 2
p(X > 3) = 1 − p(X ≤ 3)
1 − [p(X = 0) + p(X = 1) + p(X = 2) + p(X = 3)]
e−2 ⋅ 20 e−2 ⋅ 21 e−2 ⋅ 22 e−2 ⋅ 23
1− + + + = 0, 143
0! 1! 2! 3!

Video
En el siguiente vídeo podemos asistir a una clase sobre la distribución
de Poisson:

231
la distribución de Poisson. Puedes cambiar los diferentes parámetros
que configuran dicha distribución y observar como cambia esta
función a medida que se varía alguno de ellos.
Extrae tus propias consecuencias. Así mismo puedes utilizar también

particulares que se puedan plantear en problemas concretos.
232
5.4.3 Distribución Geométrica
Consideramos una sucesión de

variables aleatorias independientes
de Bernoulli. Es decir una sucesión
de pruebas independientes con dos
posibles resultados y con
probabilidad de éxito constante e
idéntica en cada prueba.
X1 , X2 , ⋯ , Xi, ... donde Xi →

Bernoulli de probabilidad (p)
Esta sucesión como tal, al menos

teóricamente, puede ser infinita.
Si consideramos la variable aleatoria X=

nº de experiencias realizadas hasta obtener el primer ˊexito,
diremos que sigue una distribución geométrica.
De acuerdo con la definición anterior, la variable X puede tomar

valores desde uno en adelante. De este modo tenemos que la función
de probabilidad para X, que es fácil de deducir puesto que los
primeros k − 1 son fracasos y el k -ésimo éxito, sería:
f (k) = p(X = k) = (1 − p)k−1 ⋅ p
En algunos textos se considera la variable nº de fracasos

obtenidos hasta el primer éxito. En este caso el valor más
pequeño que puede tomar la variable es cero y la formulación cambia
un poco.
233
′
f ′ (k ′ ) = p(X ′ = k ′ ) = (1 − p)k ⋅ p
Los parámetros media, varianza y desviación típica de esta
distribución vienen dados por:
1 1−p 1−p
μ = ; σ2 = y σ =
p p2 p2

EJEMPLO 1:
Supongamos que queremos hacer un estudio sobre la variable

aleatoria referente al número de veces que un jugador necesita para
poder efectuar la salida en el juego del parchís. Hay que recordar que,
en este juego, un jugador no comienza el mismo hasta obtener un 5 al
lanzar el dado.
Podría ocurrir que solamente necesitara:
Una tirada X = 1; con probabilidad 1/6

Dos tiradas X = 2 con probabilidad (5/6)(1/6)
Tres tiradas X = 3 con probabilidad (5/6)(5/6)(1/6)
⋯
"k " tiradas X = k con probabilidad (5/6) ⋅ (1/6)
k−1
La variable puede seguir tomando valores indefinidamente puesto

que es posible encontrar a un jugador cuya “mala suerte“ haga que
NUNCA obtenga el dichoso 5. Estaríamos ante el caso de una
distribución geométrica de parámetro 1/6.
234
EJEMPLO 2:
Un matrimonio quiere tener una hija, y por ello deciden tener hijos
hasta el nacimiento de la esperada hija.
Calcular el número esperado de hijos (entre varones y hembras) que

tendrá el matrimonio.
Calcular la probabilidad de que la pareja acabe teniendo tres hijos o

más.
1
μ= 0,5
= 2
p(X ≥ 3) = 1 − p(X < 3)

= 1 − [p(X = 1) + p(X = 2)]
= 1 − [0, 5 + 0, 52 ] = 1 − (0, 75)
= 0, 25

la distribución Geométrica.
Puedes cambiar los diferentes parámetros que configuran dicha

distribución y observar como cambia esta función a medida que se
varía alguno de ellos.
Extrae tus propias consecuencias. Así mismo puedes utilizar también

235
5.4.4 Distribución binomial negativa
Imagina una persona que está jugando al baloncesto

con sus amigos y que al finalizar el partido comienza a
lanzar tiros libres.
A uno de ellos, especialmente desacertado, se le

ocurre comentar: ¡No pienso irme de aquí hasta
conseguir anotar cinco canastas!
236
Esta situación puede ilustrar bastante bien el problema que resuelve
la distribución binomial negativa. Una distribución binomial
negativa de parámetros "r" y "p" surge como una secuencia infinita
de intentos de tipo Bernoulli en los que:
Cada secuencia es independiente de las otras.

En cada intento solamente son posibles dos resultados (éxito
o fracaso).
La probabilidad de éxito es constante en cada secuencia.
Los intentos continúan hasta que se consigan r éxitos.
Si llamamos X = número de experimentos realizados hasta

obtener el r-ésimo éxito, diremos que la variable X sigue una
distribución binomial negativa de parámetros r, p.
Es fácil deducir que la función de probabilidad de esta variable será:
k−1 r
f (k) = p(X = k) = ( )p ⋅ (1 − p)k−r
r−1

La fórmula anterior no es difícil de deducir. Piensa que para esta

situación estamos seguros de que el k -ésimo intento es un éxito y que
en los k − 1 intentos anteriores se deben redistribuir los anteriores
r − 1 éxitos. La distribución geométrica sería un caso particular de
binomial negativa cuando r = 1. Los parámetros media, varianza y
desviación típica asociados a esta distribución serían:
1 1−p 1−p
μ = r ⋅ ; σ 2 = r ⋅ 2 y σ = r⋅
p p p2

237
EJEMPLO 1:
Para tratar a un paciente de una afección de pulmón, han de ser

operados en operaciones independientes sus 5 lóbulos pulmonares.
La técnica a utilizar es tal que si todo va bien, lo que ocurre con
probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si
no es así se deberá esperar el tiempo suficiente para intentarlo
posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus 5
lóbulos funcionen correctamente. ¿Cuál es el valor de intervenciones
que se espera que deba padecer el paciente? ¿Cuál es la probabilidad
de que se necesiten 10 intervenciones?
Este es un ejemplo claro de experimento aleatorio regido por una ley

binomial negativa, ya que se realizan intervenciones hasta que se
obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para
detener el proceso. Identificando los parámetros se tiene que si X es
Número de operaciones hasta obtener r = 4 con resultado
positivo,
8 7 4 4 6
p(X = 10) = ( ) ⋅ ( ) ⋅ ( ) = 0, 03185
3 11 11

1
μ=4⋅ = 6.25...
7/11

EJEMPLO 2:
Se sabe que la probabilidad de que un niño expuesto a una

enfermedad contagiosa la contraiga es de 0, 4. Calcula la
probabilidad de que el décimo niño estudiado sea el tercero en
contraer la enfermedad.
238
Podemos enfocar el problema como una binomial negativa de
parámetros X = 10, k = 3 y p = 0, 4
9
p(X = 10) = ( ) ⋅ 0, 43 ⋅ 0, 67 = 0, 0645
2


la distribución Binomial negativa. Puedes cambiar los diferentes
parámetros que configuran dicha distribución y observar como
cambia esta función a medida que se varía alguno de ellos. Extrae tus
propias conclusiones. Así mismo, puedes utilizar también la escena
como calculadora directa que permite resolver situaciones
239
5.4.5 Distribución uniforme
Supongamos un experimento
aleatorio en el que los resultados
posibles pueden tomar un
conjunto de “n” valores discretos
y donde cualquiera de estos
valores puede obtenerse con
igual probabilidad.
Es una distribución muy sencilla que asigna probabilidades iguales a

un conjunto finito de puntos del espacio. Modeliza fenómenos en los
que tenemos un conjunto de n sucesos posibles, cada uno de los
cuales con la misma probabilidad de ocurrir.
Si consideramos la variable aleatoria que hace corresponder cada

uno de esos sucesos a un número natural desde 1 a “n”, obtenemos lo
que se denomina una distribución uniforme. El único parámetro de la
distribución es “n” de ahí que se suela representar por:
X → U (n)
Por ejemplo el lanzamiento de un dado correspondería a una
distribución uniforme con n = 6. La función de probabilidad de una
distribución uniforme viene dada por:
1
P (x) = para x = {1, 2, 3, ⋯ , n}
n

Los parámetros media, varianza y desviación típica de una

distribución uniforme no son difíciles de obtener:
240
n
1 1 1 1+n
μ = ∑i⋅ = ⋅ (1 + 2 + 3 + ⋯ + n) = ⋅ ( )⋅n=
2

i=1
n n n
1+n

2 n

1 1 1+n 2
σ 2 = ∑ i2 ⋅ − μ2 = ⋅ (12 + 22 + 32 + ⋯ + n2 ) − ( ) =
2

i=1
n n
n2 − 1

12

n2 − 1
σ=
12


la distribución Uniforme. Puedes cambiar los diferentes parámetros
que configuran dicha distribución y observar como cambia esta
función a medida que se varía alguno de ellos.
241
242
243
Parte VI
Distribución Normal

Johann Carl Friedrich Gauss (Braunschweig, 30 de abril de 1777-Gotinga, 23 de febrero
de 1855)fue un matemático, astrónomo y físico alemán que contribuyó
significativamente en muchos ámbitos, incluida la estadística. (https://es.wikipedia.org/).
Crédito imagen: C. A. Jensen , Dominio Público.
6.1 Introducción
6.1.1 Idea intuitiva de función de densidad.
Las distribuciones de probabilidad de una variable aleatoria continua

pueden imaginarse como idealizaciones del polígono de frecuencias,
asociado al histograma de frecuencias relativas, cuando se aumenta
indefinidamente el número de datos y se disminuye paulatinamente la
amplitud de los intervalos. Este proceso “límite” proporciona una
primera idea de función asociada a dicha variable continua.
Las distribuciones de probabilidad de una variable continua se definen

a partir de una función particular a la que llamaremos función de
densidad. Consideremos inicialmente un ejemplo:
En un instituto se decide estudiar el tiempo, llamémosle X , que

emplean los alumnos en desplazarse desde su casa hasta el citado
centro. Se trata de una variable estadística que al menos
teóricamente puede tomar cualquier valor dentro de un determinado
intervalo (entre 0 y 20 minutos por ejemplo).
Este tipo de variable se suele representar gráficamente mediante un

histograma que consiste en levantar un rectángulo sobre cada uno de
los intervalos (clases) donde toma sus valores. La base del rectángulo
es la amplitud del intervalo. Si variamos las bases de los intervalos,
evidentemente cambia la forma del histograma.
Si el número de alumnos a los que controlamos el tiempo fuese

suficientemente grande y vamos aumentando el número de intervalos
(o lo que es lo mismo, consideramos clases cada vez más pequeñas), la
línea poligonal que forman los puntos medios de los lados superiores
de los rectángulos, llamada poligonal de frecuencias. tiende a una
curva que recibe el nombre de Función de Densidad de la variable X .
247
En la siguiente escena puedes observar el proceso límite que
vislumbra la idea de función de densidad. Por motivos de agilidad en
cuanto al funcionamiento de la escena se ha limitado los valores
máximos para el control correspondiente al tamaño de la población y
el de partición (límite de intervalos que se consideran).
En la siguiente imagen puedes observar el resultado que ofrece la

escena anterior para el caso de una población de 50000 elementos y
una partición de 1000 intervalos
248
6.1.2 Definición de Función de densidad
Una función f (x) se admite como función de densidad de una

variable aleatoria continua X si verifica:
La función f (x) es positiva o nula en todo el dominio de

definición
El área limitada por la gráfica de la función y el eje de abscisas
(OX ) es igual a la unidad.
249
Algunos ejemplos de función de densidad
⎧0 si x < 1
f (x) = ⎨
x−1 si 1 ≤ x ≤ 2
⎩
−x + 3 si 2 ≤ x ≤ 3

0 si x > 3
⎧0 si x < 0
g(x) = ⎨ 12 x si 0 ≤ x ≤ 2
⎩0

si x > 2
⎧0 si x < 0
h(x) = ⎨ 12 si 0 ≤ x ≤ 2
⎩0

si x > 2
Nota: En variable continua no tiene sentido el estudio de la

probabilidad en un valor aislado (siempre sería cero), pero sí lo tiene
el de considerar la probabilidad de que la variable tome valores
comprendidos dentro de un intervalo.
Asociaremos la probabilidad de que una variable continua tome

valores entre los puntos del intervalo [a, b] como el área
comprendida entre la curva, el eje OX y las rectas x = a y x = b.
250
La media o esperanza matemática es el valor más representativo de
todos los que toma la variable continua X , puede imaginarse como el
punto sobre el eje de abscisas en el cuál la superficie generada por la
función y el eje permanecerían en equilibrio. El cálculo matemático se
haría:
∞
∫
x ⋅ f (x)dx
−∞
La desviación típica se define como una medida de la dispersión

de los valores de la variable X con respecto a la media. Mientras más
pequeña sea la desviación más estrecha será la gráfica de f (x)
respecto a la media. Su cálculo se haría:
∞
∫ x2 ⋅ f (x)dx − μ2
−∞
6.2 La distribución normal

La distribución normal es sin duda la más importante de las
distribuciones continuas tanto en la teoría como en la práctica
estadística. Puede decirse que en este universo, la mayoría de los
fenómenos naturales se comportan básicamente de forma normal o
“gaussiana”. En estadística inferencial, el teorema central del límite y
las pruebas de normalidad sobre una serie de datos, van a ser básicas
en el desarrollo moderno de la estadística.
251
Aunque fue reconocida por primera vez por el francés Abraham de
Moivre (1667-1754), posteriormente, Carl Friedrich Gauss (1777-
1855) elaboró desarrollos más profundos y formuló la ecuación de la
curva. Se suele conocer popularmente como la "campana de Gauss".
La distribución de una variable normal está completamente

determinada por el conocimiento de dos parámetros:
Media μ
Desviacioˊn tˊıpica σ
La notación que emplearemos será:
N (μ, σ)
Que llamaremos normal de media μ y desviación típica σ
La expresión de la función de densidad para la distribución normal

viene dada por:
1 − 12 ( σ )
x−μ
2
f (x) = e
σ 2π

252
Las principales características (propiedades) de esta función son:
En la siguiente escena puedes manipular los controles para observar

el comportamiento de la gráfica de la distribución normal cuando
cambias la media y la desviación típica de la misma.
253
Videos
Puedes observar dos clases sobre la distribución normal
correspondientes a la Universidad Politécnica de Valencia.
254
6.2.1 La distribución normal cero uno
Entre la familia de las distribuciones normales, la que tiene por media

cero y por desviación típica uno es sin duda la más importante de
todas. Esta distribución aparece totalmente tabulada y como
veremos más adelante permitirá el cálculo de cualquier tipo de
probabilidad en cualquier tipo de distribución normal.
La notación que emplearemos para referirnos a esta normal será

N (0, 1).
Su función de densidad viene dada por la fórmula:
1 −x2
f (x) = ⋅e 2
2π

Como ya se ha mencionado al principio del tema, el cálculo de

probabilidades en variable continua se asocia al cálculo de áreas. En
el caso particular de la distribución N (0, 1)
Si queremos calcular el valor de que la variable tome un valor menor

o menor o igual que "z ", tendríamos que calcular un área mediante el
proceso de integración indefinida, con la dificultad añadida de que la
función a integrar no admite una primitiva en términos de función
elemental.
z
1
p(Z ≤ z) = ∫
−x2
⋅ e 2 dx

2π

−∞
255
Afortunadamente no tendremos que realizar este tipo de ejercicio
cada vez que queramos calcular una probabilidad ya que disponemos
de una tabulación que permite calcular con bastante precisión el
valor de que la variable tome valores menores o menores o iguales
que cualquier valor "z " comprendido entre 0 y 4 con incrementos de
una céntésima.
Esto será suficiente para localizar cualquier tipo de probabilidad

como veremos más adelante.
En la siguiente imagen podemos ver la representación gráfica de la

N (0, 1)
256
Detalle de la tabulación de la N (0, 1). Ejemplo de cálculo de una
probabilidad (aréa correspondiente al barrido a la izquierda de la
función):
6.2.2 Tipificación
La tipificación es el procedimiento que permite pasar de

cualquier distribución normal a la distribución N (0, 1). En una
distribución continua, si efectuamos el cambio de variable:
x−μ
Z=
σ

Siendo μ = media y σ = desviación típica.
257
En la siguiente escena puedes comprobar como la gráfica de la
función de densidad de cualquier distribución normal, mediante ese
cambio de variable, se transforma en la gráfica de la función de
densidad de la N(0,1). Para ello basta con que cambies los controles
media y desviación típica de la escena.
En las siguientes escenas puedes observar lo que ocurre al tipificar

una variable. Puedes calcular probabilidades de distribuciones
normales distintas a la N(0,1), además puedes elegir entre cálculo de
probabilidades a la izquierda, (barrido izquierda), cálculo de
probabilidades a la derecha, (barrido derecha) o cálculo de
probabilidades entre dos valores, (barrido de una franja).
258
Cálculo de probabilidades a la izquierda mediante
tipificación
259
Cálculo de probabilidades a la derecha mediante
tipificación
6.3 Manejo de la tabla de la N(0,1)

Los valores más importantes en cuanto al cálculo de probabilidades
de la distribución normal N (0, 1) aparecen tabulados en una tabla
muy sencilla, que presenta una disposición en filas y columnas
permitiendo una rápida localización del valor cuya área a la izquierda
se asocia con p(Z < z).
260
En la primera columnna aparece la parte entera y el primer decimal
del valor desde el 0, 0 al 4.0 (en algunas tablas no llega hasta el 4 y
suele terminar en 3, 5 ).
En la primera fila aparece la segunda cifra decimal, desde el 0, 00 al

0, 09. Para calcular la probabilidad de que la variable sea menor o
menor o igual que, por ejemplo el valor z = 1, 23, miramos la primera
columna y nos situamos en 1, 2, (parte entera y primera cifra
decimal). Después en la primera fila elegimos el valor 0, 03, (segunda
cifra decimal). El valor que buscamos es la intersección de la fila en la
que está situado el valor 1, 2 y la columna correspondiente a 0, 03.
Esta tabulación es muy simple. Ocupa apenas una página y se ha

popularizado mucho. No obstante, es muy concisa y contiene la
información mínima que se necesita para la localización de cualquier
tipo de probabilidad. Para determinar probabilidades que no
aparecen directas en la tabla se emplearán tácticas muy simples que
abordaremos en los siguientes epígrafes.
261
Ejemplo de tabulación de la N (0, 1)
262
6.3.1 Probabilidad p(Z < a). Barrido a la izquierda
Como ya se ha dicho anteriormente, los valores de la tabla de la

N (0, 1) se corresponden directamente a barridos a la izquierda. En
consecuencia, si el valor en cuestión es uno de los que aparece
deirectamente en la tabla, bastará proceder como se indicó en el
epígrafe anterior.
Por el contrario, si el valor no es de los que aparece en la tabla ya que

es negativo.
263
6.3.2 Probabilidad p(Z > a). Barrido a la derecha
Como ya se ha dicho anteriormente los valores de la tabla de la

N (0, 1) corresponden directamente a barridos a la izquierda. En
consecuencia, no existen de forma directa valores que correspondan
a barridos a la derecha. Vamos a distinguir entre valores positivos y
negativos.
- Para el caso p(z > a) siendo "a" un valor positivo.
- Para el caso p(z > −a) siendo "−a" un valor negativo.
264
6.3.3 Franja entre dos valores
Como ya se ha dicho anteriormente los valores de la tabla de la

N (0, 1) corresponden directamente a barridos a la izquierda. En
consecuencia, no existen de forma directa valores que correspondan
a la franja del área o barrido correspondiente a dos valores. Vamos a
distinguir tres casos:
- Para el caso p(a < z < b), siendo "a" y "b" valores positivos.
265
- Para el caso p(−a < z < −b), siendo "−a" y "−b" valores
negativos.
- Para el caso p(−a < z < b), siendo "−a" negativo y "b" positivo.
266
En la siguiente escena puedes practicar con el cálculo de
probabilidades a la derecha (barrido a la derecha). Puedes elegir, en el
primer control de menú, la opción << mayor >> y, en el segundo
control, << valor de z >> puedes cambiarlo directamente. La
escena resuelve directamente sin necesidad de realizar ninguna
táctica. No obstante, es conveniente que practiques con la tabla y que
compruebes tus resultados con los que se reflejan en la escena de
forma directa.
267
6.4 Manejo inverso de la tabla de la N (0, 1)
Existen muchas ocasiones en las que nos interesa saber cuál es el
valor de una determinada distribución que deja a su izquierda o
derecha una probabilidad determinada. Pensemos por ejemplo en
una nota de corte para acceso a una determinada titulación, o en los
valores de perímetro craneal que determinan que un feto se
encuentre entre los percentiles 25 y 75. También se verá en temas
posteriores la importancia del cálculo de los denominados "zeta sub
alfa medios y zeta sub alfa", tan importantes en intervalos de
confianza y contraste de hipótesis. En definitiva, conviene tener
cierta habilidad en la utilización de la tabla de la N (0, 1) en el sentido
expuesto anteriormente. Recordemos también la propia limitación de
la tabla en cuanto a que presenta únicamente valores entre 0 y como
mucho 4 y, además, que las probabilidades correspondientes son
únicamente de lo que denominamos barridos a la izquierda.
En la siguiente imagen se muestra la localización del valor de la

variable en la N (0, 1) que deja a la izquierda una probabilidad de
0.776 (haz clic sobre la imagen para ampliarla).
268
6.4.1 Calculo del valor za tal que p(z < za ) = k

Se trata de calcular el valor de la distribución N (0, 1) que

llamaremos za y que proporciona un barrido a la izquierda de valor "k

", es decir, tal que p(z < za ) = k .
Normalmente el valor de "k " no coincidirá exactamente con uno de

los que aparece en la tabla, por tanto debemos considerar el más
proximo. En el caso en el que haya dos o más que estén a la misma
distancia de "k ", lo habitual es considerar como valor de za la media

aritmética de los calculados.
Por ejemplo, supongamos que nos interesa conocer el valor de la

distribución N (0, 1) que determine su percentil 70; es decir, el valor
za tal que p(z < za ) = 0.7.

El valor no coincide con ningún valor de la tabla, por tanto

considero el más próximo. En este caso 0.6985.
Extrapolamos el valor para localizar el za . En este caso za =

0.52.
269
En la siguiente escena puedes calcular directamente, y sin necesidad
de utilizar ninguna tabla, los valores que dejan una probabilidad a la
izquierda de lo que quieras. Basta con que introduzcas el valor
deseado en el control <<probabilidad>>. No obstante, puedes
practicar el cálculo de este tipo de valores con la tabla de la N (0, 1).
También, puedes utilizar la escena para comprobar el error que se
comete al realizar los cálculos de forma manual (con la tabla), o de
forma directa en la escena.
270
6.4.2 Cálculo del valor za tal que p(z > za ) = k

Se trata de calcular el valor de la distribución N (0, 1) que

llamaremos za y que proporciona una probabilidad a la derecha o

barrido a la derecha de valor "k ", es decir, tal que p(z > za ) = k .
Teniendo en cuenta que en la tabla de la N (0, 1), los valores que

aparecen corresponden a barridos a la izquierda, debemos realizar
una táctica sencilla que permita localizar el valor za .
Si a la derecha deja una probabilidad de valor "k ", eso significa

que a la izquierda dejará un valor de "1 − k ", por tanto, p(z <
za ) = 1 − k .

Normalmente el valor de "1 − k " no coincidirá exactamente con

uno de los que aparece en la tabla, por tanto debemos considerar
el más proximo. En el caso en el que haya dos o más que estén a la
misma distancia de "1 − k ", lo habitual es considerar como valor
de za la media aritmética de los calculados.

Por ejemplo, supongamos que nos interesa conocer el valor de la

distribución N (0, 1), tal que la probabilidad a la derecha de ese valor
sea de 0.2, es decir, el valor za tal que p(z > za ) = 0.2.

Si p(z > za ) = 0.2, entonces p(z < za ) = 1−, es decir, p(z <

za ) = 0.80.

El valor no coincide con ningún valor de la tabla, por tanto

considero el más próximo. En este caso 0.7995.
Extrapolamos el valor para localizar el za . En este caso za = 0.84

271
En la siguiente escena puedes calcular directamente y sin necesidad
de utilizar ninguna tabla los valores que dejan una probabilidad a la
derecha de lo que quieras. Basta con que introduzcas el valor
deseado en el control <<probabilidad>>.
272
No obstante, puedes practicar el cálculo de este tipo de valores con la
tabla de la N (0, 1). También puedes utilizar la escena para
comprobar el error que se comete al realizar los cálculos de forma
manual, (con la tabla) o de forma directa en la escena.
6.4.3 Cálculo del valor za tal que

p(−za < z < za ) = k

Se trata de calcular el valor de la distribución N (0, 1)que llamaremos

za y que proporciona una probabilidad central de valor "k ", es decir,

tal que p(−za < z < za ) = k .

En este caso, teniendo en cuenta que los valores de la tabla de la

Normal N (0, 1) corresponden únicamente a barridos de
probabilidad a la izquierda, debemos razonar un poco más.
Si p(−za < z < za ) = k , teniendo en cuenta que el área total es

1 y la simetría de la distribución, se tiene que p(z < za ) = 0.5 +

k/2.
El valor "0.5 + k/2" habitualmente no coincidirá exactamente
con uno de los que aparece en la tabla, por tanto debemos
considerar el más proximo. En el caso en el que haya dos o más
que estén a la misma distancia de "k ", lo habitual es considerar
como valor de za la media aritmética de los calculados.

Por ejemplo, supongamos que nos interesa conocer los valores de la

distribución N (0, 1) que encierren una probabilidad central del 0.9;
es decir, los valores za y −za tal que p(−za < z < za ) = 0.9

273
Si p(−za < z < za ) = 0.9, entonces p(z < za ) = 0.5 +

0.45 = 0.95. El valor no coincide con ningún valor de la tabla, por

tanto, consideramos el más próximo. En este caso, hay dos que
están a la misma distancia: 0.9495 y 0.9505, extrapolando los dos
valores corresponderían a za = 1.64 y za = 1.65.

Consideramos la media aritmética de los dos valores, por tanto

za = 1.645.

En la siguiente escena puedes calcular directamente y sin necesidad

de utilizar ninguna tabla los valores que dejan una probabilidad
central de lo que quieras. Basta con que introduzcas el valor deseado
en el control <<probabilidad>>.
No obstante, puedes practicar el cálculo de este tipo de valores con la

tabla de la N (0, 1). También puedes utilizar la escena para
comprobar el error que se comete al realizar los cálculos de forma
manual(con la tabla), o de forma directa en la escena.
274
6.5 Aproximación de una binomial por una

normal
Partimos de un ejemplo:
Se sabe que la probabilidad de padecer cierta infección hospitalaria

es de 0.005. Sobre una población de 1000 pacientes nos interesaría
estudiar la probabilidad de que haya por ejemplo más de 10
infecciones, o 10 o menos de 10.
275
Según los datos que se desprenden del problema, estamos ante una
distribución binomial de parámetros B(1000, 0.005). Para responder
a las preguntas que se plantearon anteriormente, nos podemos
encontrar con algunos serios incovenientes, pues la calculadora
científica clásica, evidentemente, no puede con la carga operacional y
se sale de rango. En estos casos es muy útil el resultado que se
estudiará en el siguiente epígrafe y que proporciona las condiciones
en las que una distribución binomial puede aproximarse por una
distribución normal transformando las situaciones anteriores en
preguntas que se contestan muy fácilmente en el nuevo ambiente de
la distribución normal. El planteamiento del problema si lo
abordamos mediante una binomial sería:
Teorema de Moivre
Este resultado establece las condiciones en las

que una distribución discreta como la binomial
puede aproximarse por una distribución normal,
proporcionando además los parámetros media o
esperanza y desviación típica de dicha distribución
normal.
La sencillez de las condiciones que establece el

teorema, el ahorro operacional que proporciona y la calidad de la
aproximación hace que sea uno de los resultados más utilizados en
estadística.
276
Supongamos una distribución binomial B(n, p) en la que se cumplan
simultáneamente las condiciones:
n⋅p≥5 n ⋅ (1 − p) ≥ 5
Entonces
B(n, p) → N (n ⋅ p, n ⋅ p ⋅ q )
En la siguiente escena puedes practicar un poco con las condiciones y

tesis del teorema de Moivre. Si pulsas el botón de dibujar la normal,
observarás la poca diferencia que ofrece la aproximación.
277
CORRECCIÓN POR CONTINUIDAD (Corrección de
Yates)
La distribución binomial es una variable discreta y por tanto tiene

sentido el preguntarnos tanto por probabilidades puntuales, como
por probabilidades en las que sí tenga importancia saber si el primer
o último valor entra o no entra en las posibilidades del problema. Sin
embargo, cuando efectuamos la aproximación por una distribución
normal, por tanto continua, las consideraciones anteriores dejan de
ser determinantes, ya que la primera no tendría sentido y la segunda
no ofrecería diferencia alguna.
Para aclarar y diferenciar este tipo de situaciones se ha adoptado,

como norma general, realizar correcciones que vienen a solucionar
ese matiz diferenciador en las distribuciones discretas, que se
“difumina” en la aproximación mediante una distribución continua. En
este sentido, convenimos efectuar las siguientes"correcciones" sobre
los valores, conocida popularmente como correcciones de Yates
278
279
Veamos un ejemplo muy sencillo de aplicación del teorema de Moivre
con la corrección de Yates. Supongamos que el 90% de los miembros
de un club pasan sus vacaciones en la playa. Calcula una
aproximación, obtenida utilizando tablas de la normal, de la
probabilidad de que, en un grupo de 6000 miembros del club, 5450 o
menos vayan a ir a la playa a pasar sus vacaciones.
280
281
282
Parte VII
Inferencia Estadística
Muestreo

Abraham de Moivre (26 de mayo de 1667, Champagne - 27 de noviembre de 1754,
Londres) fue un matemático francés, conocido por su fórmula epónima, por sus
aportaciones a la teoría de la probabilidad y porque predijo la fecha de su muerte a través
de un cálculo estadístico (https://es.wikipedia.org/).
7.1 Introducción
Hasta ahora, con la estadística descriptiva, se han ido estudiando las
características de una población a partir de ciertos parámetros
obtenidos de la misma, realizando una labor primoldialmente
descriptiva de los aspectos principales de dicha población.
Diremos que se ha realizado un estudio exhaustivo o censo, cuando lo

hayamos realizado sobre todos los elementos de una población. En el
caso en el que la investigación se haga sobre una muestra, diremos
que se ha realizado un estudio por muestreo.
A diferenciade la estadística descriptiva, la estadística

inferencial tiene otros objetivos:
La Inferencia estadística persigue la obtención de conclusiones

sobre distintos aspectos de una población, a partir de los datos
obtenidos en una muestra de dicha población. También intenta medir
su significación, es decir, la confianza que nos merecen dichas
conclusiones.
Por ejemplo:
Inferir la altura media de los jóvenes cordobeses a partir de los

datos obtenidos en una muestra de los mismos extraída en un
centro de secundaria.
Inferir la proporción de personas favorables a cierto político a
partir de los datos obtenidos en una muestra realizada
telefónicamente.
Inferir el porcentaje de concentración de cierta sustancia en un
lago a partir de los datos obtenidos con una pequeña muestra.
287
Llamaremos parámetro a cualquier valor representativo de una
población; media, mediana, moda varianza…
Llamaremos estadístico a cualquiera de los valores

representativos obtenidos en las diferentes muestras de la población;
media muestral, varianza muestral, desviación típica muestral…
7.2 Muestreo probabilístico. Tipos de muestreo.

El estudio de determinadas características de una población se
efectúa a través de las diversas muestras que pueden extraerse de
ella.
288
Los métodos de muestreo probabilístico son aquellos que se basan
fundamentalmente en el principio de equiprobabilidad; es decir:
aquellos en los que todos los individuos tienen la misma probabilidad
de ser elegidos para formar parte de una muestra. Este aspecto es
crucial con respecto a la representatividad de dichas muestras y debe
tratarse con mucho cuidado ya que procedimientos que en principio
parecen aleatorios muchas veces no lo son. Pensemos en una
macroencuesta a nivel mudial. Imaginemos que deseamos realizar un
estudio sobre hábitos alimenticios y para ello elegimos de forma
aleatoria números de teléfono en los distintos países y realizamos
llamadas para contactar con los individuos de nuestra muestra.
¿Estamos seguros de que todos los individuos de la población han
tenido la misma probabilidad de ser elegidos? En principio el
procedimiento es aleatorio pero todavía en algunos países el teléfono
es un artículo de lujo al que una gran parte de la población aún no
tiene acceso. En consecuencia esos individuos no tendrían ninguna
posibilidad de ser elegidos con nuestro procedimiento.
Representatividad de las muestras - Muestreo aleatorio
La característica más importante de una muestra es su

representatividad respecto al estudio estadístico que se esté
haciendo. Si la muestra no es representativa diremos que está
sesgada.
El proceso mediante el cual se elige una muestra se llama muestreo, y

para que nos proporcione una muestra representativa debe ser
aleatorio. Un muestreo es aleatorio cuando los individuos de la
muestra se eligen al azar, de forma que todos tienen la misma
probabilidad de ser elegidos.
289
Observa la siguiente escena interactiva:
En la escena cada uno de los 625 cuadraditos representa un alumno

de un instituto ficticio, se quiere estudiar el "número de hermanos",
puedes animar una elección totalmente aleatoria o realizar tú el
muestreo, simulando encuestas, haciendo clic.
Hazlo así: Decide primero el tamaño de la muestra, por ejemplo 62

alumnos, sitúa el ratón sobre el recuadro y con los ojos cerrados
selecciona un cuadrito (alumno), a partir de este cuenta y haz clic
cada 10 cuadritos (625/62 ≈ 10), cuando llegues al final de la lista
(cuadrado) sigue desde el principio. Este tipo de muestreo aleatorio
se llama sistemático.
290
Dentro de los métodos de muestreo probabilísticos pueden
destacarse los siguientes:
7.2.1 Muestreo aleatorio simple
Para la realización de este tipo de muestreo, se asigna un número a

cada individuo de la población y a través de algún procedimiento
aleatorio, con reemplazamiento, como sorteo, tabla de números
aleatorios, función ran# de la calculadora, etc., y se eligen tantos
sujetos como sea necesario para completar el tamaño de muestra.
7.2.2 Muestreo aleatorio sistemático
Este tipo de procedimiento exige, como el anterior, numerar todos los

elementos de la población, pero en lugar de extraer “n” números
aleatorios sólo se extrae uno. Se parte de ese número aleatorio y a
partir de él se seleccionan los lugares múltiplos de un número “k ”
obtenido previamente. Por ejemplo supongamos un control de tráfico
en el que se decide parar a partir de un momento dado a los vehículos
que ocupen el lugar 20, 40, 60, ⋯.
291
EJEMPLO: Una ganadería tiene 3000 vacas. Se quiere extraer una
muestra de 120. Explica cómo se debería obtener la muestra:
a) Mediante muestreo aleatorio simple
b) Mediante muestreo sistemático.
Solución:
a) En primer lugar se asignaría un número a cada vaca desde el 1 al

3000. Posteriormente se sortean 120 números entre 1 y 3000 (se
puede utilizar la función “ran” ⋅3000.
b) En primer lugar el coeficiente de elevación 3000/120 es decir 25.
En segundo lugar sortear un número entre el 1 y el 25;“ran” ⋅25,

supongamos que se obtiene el nº 3. Las vacas seleccionadas serán:
3, 28, 53, ⋯ 2978.
292
7.2.3 Muestreo aleatorio estratificado
Consiste en considerar categorías típicas diferentes entre sí

(estratos) que poseen gran homogeneidad respecto a alguna
modalidad. Se puede estratificar, por ejemplo, según la profesión, el
municipio de residencia, el sexo, el estado civil, etc. Lo que se
pretende con este tipo de muestreo es asegurarse de que todos los
estratos de interés estén representados adecuadamente en la
muestra.
La distribución de la muestra en función de los diferentes estratos se

denomina afijación, y puede ser de diferentes tipos:
Afijación Simple: A cada estrato le corresponde igual número

de elementos
Afijación Proporcional: La distribución se hace de acuerdo con
el peso (tamaño) de la población en cada estrato.
293
EJEMPLO: Supongamos que nos interesa estudiar el grado de
aceptación que la implantación de la nueva ley educativa ha tenido
entre los padres de alumnos de una provincia. Seleccionamos 600
individuos. Se conoce que los 10000 niños escolarizados se
distribuyen: 6000 en colegios públicos, 3000 en colegios concertados
y 1000 en privados no concertados.
Queremos que los tres estratos estén representados de acuerdo a:
a) Afijación simple.
b) Afijación proporcional.
Solución:
a) Los tres estratos tendrán el mismo número de elementos ( en este

caso 200 )
b) Para realizar la afijación proporcional:
Colegios públicos: 6000/10000 = 0.60

Colegios privados concertados: 3000/10000 = 0.30
Colegios privados no concertados: 1000/10000 = 0.10
Para conocer el tamaño de cada estrato en la muestra no tenemos

más que multiplicar esa proporción por el tamaño muestral.
Colegios públicos: 0.60x600 = 360 sujetos

Colegios privados concertados: 0.30x600 = 180 sujetos
Colegios privados no concertados: 0.10x600 = 60 sujetos
294
Representatividad de las muestras - Muestreo estratificado
En ocasiones cuando la población objeto de estudio, pertenece a

distintos grupos o estratos conviene elegir la muestra de forma que
todos ellos queden representados.
Este tipo de muestreo, escogiendo un reparto proporcional a los

estratos, se llama estratificado.
En este caso la variable a estudiar es el color preferido, y se ha

decidido hacerlo por niveles: 1º-2º ESO, 3º-4º ESO y Bachillerato.
295
Practica en la siguiente escena:
296
7.2.4 Muestreo aleatorio por conglomerados
En el muestreo por conglomerados, la muestra seleccionada es todo

un grupo de elementos de la población que forman en sí una unidad
compacta, a esta unidad es a la que llamamos conglomerado. Este
tipo de muestreo consiste en seleccionar aleatoriamente un cierto
número de conglomerados y en investigar después todos los
elementos de los mismos. Las unidades hospitalarias, los
departamentos universitarios, una caja de determinado producto,
etc., son conglomerados naturales. En otras ocasiones se pueden
utilizar conglomerados no naturales como, por ejemplo, las urnas
electorales. Cuando los conglomerados son áreas geográficas suele
hablarse de "muestreo por áreas".
297
EJEMPLO: Supongamos que interesara estudiar algún aspecto
concerniente a los políticos que componen las corporaciones locales
de municipios de aproximadamente 15000 habitantes. Sabemos que
por término medio una corporación local en estos casos suele estar
compuesta por 12 políticos de los distintos partidos. ¿Cómo realizar
el muestreo si necesitáramos una muestra de tamaño 600?
Solución: En primer lugar elegiríamos aleatoriamente 50 pueblos de

alrededor de 15000 habitantes. Una vez elegidos estudiamos a todos
los elementos de estas corporaciones.
En la siguiente escena puedes trabajar con la idea fundamental del

muestreo probabilístico:
Escena 7.4. Escena desarrollada por varios autores (RED Descartes)
298
7.2.5 Muestreo no aleatorio
En ocasiones la naturaleza del estudio, las necesidades económicas,

las características de una determinada población u otra razón,
obligan a recurrir a métodos de obtención de muestras que no son
aleatorias. Este tipo de muestreo tienen como principal
inconveniente su dificultad de representatividad respecto de la
población de partida. Se pueden mencionar como algunos de los
métodos de muestreo no aleatorio más utilizados:
Muestras erráticas o casuales. Por ejemplo encuestas a pie de urna

o encuestas a la salida o entrada de un evento deportivo.
Muestras intencionadas o racionales. Selección consciente de los
elementos de la muestra. Para un estudio académico el profesor
elige intencionadamente a los alumnos con la información que ya
tiene de ellos de forma que la muestra englobe las características
de la población.
Muestras por cuotas. Criterios previos de selección como
individuo de entre 30 y 40 con trabajo, divorciado y deportista.
Muestras bola de nieve. Colectivos difíciles de encontrar como,
por ejemplo, un estudio sobre el perfil de personas aficionadas al
comic antiguo en España. En este tipo de muestreo es dificil de
conseguir a los individuos aunque sí es relativamente fácil que un
individuo concreto conozca a otros de su perfil y que por tanto a
partir de unos cuantos, se genere como una bola de nieve, una
muestra aceptable.
finalmente, puedes profundizar un poco más con algunos vídeos, a los

que puedes acceder haciendo clic en las imágenes de la siguiente
página.
299
300
7.3 Distribución en el muestreo de la proporción
Supongamos una población de la que conocemos la proporción “p” de
individuos que cumple cierta característica. Si de esta población
extraemos muestras de tamaño “n”, y en cada muestra a su vez
estudiamos la proporción de individuos que cumple la característica
estudiada, obtendremos diferentes proporciones muestrales:
De manera que si llamamos
P̂
a la variable aleatoria formada por los distintos valores que toman las
proporciones muestrales.
Esta variable aleatoria como tal tiene las siguientes características:
La media o esperanza matemática de la variable "proporciones

muestrales" es la proporción poblacional “p”
301
La desviación típica de la variable "proporciones muestrales" es:
p(1 − p)
σ=
n

Además, a medida que crece el tamaño n, la distribución de las

proporciones muestrales se aproxima cada vez más a la
DISTRIBUCIÓN NORMAL (siempre que "p" no esté muy próxima a 0
ni a 1)
p(1 − p)
Para n suficientemente grande ⟹ p̂ → N (p, )
n
EJEMPLO: En una población se conoce que un 2% de la misma es
favorable a la construcción de un centro de rehabilitación para
toxicómanos. Si suponemos que en un barrio de la misma viven 500
personas. Calcula la probabilidad de encontrar en dicho barrio más
de 9 personas favorables a la construcción de dicho centro.
302
En la siguiente escena puedes observar el comportamiento de la
distribución de las proporciones muestrales cuando cambias el
tamaño de la población.
También puedes cambiar la proporción poblacional y el tamaño de la

misma, observando la aproximación de la binomial a la normal
cuando se cumplen las condiciones del teorema de Moivre.
303
7.4 Distribución en el muestreo de las medias
muestrales
Supongamos que tenemos una población de la que se conoce la
media y la desviación típica, llamémoslas:
Media = μ
Desviacioˊn tˊıpica = σ
Supongamos también que extraemos muestras de tamaño “n” de
dicha población. Cada muestra proporcionará una determinada
media (media muestral).
Si consideramos cada una de estas medias como valores de una

variable aleatoria podemos estudiar su distribución, a lo que
llamaremos distribución muestral de medias o distribución en el
muestreo de las medias muestrales.
304
Llamamos a la variable aleatoria que toma los distintos valores de las
medias muestrales de tamaño "n"
X̂
Las características principales de esta variable aleatoria son:
La media es la misma que la de la población.
X̂ = μ
La desviación típica es la misma que la de la población dividida

entre la raíz de n.
σ
n

Además, a medida que el tamaño de la muestra crece, la distribución

de la variable medias muestrales de tamaño n, se aproxima cada vez
más a la distribución normal, esto es:
σ
Para n suficientemente grande ⟹ X̂ → N (μ, )
n
En el siguiente vídeo podemos observar los conceptos generales de

distribuciones en el muestreo.
305
Video
EJEMPLO : Las puntuaciones de un test de inteligencia para adultos

siguen una distribución Normal de media 100 y desviación típica 16.
Si extraemos una muestra aleatoria simple de 25 individuos:
a) Calcula la probabilidad de que la media muestral sea inferior a 95
b) Probabilidad de que esté comprendida entre 98 y 102
Solución: Se dan las características en la población para poder

asegurar que las medias muestrales siguen:
16
a) (X̂ → N (100, 25
) ⟹ X̂ → N (100, 3, 2)

p(X̂ ≤ 95) = p(z ≤ 95−100

3,2
) = p(z ≤ −1, 56) =
0, 0594
306
b) p(98 ≤ X̂ ≤ 102) = p( 98−100 3,2 )
102−100
3,2 ≤z≤
= 0(−0, 62 ≤ z ≤ 0, 62)
p(z ≤ 0, 62) − p(z ≤ −0, 62) = 0, 4648
En la siguiente escena puedes observar como se distribuyen las

medias muestrales. Puedes manipular el control <<Tamaño
muestral>> y observar como influye en el reagrupamiento o
dispersión de datos en la distribución normal. Para el caso en que la
población de partida no sea normal, puedes observar las escenas
finales del siguiente epígrafe, (Teorema central del límite).
307
7.5 Teorema central del límite
El teorema central del límite es sin duda el resultado más importante
relacionado con el muestreo y las distribuciones en el muestreo de
las medias muestrales y de las proporciones muestrales. Este
resultado tiene muchas versiones. Una de las más simples es la que
sigue:
Si X es una variable aleatoria de una población con media y

desviación típica
Media = μ
Desviacioˊn tˊıpica = σ
Entonces se verifica:
a) La distribución de las medias muestrales de tamaño “n” tiene:
X̂ = μ
y por desviación típica
σ
Sn =
n

b) Además la distribución de las medias muestrales se aproxima cada

vez más a la distribución normal.
Entendiendo por aproximarse a la normal que:
308
1) Si se sabe que la población de partida es normal entonces sea cual
sea el tamaño de las muestras, la distribución de las medias
muestrales será una distribución normal.
2) Si la población de partida no es normal, la distribución de las

medias podrá aproximarse a la normal con ciertasgarantías para un
tamaño muestral mayor o igual que 30.
Video
En el siguiente vídeo podemos observar Una clase sobre teorema
central del límite.
309
En las siguientes escenas puedes comprobar la tesis del teorema
central del límite en tres casos de distribuciónes de partida. El primer
caso sobre una población de partida normal, el segundo con una
distribución de partida no normal sesgada a la derecha y en el tercer
caso partiendo de una distribución uniforme.
Comprueba como a medida que se aumenta el control tamaño

muestral y se afina la partición, la tendencia hacia la normalidad de
la distribución de las medias muestrales.
Teorema central del límite para una población normal
310
Teorema central del límite en una distribución de
partida no normal, sesgada a la derecha
311
Teorema central del límite en una distribución de
partida uniforme
312
313
314
Parte VIII
Inferencia estadística
Intervalos de confianza

William Sealy Gosset (Canterbury 11 de junio de 1876 – 16 de octubre de 1937) fue un
estadístico, conocido por su sobrenombre literario Student, contribuyó a crear un campo
fundamental que hoy se conoce como “diseño de experimentos”, clave para la industria
farmacéutica (https://es.wikipedia.org/). Crédito imagen: User Wujaszek, Dominio
público.
8.1 Introducción
En la unidad anterior,(teoría del muestreo), se obtenía información de
los estadísticos, (fundamentalmente media, proporcion y
desviación típica), obtenidos en las muestras extraídas al azar de
poblaciones cuyos parámetros eran conocidos considerando a
equellos como variables aleatorias. En este sentido eran estudiadas
las distribuciones en el muestreo de las medias muestrales o las
proporciones muestrales a partir de la media poblacional y la
proporción poblacional.
Sin embargo, lo realmente interesante es el proceso contrario; esto es,

pretender conocer información, en la medida de lo posible, de ciertos
parámetros de la población (desconocidos) a partir de la información
que proporcionan los estadísticos de muestras extraídas de forma
aleatoria.
Por ejemplo: deseamos conocer la proporción de personas de la

ciudad de Barcelona (6 millones de habitantes) que utilizan
habitualmente internet. Para ello realizamos una encuesta sobre 1200
habitantes elegidos aleatoriamente en los que resultó que el 75% de
ellos sí usaban con frecuencia internet.
Podríamos inferir por tanto como una primera aproximación del

parámetro poblacional buscado, el valor del estadístico que se ha
obtenido en la muestra. Por tanto podemos decir que hemos estimado
el parámetro proporción poblacional de manera puntual por el
valor del estadístico proporción obtenido en la muestra.
319
8.2 Estimación. Estimación puntual y estimación
por intervalos
Al proceso mediante el cuál inferimos valores de parámetros
poblacionales a partir de los resultados obtenidos en una muestra
extraida aleatoriamente se denomina estimación.
Si realizamos dicha estimación asignando un valor muestral concreto

al parámetro poblacional que se desea estimar, estaremos ante una
estimación puntual. En general, se verifica que cualquier
parámetro poblacional que se quiera estimar tiene siempre en la
muestra su estadístico paralelo:
Media poblacional... Media muestral
Varianza poblacional... Varianza muestral
320
En los estudios estadísticos se pueden utilizar diferentes estimadores
para un mismo parámetro. Dos de las características principales que
poseen los estimadores son el sesgo y la eficiencia.
Un estimador se denomina insesgado o centrado, si su media

coincide con el valor del parámetro poblacional que se va a
estimar
Un estimador se dice eficiente cuando su varianza es mínima
Por ejemplo, para estimar una media poblacional se pueden elegir

entre los estadísticos: media aritmética muestral, mediana muestral o
moda muestral. La pregunta que nos haríamos es cuál de ellos sería el
“mejor”. Tanto la media muestral como la mediana muestral son
estimadores insesgados, sin embargo, la varianza de la media
muestral es menor que la de la mediana muestral. Los estimadores
centrados o insesgados más precisos son aquellos que tienen menor
desviación típica.
Existe toda una teoría en estadística que aborda el tema de la

estimación puntual y que excede los objetivos de este estudio.
Nuestro principal trabajo se centra en otro tipo de estimación. La
estimación por intervalos.
Supongamos que para realizar una estimación de un parámetro

poblacional, un profesor encarga la tarea a un grupo de diez alumnos.
Estos a su vez seleccionan diez muestras aleatorias sobre las que
calculan los correspondientes estadísticos muestrales.
Evidentemente estos estadísticos no tienen por qué coincidir.
Nuestro problema consiste ahora en elegir de entre los diez el que
“creamos” mejor como estimador del parámetro poblacional. ¿Cómo
actuamos?¿Cuál elegimos?
321
La estimación puntual es poco útil como aproximación del parámetro
poblacional que se desea estimar ya que solamente proporciona un
valor concreto, el cual además varía con cada elección de la muestra.
Desde el punto de vista estadístico, es mucho más interesante no
concretar un valor sino obtener un intervalo dentro del cuál se tiene
cierta confianza de que se encuentre el parámetro poblacional
desconocido y objeto principal de nuestra estimación.
En este sentido, definimos los siguientes conceptos:
Estimador por intervalo: Par de valores de estadísticos que se

utilizan para estimar el parámetro poblacional. (como variables
aleatorias que son tendrán su correspondiente distribución en el
muestreo).
Estimación por intervalo: Valores numéricos concretos que toma
el estimador por intervalo para una muestra determinada.
Coeficiente de confianza o nivel de confianza: Es la probabilidad de
que un estimador por intervalo cubra el verdadero valor del
parámetro poblacional que se estima. Generalmente se
representa
322
(1 − α)
Nivel de significación o de riesgo: Es la diferencia entre la certeza y
el nivel de confianza deseado, es decir
Valor crítico: Es el valor de la abscisa que deja a su derecha un

área igual a la mitad del nivel de significación. Se representa
habitualmente mediante
Zα/2
Margen de error: Es la diferencia entre los extremos superior e

inferior de un intervalo de confianza.
Error máximo admisible: Radio del intervalo de confianza.
8.3 Intervalos de confianza

La idea global de la estimación mediante un intervalo de confianza es
la siguiente. Supongamos que quiero estimar un parámetro
poblacional, generalmente la media poblacional o la proporción
poblacional desconocidos ambos. La población global es inabordable
por diversos motivos logísticos, por ejemplo puede ser muy
numerosa o que económicamente el proceso sea muy caro.
Consideramos por tanto la extracción de una muestra aleatoria, por
ahora que creamos lo suficientemente grande como para que los
parámetros obtenidos en dicha muestra sean parecidos a lo que
debería ocurrir en la población. Un intervalo de confianza es
considerar dos valores de manera que se tenga cierto nivel de certeza
(confianza) de que el verdadero valor del parámetro poblacional se
encuentre entre los que determinan nuestro intervalo.
323
Por ejemplo, cuando decimos que en un estudio hecho por una
empresa se estimó que la estatura media de los jóvenes españoles
oscila entre 172 cm y 178 cm, y que el trabajo se realizó con un nivel
de confianza del 95%, entendemos que la verdadera estatura media
poblacional será seguramente un valor comprendico entre los dos
anteriores y que la probabilidad de que el intervalo [172, 178]
realmente cubra a la verdadera estatura media es de 0, 95.
Entendiendo esto último como que si realizamos la estimación por
ejemplo 100 veces, con la elección de 100 muestras aleatorias
distintas, aproximadamente 95 de nuestras respuestas en forma de
intervalos de confianza cubriran al verdadero valor del parámetro
estatura media poblacional. ¿Será nuestra respuesta [172, 178] uno
de estos intervalos, digamos buenos? Hay un 95% de posibilidades de
que sí.
8.3.1 Intervalo de confianza para la proporción

poblacional
Supongamos una población en la que queremos estimar la proporción

“p” desconocida (por ejemplo la proporción de personas que van al
cine habitualmente en una determinada ciudad).
324
Supongamos también que extraemos una muestra aleatoria simple de
tamaño “n” en la que obtenemos un valor concreto para la
proporción, llamémosle
p̂
Sabemos que la distribución en el muestreo de las proporciones
muestrales, sigue una normal de parámetros
p(1 − p)
N (p, )
n

en los casos en que se cumplan las hipótesis sobre normalidad que

estipula el teorema de Moivre. Esto quiere decir que si tipificamos
ˆ−p
p̂
= z seguira
ˊ una N (0, 1)

p(1−p)
n

Si queremos calcular los valores
±x α2

tales que dejan una probabilidad central de
(1 − α)
bastaría con ir a la tabla de la normal y localizar el valor que deja un
barrido a su izquierda de
α
1−
2

325
De lo anterior, la notación empleada. Por ejemplo, para calcular los
valores críticos asociados a un nivel de confianza del 95% se
razonaría:
De forma más o menos intuitiva podemos decir que:
p̂(1 − p̂)
p̂ ± z α2 ⋅

n

326
EJEMPLO: En una muestra de 100 personas extraida de una
población, 20 de ellas son portadoras de cierta enfermedad. Estima
un intervalo de confianza a un nivel del 95% para la proporción de
personas portadoras de la enfermedad.
20
p̂ = 100= 0, 2
Para 1 − α = 0, 95 ⟹ z α2 = 1, 96

0,2⋅0,8
0, 2 − 1, 96 ⋅ 100

= 0, 2 − 0, 0784 = 0, 1216
0, 2 + 1, 96 ⋅ 0,2⋅0,8
100
= 0, 2 + 0, 0784 = 0, 2784

Intervalo de confianza ⟹ (0, 1216, 0, 2784)

En la siguiente escena puedes observar como los intervalos de
confianza que se calculan, van cubriendo o no a la verdadera
proporción poblacional.
Puedes cambiar el tamaño de la muestra y el nivel de confianza

modificando los respectivos controles.
Observa como al modificar estos controles, cambia la longitud del

intervalo y el número de estos que cubren al parámetro poblacional.
La escena tiene un límite de 100 intervalos de confianza.
La escena permite también realizar todos los intervalos de forma

continua si pulsas el control de <<animar>>
327
Intervalos de confianza, estimación de una proporción
poblacional
8.3.2 Intervalo de confianza para la media con

desviación típica poblacional conocida
Supongamos una población en la que queremos estimar la media

poblacional desconocida que denominaremos
328
por ejemplo la estatura media de los alumnos de primaria de una
ciudad. Supongamos también que extraemos una muestra aleatoria
simple de tamaño “n” en la que obtenemos un valor concreto para la
media muestral. Sabemos que si la población de partida es normal o el
tamaño de la muestra es mayor de 30, la distribución en el muestreo
de las medias muestrales sigue una normal de parámetros:
σ
X̂ → N (μ, ) ⟹ Tipificando
n
X̂ − μ
⟹ σ sigue una N (0, 1)
n

En esta distribución pueden calcularse los valores, que encierran una

probabilidad de
(1 − α)
Simplemente mirando y deduciendo en la tabla de la normal N (0, 1)
p( − z α2 ≤ z ≤ z α2 )

⎧ X̂ σ−μ = −z α2 ⟹ X̂ = μ − z α2 ⋅ σ
⎨ n
n

=1−α ⟹

⎩ X̂ σ−μ

= +z ⟹ X̂ = μ + z ⋅ σ

α α
2 2 n

n

Es decir que el intervalo cuya probabilidad de contener a la media

poblacional es (1 − α) sería: X̂ = μ ± z α ⋅ σn . Teniendo en
2

cuenta que no se conoce la media poblacional μ; la sustituimos por la

media muestral obtenida X , llegando así a la siguiente expresión para
determinar el intervalo de confianza:
329
σ
X ±z ⋅ α
2

n

EJEMPLO RESUELTO: En una muestra de 400 bolsas de frutos secos

de los que habitualmente se venden en el mercado, se obtuvo que el
peso medio de las mismas fue de 102 gramos.
Se sabe de otros estudios que la desviación típica poblacional del

peso de este tipo de artículo es de 2 gramos.
Estima un intervalo de confianza a un nivel del 90% para la media

poblacional del peso de la bolsa de frutos secos.
La media muestral X = 102
Para 1 − α = 0, 90 ⟹ z α2 = 1, 64

Aplicando la fórmula:
2 2
102 − 1, 64 ⋅ 400

= 102 − 1, 64 ⋅ 20
= 102 − 0, 164 = 101, 836
2 2
102 + 1, 64 ⋅ 400

= 102 + 1, 64 ⋅ 20
= 102 + 0, 164 = 102, 164
Intervalo de confianza ⟹ (101, 836, 102, 164)

En el siguiente vídeo podemos ver una clase sobre el intervalo de
confianza para la media con desviación típica poblacional conocida.
330
Video
En la siguiente escena puedes observar cómo los intervalos de

confianza que se calculan van cubriendo o no a la verdadera media
poblacional.
Puedes cambiar el tamaño de la muestra y el nivel de confianza

modificando los respectivos controles.
331
Intervalos de confianza, estimación de media
poblacional
8.3.3 Intervalo de confianza para la media con

desviación típica desconocida
Supongamos una población en la que queremos estimar la media

poblacional desconocida que denominaremos
μ
332
Consideremos también que extraemos una muestra aleatoria simple
de tamaño “n” en la que obtenemos un valor concreto para la media
muestral. Sabemos que si la población de partida es normal o el
tamaño de la muestra es mayor de 30, la distribución en el muestreo
de las medias muestrales sigue una normal de parámetros:
σ
X̂ → N (μ, )
n

⟹ Tipificando
X̂ − μ
⟹ σ sigue una N (0, 1)

n

Pero nos encontramos con el problema de que la desviación típica de

la población también es desconocida. Algunos autores optan
directamente por considerar como sustituto de la desviación típica
de la población, la desviación típica muestral.
Nosotros optamos en este caso por otro procedimiento como es

sustituir la desviación típica poblacional desconocida por la
cuasidesviación típica muestral
Otros autores optan por procedimientos más depurados y

complicados como el que puedes ver en el siguiente vídeo.
333
Video
Razonando de la misma forma que en el caso anterior, una vez hecha

la sustitución de:
Desviacioˊn tˊıpica poblaicional = σ
σ → Ŝ
Cuasidesviacioˊn tˊıpica Ŝ
334
En esta distribución pueden calcularse los valores que encierran una
probabilidad de
(1 − α)
Simplemente mirando y deduciendo en la tabla de la normal N (0, 1)
p( − z α2 ≤ z ≤ z α2 )

⎧ X̂ −μ = −z α2 ⟹ X̂ = μ − z α2 ⋅ Ŝ
= 1 − α ⟹ ⎨ X̂ −μ
Ŝ n

n

⎩

= +z α2 ⟹ X̂ = μ + z α2 ⋅ Ŝ

Ŝ n

n

Es decir que el intervalo cuya probabilidad de contener a la media

poblacional es (1 − α) sería: X̂ = μ ± z α2 ⋅

Ŝ
n

. Teniendo en
cuenta que no se conoce la media poblacional μ; la sustituimos por la
media muestral obtenida X , llegando así a la siguiente expresión para
determinar el intervalo de confianza:
Ŝ
X ± zα/2 ⋅
n

El cálculo de la cuasivarianza y cuasidesviación típica aparece como

tecla directa en cualquier calculadora científica. La definición de
estas medidas y su relación con la varianza y desviación típica
habituales se especifican en el siguiente desarrollo:
n
(xi − μ)2 ⋅ fi
Ŝ = ∑
2
n−1

i=1
335
n
(xi − μ)2 ⋅ fi
Ŝ = ∑

n−1

i=1
n
(xi − μ)2 ⋅ fi n
⟹ ∑ ⋅

n−1

n

i=1
n
n (xi − μ)2 ⋅ fi
⟹ ⋅∑

n−1 n

i=1
n
n (xi − μ)2 ⋅ fi
⟹ ⋅ ∑

n−1

n
i=1
n
= S
n−1

En consecuencia:
n
Ŝ = S
n−1

En la siguiente escena al pulsar <<genera muestra>> se selecciona una

muestra aleatoria de la población tomando como parámetros el
tamaño y nivel de confianza indicados en los campos de texto así
etiquetados y se dibuja el intervalo de confianza indicando sus
extremos. Si se cambia el tamaño de la muestra, ésta es
completamente nueva y consecuentemente se observa como el
intervalo cambia significativamente. Si lo que cambiamos es el nivel
de confianza la muestra no varía y lo que acontece es una ligera
variación en la longitud del intervalo, los cambios son menos
significativos.
336
Intervalo de confianza para la media poblacional
Desconocida la desviación típica de la población
337
8.4 Error máximo admisible
Vamos a imaginarnos un juego. Supongamos que hay situada una
linea en el suelo que se encuentra a cierta distancia de nosotros. El
juego consiste en lanzar un palo que puede ser de disitintas
longitudes y tratar de que alguna de las partes de nuestro palito
toque a la línea dibujada en el suelo.
Por lógica mientras más pequeño sea el palo que lanzamos más difícil
será tocar la línea y al contrario, con uno más largo la dificultad será
menor. Evidentemente los jugadores mejores en este juego
necesitarán un longitud de palo más pequeño que los peores. Las
reglas del juego deben fijar por tanto una longitud máxima para los
palitos, algo parecido a lo que en intervalos de confianza llamaremos
error máximo admisible.
Un intervalo de confianza es siempre un entorno centrado en la

media muestral y con un radio que depende fundamentalmente del
nivel de confianza que se considere y también del tamaño de la
muestra elegida.
338
Atendiendo a cómo calculamos los valores de dicho intervalo, nos
podemos dar cuenta de que la amplitud de dicho intervalo depende
fundamentalmente de dos elementos:
Nivel de confianza con el que se trabaja. A medida que se

aumenta el nivel de confianza aumenta también el radio del
intervalo, disminuye por tanto la precisión de nuestra estimación.
Tamaño de la muestra. A medida que aumenta el tamaño de la
muestra disminuye el radio del intervalo. Por tanto aumenta la
precisión de la estimación.
8.4.1 Error máximo admisible (proporción)
El intervalo de confianza para el caso de la estimación de una

proporción poblacional es un entorno centrado en la proporción
muestral y cuyo radio depende fundamentalmente de el valor crítico
asociado al nivel de confianza y del tamaño de la muestra
considerada.
Se denomina error máximo admisible al valor de este radio; esto

es:
p̂ ⋅ (1 − p̂)
E = zα/2 ⋅

n

De la expresión anterior se deduce fácilmente que al aumentar el

nivel de confianza, aumentan también los valores críticos asociados y
por tanto el radio del intervalo. Por tanto puede decirse que
perdemos precisión en la estimación cuando intentamos aumentar la
fiabilidad.
339
Para el caso del tamaño muestral, al estar en un denominador, cuando
aumenta disminuye el radio del intervalo. por tanto ganamos
precisión.
En la siguiente escena puedes observar como varía el error máximo

admisible, es decir el radio del intervalo y por tanto la longitud del
mismo cuando cambiamos los controles correspondientes al nivel de
confianza y al tamaño de las muestras consideradas. Puedes
plantearte varias situaciones y extraer tus propias conclusiones.
340
Intervalo de confianza para estimar una
proporción poblacional desconocida
341
8.4.2 Error máximo admisible (media poblacional)
El intervalo de confianza para el caso de la estimación de una media

poblacional es un entorno centrado en la media muestral y cuyo radio
depende fundamentalmente del valor crítico asociado al nivel de
confianza y del tamaño de la muestra considerada.
Se denomina error máximo admisible al valor de este radio; esto es:
Para el caso de desviación típica poblacional conocida:
σ
E = z α2 ⋅
n

Para el caso de desviación típica poblacional desconocida:
Ŝ
Ez α2 ⋅
n

De la expresión anterior se deduce fácilmente que al aumentar el

nivel de confianza, aumentan también los valores críticos asociados y
por tanto el radio del intervalo. Por tanto puede decirse que
perdemos precisión en la estimación cuando intentamos aumentar la
fiabilidad.
Para el caso del tamaño muestral, al estar en un denominador, cuando

aumenta disminuye el radio del intervalo. Por tanto ganamos
precisión.
342
En las siguiente escena puedes observar cómo varía el error máximo
admisible, es decir, el radio del intervalo y por tanto la longitud del
mismo cuando cambiamos los controles correspondientes al nivel de
confianza y al tamaño de las muestras consideradas.
Puedes plantearte varias situaciones y extraer tus propias

conclusiones.
343
Intervalo de confianza para la media poblacional
Conocida la desviación típica de la población
8.5 Tamaños muestrales

Todos los trabajos realizados en estadística van acompañados de un
documento anexo muy importante que se denomina ficha técnica. En
este documento se especifican algunas de las características más
relevantes del trabajo realizado. Entre ellas, siempre nos vamos a
encontrar con el método mediante el cuál se ha elegido la muestra y
el número de elementos del que consta dicha muestra.
344
Este número debe cumplir cierto valor mínimo para que se
garanticen premisas básicas exigibles al intervalo como el nivel de
confianza o el margen de error de dicho intervalo.
Partiendo de las fórmulas que determinan el error máximo admisible

de un intervalo de confianza para la proporción poblacional o para la
media poblacional, y mediante procedimientos púramente
algebraicos, se van a poder deducir fórmulas para la localización de
tamaños muestrales mínimos.
8.5.1 Tamaño muestral para la proporción
Como ya se ha mencionado antes, una pregunta interesante de

investigar sería cuál tiene que ser el tamaño de la muestra que se
debería considerar para que el intervalo de confianza de una
proporción cumpliera determinadas condiciones de amplitud.
345
Por ejemplo:
Supongamos que se quiere estimar la proporción de individuos

de una ciudad que tienen más de 60 años. Para realizar el trabajo
debemos seleccionar de forma aleatoria una muestra de tamaño
"n". La pregunta que nos hacemos es cuál debe ser el valor
mínimo de muestra que debe considerarse para garantizar que
con un nivel de con fianza del 95% el error de estimación, radio
de nuestro intervalo de confianza, no supere el 2%. Como en este
caso no disponemos de información alguna sobre posibles
valores aproximados de proporción, debemos suponer el caso
más desfavorable que sería p = 0, 5.
Supongamos que tenemos un dado ligeramente cargado del que
sospechamos que la proporción de salir cinco es 2/6. ¿Cuántas
veces debemos lanzarlo y anotar el resultado para que con un
nivel de confianza del 99% el error de nuestra estimación no
supere el 5%?
Existen otras muchas situaciones en las que es importante la

localización de un tamaño muestral mínimo a partir del cual se
cumplan determinadas condiciones en nuestra estimación.
De la propia formulación del intervalo se observa que el tamaño que

debe exigirse para una muestra depende fundamentalmente del nivel
de confianza que se desee para los resultados y de la amplitud del
intervalo de confianza, (error máximo), que se esté dispuesto a
admitir.
Fijados estos, y simplemente despejando algebraicamente en las

fórmulas, podemos calcular el tamaño mínimo de la muestra que
debe utilizarse para cumplir con las premisas estipuladas.
346
Para un nivel de confianza:
(1 − α)
Deduciendo de la fórmula correspondiente al error máximo
admisible en el caso de la proporción:
347
Llegamos a la siguiente expresión para el tamaño mínimo de muestra
en el caso de estimación de una proporción
z α2
n ≥ ( ) ⋅ p ⋅ (1 − p)

E

Por ejemplo, los dos ejemplos planteados al inicio de esta sección se

resolverían directamente aplicando la fórmula anterior:
En la siguiente escena puedes calcular diversos tamaños muestrales

variando los controles correspondientes al nivel de confianza, al
error máximo admisible y se puede utilizar también en posibles
ejercicios prácticos, para distintas proporciones.
La escena también dispone de la posibilidad de ver el cálculo de los

valores críticos asociados al nivel de confianza y también del cálculo
práctico de distintos casos de intervalos de confianza para que
observes como en la práctica se cumple la acotación del error
máximo admisible.
348
349
8.6 Tamaño muestral mínimo para la estimación
de la media.
Consideremos dos nuevas situaciones:
Se conoce de estudios anteriores, que el tiempo de reacción de los

conductores se distribuye de forma normal con una desviación
típica de 0,045 segundos. Si se quiere estimar el tiempo de reacción
medio con un error máximo admisible de 0, 01 segundos con un
nivel de confianza del 90%. ¿Qué tamaño mínimo debería tener la
muestra aleatoria sobre la que tendríamos que trabajar?
Las notas de selectividad de una signatura se distribuyen de forma
normal con una desviación típica de 0, 45. Supongamos que después
de realizar un intervalo de confianza para estimar la nota media en
selectividad de los alumnos de una ciudad se obtuvo que este
intervalo era (6, 975, 7, 875) con un nivel de confianza del 95%. Si
consideramos que el margen de error del intervalo es demasiado
grande y nos interesaría reducirlo a la mitad. ¿Cuántos individuos
debería tener la nueva muestra aleatoria para reducir a la mitad el
error máximo admisible manteniendo el mismo nivel de confianza?
Estas situaciones y otras muchas que se podrían plantear conducen al

cálculo de un tamaño mínimo de muestra a partir del cual se cumplan
determinadas condiciones en nuestra estimación de un parámetro
poblacional como la media.
De la propia formulación del intervalo se observa que el tamaño que

debe exigirse para una muestra depende fundamentalmente del nivel
de confianza que se desee para los resultados, de la amplitud del
intervalo de confianza o error máximo que se esté dispuesto a
admitir y de la desviación típica poblacional o de la cuasi-desviación
típica de la muestra en caso de que no se conozca aquella.
350
Fijados estos, simplemente despejando algebraicamente en las
fórmulas, podemos calcular el tamaño mínimo de la muestra que
debe utilizarse para cumplir con las premisas estipuladas.
Así pues para un nivel de confianza
(1 − α)
admisible en el caso de la estimación de media poblacional con
deviación típica conocida:
Error maˊx admisible = z α2 ⋅ σn

z α2 ⋅ σn ≤ E ⟹ despejando n

2
⟹ (z α2 ⋅
σ
n
) ≤ E 2 ⟹ = z 2α ⋅
σ2
n
≤ E2
2

2 σ2
⟹ zα ⋅
E2
≤ n
2


en el caso de estimación de una media poblacional con desviación
típìca poblacional conocida
2
n ≥ (z α2 ⋅ )
σ

E


admisible en el caso de la estimación de media poblacional con
deviación típica poblacional desconocida:
351
Error maˊx admisible = z α2 ⋅

Ŝ
n

z α2 ⋅

Ŝ
n

≤ E ⟹ despejando n
2
⟹ (z α2 ⋅ )
2

Ŝ
n
≤ E 2 ⟹ = z 2α ⋅ Ŝn ≤ E 2
2

2
⟹ z 2α ⋅ EŜ 2 ≤ n
2


en el caso de estimación de una media poblacional con desviación
típica poblacional desconocida
2
n ≥ (z α2 ⋅ )
Ŝ

E

La solución a cada uno de los dos ejemplos planteados al inicio de

esta sección sería:
352
En la siguiente escena puedes calcular diversos tamaños muestrales
variando los controles correspondientes al nivel de confianza y al
error máximo admisible.
La escena también dispone de la posibilidad de ver el cálculo de los

valores críticos asociados al nivel de confianza y también del cálculo
práctico de distintos casos de intervalos de confianza para estimación
de la media poblacional en los que puedes observar como se cumple
en la práctica la acotación del error máximo admisible.
353
De la misma manera, puedes practicar en la siguiente escena en la
que la desviación típica poblacional se sustituye por las cuasi-
desviaciones típicas muestrales.
8.7 Formulario resumen

El tema de la estimación mediante intervalos de confianza tiene un
recorrido práctico muy diverso. Fundamentalmente se trata de
ejercicios de carácter muy técnico y que en la mayoría de los casos
pasa por la utilización de una fórmula concreta y directa.
354
Es bueno disponer por tanto de un formulario resumen y sencillo al
que acudir cuando se tiene alguna duda en cuanto a la fórmula a
utilizar o en la expresión de la misma.
El siguiente cuadro resume todo el tema. Se han sombreado en color

rosa las dos fórmulas fundamentales y en verde las que se deducen
de las fundamentales.
355
356
357
Parte IX
Contraste de Hipótesis

Ronald Aylmer Fisher (Londres, Reino Unido, 17 de febrero de 1890 – Adelaida,
Australia, 29 de julio de 1962) fue un estadístico y biólogo, responsable de la prueba
exacta de Fisher y de la hipótesis nula presentado en su libro The Design of Experiments
(1935) (https://es.wikipedia.org/). Crédito imagen: Desconocido, Dominio público.
9.1 Introducción
Hace ya algunos años, (década de los ochenta), se decía que la
estatura media de los jóvenes españoles de entre 20 y 21 años
era de 172 cm. Los datos se extraían de las tallas que se obtenían
de los entonces llamados “quintos”, jóvenes que ingresarían en el
ejército para cumplir el servicio militar obligatorio. Sin embargo
hoy en día, siglo XXI, se observa en cualquier muestra como en
una cola de un cine, en un supermercado, en una clase de
bachillerato o en una fiesta que los jóvenes parecen
significativamente más altos, con lo que deberíamos revisar el
parámetro media poblacional, ya que seguramente habrá
cambiado. REVISAR LA HIPÓTESIS DE QUE LA MEDIA DE LOS
JÓVENES ESPAÑOLES ES DE 172 CM.
En cierta ciudad se observó que el 70% de la población era
favorable a que una determinada persona ejerciera como alcalde
de la misma. Después de varios años de controvertida gestión el
descontento es evidente y parece lógico revisar el porcentaje de
aceptación. REVISAR LA HIPÓTESIS DE QUE LA PROPORCIÓN
DE GENTE FAVORABLE AL ALCALDE SE MANTIENE EN EL
70%.
Para decidir si cierta información relativa a un parámetro poblacional

se puede considerar como cierta, en estadística se suelen utilizar los
contrastes de hipótesis. Un contraste de hipótesis proporcionará
unos criterios universales para valorar si la hipótesis que planteamos
es cierta.
IDEA SOBRE UNA REGLA DE DECISIÓN
Cualquier persona a lo largo de su vida utiliza reglas de decisión ante

situaciones concretas. Incluso esas reglas a veces son irracionales e
incluso disparatadas.
361
Para saber si me irá bien con la decisión tomada consulto con
un adivino y su bola de cristal.
Los generales romanos ofrecían sacrificios y consultaban con
los sacerdotes y magos para saber si les iría bien en la batalla.
Mi horóscopo dice que ahora no debo realizar ninguna
inversión.
Si encesto la bola de papel en la papelera aprobaré el
examen...¡vaya!..., bueno a la tercera...
Otras veces también se recurre a procedimientos mucho más lógicos

y científicos.
Antes de realizar un viaje consultar la previsión

meteorológica.
Si hago bien las preguntas de autoevaluación del libro,
posiblemente haré bien las del examen.
362
En estadística para decidir sobre dos situaciones competitivas,
complementarias y excluyentes recurriremos al procedimiento
conocido por el nombre de Contraste de Hipótesis.
Un ejemplo sencillo. Pensemos en una moneda de la que

sospechamos sobre su autenticidad. A simple vista no se diferencia
en nada de una auténtica. Podríamos realizar la experiencia de lanzar
al aire dicha moneda y contabilizar el número de caras o cruces que
se obtienen. Nuestra experiencia nos dice que la probabilidad de
obtener cara en una moneda normal es 0, 5, pero, ¿y si sospechamos
que no es así? Evidentemente en este caso la probabilidad de que
salga cara deberá de ser muy diferente a 0,5. Al primer
planteamiento, suponer que la probabilidad de que salga cara es 0, 5 ,
le llamamos hipótesis nula (H0 ) y al segundo planteamiento,

hipótesis alternativa (H1 ).
Para aceptar o rechazar una de las hipótesis, necesitamos realizar un

experimento y establecer unas reglas que nos ayuden a decidir si se
acepta (H0 ) o no. En el ejemplo de la moneda, el experimento podría
ser lanzar la moneda 15 veces y observar los resultados. Las reglas
tendrán en cuenta el posible error asociado a cada decisión y
dependerán de los riesgos que estemos dispuestos a asumir. Un
ejemplo de regla de decisión conservadora:
363
Es decir, lanzamos una moneda al aire 15 veces y aceptamos la
hipótesis nula (la moneda no está trucada) si el número de caras
obtenidas está entre 2 y 13. Si (H0 ) es cierta y el resultado de nuestro

experimento es 0 o 1 caras, o bien 14 o 15 caras, evidentemente nos

equivocamos al rechazar la hipótesis nula. En estos casos decimos
que cometemos un error de tipo I o error α. Por el contrario, si el
resultado obtenido está entre 2 y 13 caras y sin embargo, es cierta (
H1 ), también nos equivocamos y decimos que cometemos un error

de tipo II o error β .
9.2 Hipótesis nula y alternativa. Tipos de

contraste
9.2.1 Hipótesis nula e hipótesis alternativa
Una hipótesis estadística es una afirmación o proposición respecto a

alguna característica de una población, generalmente fundamentada
sobre un parámetro de la misma. Contrastar una hipótesis es
comparar las predicciones con la realidad que observamos ocurrida
en una muestra. Si dentro del margen de error que estamos
dispuestos a admitir, hay coincidencia, aceptaremos la hipótesis y en
caso contrario la rechazaremos.
La hipótesis emitida se suele designar por H0 y se llama

Hipótesis nula. Lo de “nula” viene de que partimos del

supuesto de que las diferencias entre el valor verdadero del
parámetro y su valor hipotético, en realidad no son tales sino
debidas al azar, es decir no hay diferencia o dicho de otra
forma la diferencia es nula.
364
La hipótesis contraria se designa por H1 y se llama Hipótesis

alternativa (en algunos textos también aparece la notación

Ha .

Por ejemplo:
Sospechamos que las bolsas de frutos secos de 100 gramos,

realmente no pesan 100 gramos. Para contrastar esta hipótesis
planteariamos:
H0 : μ = 100 gramos

H1 : μ =
 100 gramos

Pensamos que la proporción de gente que votó al partido A en

las elecciones (35%) ahora es inferior ya que no lo han hecho
muy bien. Para contrastar esta hipótesis:
H0 : p ≥ 0, 45

H1 : p < 0, 45

Estaría contento de comprobar que no pueden demostrar que mi

media de notas ha bajado de 7, 785 como parecen indicar los
últimos exámenes. Para contrastar esta hipótesis:
H0 : μ ≥ 7, 785

H1 : μ < 7, 785

Normalmente cuando queremos plantear las hipótesis de una

determinada situación debemos tener en cuenta que aquello que
queramos demostrar irá siempre a la hipótesis alternativa ya que el
error que cometemos cuando rechazamos H0 lo podemos medir

(está fijado de antemano por el nivel de significación).
Piensa en los ambientes judiciales. La labor del fiscal pasa por

demostrar que alguien ha cometido un delito. Es decir que trabajaría
como hipótesis alternativa.
365
Por el contrario, el abogado
defensor no tiene que demostrar, su
labor es más defensiva ya que si el
fiscal no demuestra su acusación
entonces el reo será declarado (no
culpable), es decir, inocente.
Evidentemente esto es un
planteamiento muy simple de la
situación ya que a menudo los abogados defensores van más allá de
la pura estrategia defensiva y tratan de demostrar la inocencia,
aunque siempre subyace el lema in dubio pro reo, (en caso de duda, a
favor del reo) al que todos estamos acostumbrados o el de es
preferible no condenar a 10 culpables que condenar a un solo inocente.
9.2.2 Tipos de contraste
Bilaterales Llamamos contraste bilateral a aquél en el que la

hipótesis nula se formula en términos de igual y la alternativa
en términos de distinto. En estos casos la región de aceptación
sería el área central determinada por los valores críticos que
previamente son determinados por el nivel de significación.
366
Unilateral derecho: llamamos contraste unilateral derecho
a aquél en el que la hipótesis nula se formula en términos de
menor o igual y la alternativa en términos de mayor. En estos
casos la región de aceptación sería el área que deja a su
izquierda el valor crítico que previamente determina el nivel
de significación.
Unilateral izquierdo: llamamos contraste unilateral

izquierdo a aquél en el que la hipótesis nula se formula en
términos de mayor o igual y la alternativa en términos de
menor. En estos casos la región de aceptación sería el área que
deja a su derecha el valor crítico que previamente determina
el nivel de significación.
367
En los ejemplos planteados al principio, el primero sería un contraste
bilateral, el segundo y tercero unilaterales izquierdos.
9.3 Planteamiento general de un problema de

contraste
El planteamiento general de cualquier problema en el que se quiera
contrastar una determinada hipótesis debe reunir siempre los
siguientes puntos:
1. Formulación de la hipótesis nula y de la hipótesis alternativa.

Como norma general, se debe tener en cuenta que aquello
que queramos demostrar debe ir siempre a la hipótesis
alternativa.
Por otra parte, si lo que queremos demostrar está en la

hipótesis alternativa, el error de equivocarnos lo tendremos
medido ya que sería el nivel de significación
Planteamiento de hipótesis de contraste para el caso de una
proporción:
Planteamiento de hipótesis de contraste para el caso de una

media:
368
2. Elección del estadístico de contraste (en nuestro caso media o
proporción muestral).
Algunos autores prefieren considerar intervalos de confianza

o semirectas de confianza para los parámetros a contrastar e
investigar, es decir, si los valores obtenidos en las muestras
están o no en dichos intervalos (semirectas), pero nosotros
vamos a definir unos estadísticos que simplemente proceden
de la tipificación de variables en el muestreo cuyas
distribuciones son perfectamente conocidas y que por tanto
al tipificarse seguirán una distribución normal de media cero y
desviación típica uno.
Una vez calculado el valor de estos estadísticos se observará

si quedan dentro o fuera de las regiones determinadas (según
sea el tipo de contraste) por el nivel de significación.

Estadístico de contraste para el caso de una proporción.
p̂ − p0
Z=

p0 ⋅(1−p0 )

n

Estadístico de contraste para el caso de una media con

desviación típica poblacional conocida.
X − μ0
Z=

σ/ n

369
Estadístico de contraste para el caso de ua media con desviación
típica poblacional desconocida.
X − μ0
Z=

Ŝ / n

3. Determinación de la región de rechazo.
A partir del nivel de significación previamente fijado se

establece el intervalo o semirecta que constituirán la zona de
aceptación y rechazo según si el estadístico de contraste esté
dentro o fuera de dicha zona.
Región de aceptación y rechazo en un contraste bilateral.
A partir del nivel de significación y haciendo uso de la

tabla de la normal cero uno, a través de la estrategia
conveniente se pueden localizar los valores críticos, tal
como se hizo en el tema de intervalos de confianza.
En la siguiente escena puedes practicar con la localización de la

región crítica en contrastes bilaterales.
370
La escena te lo proporciona directamente aunque te recomendamos
que utilices la tabla de la normal y después compares tus resultados
con los que ofrece la escena.
Región de aceptación y rechazo en un contraste unilateral

derecho
A partir del nivel de significación y haciendo uso de la tabla de

la normal cero uno, a través de la estrategia conveniente se
puede localizar el valor crítico, que deja a su derecha una
probabilidad igual al nivel de significación de la misma forma
que se hizo en el tema de la distribución normal.
371
En la siguiente escena puedes practicar con la localización de la
región crítica en contrastes bilaterales.
372
Región de aceptación y rechazo en un contraste unilateral
izquierdo.
A partir del nivel de significación y haciendo uso de la tabla de

la normal cero uno, a través de la estrategia conveniente se
puede localizar el valor crítico, que deja a su izquierda una
probabilidad igual al nivel de significación de la misma forma
que se hizo en el tema de la distribución normal.
En la siguiente escena puedes practicar con la localización de

la región crítica en contrastes bilaterales.
La escena te lo proporciona directamente aunque te

recomendamos que utilices la tabla de la normal y después
compares tus resultados con los que ofrece la escena.
373
4. Consideración de una muestra
En esta muestra elegida de forma aleatoria se calculará el

valor correspondiente (en nuestro caso media muestral o
proporción) y que permiten localizar el valor del estadístico de
contraste.
Por ejemplo si se quiere contrastar que el peso medio de las

tarrinas de helado de 100 gramos no tienen realmente ese
peso. En primer lugar elegimos por ejemplo una muestra
aleatoria de 40 tarrinas (para no tener problemas de
normalidad) y calculamos la media muestral y la desviación
típica muestral. Supongamos que la media muestral es 103, 25
gramos y la desviación típìca 5, 345 gramos.
374
El valor en este caso del estadístico de contraste sería:
40 103, 25 − 100
Cuasi Ŝ = ⋅ 5, 345 ⟹ Ŝ = 5, 413 ⟹ 5,413
= 3, 797
39

4

5. Aceptación o rechazo de la hipótesis nula
La aceptación o rechazo de la hipótesis nula depende de si el

valor del estadístico de contraste calculado en nuestra
muestra está dento o fuera de la zona de aceptación.
6. Interpretación de la decisión tomada.
Existen muchas formas de redactar las conclusiones a las que

se llega cuando aceptamos o rechazamos la hipótesis nula en
un contraste. Aquí sugerimos una muy sencilla.

Para el caso de aceptación de la hipótesis nula.
Simplemente decir que: "A partir de los datos

estadísticos obtenidos en la muestra, se acepta con un
nivel de significación (...) aquello que diga la hipótesis
nula" o también "A partir de los datos estadísticos
obtenidos en la muestra no existen evidencias
estadísticamente significativas a nivel (...) que permitan
afirmar o demostrar aquello que diga la hipótesis
alternativa".
375
Para el caso de rechazo de la hipótesis nula.
"A partir de los datos estadísticos obtenidos en la muestra

existen evidencias estadísticamente significativas a nivel (...)
que permiten afirmar o demostrar aquello que dice la
hipótesis alternativa, con riesgo de equivocarnos igual al nivel
de significación".
Resumimos todo en el siguiente ejemplo:
Un informe de la Asociación de Compañías Aéreas (ACA) indica que

el precio medio del billete de avión desde la ciudad A a la ciudad B es
de 120 euros. Para contrastar esta información se considera una
muestra aleatoria de 100 viajeros entre estas dos ciudades que
volaron en distintas compañías, en la que se observó que la media del
billete era de 128 euros y una desviación típica de 40 €.
¿Se puede considerar con un nivel de significación del 1% que la

información de la ACA es correcta?
H0 ⟹ μ = 120 euros

H1 ⟹ μ =

 120 euros
El estadístico de contraste en este caso es la media muestral que

tipificada quedaría:
X − μ0
Z=

Ŝ
n

La región de aceptación es:
1 − α = 0, 99 ⟹ {
−Zα/2 = −2, 575
= 2, 575

Zα/2
376
X0 = 128

100
Valor particular de S0 = 40 ⟹ Ŝ =

99
⋅ 40 = 1, 005 ⋅
40 = 40, 2015
128 − 120
Z= = 1, 9899
40, 2015/10

El valor estadístico de contraste cae dentro de la región de

aceptación 1, 9899 ∈ (−2, 575, 2, 575), se acepta por tanto la
hipótesis nula.
También podría razonarse teniendo en cuenta la región de aceptación

como el intervalo de confianza para la media:
40, 2015 40, 2015
(120 − 2, 575 ⋅ , 120 + 2, 575 ⋅ )
10 10

= (109, 648, 130, 252)
El valor de la media muestral 128 sí está dentro del intervalo (región

de aceptación)
El aceptar la hipótesis nula significa que puede aceptarse que el

precio medio de los billetes es de 120 euros. No hay indicios
suficientes para decir que no sea cierto que la media de los billetes
sea de 120 euros y que las diferencias obtenidas con nuestra muestra
pueden considerarse debidas al azar.
Para terminar este epígrafe, observa los siguientes vídeos.
377
Videos
En el primer vídeo puedes ver una clase resumen de planteamiento
general de un problema de contraste de hipótesis. Y en el segundo
otra clase de introducción al contraste de hipótesis.
Video 9.1. Vídeos enlazados desde YouTube, licencia de YouTube estándar
378
9.3.1 Contraste de hipótesis para una proporción.
Vamos a partir de un ejemplo: Se conoce que el 75% de los alumnos

de un centro de enseñanza realizan correctamente un test
psicotécnico que lleva utilizándose mucho tiempo. Para tratar de
mejorar este resultado, se modificó la redacción del test, y se propuso
para realizar el experimento a un grupo de 120 alumnos de ese
centro, elegidos al azar. De los 120 alumnos a los que se le pasó el
nuevo test, lo realizaron correctamente 107. ¿Podemos afirmar que la
nueva redacción del test ha aumentado la proporción de respuestas
correctas, a un nivel de significación = 0, 025?
La pregunta que se hace en el problema anterior, está formulada en

términos de se puede "afirmar o demostrar", por tanto esto lo
llevaremos a la hipótesis alternativa. es decir el planteamiento de
contraste que consideramos idóneo para esta situación sería:
} Ya que pretendemos demostrar que la
H0 : p ≤ 0, 75
: p > 0, 75

H1
proporcioˊn ha mejorado
El valor de la proporción muestral p0 = 107

120
= 0, 89166. Al ser un
constraste unilateral derecho. Determinamos la región de aceptación
y rechazo para un nivel de significación de α = 0, 025.
379
Calculamos ahora el estadístico de contraste:
0, 891666 − 0, 75 0, 141666
Z= = = 3, 5839
0, 03952847

0,75⋅(1−0,75)
120

3, 5839 ∈
/ (−∞, 1, 96) ⟹ Rechazamos H0
Conclusión:
A partir de los datos estadísticos obtenidos en la muestra, podemos

concluir que existen evidencias estadísticamente significativas
(α = 0, 025), que permiten demostrar que la nueva redacción

aumenta el porcentaje de alumnos que realizan correctamente el
test.
En la siguiente tabla se resumen de forma muy concisa toda la

formulación necesaria para la realización de un problema de
contraste para una proporción.
380
En las siguientes escenas se ofrece una esquematización de los pasos
a dar en un contraste de hipótesis para una proporción para los casos
de contraste bilateral, unilateral derecho o unilateral izquierdo.
En dichas escenas se pueden variar si se quiere manualmente los

controles correspondientes a la proporción y al nivel de significación.
Puedes practicar tanto como desees. Es recomendable observar lo

que ocurre con un contraste de una proporción para distintos niveles
de significación.
381
Contraste de hipótesis bilateral para una proporción
382
Contraste de hipótesis unilateral derecho para una
proporción
383
Contraste de hipótesis unilateral izquierdo para una
proporción
9.3.2 Contraste de hipótesis de una media
Existen muchas situaciones en las que se pretende dilucidar si el

parámetro media poblacional ha cambiado por algún motivo
ocasional o inducido.
384
En estadística inferencial el barómetro universal que cuantifica si el
cambio observado es fruto de las fluctuaciones propias del azar o
bien se trata de un cambio mucho más importante o significativo es el
contraste de hipótesis para la media. Partamos de un ejemplo:
Con el fín de aumentar el

consumo medio de los clientes,
unos grandes almacenes deciden
realizar una campaña de
publicidad. La campaña
consistirá en anuncios diarios en
el periódico local y en la emisión
de varias cuñas radiofónicas.
Antes de la campaña, los datos
de la gerencia del centro
comercial reflejaban un consumo
medio por cliente y día de 23, 75
euros con una desviación típica poblacional de 4, 875 euros. Después
de la campaña se escogió una muestra aleatoria de 121 clientes
obteniéndose una media muestral de 25, 34 euros.
¿Puede afirmarse con un nivel de significación del 4, 5% que la

campaña ha sido efectiva y que el consumo medio efectivamente ha
aumentado?
De nuevo en la pregunta que se hace se menciona la palabra "afirmar

o demostrar", por tanto, aquello que queremos demostrar lo llevamos
a la hipótesis alternativa.
385
En este caso el planteamiento del contraste quedaría como sigue:
Cálculo estadístico de contraste:
μ0 = 23, 75 ⎫
⎬ ⟹ z=
σ = 4, 875 25, 34 − 23, 75
= 3, 58769
( 4,875 )
⎭
= 121

n
121

= 25, 34

3, 58769 ∈
/ (−∞, 1, 751) ⟹ Rechazamos H0
Conclusión:
A partir de los datos ofrecidos por la muestra, existen evidencias

estadísticamente significativas (nivel de significación 0, 04) de que la
media del consumo cliente/día es mayor de 23, 75 euros. Por tanto la
campaña ha sido efectiva.
386
En la siguiente tabla se resumen de forma muy concisa toda la
formulación necesaria para la realización de un problema de
cualquier tipo de contraste para una media.
En las siguientes escenas se ofrece una esquematización de los pasos

a dar en un contraste de hipótesis para una media en los casos de
contraste bilateral, unilateral derecho o unilateral izquierdo.
En dichas escenas se pueden variar si se quiere manualmente los

controles correspondientes a la media, al nivel de significación y
también se puede elegir en el menú de opciones los casos de
desviación típica poblacional conocida o desconocida.
387
Puedes practicar tanto como desees. Es recomendable observar lo
que ocurre con un contraste de una media para distintos niveles de
significación y también si varía mucho o poco la opción de desviación
típica poblacional conocida o desconocida.
Contraste de hipótesis bilateral para la media
388
Contraste de hipótesis unilateral derecho para la media
389
Contraste de hipótesis unilateral izquierdo para la
media
9.4 Error en un contraste de hipótesis.

Todo lo que tiene relación con la Estadística Inferencial está
acompañado de forma natural por el error. En los contrastes de
hipótesis esto se pone mucho más de manifiesto ya que debemos
elegir entre dos proposiciones antagónicas a partir de los datos que
se reflejan en una determinada muestra aleatoria.
390
Asumiendo que la elección está en gran parte supeditada a estos
valores concretos escogidos de una muestra específica, el error se
antoja como algo natural y por tanto consustancial al propio proceso
del contraste de hipótesis. Puesto que el error es protagonista
irrenunciable, aprendamos a convivir con él, estudiarlo, acotarlo y
por supuesto utilizarlo.
Lo primero de lo que podemos darnos cuenta es que existen dos tipos

de errores que pueden ocurrir en el contraste y que uno de ellos es
más fácil de manejar que el otro. Pensemos en el ejemplo de la
moneda que no sabemos si está cargada o no. Si la prueba que
realizamos para comprobar si esta moneda es buena o no es realizar
por ejemplo 10 lanzamientos y nuestra regla de decisión es que si
salen entre 1 y 9 caras la consideramos buena y si por el contrario
salen 0 caras o 10 caras la consideramos cargada. pensemos en lo que
puede ocurrir.
Una moneda buena la lanzo 10 veces y sí existe la posibilidad

de que me salgan 0 caras o 10 caras. Por tanto hay posibilidad
de considerar cargada una moneda buena. Ahora bien; la
probabilidad de que eso ocurra se puede calcular
perfectamente mediante un ejercicio muy simple con una
binomial B(10, 0, 5). Estamos controlando pues el error que
se comete. Por cierto ¿cuál es la probabilidad de que al lanzar
una moneda normal me salgan 0 caras o 10 caras?
Una moneda cargada que lanzamos al aire tiene bastante
probabilidad de que los resultados obtenidos estén en el
margen de 1 y 9 caras de nuestra regla de decisión y que por
tanto nuestra prueba no la detecte como mala.
391
Ahora bien, la probabilidad de que una moneda cargada se lance 10
veces y obtengamos entre 1 y 9 caras no puedo calcularla ya que no
sé qué probabilidad de salir cara tienen las monedas cargadas. El
error por tanto no puedo controlarlo como antes, no tiene la misma
naturaleza que el primero.
Este ejemplo puede ilustrar los dos tipos de errores que se pueden
cometer al realizar un contraste de hipótesis.
Cuando se efectúa pues un contraste de hipótesis pueden ocurrir

varias situaciones que conllevan a los denominados errores:
1. Aceptar la hipótesis nula siendo cierta (CORRECTO).

2. Aceptar la hipótesis alternativa siendo cierta (CORRECTO).
3. Rechazar la hipótesis nula siendo cierta (ERROR TIPO I O
ERROR ALFA) la probabilidad de cometer este error es el nivel
de significación del contraste.
4. Aceptar la hipótesis nula siendo falsa (ERROR TIPO II O
ERROR BETA). No se conoce, al valor de uno menos beta se le
denomina potencia del contraste.
392
En la siguiente tabla se resumen todas las situaciones y errores
posibles al realizar una prueba de contraste de hipótesis.
9.4.1 Error tipo I. (error alfa)
Como ya se ha mencionado, el error tipo I se comete cuando

rechazamos la hipótesis nula pero en realidad no tendríamos que
haberlo hecho puesto que era cierta. La probabilidad de que esto
ocurra es el nivel de significación, valor que podemos controlar de
antemano puesto que aparece en las premisas del contraste. Es
interesante que sea un valor pequeño y a su vez lleve a un equilibrio
de todo el proceso, puesto que un valor exageradamente pequeño de
este nivel de significación conducirá prácticamente siempre al mismo
resultado de aceptación de hipótesis nula del contraste.
393
Los valores más usados para el nivel de significación en los trabajos
de inferencia suelen ser.
α = 0, 05
α = 0, 01
α = 0, 1
El hecho de que el error tipo I se pueda controlar da pie a que en

muchos casos en los que no se observa bien lo que debe considerarse
como hipótesis nula, incluso existen problemas en editoriales
diferentes con el mismo enunciado y con dos versiones distintas.
En este sentido se pueden dar las siguientes sugerencias para el

planteamiento adecuado de un contraste:
Cuando el problema de manera expresa pide que se contraste

una hipótesis con determinado nivel de significación, la
hipótesis que contrastamos es la hipótesis Ho
Cuando el problema pide explícitamente que seamos nosotros

quienes planteemos las hipótesis, para decidir qué poner en
H0 y qué en H1 , se pueden tener en cuenta las siguientes

indicaciones:
En H1 siempre debemos colocar lo que realmente

queremos investigar con seguridad o demostrar ya que,

repetimos que el error α, el que fijamos de antemano se
controla y se comete cuando optamos por H1 y nos
equivocamos.
También por convenio, en la hipótesis H0 los signos

siempre deben ser : = (igual) o ≤ (menor o igual que) o ≥

(mayor o igual que).
394
En caso de duda, siempre elegir un test con dos colas, sólo
cuando el planteamiento es muy claro se elige un test de una
cola.
En las siguientes escenas puedes aclararte un poco con el concepto

de error tipo I.
Hay una escena por cada tipo de contraste, bilateral, unilateral

izquierdo y unilateral derecho.
Puedes cambiar los controles con los valores que desees. Trata de
interpretar las distintas situaciones que van apareciendo. Quizás el
control más determinante sea el de las "medias muestrales".
A medida que este control aumenta o disminuye, el valor del

estadístico "z " sale o entra en la región crítica.
Observa también que la imagen que aparece pequeña en la parte

superior derecha de la escena, cambia en el momento en el que "z "
sale o entra en la región crítica. Intenta dar una explicación a dicho
cambio.
395
Situación general de error tipo I en contraste bilateral
396
Situación general de error tipo I en contraste unilateral
izquierdo
397
Situación general de error tipo I en contraste unilateral
derecho
9.4.2 Error tipo II. (error beta)
Cuando no se rechaza H0 , siendo falsa, se puede cometer el error

denominado error tipo II. (también denominado error beta).
398
Pero ¿cuál es beta? De hecho, sería una información ciertamente
relevante poder comunicar en un estudio de contraste el valor de
este tipo de error. En los paquetes estadísticos no se da información
de este error ya que sería necesario concretar el valor de H1 . Sin

embargo si que se puede especular un poco con el error tipo II

haciendo alguna suposición más o menos dirigida.
Supongamos que queremos demostrar que la edad media de los

asistentes a cierto concierto es más de 18 años con un nivel de
significación del 4, 5%.
Se sabe que la desviación típica poblacional es 3, 6 años. Para ello se

consideró una muestra de 36 individuos para la que se obtuvo una
media de 19.
Planteando el problema, se tendrá:
399
Estadístico de contraste:
19 − 18
z= = 1, 666
( )

3,6
36

1, 666 ∈ (−∞, 1, 6957)
Aceptamos por tanto la hipótesis nula. La hubiéramos aceptado

siempre que:
X − 18
z= < 1, 6957 ⟹ X − 18 < 1, 01742
( 3,6
)

36

⟹ X < 19, 01742
Es decir, hubiéramos aceptado la hipótesis nula para cualquier media

muestral menor de 19, 01742.
Ahora y haciendo una suposición no estadística de que en realidad la

media de edad de los asistentes era mayor de 18 (nos quedamos con
un valor cercano y redondo por ejemplo de 20) ¿Cuál sería la
probabilidad de que en la distribución de las medias muestrales de
tamaño 36 de una población en la que μ = 20 nos encontremos
medias de menos de 19, 01742
X → N (20, ) ⟹ p(X ≤ 19, 01742)

3, 6
26

= (z ≤ ) = p(z ≤ −1, 64) = 0, 0505

19, 01742 − 20
3,6
26

400
La siguiente imagen ilustra la situación típica para el error de tipo II
En las siguientes escenas se plantean las situaciones habituales de

error tipo II para contraste unilateral izquierdo y unilateral derecho.
En la escena se ha propuesto de antemano una H1 más o menos

alejada de la H0 sin ningún criterio estadístico claro, salvo quizás el

de que se aprecie claramente la situación que se produce en tanto al

error tipo II.
401
En las escenas debes observar los controles y como influyen en el
resultado del contraste. También es importante que aprecies que en
el momento en que se acepta la hipótesis nula por estar el valor del
estadístico "z " dentro de la zona de aceptación, en la parte inferior
aparece el cálculo del posible error tipo II. Importante también es
entender que en el momento en que se rechaza la hipótesis nula,
desaparece la posibilidad de calibrar el error tipo II.
Situación general de error tipo II en contraste

unilateral izquierdo
402
Situación general de error tipo II en contraste
unilateral derecho
403
404
405
Bibliografía
Barnett, V. & Lewis, T. (1994). Outliers in statistical

data. Ed. Wiley.
Calot, G. (1974). Curso de Estadística Descriptiva.
Madrid: Ed. Paraninfo.
García Pérez A. (1992). Estadística Aplicada:
conceptos básicos. Madrid: Ed. Universidad
Nacional de Educación a Distancia.
García Pérez A. (2000). Métodos avanzados de
Estadística Aplicada. Madrid: Ed.
Universidad Nacional de Educación a
Distancia.
Quesada V., Isidro A. & López L.A. (1992). Curso y
ejercicios de Estadística. Ciudad de Mexico:
Ed. Alhambra Universidad.
Taylor, S.J. & Bogdan, R. (1987) Introducción a los
métodos cualitativos de investigación.
Barcelona: Ed. Paidós, SAICF.
Tucker, H. (1966) Introducción a la teoría matemática
de las probabilidades y a la estadística. Ed.
Vicens Vives.
406

1165 - U3 - A5 Caracteristicas de La Informacion Contable

Cargado por

Copyright:

Formatos disponibles

1165 - U3 - A5 Caracteristicas de La Informacion Contable

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

1165 - U3 - A5 Caracteristicas de La Informacion Contable

Cargado por

Copyright:

Formatos disponibles

Estadística, probabilidad e

Juan Jesús Cañas Escamilla

José Román Galo Sánchez

Juan Jesús Cañas Escamilla

José Román Galo Sánchez

Red Educativa Digital Descartes

Fondo Editorial RED Descartes

Estadística, probabilidad e inferencia

Juan Jesús Cañas Escamilla

José Román Galo Sánchez

Juan Guillermo Rivera Berrío

Código JavaScript para el libro: Joel Espinosa Longi, IMATE, UNAM.

Núcleo del libro interactivo: julio 2022.

Recursos interactivos: DescartesJS

Fuentes: Lato y UbuntuMono

Fórmulas matemáticas: KATEX ​

Red Educativa Digital Descartes

La herramienta Descartes se caracteriza por una innata interactividad,

Juan Jesús Cañas Escamilla

José R. Galo Sánchez

Todas las ciencias, animadas por las nuevas posibilidades que

Este nuevo contexto nos sitúa en un punto de partida inicial

Como ya se ha mencionado, el primer contacto que se suele tener con

La palabra Estadística etimológicamente deriva de la palabra "status",

Vamos a reflejar algunas pinceladas rápidas sobre la aparición de la

1.1.1 Un poco de historia

Seguramente para encontrar pistas sobre el origen de la estadística,

En la cultura asiria o mesopotámica se conservan tablillas con

“Haz un censo general de toda la asamblea de los hijos de Israel, por

En China aparecen innumerables documentos con referencias a

Es en Roma donde puede decirse que la Estadística adquiere un gran

La Iglesia, después del Concilio de Trento estableció la obligación de

Blaise Pascal y Christiaan Huygens, en el siglo XVII, realizan trabajos

En el siglo XIX la estadística entra en una nueva fase de su desarrollo

Con la aparición de los ordenadores, en la segunda mitad del siglo XX,

Así pues, la estadística aparece a lo largo de la historia como un

Video 1.1. Vídeo enlazado desde YouTube, licencia de YouTube estándar

1.1.2 Definición de Estadística

La estadística, en general, es la ciencia que trata de la recopilación,

Estadística Descriptiva: Puede decirse que la estadística

1.2 Conceptos generales

Es obvio que todo estudio estadístico ha de estar referido a un

Cada uno de estos objetos que forman parte de la población se

A su vez, cada elemento de la población tiene una serie de

Normalmente en un estudio estadístico hay muchos condicionantes y

Una muestra es cualquier subconjunto de una población. Cuando los

A su vez se pueden clasificar en:

Ordenables: Aquellas que sugieren una ordenación o son

Dentro de éstas a su vez se pueden destacar:

Cuantitativas discretas. Aquellas a las que se les puede asociar

No obstante, en muchos casos el tratamiento estadístico hace

En las siguientes escenas del subproyecto ED@D (Educación Digital

1.3 Tabulación y gráficos estadísticos

Con bastante frecuencia y como complemento a las tablas se recurre

Cualquier estudio estadístico comienza con la recogida de datos. Esta

El segundo paso es la presentación de estos datos de forma sencilla,

La forma más sencilla de tabular una variable estadística es mediante

Desde el punto de vista didáctico, la tabulación se completa con

Para el caso de un carácter cualitativo:

Fórmulas matemáticas: KATEX