Estadistica Basica Edulcorada PDF
Estadistica Basica Edulcorada PDF
Estadistica Basica Edulcorada PDF
Prólogo 19
1 Introducción 1
1.1 De la aritmética política a la estadística . . . . . . . . . . . . 2
1.2 Variabilidad y correlación . . . . . . . . . . . . . . . . . . . . 9
2 Estadística descriptiva 17
2.1 Los censos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Proceso científico del análisis estadístico . . . . . . . . . . . . 19
2.3 Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Variables y Atributos . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Variables discretas y continuas . . . . . . . . . . . . . . . . . . 21
2.6 Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . 22
2.7 Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8 Medidas características de una variable . . . . . . . . . . . . . 45
3 Descriptiva dos-dimensional 89
3.1 Distribución conjunta de caracteres . . . . . . . . . . . . . . . 90
3.2 Estructura de la información . . . . . . . . . . . . . . . . . . . 91
3.3 Representaciones gráficas . . . . . . . . . . . . . . . . . . . . . 92
3.4 Dependencia e Independencia estadística. . . . . . . . . . . . . 93
3.5 Dependencia estadística entre variables . . . . . . . . . . . . . 93
4 Probabilidad 119
4.1 Introducción histórica . . . . . . . . . . . . . . . . . . . . . . 119
4.2 La geometría del azar . . . . . . . . . . . . . . . . . . . . . . . 123
4.3 El sentido estadístico-probabilista de la actualidad . . . . . . . 125
4.4 La familia Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 126
3
4 ÍNDICE GENERAL
7
8 ÍNDICE DE TABLAS
Índice de figuras
9
10 ÍNDICE DE FIGURAS
6.23 Tabla original del trabajo de Quetelet. Observemos que los nú-
meros, año a año, son casi similares, lo cual provocó el asombro
de Quetelet (y de cualquiera). . . . . . . . . . . . . . . . . . . 286
6.24 Cyril Burt, ¿uno de los mayores troleros de la historia? . . . . 293
6.25 Densidad de la suma de cinco variables aleatorias. . . . . . . . 296
6.26 G. H. Hardy, que fue interpretado por Jeremy Irons en la
película *El hombre que conocía el infinito*. . . . . . . . . . . 307
6.27 Simeón Poisson, del que ya hablamos en el capítulo de proba-
bilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
6.28 Varias distribuciones Chi-cuadrado para distintos grados de
libertad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
6.29 William Gosset, el inventor. . . . . . . . . . . . . . . . . . . . 313
6.30 Varias distribuciones t para distintos grados de libertad. . . . 315
6.31 Representación de la función de densidad de la distribución F
para algunos parámetros. . . . . . . . . . . . . . . . . . . . . . 316
library(mosaic)
library(dplyr)
library(ggplot2)
library(DT)
library(plotly)
library(pander)
library(xtable)
library(manipulate)
library(HistData)
library(ggthemes)
19
20 ÍNDICE DE FIGURAS
library(gridExtra)
library(printr)
library(readxl)
library(rcompanion)
library(HSAUR)
library(kableExtra)
library(UsingR)
library(readr)
library(grid)
library(gmodels)
library(nortest)
options(knitr.table.f
ormat = "latex")
Los ficheros de datos que se utilizan a lo largo del libro se han obtenido de
fuentes públicas (generalmente de paquetes de R), pero pueden obtenerse en
este enlace (por si desaparecen del original).
En este libro se usa R y RStudio (entorno gráfico para utilizar R). Existen
muchos manuales de R, entre los que podemos citar:
• Para quien no lo haya usado nunca, puede comenzar mirando: R para
Principiantes, versión española de R for Beginners, traducido por
Jorge A. Ahumada,
Introducción
1
2 CAPÍTULO 1. INTRODUCCIÓN
Figura 1.5: Sir Francis Galton (izquierda), primo de Charles Darwin, y Pierre
Simon Laplace (derecha), dos de las más importantes figuras de la probabili-
dad y la estadística.
Sir Ronald Aylmer Fisher fue un estadístico y biólogo inglés que utilizó las
matemáticas para combinar la genética mendeliana y la selección natural.
Richard Dawkins dijo de él que fue “el mejor biólogo desde Darwin”. Lo que
nadie pone en duda es que proporcionó a los investigadores en biología y
medicina sus herramientas de trabajo más importantes.
12 CAPÍTULO 1. INTRODUCCIÓN
Fue también famosa la enemistad que mantuvo Fisher con otro de los pa-
dres de la estadística, Karl Pearson, a raíz de las críticas de este último a
un artículo enviado por Fisher a la revista Biometrika, creada por Pearson,
Galton y Weldon. Esta enemistad se trasladaría al hijo de Pearson, Egon
Pearson (1895-1980) , que junto con Jerzy Neyman (1894-1981) crearon
la teoría de los test de hipótesis que lleva sus nombres (Neymann-Pearson).
Además, Fisher mantuvo siempre una animadversión severa hacia los estadís-
ticos llamados bayesianos (los que utilizan un modo de pensamiento centrado
en las probabilidades de tipo subjetivo), lo que seguramente motivo que la
estadística bayesiana tardara más tiempo del deseado en tomar arraigo entre
los investigadores de esta ciencia.
Es también muy conocido el siguiente hecho: En 1950 se pronunció pública-
mente en contra de un estudio que demostraba la correlación entre fumar y el
cáncer de pulmón; incluso llegó a argumentar que era posible que la existen-
cia de un cáncer motivara la posibilidad de adicción hacia el tabaco. Si bien
fue cierto que Fisher había sido asesor de empresas tabacaleras, parece estar
demostrado que sus motivaciones para dudar de la relación tabaco - cáncer
fueron estrictamente personales. Fisher era un fumador empedernido, capaz
de bañarse en la piscina sin dejar de fumar en pipa, siempre había mantenido
aversión hacia las tendencias puritanas de todo tipo y había encontrado gran
consuelo personal en el tabaco. Años después publicaría una retractación de
sus opiniones en este aspecto.
En la siguiente entrada del blog simplystatistics, el autor considera que Fis-
her es el científico más influyente de la historia, en base a las citas de sus
trabajos en Google Scholar. En esta misma página, se indica que varios de
los conceptos introducidos por Fisher son de la mayor importancia en la
estadística. Por ejemplo:
• el p-valor.
• el análisis de la varianza o ANOVA.
• el análisis discriminante lineal.
• la matriz de información.
Cualquier estudiante de un curso de estadística, o cualquier científico, inge-
niero, psicólogo o profesional de muchas disciplinas ha tenido que oir hablar,
casi necesariamente, del p-valor. Pensemos que, si los conceptos científicos
14 CAPÍTULO 1. INTRODUCCIÓN
pudiesen ser registrados igual que un software, o simplemente como una can-
ción en la sociedad general de autores (SGAE), lo bien que vivirían los nietos
de Fisher sin tener que dar palo al agua.
Figura 1.9: En aquella película, Robin Williams sí gano el Oscar como mejor
actor.
Estadística descriptiva
17
18 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
2.3 Población
Entendemos genéricamente por población el conjunto sobre el cual recaen
las observaciones o los datos que analizamos (puede ser una población de
personas, de monos, de libros, de radiadores… ). Si tomamos un subconjun-
to de elementos de la población decimos que hemos tomado una muestra.
Cada uno de los elementos de la población reciben el nombre de unidades
estadísticas o individuos.
20 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
el término carácter.
xi ni
1 12
3 12
5 3
6 45
8 72
Desde estas fechas (o quizá de antes) se trabaja muy a menudo con el fichero
de datos que contiene la lista de pasajeros, junto con la distribución de los
mismos según edad, sexo, supervivencia y clase social.
Este fichero lo utilizaremos en más de una ocasión a lo largo de estos apuntes.
En el siguiente trozo de código (chunk), los datos, al estar en formato excel,
los leemos mediante la libreria readxl.
library(readxl)
Datos_Titanic <-read_excel("Data/Pasajeros-
Titanic.xlsx")
Y uno de sectores:
y=Datos_Titanic$clase
x=table(y)
# diagrama de sectores
26 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
Titulo principal
600
400
200
0
library(lattice)
library(mosaic)
#diagrama de barras
bargraph( ~ clase, data = Datos_Titanic,
main = "Gráf
ico de Barras")
Diagrama de Sectores
2nd
1st
3rd
Gráfico de Barras
600
count
400
200
0
t d
1s 2n 3rd
clase
Figura 2.8: Ejemplo de diagrama de barras con las librerias mosaic y lattice.
28 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
Gráfico de Barras
female
male
500
400
300
count
200
100
0
t d
1s 2n 3rd
clase
7.5, 7.5, 7.5, 8.3, 9, 10.2, 10.4, 11, 11.1, 11.5, 12, 13
X=c(2,3,4,4.5,4.5,5.6
,5.7,5.8
,6,6
.1,6
.5,7,7,
7,7.5,7.5,7.5,8
.3,9,10.2,10.4,11,11.1,11.5,12,13)
table(cut(X,breaks=7))
div<-
library(pander)
mat <-data.frame(div)
names(mat) <-c("Intervalos", "Frecuencias ($n_i$)" )
x<-xtable(mat)
pander(x)
30 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
Esta clasificación nos dice el número de datos que hay en cada intervalo. El
indicar los intervalos de la forma (a, b] indica que el dato a no se cuenta en
este intervalo, y sí se cuenta el dato b.
x=Datos_Titanic$edad
# clasificamos los datos
y=table(x)
# 2 gráficos en 1 fila, 2 columnas
row = c(1,2))
op <-par(mf
barplot(y)
pie(y)
2.7. VARIABLES CONTINUAS 31
40
21 20.5
2019
2322
22.5
23.5
18.5
18
24 1716
24.5
25 15
14.5
14
13
12
30
11.5
11
10
987
26
26.5 654
27 32
28 1
0.916700006
0.833299994
0.75
0.666700006
0.416700006
0.333299994
0.166700006
80
76
74
71
70.5
70
67
66
65
28.5 64
63
62
61
29 60.5
20
60
59
58
57
30 56
55.5
55
54
30.5 53
52
51
31 50
49
32
32.5 48
47
33
3435 46
45.5
45
34.5 44
43
10
36
36.5
37
38.5 042
41
38 39440.5
0
0.166700006 23 33 45 59
Para clasificar los datos en, por ejemplo, seis intervalos, hacemos:
X=Datos_Titanic$edad
table(cut(x, breaks=6
))
x=Datos_Titanic$edad
hist(x, main="Histograma de la edad de los pasajeros del Titanic", xlab="Años")
100
50
0
0 20 40 60 80
Años
# VARIABLE ESTATURA
#
x=Datos$peso
Histogram of x Histogram of x
Frequency
Frequency
0 400
0 200
x x
Histogram of x Histogram of x
60 120
Frequency
Frequency
600
0
x x
library(manipulate)
x=Datos_Titanic$edad
manipulate( hist(x, breaks=c, density = 25), c=slider(1,11) )
)%>%
layer_histograms(width = input_slider(0.1, 2))%>%
add_axis("x",title="Histograma de la variable ")%>%
add_axis("y",title="")
# library(UsingR)
x=Datos_Titanic$edad
simple.freqpoly(x)
Histogram of x
200
150
Frequency
100
50
0
0 20 40 60 80
1 Xn
x0 − x i
fˆh (x0 ) = K . (2.1)
nh i=1 h
Histogram of X
0.03
Density
0.02
0.01
0.00
0 20 40 60 80
h=13.3
h=6
0.02
h=10
h=15
h=20
0.00
# VARIABLE PESO
# pasamos a kg
x=Datos$peso * 0.0453
x=na.omit(x)
plot(density(x), "Peso hombres raza blanca")
rug(x)
lines(density(x, bw = 10), col = 2)
lines(density(x, bw = 20), col = 3)
lines(density(x, bw = 40), col = 4)
lines(density(x, bw = 50), col = 5)
legend(120, 0.025,
legend = c("h=23.2", "h=10", "h=20", "h=40", "h=50"),
col = 1:5, lty = 1)
0.02
h=23.2
h=10
h=20
0.01
h=40
h=50
0.00
library(ggvis)
library(dplyr)
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 45
X=c(2,3,4,4.5,4.5,5.6
,5.7,5.8
,6,6
.1,6
.5)
mean(X)
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 47
## [1] 4.8
2
8
## [1] 5.5
#frente a
mean(X)
## [1] 8
.75
x1 w1 + x2 w2 + ... + xn wn
xp = .
w1 + w2 + ... + wn
wt <-c(5, 5, 4, 1)/15
x <-c(3.7,3.3,3.5,2.8
)
xm <-weighted.mean(x, wt)
xm
## [1] 3.453
2.8.1.6 La mediana
La mediana es un valor que, previa ordenación, deja la mitad de las obser-
vaciones a su izquierda y la otra mitad a su derecha. Es decir, el 50% de los
datos son menores o iguales que la mediana, y el otro 50% mayores o iguales
a ésta.
Para su cálculo, y suponiendo que los valores están ordenados, se procede de
la siguiente manera:
• Si hay un número impar de datos, la mediana es el elemento que se
n+1
encuentra en el centro, es decir, el valor que ocupa el lugar 2 .
• Si el número de datos fuera par habría dos elementos centrales, y la
mediana se obtendría como la media de ambos.
x=c(2,3,1,1,0,5,5,6
,12,3,4,5,5,4,7)
median(x)
Me <-
Me
## [1] 4
Nota histórica:
La idea de un medio o mediano (lo cual es una descripción) que sea exce-
lente (lo cual es una evaluación) es una de las enseñanzas más familiares de
Aristóteles. “La virtud es un medio entre dos vicios, uno de exceso y otro de
deficiencia”. Aristóteles explícitamente restringió la aplicación del concepto
de medio porque se trata de una excelencia que contrasta con el exceso o la
deficiencia. “No todos los puntos medios son medios. El rencor y el adulte-
rio, son en sí mismo bajos, y no son bajos a causa de exceso y deficiencia”
(Hacking and Bixio, 1995).
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 53
Figura 2.26: Población de g.. (gente bien vestida): valores más frecuentes de
abrigos, solapas y sombreros.
2.8.1.7 La moda
La moda (absoluta) de una distribución es el valor que más veces se repite
(el valor con mayor frecuencia o más frecuente). Además de la moda absoluta,
aquellos valores que tengan frecuencia mayor a la de los valores adyacentes
serán modas relativas. Por ejemplo, si tenemos la variable X que toma los
valores 2, 3, 3, 4, 6, 7, 7, 7, 10, la moda absoluta es 7, puesto que es el valor que
se repite más veces. Además, el valor 3 es una moda relativa, puesto que su
frecuencia es 2, superior a la de los valores 2 y 4, ambas iguales a 1.
En el caso de una variable continua se habla de intervalo modal, que a su vez
puede ser absoluto o relativo.
La moda es un valor que se ve directamente al observar el diagrama de barras
si la variable es discreta, o el histograma si es continua.
2.8.1.8.1 Cuartiles
Si consideramos los percentiles 25, 50 y 75, estos 3 valores dividen a las ob-
servaciones en cuatro partes iguales, y por eso se llaman cuartil primero,
cuartil segundo y cuartil tercero. Suelen representarse por Q1 , Q2 y Q3
(Figura 2.32).
2.8.1.8.2 Deciles
Igual que el caso anterior, si consideramos los percentiles 10, 20, 30... hasta
90 tenemos 9 valores que dividen a las observaciones en 10 partes iguales, y
esos valores se llaman deciles. Se representan como D1 , D2 , . . . , D9 .
0.025
0.020
0.015
Density
0.010
0.005
0.000
50 100 150
Peso
0.0125
0.0100
0.0075
Density
0.0050
0.0025
0.0000
50 100 150 200 250
Colesterol
## 25%
## 8
1.75
## 50%
## 103
## 75%
## 130
0.050
0.025
0.000
y
−0.025
−0.050
0.0 2.5 5.0 7.5 10.0
x
Figura 2.35: Dos variables con la misma media aritmética y diferente disper-
sión.
X=c(-4,-2,5,9,10,11,14)
media=mean(X)
# vamos a calcular las distancias
62 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
## [1] 102.8
78 6
.306 1.306 8
.16
3 14.8
78 23.592
## [7] 6
1.735
## [1] 39.8
4
## [1] 6
.312
Si las distancias entre los datos y la media, en general, son grandes, la media
de estas distancias también lo será.
Si las distancias entre los datos y la media, en general, son pequeñas, la media
de las distancias también lo será.
Ahora bien, las distancias xi − x las elevamos al cuadrado para evitar que se
compensen las distancias positivas y negativas (según que los datos xi estén
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 63
## [1] -
1.27e-
16
X=c(-4,-2,5,9,10,11,14)
var(X)
## [1] 46
.48
64 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
sd(X)
## [1] 6
.817
2.8.4 Recorrido
Se define como la diferencia entre el mayor y el menor de los valores.
Obviamente, es una medida de dispersión, y bien sencilla, además. Tiene la
ventaja de que la calcula cualquiera, aunque cuando hay valores aislados en
las puntas o extremos de la distribución, da una visión distorsionada de la
dispersión de ésta.
RI = Q3 − Q1 .
Por ejemplo, si deseamos comparar los sueldos entre dos paises, no solo com-
pararemos el salario medio (incluso refiriéndonos al salario mediana o moda).
También es interesante comparar la dispersión, si existe mucha variabilidad
entre los salarios, o si hay mucho recorrido (diferencias máximo salario y
mínimo salario). Podríamos comparar euros con dolares realizando una con-
versión, obviamente, para tener las dos variables en la misma unidad de
medida. Pero tampoco va a ser necesario, como veremos a continuación.
66 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
X=c(0.1,0.2,0.3,0.4,0.5)
Y=c(1000.1,1000.2,1000.3,1000.4,1000.5)
# ambas variables tienen la misma
# desviación típica,
sd(X);sd(Y)
## [1] 0.158
1
## [1] 0.158
1
## [1] 0.527
## [1] 0.000158
1
2.8.7 Simetría
Diremos que una distribución es simétrica respecto a un parámetro cuando
los valores de la variable equidistantes de dicho parámetro tienen la mis-
ma frecuencia. La simetría suele referirse a la simetría respecto de la media
aritmética, o respecto de la mediana.
Una distribución o variable es simétrica si, gráficamente, levantamos un eje o
línea vertical sobre la media (o mediana, según el caso) y el dibujo a ambos
lados de dicho eje es idéntico. Tengamos en cuenta que, si una distribución
es simétrica, la media aritmética y la mediana van a coincidir.
Estudiar la simetría de una distribución es una manera de estudiar la for-
ma de una distribución. Hemos dicho que la estadística se ocupa del estudio
de poblaciones, que a su vez están compuestas de variables. La manera de
estudiar las mismas es conocer sus valores medios (medidas de posición), su
variabilidad (dispersión) y su forma. Dos variables (por ejemplo las estaturas
de los hombres de dos naciones), cuanto más se parezcan en estos 3 concep-
tos, más similares serán. Como veremos en capítulos posteriores, la simetría
es una propiedad que aparece en más ocasiones de lo que quizá pudiera su-
ponerse, a priori, en muchas variables o distribuciones.
68 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
1X n
m3 = (xi − x)3
n i=1
y S la desviación típica. Como vemos, es una medida adimensional (tanto en
el numerador como en el denominador las unidades de la variable aparecen
elevadas al cubo, por lo que al efectuar la división no hay unidades), y esto
nos permite comparar simetrías de distintas variables.
Si una distribución es simétrica, g1 = 0.
Si g1 < 0 entonces la distribución es asimétrica negativa.
Si g1 > 0 entonces es asimétrica positiva.
Cuando la distribución es simétrica, coinciden la media y la mediana.
Al igual que ocurría con la varianza, la fórmula del coeficiente de asimetría
puede variar, por mótivos técnicos, dependiendo del programa estadístico
que se utilice. Conviene siempre mirar el manual para tener clara la fórmula.
En todo caso, los valores deben ser parecidos, y lo importante es el signo
(positivo para asimetría a la derecha y negativo al contrario), que no debe
depender del programa utilizado. Esto debe servir como regla para cualquier
otro coeficiente de simetría que encontremos (en un libro, en google o en
una papelera de algún matemático loco): el coeficiente de simetría positivo
denotará asimetría a la derecha. Coeficiente negativo, asimetría a la izquierda.
Un coeficiente cero (en realidad, próximo a cero puesto que la realidad muchas
veces es más tozuda que la teoría) implicará simetría.
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 69
# estatura en centimetros
x=Datos$estatura * 0.254
x=na.omit(x)
plot(density(x), "Estatura hombres raza blanca")
# peso en kg
x=Datos$peso * 0.0453
x=na.omit(x)
plot(density(x), "Peso hombres raza blanca")
0.03
0.00
0.02
0.00
2.8.8 Curtosis
Otra manera de estudiar la forma de una distribución es mediante la con-
centración existente en su “zona central” (alrededor de la media o mediana,
esto es, considerando distribuciones simétricas o próximas a la simetría). La
mayor o menor concentración de frecuencias alrededor de la media, en es-
te caso, dará lugar a una distribución más o menos apuntada. El grado de
apuntamiento de una distribución se calcula a través del coeficiente de apun-
tamiento o de curtosis, para lo cual se compara con la llamada distribución
Normal o Gaussiana.
Supongamos una variable X cuya media es x y su desviación típica es σx .
La siguiente función matemática (Figura 2.42) recibe el nombre de función
gaussiana (en honor a Karl Gauss): que, obviamente, es una función harto
rara, pero que su dibujo es el de una campana, con eje de simetría en el valor
medio x
Para estudiar el apuntamiento de una variable se puede dibujar el histograma
de la misma, junto con la función 2.42. Por ejemplo, consideremos los datos
de peso considerados hace un momento
# pasamos a kg
x=Datos$peso * 0.0453
x=na.omit(x)
# calculamos la media y desviación típica
media=mean(x)
des = sd(x)
#dibujamos el histograma
72 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
Histogram of x
0.030
0.020
Density
0.010
0.000
# pasamos a kg
x=Datos$peso * 0.0453
x=na.omit(x)
media=mean(x); des=sd(x)
# dibujamos la estimación de la
# función de densidad del peso
plot(density(x))
# ordenamos los datos x
x0=sort(x)
# calculamos la función f en los puntos x0
74 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
density.default(x = x)
0.04
0.03
Density
0.02
0.01
0.00
De cualquier modo, a simple vista, diríamos que esta variable tiene mayor
apuntamiento o curtosis que la distribución normal, que es la que se establece
de referencia. Así, se dice que la distribución es:
• mesocúrtica (o que la variable tiene el mismo apuntamiento que la
normal),
• platicúrtica (la variable es menos apuntada que la normal)
• leptocúrtica (la variable es más apuntada que la normal).
En el caso anterior, la variable peso sería leptocúrtica.
De todas formas, al igual que en el caso de la simetría, es posible definir coefi-
cientese numéricos para medir la curtosis. El llamado coeficiente de curtosis
(o también segundo coeficiente de Fisher) toma la expresión
m4
g2 = − 3,
s4
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 75
Como vemos, este coeficiente g2 es adimensional, con lo cual sirve para com-
parar la curtosis de diferentes variables. Cuando dicho coeficiente vale 0,
coincide con el de la campana de Gauss,
Básicamente, el cálculo de la curtosis de una variable se utiliza para esta-
blecer una comparación con la variable normal que tenga la misma media y
desviación típica. El objetivo es analizar si podemos considerar que la varia-
ble en estudio es “aproximadamente normal” Repetimos que la curtosis sólo
tiene interés medirla en distribuciones simétricas o ligeramente asimétricas,
que “puedan parecerse” a la curva Normal o campana de Gauss.
(Pearl, 1905): “Given two frequency distributions which have the same
variability as measured by the standard deviation, they may be relati-
vely more or less flat-topped than the normal curve. If more flat-topped
I term them platykurtic, if less flat-topped leptokurtic, and if equally
flat-topped mesokurtic”.
Otros autores, como por ejemplo (Balanda and MacGillivray, 1988),
criticarían posteriormente esta definición de la curtosis de Pearson, di-
ciendo que es “una pobre medida de la curtosis, apuntamiento o peso
en las colas”, así que propusieron “definir curtosis de alguna forma co-
mo como el movimiento de la masa de probabilidad desde los hombros
de la distribución hasta su centro y sus colas”.
X −X
Z=
SX
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 77
Figura 2.44: Dibujo original hecho por Student (Gosset) para acordarse de
los valores de la curtosis.
## [1] 5.8
5e-
17
sd(Z)
## [1] 1
LI = Q1 − 1.5RI , LS = Q3 + 1.5RI ,
Ejercicio 2.2 (Edades en el cine). vamos a analizar las variables Edad que
tenía un actor/actriz al recibir el Oscar al mejor actor/actriz (datos actua-
lizados hasta 2017).
premios_oscar <-read_excel("Data/premios-
oscar.xlsx")
#cargamos los datos y los preparamos
X<-(premios_oscar$actor_principal)
82 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
Y<-(premios_oscar$actriz_principal)
Z<-(premios_oscar$actor_secundario)
W<-(premios_oscar$actriz_secundaria)
pander(summary(X))
pander(summary(Y))
pander(summary(Z))
pander(summary(W))
boxplot(X,Y,Z,W)
1 2 3 4
ria plotly, que, básicamente, nos permite crear un gráfico interactivo y que
permite hacer zoom, mediante la instrucción plotly(g) donde g es un gráfico
que podemos crear mediante la librería ggplot2. De todas formas, está claro
que la interactividad solo se puede ver en el formato de página web de este
libro. Además, tengase en cuenta que utiliza bastante memoria.
f c(rep("actor_principal",length(X)),
ac<-
rep("actriz_principal",length(Y)),
rep("actor_secundario",length(Z)),
rep("actriz_secundaria",length(W)))
# vector con todas las edades
c(X,Y,Z,W)
edad<-
# creamos una estructura
# de dos vectores, edad y
# tipo (actor principal, actriz principal...)
data.frame(edad,f
dt<- ac)
c(rep("actor_principal",length(X)),
tipo_act<-
rep("actriz_principal",length(Y)),
84 CAPÍTULO 2. ESTADÍSTICA DESCRIPTIVA
rep("actor_secundario",length(Z)),
rep("actriz_secundaria",length(W)))
c(X,Y,Z,W)
edad<-
data.frame(edad,tipo_act)
dt<-
library(plotly)
library(ggplot2)
p <-ggplot()+
geom_boxplot(data=dt,
aes(x=tipo_act, y=edad, color=tipo_act))+
ggtitle("Edad de ganadores de oscar")+
labs(y="Edad")
p
80
60
tipo_act
actor_principal
Edad
actor_secundario
actriz_principal
40
actriz_secundaria
20
Vemos que, para la variable Edad que tenía el actor que ganó el oscar al
mejor actor principal la caja se mueve entre los 38 y los 50 años. La mediana
es 42 años. La edad media está alrededor de los 44 años (aunque este valor
2.8. MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE 85
no aparece en el diagrama).
Las edades varían desde un mínimo de 29 años (Adrien Brody en “El pianista”
en el 2002) y un máximo de 76 años (Henry Fonda en 1982). Con respecto
a las mujeres que ganaron el Oscar a la mejor actriz principal, la caja del
gráfico correspondiente (el tercero, de color azul) nos indica que el 50 por
ciento central de las edades es bastante menor. Esto quiere decir que las
mujeres ganadoras del oscar, por lo general, lo ganan siendo más jovenes
(comparadas con los hombres). La mediana de las edades es 33 y la media
aritmética ronda los 36 años. Si bien los extremos son 21 años (Marlee Matlin
en 1987) y 80 (Jessica Tandy en 1990), vemos que en esta segunda variable
hay unos cuantos valores atípicos (esos puntos aislados que se separan de la
linea del gráfico), que significa que están alejados de la tónica general de los
datos.
Actores Principales
0.05
0.04
0.03 fac_1
densidad
actor
actriz
0.02
0.01
0.00
0 10 20 30 40 50 60 70 80 90
Edad
Actores secundarios
0.03
0.02 fac_2
densidad
actor
actriz_secundaria
0.01
0.00
0 10 20 30 40 50 60 70 80 90
Edad
resultados pueden servir para corroborar que los papeles más interesantes
para las mujeres (y que les permiten ser nominadas y por tanto ganar un
Oscar) se le ofrecen a las mujeres más jovenes, mientras que en los hombres
parece que existen papeles atractivos en todas las edades.
Aquí no tenemos Oscar, tenemos los Goya, pero desde hace menos tiempo.
En concreto, desde 1986. Vamos a realizar exactamente el mismo análisis de
antes. El gráfico de box-plot es
80
60 tipo_act
actor_principal
Edad
actor_secundario
actriz_principal
actriz_secundaria
40
20
Descriptiva dos-dimensional
89
90 CAPÍTULO 3. DESCRIPTIVA DOS-DIMENSIONAL
Titanic <-read_excel("Data/Pasajeros-
Titanic.xlsx")
t1<-table(Titanic$sobrevivio, Titanic$clase)
addmargins(t1)
t2<-
pander(t2)
data.frame(Titanic)
dt<-
ggplot(dt, aes(x=clase))+
geom_bar( aes(f
ill= sobrevivio), position="dodge")
400
sobrevivio
count
no
200 yes
0
1st 2nd 3rd
clase
70
child
65
64 66 68 70 72
parent
data(Galton)
data.frame(Galton)
Gl<-
ggplot()+
geom_point(data=Gl,
aes(x=parent, y=child),
size=3, color="blue")
Mediante el gráfico 3.5, podemos ver que, a medida que el padre y la ma-
dre tienen estatura mayor (eje X: media de las alturas) los hijos tienen, de
manera general, también mayor estatura. Se observa, por lo tanto, un tipo
de relación lineal creciente. Este gráfico se ha realizado mediante la librería
ggplot2 que, obviamente, hay que llamarlo primero, mediante library(ggplot2).
3.5. DEPENDENCIA ESTADÍSTICA ENTRE VARIABLES 95
62 64 66 68 70 72 74
Galton$child
64 66 68 70 72
Galton$parent
La resolución gráfica es mucho mejor que con los comandos básicos de R, que
serían, simplemente:
data(Galton)
plot(Galton$parent, Galton$child, col="blue")
Como vemos, el gráfico 3.6 es igual que el anterior, pero más cutrillo.
2000
1750
location
mortality
North
1500
South
1250
0 50 100
hardness
library(HSAUR)
data("water", package = "HSAUR")
data.frame(water)
mort<-
ggplot()+
geom_point( data=mort,
aes(x=hardness, y=mortality, colour=location))
La estructura de la nube de puntos deja entrever que, a mayor dureza del agua
(mayor concentración de calcio), la mortalidad disminuye. Es, al contrario que
antes, una relación lineal decreciente.
1 Xn
SXY = · (xi − x̄) · (yi − ȳ).
n i=1
SXY es una medida simétrica (porque es igual a SY X ) y se puede leer como la
suma de los productos de las desviaciones de X por las desviaciones de Y con
respecto a sus respectivas medias. Fijémonos en la gráfica siguiente, donde se
considera como centro el punto de coordenadas las medias aritméticas, (x̄, ȳ),
que se llama centro de gravedad de la nube de puntos. Alrededor de él
consideramos cuatro cuadrantes:
• por primer cuadrante entendemos los puntos (xi , yi ) donde xi > x̄ e
yi > ȳ.
• Por tercer cuadrante los puntos (xi , yi ) donde xi < x̄ e yi < ȳ.
• Por segundo cuadrante los puntos (xi , yi ) donde xi > x̄ e yi < ȳ.
• por cuarto cuadrante los puntos (xi , yi ) donde xi < x̄ e yi > ȳ.
Si el signo de la desviación de X coincide con la de Y , como ocurre en el
primer y tercer cuadrante, se genera un sumando positivo en la fórmula de
la covarianza; y cuando el signo es distinto -segundo y cuarto cuadrante- la
aportación a la covarianza es negativa.
Entonces, en el primer y tercer cuadrante (xi − x̄) · (yi − ȳ) siempre es un
número mayor o igual a cero. En cambio, en el segundo y cuarto cuadrante,
el producto (xi − x̄) · (yi − ȳ) siempre es un número menor o igual a cero.
El punto de coordenadas
98 CAPÍTULO 3. DESCRIPTIVA DOS-DIMENSIONAL
data(Galton)
data.frame(Galton)
Gl<-
cov(Gl$parent,Gl$child)
## [1] 2.06
5
cov(mort$hardness, mort$mortality)
## [1] -
462
8
data(Galton)
data.frame(Galton)
Gl<-
cor(Gl$parent,Gl$child)
## [1] 0.458
8
## [1] -
0.6
548
0 ≤ R2 ≤ 1,
data(Galton)
data.frame(Galton)
Gl<-
cor(Gl$parent,Gl$child)^2
## [1] 0.2105
102 CAPÍTULO 3. DESCRIPTIVA DOS-DIMENSIONAL
## [1] 0.428
8
Así, podemos decir que la relación entre la altura de los hijos y la altura
media de sus padres es lineal (positiva o creciente) en un 21.04 por ciento, y
que la relación entre la mortalidad y la dureza del agua es lineal (negativa o
decreciente) en un 42.88 por ciento.
Se concluye este apartado indicando que la independencia implica incorrela-
ción, pero el recíproco no siempre es cierto (recordemos que la incorrelación se
refiere a ausencia de relación lineal. Dos variables pueden estar relacionadas
muy fuertemente mediante una función diferente a una lineal, y la incorre-
lación puede ser cero). Un ejemplo lo tenemos en la gráfica 3.11, donde las
variables X e Y están relacionadas totalmente por una función matemática,
pero si se calcula el valor de la correlación lineal da cero.
cor(X,Y)
## [1] -
3.16
2e-
16
1.00
0.75
Y
0.50
0.25
0.00
−1.0 −0.5 0.0 0.5 1.0
X
## [1] -
0.06
59
8
## [1] -
0.06
447
100
80
75
60
y
y
50
40
25
20
0
20 40 60 80 20 40 60 80 100
x x
2000
1750
location
mortality
North
1500
South
1250
0 50 100
hardness
Y = a + bX
2000
1750
mortality
1500
1250
0 50 100
hardness
Figura 3.16: Línea de regresión para los datos del ejemplo anterior.
10.50
10.25
record
10.00
9.75
Figura 3.17: Tiempo realizado frente al año de la carrera, junto con la recta
de mínimos cuadrados.
Como sabemos, la marca mundial de los 100 metros lisos ha ido disminuyendo
con el paso de los años. Si calculamos la recta de regresión que relacione
X=“año” e Y =“tiempo récord para recorrer los 100 metros”, podríamos
predecir cual sería el año en que se llegaría a un tiempo de 0 segundos, o
incluso un tiempo negativo.
record_100_m <-read_excel("Data/record-
100-
m.xlsx")
dt=data.frame(x=record_100_m[,1], y=record_100_m[,2])
names(dt)<-
c("año", "record")
p<-ggplot(data=dt,
aes(x=año,y=record),color="red",size=3)+
geom_point(color="red",size=3)+
geom_smooth(method = "lm",se=FALSE)
p
valores mínimos de Y para los años actuales parece muy difícil rebajarlos.
En Internet pueden encontrarse estudios de cuál es la función más adecuada
para el ajuste de estas variables, con el fin de obtener una posible predicción
dentro de límites razonables.
Durante los años 1860 y 1870, Galton sistematizó estas ideas y costumbres de
acuerdo al nuevo conocimiento sobre la evolución del hombre y los animales
provisto por la teoría de su primo Charles Darwin. Tras leer El origen de las
especies, Galton observó una interpretación de la obra de Darwin a través de
la cual los mecanismos de la selección natural eran potencialmente frustrados
por la civilización humana. Galton razonó que, dado que muchas sociedades
humanas buscaban proteger a los desfavorecidos y los débiles, dichas socie-
dades estaban reñidas con la selección natural responsable de la extinción de
los más débiles.
74
72
70
child
68
66
64
62
64 66 68 70 72
parent
data(Galton)
data.frame(Galton)
Gl<-
# dibujo de los datos y la línea de regresión
xyplot(child ~ parent, type = c("p", "r"),data = Gl)
##
## Call:
## lm(f
ormula = child ~ parent, data = Gl)
##
## Coef
icients:
f
## (Intercept) parent
3.5. DEPENDENCIA ESTADÍSTICA ENTRE VARIABLES 113
## 23.942 0.6
46
knitr::include_graphics('Figure/Galton-
height-
regress.jpg')
Figura 3.21: Los Bernoulli, una familia de genios de la ciencia. Aquí en España
tenemos a los Pelayo y a los del Río (no son primos míos, ojo) .
Figura 3.22: Dakota Johnson (50 sombras de Grey), hija de Melanie Griffith
y Don Johnson, famosos actores de los años 80.
Figura 3.23: Otra hija de Melanie Griffith (de su matrimonio con Antonio
Banderas). Además, mucha gente desconoce que su abuela (la madre de Me-
lanie) fue la actriz protagonista de ‘Los Pajaros‘.
116 CAPÍTULO 3. DESCRIPTIVA DOS-DIMENSIONAL
Probabilidad
119
120 CAPÍTULO 4. PROBABILIDAD
El divulgador científico Ian Hacking afirma que “el evento conceptual más
decisivo del siglo veinte fue el descubrimiento de que el mundo no es deter-
minístico. La causalidad, por mucho tiempo bastión de la metafísica, fue
desacreditada, y paulatinamente emergió una nueva forma de “conocimiento
objetivo” — la estadística (Hacking and Bixio, 1995).
Causalidad y Azar son conceptos opuestos, en el sentido de que si todos los
procesos que rigen el universo (y la vida) son causales, el azar no existe. Por
otro lado, la existencia del azar lleva implícito la posibilidad del “libre albe-
drío”. Un nombre equivalente a “teoría de la probabilidad” es, precisamente,
“ley del azar”, porque mientras sea posible “medir” la certeza o incertidumbre
de los sucesos que se presentan ante nosotros, ese azar deja de ser desconoci-
do.
4.1. INTRODUCCIÓN HISTÓRICA 121
Aún así, no sería hasta el siglo XVII, y debido, entre otras cosas, a la reforma
protestante del siglo XVI y a la revolución científica, cuando la certeza dejó
de basarse en la autoridad, y pasó a fundarse en criterios que se consideraban
objetivos, esto es, que tenían que ver con la experiencia. La objetividad vino
a sustituir así a la autoridad, y donde antes era el sujeto el que legitimaba la
objetividad de nuestro conocimiento, ahora será el objeto de ese conocimiento
el que legitime la autoridad del sujeto.
En el siglo XVII se culminó también un proceso de cambio donde se empe-
zaba a aplicar el lenguaje matemático a los fenómenos naturales. Aristóteles
había descrito que la “naturaleza” de las cosas era un principio interior que
garantizaba su modo de actuar. La acción humana tenía también su propia
esencia o razón de ser, y esa esencia convertía a la acción humana en una
acción diferente a la acción mecánica, fruto sólo de causas eficientes. La fina-
lidad de la actuación humana no era otra que la felicidad eterna, de la que
no se podía excluir necesariamente la felicidad terrena, dentro de este mundo.
La revolución científica de ese siglo destruyó la destrucción de la visión aris-
totélica de la naturaleza y la sustituyó por una visión mecanicista (explicar
los fenónemos mediante las leyes mecánicas del movimiento).
Suiza.
Jacob Bernoulli (1654 - 1705), también conocido como Jacob, Jacques o Ja-
mes Bernoulli, era el hermano mayor de Johann Bernoulli. En 1690 se convir-
tió en la primera persona en desarrollar la técnica para resolver ecuaciones
diferenciales separables. Se familiarizó con el cálculo mediante su correspon-
dencia con Gottfried Leibniz, y colaboró con su hermano Johann en varias
aplicaciones
Su obra maestra fue Ars Conjectandi (el Arte de la conjetura), un trabajo
pionero en la teoría de la probabilidad. La publicó su sobrino Nicholas en
1713, ocho años después de su muerte por tuberculosis. Los términos ensayo
de Bernoulli y números de Bernoulli son resultado de su trabajo. También exis-
te un cráter en la Luna bautizado cráter Bernoulli en honor suyo y de su
hermano Johann.
4.5 Laplace
Pierre-Simon Laplace (1749-1827) fue un astrónomo, físico y matemático
francés. Continuador de la mecánica newtoniana, descubrió y desarrolló la
transformada de Laplace y la ecuación de Laplace. Como estadístico, sentó
las bases de la teoría analítica de la probabilidad; y como astrónomo plan-
teó la teoría nebular sobre la formación del sistema solar. Él vio en la curva
normal un instrumento excelente cuya aplicabilidad extendió a la probabili-
dad (Simon, 1951). Sin embargo, Laplace estaba convencido de que las más
importantes cuestiones de la vida eran problemas de probabilidades, y por
consiguiente susceptibles de la aplicación de sus teorías.
datos sociales. Por otra parte, Quetelet ya era conocido en los círculos acadé-
micos de Gran Bretaña. En los años 30 había jugado un papel decisivo en la
creación de la sección de estadística de la Association for the Advancement of
Science, y en 1844 había presentado, en un encuentro de estadísticos llevado
a cabo en Plymouth, un largo listado de temas (meteorología, física, química,
botánica, agricultura, zoología, además de las cuestiones humanas) que a su
juicio podían ser estudiados con los nuevos métodos estadísticos.
Hemos hablado ya de los considerados padres de la estadística moderna, que
vendrían a continuación: Francis Galton, Karl Pearson y, ya en el siglo XX,
Ronald Fisher. La moderna teoría de la probabilidad sería completada por el
desarrollo de la Axiomática de Kolmogorov, realizada por el matemático
ruso Andrei Kolmogorov (1903-1987), quien, por decirlo vulgarmente, “orde-
nó” las propiedades que existían hasta ese momento, y sentó las bases de la
teoría matemática de la probabilidad tal como la conocemos en la actualidad.
Los primeros son aquellos que siempre que se repitan bajo condiciones análo-
gas llevan al mismo resultado, por tanto este resultado puede predecirse.
4.8.2 Suceso.
Es un subconjunto del espacio muestral, A ⊂ Ω. Se dice que ocurre un suceso
si ocurre alguno de los sucesos elementales que lo componen.
Se dice de John Venn (lógico matemático, 1834-1923) que fue quién inventó
la noción de frecuencia.
“La probabilidad de un suceso es su frecuencia relativa dentro de
la serie” (La lógica del azar; 1866)
Figura 4.9: Suceso A: doble grado en español y gallego. Suceso B: doble grado
en inglés y español. Intersección: grado en español.
Se verifica que A ∩ A = ∅ y A ∪ A = Ω.
Pequeño resumen:
Y más ejemplos:
4.9 Probabilidad
Si consideramos un experimento aleatorio que da lugar a un espacio muestral
Ω, la probabilidad es una función que asigna a los sucesos A ⊂ Ω un número
entre 0 y 1, verificando además que
140 CAPÍTULO 4. PROBABILIDAD
Figura 4.16: A algunos es muy difícil ponerlos de acuerdo hasta con un dia-
grama de Venn.
Figura 4.17: Para entender bien como se componen las islas británicas.
4.9. PROBABILIDAD 141
P (A ∪ B) = P (A) + P (B)
tiene poca f
iebre(36 37.5),
.5- A3 =paciente tiene fiebre alta (37.6-39), tene-
mos un ejemplo de sucesos incompatibles. La probabilidad de la unión
es la suma de las probabilidades.
Solución
Con la regla de Laplace el número de casos favorables es 3. El número de
casos posibles es la cantidad de posibles números de cuatro dígitos que existen
si utilizamos los números del 0 al 9: 0000, 0001, ...., 9999 que son diez mil
posibilidades. Por lo tanto, la probabilidad de acertar es 3/10000.
para cada cara de la moneda, o a la sexta parte de las veces para cada cara
del dado no sea correcta. No sería impensable que, de 10 lanzamientos, en
nueve aparezca cara y solo aparezca cruz una vez, en la moneda; o bien, que
al lanzar el dado 10 o 15 veces, no aparezca el 3 en ninguna ocasión.
Pero ocurre que, cuanto mayor es el número de veces que se lanza el dado, o
que se lanza la moneda, mayor es la aproximación de la frecuencia relativa
(el número de veces que aparece el suceso, dividido por el número total de
veces que se realizó el experimento) a la probabilidad del suceso.
aire una moneda 4.040 veces. El resultado: 2.048 caras, o una proporción
de caras de 2048/4040 = 0.5069. Cerca del año 1900, Karl Pearson lanzó al
aire una moneda 24.000 veces. El resultado: 12.012 caras, una proporción de
0.5005.
Mientras estuvo preso por los alemanes durante la Segunda Guerra Mundial,
el matemático sudafricano John Kerrich lanzó 10.000 veces una moneda al
aire. El resultado: 5.067 caras, una proporción de 0.5067.
Esto con R (o cualquier lenguaje de programación) puede hacerse muy fa-
cilmente mediante el comando sample que arroja números de forma aleatoria.
sample(a:b, N, replace=T) escribe N números enteros entre a y b, y si quere-
mos que se puedan repetir, escribimos replace=T. Por ejemplo, ahora vamos
a “simular” el lanzamiento de 1000 monedas (el número 1 es cara, 2 es cruz),
y los resultados los visualizamos en una tabla.
1 2
494 506
El Lanzamiento de un dado.
x=sample(1:6
,1000, replace=T)
pander(table(x))
1 2 3 4 5 6
148 165 176 176 169 166
146 CAPÍTULO 4. PROBABILIDAD
P (Ā) = 1 − P (A)
Linda es prof
esora de primaria.
Linda trabaja en una librería y recibe clases de yoga.
Linda milita en el movimiento f
eminista.
Linda presta asistencia social en psiquiatría.
Linda es reparadora de calderas.
Linda es cajera de un banco.
4.11. PROPIEDADES DE LA PROBABILIDAD 147
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
148 CAPÍTULO 4. PROBABILIDAD
La probabilidad de la diferencia es
P (A − B) = P (A) − P (A ∩ B)
P (A | M ) = 55/70
P (M ) = 55/145
Se ve rápidamente la relación:
P (A ∩ M )
P (A | M ) =
P (M )
En general, la probabilidad de un suceso A condicionado a otro suceso
B es
P (A ∩ B)
P (A | B) = ,
P (B)
4.12. PROBABILIDAD CONDICIONADA 151
P (A ∩ B) = P (A) · P (B | A) = P (B) · P (A | B)
Ejercicio 4.2. Un médico observa que el 30% de sus pacientes son mujeres
y que el 40% de sus pacientes fuma. De los fumadores, el 75% son hombres.
Calcular el porcentaje de mujeres que fuman entre los pacientes del doctor,
y el porcentaje de fumadoras entre las mujeres.
Solución:
Primero; en caso de duda, diagrama de Venn:
Nos piden, primero, porcentaje de mujeres que fuman: P (M ∩ F )
Lo que nos piden es el área representada por el rectángulo verde (mujeres y
a la vez fumadores)
Ahora
P (F ∩ M ) 0.1
P (F | M ) = = = 0.33.
P (M ) 0.3
P (M ∩ F ) 0.1
P (M | F ) = = = 0.25.
P (F ) 0.4
• P (Ā | E) = 1 − P (A | E)
• P (A ∪ B | E) = P (A | E) + P (B | E) − P (A ∩ B | E)
• Si A ⊂ B, entonces P (A | E) ≤ P (B | E)
154 CAPÍTULO 4. PROBABILIDAD
• P ((A − B) | E) = P (A | E) − P ((A ∩ B) | E)
Ejercicio 4.3. En las bodas de Caná, el 70% de los presentes eran mujeres.
De ellas el 10% eran católicas. De los hombres, eran católicos el 20%. a) ¿Qué
porcentaje de católicos había? b) Se elije a una persona al azar y es católica.
¿Cuál es la probabilidad de que sea un hombre?
Solución:
Con los datos, creamos una tabla de doble entrada:
Católicos No Católicos Totales
Hombres 0.2 · 0.3
Mujeres 0.7 · 0.10 0.7
Totales 1
Rellenamos los huecos:
Católicos No Católicos Totales
Hombres 0.2 · 0.3 0.24 0.3
Mujeres 0.7 · 0.10 0.63 0.7
Totales 0.13 0.87 1
Mirando a la tabla respondemos
1. P (C) = 0.13
2. P (H | C) = P (H ∩ C)/P (C) y estas son 0.06/0.13 = 0.46
P (A ∩ B) = P (A) · P (B)
4.13. INDEPENDENCIA DE SUCESOS 155
P (A1 ∩ A2 ∩ ... ∩ An ) =
___
156 CAPÍTULO 4. PROBABILIDAD
x=sample(1:6
,1000, replace=T)
y=table(x)
pander(y)
1 2 3 4 5 6
154 161 176 180 164 165
5 1 1
P (el segundo muere) = P (M2 ) = P (A1 ∩A2 ) = P (A1 )·P (A2 | A1 ) = · = .
6 5 6
5 4 1 1
P (M3 ) = P (A1 ∩A2 ∩A3 ) = P (A1 )·P (A2 | A1 )·P (A3 | A1 ∩A2 ) = · · = .
6 5 4 6
De igual manera se calculan las otras probabilidades, y todas son iguales a
1/6.
estas probabilidades.
P (A | B) · P (B)
P (B | A) =
P (A)
La probabilidad P (B) se conoce como probabilidad a priori (ex ante) y la
probabilidad P (B/A) se llama probabilidad a posteriori (ex post). En una
relación causa-efecto, se trata de determinar la probabilidad de la causa,
cuando se ha producido un determinado efecto.
Figura 4.28: Izquierda: Cartel de la película Rush (2013). Derecha: Los ver-
daderos Niki Lauda y James Hunt.
Supongamos ahora que, una vez que ganó Niki Lauda, estaba lloviendo, y
la vez que ganó Hunt también llovía. El pronóstico del tiempo dice que la
probabilidad de que llueva en la próxima carrera es del 50 por ciento. ¿Cambia
la probabilidad de ganar de James Hunt?
P (A | H) · P (H) 1· 1
P (H | A) = = 1 4 = 0.5
P (A) 2
Ejemplo 4.1. La tienda online favorita del 33 por ciento de los socios de un
foro es Pccomponendas, un 8 por ciento prefiere Medianamart, el 2 por ciento
prefiere Evoy y el resto prefieren comprar en Amazonas. La probabilidad de
que el pedido se pierda y no llegue al destinatario, según la casa que lo envíe,
es 0.8, 0.9, 0.7 y 0.6 respectivamente. Pepe, forero del 2003, ha pedido el
último modelo de linterna. Si acaba de entrar al foro y el primer hilo que
abre ya es para insultar, ¿crees que está cabreado porque no ha recibido el
envío?
Solución
4.15. TEOREMA DE LA PROBABILIDAD TOTAL (LAPLACE) 161
P (B | A1 )·P (A1 )+P (B | A2 )·P (A2 )+P (B | A3 )·P (A3 )+P (B | A4 )·P (A4 ) =
Ejemplo 4.2. En una clase el 70% de los alumnos son mujeres. De ellas, el
10% son fans de Pitingo. De los varones, son fans de Pitingo el 20%. ¿Qué
porcentaje de fans de Pitingo hay en total?
Solución:
Empezamos construyendo una tabla con los datos que nos dan:
Fan No Fan Totales
Hombres 0.2 x 30 = 6
Mujeres 0.10 x 70=7 70
Totales 100
4.16. TEOREMA DE BAYES (VERSIÓN DE LAPLACE) 163
Completamos:
Fan No Fan Totales
Hombres 6 24 30
Mujeres 7 63 70
Totales 13 87 100
Solución:
Llamemos E=“ser esquizofrénico”. Nos dicen que la proporción de esquizo-
frénicos en la población es del 1 por ciento, es decir, P (E) = 0.01.
Por otro lado, el test realizado verifica que: P (+ | E) = 0.99, y P (− | Ē) =
0.98
Por el teorema de Bayes:
P (+ | E) · P (E)
P (E | +) = ,
P (+)
164 CAPÍTULO 4. PROBABILIDAD
Ejercicio 4.6. Una señora de 65 años, a la que le han dado vez en el se-
guro (para hacerse una resonancia) para dentro de 3 años, decide acudir a
fisioterapia.
La señora tiene dificultad y dolor al mover una pierna. La fisioterapeuta,
después de un análisis concienzudo según aprendió en la UDC, supone que
el problema puede deberse a:
Artritis (A1 ), ó sobrecarga por bailar zumba el sábado noche (A2 ), con pro-
babilidades 0.7 y 0.3 respectivamente.
La fisioterapeuta ve que lo mejor es aplicar un tratamiento estándar, que
tiene probabilidad de mejora: P (M | A1 ) = 0.9 y P (M | A2 ) = 0.7.
Después del tiempo establecido, la paciente ha mejorado. ¿Cuál es la probabi-
lidad de que tuviese artritis? Si no mejoró, ¿probabilidad de que el problema
no fuese por artritis?
Price comprendió que el ensayo era la respuesta al ataque que David Hume
(Edimburgo; 1711- 1776) había dirigido contra la teoría de la causalidad. De
manera muy breve, podemos decir que toda predicción – consciente o incons-
ciente, científica o propia de la vida cotidiana – se funda en un razonamiento
acerca de cuestiones de hecho, y este razonamiento depende por entero de
la fe en el principio de causalidad. Cuando comemos un trozo de pan, no
nos paramos a pensar en que el pan podría estar envenenado si no lo hemos
sospechado, o que al caminar bajando unos escalones la tierra vaya a abrirse
bajo nuestros pies. La sucesión natural de hechos a la que, cotidianamente,
4.17. NOTAS HISTÓRICAS. LA ESTADÍSTICA BAYESIANA 167
Hay que tener en cuenta que el ensayo de Bayes fue escrito bastantes años
antes de que Laplace escribiera su famosa regla de los casos favorables entre
casos posibles. La fórmula de la probabilidad total (y el teorema posterior)
también son posteriores a la regla de Bayes. Es decir, Bayes dedujo su regla
sin conocer no solo esto, sino la axiomática de Kolmogorov y las propiedades
que se deducen de ella (que es como nosotros hemos calculado la probabilidad
condicionada). En particular, Hume hacía referencia a los testimonios histó-
ricos existentes que apoyaban la resurrección de Cristo (los cuales existen y
pueden buscarse en internet).
(extraído del libro “el hombre anúmerico” de John Paulos (Paulos and
Llosa, 1990)) Supongamos que la probabilidad de un sueño profético
sea de 1/10.000 (muy poco frecuente; cambiese este número por otro
más pequeño si se quiere). Entendemos por sueño profético aquel donde
alguien sueña con su tía y la ve muriendo en un accidente de coche y,
efectivamente, muere en accidente de coche, etc. En una población con
10 millones de personas adultas, ¿cuántas tendrán al menos un sueño
profético al año?
Solución:
Según suponemos en el enunciado, la probabilidad de que un sueño NO sea
profético es muy grande: 9.999/10.000.
Por consiguiente, la probabilidad de que una persona tenga al menos un
sueño profético al cabo de un año es
365
9999
1 − P (no tenga ninguno) = 1 − =
10000
= 1 − (0.9999)365 = 1 − 0.9641 = 0.0359.
decir, el 3.59 por ciento de los adultos (que son 3.590.000 adultos) tendrán
al menos un sueño profético al año (lo cual, ciertamente, es un número muy
alto).
Si se cambia la probabilidad inicial 1/10.000 por un número más pequeño,
el porcentaje de personas con, al menos, un sueño profético al año, evidente-
mente disminuirá, pero seguirá siendo muy alto. Es por eso que en la prensa
se recogen situaciones (verídicas) de gente que ha soñado con algo que se ha
cumplido (accidentes de avión, etc.). Es evidente que somos muchas personas
a soñar y se pueden tener muchos sueños diferentes. La probabilidad de que
se cumpla algún sueño profético es alta, pero eso no significa que la persona
que ha soñado algo que se ha cumplido tenga propiedades extrasensoriales.
Caso real:
Tras una relación sexual, una mujer sospecha que puede estar embara-
zada. Para estar segura de su estado compra un test del cual se conoce
que tiene una eficacia del 90% en detectar embarazos. La mujer se rea-
liza el test y obtiene un resultado positivo. ¿Cuál es la probabilidad de
que dicha mujer esté embarazada? (suponemos que el test da falsos po-
sitivos el 50 por ciento de las veces, y que la probabilidad de quedarse
embarazada tras una relación sexual es del 15 por ciento)
Solución:
Llamemos E=“estar embarazada”. Nos dicen que
P (+ | E) · P (E)
P (E | +) = =
P (+ | E) · P (E) + P (+ | Ē) · P (Ē)
0.9 · 0.241
= = 0.364
0.9 · 0.241 + 0.15 · 0.759
Si se repite sucesivamente el test de embarazo, obteniendo resultados
positivos, la probabilidad de embarazo sería: T est3 = 0.507, T est4 =
0.649, T est5 = 0.769, T est6 = 0.857, T est7 = 0.915 · · · T est10 = 0.984.
P (C ∩ S) 1/100000 1
P (Culpable | datos) = P (C | S) = = =
P (S) 100/100000 100
Luego
P (Inocente | datos) = 1 − 0.01 = 0.99
Como vemos, la probabilidad de ser inocente no es directamente 1 sobre 1000,
que podría pensarse a la luz de que ese es el porcentaje del tipo de sangre
en la población general. Lo que hay que hacer es ver cuál es realmente ese
porcentaje dentro de la población de posibles sospechosos. En este caso
hemos considerado una ciudad de 100.000 personas, con lo cual la población
178 CAPÍTULO 4. PROBABILIDAD
de posibles sospechosos (gente en esa ciudad con ese tipo de sangre) tiene
100.000 · 1000
1
= 100 elementos, es decir la probabilidad de ser culpable en
base a ese marcador en la sangre es de una entre cien. Pensemos que, si la
ciudad tuviese un millón de habitantes, esa cantidad, en vez de ser 100, sería
de 1000, con lo que la probabilidad de ser culpable (en base a la sangre)
variaría a una entre mil.
La cuestión fundamental estriba en que, en un caso judicial, no se puede con-
siderar la probabilidad “a secas” de ser culpable o inocente. Esa probabilidad
tiene que venir condicionada por la evidencia existente, es decir, las pruebas
o datos. Cuando se detiene a una persona y se le lleva a juicio, tiene que
haber unas evidencias en su contra lo suficientemente consistentes para que,
precisamente, el juicio se lleve a cabo. Así pues, la probabilidad que se debe
calcular es una probabilidad condicionada, es decir, la probabilidad de ser
culpable en función de los datos que existan (o uno menos la probabi-
lidad de ser inocente condicionado a los datos que existan). Y no sólo habría
de tenerse en cuenta, en un ejemplo como el anterior, el tener el mismo tipo
de sangre que el del autor del crimen, sino otras evidencias (animadversión
contra el fallecido, amenazas, etc…). Ahora bien, está claro que un tribunal
popular es lego en probabilidades (y también la casi totalidad de jueces), con
lo cual el argumento dado al principio: inocente solo con probabilidad una
entre mil, puede resultar convincente, y no tiene por qué darse cuenta nadie
(y muchas veces, por desgracia, ocurre) que ha de considerarse también el
tamaño de la población.
Trabajemos ahora en otro ejemplo muy similar:
Parece razonable suponer que todos los trabajadores del pozo minero tienen
en alguna parte de sus ropas restos de mineral similares a los encontrados
en la escena del delito. En cualquier caso, la probabilidad de encontrar la
evidencia en una persona inocente puede calcularse de la forma siguiente:
hay 9999 hombres inocentes en la ciudad, de los que 199 trabajan en la mina.
Esos 199 hombres, por la suposición inicial, tendrán la evidencia en sus ropas
debido a su trabajo. Así pues
199
P (E | C̄) = = 0.019
9999
Una confusión en la interpretación de esta probabilidad puede tener graves
consecuencias para el presunto culpable. En efecto, si a la hora de evaluar la
evidencia permutamos las posiciones de E y C̄ en la anterior expresión, esta-
remos diciendo que una persona a la que se encuentra la evidencia es inocente
con una probabilidad de aproximadamente 0.02 (por lo tanto culpable con
probabilidad 0.98). El paso siguiente por parte del fiscal será reclamar la
culpabilidad del acusado.
Pero, en realidad, igual que en el ejemplo anterior, lo que debemos calcular
es la probabilidad de ser culpable (o inocente) en función (condicionado a)
los datos existentes. En la ciudad hay 200 hombres con la evidencia E , de
los que 199 son inocentes. Por lo tanto,
199
P (C̄ | E) = = 0.995
200
y, entonces,
P (C | E) = 1 − 0.995 = 0.005
es decir, la probabilidad de ser culpable tan sólo 0.005.
La utilización de P (E | C̄) en lugar de P (C̄ | E), se conoce como la falacia
de la condicional transpuesta o falacia del fiscal y, desgraciadamente, puede
ocurrir y ocurre con más frecuencia de la deseable.
En resumen, si llamamos H a la hipótesis de ser culpable -o inocente, según
interese, porque son complementarias-, E a las evidencias o pruebas, podemos
tener una probabilidad a priori P (H), y la fórmula de Bayes nos permite
180 CAPÍTULO 4. PROBABILIDAD
P (E | H) · P (H)
P (H | E) =
P (E)
P (E | C) · P (C)
P (C | E) =
P (E)
persecución policial de Simpson -que huyó en su coche del lugar del crimen-
fue retransmitida en directo por la televisión.
La policía tenía multitud de pruebas contra Simpson (antecedentes de vio-
lencia de Simpson contra su mujer, sangre de Simpson en el lugar del crimen,
sangre de la víctima en el coche de Simpson…). Poco podía hacer la defensa,
aparte de criticar al Departamento de Policía de Los Ángeles por racismo,
así como por irregularidades en la obtención y autenticidad de las pruebas.
Pero claro, poderoso caballero es don dinero. Simpson se gastó sobre cuatro
millones de dólares en un equipo de nueve abogados, entre los que se encon-
traban algunos tan famosos en EEUU como Johnny Cochran (acostumbrado
a ganar juicios contra abusos de derechos civiles contra ciudadanos negros) o
Robert Shapiro (el número uno de los abogados criminalistas de los Ángeles).
Casualmente, hasta Robert Kardashian (padre de las posteriormente televi-
sivas hermanas) también participó en la defensa de Simpson, puesto que sus
familias eran amigas.
La fiscalía se encargó de dar cuenta de los reiterados abusos físicos de Simpson
contra su mujer Nicole. Sin embargo, la defensa adujo que las pruebas previas
no significaban nada. Según las estadísticas del año 1993, si bien 4 millones
de mujeres eran maltratadas anualmente por maridos y novios en EEUU,
solo 1432 mujeres (o sea, solo una entre 2500, aproximadamente), fueron
asesinadas por estos. Por lo tanto, “pocos hombres que abofetean o golpean
a sus compañeras domésticas continúan hasta matarlas”.
Sin embargo, este es un nuevo ejemplo de la falacia del fiscal. Este argumento
182 CAPÍTULO 4. PROBABILIDAD
reconocer a una mujer joven y rubia, que salió corriendo. Otro testigo dijo
ver corriendo a una mujer con el pelo rubio y coleta, que se introdujo en un
automóvil amarillo conducido por un hombre de raza negra que tenía barba
y bigote.
Unos pocos días más tarde, la policía arrestó a una pareja que cumplía las
descripciones: Malcolm y Paula Collins. Cuando la policía llegó a casa de los
Collins para arrestarlos, Malcolm salió huyendo por la parte trasera de la
casa. La policía lo detuvo y encontró en el bolsillo de Malcolm dos recibos de
sendos pagos por importe total igual al dinero robado. Preguntados Malcolm
y Jane por el dinero robado, ambos ofrecen versiones contradictorias.
El fiscal no tenía evidencias tangibles ni testigos fiables contra los sospechosos
y construyó su caso sobre lo improbable que resultaba que la Sta. Collins y
su amigo tuvieran todas estas características y no fueran culpables. Para ello
asignó probabilidades a las citadas características, basadas en la incidencia
de las mismas en la población de Los Angeles:
Características Probabilidad
Automóvil amarillo 1/10
Varón con bigote 1/4
Mujer con coleta 1/10
Mujer rubia 1/3
Varón negro con barba 1/10
Pareja interracial en coche 1/1000
El fiscal argumentó que la probabilidad de que todas estas características se
dieran conjuntamente, admitiendo la hipótesis de independencia entre ellas,
venía dada por el producto de sus respectivas probabilidades (probabilidad
de la intersección) y que dicho producto, como fácilmente puede comprobarse,
era una entre doce millones.
1 1 1 1 1 1 1
P (A1 ∩ A2 ∩ . . . ∩ A6 ) = · · · · · = .
10 4 10 3 10 1000 12 · 106
Lo que significaba que era tan improbable encontrar una pareja que se ajusta-
ra a todas las características que, verificándolas Janet Collins y su compañero,
la única decisión razonable, según el fiscal, era proclamarlos culpables, como
efectivamente ocurrió.
4.18. LA FALACIA DEL FISCAL 185
ya que A ⊂ B.
Dicho en otros términos de mayor interés para la defensa, se trata de la
probabilidad de que al menos otra pareja hubiera podido cometer la acción
criminal. Si este cociente no fuera muy pequeño, habría que admitir la posi-
bilidad de que la Sta. Collins y su amigo tenían competidores que podrían
ser los culpables.
Tenemos que B es el suceso de que ninguna pareja de las n posee las seis
características mencionadas. Para una sola de estas parejas, la probabilidad
de no poseerlas es (1 − p), y como las n parejas podemos suponerlas indepen-
dientes,
P (B) = 1 − P (B) = 1 − (1 − p)n
Para calcular la probabilidad de A también consideramos
= 1 − (1 − p)n − n · p · (1 − p)n−1
186 CAPÍTULO 4. PROBABILIDAD
De manera que
P (A) 1 − (1 − p)n − n · p · (1 − p)n−1
P (A | B) = =
P (B) 1 − (1 − p)n
estimó que la probabilidad de una segunda muerte súbita estaba entre 1/60
y 1/130.
1 1
Si elegimos, por ejemplo, 1/100, tendríamos P (A1 ∩ A2 ) = · =
8543 100
1
que, obviamente, es un número pequeño, pero no tanto como la
854.300
primera probabilidad sugerida.
En una revisión del caso, el veredicto fue puesto en duda ya que se descubrió
que el patólogo que había trabajado para la acusación había ocultado que el
segundo niño había sufrido una infección bacteriana (Staphylococcus aureus),
la cual podía haber sido la causa de la muerte. Además, se encontró que, de
325 familias donde se había producido una muerte súbita, 5 habían tenido
un fallecimiento anterior.
Analizando pormenorizadamente las estadísticas, se obtuvo que, en Inglaterra
y Gales, se dan 30 casos de homicidio de un hijo por cada 650.000 nacimientos,
y la probabilidad de que una madre cometa un doble homicidio sobre sus hijos
es, aproximadamente, de una entre mil:
1
P (A2 | A1 ) =
1000
Con lo que
30 1
P (A1 ∩ A2 ) = P (A1 ) · P (A2 | A1 ) = ·
650000 1000
La conclusión es que era 9 veces más probable que los niños hubieran muerto
de SMLS que de asesinato.
Basándose en estas y otras pruebas, y después de tres anos y medio (en 2003),
Sally Clark fue liberada. Murió en 2007.
P (B | A) · P (A)
P (A | B) =
P (B | A) · P (A) + P (B | Ā) · P (Ā)
P(A) P(A|B)
0.01 0.5025
0.03 0.7557
0.05 0.8403
0.07 0.8827
0.09 0.9082
0.1 0.9174
0.3 0.9772
0.5 0.9901
0.7 0.9957
0.9 0.9989
190 CAPÍTULO 4. PROBABILIDAD
Condorcet obtuvo esta cifra a partir de los siguientes cálculos: en una asam-
blea de 61 electores, en la que se exija una mayoría de 9 votos, se daría este
caso, supuesto que la probabilidad de acierto de cada uno sea de 4/5, es decir,
que cada uno no se equivoque más que una de cada cinco veces. Si, además, se
exige que el error no se dé más que una de cada diez veces, entonces bastaría
con exigir una mayoría de seis votos en una asamblea de 44 Electores.
4.19. SOBRE LA FORMACIÓN CORRECTA DE JURADOS. 191
Laplace se ocupó también del cálculo del número de jueces y del número
de votos que deben tomarse para garantizar la presunción de inocencia del
reo, así como la defensa de los ciudadanos ante la posible absolución de un
culpable. Según Laplace, la probabilidad de que la decisión de cada juez sea
justa es la pieza clave de todo el proceso, afirmando que la probabilidad de
que un juez emita una decisión acertada debería variar desde un mínimo de
1/2 a la casi certeza (menor probabilidad daría que fuese más fiable lanzar
una moneda al aire que fiarse del juez).
En cuanto al número de jueces que deben componer un tribunal, planteó
que el objetivo debía ser minimizar la probabilidad de error en la decisión.
Y comparó la situación de una mayoría exigida de dos votos en los casos de
composiciones de 8 o de 6 miembros. La probabilidad de error en la condena
superaría el 25% en el primer caso, mientras que en el segundo quedaría por
debajo, lo que supondría, con la aplicación de la misma mayoría simple, una
ventaja para el acusado.
Tras analizar distintas opciones, concluye que, para garantizar conveniente-
mente la inocencia del acusado, debería exigirse al menos una mayoría de
nueve miembros en un tribunal formado por doce. Planteó que una posible
solución de compromiso podría ser la de un jurado de nueve miembros1 , exi-
giendo la unanimidad.
En 1837, Siméon-Denis Poisson publica su Investigación sobre la probabilidad
de los juicios, una obra de más de 400 páginas. Poisson utilizaría su ley de los
grandes números (capítulo 6) para su análisis y posteriores recomendaciones.
Así, exige tener presentes dos cantidades previas deducidas de la observación:
• las relativas a que “un jurado, escogido al azar, no equivoque su voto”,
establecida en algo más de 2/3 para los crímenes contras las personas,
y en alrededor de 13/17 en el caso de los juicios por crímenes contra
las propiedades, y en 3/4 si no se distingue entre unos juicios y otros;
• la probabilidad a priori (avant l’ouverture des débats) de que el acusado
sea culpable, fijada entre 0.53 y 0.54 en el primer caso, y alrededor de
2/3 en el segundo, siendo de 0.64 si no se efectúa la distinción y se
evalúa de forma global.
Para el cálculo de estos números, Poisson empleó las cifras existentes de con-
1
este es el número de miembros de un jurado en España
192 CAPÍTULO 4. PROBABILIDAD
denados por, al menos, siete votos contra cinco, y entre ellos los condenados
exactamente por tal mayoría, divididos ambos por el número total de acusa-
dos; analizando por separado los juicios por crímenes contra las personas y
por atentados contra las propiedades.
Poisson señaló también la necesidad de que este estudio fuese aplicado a
todo juicio en el que existiese la posibilidad de estudiar un número suficien-
temente grande de casos previos para obtener las cifras necesarias. Y hace
referencia a los tribunales de excepción de la Revolución (35 años antes de la
publicación de su obra), justificando el alto número de condenas en la parte
pasional de la acusación y del jurado, “muy alejada de la necesaria calma de
espíritu que debe guiar la aplicación de la justicia” (Poisson, 1837) (Zafra
and de Paz Cobo, 2012), (Hacking and Bixio, 1995).
Figura 4.44: Izquierda: Émile Zola. Derecha: Paul Muni, en la película ”La
vida de Emile Zola” (1937), que le valió al actor una nominación al Oscar.
Figura 4.45: Portada del diario original con la famosa carta de Zola.
estuvo marcada por las pruebas periciales realizadas por Alphonse Bertillon
(policía francés, 1853-1914), hijo de Louis-Adolphe Bertillon (médico, antro-
pólogo y estadístico al igual que el hermano de Alphonse, Jacques Bertillon,
que también fue médico y estadístico). Se le considera el creador de la an-
tropometría, en su caso la recopilación de una serie de medidas físicas para
poder reconocer a los delincuentes. Esta técnica, inicialmente conocida como
Bertillonage, tenía el problema de que las medidas recogidas de las personas
“fichadas” iban cambiando con la edad, algo que no sucede con las huellas
dactilares. Fue precisamente Francis Galton quien le daría el impulso defini-
tivo a esta técnica de identificación de criminales mediante el uso de estas
últimas, calculando además la probabilidad de que dos personas en el mundo
puedan tener las mismas huellas, que es prácticamente nula.
Bertillon fue perito de la acusación contra Dreyfus. Argumentó que la letra
encontrada en la carta que demostraba espionaje alemán contra Francia era
de Dreyfus, y que la había alterado para esconderla. Calculó la probabilidad
de que la letra hubiera sido falsificada para acusar a Dreyfus en un número
muy pequeño.
Pueden leerse los detalles con cierta profusión en el libro, ya comentado, de
Garzón (Ruiz-Garzón, 2015), donde se advierte que el error cometido por
Bertillon es un ejemplo más de la falacia del fiscal. En 1899, Paul Painlevé,
matemático que llegó a primer ministro de Francia, recibió una carta de Poin-
caré, donde este criticaba abiertamente los cálculos realizados por Bertillon.
Se abriría posteriormente una revisión del caso, donde el tribunal encargaría
un informe pericial a Gaston Darboux (secretario perpetuo de la Academia
de Ciencias), Paul Apell (decano de la facultad de ciencias de París) y al
mismo Poincaré, sobre el tema de la falsificación. Este informe supondría un
espaldarazo a la inocencia de Dreyfus, a la par de una desacreditación para
Bertillón.
Ω = {H1 H2 , H1 M2 , M1 H2 }
con lo que vemos que la probabilidad de que el otro hijo sea hombre es la
probabilidad de que los dos hijos sean hombres (H1 H2 ) que es 1/3.
Resolver el problema anterior (calcular la probabilidad de que el
otro hijo del matrimonio sea varón), sabiendo que el hijo que está
paseando con el matrimonio nació un martes (suponemos que todos
los días son equiprobables para nacer).
Ahora sí que parece imposible que pueda servir de algo que nos digan que
el hijo (Joseíto) que pasea con el matrimonio nació en martes. Pues en reali-
dad sí que es una información que condiciona la probabilidad que queremos
obtener. Llamemos H=”hombre”, M =”mujer”, A=”un hijo varón nació en
martes”, y utilizaremos subínidices 1 y 2 para indicar hija(o) menor o hija(o)
mayor. La probabilidad que nos piden es
P (H1 H2 ∩ A)
P (H1 H2 | A) =
P (A)
1 2 1
=1· +0· =
3 3 3
Prisionero que cambia
En este caso P (S | A) = 0 y P (S | B) = 1 pues el prisionero se cambia. Por
lo tanto P (S) = 2/3. En efecto:
Cajón 1: dos oros. Cajón 2: oro y plata. Cajón 3: plata y plata. Luego
1 1 1 1 1
P (O1 ) = 1 · + · +0· =
3 2 3 3 2
Variables aleatorias
205
206 CAPÍTULO 5. VARIABLES ALEATORIAS
El nombre de variable aleatoria hace referencia a que los valores de esta varia-
ble dependen del azar, mediante alguna ley concreta. El proceso de compren-
sión o interpretación matemática de esa aleatoriedad es el que realizaremos
en este tema.
1
infinito, pero puede ordenarse, es decir cada elemento tiene uno anterior y otro poste-
rior
2
los elementos no tienen uno anterior y uno posterior
208 CAPÍTULO 5. VARIABLES ALEATORIAS
La variable número que sale al lanzar un dado con seis caras es una va-
riable aleatoria discreta (toma los valores del 1 al 6).
La variable número de veces que un pesado le pide una cita a una mujer
casada es una variable que toma los valores 1, 2, ... y no tiene fin (aun-
que las probabilidades de los sucesivos valores vayan disminuyendo).
Se llama conjunto infinito numerable porque cada elemento i tiene un
anterior (i − 1) y un posterior (i + 1).
X P (X = xi )
x1 p1
x2 p2
.. ..
. .
xn pn
verificando que p1 +...+pn = 1. Esta tabla se conoce como ley de probabilidad,
distribución de probabilidad, función de probabilidad o función de masa de
probabilidad.
X P (X = xi )
0 1−p
1 p
recibe el nombre de variable aleatoria de Bernoulli de parámetro p, siendo
p la probabilidad de tener la enfermedad.
X P (X = xi )
1 1/N
2 1/N
.. ..
. .
N 1/N
x=rnorm(15, 16
3,9)
print(x)
[1] 184.9 161.1 161.3 162.6 159.9 158.8 163.8 164.1 [9] 168.5 167.3 151.2 165.0
163.9 166.5 166.6
<d
df -ata.frame(x)
N=length(x)
y=rep(0,N)
df data.frame(x=x,y=y)
2<-
ggplot(df)+
geom_histogram(aes(x=x), f
ill="lightblue")+
geom_freqpoly(aes(x=x))+
geom_point(data=df
2, aes(x=x,y=y),
size=1, col="magenta")
212 CAPÍTULO 5. VARIABLES ALEATORIAS
2
count
3
count
15
10
count
100
75
count
50
25
Una vez expuesto que, en una variable aleatoria continua, las propiedades de
la misma vendrán descritas por la función de densidad, indiquemos que las
probabilidades se calcularán como una integral definida:
Z b
P (a < X < b) = f (x)dx
a
0.05
0.04
0.03
y
0.02
0.01
a b
0.00
30 40 50 60 70 80
x
frecuencias relativas).
X
k
µ = E (X) = xi · p i .
i=1
1X n Xn
1
x= xi = xi · ,
n i=1 i=1 n
es decir, sería la esperanza de una variable cuyos valores aparecen todos con
la misma probabilidad pi = 1/n.
Si a una variable estadística la representamos por sus valores xi , y sus
frecuencias relativas son fi = ni /n, entonces la media aritmética se puede
escribir como
X
n
x= xi · f i ,
i=1
esto es, suma de valores por frecuencias. En el caso de una variable aleatoria,
las frecuencias se transforman en probabilidades (de ocurrencia). Por eso la
esperanza es un valor medio esperado.
Si X es una variable aleatoria continua, la variable toma infinitos valores.
El equivalente continuo de la suma es la integral. La fórmula matemática
incluye en este caso a la función de densidad:
Z ∞
µ = E (X) = x · f (x)dx.
−∞
X
k X
36
1 1 X 36
1
E(X) = xi · p i = i· = = · 666 = 18,
i=1 i=0 37 37 i=0 37
5.5. VARIANZA DE UNA VARIABLE ALEATORIA 219
0.075
Probabilidad
0.050 Variable
Variable 1
Variable 2
0.025
0.000
0 10 20 30
xi
) # 1000 números
x=runif(1000,0,36
x=round(x) # les quitamos los decimales
mean(x)
## [1] 18
.21
Si, en vez de hacerlo 1000 veces, lo hacemos, por ejemplo, 10.000 veces:
x=runif(10000,0,36
)
x=round(x)
mean(x)
## [1] 18
.16
X P (X = xi )
−c 36/37
35 · c 1/37
Esto es, de cada 37 jugadas, teóricamente 1 vez ganamos y el resto perdemos,
y la variable X mide la cantidad que recibimos.
La esperanza o valor esperado de esta variable es
36 1 1
E(X) = −c · + 35 · c · = −c ·
37 37 37
Como vemos, para un jugador, la media o valor esperado siempre es negativo.
¿Qué significa este valor? Que, si se juega a la ruleta infinitas veces, el valor
medio que se espera ganar es negativo (para el jugador; para la banca es
positivo). En la práctica, si N es un número muy grande de jugadas, el total
de dinero que ganará el jugador va a ser N · E(X) =−N · c · 37 1
.
Si consideramos un juego tan simple como lanzar una moneda, apostar 1,
ganar 1 si sale cara y perder 1 si sale cruz, la variable aleatoria es
X P (X = xi )
−1 1/2
1 1/2
La esperanza es E(X) = 1 · 0.5 − 1 · 0.5 = 0. Esto se llama juego de suma nula,
que significa que, en teoría, si juegan 2 jugadores, los dos pierden tantas veces
como ganan. Vemos que no es lo que ocurre en el caso de la ruleta. La ruleta
está pensada para que, a la larga, gane el casino.
X=round(runif(100,0,36
))
# Vamos a suponer que siempre apostamos 1 euro al número 12
premio=ifelse(X==12, 35, -1)
sum(premio) # contamos la cantidad que ganamos (o perdemos)
## [1] 44
222 CAPÍTULO 5. VARIABLES ALEATORIAS
Si, en vez de jugar 100 veces, jugamos 100.000 veces, veamos qué podría
ocurrir.
X=round(runif(10000,0,36
))
# Vamos a suponer que siempre apostamos 1 euro al número 12
premio=ifelse(X==12, 35, -1)
sum(premio)
## [1] -
100
tope=1000
seq(f
X<- rom=10, to=tope, by=1 )
N=length(X)
c(0)
n_caras<-
c(0)
n_cruces<-
c(0)
A<-
for (i in 1:N)
5.5. VARIANZA DE UNA VARIABLE ALEATORIA 223
{
A=runif(X[i])
a=length(A[A<0.5])
n_caras[i]<-a
n_cruces[i]<-X[i]-a
}
dif
<-n_caras-n_cruces
prop<-
n_caras/n_cruces
data.frame(lanzamientos=X,
resultados<-
caras=n_caras,
cruces=n_cruces,
dif
erencia=dif
,
proporcion=prop)
plot(X, abs(dif
),
col="red",
type="l",
#ylim=c(0.7,1.4),
xlab="lanzamientos",
ylab="dif
erencia entre caras y cruces")
224 CAPÍTULO 5. VARIABLES ALEATORIAS
100
diferencia entre caras y cruces
80
60
40
20
0
lanzamientos
Realmente es lo que sucede, pero para verlo mejor hay que considerar no la
diferencia, sino las proporciones:
plot(X, prop,
col="blue",
type="l",
ylim=c(0.1,3),
xlab="lanzamientos",
ylab="proporcion caras/cruces")
5.5. VARIANZA DE UNA VARIABLE ALEATORIA 225
3.0
2.5
proporcion caras/cruces
2.0
1.5
1.0
0.5
0.0
lanzamientos
La conocida como falacia del jugador consiste en creerse que, porque hayan
salido de forma continuada un número de caras relativamente grande, en la
siguiente jugada deberá salir cruz puesto que los resultados deberán compen-
sarse. Así, en una ruleta, si han salido 3 o 4 veces seguidas números de color
rojo, pensar que en el siguiente movimiento de la ruleta es más probable que
salga negro es una falacia. Cada jugada es independiente de la anterior. La
probabilidad de que salga negro o rojo va a ser 1/2, independientemente de
que hayan salido 2,3 o 40 negros seguidos.
P (X < M e) = 0.5
P (X < xp ) = p
5.7. LA MODA 227
5.7 La moda
La moda Mo es el valor más probable o frecuente, es decir, el valor con mayor
probabilidad, si la variable es discreta, o el valor que maximiza la función de
densidad si es continua.
La moda no tiene por qué ser única. En el caso de una única moda se dice
que la distribución es unimodal, y con más modas multimodal.
parámetro p.
Se escribe X ∈ Bernoulli(p).
Solución.
Definimos A=“éxito”=“inocente”. p = P (A) = 0.5
X =“número de éxitos en 10 pruebas” ∈ B(10, 0.5).
La probabilidad de ser declarado inocente es P (X ≥ 4).
!
X
10
10
P (X ≥ 4) = 0.5k 0.510−k = 0.82.
k=4 k
1-pbinom(3,10,0.5)
## [1] 0.8
281
Se verifica que
E(X) = V ar(X) = λ,
Solución
X=“número de accidentes por semana” sigue una distribución de Poisson de
media λ = 2.
21
P (X = 1) = e−2 = 0.270.
1!
O sea, existe un 27 por ciento de probabilidades de que se te fastidie la
semana de caza por caerte y romperte la cadera.
Se obtiene que
rq rq
E(X) = y V ar(X) = .
p p2
Solución
5.8. VARIABLES DISCRETAS NOTABLES 233
Si se escribe p = nA
N
,q = 1 − p, se obtiene:
N −n
E(X) = np, V ar(X) = npq .
N −1
Solución:
Con que se sepa uno de los temas, el opositor aprobará. Tenemos que calcular,
entonces,
P (X ≥ 1) = 1 − P (X < 1) = 1 − P (X = 0) =
5.9. VARIABLES ALEATORIAS CONTINUAS NOTABLES 235
50
0
· 50
3
=1−
100
= 1 − 0.1212 = 0.8788.
3
1
f (x) = , x ∈ [a, b]
b−a
Z c2 Z d2
1 1
f (t)dt = (c2 − c1 ) · = f (t)dt = (d2 − d1 ) ·
c1 b−a d1 b−a
Solución
El tiempo que tarda en llegar el bus es una variable uniforme X ∈ [60, 120].
La probabilidad de que tarde más de 45 minutos en llegar (pasada la primera
hora) es P (X > 60 + 45) = 0.25.
238 CAPÍTULO 5. VARIABLES ALEATORIAS
X=runif(10,0,1)
X
## [1] 0.078
80.34320 0.41522 0.01053 0.038
07 0.22457
## [7] 0.1728
60.8
4132 0.44757 0.74377
X=runif(2000,0,1)
datos=data.frame(X)
histogram(~X, data=datos,
col="snow3", dcol="mediumblue",
h=1, type='density',
width=0.05, lwd=2 )
5.9. VARIABLES ALEATORIAS CONTINUAS NOTABLES 239
1.2
1.0
0.8
Density
0.6
0.4
0.2
0.0
### Exponencial
curve(dexp(x, rate = 0.5), xlim = c(0, 4), ylim = c(0, 2),
xlab = "x", ylab = "Función de densidad")
curve(dexp(x, rate = 1), col = "red", lty = 3, add = T)
240 CAPÍTULO 5. VARIABLES ALEATORIAS
2.0
Exp(0.5)
Exp(1)
Exp(2)
1.5
Función de densidad
1.0
0.5
0.0
0 1 2 3 4
0.03
0.02
0.01
20 40 60 80 100 120
Todo esto último son muchas matemáticas. Obviamente, con R es mucho más
simple:
pexp(25, rate=0.05)
## [1] 0.7135
lo que significa que deja 36.78 por ciento del área a la derecha (1 − 36.78 =
63.22 a su izquierda). Por lo tanto, la media es el percentil 63, aproximada-
mente.
5.9. VARIABLES ALEATORIAS CONTINUAS NOTABLES 243
f (x) ∝ x−α ,
Figura 5.17: Gráfica del INE de los salarios en 2015 en España. Puede obser-
varse una forma de tipo exponencial o ley de potencias a partir del salario
medio, aproximadamente.
0.500
0.06
Density
P(X>x)
0.050
0.04
0.02
0.005
0.00
0 10 20 30 40 50 10 20 30 40 50
Seguramente todos hemos oído hablar de leyes de este tipo en algún momen-
to. El tamaño de los grupos de amigos, por ejemplo. Habitualmente, hay
mucha gente que tiene pocos amigos y poca gente que tiene muchos. Muchos
novelistas que tienen pocos lectores y pocos novelistas que tienen muchos.
Muchos trabajos científicos son poco o escasamente leídos, y unos pocos son
leídos o consultados por muchos…
Veamos un ejemplo con una variable exponencial (las unidades del gráfico
son logarítmicas, pero aparecen las originales para facilitar la interpretación
del mismo).
La Variable Normal o
Gaussiana
251
252 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
Se verifica que
Z ∞ Z ∞
E(X) = xf (x)dx = µ, V ar(X) = (x − µ)2 f (x)dx = σ 2
−∞ −∞
esto es,
entre otros motivos, al teorema central del límite (al final de este tema).
Veamos ahora unos cuantos ejemplos de variables que siguen esta ley.
# Columnas Variable
#
# Medidas esqueléticas:
#
# 1 - 4 Diámetro biacromial
# 6 - 9 Diámetro biológico, o "anchura pélvica"
# 11 - 14 Diámetro bitrocantéreo
# 16 - 19 Profundidad del pecho entre la
# columna vertebral
# y esternón a la altura de los pezones
# 21 - 24 Diámetro del pecho a nivel del pezón
# 26 - 29 Diámetro del codo,
# suma de dos codos
# 31 - 34 Diámetro de muñeca,
# suma de dos muñecas
# 36 - 39 Diámetro de rodilla,
# suma de dos rodillas
# 41 - 44 Diámetro del tobillo,
# suma de dos tobillos
#
# Medidas de circunferencia:
#
# 46 - 50 Circunferencia del hombro
# sobre los músculos deltoides
# 52 - 56 Perímetro torácico, línea de los
6.1. EJEMPLOS DE LA DISTRIBUCIÓN NORMAL 257
0.15 0.15
0.10 0.10
0.05 0.05
0.00 0.00
32 36 40 44 48 20 25 30 35
0.06
0.15
0.04
0.10
0.02 0.05
0.00 0.00
80 90 100 110 120 28 32 36
6.1. EJEMPLOS DE LA DISTRIBUCIÓN NORMAL 259
Altura Peso
0.05 0.04
0.04 0.03
0.03
0.02
0.02
0.01 0.01
0.00 0.00
150 160 170 180 190 200 40 60 80 100 120
0.06 0.4
0.04 0.3
0.2
0.02
0.1
0.00 0.0
90 100 110 120 130 14 16 18
library(mosaic)
plotDist("norm", mean = 176
.,6 sd = 5.9, groups = x > 213,
type = "h")
0.06
0.04
0.02
La probabilidad de ser más alto (o igual) que Pau Gasol es el área a la derecha
del valor 213cm. Gráficamente, no se ve destacada área ninguna, aunque la
hay. Su valor es lo que llamamos p1 y que calculamos directamente con R
mediante 1-pnorm(200,mean=176.6,sd=5.9).
library(mosaic)
plotDist("norm", mean = 16
4.7, sd = 5.4, groups = x > 18
0,
type = "h")
6.1. EJEMPLOS DE LA DISTRIBUCIÓN NORMAL 261
0.06
0.04
0.02
p2 = 1 - pnorm(18
0, mean = 16
4.7, sd = 5.4)
La probabilidad de ser más alta que Nicole Kidman es el área (en rosa) a la
derecha de 180cm, cuyo valor le llamamos p2.
1. y 2. Calculando con R, los valores son 0.00003652 y 0.0023033.
Apróximadamente, en España hay 46 millones de habitantes, de los cuales un
85 por ciento son mayores de 18 años. Supongamos que la mitad son hombres
y la mitad son mujeres. Se obtiene una cantidad aproximada de 19.550.000
hombres o mujeres. Multiplicando por las probabilidades obtenidas, estima-
mos que el número de hombres con estatura mayor o igual a Pau Gasol es
714.13, y el número de mujeres con estatura mayor o igual que la de Nicole
Kidman es 45028.8, más o menos.
3. Se calcula como
5 = qnorm(0.8
p8 5, mean = 16
4.7, sd = 5.4)
El valor es 170.2967.
4. Para realizar una comparación entre dos valores que pertenecen a dis-
tribuciones normales diferentes, debemos tipificar ambos valores.
262 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
190 − 177.7
Si un hombre mide 190 cm, su puntuación tipificada es = 2.084,
5.9
178 − 164.7
y si una mujer mide 178, su puntuación tipificada es = 2.4629.
5.4
Directamente, observamos que la mujer ocupa una mejor posición dentro del
grupo “conjunto”, esto es una distribución normal con media cero y desvia-
ción típica 1.
Figura 6.3: Gráfica del trabajo de Ritchie et al. (2017)., donde se observa
que las características antropométricas del cerebro humano también siguen la
distribución normal (algo que, evidentemente, Quetelet no llegó a comprobar)
require(car)
data(Cowles)
Cowles$sexo=Cowles$sex
N=nrow(Cowles)
y=rep(0,N)
data.frame(y)
y1<-
names(y1)<-
"ceros"
bind_cols(Cowles, y1)
Cowles2 <-
ggplot(Cowles2)+
p1<-
geom_density(aes(x= neuroticism), adjust=2) +
aes(colour = sexo) +
labs(title="Inestabilidad Emocional", y=" ", x=" " ) +
theme(legend.position = "top") +
geom_point(aes(x=neuroticism, y=ceros), size=1)
ggplot(Cowles2)+
p2<-
geom_density(aes(x= extraversion), adjust=2) +
aes(colour = sexo) +
labs(title="Extraversion", y=" ", x=" " ) +
theme(legend.position = "top") +
geom_point(aes(x=extraversion, y=ceros), size=1)
grid.arrange(p1,p2,ncol=2)
0.06
0.075
0.04
0.050
0.02 0.025
0.00 0.000
0 5 10 15 20 25 5 10 15 20
Puntuación
sexo 1 2
0.04
0.03
0.02
0.01
0.00
0 10 20 30 40
0.06
0.04
0.04 0.03
0.02
0.02
0.01
0.00 0.00
10 20 30 0 10 20 30
Figura 6.6: Densidad de los datos de dos variables del estudio de Hansenne
(2001), por sexos.
0.20
0.075
0.15
0.050
0.10
0.025
0.05
0.000 0.00
5 10 15 20 25 0.0 2.5 5.0 7.5 10.0
Figura 6.7: Densidad de los datos de otras dos variables del estudio de Han-
senne (2001), por sexos.
268 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
Figura 6.8:
Al “este” de la campana de Gauss están, como vemos, el dos por ciento: los
superdotados intelectualmente, los más altos, los más destacados por alguna
característica física o psico-social humana…
Se sabe que es una variable aproximadamente normal, con una media de 266
días y una desviación típica de 16 (Moore and Kirkland, 2007).
library(MASS)
gal <-galaxies/1000
# c(width.SJ(gal, method = "dpi"), width.SJ(gal))
plot(x = c(5, 40), y = c(0, 0.2), type = "n", bty = "l",
xlab = "velocidad (1000km/s)", ylab = "densidad")
rug(gal)
lines(density(gal, width = 3.25, n = 200), lty = 1)
lines(density(gal, width = 2.56
, n = 200), lty = 3)
272 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
0.20
densidad
0.10
0.00
5 10 15 20 25 30 35 40
velocidad (1000km/s)
William Farr, el famoso epidemiólogo inglés (1807–1883), postuló que las epi-
demias tienden a crecer y caer con un patron aproximadamente simétrico,
del tipo Campana de Gauss. La idea fue resucitada por Brownlee a princi-
pios del siglo XX. Un artículo famoso sobre la epidemia del sida (Bregman
et al., 1990) analizó 200.000 casos desde 1982 hasta 1988, estimando que la
enfermedad tendería a desaparecer hacia 1994. Sin embargo, artículos pos-
teriores adviertieron de la no consideración del periodo de incubación de la
enfermedad, lo que debería hacer construir una curva desde diez años más
atrás y hasta después del año 2000.
6.1.13 La psicofísica
La psicofísica fue introducida en 1850 por Gustav Fechner (Polonia, 1801 -
Alemania, 1887), quien se preguntaba hasta qué punto una persona puede
distinguir objetos de pesos ligeramente diferentes.
Posteriormente, Charles S. Peirce (filósofo, matemático y padre de la semióti-
ca; 1839-1914) y un alumno suyo, Joseph Jastrow (1863-1944), hicieron ex-
perimentos “ciegos” (el sujeto no sabía si se le daba una caja más pesada o
liviana). Es importante destacar que este fue el primer experimento en que la
serie de pruebas fue determinada por un casualizador artificial. (Peirce and
Jastrow, 1884)
276 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
se debe considerar nada más que como un velo para nuestra ig-
norancia; es un espectro que domina de forma absoluta la mente
común, acostumbrada a considerar los acontecimientos de un mo-
do aislado, pero que queda reducido a nada ante el filósofo, cuyo
ojo abarca largas series de eventos y cuya lucidez no se extravía
en variaciones, que desaparecen cuando adquiere una perspectiva
suficiente para aprehender las leyes de la naturaleza.”
En esencia, Quetelet negaba el papel del azar y lo sustituía por la idea de
que incluso los fenómenos sociales poseen causas, y que las regularidades que
presentan los resultados estadísticos se pueden emplear para desentrañar las
reglas que subyacen al orden social.
Con la intención de probar la validez de su punto de vista estadístico, Quetelet
puso en marcha un ambicioso proyecto de recopilación de miles de medidas
relacionadas con el cuerpo humano. Estudió, por ejemplo, la distribución de
medidas del pecho de 5.738 soldados escoceses, y de la altura de 100.000
reclutas franceses, y representó gráficamente la frecuencia de aparición de
cada rasgo humano.
Luego construyó curvas similares incluso para aquellos rasgos «morales» (se-
gún él los denominaba) de los que poseía suficientes datos. Entre estas cua-
lidades se hallaba la propensión al comportamiento criminal, los suicidios y
los matrimonios. Para su sorpresa, Quetelet descubrió que todas las caracte-
rísticas humanas siguen lo que ahora se denomina una distribución normal.
Ya se tratase de alturas, pesos, longitudes de extremidades o incluso cua-
lidades intelectuales determinadas a través de los primeros tipos de tests
psicológicos, una y otra vez aparecía el mismo tipo de curva. Hasta el mo-
mento, solía ser nombrada como curva de error, porque solía aparecer en
cualquier tipo de errores de medida.
Quetelet consideró que el hecho de que las características humanas siguiesen
la curva de los errores era indicativo de que el hombre medio (l’homme
moyen) era lo que la naturaleza estaba tratando de generar. Según Quetelet,
de igual modo que los errores de fabricación crearían una distribución de lon-
gitudes alrededor de la longitud promedio (correcta) de un clavo, los errores
de la naturaleza estaban distribuidos alrededor de un tipo biológico preferi-
ble. Así, afirmó que las personas de una nación estaban agrupadas alrededor
de su promedio, “de igual modo que los resultados de mediciones efectuadas
280 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
sobre una misma persona, pero con instrumentos imprecisos que justifican el
tamaño de la variación”.
Puesto que, evidentemente, es deseable que la sociedad “exista y se conserve”,
de ello se deduce que el comportamiento promedio es el comportamiento
correcto. De este modo, la física social de Quetelet se fundó en el concepto
de hombre medio:
“un individuo que, en un momento dado, es el epítome de to-
das las cualidades del hombre promedio, representaría toda la
grandeza, belleza y bondad del ser”.
Esta inquietante veneración de la uniformidad tiene su corolario en el abo-
rrecimiento de todas las singularidades:
“Las desviaciones más o menos pronunciadas del promedio han
constituido […] la fealdad en el cuerpo como el vicio en la moral,
y un estado enfermizo de la constitución general.”
La idea de que la perfección moral y física de la humanidad queda reflejada
en la conformidad a unos datos matemáticos se remonta al Renacimiento,
cuando, además, llegaron a definirse los instrumentos para cimentar la per-
fección.
Desde nuestra limitada perspectiva actual, el hecho sorprendente consiste en
que prácticamente todos los detalles medibles de los seres humanos (de una
raza determinada) están distribuidos según un solo tipo de función matemá-
tica.
En un ejemplo descrito en un documento (Letters) en 1846, Quetelet com-
probó que las alturas registradas de cien mil reclutas del ejército francés no
se ajustaban con precisión a la distribución normal. Según los documentos
oficiales, había 28.620 hombres sobre cien mil que se encontraban por debajo
de 1.57 metros. Concretamente, existían excesivos individuos en las clases (in-
tervalos) correspondientes a las alturas entre 1.5 y 1.57, y demasiados entre
1.57 y 1.597 metros. Precisamente, 1.57 era la talla que servía para excluir del
servició militar. Con los cálculos correspondientes, se comprobó que 2275 in-
dividuos habían sido excluídos ilegalmente (habrían pagado a quien midiera
para que les anotara una estatura más baja).
Pero la regularidad en la distribución de los datos no sólo se adaptaba a las
características humanas. De los amplios estudios que Quetelet realizó sobre
6.2. EL PAPEL DE QUETELET 281
Talla
150
Miles
50
0
60 62 64 66 68 70 72 74 76
Pulgadas
150
Miles
0 50
28 30 32 34 36 38 40 42
Figura 6.18: Tabla de medidas alrededor del pecho, de los soldados del ejercito
del Potomac (*Phys. Soc,* ii., 59; *Anthropom.,* p. 289).
282 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
Fuerza en grados
20
hombres
5 10
0
las estadísticas disponibles, observó que existian leyes que se adaptaban muy
bien a otro tipo de situaciones, como el número de crímenes, de personas con
enfermedad mental… En (Caponi, 2013) podemos leer:
## # A tibble: 12 x 7
## M̀uerte Por`1̀8
26̀1̀8
27`1̀8
28̀1̀8
29`1̀8
30`
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Crimenes en~ 241 234 227 231 205
## 2 pistola 56 6
4 6
0 6
1 57
## 3 espada, sab~ 15 7 8 7 12
## 4 cuchillo 33 40 34 46 44
## 5 bastones 23 28 31 24 12
## 6piedras 20 20 21 21 11
## 7 instrumento~ 35 40 42 45 46
## 8estrangulam~ 2 5 2 2 2
## 9 precipitaci~ 6 16 6 1 4
## 10 patadas y g~ 28 12 21 23 17
## 11 f
uego 0 1 0 1 0
## 12 desconocidas 17 1 2 0 2
## # ... with 1 more variable: 1̀8
31`<dbl>
## # A tibble: 5 x 5
## año m̀uertes accide~ suicidios d̀uelos con mue~
## <dbl> <dbl> <dbl> <dbl>
## 1 18
27 4744 1542 19
## 2 18
28 48
55 1754 29
## 3 18
29 5048 1904 13
## 4 8
30 4478 1756 20
## 5 18
31 5045 208
4 23
## # ... with 1 more variable: d̀uelos sin muerte`<dbl>
Figura 6.23: Tabla original del trabajo de Quetelet. Observemos que los nú-
meros, año a año, son casi similares, lo cual provocó el asombro de Quetelet
(y de cualquiera).
6.2. EL PAPEL DE QUETELET 287
tras escribo esto, el New York Times del día reporta la cantidad
promedio de deuda estudiantil, el número promedio de televiden-
tes de la televisión en horario de máxima audiencia y el salario
promedio de los médicos. Pero cada vez que Quetelet revelaba un
nuevo promedio, el público se asombraba. Por ejemplo, Quetelet
mostró que la tasa promedio de suicidio era relativamente estable
de año en año. Aunque esto no sería una noticia sorprendente en
estos días, en la década de 1830 el suicidio fue visto como una
decisión privada altamente irracional que no podía ajustarse a un
patrón más profundo. En cambio, Quetelet mostró que los suici-
dios ocurrían con regularidad confiable y consistente. Y no sólo
eso: Afirmó que la estabilidad de los hechos indicaba que todo el
mundo tiene una propensión promedio al suicidio.”
— Todd Rose, 2016. The Atlantic
Académicos y pensadores en todos los campos aclamaron a Quetelet como
un genio para descubrir las leyes ocultas que gobiernan la sociedad. Floren-
ce Nightingale adoptó sus ideas en enfermería, declarando que el hombre
promedio encarnaba la “Voluntad de Dios”. Karl Marx se basó también
en las ideas de Quetelet, afirmando que “el hombre común” demostraba la
existencia del determinismo histórico. El físico James Maxwell se inspiró
en las matemáticas de Quetelet para formular la teoría clásica de la mecáni-
ca del gas. El médico John Snow utilizó las ideas de Quetelet para luchar
contra el cólera en Londres, marcando el inicio del campo de la salud públi-
ca. Wilhelm Wundt, padre de la psicología experimental, leyó a Quetelet
y proclamó: “Se puede afirmar sin exagerar que de los promedios estadísti-
cos se puede aprender más psicología que de todos los filósofos, excepto de
Aristóteles”.
Según Quetelet, el hombre medio está impuesto de tal forma que no es po-
sible realizar modificaciones. No solo las características fisiológicas como la
cantidad de respiraciones o de pulsaciones por minuto, la altura o la fuerza
que podemos alcanzar se definen en relación a la constancia representada
por el hombre medio, sino que también hechos sociales tan variados como la
cantidad de crímenes, matrimonios, casos de alienación mental, suicidios, ya
están preestablecidos, de modo tal que escapa de nuestras manos cualquier
modificación.
“Podemos enumerar anticipadamente cuántos individuos man-
288 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
Al ver que la estadística podría ser muy útil para conocer las características
mentales de nuestra especie y el modo en el que se expresan las diferencias
individuales en ella, Galton decidió utilizarla para comprobar la validez de
sus hipótesis sobre la inteligencia. Había llegado a la conclusión de que las
personas más inteligentes eran una minoría y que esta coincidía con la minoría
más acomodada, pero… ¿era esto un signo de que la educación cara favorecía
el desarrollo de grandes intelectos, o es que la herencia biológica de las familias
ricas tendía a generar individuos inteligentes?
Burt obtuvo una correlación positiva de 0.771 para los gemelos idénti-
cos criados en familias separadas, y una aún más elevada de 0.944 para los
gemelos criados por la misma familia. Creía haber demostrado de forma ri-
gurosamente matemática que la inteligencia es una cualidad que se hereda
de los padres y no puede adquirirse, sino en una mínima parte, a través de
la educación.
En aquella época nadie se atrevió a discutir los fundamentos de los estudios y
la exactitud de las conclusiones de Burt, pero muchos años después se reveló
que en aquellos investigaciones podían plantearse varios interrogantes:
• Ante todo, los gemelos eran demasiados. Los primeros datos presenta-
dos por Burt en 1955 se referían a 21 pares de gemelos idénticos. En
1958 los pares estudiados ascendieron a 30, y en su último artículo de
1966 se convirtieron en 53.
• Los gemelos idénticos son, de hecho, poco frecuentes, y lo son mucho
menos los criados separadamente.
• A pesar de que el número de gemelos aumentaba con el tiempo, los
coeficientes de correlacion seguían siendo los mismos, es decir 0.771 y
0.944. Desde el punto de vista estadístico esto parecía imposible, dado
que, a medida que aumentaba el número de gemelos, esos coeficientes
deberían variar, por lo menos, en alguna cifra decimal. Sin embargo,
durante muchos años, nadie dio importancia a esta anomalía.
Mientras tanto, las ideas de Burt se afirmaron en el mundo científico e influye-
ron en el sistema educativo, tanto en Inglaterra como en Estados Unidos. El
gobierno inglés, por ejemplo, adoptó inmediatamente después de la Segunda
Guerra Mundial una prueba elaborada sobre las bases de las ideas de Burt,
a la que se sometían todos los niños ingleses a los 11 años, a fin de establecer
qué tipo de educación era la más adecuada para ellos, si la superior o la infe-
rior. El examen fue abolido en 1969 aunque las críticas habían comenzado a
surgir a partir de 1950, el año en que Burt, que entonces tenía 68 años, fue
nombrado profesor honorario y se jubiló.
El efecto más sorprendente de las ideas de Burt se presentó en septiembre
de 1971 cuando Richard Hernstein, profesor de Harvard, público un artículo
en el que sostenía que la clase social a la que pertenece un individuo está
determinada en gran parte por las diferencias hereditarias del cociente de
inteligencia. Es decir, que los pobres son tal porque son hijos de pobres y
292 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
estúpidos y, recíprocamente, los ricos son así porque son hijos de padres que
su mayoría son ricos e inteligentes. Posteriormente, Hernstein publicó un libro
con otro autor, llamado “The Bell Curve” (Murray and Herrnstein, 1994) que
redundaría más en la polémica y del que hablaremos un poco más abajo.
## [1] 178
.3
## [1] 153.3
## [1] 172.1
6.4. REPRODUCTIVIDAD DE LA VARIABLE NORMAL 295
## [1] 173.1
## [1] 16
3.7
## [1] 8
40.4
c()
y<-
for (i in 1:1000) {
x1=rnorm(1, mean=177.7, sd=5.9)
x2=rnorm(1, mean=159.8
, sd=4.6
)
x3=rnorm(1, mean=16
4.7, sd=5.4)
x4=rnorm(1, mean=16
4.7, sd=5.4)
x5=rnorm(1, mean=16
4.7, sd=5.4)
y[i]=x1+x2+x3+x4+x5
}
mean(y)
## [1] 8
31
sd(y)
## [1] 11.6
4
plot(density(y))
296 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
density.default(x = y)
0.020
Density
0.000
Solución:
La variable Y = Peso de 10 cajas corresponde a la suma de 10 variables nor-
males Xi ∈ N (140, 10).
Y = X1 + ... + X10 ,
Por lo tanto, por la fórmula anterior (serían todos los números ci = 1),
tenemos que
√
Y ∈ N (140 · 10, 10 · 102 ) ≡ N (1400, 31.623).
Entonces
Este teorema (del que damos únicamente una idea general, sin establecer
las hipótesis matemáticas reales) establece la importancia de la distribución
normal. Su resultado es que, cuando se suma un número grande de variables
aleatorias, la variable resultante es una variable con distribución aproximada-
mente igual a la distribución normal. Incluso, el término número grande(porque
matemáticamente el teorema se establece cuando n tiende a infinito) no lo es
tanto, porque, en la práctica, con tener que n sea un número mayor o igual
a 30, la aproximación ya proporciona buenas resultados.
6.5. EL TEOREMA CENTRAL DEL LÍMITE 299
y=rbinom(10,200,0.5)
y
y=rbinom(1000,200,0.5)
hist(y, col="lightblue")
abline(v=100, col="red")
Histogram of y
250
Frequency
100
0
y=rbinom(20,50,0.57)
y/50 # proporción en cada muestra de 50 personas
## [1] 0.6
0 0.6
0 0.50 0.54 0.580.560.6
0 0.6
2 0.560.56
## [11] 0.54 0.52 0.6
4 0.6
0 0.6
0 0.6
0 0.6
80.52 0.54 0.6
0
y=rbinom(1000,50,0.57)/50
hist(y, col="lightblue")
abline(v=0.57, col="red")
Histogram of y
300
Frequency
150
0
Vemos, por lo tanto, que la proporción muestral toma valores cuya distri-
bución es aproximadamente
q normal, de media
q la verdadera proporción p y
desviación típica p(1 − p)/n, en este caso 0.57(1 − 0.57)/1000 = 0.015.
6.5. EL TEOREMA CENTRAL DEL LÍMITE 303
Solución
La variable T =tiempo que tarda Zenón en comer un jabalí tiene media 12 y va-
rianza 9.
Por lo tanto, la variable que mide el tiempo en comer 50 jabalíes sigue, apro-
ximadamente, una distribución normal √ de media 50 · 12 y varianza 50 · 9. Es,
por lo tanto, aproximadamente N (600, 450) = N (600, 21.21).
Así, la probabilidad pedida es
570 − 600
P (tiempo total < 570) = P (Z < ) = P (Z < −1.41) = 0.0786.
21.21
H = f (x0 , y0 ) + W.
H = X1 + X2 + . . . + Xn + W,
si hay n genes que afectan a la altura (aquí, como antes, la variable aleatoria
W denota los efectos no genéticos). Aunque n es fijo, si es bastante grande,
entonces el teorema central del límite garantiza que X1 + X2 + . . . + Xn
tiene una distribución aproximadamente normal. Ahora, si suponemos que la
suma tiene un efecto acumulativo significativamente mayor que W , entonces
H tiene una distribución aproximadamente normal.
Otra característica observada de la distribución de las alturas de los adultos
de un sexo en una población es que la varianza no parece aumentar o dismi-
nuir de una generación a la siguiente. Esto era conocido en el momento de
306 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
Figura 6.26: G. H. Hardy, que fue interpretado por Jeremy Irons en la película
*El hombre que conocía el infinito*.
H = X1 + X2 + . . . + Xn + W,
con cualquier otra variable característica de los seres humanos, para entender
la importancia de la herencia en el desarrollo de dichas características en
generaciones posteriores.
de cartas, las mareas, los índices de mortalidad, los fallos condenatorios, los
tipos de crímenes, son otros hechos en donde la regularidad se exhibe de
forma similar a lo que Bernoulli había pronosticado en su ley de estabilidad
de las frecuencias.
Pero no sólo en hechos de índoles física, sino también moral existe este mismo
tipo de regularidad. Así, al igual que Bernoulli había pronosticado que la
repetición de un experimento sirve para calcular una probabilidad de un
suceso determinado, Poisson establece que las tasas de ocurrencia de sucesos
de esta índole también aventuran las probabilidades. La comparación de los
cocientes de acusados frente a juzgados en Francia y en Bélgica, bajo un
sistema judicial similar, resultan casi idénticas. A lo largo de los años, se
mantienen las diferencias entre los tipos de delitos, de las diferencias en las
condenas de hombres a mujeres… De esta forma, por ejemplo, la proporción
de condenados anualmente permitirá conocer de manera bastante exacta la
probabilidad de ser condenado y bajo qué acusación. Por lo tanto, bajo la
misma jurisprudencia, podrá también calcularse la proporción de condenas
incorrectas, y esta jurisprudencia podrá alterarse paulatinamente para estar
más acorde al desarrollo de la sociedad.
Poisson se muestra tan defensor de la ley de los grandes números que afirma
que no sólo no hay que preocuparse por tal regularidad ni buscar la
acción de una mano oculta, sino que más bien habrá que hacerlo cuando
310 CAPÍTULO 6. LA VARIABLE NORMAL O GAUSSIANA
X1 + X2 + ... + Xn µ1 + µ2 + ... + µn
−→
n n
Si todas las variables tienen la misma media µ, entonces la media aritmética
de las variables se aproxima al mismo valor.
Un caso particular de esta ley es el principio de estabilidad de las frecuencias,
o teorema de Bernoulli, que ya hemos visto. Efectivamente, recordemos que
una variable de Bernoulli es aquella que toma solo el valor 0 o 1 cuando no
ocurre (u ocurre, respectivamente) un suceso A con probabilidades 1 − p y p.
Sumar n variables de Bernoulli es contar el número de veces que se repite el
suceso A en n pruebas.
Una variable de Bernoulli tiene media p (cálculo muy sencillo). Luego la
media de n medias sera también p.
La ley de los grandes números generaliza este resultado a experimentos don-
de no necesariamente repetimos siempre la misma prueba (como en el caso
anterior). X1 podría contar si ocurre un suceso A1 (de probabilidad p1 ), X2
6.7. V.A. OBTENIDAS A PARTIR DE LA VARIABLE NORMAL 311
1
Función de densidad
2
0.15
4
10
0.10
20
0.05
0.00
0 5 10 15 20
Hay que reseñar que, a medida que el número de grados de libertad aumenta,
la curva se parece cada vez más a la campana de Gauss, lo cual sucede a
partir de valores como n = 40, siendo la coincidencia total para n = ∞.
curve(dt(x,df
=1),xlim=c(-3,3),ylim=c(0,0.4),
xlab=' ',ylab='Función de densidad')
curve(dt(x,df
=2),col='red', lty=2,add=T)
curve(dt(x,df
=4),col='blue',lty=3, add=T)
curve(dt(x,df
=10),col='green',lty=4, add=T)
curve(dt(x,df
=20),col='magenta',lty=5, add=T)
abline(h=0, col="gray")
legend("topright",c("1","2","4","10"),
col=c("black","red","blue", "green","magenta"),
lty=c(1,2,3,4,5),bty="n")
1
Función de densidad
2
0.3
4
10
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
X/n1
W =
Y /n2
df1=1,df2=2
2.0
Función de densidad
2−1
5−2
1.5
10−1
100−100
1.0
0.5
0.0
0 1 2 3 4 5
Inferencia estadística
319
320 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
seleccionadas.
El motivo de trabajar con un muestreo aleatorio con reeemplazamiento es de
naturaleza matemática, ya que permite estudiar propiedades de los distintos
procesos de inferencia (decir si lo que se hace está bien o está mal, si una
estimación es mejor que otra, etc.).
Una muestra aleatoria simple de tamaño n de una variable aleatoria X (rela-
tiva a una población) viene dada por las variables aleatorias X1 , . . . , Xn , que
serán independientes e idénticamente distribuidas a X.
En la práctica, una muestra aleatoria simple de tamaño n de una variable
aleatoria X es un conjunto de datos (x1 , x2 , . . . , xn ), obtenidos al observar la
variable X en n individuos. Por ejemplo, n datos de la variable X=estatura.
Debe tenerse en cuenta que, si la población se compone de grupos impor-
tantes que deben considerarse por separado (por sexo, grupos de edad, nivel
educativo… ), ha de realizarse un muestreo aleatorio estratificado. Este
consistirá en tener en cuenta el tamaño de cada estrato dentro de la población
(por ejemplo, 70 por ciento hombres, 30 por ciento mujeres) y, a la hora de
seleccionar la muestra total, mantener el porcentaje de cada estrato dentro
de la misma.
Nuestro objetivo es obtener información sobre un parámetro o característica
desconocida de la población a partir de una muestra. Para ello podemos:
• Aproximar el parámetro por un valor. Esto se conoce como Estima-
ción puntual.
• Construir un intervalo que, con cierta seguridad, contenga el verdade-
ro valor del parámetro. Esto se llama un Intervalo de confianza o
estimador por intervalo.
• Verificar si cierta hipótesis sobre el parámetro es coherente con los datos
observados. Contraste de hipótesis.
Dos son los resultados fundamentales sobre los que se plantea gran parte de
la introducción a la teoría de la inferencia estadística: el teorema central
del límite y la ley de los grandes números de Poisson. Hemos hablado
de ellos anteriormente, pero no está de más recordarlos, desde el punto de
vista intuitivo.
El teorema central del límite nos permite considerar que una variable sigue
322 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
0.02
0.00
X1
0.2
0.0
n=100;B=250
s<-
0
for (i in 1:B) s[i]=mean(rnorm(n,177.7,5.9))
hist(s, probability = TRUE, col = 'lightblue',
main="250 datos de la media")
rug(s)
lines(density(s), col="red",lwd=2)
De esta forma, comprobamos que la media (de las diferentes medias) se apro-
328 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
0 1
42 58
7.2. ESTIMACIÓN PUNTUAL 329
El número de unos en esta encuesta (gente que dijo que creía en los extrate-
rrestres) es de 58, con lo que la proporción muestral es p̂1 = 0.58.
Si vamos al dia siguiente a la misma calle y seleccionamos aleatoriamente
otra muestra del mismo número n de personas, les preguntamos lo mismo,
tendremos otra estimación puntual del número de gente que cree en los ex-
traterrestres (p̂2 ).
n=100
Y2=rbinom(n,1,0.6
1)
pander(table(Y2))
0 1
38 62
El número de unos en esta encuesta (gente que dijo que creía en los extrate-
rrestres) es de 62, con lo que la proporción muestral es p̂2 = 0.62.
Vamos ahora a suponer que realizamos este proceso un número grande B de
veces; es decir, salimos a la calle, le preguntamos a 100 personas, calculamos
la proporción muestral; al día siguiente volvemos a hacer lo mismo, y así
sucesivamente, haste B=250 veces, por ejemplo. Mediante el siguiente proce-
dimiento en R, simulamos este procedimiento y hacemos una gráfica (Figura
7.6) de la distribución de los 250 valores obtenidos.
n=100;B=250
x<-
0
for (i in 1:B) x[i]=sum(rbinom(n,1,0.6
1))/n
hist(x, probability = TRUE,
col = 'lightblue', main="250 encuestas")
rug(x)
lines(density(x), col="red",lwd=2)
250 encuestas
8
6
Density
4
2
0
n=7
B=15
muestras <-as.data.frame(matrix(rbinom(n*B,
1, 0.6
1), ncol=n))
rownames(muestras) <-paste("muestra", 1:B, sep="")
muestras$mean <-rowMeans(muestras[,1:n])
ptilde<-
muestras$mean
colnames(muestras) <-c(paste(" obs", 1:n ,
sep=""), " ptilde")
# muestras:
pander(muestras)
7.2. ESTIMACIÓN PUNTUAL 331
mean(ptilde)
## [1] 0.6
095
Sin embargo, al observar, en el mismo estudio, los lugares con mayor inci-
dencia del cáncer de riñón, la localización geográfica era la misma. Si no
se ha leído el párrafo anterior, uno podría plantearse que en el medio rural
hay peor alimentación (rica en solo ciertos contenidos y pobre en otros), peor
acceso a la sanidad, etc.
El gráfico 7.7 muestra los resultados citados: en naranja, los condados con
porcentajes más altos de cáncer de riñón; y, en verde, aquellos con porcentajes
más bajos. En general, unos están pegados a los otros.
• Explicación intuitiva:
En donde la muestra es más pequeña (hospital pequeño), es más fácil que
una rareza (en el sentido probabilístico, algo de poca probabilidad) desta-
que; puesto que, en donde la muestra es más grande (hospital grande), las
frecuencias van a compensarse. De hecho, la ley de los grandes números nos
recuerda que la frecuencia relativa de ocurrencia de un suceso tenderá a su
probabilidad cuando el número de repeticiones sea grande.
• Explicación con teoría:
El nacimiento de un bebé se puede modelar como una variable de Bernoulli:
dos posibles sucesos, complementarios uno del otro. Los distintos nacimientos
en un hospital van a constituir, por lo tanto, una variable Binomial. Llame-
mos, por ejemplo, X=número de niñas nacidas en un hospital, tras n partos.
Esta variable es una variable Binomial de parámetros n y p = 0.5.
Podemos calcular la probabilidad de que el número de niñas nacidas sea
mayor que el 75% del total como P (X > 0.75 · n). Cambiando el valor de n
podemos ir viendo los resultados. En R, la probabilidad P (X ≤ c) en una
binomial Bi(n, p) se calcula con pbinom(c,n,p); por lo tanto, P (X > 0.75 · n)
será 1 − P (X ≤ 0.75 · n).
Para n = 10,
n=10
c=0.75*n
p=0.5
1-pbinom(c,n,p)
## [1] 0.0546
9
Vemos que, para 10 camas, solo ocurriría esto en un 5.46% de los casos.
Para n = 30,
n=30
c=0.75*n
p=0.5
1-pbinom(c,n,p)
7.2. ESTIMACIÓN PUNTUAL 337
## [1] 0.0026
11
• Es insesgado.
• Es consistente.
• Para n grande
q (n > 30), por el Teorema Central del Límite, se tiene que
pb ≈ N (p, p(1 − p)/n)
41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04.
1X 10
419.47
x̄ = xi = = 41.947
n i=1 10
1 X 4
p̂ = 1= = 0.4
n i/xi >42 10
7.3. EJEMPLOS DE INTERÉS. 339
de la misma forma, al darse cuenta los aliados de que los tanques alemanes
recogidos tras una batalla tenían números de serie consecutivos.
Supongamos que el número de taxis en una ciudad es N = 50, y que se ob-
serva una muestra de n taxis. Una estimación lógica podría ser, si conocemos
el número m medio, considerar que hay (m − 1) taxis a cada lado, es decir,
N̂ = (m − 1) + 1 + (m − 1) = 2m − 1.
Pongamos un caso práctico: observamos 5 taxis con los números
2, 10, 15, 25, 40. Una estimación de la media podría ser la media muestral o
la mediana muestral. La media muestral es x̄ = 18.4, y la mediana muestral
es 15. Las estimaciones de N son, por lo tanto, N̄ = 2 · 18.4 − 1 = 36.8 (36
o 37 taxis) o N̄ = 2 · 15 − 1 = 29.
Claramente, el número obtenido infraestima el valor verdadero de 50. Además,
está claro que cualquiera de los dos números obtenidos no serían buenos
estimadores del tamaño real, puesto que 40 es un dato de la muestra, es decir
hay 40 o más taxis seguro.
Una posibilidad podría ser considerar un estimador de la siguiente manera:
N̂1 = max{x1 , x2 , ..., xn }.
Otra posibilidad sería considerar que hay, por simetría, tantos datos a la
derecha de xn como antes de x1 , es decir N −xn = x1 −1, de donde obtenemos
N̂2 = xn − x1 + 1
En nuestro ejemplo sale N̂3 = 47, y es de las mejores opciones que pueden
darse, junto con una estimación de tipo bayesiano (no es posible dar una
7.4. INTERVALOS DE CONFIANZA 341
P (parámetro ∈ (L, U )) = 1 − α.
Los valores más habituales del nivel de confianza 1 − α son 0.9, 0.95 o 0.99
(la confianza es del 90%, 95% o 99%). En ocasiones también se emplea la
terminología nivel de significación para el valor α.
En la estimación por intervalos de confianza partimos de una muestra
x1 , . . . , xn . A partir de estos valores obtenemos un intervalo numérico. Por
ejemplo, podríamos hablar de que, con una confianza del 99 por ciento, la
proporción de voto al partido político “Unidas Ciudadanas” está entre el 29
y el 31 por ciento. O que, con una confianza del 90 por ciento, la estatura
media está entre 1.80 y 1.84.
7.4.1 Interpretación
Igual que vimos antes con las encuestas de las estaturas, o de la proporción
de gente que cree en los extraterrestres, con cada muestra obteníamos n
342 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
set.seed(1)
12
n<-
B<-
20
muestras <-as.data.frame(matrix(rbinom(n*B,
1, 0.6
1), ncol=n))
rownames(muestras) <-paste("muestra", 1:B, sep="")
colnames(muestras) <-paste(" obs ", 1:n , sep="")
#muestras
pander(muestras)
muestras$mean <-rowMeans(muestras[,1:n])
alf
a <-0.05
z <-qnorm(1 - alf
a/2)
p <-
muestras$mean
muestras$ici <-p - z*sqrt(p*(1-p)/n)
muestras$ics <-p + z*sqrt(p*(1-p)/n)
esta<-
0
1<=muestras$ics & 0.6
b=ifelse(0.6 1 >= muestras$ici,
"SI", "NO")
data.frame(muestras$mean, muestras$ici ,
Resultado<-
muestras$ics, b)
colnames(Resultado)<-
c("ptilde", "L", "U",
" 0.6
1 está o no?")
pander(Resultado)
set.seed(54321)
nsim <-500
nx <-10
# Valores teóricos:
mux <-177.7
sdx <-5.9
#
# Simulación de las muestras
muestras <-as.data.frame(matrix(rnorm(nsim*nx,
346 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
# Estimaciones
muestras$mean <-rowMeans(muestras[,1:nx])
muestras$sd <-apply(muestras[,1:nx], 1, sd)
alf
a <-0.05
z <-qnorm(1 - alf
a/2)
muestras$ici <-muestras$mean - z*sdx/sqrt(nx)
muestras$ics <-muestras$mean + z*sdx/sqrt(nx)
[1] 480
# Proporción de intervalos
100*ncob/nsim
[1] 96
175
0 20 40 60 80 100
Muestra
Figura 7.9: Fijémonos que hay intervalos que no contienen al parámetro ver-
dadero.
m <-100
tmp <-muestras[1:m,]
attach(tmp)
color <-ifelse(cob,"blue","red")
plot(1:m, mean, col = color,
ylim = c(min(ici),max(ics)),
main = "Cobertura de las estimaciones por IC",
xlab = "Muestra", ylab = "IC")
arrows(1:m, ici, 1:m, ics, angle = 90,
length = 0.05, code = 3, col = color)
abline(h = mux, lty = 3)
detach(tmp)
348 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
p1 /(1 − p1 )
.
p2 /(1 − p2 )
Figura 7.10: Gráfico llamado Forest-Plot del meta-análisis para los medica-
mentos antidepresivos.
350 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
X̄ − µ
T = √ .
σ/ n
!
X̄ − µ
1 − α = P −zα/2 < √ < zα/2
σ/ n
41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04.
Solución
a. Sabemos que σ = 0.3 y n = 10
1X 10
419.47
La media muestral es x̄ = xi = = 41.947
n i=1 10
El I.C. para µ al nivel de confianza 1 − α es:
! !
σ σ 0.3
x̄ − zα/2 √ , x̄ + zα/2 √ = 41.947 ± zα/2 √
n n 10
qnorm(0.1/2)
## [1] -
1.6
45
0.3
(41.947 ± 1.96 · √ ) = (41.947 ± 0.186) = (41.761, 42.133).
10
7.6. I.C. PARA LA MEDIA (2) 353
Si queremos calcular el tamaño muestral necesario para que el error sea menor
o igual a una cantidad e (0.05 en este caso), hacemos
σ 2
zα/2 · σ 2 1.96 · 0.3 2
zα/2 · √ ≤ e ⇐⇒ n ≥ = = 138.298.
n e2 0.05
!
Ŝn−1
x̄ ± tn−1,α/2 √ ,
n
qt(0.05/2, df
=9)
## [1] -
2.26
2
library(ggplot2)
library(mosaic)
plotDist("t", df= 9, groups = x < 2.26
, type = "h")
0.4
0.3
0.2
0.1
−4 −2 0 2 4
Con los datos del ejemplo anterior, vamos a calcular rápidamente el intervalo
de confianza. En R, debemos utilizar la orden t.test que, en realidad, es
para hacer un contraste de hipótesis. Sin embargo, a mayores, obtenemos el
intervalo de confianza.
7.6. I.C. PARA LA MEDIA (2) 355
x=c(41.6
0, 41.48
, 42.34, 41.95, 41.8
,
6
42.41, 41.72, 42.26
, 41.8
1, 42.04)
y=t.test(x, mu=0, conf
.level=0.9)
y$conf
.int
## [1] 41.7642.13
## attr(,"conf
.level")
## [1] 0.9
x=c(41.6
0, 41.48
, 42.34, 41.95, 41.8
,
6
42.41, 41.72, 42.26
, 41.8
1, 42.04)
y=t.test(x, mu=0, conf
.level=0.95)
y$conf
.int
## [1] 41.6
2 42.27
## attr(,"conf
.level")
## [1] 0.99
Vemos que los intervalos son (41.72, 42.17) (al 95 por ciento), que es un
poco más largo que el anterior; y, a la vez, el intervalo al 99 por ciento es
(41.62, 42.27) que vuelve a ser más grande.
Como parece lógico, si se desea una mayor confianza de que el parámetro
buscado esté dentro del intervalo, el intervalo va a salir más grande. La
única manera de obtener intervalos más pequeños sería aumentar el tamaño
356 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
Ŝn−1
muestral (recordemos que la forma del intervalo es (x̄ ± tn−1,α/2 √ ), donde
√ n
la longitud es inversamente proporcional a n.
Como hemos dicho anteriormente, en la práctica, si de una población no se
conoce la media (y por eso intentamos estimarla), es raro conocer la desvia-
ción típica. Por ello el intervalo de confianza para la media que calculan, en
general, los paquetes estadísticos (como R) es este último.
s s
b − p)
p(1 b b − p)
p(1 b
pb − zα/2 , pb + zα/2 .
n n
z.test <-function(x,n,p=NULL,conf
.level=0.95,
alternative="two.sided") {
ts.z <-NULL
cint <-NULL
p.val <-NULL
phat <-x/n
qhat <-1 - phat
if(length(p) > 0) {
q <-1-p
SE.phat <-sqrt((p*q)/n)
ts.z <- (phat - p )/SE.phat
if(ts.z<0) p.val <-2*pnorm(ts.z)
else p.val<-
2*(1-pnorm(ts.z))
if(alternative=="less") {
p.val <-pnorm(ts.z)
}
if(alternative=="greater") {
p.val <-1 - pnorm(ts.z)
}
} else {
SE.phat <-sqrt((phat*qhat)/n)
}
cint <-phat + c(
-1*((qnorm(((1 - conf
.level)/2) +
conf
.level))*SE.phat),
((qnorm(((1 - conf
.level)/2) +
conf
.level))*SE.phat) )
return(list(estimate=phat,ts.z=ts.z,
p.val=p.val,cint=cint))
}
Solución:
93
Tenemos que n = 100 pacientes y que la proporción muestral es p̂ = =
100
0.93
El intervalo de confianza es:
s
0.93 ± 2.575
0.93 × 0.07
= (0.93 ± 0.0657) = (0.8643, 0.9957)
100
Calculado con la función de R:
y=z.test(93,100, conf
.level=0.99)
y$cint
## [1] 0.8
43 0.9957
6
s
4p̂(1 − p̂)zα/2
2
p̂(1 − p̂) 1.96 2
2 · zα/2 ≤ L ⇐⇒ n ≥ = 4p̂(1 − p̂)
n L2 0.01
Como p̂ = 0.93, obtenemos que n ≥ 10003.53. Hay que preguntarle a 10004
pacientes .
7.8. I.C. PARA LA DIFERENCIA DE PROPORCIONES. 359
z.test.2 <-function(x1,n1,x2,n2,p=0,
conf
.level=0.95,alternative="two.sided")
{
ts.z <-NULL
cint <-NULL
p.val <-NULL
phat <-NULL
p1 <-x1/n1
p2 <-x2/n2
q1 <-1 - p1
q2 <-1 - p2
phat <- p1 - p2
SE.phat <-sqrt( ((p1*q1)/n1) + ((p2*q2)/n2) )
ts.z <-(phat - p)/SE.phat
p.val <-pnorm(ts.z)
ts.z <- (phat - p )/SE.phat
if(ts.z<0) p.val <-2*pnorm(ts.z)
else p.val<-
2*(1-pnorm(ts.z))
if(alternative=="less") {
p.val <-pnorm(ts.z)
}
if(alternative=="greater") {
p.val <-1 - pnorm(ts.z)
360 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
cint <-phat + c(
-1*((qnorm(((1 - conf
.level)/2) +
conf
.level))*SE.phat),
((qnorm(((1 - conf
.level)/2) +
conf
.level))*SE.phat) )
return(list(estimate=phat,ts.z=ts.z,
p.val=p.val,cint=cint))
}
z.test.2(52,100,53,100, conf
.level=0.95 )$cint
## [1] -
0.148
4 0.128
4
s
2
(x̄ − ȳ) ± t
Ŝn−1 Ŝ 2
n+m−2−∆,α/2 + m−1 ,
n m
siendo ∆ el entero más próximo a (Corrección de Welch)
2 2
2
Ŝn−1 Ŝm−1
(m − 1) n
− (n − 1) m
2
2 2
2 .
Ŝn−1 Ŝm−1
(m − 1) n
+ (n − 1) m
Uno de los dilemas que más trae de cabeza a los historiadores y antropó-
logos es si existen diferencias físicas y psicológicas (inteligencia, fuerza,
carácter… ) entre la gente de derechas y de izquierdas. Hoy vamos a
traer algo de luz a este tema, comparando las estaturas de famosos
personajes históricos de izquierdas y de derechas.
Calcular un intervalo de confianza, al 95 por ciento, para la diferencia de
estaturas medias, y razonar si alguno de los grupos puede considerarse
más alto que el otro.
Solución:
7.11. I.C. PARA EL RATIO DE VARIANZAS 363
e1=c(175,175,16
3,191,16
9,18
,
816
5,178
,174,16
5,171,171)
e2=c(18
7,16
,
8191, 190,175,173,16
5,16
0,173,175,176
,174)
t.test(e1,e2, conf
.level=0.95)$conf
.int
## [1] -
9.56
6 5.8
99
## attr(,"conf
.level")
## [1] 0.95
!
2 2
Ŝm−1 Ŝm−1
Fn−1,m−1,1−α/2 2
, Fn−1,m−1,α/2 2
,
Ŝn−1 Ŝn−1
siendo Fn−1,m−1,α/2 el valor de una F de Snedecor con n − 1 y $ m-1$ grados
de libertad que deja a la derecha α/2 de área.
364 CAPÍTULO 7. INFERENCIA ESTADÍSTICA
Capítulo 8
Contrastes de hipótesis
365
366 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
Figura 8.2:
El término cisne negro fue una expresión latina, cuya referencia conocida más
antigua proviene de la descripción de algo que hizo el poeta Juvenal (poeta
romano, año 50 a. de C.): rara avis in terris nigroque simillima cygno, cuya
traducción en español significa un ave rara en la tierra, y muy parecida a un
cisne negro. La importancia del símil radica en su analogía con la fragilidad
de cualquier sistema de pensamiento. La frase de Juvenal era una expresión
común en el Londres del siglo XVI como una declaración de imposibilidad.
Todos los cisnes debían de ser blancos puesto que todos los registros históricos
conocidos decían que tenían plumas blancas. Sin embargo, después de que
una expedición holandesa, dirigida por el explorador Willem de Vlamingh en
el río Swan en 1697, descubrió cisnes negros en Australia Occidental, lo que
parecía imposible se convirtió, de repente, en cierto.
Hoy en día, el término cisne negro se refiere, a un suceso de probabilidad
muy pequeña que, si ocurre, produce unos resultados extraordinariamente
impactantes. Se utiliza fundamentalmente en economía, y corresponden a
sucesos como las caidas bruscas de la bolsa (la depresión de 1929, o el estallido
de la burbuja inmobiliaria). La teoría desarrollada por Nassim Taleb (Taleb
and Mosquera, 2011) es que un suceso altamente improbable acaba siendo
racionalizado por retrospección. Nadie lo esperaba, pero posteriormente se
analiza retrospectivamente, y se racionaliza (los datos estaban ahí, pero no
se supieron ver).
seguridad.
Una hipótesis estadística es una afirmación que se hace sobre una o más
características de una población (decir que la vida media de una batería son x
horas, que un tratamiento reduce el dolor, que un determinado producto hace
adelgazar, que a la gente le gusta mayoritariamente el morbo…). Un test o
contraste de hipótesis es algún procedimiento para aceptar o rebatir dicha
hipótesis o afirmación.
Entonces, una vez que se delimita la hipótesis nula que se desea poner a
prueba, la forma general de proceder es elegir una muestra de esa población,
y ver si los resultados de esa muestra son coherentes con la afirmación que se
está realizando. Básicamente, que la evidencia que nos proporcione la muestra
sea lo suficientemente fuerte para poder tomar una decisión.
Para comprobar la coherencia de los resultados, o la fuerza de la evidencia, se
tratará de ver la diferencia entre lo observado en la muestra y lo que di-
ce la hipótesis nula. Para ello se elige el llamado estadístico T (estadístico
pivote) del test y se calcula su valor sobre los datos de una muestra observada
(x1 , x2 , ..., xn ), lo que se denota como T (x1 , x2 , ..., xn ). Dado que la distribu-
ción en el muestreo del estadístico T ha de ser conocida, se determina la
370 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
Figura 8.4:
Con estos dos ejemplos, podemos ver que no es posible disminuir simultánea-
mente la probabilidad de error de tipo I y la probabilidad de error de tipo
II: una opción para no cometer errores de tipo I en el caso de un juicio sería
374 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
P (Error tipo II) = P (Aceptar H0 siendo falsa) = P (x̄ > 28/H0 es falsa).
!
2
Si H0 es cierta, µ = 30, luego x̄ ∈ 30, √ .
20
28 − 30
= P Z ≤ = P (Z ≤ −4.472) ∼
= 0.
√2
20
Si H0 es falsa, µ = 25, por lo tanto x̄ ∈ N 25, √220 .
28 − 25
= P Z > = P (Z > 6.7) ∼
=0
√2
20
Las notas de una asignatura son normales (la variable X = ‘nota´ sigue
una distribución normal).
una variable sigue una distribución normal. Por ejemplo, las notas de
una asignatura.
https://player.vimeo.com/video/242488892”
Figura 8.8: Imagen del cómic Rue del Pércebe, 13, F. Ibáñez.
En este caso, El p-valor (más adelante vemos como se calcula) es 0.0073, por
lo tanto, muy pequeño. Resulta así, muy difícil creer en que los datos no
estén trucados.
H1 : θ = θ0 o bien H1 : θ = θ0
3.- Tomar una muestra (x1 .x2 , ..., xn ) y evaluar el estadístico del contraste
T (x1 .x2 , ..., xn ).
4.- Calcular el p−valor
H0 : µ = 0.
De lo que se trata es de falsar esta hipótesis, es decir, encontrar una diferencia
estadísticamente significativa entre lo que se obtenga en la muestra y lo que
dice la hipótesis nula. Esta última, al considerar que la media es cero, implica
que el tratamiento no tiene efectividad, puesto que, en media, no reduce el
dolor.
Para realizar el contraste de hipótesis, inicialmente consideramos dos posi-
bilidades: que conozcamos la desviación típica de la variable, o que no la
conozcamos. Esta última opción es la más habitual, y la más lógica, puesto
que, si no tenemos información sobre la media, es raro tenerla de la desviación
típica. En el ejemplo que hemos puesto, si no se conoce la reducción media
de dolor con un tratamiento (hablamos habitualmente de un tratamiento en
fase experimental) pues será raro conocer su variabilidad.
En todo caso, en la mayoría de los textos realizan la distinción entre los
casos de desviación típica conocida o no. Consideraremos aquí también los
dos casos, igual que se hizo en el capítulo anterior de intervalos de confianza.
x̄ − µo
T = √ ∈ N (0, 1)
σ/ n
Solución:
x̄ − µo 6.51 − 6.8
T = √ = √ = −1.8
σ/ n 0.7/ 19
library(mosaic)
plotDist("norm", groups = x >-1.8 , type="h")
386 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
0.4
0.3
0.2
0.1
−2 −1 0 1 2
pnorm(-1.8
)
## [1] 0.03593
8.6.5 La prueba t
En la práctica, es bastante extraño conocer la desviación típica (puesto que
precisamente estamos en una situación de incertidumbre de la variable. Lo
habitual es no conocer ni la media ni la desviación típica). En este caso, lo
que se hace es estimar la desviación típica a partir de la muestra, utilizando
para ello la cuasi-desviación típica muestral Ŝn−1 . En este caso, el estadístico
que se utiliza cambia, y también la distribución del mismo. Tenemos que usar
el estimador
x̄ − µo
T = √ ∈ tn−1 .
Ŝn−1 / n
Este estimador sigue una distribución t de Student, con n − 1 grados de
libertad. A este contraste de hipótesis se le llama prueba t.
x=c(6
,6.,
66.5,5.8
,7,6
.3,6
.2,7.2,5.7,6
.4,6
.5,
6
.2,6
,6
.5,7.2,7.3,7.6
,6.,
86
)
mean(x)
## [1] 6
.516
sd(x)
## [1] 0.5419
pt(-2.3, df
=18
) #df son grados de libertad
## [1] 0.016
1
8
x=c(6
, 6
.,6 6
.5, 5.8
, 7, 6
.3, 6
.2, 7.2, 5.7, 6
.4,
6
.5, 6
.2, 6
, 6
.5, 7.2, 7.3, 7.6
, 6
.,8 6
)
t.test(x, mu=6
.,8 alternative="less")
##
## One Sample t-
test
##
## data: x
## t = -
2.3, df= 18
, p-
value = 0.02
## alternative hypothesis: true mean is less than 6
.8
388 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
## 95 percent conf
idence interval:
## -
Inf6
.731
## sample estimates:
## mean ofx
## 6
.516
0.4
0.3
0.2
0.1
−2 0 2
plotDist("t", df
=20, groups = x > 2.08
5 , type="h")
8.7. CONTRASTE PARA UNA PROPORCIÓN 389
0.4
0.3
0.2
0.1
−2 0 2
plotDist("t", df
=20, groups = x >-2.08
5 , type="h")
0.4
0.3
0.2
0.1
−2 0 2
p̂ − p0
T =q ≈ N (0, 1).
p0 ·(1−p0 )
n
• Solución:
Llamamos p=proporción avor del 155.
de personas a f
El gobierno afirma que p > 0.5, luego, al no llevar el signo =, esta opción irá
en la hipótesis alternativa. Así, el test será:
H0 : p ≤ 0.5 frente a H1 : p > 0.5.
La forma de tomar la decisión de rechazar la hipótesis nula o no es ver si hay
mucha diferencia entre lo que dice la muestra y lo que dice la hipótesis nula.
La hipótesis nula dice que la proporción teórica p0 es 0.5. La muestra nos da
una proporción muestral p̂ = 155/288 = 0.538. Obviamente, este valor difiere
8.7. CONTRASTE PARA UNA PROPORCIÓN 391
de 0.5, pero ¿mucho, poco, regular? Es el mismo caso que se nos planteaba
arriba en el ejemplo de la película de James Bond.
La forma de “medir” la diferencia es mediante el estadístico T que, en este
caso, es
p̂ − p0 0.538 − 0.5 0.038
T =q = q = = 1.28
p0 ·(1−p0 ) 0.5·(1−0.5) 0.029
n n
0.4
0.3
0.2
0.1
−2 −1 0 1 2
1-pnorm(1.28
)
## [1] 0.1003
prop.test(155, 28
,
8 0.5, alternative="greater")
392 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
##
## 1-
sample proportions test with continuity
## correction
##
## data: 155 out of28
8
## X-
squared = 1.5, df= 1, p-
value = 0.1
## alternative hypothesis: true p is greater than 0.5
## 95 percent conf
idence interval:
## 0.48
81.000
## sample estimates:
## p
## 0.538
2
y= z.test(155,28
,
8 p=0.5,alternative="greater")
El p-valor del test es 0.0974, que es mayor que el nivel habitual de 0.05, luego
no se podría rechazar la hipótesis nula.
X ∈ N (µ1 , σ1 ), Y ∈ N (µ2 , σ2 )
Un contraste de diferencia de medias nos sirve, entonces, para comprobar si
hay diferencia o no entre el efecto medio de los tratamientos. Esta igualdad
de medias (o no) es equivalente a considerar si la diferencia entre las medias
es igual (o no) a cero.
H0 : µ1 = µ2 o µ1 − µ2 = 0
El estadístico que se utiliza es el siguiente:
(x − y) − (µ1 − µ2 )
T = r ∈ tn+m−2−∆ ,
2
Ŝn−1 2
Ŝm−1
n
+ m
394 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
En R, así de sencillo:
x=c(104,8
,100,98
8 ,102,92,96
,100,96
,96
)
y=c(100,102,96
,106
,110,110,120,112,112,90)
t.test(x,y)
##
## Welch Two Sample t-
test
##
## data: x and y
## t = -
2.7, df= 14, p-
value = 0.02
## alternative hypothesis: true dif
erence in means is not equal to 0
f
## 95 percent conf
idence interval:
## -
15.429 -
1.771
## sample estimates:
8.9. PARA EL COCIENTE DE VARIANZAS 395
Como el p-valor es más pequeño que 0.05, que es el que se usa habitualmen-
te para decidir, diríamos que las presiones medias no pueden considerarse
iguales.
2
Ŝn−1
T = 2
∈ Fn−1,m−1 ,
Ŝm−1
esto es, hacer el cociente entre las cuasi-varianzas muestrales. Ese estadístico
(si la hipótesis nula de que las varianzas teóricas son iguales es cierta) sigue
una distribución F de Fisher-Snedecor de n − 1 y m − 1 grados de libertad.
Con los datos del ejercicio anterior, contrastar si las varianzas de las
variables originales pueden considerarse iguales o no.
x=c(104,8
,100,98
8 ,102,92,96
,100,96
,96
)
y=c(100,102,96
,106
,110,110,120,112,112,90)
var.test(x, y)
396 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
##
## F test to compare two variances
##
## data: x and y
## F = 0.28
, num df= 9, denom df= 9, p-
value =
## 0.08
## alternative hypothesis: true ratio ofvariances is not equal to 1
## 95 percent conf
idence interval:
## 0.07077 1.14703
## sample estimates:
## ratio ofvariances
## 0.28
49
En este caso, el p-valor del test es 0.075. Atendiendo al valor estándar 0.05
de decisión, no podriamos decir que las varianzas son diferentes.
Para ver si las dos variables que generan las muestras que tenemos tienen me-
dias y/o varianzas similares podemos hacer, simplemente, una comparación
de las estimaciones de la densidad:
x=c(104,8
,100,98
8 ,102,92,96
,100,96
,96
)
,106
y=c(100,102,96 ,110,110,120,112,112,90)
m1=length(x) # tamaño muestra x
m2=length(y) # tamaño muestra y
m=c(rep(1,m1), rep(2,m2))
m=as.factor(m)
datos<-data.frame(m,c(x,y))
names(datos)<-c("muestra","variable")
library(ggplot2)
ggplot(datos)+ geom_density(aes(x=variable),adjust=2) +
aes(color = muestra)
8.9. PARA EL COCIENTE DE VARIANZAS 397
0.06
muestra
density
0.04
1
2
0.02
0.00
Como observamos en la gráfica (Figura 8.11), tanto las medias como las
varianzas (variabilidad) son diferentes.
Hagamos ahora un ejemplo con un fichero de datos real, que ya hemos utiliza-
do anteriormente. El fichero “body_dat.csv”, que utilizamos en el capítulo de
la distribución normal, contiene datos antropométricos de hombres y mujeres.
Vamos a realizar una comparación de la variable estatura (height),
body <-read_csv("Data/body_dat.csv")
body <-within(body, {
sexo <-factor(sexo, labels=c('mujer','hombre'))
})
N=nrow(body)
y=rep(0,N)
data.frame(y)
y1<-
names(y1)<-
"ceros"
bind_cols(body, y1)
body2 <-
ggplot(body2)+
398 CAPÍTULO 8. CONTRASTES DE HIPÓTESIS
Altura
0.05
0.04
0.03
0.02
0.01
0.00
150 160 170 180 190 200
height
geom_density(aes(x=height), adjust=2) +
aes(colour = sexo) + labs(title="Altura", y=" " ) +
theme(legend.position = "top") +
geom_point(aes(x=height, y=ceros), size=1)
Gráficamente (Figura 8.12), observamos que las medias difieren, pero las
varianzas no lo parecen.
x1=body2$height[body2$sexo=="mujer"]
x2=body2$height[body2$sexo=="hombre"]
t.test(x1,x2)$p.value
## [1] 9.217e-
71
var.test(x1,x2)$p.value
## [1] 0.139
8.10. MUESTRAS PAREADAS O RELACIONADAS 399
.
Con lo cual, para saber si el tratamiento ha sido efectivo, plantearemos la
hipótesis nula de que el efecto medio es cero (el tratamiento no sirve):
H0 : µd = 0 frente a H1 : µd < 0 o H1 : µd > 0,
según sea la dirección que nos interesa. Por ejemplo, si tenemos interés en sa-
ber si el tratamiento reduce el dolor (hemos medido el dolor antes y después),
la hipótesis alternativa será H1 : µd < 0.
Si estamos interesados en saber si, por ejemplo, un programa de ejercicio físico
aumenta la resistencia, la hipótesis alternativa será H1 : µd > 0 (la resistencia
después del tratamiento, en media, es mayor que antes del tratamiento).
sin poción: 38 32 41 35 42 32 45 37
y, para cada luchador, respectivamente, tras tomar la supuesta poción:
con poción: 30 32 34 37 35 26 38 32
¿Es efectiva la nueva poción mágica?
Solución:
H0 : µX = µY frente a H1 : µX > µY .
H0 : µd = 0 frente a H1 : µd > 0.
x=c(8
,0,7,-2,7,6
,7,5)
y=t.test(x, mu=0, alternative="greater")
Este estudio puede leerse con detalle en: “Study of the Therapeutic
Effects of Intercessory Prayer (STEP) in cardiac bypass patients: A
multicenter randomized trial of uncertainty and certainty of receiving
intercessory prayer”. American Heart Journal, 2006 151(4):934-42.
Empecemos comparando los que recibieron ayuda con los que no (grupos A
y B, respectivamente) y ellos no lo sabían. Las proporciones muestrales son
p̂1 = 315/604 = 0.52, p̂2 = 304/597 = 0.50. El contraste que se plantea es
H0 : p1 = p2 frente a H1 : p1 ̸= p2 .
z.test.2(315,6
04,304,597,alternative="two.sided")
## $estimate
## [1] 0.01231
##
## $ts.z
## [1] 0.426
8
##
## $p.val
## [1] 0.6
95
6
##
## $cint
## [1] -
0.04422 0.06
4
8
Ahora comparemos los grupos A y B (no saber si rezan por ti) en conjunto,
con el C (sabes que rezan por ti).
z.test.2(6
19,1201,352,6
01,alternative="two.sided")
## $estimate
## [1] -
0.07029
##
## $ts.z
## [1] -
2.8
42
##
## $p.val
## [1] 0.00448
6
##
## $cint
## [1] -
0.118
76-
0.0218
1
X=rnorm(100)
par(mf
op<- row=c(1,2))
hist(X)
X=c(rnorm(100),4,5,6
,8
)
hist(X)
Histogram of X Histogram of X
35
30
30
25
Frequency
Frequency
20
20
15
10
10
5
0
−4 −2 0 1 2 3 −2 0 2 4 6 8
X X
par(op)
Este último test se encuentra directamente en el paquete base, los otros dos
los podemos encontrar en el paquete nortest.
x=rnorm(100)
lillie.test(x )
##
## Lillief
ors (Kolmogorov-
Smirnov) normality test
##
## data: x
## D = 0.06
4, p-
value = 0.4
ad.test(x)
##
## Anderson-
Darling normality test
##
## data: x
## A = 0.32, p-
value = 0.5
shapiro.test(x)
##
## Shapiro-
Wilk normality test
##
## data: x
## W = 0.99, p-
value = 0.7
Titanic <-read_excel("Data/Pasajeros-
Titanic.xlsx")
t1<-table(Titanic$sobrevivio, Titanic$clase)
addmargins(t1)
t2<-
pander(t2)
data.frame(Titanic)
dt<-
ggplot(dt, aes(x=clase))+
geom_bar( aes(f
ill= sobrevivio), position="dodge")
400
sobrevivio
count
no
yes
200
t2=table(Titanic$sobrevivio, Titanic$clase)
pander(t2)
chisq.test(t2)
##
## Pearson's Chi-
squared test
##
## data: t2
## X-
squared = 130, df= 2, p-
value <2e-
16
fisher.test(t2)
##
## Fisher's Exact Test f
or Count Data
##
## data: t2
## p-
value <2e-
16
## alternative hypothesis: two.sided
library(readxl)
hansenne <-read_excel("Data/20011701_hansenne/data.xls")
t1<-table(hansenne$RD1, hansenne$SEXE)
addmargins(t1)
t2<-
pander(t2)
data.frame(hansenne)
dt<-
ggplot(dt, aes(x=RD1))+
geom_bar( aes(f
ill= SEXE), position="dodge")
8.12. PROBLEMAS DEL NIVEL DE SIGNIFICACIÓN 409
40
30
SEXE
count
20 Feminin
Masculin
10
chisq.test(t2)
##
## Pearson's Chi-
squared test
##
## data: t2
## X-
squared = 51, df= 22, p-
value = 4e-
04
Esta claro que si, por ejemplo, se pone el límite de significación en 0.05,
estamos afirmando que, sobre la base de que 95 veces sobre 100 esperaríamos
encontrar que el tratamiento es efectivo. Pero si obtenemos p = 0.06 entonces
ocurre que 94 de cada cien veces esperaremos encontrar que el tratamiento
es efectivo. ¿Es tanta la diferencia?
2*(1-pnorm(2))
## [1] 0.0455
knitr::include_graphics('Figure/pvalue3.png')
2*(1-pnorm(3))
## [1] 0.0027
2*(1-pnorm(4))
## [1] 6
.334e-
05
y fuera de (µ − 5 · σ, µ + 5 · σ)
2*(1-pnorm(5))
## [1] 5.733e-
07
Barrett, A. M., Baum, S. D., and Hostetler, K. (2013). Analyzing and re-
ducing the risks of inadvertent nuclear war between the united states and
russia. Science & Global Security, 21(2):106–133.
Bregman, D. J., Langmuir, A. D., et al. (1990). Farr’s law applied to aids
projections. Jama, 263(11):1522–5.
417
418 BIBLIOGRAFÍA
Conn, A., Pedmale, U. V., Chory, J., Stevens, C. F., and Navlakha, S. (2017).
A statistical description of plant shoot architecture. Current Biology,
27(14):2078–2088.
Gelman, A., Stern, H. S., Carlin, J. B., Dunson, D. B., Vehtari, A., and
Rubin, D. B. (2013). Bayesian data analysis. Chapman and Hall/CRC.
BIBLIOGRAFÍA 419
Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman,
S. N., and Altman, D. G. (2016). Statistical tests, p values, confidence
intervals, and power: a guide to misinterpretations. European Journal of
Epidemiology, 31(4):337–350.
Hand, D., Daly, F., McConway, K., Lunn, D., and Ostrowski, E. (1993). A
Handbook of Small Data Sets. Number v. 1 in A Handbook of Small Data
Sets. Taylor & Francis.
Hansenne, M., Le Bon, O., Gauthier, A., and Ansseau, M. (2001). Belgian
normative data of the temperament and character inventory. European
Journal of Psychological Assessment, 17(1):56.
Kahneman, D. and Egan, P. (2011). Thinking, fast and slow, volume 1. Farrar,
Straus and Giroux New York.
Klimek, P., Yegorov, Y., Hanel, R., and Thurner, S. (2012). Statistical de-
tection of systematic election irregularities. Proceedings of the National
Academy of Sciences, 109(41):16469–16473.
Mickey, M., Gjertson, D., and Terasaki, P. (1986). Empirical validation of the
essen-möller probability of paternity. American journal of human genetics,
39(1):123.
Murray, C. and Herrnstein, R. (1994). The bell curve. Intelligence and Class
Structure in American Life, New York.
Ritchie, S. J., Cox, S. R., Shen, X., Lombardo, M. V., Reus, L. M., Alloza,
C., Harris, M. A., Alderson, H., Hunter, S., Neilson, E., et al. (2017). Sex
differences in the adult human brain: Evidence from 5,216 uk biobank
participants. bioRxiv, page 123729.