Estadistica Al Desnudo

Machine Translated by Google
estadísticas desnudas
Eliminando el temor de los datos
CARLOS WHEELAN
Dedicación
Para Katrina
Contenido
Cubrir
Pagina del titulo

Dedicación
Introducción: Por qué odiaba el cálculo pero amo la estadística
1 ¿Cuál es el punto?
2 Estadísticas Descriptivas: ¿Quién fue el mejor jugador de béisbol de todos los

tiempos?
Apéndice del Capítulo 2
3 Descripción engañosa: "¡Tiene una gran personalidad!" y otras declaraciones

verdaderas pero tremendamente engañosas
4 Correlación: ¿Cómo sabe Netflix qué películas me gustan?

5 Probabilidad básica: no compre la garantía extendida para su impresora de $99
5½ El problema de Monty Hall
Seis problemas con la probabilidad: cómo los fanáticos de las matemáticas

demasiado confiados casi destruyen el sistema financiero global
7 La importancia de los datos: “Basura entra, basura sale”

8 El teorema del límite central: el Lebron James de la estadística
9 Inferencia: Por qué mi profesor de estadística pensó que podría haber

hecho trampa
10 Encuestas: Cómo sabemos que el 64 por ciento de los estadounidenses apoya

la pena de muerte (con un error de muestreo ± 3 por ciento)
11 Análisis de regresión: el elixir milagroso

12 errores comunes de regresión: la etiqueta de advertencia obligatoria
13 Evaluación del programa: ¿Ir a Harvard cambiará tu vida?
Conclusión: cinco preguntas que las estadísticas pueden ayudar a responder

Apéndice: software estadístico
Notas
Expresiones de gratitud
Índice
Derechos de autor
También por Charles Wheelan

Introducción
Por qué odiaba el cálculo pero amo la estadística
Siempre he tenido una relación incómoda con las matemáticas. No me gustan los
números por los números. No me impresionan las fórmulas sofisticadas que no tienen
aplicación en el mundo real. En particular, no me gustaba el cálculo de la escuela
secundaria por la sencilla razón de que nadie se molestó en decirme por qué necesitaba aprenderlo.
¿Cuál es el área debajo de una parábola? ¿A quién le importa?
De hecho, uno de los grandes momentos de mi vida ocurrió durante mi último año de secundaria, al
final del primer semestre de Cálculo de Colocación Avanzada. Estaba trabajando en el examen final,
ciertamente menos preparado para el examen de lo que debería haber estado. (Me habían aceptado en
la universidad de mi primera elección unas semanas antes, lo que había agotado la poca motivación que
tenía para el curso). Mientras miraba las preguntas del examen final, me parecían completamente
desconocidas. No quiero decir que tuviera problemas para responder las preguntas. Quiero decir que ni
siquiera reconocí lo que me preguntaban. No era ajeno a no estar preparado para los exámenes, pero,
parafraseando a Donald Rumsfeld, normalmente sabía lo que no sabía. Este examen parecía aún más
griego de lo habitual. Hojeé las páginas del examen durante un rato y luego más o menos me rendí.
Caminé hacia el frente del salón de clases, donde mi maestra de cálculo, a quien llamaremos Carol
Smith, estaba supervisando el examen. "Señora. Smith”, dije, “no reconozco muchas de las cosas del
examen”.
Baste decir que yo no le agradaba a la señora Smith mucho más de lo que yo le agradaba a ella. Sí,
ahora puedo admitir que a veces usé mis poderes limitados como presidente de la asociación estudiantil
para programar asambleas de toda la escuela sólo para que se cancelara la clase de cálculo de la Sra.
Smith. Sí, mis amigos y yo recibimos flores para la Sra. Smith durante la clase de parte de “un admirador
secreto” solo para que pudiéramos reírnos en el fondo del salón mientras ella miraba avergonzada a su
alrededor. Y sí, dejé de hacer tarea una vez que entré a la universidad.
Entonces, cuando me acerqué a la Sra. Smith en medio del examen y le dije que el material no me
parecía familiar, ella se mostró, bueno, poco comprensiva. "Carlos", dijo
en voz alta, aparentemente para mí, pero de cara a las filas de escritorios para asegurarse de
que toda la clase pudiera escuchar, "si hubieras estudiado, el material te resultaría mucho más
familiar". Este fue un punto convincente.
Así que regresé sigilosamente a mi escritorio. Después de unos minutos, Brian Arbetter,
mucho mejor estudiante de cálculo que yo, caminó hacia el frente de la sala y le susurró algunas
cosas a la señora Smith. Ella le respondió en un susurro y entonces sucedió algo realmente
extraordinario. "Clase, necesito su atención", anunció la Sra. Smith. "Parece que te di el examen
del segundo semestre por error". Estábamos lo suficientemente avanzados en el período de
prueba que todo el examen tuvo que ser abortado y reprogramado.
No puedo describir completamente mi euforia. Continuaría en la vida y me casaría con una
mujer maravillosa. Tenemos tres hijos sanos. He publicado libros y visitado lugares como el Taj
Mahal y Angkor Wat. Aún así, el día en que mi profesora de cálculo recibió su merecido es uno
de los cinco momentos más importantes de la vida. (El hecho de que casi reprobé el examen final
de recuperación no disminuyó significativamente esta maravillosa experiencia de vida).
El incidente del examen de cálculo te dice mucho de lo que necesitas saber sobre mi relación
con las matemáticas, pero no todo. Curiosamente, me encantaba la física en la escuela
secundaria, a pesar de que la física se basa en gran medida en el mismo cálculo que me negaba
a hacer en la clase de la Sra. Smith. ¿Por qué? Porque la física tiene un propósito claro. Recuerdo
claramente que mi profesor de física de la escuela secundaria nos mostró durante la Serie
Mundial cómo podíamos usar la fórmula básica de aceleración para estimar hasta qué punto se
había alcanzado un jonrón. Eso es genial, y la misma fórmula tiene muchas más aplicaciones
socialmente significativas.
Una vez que llegué a la universidad, disfruté muchísimo de la probabilidad, nuevamente
porque me ofrecía información sobre situaciones interesantes de la vida real. En retrospectiva,
ahora reconozco que no eran las matemáticas las que me molestaban en la clase de cálculo; fue
que nadie consideró oportuno explicar el significado de esto. Si no estás fascinado sólo por la
elegancia de las fórmulas (cosa que a mí enfáticamente no me fascina), entonces se trata
simplemente de un montón de fórmulas tediosas y mecanicistas, al menos tal como me las enseñaron.
Esto me lleva a la estadística (que, para los fines de este libro, incluye la probabilidad). Me
encantan las estadísticas. Las estadísticas pueden usarse para explicar todo, desde las pruebas
de ADN hasta la idiotez de jugar a la lotería. Las estadísticas pueden ayudarnos a identificar los
factores asociados con enfermedades como el cáncer y las enfermedades cardíacas; puede
ayudarnos a detectar trampas en los exámenes estandarizados. Las estadísticas pueden incluso
ayudarte a ganar en programas de juegos. Hubo un programa famoso durante mi infancia llamado
Let's Make a Deal, con su igualmente famoso presentador, Monty Hall. Al final del espectáculo de
cada día, un jugador exitoso se paraba con Monty frente a tres grandes puertas: Puerta no. 1,
puerta núm. 2, y Puerta núm. 3. Monty Hall le explicó al jugador que había un premio muy
deseable detrás de una de las puertas (algo así como un auto nuevo) y un
cabra detrás de los otros dos. La idea era sencilla: el jugador elegía una de las puertas y colocaba
el contenido detrás de esa puerta.
Mientras cada jugador se encontraba frente a las puertas con Monty Hall, tenía una probabilidad
de 1 entre 3 de elegir la puerta que se abriría para revelar el valioso premio.
Pero Hagamos un Trato tuvo un giro que ha deleitado a los estadísticos desde entonces (y dejado
perplejos a todos los demás). Después de que el jugador eligiera una puerta, Monty Hall abriría una
de las dos puertas restantes, siempre revelando una cabra. A modo de ejemplo, supongamos que
el jugador ha elegido la puerta núm. 1. Monty luego abriría la puerta no. 3; la cabra viva estaría
parada allí en el escenario. Todavía quedarían dos puertas cerradas, las núms. 1 y 2. Si el valioso
premio estuviera detrás del no. 1, ganaría el concursante; si estaba detrás del no. 2, perdería. Pero
luego las cosas se pusieron más interesantes: Monty se volvía hacia el jugador y le preguntaba si
le gustaría cambiar de opinión y cambiar de puerta (del número 1 al número 2 en este caso).
Recuerde, ambas puertas todavía estaban cerradas y la única información nueva que recibió el
concursante fue que apareció una cabra detrás de una de las puertas que él no escogió.
¿Debería cambiar?
La respuesta es sí. ¿Por qué? Eso está en el Capítulo 5½.
La paradoja de las estadísticas es que están en todas partes (desde los promedios de aciertos
hasta las encuestas presidenciales), pero la disciplina en sí tiene fama de ser poco interesante e
inaccesible. Muchos libros y clases de estadística están demasiado cargados de matemáticas y
jerga. Créame, los detalles técnicos son cruciales (e interesantes), pero es griego si no comprende
la intuición. Y es posible que ni siquiera te importe la intuición si no estás convencido de que existe
alguna razón para aprenderla. Cada capítulo de este libro promete responder la pregunta básica
que le hice (sin éxito) a mi profesor de cálculo de la escuela secundaria: ¿ Cuál es el punto de esto?
Este libro trata sobre la intuición. Le faltan matemáticas, ecuaciones y gráficas; cuando se
utilicen, prometo que tendrán un propósito claro y esclarecedor. Mientras tanto, el libro contiene
muchos ejemplos para convencerlo de que existen grandes razones para aprender estas cosas.
Las estadísticas pueden ser realmente interesantes y la mayoría no es tan difícil.
La idea de este libro nació no mucho después de mi desafortunada experiencia en la clase de

Cálculo AP de la Sra. Smith. Fui a la escuela de posgrado para estudiar economía y políticas
públicas. Incluso antes de que comenzara el programa, me asignaron (como era de esperar) a un
“campamento de matemáticas” junto con la mayor parte de mis compañeros de clase para
prepararnos para los rigores cuantitativos que vendrían después. Durante tres semanas, aprendimos
matemáticas todo el día en un salón de clases en el sótano sin ventanas (en realidad).
Uno de esos días, tuve algo muy parecido a una epifanía profesional. Nuestro
El instructor estaba tratando de enseñarnos las circunstancias bajo las cuales la suma de una
serie infinita converge en un número finito. Quédense conmigo aquí por un minuto porque este
concepto quedará claro. (En este momento probablemente te estés sintiendo como me sentí yo
en ese salón de clases sin ventanas). Una serie infinita es un patrón de números que continúa
. .patrón
para siempre, como 1 + ½ + ¼ + ⅛ Los tres puntos significan que el . continúa hasta el
infinito. .
Esta es la parte en la que estábamos teniendo problemas para entender. Nuestro
instructor estaba tratando de convencernos, utilizando alguna prueba que he olvidado hace
mucho tiempo, de que una serie de números puede durar para siempre y aún así sumar
(aproximadamente) un número finito. Uno de mis compañeros de clase, Will Warshauer, no
quiso saber nada de eso, a pesar de la impresionante demostración matemática. (Para ser
honesto, yo mismo era un poco escéptico). ¿Cómo puede algo que es infinito sumar algo que es finito?
Entonces tuve una inspiración, o más exactamente, la intuición de lo que el instructor
intentaba explicar. Me volví hacia Will y le hablé de lo que acababa de resolver en mi cabeza.
Imagine que se ha colocado exactamente a 2 pies de una pared.
Ahora muévase la mitad de la distancia hasta esa pared (1 pie), de modo que quede parado a 1
pie de distancia.
Desde 1 pie de distancia, muévase nuevamente la mitad de la distancia hasta la pared (6
pulgadas o ½ pie). Y desde 6 pulgadas de distancia, hágalo nuevamente (muévase 3 pulgadas o ¼ de pie).
Luego hazlo de nuevo (muévete 1½ pulgadas o ⅛ de pie). Etcétera.
Poco a poco te acercarás bastante a la pared. (Por ejemplo, cuando estés a 1/1024 de
pulgada de la pared, te moverás la mitad de la distancia, u otro 1/2048 de pulgada). Pero
nunca golpearás la pared, porque por definición cada movimiento te llevará sólo la mitad de
la distancia restante. En otras palabras, te acercarás infinitamente a la pared pero nunca la
golpearás. Si medimos tus movimientos en pies, la serie se puede describir como 1 + ½ + ¼
+⅛ ...
Ahí radica la idea: aunque continuarás moviéndote para siempre (cada movimiento te llevará
la mitad de la distancia restante hasta la pared), la distancia total que viajes nunca puede ser
más de 2 pies, que es tu distancia inicial desde la pared. Para fines matemáticos, la distancia
total que recorre se puede aproximar a 2 pies, lo que resulta muy útil para fines de cálculo. Un
matemático diría que la suma de esta serie infinita es 1 pie + ½ pie + ¼ pie + ⅛ pie. . . converge
a 2 pies, que es lo que nuestro instructor estaba tratando de enseñarnos ese día.
El caso es que convencí a Will. Me convencí a mí mismo. No recuerdo las matemáticas

que demuestren que la suma de una serie infinita puede converger en un número finito, pero
siempre puedo buscarlo en línea. Y cuando lo haga, probablemente tendrá sentido. En mi
experiencia, la intuición hace que las matemáticas y otros detalles técnicos
más comprensible, pero no necesariamente al revés.

El objetivo de este libro es hacer que los conceptos estadísticos más importantes sean más intuitivos
y accesibles, no sólo para aquellos de nosotros que nos vemos obligados a estudiarlos en aulas sin
ventanas, sino para cualquiera interesado en el extraordinario poder de los números y los datos.
Ahora bien, después de haber argumentado que las herramientas básicas de las estadísticas son
menos intuitivas y accesibles de lo que deberían ser, voy a señalar un punto aparentemente
contradictorio: las estadísticas pueden ser demasiado accesibles en el sentido de que cualquiera que
tenga datos y una computadora Puede realizar procedimientos estadísticos sofisticados con unas pocas
teclas. El problema es que si los datos son deficientes o si las técnicas estadísticas se utilizan
incorrectamente, las conclusiones pueden ser tremendamente engañosas e incluso potencialmente
peligrosas. Considere las siguientes noticias hipotéticas de Internet: Las personas que toman descansos
breves en el trabajo tienen muchas más probabilidades de morir de cáncer. Imagínese ese titular
apareciendo mientras navega por la Web.
Según un estudio aparentemente impresionante de 36.000 trabajadores de oficina (¡un conjunto de
datos enorme!), aquellos trabajadores que informaron que salían de sus oficinas para tomar descansos
regulares de diez minutos durante la jornada laboral tenían un 41 por ciento más de probabilidades de
desarrollar cáncer en los siguientes cinco años que los trabajadores. que no abandonan sus oficinas
durante la jornada laboral. Es evidente que debemos actuar ante este tipo de hallazgos, tal vez algún
tipo de campaña de concientización nacional para evitar breves interrupciones en el trabajo.
O tal vez simplemente necesitemos pensar más claramente en lo que hacen muchos trabajadores
durante ese descanso de diez minutos. Mi experiencia profesional sugiere que muchos de esos
trabajadores que reportan salir de sus oficinas para descansos cortos están apiñados afuera de la
entrada del edificio fumando cigarrillos (creando una neblina de humo a través de la cual el resto de
nosotros tenemos que caminar para entrar o salir). . Además, inferiría que probablemente son los
cigarrillos, y no las breves pausas en el trabajo, los que están causando el cáncer. He inventado este
ejemplo sólo para que resulte particularmente absurdo, pero puedo asegurarles que muchas
abominaciones estadísticas de la vida real son casi así de absurdas una vez que se deconstruyen.
Las estadísticas son como un arma de alto calibre: útiles cuando se usan correctamente y
potencialmente desastrosas en las manos equivocadas. Este libro no le convertirá en un experto en
estadística; te enseñará suficiente cuidado y respeto por el campo como para no hacer el equivalente
estadístico de volarle la cabeza a alguien.
Este no es un libro de texto, lo cual es liberador en términos de los temas que deben cubrirse y las
formas en que pueden explicarse. El libro ha sido diseñado para presentar los conceptos estadísticos
más relevantes para la vida cotidiana. ¿Cómo llegan los científicos a la conclusión de que algo causa
cáncer? ¿Cómo funcionan las encuestas (y qué puede salir mal)? Quién “miente con las estadísticas” y
cómo
¿lo hacen? ¿Cómo utiliza su compañía de tarjeta de crédito los datos sobre lo que está
comprando para predecir si es probable que no realice un pago? (En serio, pueden hacer eso).
Si desea comprender los números detrás de las noticias y apreciar el extraordinario (y

creciente) poder de los datos, esto es lo que necesita saber. Al final, espero persuadirlos de la
observación hecha por primera vez por el matemático y escritor sueco Andrejs Dunkels: es fácil
mentir con las estadísticas, pero es difícil decir la verdad sin ellas.
Pero tengo aspiraciones aún más audaces que eso. Creo que es posible que disfrutes de las
estadísticas. Las ideas subyacentes son fabulosamente interesantes y relevantes. La clave es
separar las ideas importantes de los detalles técnicos arcanos que pueden interponerse en el
camino. Esas son las estadísticas desnudas.
CAPÍTULO 1
¿Cuál es el punto de?
He notado un fenómeno curioso. Los estudiantes se quejarán de que las estadísticas son confusas
e irrelevantes. Luego, los mismos estudiantes saldrán del aula y hablarán alegremente durante el
almuerzo sobre los promedios de bateo (durante el verano) o el factor de sensación térmica
(durante el invierno) o los promedios de calificaciones (siempre). Reconocerán que el “índice de
pasador” de la Liga Nacional de Fútbol Americano (una estadística que condensa el desempeño
de un mariscal de campo en un solo número) es una medida un tanto defectuosa y arbitraria del
desempeño de un mariscal de campo el día del partido. Los mismos datos (tasa de finalización,
yardas promedio por intento de pase, porcentaje de pases de touchdown por intento de pase y
tasa de intercepciones) podrían combinarse de una manera diferente, como dando mayor o menor
peso a cualquiera de esas entradas, para generar una información diferente. pero igualmente
creíble medida de desempeño. Sin embargo, cualquiera que haya visto fútbol americano reconoce
que es útil tener un único número que pueda usarse para resumir el desempeño de un mariscal de
campo.
¿Es perfecta la calificación del mariscal de campo? No. Las estadísticas rara vez ofrecen una
única forma "correcta" de hacer algo. ¿Proporciona información significativa de una manera
fácilmente accesible? Absolutamente. Es una buena herramienta para hacer una comparación
rápida entre el desempeño de dos mariscales de campo en un día determinado. Soy fanático de
los Osos de Chicago. Durante los playoffs de 2011, los Bears jugaron contra los Packers; los
Packers ganaron. Hay muchas maneras en que podría describir ese juego, incluidas páginas y
páginas de análisis y datos sin procesar. Pero he aquí un análisis más sucinto. El mariscal de
campo de los Chicago Bears, Jay Cutler, tuvo un índice de pasador de 31,8. Por el contrario, el
mariscal de campo de Green Bay, Aaron Rodgers, tuvo un índice de pasador de 55,4. De manera
similar, podemos comparar el desempeño de Jay Cutler con el de un juego a principios de
temporada contra Green Bay, cuando tenía un índice de pasador de 85,6. Eso te dice mucho de lo
que necesitas saber para entender por qué los Bears vencieron a los Packers a principios de
temporada pero perdieron ante ellos en los playoffs.
Esa es una sinopsis muy útil de lo que sucedió en el campo. ¿Simplifica las cosas? Sí, esa es a
la vez la fortaleza y la debilidad de cualquier estadística descriptiva. Un número te dice que Jay
Cutler fue superado en armas por Aaron Rodgers en la derrota de los Bears en los playoffs. Por
otro lado, ese número no le dirá si un mariscal de campo tuvo una mala jugada, como lanzar un
pase perfecto que fue rechazado por el receptor y luego interceptado, o si "avanzó" en cierta clave.
jugadas (ya que cada finalización tiene el mismo peso, ya sea un tercer intento crucial o una
jugada sin sentido al final del juego), o si la defensa fue terrible. Etcétera.
Lo curioso es que las mismas personas que se sienten perfectamente cómodas hablando de
estadística en el contexto de los deportes, el clima o las calificaciones se paralizarán de ansiedad
cuando un investigador comience a explicar algo como el índice de Gini, que es una herramienta
estándar en economía para medir la desigualdad de ingresos. Explicaré qué es el índice de Gini
en un momento, pero por ahora lo más importante a reconocer es que el índice de Gini es como
el índice de pasador. Es una herramienta útil para reducir información compleja en un solo
número. Como tal, tiene los puntos fuertes de la mayoría de las estadísticas descriptivas, es
decir, que proporciona una manera fácil de comparar la distribución del ingreso en dos países, o
en un solo país en diferentes momentos.
El índice de Gini mide cuán equitativamente se comparte la riqueza (o los ingresos) dentro de
un país en una escala de cero a uno. La estadística se puede calcular para la riqueza o para el
ingreso anual, y se puede calcular a nivel individual o a nivel del hogar. (Todas estas estadísticas
estarán altamente correlacionadas pero no serán idénticas). El índice de Gini, al igual que la
calificación del pasador, no tiene un significado intrínseco; es una herramienta de comparación.
Un país en el que todos los hogares tuvieran la misma riqueza tendría un índice de Gini de cero.
Por el contrario, un país en el que un solo hogar poseyera toda la riqueza del país tendría un
índice de Gini de uno. Como probablemente puedas suponer, cuanto más cerca esté un país de
uno, más desigual será su distribución de la riqueza. Estados Unidos tiene un índice de Gini de
0,45, según la Agencia Central de Inteligencia (gran recopiladora de estadísticas, por cierto).
1 ¿Así
que lo que?
Una vez que ese número se pone en contexto, puede decirnos mucho. Por ejemplo, Suecia
tiene un índice de Gini de 0,23. El de Canadá es .32. El de China es .42. El de Brasil es .54. El
*
de Sudáfrica es .65.Al analizar esas cifras, tenemos una idea de dónde cae Estados Unidos en
relación con el resto del mundo en lo que respecta a la desigualdad de ingresos. También
podemos comparar diferentes momentos en el tiempo. El índice de Gini para Estados Unidos
era de 0,41 en 1997 y creció a 0,45 durante la década siguiente. (Los datos más recientes de la
CIA son de 2007). Esto nos dice de manera objetiva que, si bien Estados Unidos se hizo más
rico durante ese período de tiempo, la distribución de la riqueza se volvió más desigual.
Nuevamente, podemos comparar los cambios en el índice de Gini entre países durante
aproximadamente el mismo período de tiempo. La desigualdad en Canadá se mantuvo
básicamente sin cambios durante el mismo tramo. Suecia ha tenido un crecimiento económico
significativo en las últimas dos décadas, pero el índice de Gini en Suecia en realidad cayó de
0,25 en 1992 a 0,23 en 2005, lo que significa que Suecia se hizo más rica y más igualitaria durante ese período.
período.
¿Es el índice de Gini la medida perfecta de la desigualdad? Absolutamente no, así como el índice de
pasador no es una medida perfecta del desempeño del mariscal de campo. Pero ciertamente nos brinda
información valiosa sobre un fenómeno socialmente significativo en un formato conveniente.
También hemos retrocedido lentamente en nuestro camino para responder la pregunta planteada en el
título del capítulo: ¿Cuál es el punto? La cuestión es que las estadísticas nos ayudan a procesar datos,
que en realidad no son más que un nombre elegante para la información. A veces los datos son triviales en
el gran esquema de las cosas, como ocurre con las estadísticas deportivas. A veces ofrecen información
sobre la naturaleza de la existencia humana, como ocurre con el índice de Gini.
Pero, como señalaría cualquier buen infomercial, ¡eso no es todo! Hal Varian, economista jefe de
Google, dijo al New York Times que ser estadístico será 2. Seré el primero en admitir que los economistas
tenemos una definición distorsionada de "sexy". serán “el trabajo sexy” durante la próxima década. A veces
Aún así, considere las siguientes preguntas dispares: ¿Cómo podemos detectar a las escuelas que hacen
trampa en sus exámenes
estandarizados?
¿Cómo sabe Netflix qué tipo de películas te gustan?
¿Cómo podemos saber qué sustancias o comportamientos causan cáncer, dado que
¿No podemos realizar experimentos que causen cáncer en humanos?
¿Orar por los pacientes quirúrgicos mejora sus resultados?
¿Existe realmente un beneficio económico al obtener un título de una facultad o universidad altamente
selectiva?
¿Qué está causando la creciente incidencia del autismo?
Las estadísticas pueden ayudar a responder estas preguntas (o, esperamos, lo puedan hacer pronto).
El mundo está produciendo cada vez más datos, cada vez más rápido. Sin embargo, como ha señalado el
New York Times , “los datos son simplemente la materia prima del conocimiento”. la 3* La estadística es
herramienta más poderosa que tenemos para utilizar la información con algún fin significativo, ya sea
identificar a jugadores de béisbol subestimados o pagar a los maestros de manera más justa. A continuación
se ofrece un recorrido rápido por cómo las estadísticas pueden aportar significado a los datos sin procesar.
Descripción y comparación Una puntuación
de bolos es una estadística descriptiva. También lo es el promedio de bateo. La mayoría de los aficionados
a los deportes estadounidenses mayores de cinco años ya están familiarizados con el campo de la
estadística descriptiva. Usamos números, en los deportes y en cualquier otro lugar de la vida, para resumir
información. ¿Qué tan buen jugador de béisbol era Mickey Mantle? Fue un bateador de .298 en su carrera.
Para un aficionado al béisbol, esa es una declaración significativa, lo cual es notable.
cuando lo piensas bien, porque resume una carrera de dieciocho temporadas. 4
(Supongo que hay algo ligeramente deprimente en tener el trabajo de la vida

colapsó en un solo número.) Por supuesto, los fanáticos del béisbol también han llegado a
reconocer que las estadísticas descriptivas distintas al promedio de bateo pueden resumir mejor
el valor de un jugador en el campo.
Evaluamos el rendimiento académico de los estudiantes de secundaria y universitarios
mediante un promedio de calificaciones o GPA. A una calificación con letras se le asigna un
valor en puntos; normalmente una A vale 4 puntos, una B vale 3, una C vale 2, y así
sucesivamente. Al graduarse, cuando los estudiantes de secundaria solicitan ingreso a la
universidad y los estudiantes universitarios buscan trabajo, el promedio de calificaciones es una
herramienta útil para evaluar su potencial académico. Alguien que tiene un GPA de 3,7 es
claramente un mejor estudiante que alguien de la misma escuela con un GPA de 2,5. Eso la
convierte en una buena estadística descriptiva. Es fácil de calcular, fácil de entender y fácil de
comparar entre estudiantes.
Pero no es perfecto. El GPA no refleja la dificultad de los cursos que diferentes estudiantes
hayan tomado. ¿Cómo podemos comparar a un estudiante con un GPA de 3,4 en clases que
parecen relativamente sencillas y un estudiante con un GPA de 2,9 que ha cursado cálculo,
física y otras materias difíciles? Fui a una escuela secundaria que intentó resolver este problema
dando mayor importancia a las clases difíciles, de modo que una A en una clase de “honores”
valía cinco puntos en lugar de los cuatro habituales. Esto causó sus propios problemas. Mi
madre reconoció rápidamente la distorsión causada por esta “solución” del GPA. Para un
estudiante que toma muchas clases de honores (yo), cualquier A en un curso que no sea de
honores, como gimnasia o educación para la salud, en realidad reduciría mi GPA, aunque es
imposible obtener mejores resultados que una A en esas clases. Como resultado, mis padres
me prohibieron tomar educación vial en la escuela secundaria, para que ni siquiera un desempeño
perfecto disminuyera mis posibilidades de ingresar a una universidad competitiva y escribir libros
populares. En cambio, pagaron para enviarme a una escuela de manejo privada, por las noches
durante el verano.
¿Eso fue una locura? Sí. Pero un tema de este libro será que una dependencia excesiva de
cualquier estadística descriptiva puede llevar a conclusiones engañosas o provocar un
comportamiento indeseable. Mi borrador original de esa oración usaba la frase "estadística
descriptiva demasiado simplificada", pero eliminé la palabra "demasiado simplificada" porque es
redundante. Las estadísticas descriptivas existen para simplificar, lo que siempre implica alguna
pérdida de matices o detalles. Cualquiera que trabaje con números debe reconocerlo.
Inferencia
¿Cuántas personas sin hogar viven en las calles de Chicago? ¿Con qué frecuencia las personas
casadas tienen relaciones sexuales? Estos pueden parecer tipos tremendamente diferentes de
preguntas; de hecho, ambas pueden responderse (no perfectamente) mediante el uso de

herramientas estadísticas básicas. Una función clave de las estadísticas es utilizar los datos que
tenemos para hacer conjeturas informadas sobre cuestiones más amplias para las cuales no
tenemos información completa. En resumen, podemos utilizar datos del "mundo conocido" para
hacer inferencias informadas sobre el "mundo desconocido".
Comencemos con la cuestión de las personas sin hogar. Es costoso y logísticamente difícil
contar la población sin hogar en un área metropolitana grande. Sin embargo, es importante tener
una estimación numérica de esta población a efectos de brindar servicios sociales, obtener
elegibilidad para ingresos estatales y federales y obtener representación en el Congreso. Una
práctica estadística importante es el muestreo, que es el proceso de recopilar datos para un área
pequeña, digamos, un puñado de sectores censales, y luego usar esos datos para hacer un juicio
informado, o una inferencia, sobre la población sin hogar de la ciudad como un todo. entero. El
muestreo requiere muchos menos recursos que intentar contar una población entera; Si se hace
correctamente, puede ser igual de preciso.
Una encuesta política es una forma de muestreo. Una organización de investigación intentará
ponerse en contacto con una muestra de hogares que sean ampliamente representativos de la
población en general y preguntarles sus opiniones sobre un tema o candidato en particular.
Obviamente, esto es mucho más barato y rápido que intentar contactar a todos los hogares en
todo un estado o país. La firma de encuestas e investigación Gallup calcula que una encuesta
metodológicamente sólida de 1.000 hogares producirá aproximadamente los mismos resultados
que una encuesta que intentara contactar a todos los hogares de Estados Unidos.
Así es como descubrimos con qué frecuencia los estadounidenses tienen relaciones sexuales,
con quién y de qué tipo. A mediados de la década de 1990, el Centro Nacional de Investigación
de Opinión de la Universidad de Chicago llevó a cabo un estudio notablemente ambicioso sobre
el comportamiento sexual estadounidense. Los resultados se basaron en encuestas detalladas
realizadas en persona con una muestra grande y representativa de adultos estadounidenses. Si
sigue leyendo, el Capítulo 10 le dirá lo que aprendieron. ¿Cuántos otros libros de estadística
pueden prometerte eso?
Evaluación del riesgo y otros eventos relacionados con la probabilidad

Los casinos ganan dinero a largo plazo, siempre. Eso no quiere decir que estén ganando dinero
en un momento dado. Cuando suenan las campanas y los silbatos, algún gran apostador acaba
de ganar miles de dólares. Toda la industria del juego se basa en juegos de azar, lo que significa
que el resultado de cualquier tirada de dados o de carta en particular es incierto. Al mismo tiempo,
se conocen las probabilidades subyacentes de los eventos relevantes (sacar 21 en el blackjack o
girar rojo en la ruleta). Cuando las probabilidades subyacentes favorecen a los casinos (como
siempre lo hacen), podemos estar cada vez más seguros de que la “casa” saldrá ganando a
medida que el número de apuestas realizadas sea cada vez mayor, incluso cuando esas
campanas y silbatos sigan sonando.
Esto resulta ser un fenómeno poderoso en áreas de la vida mucho más allá de los casinos.
Muchas empresas deben evaluar los riesgos asociados con una variedad de resultados
adversos. No pueden hacer que esos riesgos desaparezcan por completo, del mismo modo
que un casino no puede garantizar que usted no gane todas las manos de blackjack que
juegue. Sin embargo, cualquier empresa que enfrente incertidumbre puede gestionar estos
riesgos diseñando procesos de modo que la probabilidad de un resultado adverso, desde una
catástrofe ambiental hasta un producto defectuoso, sea aceptablemente baja. Las empresas
de Wall Street a menudo evalúan los riesgos que plantean sus carteras bajo diferentes
escenarios, ponderando cada uno de esos escenarios en función de su probabilidad. La crisis
financiera de 2008 fue precipitada en parte por una serie de eventos de mercado que se habían
considerado extremadamente improbables, como si todos los jugadores de un casino jugaran
blackjack en toda la noche. Más adelante en el libro sostendré que estos modelos de Wall
Street eran defectuosos y que los datos que utilizaron para evaluar los riesgos subyacentes
eran demasiado limitados, pero lo importante aquí es que cualquier modelo para abordar el
riesgo debe tener como base la probabilidad.
Cuando los individuos y las empresas no pueden hacer desaparecer los riesgos inaceptables,
buscan protección de otras maneras. Toda la industria de seguros se basa en cobrar a los
clientes para protegerlos contra algún resultado adverso, como un accidente automovilístico o
un incendio doméstico. La industria de seguros no gana dinero eliminando estos eventos; Los
coches chocan y las casas se queman todos los días. A veces, los coches incluso chocan
contra las casas, provocando que éstas se quemen. En cambio, la industria de seguros gana
dinero cobrando primas que son más que suficientes para pagar los pagos esperados por
accidentes automovilísticos e incendios domésticos. (La compañía de seguros también puede
intentar reducir sus pagos esperados fomentando una conducción segura, vallas alrededor de
las piscinas, instalación de detectores de humo en cada habitación, etc.).
La probabilidad incluso se puede utilizar para detectar trampas en algunas situaciones. La
empresa Caveon Test Security se especializa en lo que describe como "datos forenses" para
5
un antiguo desarrollador de pruebas encontrar Por ejemplo, la empresa (que fue fundada por
para el SAT) marcará los exámenes en una escuela o sitio de pruebas en en el que el número
de respuestas incorrectas idénticas es muy improbable, normalmente un patrón que ocurriría
por casualidad menos de una vez entre un millón. La lógica matemática surge del hecho de
que no podemos aprender mucho cuando un grupo grande de estudiantes responde
correctamente una pregunta. Eso es lo que se supone que deben hacer; podrían estar haciendo
trampa o podrían ser inteligentes. Pero cuando esos mismos examinados obtienen una
respuesta incorrecta, no todos deberían tener siempre la misma respuesta incorrecta. Si lo
hacen, sugiere que se están copiando unos de otros (o
compartir respuestas a través de texto). La empresa también busca exámenes en los que el
examinado obtiene resultados significativamente mejores en preguntas difíciles que en
preguntas fáciles (lo que sugiere que tenía las respuestas de antemano) y exámenes en los
que el número de tachaduras “de mal a bien” es significativamente mayor que el número de
tachaduras de “bien a mal” (lo que sugiere que un maestro o administrador cambió las hojas
de respuestas después de la prueba).
Por supuesto, puedes ver las limitaciones del uso de la probabilidad. Un grupo grande de
examinados podría tener las mismas respuestas incorrectas por coincidencia; de hecho,
cuantas más escuelas evaluamos, más probable es que observemos tales patrones
simplemente por casualidad. Una anomalía estadística no prueba que se haya cometido un
delito. Delma Kinney, un hombre de Atlanta de cincuenta años, ganó $1 millón en un juego
lotería 6 La probabilidad en 2008 y luego otro $1 millón en un juego instantáneo de
instantáneo en 2011. de que eso le suceda a la misma persona está en el rango de 1 entre
25 billones. No podemos arrestar al Sr. Kinney por fraude basándonos únicamente en ese
cálculo (aunque podríamos preguntar si tiene familiares que trabajen para la lotería estatal).
La probabilidad es un arma en un arsenal que requiere buen juicio.
Identificación de relaciones importantes

(trabajo de detective estadístico)
¿Fumar cigarrillos causa cáncer? Tenemos una respuesta para esa pregunta, pero el
proceso para responderla no fue tan sencillo como podría pensarse. El método científico
dicta que si estamos probando una hipótesis científica, debemos realizar un experimento
controlado en el que la variable de interés (por ejemplo, fumar) sea lo único que difiere entre
el grupo experimental y el grupo de control. Si observamos una marcada diferencia en algún
resultado entre los dos grupos (por ejemplo, cáncer de pulmón), podemos inferir con
seguridad que la variable de interés es la que causó ese resultado. No podemos hacer ese
tipo de experimento en humanos. Si nuestra hipótesis de trabajo es que fumar causa cáncer,
no sería ético asignar a los recién graduados universitarios a dos grupos, fumadores y no
fumadores, y luego ver quién tiene cáncer en la vigésima reunión. (Podemos realizar
experimentos controlados en humanos cuando nuestra hipótesis es que un nuevo
medicamento o tratamiento puede mejorar su salud; no podemos exponer deliberadamente
a sujetos humanos cuando esperamos un resultado adverso).
*
Ahora bien, podría señalar que no es necesario realizar un experimento éticamente
dudoso para observar los efectos del tabaquismo. ¿No podríamos simplemente saltarnos
toda esta elegante metodología y comparar las tasas de cáncer en la vigésima reunión entre
los que han fumado desde que se graduaron y los que no?
No. Es probable que los fumadores y los no fumadores sean diferentes en otros aspectos
además de en su comportamiento de fumar. Por ejemplo, es más probable que los fumadores
tengan otros hábitos, como beber en exceso o comer mal, que provocan resultados adversos para
la salud. Si los fumadores están particularmente enfermos en la vigésima reunión, no sabríamos si
atribuir este resultado al tabaquismo o a otras cosas nocivas que muchos fumadores hacen.
También tendríamos un grave problema con los datos en los que basamos nuestro análisis. Los
fumadores que han enfermado gravemente de cáncer tienen menos probabilidades de asistir a la
vigésima reunión.
(Los fumadores muertos definitivamente no aparecerán.) Como resultado, cualquier análisis de la
salud de los asistentes a la vigésima reunión (relacionado con el tabaquismo o cualquier otra cosa)
estará seriamente defectuoso por el hecho de que los miembros más sanos de la clase son los
que tienen más probabilidades de aparecer. Cuanto más se aleje la clase de la graduación,
digamos en una cuadragésima o quincuagésima reunión, más grave será este sesgo.
No podemos tratar a los humanos como ratas de laboratorio. Como resultado, las estadísticas
se parecen mucho a un buen trabajo de detective. Los datos arrojan pistas y patrones que, en
última instancia, pueden conducir a conclusiones significativas. Probablemente haya visto uno de
esos impresionantes programas de procedimientos policiales como CSI: Nueva York, en el que
detectives y expertos forenses muy atractivos analizan minuciosamente pistas (ADN de una colilla
de cigarrillo, marcas de dientes en una manzana, una sola fibra de la alfombra del piso de un
automóvil). y luego usar la evidencia para atrapar a un criminal violento. El atractivo del programa
es que estos expertos no cuentan con la evidencia convencional utilizada para encontrar al malo,
como un testigo ocular o una cinta de video de vigilancia. Entonces, en su lugar, recurren a la
inferencia científica. Las estadísticas hacen básicamente lo mismo. Los datos presentan pistas
desorganizadas: la escena del crimen. El análisis estadístico es el trabajo de detective que
transforma los datos brutos en una conclusión significativa.
Después del Capítulo 11, apreciarán el programa de televisión que espero presentar: CSI:
Análisis de regresión, que sería sólo una pequeña desviación de esos otros procedimientos
policiales llenos de acción. El análisis de regresión es la herramienta que permite a los
investigadores aislar una relación entre dos variables, como el tabaquismo y el cáncer, mientras
se mantienen constantes (o “controlan”) los efectos de otras variables importantes, como la dieta,
el ejercicio, el peso, etc. . Cuando lees en el periódico que comer un panecillo de salvado todos
los días reducirá tus posibilidades de contraer cáncer de colon, no debes temer que algún
desafortunado grupo de sujetos experimentales humanos hayan sido alimentados a la fuerza con
panecillos de salvado en el sótano de un laboratorio federal en algún lugar mientras el grupo de
control en el edificio de al lado recibe tocino y huevos. En lugar de ello, los investigadores
recopilarán información detallada sobre miles de personas, incluida la frecuencia con la que comen
muffins de salvado, y luego utilizarán el análisis de regresión para hacer dos cosas cruciales: (1)
cuantificar la asociación observada entre comer muffins de salvado y contraer cáncer de colon (por
ejemplo, un
(hallazgo hipotético de que las personas que comen muffins de salvado tienen una incidencia un
9 por ciento menor de cáncer de colon, controlando otros factores que pueden afectar la incidencia
de la enfermedad); y (2) cuantificar la probabilidad de que la asociación entre las magdalenas de
salvado y una tasa más baja de cáncer de colon observada en este estudio sea simplemente una
coincidencia (una peculiaridad en los datos de esta muestra de personas) en lugar de una idea
significativa sobre la relación entre la dieta y salud.
Por supuesto, CSI: Análisis de regresión estará protagonizada por actores y actrices que son
mucho más atractivos que los académicos que normalmente estudian minuciosamente esos datos.
Estas bellezas (todos los cuales tendrían un doctorado, a pesar de tener sólo veintitrés años)
estudiarían grandes conjuntos de datos y utilizarían las últimas herramientas estadísticas para
responder importantes preguntas sociales: ¿Cuáles son las herramientas más efectivas para
combatir los delitos violentos? ¿Qué personas tienen más probabilidades de convertirse en
terroristas? Más adelante en el libro analizaremos el concepto de hallazgo “estadísticamente
significativo”, lo que significa que el análisis ha descubierto una asociación entre dos variables
que probablemente no sea producto únicamente del azar. Para los investigadores académicos,
este tipo de hallazgo estadístico es la “prueba irrefutable”. En CSI: Análisis de regresión, imagino
a una investigadora trabajando hasta altas horas de la noche en el laboratorio de computación
debido a su compromiso diurno como miembro del equipo olímpico de voleibol de playa de
Estados Unidos. Cuando obtiene la copia impresa de su análisis estadístico, ve exactamente lo
que estaba buscando: una relación grande y estadísticamente significativa en su conjunto de
datos entre alguna variable que había planteado la hipótesis de que podría ser importante y la
aparición del autismo. ¡Debe compartir este avance de inmediato!
La investigadora toma la copia impresa y corre por el pasillo, un poco más lenta por el hecho
de que lleva tacones altos y una falda negra relativamente pequeña y ajustada.
Encuentra a su compañero masculino, que inexplicablemente está en forma y bronceado para un
tipo que trabaja catorce horas al día en un laboratorio de computación en el sótano, y le muestra
los resultados. Se pasa los dedos por su perilla cuidadosamente recortada, toma su pistola Glock
de 9 mm del cajón del escritorio y la desliza en la pistolera debajo de su traje Hugo Boss de 5.000
dólares (también inexplicable dado su salario académico inicial de 38.000 dólares al año). Juntos,
los expertos en análisis de regresión caminan rápidamente para ver a su jefe, un veterano canoso
que ha superado relaciones fallidas y un problema con la bebida.
..
Bien, no es necesario aceptar el drama televisivo para apreciar la importancia de este tipo de
investigación estadística. Casi todos los desafíos sociales que nos preocupan se han basado en
el análisis sistemático de grandes conjuntos de datos. (En muchos casos, la recopilación de datos
relevantes, que es costosa y requiere mucho tiempo, desempeña un papel crucial en este
proceso, como se explicará en el Capítulo 7.)
Puede que haya embellecido a mis personajes en CSI: Análisis de regresión, pero no el tipo de
preguntas importantes que podrían examinar. Hay una literatura académica.
sobre terroristas y terroristas suicidas, un tema que sería difícil de estudiar por medio de sujetos
humanos (o ratas de laboratorio, para el caso). Uno de esos libros, What Makes a Terrorist, fue
escrito por uno de mis profesores de estadística de mi escuela de posgrado. El libro extrae sus
conclusiones de datos recopilados sobre ataques terroristas en todo el mundo. Un ejemplo de
conclusión: los terroristas no son desesperadamente pobres ni tienen poca educación. El autor, Alan
Krueger, economista de Princeton, concluye: “Los terroristas tienden a provenir de familias bien
educadas, de clase media o de altos ingresos”. 7 ¿Por qué? Bueno, eso expone una de las
limitaciones
del análisis de regresión. Podemos aislar una fuerte asociación entre dos variables mediante el
uso de análisis estadístico, pero no necesariamente podemos explicar por qué existe esa relación y,
en algunos casos, no podemos saber con certeza si la relación es causal, lo que significa que un
cambio en una variable realmente está causando un cambio en el otro. En el caso del terrorismo, el
profesor Krueger plantea la hipótesis de que, dado que los terroristas están motivados por objetivos
políticos, quienes tienen mayor educación y mayores recursos tienen el mayor incentivo para cambiar
la sociedad. Estas personas también pueden sentirse particularmente irritadas por la supresión de la
libertad, otro factor asociado con el terrorismo. En el estudio de Krueger, los países con altos niveles
de represión política tienen más actividad terrorista (manteniendo constantes otros factores).
Esta discusión me lleva de nuevo a la pregunta planteada por el título del capítulo: ¿Cuál es el
punto? La cuestión no es hacer matemáticas ni deslumbrar a amigos y colegas con técnicas
estadísticas avanzadas. El punto es aprender cosas que informen nuestras vidas.
Mentiras, malditas mentiras y estadísticas

Incluso en las mejores circunstancias, el análisis estadístico rara vez revela "la verdad".
Generalmente estamos construyendo un caso circunstancial basado en datos imperfectos. Como
resultado, existen numerosas razones por las que personas intelectualmente honestas pueden no
estar de acuerdo con los resultados estadísticos o sus implicaciones. En el nivel más básico,
podemos no estar de acuerdo con la pregunta que se está respondiendo. Los entusiastas del deporte
estarán discutiendo por toda la eternidad sobre “el mejor jugador de béisbol de todos los tiempos”
porque no existe una definición objetiva de “mejor”. Las estadísticas descriptivas sofisticadas pueden
informar esta pregunta, pero nunca la responderán de manera definitiva. Como se señalará en el
próximo capítulo, cuestiones más significativas desde el punto de vista social caen presa del mismo desafío básico.
¿Qué está pasando con la salud económica de la clase media estadounidense? Esa respuesta
depende de cómo se defina tanto la “clase media” como la “salud económica”.
Existen límites en los datos que podemos recopilar y los tipos de experimentos que podemos
realizar. El estudio de Alan Krueger sobre los terroristas no siguió a miles de jóvenes durante varias
décadas para observar cuáles de ellos evolucionaron hasta convertirse en terroristas.
Simplemente no es posible. Tampoco podemos crear dos naciones idénticas (excepto que una es
altamente represiva y la otra no) y luego comparar el número de terroristas suicidas que surgen en cada
una. Incluso cuando podemos realizar grandes experimentos controlados con seres humanos, no son ni
fáciles ni baratos. Los investigadores realizaron un estudio a gran escala sobre si la oración reduce o no
las complicaciones posquirúrgicas, que fue una de las preguntas planteadas anteriormente en este
capítulo. Ese estudio costó 2,4 millones de dólares. (Para obtener los resultados, tendrá que esperar
hasta el Capítulo 13).
El Secretario de Defensa Donald Rumsfeld dijo la famosa frase: “Uno va a la guerra con el ejército
que tiene, no con el ejército que podría querer o desear tener más adelante”. Independientemente de lo
que se piense de Rumsfeld (y de la guerra de Irak que estaba explicando), ese aforismo también se
aplica a la investigación. Realizamos análisis estadísticos utilizando los mejores datos, metodologías y
recursos disponibles. El enfoque no es como la suma o la división larga, en la que la técnica correcta
produce la respuesta “correcta” y una computadora es siempre más precisa y menos falible que un
humano. El análisis estadístico se parece más a un buen trabajo de detective (de ahí el potencial
comercial de CSI: Análisis de regresión). Las personas inteligentes y honestas a menudo no estarán de
acuerdo sobre lo que los datos intentan decirnos.
Pero ¿quién dice que todo aquel que utiliza las estadísticas es inteligente u honesto? Como se
mencionó, este libro comenzó como un homenaje a Cómo mentir con estadísticas, que se publicó por
primera vez en 1954 y ha vendido más de un millón de copias. La realidad es que se puede mentir con
las estadísticas. O puede cometer errores involuntarios. En cualquier caso, la precisión matemática
asociada al análisis estadístico puede disfrazar graves tonterías. Este libro analizará muchos de los
errores y tergiversaciones estadísticas más comunes (para que pueda reconocerlos, no utilizarlos).
Entonces, volviendo al capítulo del título, ¿cuál es el sentido de aprender estadística?

Para resumir enormes cantidades de datos.
Para tomar mejores decisiones.
Responder a importantes cuestiones sociales.
Reconocer patrones que puedan refinar la forma en que hacemos de todo, desde vender pañales
hasta atrapar delincuentes.
Atrapar a los tramposos y procesar a los delincuentes.
Evaluar la efectividad de políticas, programas, medicamentos, servicios médicos.
procedimientos y otras innovaciones.
Y para detectar a los sinvergüenzas que utilizan estas mismas poderosas herramientas para
fines nefastos.
Si puedes hacer todo eso mientras te ves genial con un traje de Hugo Boss o un pantalón corto
falda negra, entonces también podrías ser la próxima estrella de CSI: Análisis de regresión.
* El índice de Gini a veces se multiplica por 100 para convertirlo en un número entero. En ese caso, Estados Unidos tendría
un índice de Gini de 45.
* Históricamente, la palabra “datos” se ha considerado plural (p. ej., “Los datos son muy alentadores”). El singular es “dato”,
que se referiría a un solo punto de datos, como la respuesta de una persona a una sola pregunta en un encuesta. Usar la
palabra "datos" como sustantivo plural es una forma rápida de indicarle a cualquiera que realice una investigación seria que
está familiarizado con las estadísticas. Dicho esto, muchas autoridades en gramática y muchas publicaciones, como el New
York Times, ahora aceptan que los “datos” pueden ser singulares o plurales, como lo demuestra el pasaje que he citado del
Times .
* Se trata de una burda simplificación del fascinante y complejo campo de la ética médica.
CAPITULO 2
Estadísticas Descriptivas
¿Quién fue el mejor jugador de béisbol de todos los tiempos?
Reflexionemos por un momento sobre dos preguntas aparentemente no relacionadas: (1) ¿Qué
está pasando con la salud económica de la clase media estadounidense? y (2) ¿Quién fue el mejor
jugador de béisbol de todos los tiempos?
La primera pregunta es profundamente importante. Tiende a estar en el centro de las campañas
presidenciales y otros movimientos sociales. La clase media es el corazón de Estados Unidos, por
lo que el bienestar económico de ese grupo es un indicador crucial de la salud económica general
de la nación. La segunda pregunta es trivial (en el sentido literal de la palabra), pero los entusiastas
del béisbol pueden discutir sobre ella sin cesar.
Lo que las dos preguntas tienen en común es que pueden usarse para ilustrar las fortalezas y
limitaciones de la estadística descriptiva, que son los números y cálculos que utilizamos para
resumir los datos sin procesar.
Si quiero demostrar que Derek Jeter es un gran jugador de béisbol, puedo sentarme y describir
cada turno al bate en cada partido de Grandes Ligas que haya jugado. Esos serían datos en bruto,
y tomaría un tiempo asimilarlos, dado que Jeter ha jugado diecisiete temporadas con los Yankees
de Nueva York y ha realizado 9,868 turnos al bate.
O simplemente puedo decirles que al final de la temporada 2011, Derek Jeter tenía un promedio
de bateo de .313 en su carrera. Se trata de una estadística descriptiva o una “estadística resumida”.
El promedio de bateo es una burda simplificación de las diecisiete temporadas de Jeter. Es fácil
de entender, elegante en su simplicidad y limitado en lo que puede decirnos.
Los expertos en béisbol tienen una gran cantidad de estadísticas descriptivas que consideran más
valiosas que el promedio de bateo. Llamé a Steve Moyer, presidente de Baseball Info Solutions
(una empresa que proporciona muchos datos brutos sobre los tipos de Moneyball ), para preguntarle:
(1) ¿Cuáles son las estadísticas más importantes para evaluar el talento del béisbol? y (2) ¿Quién
fue el mejor jugador de todos los tiempos? Compartiré su respuesta una vez que tengamos más
contexto.
Mientras tanto, volvamos al tema menos trivial: la salud económica de la clase media. Lo ideal
sería encontrar el equivalente económico de un promedio de bateo, o algo incluso mejor. Nos
gustaría tener una medida simple pero precisa de cómo se ha visto el bienestar económico del
trabajador estadounidense típico.
cambiando en los últimos años. ¿Las personas que definimos como clase media se están
volviendo más ricas, más pobres o simplemente se están quedando quietas? Una respuesta
razonable (aunque de ninguna manera la respuesta “correcta”) sería calcular el cambio en el
ingreso per cápita en Estados Unidos a lo largo de una generación, que equivale aproximadamente
a treinta años. El ingreso per cápita es un promedio simple: el ingreso total dividido por el tamaño
de la población. Según esa medida, el ingreso promedio en Estados Unidos aumentó de 7.787
dólares en 1980 a 26.487 dólares en 2010 (el último año para el que el gobierno tiene datos).
1
¡Voilá! Felicitaciones a nosotros.
Sólo hay un problema. Mi cálculo rápido es técnicamente correcto y, sin embargo, totalmente
erróneo en términos de la pregunta que me propuse responder. Para empezar, las cifras
anteriores no están ajustadas a la inflación. (Un ingreso per cápita de 7.787 dólares en 1980
equivale a unos 19.600 dólares cuando se convierte a dólares de 2010). Se trata de una solución
relativamente rápida. El mayor problema es que el ingreso promedio en Estados Unidos no es
igual al ingreso del estadounidense promedio. Analicemos esa pequeña frase inteligente.
El ingreso per cápita simplemente toma todos los ingresos obtenidos en el país y lo divide por
el número de personas, lo que no nos dice absolutamente nada sobre quién gana y cuánto de
ese ingreso, en 1980 o en 2010. Como señalarían los miembros de Occupy Wall Street Como
se puede observar, un crecimiento explosivo de los ingresos del 1 por ciento superior puede
aumentar significativamente el ingreso per cápita sin poner más dinero en los bolsillos del 99 por
ciento restante. En otras palabras, el ingreso promedio puede aumentar sin ayudar al
estadounidense promedio.
Al igual que con la consulta sobre las estadísticas del béisbol, he buscado expertos externos
sobre cómo deberíamos medir la salud de la clase media estadounidense. Pregunté a dos
destacados economistas laborales, incluido el principal asesor económico del presidente Obama,
qué estadísticas descriptivas utilizarían para evaluar el bienestar económico de un estadounidense
típico. Sí, usted también obtendrá esa respuesta una vez que hayamos realizado un recorrido
rápido por las estadísticas descriptivas para darle más significado.
Desde el béisbol hasta los ingresos, la tarea más básica cuando se trabaja con datos es
resumir una gran cantidad de información. Hay unos 330 millones de residentes en Estados
Unidos. Una hoja de cálculo con el nombre y el historial de ingresos de cada estadounidense
contendría toda la información que podríamos desear sobre la salud económica del país, pero
también sería tan difícil de manejar que no nos diría nada en absoluto. La ironía es que más
datos a menudo pueden presentar menos claridad. Entonces simplificamos. Realizamos cálculos
que reducen una serie compleja de datos a un puñado de números que describen esos datos,
del mismo modo que podríamos encapsular una actuación de gimnasia olímpica compleja y
multifacética en un número: 9,8.
La buena noticia es que estas estadísticas descriptivas nos brindan un resumen manejable y
significativo del fenómeno subyacente. De eso se trata este capitulo
acerca de. La mala noticia es que cualquier simplificación invita al abuso. Las estadísticas
descriptivas pueden ser como perfiles de citas online: técnicamente precisas y, sin embargo,
bastante engañosas.
Supongamos que está en el trabajo, navegando ociosamente por la Web cuando se topa con un
fascinante relato diario del fallido matrimonio de setenta y dos días de Kim Kardashian con el
jugador de baloncesto profesional Kris Humphries. Ha terminado de leer sobre el séptimo día de
matrimonio cuando su jefe aparece con dos enormes archivos de datos. Un archivo contiene
información sobre reclamos de garantía para cada una de las 57,334 impresoras láser que su
empresa vendió el año pasado. (Para cada impresora vendida, el archivo documenta la cantidad
de problemas de calidad que se informaron durante el período de garantía). El otro archivo tiene
la misma información para cada una de las 994,773 impresoras láser que su principal competidor
vendió durante el mismo período.
Su jefe quiere saber cómo se comparan las imprentas de su empresa en términos de calidad con
las de la competencia.
Afortunadamente, la computadora que has estado usando para leer sobre el matrimonio
Kardashian tiene un paquete de estadísticas básicas, pero ¿por dónde empezar? Probablemente
sus instintos sean correctos: la primera tarea descriptiva suele ser encontrar alguna medida del
“centro” de un conjunto de datos, o lo que los estadísticos podrían describir como su “tendencia
central”. ¿Cuál es la experiencia de calidad típica de sus impresores en comparación con los de
la competencia? La medida más básica del “medio” de una distribución es la media o promedio.
En este caso, queremos saber el número promedio de problemas de calidad por impresora
vendida para su empresa y para su competidor. Simplemente sumaría el número total de
problemas de calidad informados para todas las impresoras durante el período de garantía y
luego lo dividiría por el número total de impresoras vendidas. (Recuerde, la misma impresora
puede tener múltiples problemas mientras está en garantía). Haría eso para cada empresa,
creando una estadística descriptiva importante: el número promedio de problemas de calidad por
impresora vendida.
Supongamos que resulta que las impresoras de su competencia tienen un promedio de 2,8
problemas relacionados con la calidad por impresora durante el período de garantía, en
comparación con el promedio de 9,1 defectos reportados por su empresa. Eso fue fácil. Acaba
de tomar información sobre un millón de impresoras vendidas por dos empresas diferentes y la
ha reducido a la esencia del problema: sus impresoras se estropean con frecuencia. Claramente
es hora de enviar un breve correo electrónico a su jefe cuantificando esta brecha de calidad y
luego volver al octavo día del matrimonio de Kim Kardashian.
O tal vez no. Antes fui deliberadamente vago cuando me referí a la “mitad” de una distribución.
La media, o promedio, resulta tener algunos problemas en ese sentido, a saber, que es propensa
a ser distorsionada por "valores atípicos", que son observaciones
que se encuentran más alejados del centro. Para comprender este concepto, imagine que diez tipos
están sentados en taburetes de bar en un establecimiento de bebidas de clase media en Seattle; cada
uno de estos chicos gana $35 000 al año, lo que hace que el ingreso anual medio del grupo sea de
$35 000. Bill Gates entra al bar con un loro parlante posado en su hombro. (El loro no tiene nada que
ver con el ejemplo, pero en cierto modo le da más sabor a las cosas). Supongamos, por el bien del
ejemplo, que Bill Gates tiene un ingreso anual de mil millones de dólares. Cuando Bill se sienta en el
undécimo taburete de la barra, el ingreso anual medio de los clientes del bar aumenta a
aproximadamente 91 millones de dólares.
Obviamente, ninguno de los diez bebedores originales es más rico (aunque podría ser razonable
esperar que Bill Gates comprara una o dos rondas). Si tuviera que describir a los clientes de este bar
con un ingreso anual promedio de 91 millones de dólares, la afirmación sería estadísticamente correcta
y tremendamente engañosa. Este no es un bar donde pasan el rato multimillonarios; es un bar donde
un grupo de tipos con ingresos relativamente bajos están sentados junto a Bill Gates y su loro parlante.
La sensibilidad de la media a los valores atípicos es la razón por la que no deberíamos medir la salud
económica de la clase media estadounidense observando el ingreso per cápita.
Debido a que ha habido un crecimiento explosivo en los ingresos en el extremo superior de la

distribución (directores ejecutivos, administradores de fondos de cobertura y atletas como Derek
Jeter), el ingreso promedio en Estados Unidos podría estar fuertemente sesgado por los megaricos,
haciéndolo parecerse mucho al ingreso de los megaricos. taburetes de bar con Bill Gates al final.
Por esta razón, tenemos otra estadística que también señala la “media” de una distribución, aunque
de manera diferente: la mediana. La mediana es el punto que divide una distribución por la mitad, lo
que significa que la mitad de las observaciones se encuentran por encima de la mediana y la otra
mitad por debajo. (Si hay un número par de observaciones, la mediana es el punto medio entre las
dos observaciones intermedias.) Si volvemos al ejemplo del taburete de la barra, el ingreso anual
medio de los diez tipos que originalmente se sentaban en la barra es de 35 000 dólares. Cuando Bill
Gates entra con su loro y se sienta en un taburete, el ingreso anual medio de los once sigue siendo
de 35.000 dólares. Si imagina literalmente alinear a los clientes del bar en taburetes en orden
ascendente de sus ingresos, el ingreso del hombre sentado en el sexto taburete representa el ingreso
medio del grupo. Si Warren Buffett entra y se sienta en el duodécimo taburete junto a Bill Gates, la
mediana sigue sin cambiar.
*
Para distribuciones sin valores atípicos importantes, la mediana y la media serán similares. He
incluido un resumen hipotético de los datos de calidad de las impresoras de la competencia. En
particular, he presentado los datos en lo que se conoce como distribución de frecuencia. El número de
problemas de calidad por impresora se muestra en la parte inferior; la altura de cada barra representa
los porcentajes de impresoras vendidas con esa cantidad de problemas de calidad. Por ejemplo, el 36
por ciento de las impresoras de la competencia tuvieron dos defectos de calidad durante el período de
garantía.
Debido a que la distribución incluye todos los resultados de calidad posibles, incluido cero
defectos, las proporciones deben sumar 1 (o 100 por ciento).
Distribución de frecuencia de quejas de calidad de la competencia

Impresoras
Como la distribución es casi simétrica, la media y la mediana están relativamente cerca

una de otra. La distribución está ligeramente sesgada hacia la derecha debido al pequeño
número de impresores con muchos defectos de calidad reportados. Estos valores atípicos
mueven la media ligeramente hacia la derecha pero no tienen ningún impacto en la mediana.
Supongamos que justo antes de enviarle rápidamente el informe de calidad a su jefe decide
calcular el número medio de problemas de calidad de los impresores de su empresa y de la
competencia. Con unas pocas pulsaciones de teclas, obtendrás el resultado. La mediana del
número de quejas de calidad de las impresoras de la competencia es 2; La mediana del
número de quejas de calidad de las impresoras de su empresa es 1.
¿Eh? El número medio de quejas de calidad por impresor de su empresa es en realidad
menor que el de su competencia. Como el matrimonio Kardashian se está volviendo
monótono y usted está intrigado por este hallazgo, imprime una distribución de frecuencia
para sus propios problemas de calidad.
Distribución de frecuencia de quejas de calidad en su empresa

Lo que queda claro es que su empresa no tiene un problema de calidad uniforme; tienes un
problema de “limón”; un pequeño número de impresores tienen una gran cantidad de quejas
sobre la calidad. Estos valores atípicos inflan la media pero no la mediana. Lo más importante
desde el punto de vista de la producción es que no es necesario reestructurar todo el proceso
de fabricación; Sólo necesita averiguar de dónde vienen las impresoras de baja calidad y
solucionarlo. *
Ni la mediana ni la media son difíciles de calcular; la clave es determinar qué medida del
“medio” es más precisa en una situación particular (un fenómeno que se explota fácilmente).
Mientras tanto, la mediana tiene algunos parientes útiles. Como ya hemos comentado, la
mediana divide una distribución por la mitad.
La distribución se puede dividir en trimestres o cuartiles. El primer cuartil consta del 25 por ciento
inferior de las observaciones; el segundo cuartil consta del siguiente 25 por ciento de las
observaciones; etcétera. O la distribución se puede dividir en deciles, cada uno con el 10 por
ciento de las observaciones. (Si su ingreso está en el decil superior de la distribución del ingreso
estadounidense, estaría ganando más del 90 por ciento de sus compañeros de trabajo). Podemos
ir aún más lejos y dividir la distribución en centésimas o percentiles. Cada percentil representa el
1 por ciento de la distribución, de modo que el primer percentil representa el 1 por ciento inferior
de la distribución y el percentil 99 representa el 1 por ciento superior de la distribución.
El beneficio de este tipo de estadísticas descriptivas es que describen dónde se encuentra

una observación particular en comparación con todas las demás. Si le digo que su hijo obtuvo
una puntuación en el percentil 3 en una prueba de comprensión lectora, debe saber de inmediato
que la familia debería pasar más tiempo en la biblioteca.
No necesita saber nada sobre la prueba en sí ni sobre la cantidad de preguntas que su hijo
respondió correctamente. La puntuación percentil proporciona una clasificación de la puntuación
de su hijo en relación con la de todos los demás examinados. Si el examen fue fácil, entonces la
mayoría de los examinados tendrán una gran cantidad de respuestas correctas, pero su hijo
tendrá menos respuestas correctas que la mayoría de los demás. Si el examen fue
extremadamente difícil, todos los examinados tendrán un número bajo de respuestas correctas,
pero la puntuación de su hijo será aún más baja.
Este es un buen punto para introducir alguna terminología útil. Una puntuación, número o
cifra “absoluta” tiene algún significado intrínseco. Si tiro 83 en dieciocho hoyos de golf, es una
cifra absoluta. Puedo hacerlo en un día en el que la temperatura sea de 58 grados, que también
es una cifra absoluta. Las cifras absolutas normalmente se pueden interpretar sin contexto ni
información adicional. Cuando te digo que disparé 83, no necesitas saber qué otros golfistas
dispararon ese día para evaluar mi desempeño. (La excepción podría ser si las condiciones son
particularmente terribles, o si el campo es especialmente difícil o fácil.) Si quedo noveno en el
campo de golf
torneo, esa es una estadística relativa. Un valor o cifra “relativa” sólo tiene significado en
comparación con otra cosa, o en algún contexto más amplio, como en comparación con los
ocho golfistas que dispararon mejor que yo. La mayoría de las pruebas estandarizadas
producen resultados que sólo tienen significado como estadística relativa. Si les digo que un
estudiante de tercer grado en una escuela primaria de Illinois obtuvo una puntuación de 43
sobre 60 en la parte de matemáticas de la Prueba de Rendimiento del Estado de Illinois, esa
puntuación absoluta no tiene mucho significado. Pero cuando lo convierto a un percentil (es
decir, pongo ese puntaje bruto en una distribución con los puntajes de matemáticas de todos
los demás estudiantes de tercer grado de Illinois), adquiere mucho significado. Si 43 respuestas
correctas caen dentro del percentil 83, entonces a este estudiante le está yendo mejor que a
la mayoría de sus compañeros en todo el estado. Si está en el percentil 8, entonces está
pasando apuros. En este caso, el percentil (la puntuación relativa) es más significativo que el
número de respuestas correctas (la puntuación absoluta).
Otra estadística que puede ayudarnos a describir lo que de otro modo podría ser una
confusión de números es la desviación estándar, que es una medida de cuán dispersos están
los datos con respecto a su media. En otras palabras, ¿qué tan dispersas están las observaciones?
Supongamos que recopilé datos sobre los pesos de 250 personas en un avión con destino a
Boston, y también recopilé los pesos de una muestra de 250 clasificados para el maratón de
Boston. Ahora supongamos que el peso medio de ambos grupos es aproximadamente el
mismo, digamos 155 libras. Cualquiera que haya estado apretujado en una fila en un vuelo
lleno de gente, luchando por el apoyabrazos, sabe que muchas personas en un vuelo
comercial típico pesan más de 155 libras. Pero tal vez recuerdes de esos mismos vuelos
desagradables y abarrotados que había muchos bebés llorando y niños con mal
comportamiento, todos los cuales tienen una enorme capacidad pulmonar pero no mucha
masa. Cuando se trata de calcular el peso promedio en el vuelo, el peso de los jugadores de
fútbol de 320 libras a cada lado del asiento del medio probablemente se ve compensado por
el pequeño bebé que grita al otro lado de la fila y el niño de seis años que patea el respaldo
del asiento. su asiento desde la fila de atrás.
Sobre la base de las herramientas descriptivas presentadas hasta ahora, los pesos de los
pasajeros de las líneas aéreas y de los maratonistas son casi idénticos. Pero no lo son. Sí, los
pesos de los dos grupos tienen aproximadamente el mismo “medio”, pero los pasajeros de las
aerolíneas tienen mucha más dispersión alrededor de ese punto medio, lo que significa que
sus pesos están más alejados del punto medio. Mi hijo de ocho años podría señalar que
parece que todos los corredores de maratón pesan lo mismo, mientras que los pasajeros de
las aerolíneas tienen algunas personas diminutas y otras extrañamente grandes.
Los pesos de los pasajeros de las aerolíneas están "más repartidos", lo cual es un atributo
importante cuando se trata de describir los pesos de estos dos grupos.
La desviación estándar es el estadístico descriptivo que nos permite asignar un único número
a esta dispersión en torno a la media. Las fórmulas para calcular el
La desviación estándar y la varianza (otra medida común de dispersión de la que se deriva la

desviación estándar) se incluyen en un apéndice al final del capítulo. Por ahora, pensemos por
qué la medición de la dispersión
asuntos.
Supongamos que entra al consultorio del médico. Se ha sentido fatigado desde su ascenso a
jefe de calidad de imprenta en Norteamérica. Su médico le extrae sangre y, unos días después,
su asistente le deja un mensaje en el contestador automático para informarle que su recuento
de HCb2 (una sustancia química sanguínea ficticia) es 134. Se apresura a conectarse a Internet
y descubre que el recuento medio de HCb2 para una persona su edad es 122 (y la mediana es
aproximadamente la misma). ¡Santo cielo! Si eres como yo, finalmente redactarías un testamento.
Escribirías cartas entre lágrimas a tus padres, cónyuge, hijos y amigos cercanos. Podrías
empezar a hacer paracaidismo o intentar escribir una novela muy rápido. Le enviaría a su jefe
un correo electrónico redactado apresuradamente comparándolo con cierta parte de la anatomía
humana, TODO EN MAYÚSCULAS.
Puede que ninguna de estas cosas sea necesaria (y el correo electrónico a tu jefe podría salir
muy mal). Cuando vuelve a llamar al consultorio del médico para programar sus cuidados
paliativos, el asistente del médico le informa que su recuento está dentro del rango normal.
¿Pero cómo podría ser eso? “¡Mi conteo es 12 puntos mayor que el promedio!” gritas
repetidamente al receptor.
“La desviación estándar del recuento de HCb2 es 18”, le informa secamente el técnico.
¿Qué diablos significa eso?

Existe una variación natural en el recuento de HCb2, como ocurre con la mayoría de los
fenómenos biológicos (p. ej., la altura). Si bien el recuento medio de la sustancia química falsa
puede ser 122, muchas personas sanas tienen recuentos mayores o menores. El peligro surge
sólo cuando el recuento de HCb2 aumenta o disminuye excesivamente. Entonces, ¿cómo
averiguamos qué significa “excesivamente” en este contexto? Como ya hemos señalado, la
desviación estándar es una medida de dispersión, lo que significa que refleja cuán estrechamente
se agrupan las observaciones alrededor de la media. Para muchas distribuciones típicas de
datos, una alta proporción de las observaciones se encuentran dentro de una desviación estándar
de la media (lo que significa que están en el rango de una desviación estándar por debajo de la
media a una desviación estándar por encima de la media). Para ilustrarlo con un ejemplo sencillo,
la altura media de los hombres adultos estadounidenses es de 5 pies y 10 pulgadas. La
desviación estándar es de aproximadamente 3 pulgadas. Una alta proporción de hombres
adultos mide entre 5 pies 7 pulgadas y 6 pies 1 pulgada.
O, para decirlo de otra manera, cualquier hombre en este rango de altura no sería considerado
anormalmente bajo o alto. Lo que nos lleva de nuevo a sus preocupantes resultados de HCb2.
Sí, su recuento está 12 por encima de la media, pero eso es menos de una desviación estándar,
que es el equivalente químico en sangre de aproximadamente 6 pies.
Alto, no particularmente inusual. Por supuesto, muchas menos observaciones se encuentran a dos
desviaciones estándar de la media, y menos aún a tres o cuatro desviaciones estándar. (En el caso de
la altura, un hombre estadounidense que esté tres desviaciones estándar por encima del promedio en
altura mediría 6 pies y 7 pulgadas o más).
Algunas distribuciones están más dispersas que otras. Por lo tanto, la desviación estándar de los
pesos de los 250 pasajeros de la aerolínea será mayor que la desviación estándar de los pesos de los
250 corredores de maratón. Una distribución de frecuencia con los pesos de los pasajeros de las
aerolíneas sería literalmente más amplia (más dispersa) que una distribución de frecuencias de los
pesos de los corredores de maratón. Una vez que conocemos la media y la desviación estándar de
cualquier recopilación de datos, tenemos una gran tracción intelectual. Por ejemplo, supongamos que le
digo que la puntuación media en el examen de matemáticas SAT es 500 con una desviación estándar
de 100.
Al igual que con la altura, la mayor parte de los estudiantes que toman el examen estarán dentro de una
desviación estándar de la media, o entre 400 y 600. ¿Cuántos estudiantes crees que obtendrán una
puntuación de 720 o más? Probablemente no muchos, ya que están más de dos desviaciones estándar
por encima de la media.
De hecho, podemos hacerlo incluso mejor que “no muchos”. Este es un buen momento para
presentar una de las distribuciones más importantes, útiles y comunes en estadística: la distribución
normal. Los datos que se distribuyen normalmente son simétricos alrededor de su media en forma de
campana que le resultará familiar.
La distribución normal describe muchos fenómenos comunes. Imagine una distribución de frecuencia
que describe las palomitas de maíz reventando en la estufa. Algunos granos comienzan a explotar
temprano, tal vez uno o dos por segundo; al cabo de diez o quince segundos, los granos explotan
frenéticamente. Luego, gradualmente, el número de granos que explotan por segundo se desvanece
aproximadamente al mismo ritmo al que comenzó el estallido. Las alturas de los hombres
estadounidenses se distribuyen más o menos normalmente, lo que significa que son aproximadamente
simétricas alrededor de la media de 5 pies y 10 pulgadas.
Cada prueba SAT está diseñada específicamente para producir una distribución normal de puntuaciones
con una media de 500 y una desviación estándar de 100. Según el Wall Street Journal, los
estadounidenses incluso tienden a estacionarse en una distribución normal en los centros comerciales;
la mayoría de los automóviles se estacionan directamente frente a la entrada del centro comercial (el
“pico” de la curva normal), con “colas” de automóviles que se dirigen a la derecha e izquierda de la entrada.
La belleza de la distribución normal (su poder, finura y elegancia de Michael Jordan) proviene del
hecho de que sabemos por definición exactamente qué proporción de las observaciones en una
distribución normal se encuentran dentro de una desviación estándar de la media (68,2 por ciento),
dentro de dos desviaciones estándar de la media (95,4 por ciento), dentro de tres desviaciones estándar
(99,7 por ciento), y así sucesivamente. Esto puede parecer una trivialidad. De hecho, es la base sobre
la que se construyen gran parte de las estadísticas. Volveremos a este punto con mucha mayor
profundidad más adelante en el libro.
La distribución normal
La media es la línea media que a menudo se representa con la letra griega µ.

La desviación estándar suele representarse con la letra griega σ. Cada banda representa una
desviación estándar.
La estadística descriptiva se utiliza a menudo para comparar dos cifras o cantidades. Soy una
pulgada más alto que mi hermano; la temperatura de hoy se encuentra nueve grados por encima
del promedio histórico para esta fecha; etcétera. Esas comparaciones tienen sentido porque la
mayoría de nosotros reconocemos la escala de las unidades involucradas. Una pulgada no es
mucho cuando se trata de la altura de una persona, por lo que puedes inferir que mi hermano y
yo tenemos aproximadamente la misma altura. Por el contrario, nueve grados es una desviación
de temperatura significativa en casi cualquier clima y en cualquier época del año, por lo que
nueve grados por encima del promedio hacen que el día sea mucho más caluroso de lo habitual.
Pero supongamos que le dijera que el cereal de granola A contiene 31 miligramos más de sodio
que el cereal de granola B. A menos que sepa muchísimo sobre el sodio (y los tamaños de las
porciones de cereal de granola), esa afirmación no será particularmente informativa. ¿O qué
pasaría si le dijera que mi primo Al ganó $53,000 menos este año que el año pasado?
¿Deberíamos preocuparnos por Al? ¿O es un gestor de fondos de cobertura para quien 53.000
dólares es un error de redondeo en su remuneración anual?
Tanto en el ejemplo del sodio como en el de los ingresos, nos falta contexto. La forma más
sencilla de dar significado a estas comparaciones relativas es mediante el uso de porcentajes.
Significaría algo si les dijera que la barra de granola A tiene un 50 por ciento más de sodio que
la barra de granola B, o que los ingresos del tío Al cayeron un 47 por ciento el año pasado. Medir
el cambio como porcentaje nos da una cierta sensación de escala.
Probablemente aprendiste a calcular porcentajes en cuarto grado y te sentirás tentado a

saltarte los siguientes párrafos. Me parece bien. Pero primero haz uno simple.
ejercicio para mi. Supongamos que una tienda departamental vende un vestido por $100. El subgerente
rebaja todas las mercancías en un 25 por ciento. Pero entonces ese subdirector es despedido por estar
* ciento. ¿Cuál
en un bar con Bill Gates, y el nuevo subdirector aumenta todos los precios en un 25 por
es el precio final del vestido? Si dijiste (o pensaste) $100, entonces será mejor que no te saltes ningún
párrafo.
El precio final del vestido es en realidad 93,75 dólares. Este no es simplemente un divertido truco de
salón que le hará ganar aplausos y adulación en los cócteles. Los porcentajes son útiles, pero también
potencialmente confusos o incluso engañosos. La fórmula para calcular una diferencia (o cambio)
porcentual es la siguiente: (cifra nueva – cifra original)/cifra original. El numerador (la parte superior de
la fracción) nos da el tamaño del cambio en términos absolutos; el denominador (la parte inferior de la
fracción) es lo que pone este cambio en contexto comparándolo con nuestro punto de partida. Al
principio, esto parece sencillo, como cuando el subgerente de la tienda reduce el precio del vestido de
100 dólares en un 25 por ciento. El veinticinco por ciento del precio original de $100 es $25; ese es el
descuento, que reduce el precio a $75. Puedes introducir los números en la fórmula anterior y hacer
algunas manipulaciones simples para llegar al mismo lugar: ($100 – $75)/$100 = 0,25, o 25 por ciento.
El vestido se vende por $75 cuando el nuevo subgerente exige que el precio aumente un 25 por
ciento. Ahí es donde probablemente muchas de las personas que leyeron este párrafo cometieron un
error. El margen de beneficio del 25 por ciento se calcula como un porcentaje del precio reducido del
nuevo vestido, que es de 75 dólares. El aumento será de 0,25 ($75), o $18,75, que es como el precio
final termina en $93,75 (y no $100). La cuestión es que un cambio porcentual siempre da el valor de
una cifra en relación con otra cosa. Por lo tanto, será mejor que comprendamos qué es ese algo más.
Una vez invertí algo de dinero en una empresa que fundó mi compañero de cuarto de la universidad.
Como se trataba de una empresa privada, no había requisitos sobre qué información debía
proporcionarse a los accionistas. Pasaron varios años sin información alguna sobre el destino de mi
inversión; Mi antiguo compañero de cuarto se mantuvo bastante reservado sobre el tema. Finalmente,
recibí una carta por correo informándome que las ganancias de la empresa eran un 46 por ciento más
altas que el año anterior. No había información sobre el tamaño de esas ganancias en términos
absolutos, lo que significa que todavía no tenía la menor idea de cómo se estaba desempeñando mi
inversión. Supongamos que el año pasado la empresa ganó 27 centavos, es decir, prácticamente nada.
Este año la empresa ganó 39 centavos, es decir, prácticamente nada. Sin embargo, las ganancias de
la empresa crecieron de 27 centavos a 39 centavos, lo que técnicamente representa un aumento del
46 por ciento. Obviamente, la carta a los accionistas habría sido más deprimente si hubiera señalado
que las ganancias acumuladas de la empresa durante dos años eran menores que el costo de una taza
de Starbucks.
café.
Para ser justos con mi compañero de cuarto, finalmente vendió la empresa por cientos
de millones de dólares, lo que me permitió obtener un retorno del 100 por ciento de mi
inversión. (Como no tienes idea de cuánto invertí, tampoco tienes idea de cuánto dinero
gané, ¡lo que refuerza muy bien mi punto aquí!)
Permítanme hacer una distinción adicional. El cambio porcentual no debe confundirse
con un cambio en puntos porcentuales. Las tarifas suelen expresarse en porcentajes. La
tasa del impuesto sobre las ventas en Illinois es del 6,75 por ciento. Le pago a mi agente
el 15 por ciento de las regalías de mi libro. Estos tipos se aplican a una determinada
cantidad, como los ingresos en el caso del tipo del impuesto sobre la renta. Obviamente
las tarifas pueden subir o bajar; De manera menos intuitiva, los cambios en las tasas
pueden describirse de maneras muy diferentes. El mejor ejemplo de esto fue un cambio
reciente en el impuesto sobre la renta personal de Illinois, que se elevó del 3 al 5 por
ciento. Hay dos formas de expresar este cambio fiscal, y ambas son técnicamente
precisas. Los demócratas, que diseñaron este aumento de impuestos, señalaron
(correctamente) que la tasa del impuesto estatal sobre la renta se incrementó en 2 puntos
porcentuales (del 3 por ciento al 5 por ciento). Los republicanos señalaron (también
correctamente) que el impuesto estatal sobre la renta había aumentado un 67 por ciento.
[Esta es una prueba útil de la fórmula de algunos párrafos atrás: (5 – 3)/3 = 2/3, que se redondea al 67 p
Los demócratas se centraron en el cambio absoluto del tipo impositivo; Los republicanos
se centraron en el cambio porcentual en la carga fiscal. Como se señaló, ambas
descripciones son técnicamente correctas, aunque yo diría que la descripción republicana
transmite con mayor precisión el impacto del cambio impositivo, ya que lo que tendré que
pagar al gobierno (la cantidad que me importa, en lugar de según la forma en que se
calcula, en realidad ha aumentado en un 67 por ciento.
Muchos fenómenos desafían la descripción perfecta con una sola estadística. Supongamos
que el mariscal de campo Aaron Rodgers lanza para 365 yardas pero sin touchdowns.
Mientras tanto, Peyton Manning lanza para apenas 127 yardas pero tres touchdowns.
Manning generó más puntos, pero presumiblemente Rodgers preparó touchdowns
haciendo marchar a su equipo por el campo y manteniendo a la ofensiva del otro equipo
fuera del campo. ¿Quién jugó mejor? En el Capítulo 1, hablé del índice de pasador de la
NFL, que es el intento razonable de la liga para abordar este desafío estadístico. La
calificación del pasador es un ejemplo de índice, que es una estadística descriptiva
compuesta de otras estadísticas descriptivas. Una vez que estas diferentes medidas de
desempeño se consolidan en un solo número, esa estadística se puede usar para hacer
comparaciones, como clasificar a los mariscales de campo en un día en particular, o
incluso a lo largo de toda una carrera. Si el béisbol tuviera un índice similar, entonces la
cuestión del mejor jugador de todos los tiempos estaría resuelta. ¿O sí?
La ventaja de cualquier índice es que consolida mucha información compleja en un solo número. Luego
podemos clasificar cosas que de otro modo desafiarían una simple comparación: cualquier cosa, desde
mariscales de campo hasta universidades y concursantes de concursos de belleza. En el certamen de Miss
América, el ganador general es una combinación de cinco competencias distintas: entrevista personal, traje
de baño, traje de noche, talento y pregunta en el escenario. (Los propios participantes votan por separado a
Miss Simpatía).
Desgraciadamente, la desventaja de cualquier índice es que consolida mucha información compleja en

un solo número. Hay innumerables formas de hacerlo; cada uno tiene el potencial de producir un resultado
diferente. Malcolm Gladwell señala este punto
2
brillantemente en un artículo del New Yorker que critica nuestra imperiosa necesidad de clasificar las cosas.
(Él cae particularmente mal en las clasificaciones universitarias.) Gladwell ofrece el ejemplo de la clasificación
de Car and Driver de tres autos deportivos: el Porsche Cayman, el Chevrolet Corvette y el Lotus Evora.
Utilizando una fórmula que incluye veintiuna variables diferentes, Car and Driver clasificó al Porsche en el
puesto número uno.
Pero Gladwell señala que el “estilo exterior” representa sólo el 4 por ciento de la puntuación total en la
fórmula Car and Driver , lo que parece ridículamente bajo para un coche deportivo. Si en la clasificación
general se le da más peso al estilo (25 por ciento), entonces el Lotus sale primero.
Pero espera. Gladwell también señala que el precio de etiqueta del automóvil tiene relativamente poco
peso en la fórmula de Car and Driver . Si se pondera más el valor (de modo que la clasificación se basa
igualmente en el precio, el estilo exterior y las características del vehículo), el Chevy Corvette ocupa el puesto
número uno.
Cualquier índice es muy sensible a las estadísticas descriptivas que se improvisan para construirlo y al
peso que se le da a cada uno de esos componentes. Como resultado, los índices van desde herramientas
útiles pero imperfectas hasta charadas completas. Un ejemplo de lo primero es el Índice de Desarrollo
Humano de las Naciones Unidas o IDH. El IDH se creó como una medida del bienestar económico que es
más amplia que el ingreso por sí solo. El IDH utiliza el ingreso como uno de sus componentes, pero también
incluye medidas de esperanza de vida y nivel educativo. Estados Unidos ocupa el undécimo lugar en el
mundo en términos de producción económica per cápita (detrás de varias naciones ricas en petróleo como
Qatar, Brunei y Kuwait), pero el cuarto en el mundo en desarrollo humano.
3
Es cierto que las clasificaciones del IDH cambiarían ligeramente
si se reconfiguraran los componentes del índice, pero ningún cambio razonable hará que Zimbabwe suba en
las clasificaciones más allá de Noruega. El IDH proporciona una instantánea práctica y razonablemente
precisa de los niveles de vida en todo el mundo.
Las estadísticas descriptivas nos dan una idea de los fenómenos que nos interesan. En eso
En este sentido, podemos volver a las preguntas planteadas al comienzo del capítulo. ¿Quién
es el mejor jugador de béisbol de todos los tiempos? Más importante para los propósitos de
este capítulo, ¿qué estadísticas descriptivas serían más útiles para responder esa pregunta?
Según Steve Moyer, presidente de Baseball Info Solutions, las tres estadísticas más valiosas
(aparte de la edad) para evaluar a cualquier jugador que no sea lanzador serían las siguientes:
1. Porcentaje de embase (OBP), a veces llamado promedio de embase (OBA): Mide la

proporción del tiempo que un jugador llega a la base con éxito, incluidas las bases por
bolas (que no se cuentan en el promedio de bateo).
2. Porcentaje de slugging (SLG): Mide el poder de bateo calculando el total de bases

alcanzadas por turno al bate. Un sencillo cuenta como 1, un doble es 2, un triple es 3 y
un jonrón es 4. Así, un bateador que conectó un sencillo y un triple en cinco turnos al bate
tendría un porcentaje de slugging de (1 + 3)/ 5 o .800.
3. Al bate (AB): Pone lo anterior en contexto. Cualquier deprimido puede tener estadísticas
impresionantes durante uno o dos juegos. Una superestrella recopila “números”
impresionantes en miles de apariciones en el plato.
En opinión de Moyer (sin dudarlo, debo añadir), el mejor jugador de béisbol de todos los tiempos
fue Babe Ruth debido a su habilidad única para batear y lanzar. Babe Ruth todavía ostenta el
récord de slugging de su carrera en las Grandes Ligas con .690. 4
¿Qué pasa con la salud económica de la clase media estadounidense? Una vez más, cedí
la palabra a los expertos. Envié un correo electrónico a Jeff Grogger (un colega mío en la
Universidad de Chicago) y Alan Krueger (el mismo economista de Princeton que estudió a los
terroristas y ahora preside el Consejo de Asesores Económicos del presidente Obama). Ambos
dieron variaciones de la misma respuesta básica. Para evaluar la salud económica de la “clase
media” estadounidense debemos examinar los cambios en el salario medio (ajustado por
inflación) durante las últimas décadas. También recomendaron examinar los cambios en los
salarios en los percentiles 25 y 75 (que pueden interpretarse razonablemente como los límites
superior e inferior para la clase media).
Es necesaria una distinción más. Al evaluar la salud económica, podemos examinar los
ingresos o los salarios. No són la misma cosa. Un salario es lo que nos pagan por una cantidad
fija de trabajo, como un salario por hora o por semana. Los ingresos son la suma de todos los
pagos de diferentes fuentes. Si los trabajadores aceptan un segundo empleo o trabajan más
horas, sus ingresos pueden aumentar sin que cambie el salario. (De hecho, los ingresos pueden
aumentar incluso si el salario está cayendo, siempre que un trabajador trabaje suficientes horas
en el trabajo.) Sin embargo, si los individuos tienen que trabajar más para ganar más, es difícil
evaluar el efecto general sobre sus ingresos. bienestar. el salario
es una medida menos ambigua de cómo se compensa a los estadounidenses por el trabajo que
realizan; cuanto más alto es el salario, más ganan los trabajadores por cada hora de trabajo.
Dicho todo esto, he aquí un gráfico de los salarios estadounidenses durante las últimas tres
décadas. También agregué el percentil 90 para ilustrar los cambios en los salarios de los
trabajadores de clase media en comparación durante este período de tiempo con los trabajadores
en la parte superior de la distribución.
Fuente: “Cambios en la distribución de los salarios por hora de los trabajadores entre 1979 y 2009”,
Oficina de Presupuesto del Congreso, 16 de febrero de 2011. Los datos del gráfico se pueden encontrar
en http://www.cbo.gov/sites/default/ files/cbofiles/ftpdocs/120xx/doc12051/0216wagedispersion.pdf.
De estos datos se pueden extraer diversas conclusiones. No presentan una sola respuesta
“correcta” con respecto a la suerte económica de la clase media.
Nos dicen que el trabajador típico, un trabajador estadounidense que gana el salario medio, ha
estado “trabajando en su lugar” durante casi treinta años. A los trabajadores del percentil 90 les ha
ido mucho, mucho mejor. Las estadísticas descriptivas ayudan a encuadrar la cuestión. Lo que
hagamos al respecto, en todo caso, es una cuestión ideológica y política.
APÉNDICE DEL CAPÍTULO 2
Datos para los gráficos de defectos de la impresora.

Fórmula para la varianza y la desviación estándar.

La varianza y la desviación estándar son los mecanismos estadísticos más comunes para medir
y describir la dispersión de una distribución. La varianza, que a menudo se representa con el
2
símbolo σ, se calcula determinando qué tan ,lejos se encuentran las observaciones dentro de
una distribución de la media. Sin embargo, el problema es que la diferencia entre cada
observación y la media se eleva al cuadrado; la suma de esos términos al cuadrado se divide
luego por el número de observaciones.
Específicamente:
Debido a que la diferencia entre cada término y la media se eleva al cuadrado, la fórmula
para calcular la varianza otorga especial importancia a las observaciones que se encuentran
lejos de la media o valores atípicos, como lo ilustra la siguiente tabla de alturas de los estudiantes.
* El valor absoluto es la distancia entre dos figuras, independientemente de la dirección, por lo que siempre es
positivo. En este caso, representa el número de pulgadas entre la altura del individuo y la media.
Ambos grupos de estudiantes tienen una altura media de 70 pulgadas. Las alturas de los
estudiantes de ambos grupos también difieren de la media en el mismo número de pulgadas
totales: 14. Según esa medida de dispersión, las dos distribuciones son idénticas.
Sin embargo, la varianza para el Grupo 2 es mayor debido al peso dado en la fórmula de
varianza a los valores que se encuentran particularmente alejados de la media (Sahar y Narciso
en este caso).
La varianza rara vez se utiliza como estadística descriptiva por sí sola. En cambio, la varianza
es más útil como paso hacia el cálculo de la desviación estándar de una distribución, que es una
herramienta más intuitiva como estadística descriptiva.
La desviación estándar de un conjunto de observaciones es la raíz cuadrada de la varianza:
Para cualquier conjunto de n observaciones x1, ... xn con media µ,

x2, x3 desviación estándar = σ = raíz cuadrada de esta cantidad total =
* Con doce clientes del bar, la mediana sería el punto medio entre los ingresos del hombre en el sexto taburete y los ingresos
del hombre en el séptimo taburete. Dado que ambos ganan $35 000, la mediana es $35 000.
Si uno ganara $35 000 y el otro $36 000, la mediana para todo el grupo sería $35 500.
* Actualización de fabricación: Resulta que casi todas las impresoras defectuosas se fabricaban en una planta en Kentucky
donde los trabajadores habían quitado piezas de la línea de montaje para construir una destilería de bourbon. Tanto los
empleados perpetuamente borrachos como las piezas que faltan al azar en la línea de montaje parecen haber comprometido
la calidad de las impresoras que se producen allí.
* Sorprendentemente, esta persona era una de las diez personas con ingresos anuales de 35.000 dólares que estaban
sentadas en taburetes de bar cuando Bill Gates entró con su loro. ¡Imagínate!
CAPÍTULO 3
Descripción engañosa “¡Tiene

una gran personalidad!” y otras declaraciones
verdaderas pero tremendamente engañosas
Para cualquiera que alguna vez haya pensado en tener una cita, la frase "tiene una gran personalidad"
suele hacer sonar las alarmas, no porque la descripción sea necesariamente incorrecta, sino por lo
que tal vez no revele, como el hecho de que el chico tiene antecedentes penales. o que su divorcio
“no es del todo definitivo”. No dudamos que este chico tiene una gran personalidad; Tememos que
una afirmación verdadera, la gran personalidad, se esté utilizando para enmascarar u oscurecer otra
información de una manera que sea seriamente engañosa (suponiendo que la mayoría de nosotros
preferiría no salir con ex delincuentes que todavía están casados). La declaración no es una mentira
per se, lo que significa que no lo condenaría por perjurio, pero aún así podría ser tan inexacta como
para ser falsa.
Y lo mismo ocurre con las estadísticas. Aunque el campo de la estadística tiene sus raíces en las
matemáticas y las matemáticas son exactas, el uso de la estadística para describir fenómenos
complejos no es exacto. Eso deja mucho espacio para oscurecer la verdad. Mark Twain señaló que
hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas.
* Como se explicó en el último capítulo, la mayoría de los fenómenos que nos interesan
pueden describirse de múltiples maneras. Una vez que existen múltiples formas de describir la misma
cosa (por ejemplo, "tiene una gran personalidad" o "fue condenado por fraude de valores"), las
estadísticas descriptivas que decidamos usar (o no usar) tendrán un impacto profundo. en la
impresión que nos vamos. Alguien con motivos nefastos puede utilizar hechos y cifras perfectamente
válidos para respaldar conclusiones totalmente discutibles o ilegítimas.
Deberíamos comenzar con la distinción crucial entre "precisión" y "exactitud". Estas palabras no
son intercambiables. La precisión refleja la exactitud con la que podemos expresar algo. En una
descripción de la longitud de su viaje, “41,6 millas” es más preciso que “alrededor de 40 millas”, que
es más preciso que “un camino largo y jodido”. Si me preguntas qué tan lejos está la gasolinera más
cercana y te digo que está 1.265 millas al este, esa es una respuesta precisa. Aquí está el problema:
esa respuesta puede ser completamente inexacta si la gasolinera está en la otra dirección. Por otro
lado, si te digo,
“Conduce unos diez minutos hasta que veas un puesto de perritos calientes. La gasolinera
estará unos cientos de metros después a la derecha. Si pasas los Hooters, has ido demasiado
lejos”, mi respuesta es menos precisa que “1,265 millas al este”, pero significativamente mejor
porque te envío en dirección a la gasolinera.
La exactitud es una medida de si una cifra es, en términos generales, consistente con la verdad;
de ahí el peligro de confundir precisión con exactitud. Si una respuesta es precisa, una mayor
precisión suele ser mejor. Pero ninguna precisión puede compensar la inexactitud.
De hecho, la precisión puede enmascarar la inexactitud al darnos una falsa sensación de

certeza, ya sea de forma inadvertida o deliberada. Joseph McCarthy, el senador de Wisconsin
que hostigaba a los rojos, alcanzó el apogeo de sus imprudentes acusaciones en 1950 cuando
alegó no sólo que el Departamento de Estado de Estados Unidos estaba infiltrado con
comunistas, sino que tenía una lista de sus nombres. Durante un discurso en Wheeling, Virginia
Occidental, McCarthy agitó en el aire un trozo de papel y declaró: “Tengo aquí en mi mano una
lista de 205, una lista de nombres que se le dieron a conocer al Secretario de Estado como
miembros de el Partido Comunista y que, sin embargo, siguen trabajando y dando forma a la
política en el Departamento de Estado”. 1
Resulta que el periódico no tenía ningún nombre, pero la especificidad de la acusación le dio
credibilidad, a pesar de que era una mentira descarada.
Aprendí la importante distinción entre precisión y exactitud en un contexto menos malicioso.
Un año, para Navidad, mi esposa me compró un telémetro de golf para calcular las distancias
en el campo desde mi pelota de golf hasta el hoyo. El dispositivo funciona con una especie de
láser; Me paro junto a mi bola en la calle (o en el rugoso) y apunto el telémetro a la bandera en
el green, momento en el que el dispositivo calcula la distancia exacta a la que se supone que
debo golpear la bola. Esta es una mejora con respecto a los marcadores de yardas estándar,
que dan distancias solo hasta el centro del green (y por lo tanto son precisos pero menos
precisos). Con mi telémetro de regalo de Navidad pude saber que estaba a 147,2 yardas del
hoyo. Esperaba que la precisión de esta ingeniosa tecnología mejorara mi juego de golf.
En cambio, empeoró apreciablemente.

Hubo dos problemas. Primero, usé el estúpido dispositivo durante tres meses antes de darme
cuenta de que estaba configurado en metros en lugar de yardas; todos los cálculos aparentemente
precisos (147.2) estaban equivocados. En segundo lugar, a veces, sin darme cuenta, apuntaba
el rayo láser a los árboles detrás del green, en lugar de a la bandera que marca el hoyo, de
modo que mi tiro “perfecto” llegaría exactamente a la distancia que se suponía que debía
recorrer: justo sobre el green hacia el hoyo. bosque. La lección para mí, que se aplica a todo
análisis estadístico, es que incluso las mediciones o cálculos más precisos deben cotejarse con
el sentido común.
Para tomar un ejemplo con implicaciones más serias, muchas de las empresas de Wall Street
Los modelos de gestión de riesgos anteriores a la crisis financiera de 2008 eran bastante precisos.
El concepto de “valor en riesgo” permitió a las empresas cuantificar con precisión la cantidad de
capital de la empresa que podría perderse en diferentes escenarios. El problema era que los
modelos supersofisticados equivalían a configurar mi telémetro en metros en lugar de yardas. Las
matemáticas eran complejas y arcanas. Las respuestas que produjo fueron tranquilizadoramente
precisas. Pero las suposiciones sobre lo que podría pasar con los mercados globales que estaban
incluidas en los modelos eran simplemente erróneas, lo que hacía que las conclusiones fueran
totalmente inexactas de maneras que desestabilizaron no sólo a Wall Street sino a toda la economía
global.
Incluso las estadísticas descriptivas más precisas y exactas pueden sufrir un problema más
fundamental: la falta de claridad sobre qué es exactamente lo que estamos tratando de definir,
describir o explicar. Los argumentos estadísticos tienen mucho en común con los malos matrimonios;
los litigantes a menudo hablan entre sí. Consideremos una cuestión económica importante: ¿Qué
tan saludable es la industria manufacturera estadounidense? A menudo se oye decir que se están
perdiendo enormes cantidades de empleos en el sector manufacturero estadounidense en favor de
China, la India y otros países con salarios bajos. También se oye decir que la manufactura de alta
tecnología todavía prospera en Estados Unidos y que Estados Unidos sigue siendo uno de los
principales exportadores de productos manufacturados del mundo. ¿Cuál es? Este parecería ser un
caso en el que un análisis sólido de buenos datos podría conciliar estas narrativas contrapuestas.
¿Es la industria manufacturera estadounidense rentable y globalmente competitiva, o se está
reduciendo ante la intensa competencia extranjera?
Ambos. La revista británica The Economist concilió ambos aspectos aparentemente
puntos de vista contradictorios sobre la fabricación estadounidense con el siguiente gráfico.
“La recuperación del cinturón industrial,” 10 de marzo de 2011
La aparente contradicción radica en cómo se define la “salud” de la industria manufacturera

estadounidense. En términos de producción (el valor total de los bienes producidos y vendidos), el
sector manufacturero estadounidense creció de manera constante en la década de 2000, sufrió un
gran golpe durante la Gran Recesión y desde entonces se ha recuperado con fuerza. esto es consistente
con datos del World Factbook de la CIA que muestran que Estados Unidos es el tercer mayor exportador
manufacturero del mundo, detrás de China y Alemania.
Estados Unidos sigue siendo una potencia manufacturera.
Pero el gráfico de The Economist tiene una segunda línea, que es el empleo manufacturero. El número
de empleos manufactureros en Estados Unidos ha caído constantemente; En la última década se perdieron
aproximadamente seis millones de empleos en el sector manufacturero.
Juntas, estas dos historias (aumento de la producción manufacturera y caída del empleo) cuentan la historia
completa. La manufactura en Estados Unidos se ha vuelto cada vez más productiva, lo que significa que las
fábricas están produciendo más con menos trabajadores. Esto es bueno desde el punto de vista de la
competitividad global, porque hace que los productos estadounidenses sean más competitivos con respecto
a los productos manufacturados de países con salarios bajos. (Una forma de competir con una empresa que
puede pagar a sus trabajadores 2 dólares la hora es crear un proceso de fabricación tan eficiente que un
trabajador que gane 40 dólares pueda hacer veinte veces más.) Pero hay muchos menos empleos en el
sector manufacturero, lo cual es una noticia terrible para los trabajadores desplazados que dependían de
esos salarios.
Dado que este es un libro sobre estadísticas y no sobre manufactura, volvamos al punto principal, que
es que la “salud” de la industria manufacturera estadounidense –algo aparentemente fácil de cuantificar–
depende de cómo se decide definir la salud: ¿producción o empleo? En este caso (y en muchos otros), la
historia más completa viene de incluir ambas cifras, como sabiamente decidió hacer The Economist en su
gráfico.
Incluso cuando estamos de acuerdo sobre una única medida de éxito, digamos, los puntajes de los
exámenes de los estudiantes, hay mucho margen de maniobra estadística. Vea si puede conciliar las
siguientes afirmaciones hipotéticas, las cuales podrían ser ciertas:
Político A (el retador): “¡Nuestras escuelas están empeorando! El sesenta por ciento de nuestras escuelas
obtuvieron puntajes de exámenes más bajos este año que el año pasado”.
Político B (el titular): “¡Nuestras escuelas están mejorando! El ochenta por ciento de nuestros estudiantes
obtuvieron puntuaciones más altas en los exámenes este año que el año pasado”.
He aquí una pista: no todas las escuelas tienen necesariamente el mismo número de estudiantes. Si
echas otro vistazo a las declaraciones aparentemente contradictorias, lo que verás es que un político está
utilizando las escuelas como su unidad de análisis (“Sesenta por ciento de nuestras escuelas...”), y el otro
está utilizando a los estudiantes como unidad. de análisis (“Ochenta por ciento de nuestros estudiantes…”).
La unidad de análisis es la entidad que las estadísticas comparan o describen: el desempeño escolar de una
de ellas y el desempeño de los estudiantes de la otra. Es completamente posible que la mayoría de los
estudiantes mejoren y que la mayoría de las escuelas empeoren, si los estudiantes que muestran mejoras
pertenecen a escuelas muy grandes. Para que este ejemplo sea más intuitivo, hagamos el mismo ejercicio
utilizando los estados americanos:
Político A (populista): “¡Nuestra economía está en la mierda! Treinta estados habían

caída de ingresos el año pasado”.
Político B (más elitista): “Nuestra economía está mostrando ganancias apreciables: el setenta por
ciento de los estadounidenses tuvieron ingresos crecientes el año pasado”.
Lo que inferiría de esas afirmaciones es que los estados más grandes tienen las economías
más sanas: Nueva York, California, Texas, Illinois, etc. Es probable que los treinta estados con
ingresos medios en caída sean mucho más pequeños: Vermont, Dakota del Norte, Rhode
Island, etc. Dada la disparidad en el tamaño de los estados, es muy posible que a la mayoría
de los estados les vaya peor mientras que a la mayoría de los estadounidenses les vaya mejor.
La lección clave es prestar atención a la unidad de análisis. ¿A quién o qué se describe? ¿Es
eso diferente del “quién” o el “qué” descrito por otra persona?
Aunque los ejemplos anteriores son hipotéticos, he aquí una pregunta estadística crucial que
no lo es: ¿está la globalización mejorando o empeorando la desigualdad de ingresos en todo el
planeta? Según una interpretación, la globalización no ha hecho más que exacerbar las
desigualdades de ingresos existentes; En 1980, los países más ricos (medidos por el PIB per
2 El
cápita) tendieron a crecer más rápidamente entre 1980 y 2000 que los países más
pobres. los países ricos simplemente se volvieron más ricos, lo que sugiere que el comercio, la
subcontratación, la inversión extranjera y los demás componentes de la “globalización” son
meras herramientas para que el mundo desarrollado extienda su hegemonía económica. ¡Abajo la globalizació
¡Abajo la globalización!
Pero espera un momento. Los mismos datos pueden (y deben) interpretarse de manera
completamente diferente si se cambia la unidad de análisis. No nos importan los países pobres;
Nos preocupamos por los pobres. Y resulta que una alta proporción de los pobres del mundo
vive en China y la India. Ambos países son enormes (con una población de más de mil
millones); ambos eran relativamente pobres en 1980. China y la India no sólo han crecido
rápidamente durante las últimas décadas, sino que lo han hecho en gran parte debido a su
mayor integración económica con el resto del mundo. Son “globalizadores rápidos”, como los
ha descrito The Economist .
Dado que nuestro objetivo es aliviar la miseria humana, no tiene sentido darle a China (con una
población de 1.300 millones) el mismo peso que a Mauricio (con una población de 1,3 millones)
al examinar los efectos de la globalización sobre los pobres.
La unidad de análisis deberían ser las personas, no los países. Lo que realmente sucedió
entre 1980 y 2000 se parece mucho al ejemplo de mi escuela falsa anterior. La mayor parte de
los pobres del mundo vivía en dos países gigantes que crecieron extremadamente rápido a
medida que se integraban más a la economía global. Un análisis adecuado arroja una
conclusión completamente diferente sobre los beneficios de la globalización para los pobres
del mundo. Como señala The Economist , “si se consideran las personas, no los países, la
desigualdad global está disminuyendo rápidamente”.
Las empresas de telecomunicaciones AT&T y Verizon se han involucrado recientemente en

una batalla publicitaria que explota este tipo de ambigüedad sobre lo que se describe. Ambas
empresas brindan servicio de telefonía celular. Una de las principales preocupaciones de la
mayoría de los usuarios de teléfonos móviles es la calidad del servicio en los lugares donde es
probable que realicen o reciban llamadas telefónicas. Por tanto, un punto lógico de comparación
entre las dos empresas es el tamaño y la calidad de sus redes.
Si bien los consumidores sólo quieren un servicio de telefonía celular decente en muchos
lugares, tanto AT&T como Verizon han ideado diferentes métricas para medir la demanda algo
amorfa de “un servicio de telefonía celular decente en muchos lugares”.
Verizon lanzó una agresiva campaña publicitaria promocionando la cobertura geográfica de su
red; Quizás recuerde los mapas de Estados Unidos que mostraban el gran porcentaje del país
cubierto por la red de Verizon en comparación con la cobertura geográfica relativamente
insignificante de la red de AT&T.
La unidad de análisis elegida por Verizon es el área geográfica cubierta, porque la empresa
tiene más.
AT&T respondió lanzando una campaña que cambió la unidad de análisis.
Sus carteles anunciaban que “AT&T cubre al 97 por ciento de los estadounidenses”. Tenga en
cuenta el uso de la palabra "estadounidenses" en lugar de "Estados Unidos". AT&T se centró
en el hecho de que la mayoría de la gente no vive en las zonas rurales de Montana o en el
desierto de Arizona. Dado que la población no está distribuida uniformemente en la geografía
física de los Estados Unidos, la clave para un buen servicio celular (la campaña argumentó
implícitamente) es tener una red donde las personas que llaman realmente vivan y trabajen, no
necesariamente donde van a acampar. Sin embargo, como alguien que pasa bastante tiempo
en la zona rural de New Hampshire, simpatizo con Verizon en este caso.
Nuestros viejos amigos, la media y la mediana, también pueden usarse para fines nefastos.
Como recordará del capítulo anterior, tanto la mediana como la media son medidas del “centro”
de una distribución, o su “tendencia central”. La media es un promedio simple: la suma de las
observaciones dividida por el número de observaciones. (La media de 3, 4, 5, 6 y 102 es 24).
La mediana es el punto medio de la distribución; la mitad de las observaciones se encuentran
por encima de la mediana y la otra mitad por debajo. (La mediana de 3, 4, 5, 6 y 102 es 5.)
Ahora, el lector inteligente verá que hay una diferencia considerable entre 24 y 5. Si, por alguna
razón, quisiera describir este grupo de números de una manera que los haga parecer grandes,
me centraré en la media. Si quiero que parezca más pequeño, citaré la mediana.
Ahora veamos cómo se desarrolla esto en la vida real. Consideremos los recortes de
impuestos de George W. Bush, que fueron promocionados por la administración Bush como
algo bueno para la mayoría de las familias estadounidenses. Mientras impulsaba el plan, la
administración señaló que 92 millones de estadounidenses recibirían una reducción fiscal promedio de más de
1.000 dólares (1.083 dólares para ser precisos). ¿Pero fue exacto ese resumen del recorte de impuestos?
Según el New York Times, "Los datos no mienten, pero algunos de ellos son falsos".
¿Recibirían un recorte de impuestos 92 millones de estadounidenses? Sí.

¿La mayoría de esas personas obtendrían un recorte de impuestos de alrededor de 1.000 dólares? No. El
El recorte de impuestos medio fue inferior a 100 dólares.
Un número relativamente pequeño de personas extremadamente ricas tenían derecho a grandes recortes
de impuestos; Estas grandes cifras distorsionan la media, haciendo que el recorte fiscal promedio parezca
mayor de lo que la mayoría de los estadounidenses probablemente recibirían. La mediana no es sensible a
los valores atípicos y, en este caso, es probablemente una descripción más precisa de cómo los recortes de
impuestos afectaron al hogar típico.
Por supuesto, la mediana también puede hacer su parte para disimular porque no es sensible a los valores
atípicos. Supongamos que usted tiene una enfermedad potencialmente mortal. La buena noticia es que se ha
desarrollado un nuevo fármaco que podría resultar eficaz. El inconveniente es que es extremadamente caro
y tiene muchos efectos secundarios desagradables.
“¿Pero funciona?” usted pregunta. El médico le informa que el nuevo fármaco aumenta en dos semanas la
esperanza de vida media de los pacientes con su enfermedad. Éstas no son noticias alentadoras; Es posible
que el medicamento no valga la pena por el costo y las molestias. Su compañía de seguros se niega a pagar
el tratamiento; tiene un caso bastante bueno sobre la base de las cifras de esperanza de vida media.
Sin embargo, en este caso la mediana puede ser una estadística terriblemente engañosa. Supongamos que muchos pacientes no
responden al nuevo tratamiento pero que un gran número de pacientes, digamos el 30 o el 40 por ciento, se curan por completo. Este
éxito no se reflejaría en la mediana (aunque la esperanza de vida media de quienes toman el medicamento parecería muy impresionante).
En este caso, los valores atípicos (aquellos que toman el medicamento y viven mucho tiempo) serían muy relevantes para su decisión. Y
no se trata simplemente de un caso hipotético. Al biólogo evolutivo Stephen Jay Gould le diagnosticaron una forma de cáncer que tenía
una mediana de supervivencia de ocho meses; Murió de un tipo de cáncer diferente y no relacionado veinte años después. 3 Gould
escribió posteriormente un famoso artículo titulado “La mediana no es el mensaje”, en el que argumentaba que su conocimiento científico
de las estadísticas lo salvó de la conclusión errónea de que necesariamente estaría muerto en ocho meses. La definición de la mediana
nos dice que la mitad de los pacientes vivirán al menos ocho meses, y posiblemente mucho, mucho más que eso. La distribución de la
mortalidad está “sesgada a la derecha”, lo cual es más que un tecnicismo si uno tiene la enfermedad.
En este ejemplo, la característica definitoria de la mediana: que no pondera las observaciones en función
de qué tan lejos se encuentran del punto medio, sólo en función de
Ya sea que estén arriba o abajo, resulta ser su debilidad. Por el contrario, la media se ve
afectada por la dispersión. Desde el punto de vista de la precisión, la cuestión de la mediana
versus la media gira en torno a si los valores atípicos en una distribución distorsionan lo que se
describe o si, por el contrario, son una parte importante del mensaje.
(Una vez más, el juicio triunfa sobre las matemáticas.) Por supuesto, nada dice que debas elegir la
mediana o la media. Cualquier análisis estadístico exhaustivo probablemente presentaría ambas
cosas. Cuando aparece solo la mediana o la media, puede ser por razones de brevedad, o puede
ser porque alguien está tratando de “persuadir” con estadísticas.
Los de cierta edad quizá recuerden el siguiente intercambio (según yo lo recuerdo) entre los
personajes interpretados por Chevy Chase y Ted Knight en la película Caddyshack. Los dos
hombres se encuentran en el vestuario después de que ambos acaban de salir del campo de
golf:
TED KNIGHT: ¿Qué disparaste?

CHEVY CHASE: Oh, no llevo la puntuación.
TED KNIGHT: Entonces, ¿cómo te comparas con otros golfistas?
CHEVY CHASE: Por altura.
No voy a intentar explicar por qué esto es gracioso. Diré que muchas travesuras estadísticas
surgen de comparaciones de “manzanas y naranjas”. Supongamos que está intentando comparar
el precio de una habitación de hotel en Londres con el precio de una habitación de hotel en
París. Envías a tu hijo de seis años a la computadora para que investigue un poco en Internet,
ya que es mucho más rápido y mejor que tú. Su hijo le informa que las habitaciones de hotel en
París son más caras, alrededor de 180 por noche; una habitación comparable en Londres cuesta
150 por noche.
Probablemente le explicaría a su hijo la diferencia entre libras y euros y luego lo enviaría de
regreso a la computadora para encontrar el tipo de cambio entre las dos monedas para poder
hacer una comparación significativa. (Este ejemplo tiene una base vaga en la verdad: después
de que pagué 100 rupias por una taza de té en la India, mi hija quiso saber por qué todo en la
India era tan caro).
Obviamente, los números de las monedas de diferentes países no significan nada hasta que los
convertimos en unidades comparables. ¿Cuál es el tipo de cambio entre la libra y el euro o, en
el caso de la India, entre el dólar y la rupia?
Esto parece una lección dolorosamente obvia, pero que habitualmente se ignora,
especialmente por los políticos y los estudios de Hollywood. Esta gente reconoce claramente la
diferencia entre euros y libras; en cambio, pasan por alto un ejemplo más sutil de manzanas y
naranjas: la inflación. Un dólar de hoy no es lo mismo que un dólar de hace sesenta años; se
compra mucho menos. Debido a la inflación, algo que
costaba $1 en 1950 costaría $9,37 en 2011. Como resultado, cualquier comparación monetaria entre 1950
y 2011 sin ajustar los cambios en el valor del dólar sería menos precisa que comparar cifras en euros y
libras, ya que el euro y la libra son más cercanos entre sí en valor que un dólar de 1950 a un dólar de 2011.
Este es un fenómeno tan importante que los economistas tienen términos para indicar si las cifras se
han ajustado a la inflación o no. Las cifras nominales no están ajustadas por inflación. Una comparación del
costo nominal de un programa gubernamental en 1970 con el costo nominal del mismo programa en 2011
simplemente compara el tamaño de los cheques que el Tesoro emitió en esos dos años, sin ningún
reconocimiento de que un dólar en 1970 compraba más cosas que un dólar en 2011. Si gastamos $10
millones en un programa en 1970 para brindar asistencia de vivienda a los veteranos de guerra y $40
millones en el mismo programa en 2011, el compromiso federal con ese programa en realidad ha disminuido.
Sí, el gasto ha aumentado en términos nominales, pero eso no refleja el valor cambiante de los dólares que
se gastan. Un dólar de 1970 equivale a 5,83 dólares en 2011; El gobierno necesitaría gastar 58,3 millones
de dólares en beneficios de vivienda para veteranos en 2011 para brindar un apoyo comparable a los 10
millones de dólares que gastaba en 1970.
Las cifras reales , por otra parte, se ajustan a la inflación. La metodología más comúnmente aceptada
es convertir todas las cifras a una sola unidad, como dólares de 2011, para hacer una comparación de
“manzanas con manzanas”. Muchos sitios web, incluido el de la Oficina de Estadísticas Laborales de EE.
UU., tienen calculadoras de inflación simples que compararán el valor de un dólar en diferentes momentos.
Un ejemplo real (sí, un juego de palabras) de cómo las estadísticas pueden verse diferentes cuando * Para
se ajustan a la inflación, consulte el siguiente gráfico del salario mínimo federal de EE. UU., que representa
tanto el valor nominal del salario mínimo como su poder adquisitivo real en dólares de 2010. .
Fuente: http://oregonstate.edu/instruct/anth484/minwage.html.
El salario mínimo federal (el número publicado en el tablón de anuncios en algún rincón
remoto de su oficina) lo fija el Congreso. Este salario, actualmente de 7,25 dólares, es una
cifra nominal. Su jefe no tiene que asegurarse de que con 7,25 dólares se pueda comprar
tanto como hace dos años; solo tiene que asegurarse de que usted reciba un mínimo de
$7,25 por cada hora de trabajo que realice. Lo importante es el número del cheque, no lo
que ese número puede comprar.
Sin embargo, la inflación erosiona con el tiempo el poder adquisitivo del salario mínimo
(y de todos los demás salarios nominales, razón por la cual los sindicatos suelen negociar
“ajustes por costo de vida”). Si los precios aumentan más rápido de lo que el Congreso
aumenta el salario mínimo, el valor real de ese pago mínimo por hora caerá. Los partidarios
de un salario mínimo deberían preocuparse por el valor real de ese salario, ya que el
objetivo de la ley es garantizar a los trabajadores con salarios bajos un nivel mínimo de
consumo por una hora de trabajo, no darles un cheque con una gran cantidad. que compra
menos que antes. (Si ese fuera el caso, entonces podríamos pagar a los trabajadores con
salarios bajos en rupias).
Los estudios de Hollywood pueden ser los más atroces ajenos a las distorsiones causadas por la inflación al comparar cifras en
diferentes momentos en el tiempo, y de manera deliberada. ¿Cuáles fueron las cinco películas más taquilleras (nacionales) de las cinco
épocas en 2011?
1.Avatar ( 2009)
2. Titanic (1997)
3. El caballero oscuro (2008)
4. Star Wars Episodio IV (1977)
5.Shrek 2 (2004)
Ahora puede que sientas que esa lista parece un poco sospechosa. Fueron películas
exitosas, pero ¿Shrek 2? ¿Fue realmente un éxito comercial mayor que Lo que el viento se
llevó? ¿El Padrino? ¿Mandíbulas? No, no y no. A Hollywood le gusta hacer que cada éxito de
taquilla parezca más grande y exitoso que el anterior. Una forma de hacerlo sería cotizar los
ingresos de taquilla en rupias indias, lo que inspiraría titulares como el siguiente: “¡Harry Potter
bate récord de taquilla con ingresos de fin de semana de 1,3 billones!” Pero incluso los cinéfilos
más tontos sospecharían de cifras que son grandes sólo porque están cotizadas en una
moneda con relativamente poco poder adquisitivo. En cambio, los estudios de Hollywood (y
los periodistas que informan sobre ellos) simplemente utilizan cifras nominales, lo que hace
que las películas recientes parezcan exitosas en gran medida porque los precios de las
entradas son más altos ahora que hace diez, veinte o cincuenta años. (Cuando se estrenó Lo
que el viento se llevó en 1939, un billete costaba alrededor de 0,50 dólares). La forma más
precisa de comparar el éxito comercial a lo largo del tiempo sería ajustar los recibos de los
billetes a la inflación. Ganar 100 millones de dólares en 1939 es mucho más impresionante
que ganar 500 millones de dólares en 2011. Entonces, ¿cuáles son las películas más
taquilleras en Estados Unidos de todos los tiempos, ajustadas a la inflación?
6
1. Lo que el viento se llevó (1939)

2. Star Wars Episodio IV (1977)
3. El sonido de la música (1965)
4. ET (1982)
5. Los Diez Mandamientos (1956)
En términos reales, Avatar cae al puesto 14; Shrek 2 cae hasta el puesto 31.
Incluso comparar manzanas con manzanas deja mucho espacio para travesuras. Como se
analizó en el último capítulo, una función importante de las estadísticas es describir los
cambios en las cantidades a lo largo del tiempo. ¿Están subiendo los impuestos? ¿Cuántas
hamburguesas con queso estamos vendiendo en comparación con el año pasado? ¿En
cuánto hemos reducido el arsénico en nuestra agua potable? A menudo utilizamos porcentajes
para expresar estos cambios porque nos dan una sensación de escala y contexto. Entendemos
lo que significa reducir la cantidad de arsénico en el agua potable en un 22 por ciento, mientras
que pocos de nosotros sabríamos si reducir el arsénico en un microgramo (la reducción
absoluta) sería un cambio significativo o no. Los porcentajes no mienten, pero pueden
exagerar. Una forma de hacer que el crecimiento parezca explosivo es utilizar el cambio
porcentual para describir algún cambio en relación con un punto de partida muy bajo. Vivo en
el condado de Cook, Illinois. Un día me sorprendí al enterarme de que estaba previsto que la
parte de mis impuestos que financiaba el distrito del sanatorio de tuberculosis del condado
suburbano de Cook aumentara en un 527 por ciento. Sin embargo, cancelé mi manifestación
masiva contra los impuestos (que en realidad todavía estaba en la fase de planificación) cuando me enteré de
Me costaría menos que un buen sándwich de pavo. El Distrito Sanatorio de Tuberculosis atiende
aproximadamente un centenar de casos al año; no es una organización grande ni costosa. El Chicago
SunTimes señaló que para el propietario típico de una vivienda, la factura de impuestos pasaría de 1,15
7 A veces los investigadores
dólares a 6 dólares. calificar una cifra de crecimiento señalando
que proviene “de una base baja”, lo que significa que cualquier aumento parecerá grande en comparación.
Obviamente la otra cara es cierta. Un pequeño porcentaje de una suma enorme puede ser una gran
cifra. Supongamos que el secretario de Defensa informa que el gasto en defensa crecerá sólo un 4 por
ciento este año. ¡Una gran noticia! En realidad no, dado que el presupuesto del Departamento de Defensa
es de casi 700 mil millones de dólares. El cuatro por ciento de 700 mil millones de dólares son 28 mil
millones de dólares, con los que se pueden comprar muchos sándwiches de pavo. De hecho, ese aumento
aparentemente insignificante del 4 por ciento en el presupuesto de defensa es más que todo el presupuesto
de la NASA y aproximadamente lo mismo que los presupuestos de los Departamentos de Trabajo y del
Tesoro combinados.
De manera similar, su bondadoso jefe podría señalar que, para ser justos, todos los empleados
recibirán el mismo aumento este año: 10 por ciento.
Qué gesto tan magnánimo, salvo que si su jefe gana 1 millón de dólares y usted gana 50.000 dólares, su
aumento será de 100.000 dólares y el suyo será de 5.000 dólares. La afirmación “todos recibirán el mismo
aumento del 10 por ciento este año” suena mucho mejor que “mi aumento será veinte veces mayor que el
tuyo”. Ambas cosas son ciertas en este caso.
Cualquier comparación de una cantidad que cambia con el tiempo debe tener un punto inicial y un
punto final. A veces se pueden manipular esos puntos de manera que afecten al mensaje. Una vez tuve
un profesor al que le gustaba hablar sobre sus “diapositivas republicanas” y sus “diapositivas demócratas”.
Se refería a datos sobre el gasto en defensa, y lo que quería decir es que podía organizar los mismos
datos de diferentes maneras para complacer al público demócrata o republicano. Para sus audiencias
republicanas, ofrecería la siguiente diapositiva con datos sobre los aumentos en el gasto en defensa bajo
Ronald Reagan. Es evidente que Reagan ayudó a restaurar nuestro compromiso con la defensa y la
seguridad, lo que a su vez ayudó a ganar la Guerra Fría. Nadie puede mirar estas cifras y no apreciar la
férrea determinación de Ronald Reagan de enfrentarse a los soviéticos.
Gasto en defensa en miles de millones, 19811988

Para los demócratas, mi ex profesor simplemente utilizó los mismos datos (nominales),
pero en un marco temporal más largo. Para este grupo, señaló que Jimmy Carter merece
crédito por iniciar la preparación de la defensa. Como muestra la siguiente diapositiva
“demócrata”, los aumentos del gasto en defensa de 1977 a 1980 muestran la misma tendencia
básica que los aumentos durante la presidencia de Reagan. ¡Gracias a Dios que Jimmy
Carter, graduado de Annapolis y ex oficial naval, comenzó el proceso de hacer que Estados
Unidos volviera a ser fuerte!
Gasto en defensa en miles de millones, 19771988
Fuente: http://www.usgovernmentspending.com/spend.php?
span=usgs302&year=1988&view=1&expand=30&expandC=&units=b&fy=fy12&local=s&state=US&pie=#usgs302.
Si bien el objetivo principal de las estadísticas es presentar una imagen significativa de las
cosas que nos importan, en muchos casos también esperamos actuar en función de estas
cifras. Los equipos de la NFL quieren una medida simple de la calidad del mariscal de campo
para poder encontrar y reclutar jugadores talentosos fuera de la universidad. Las empresas
miden el desempeño de sus empleados para poder promover a los que son valiosos y
despedir a los que no lo son. Existe un aforismo empresarial común: "No se puede gestionar
lo que no se puede medir". Verdadero. Pero será mejor que esté absolutamente seguro de
que lo que está midiendo es realmente lo que está tratando de gestionar.
Considere la calidad de la escuela. Es crucial medir esto, ya que nos gustaría recompensar y emular
a las escuelas “buenas” mientras sancionamos o arreglamos las escuelas “malas”. (Y dentro de cada
escuela, tenemos el desafío similar de medir la calidad de los docentes, por la misma razón básica). La
medida de calidad más común tanto para las escuelas como para los docentes son las calificaciones de
los exámenes. Si los estudiantes obtienen puntuaciones impresionantes en una prueba estandarizada
bien concebida, entonces presumiblemente el maestro y la escuela están haciendo un buen trabajo. Por
el contrario, las malas calificaciones en los exámenes son una señal clara de que mucha gente debería
ser despedida, más temprano que tarde. Estas estadísticas pueden ayudarnos mucho a arreglar nuestro
sistema de educación pública, ¿verdad?
Equivocado. Cualquier evaluación de docentes o escuelas que se base únicamente en los resultados
de las pruebas presentará una imagen peligrosamente inexacta. Los estudiantes que cruzan la puerta
principal de diferentes escuelas tienen antecedentes y habilidades muy diferentes. Sabemos, por ejemplo,
que la educación y los ingresos de los padres de un estudiante tienen un impacto significativo en el
rendimiento, independientemente de a qué escuela asista. La estadística que nos falta en este caso
resulta ser la única que importa para nuestros propósitos: ¿Cuánto del desempeño de un estudiante,
bueno o malo, se puede atribuir a lo que sucede dentro de la escuela (o dentro de un aula en particular)?
Los estudiantes que viven en comunidades ricas y con un alto nivel educativo obtendrán buenos
resultados desde el momento en que sus padres los dejen en la escuela el primer día de jardín de infantes.
La otra cara también es cierta. Hay escuelas con poblaciones extremadamente desfavorecidas en las que
los docentes pueden estar haciendo un trabajo notable, pero los puntajes de los estudiantes en las
pruebas seguirán siendo bajos, aunque no tan bajos como lo habrían sido si los docentes no hubieran
hecho un buen trabajo. Lo que necesitamos es alguna medida de “valor agregado” a nivel escolar, o
incluso a nivel de aula. No queremos saber el nivel absoluto de rendimiento estudiantil; queremos saber
en qué medida el rendimiento estudiantil se ha visto afectado por los factores educativos que estamos
tratando de evaluar.
A primera vista, esto parece una tarea fácil, ya que simplemente podemos darles a los estudiantes una
prueba previa y una prueba posterior. Si conocemos los puntajes de los exámenes de los estudiantes
cuando ingresan a una escuela o salón de clases en particular, entonces podemos medir su desempeño
al final y atribuir la diferencia a lo que sucedió en esa escuela o salón de clases.
Por desgracia, me equivoco de nuevo. Los estudiantes con diferentes habilidades o antecedentes
también pueden aprender a diferentes ritmos. Algunos estudiantes captarán el material más rápido que
otros por razones que no tienen nada que ver con la calidad de la enseñanza. Entonces, si los estudiantes
de la Escuela Acomodada A y de la Escuela Pobre B comienzan a estudiar álgebra al mismo tiempo y al
mismo nivel, la explicación del hecho de que los estudiantes de la Escuela Acomodada A obtengan
mejores resultados en álgebra un año después puede ser que los profesores sean mejores, o puede que
ser que los estudiantes fueran capaces de aprender más rápido, o ambas cosas. Los investigadores están trabajando
Desarrollar técnicas estadísticas que midan la calidad de la instrucción de manera que tengan en cuenta
adecuadamente los diferentes antecedentes y habilidades de los estudiantes. Mientras tanto, nuestros intentos
de identificar las “mejores” escuelas pueden ser ridículamente engañosos.
Cada otoño, varios periódicos y revistas de Chicago publican una clasificación de las “mejores” escuelas
secundarias de la región, generalmente sobre la base de los datos de calificaciones de los exámenes estatales.
Aquí está la parte que hace reír a carcajadas desde un punto de vista estadístico: varias de las escuelas
secundarias que constantemente ocupan los primeros lugares de la clasificación son escuelas de inscripción
selectiva, lo que significa que los estudiantes deben presentar una solicitud para ingresar, y sólo una pequeña
proporción de ellas Se aceptan estudiantes. Uno de los criterios de admisión más importantes son los puntajes
de las pruebas estandarizadas. Así que resumamos: (1) estas escuelas están siendo reconocidas como
“excelentes” por tener estudiantes con puntajes altos en los exámenes; (2) para ingresar a una escuela de
este tipo, uno debe tener puntajes altos en los exámenes. Este es el equivalente lógico a otorgar un premio al
equipo de baloncesto por hacer un trabajo tan excelente al producir estudiantes altos.
Incluso si tienes un indicador sólido de lo que estás tratando de medir y gestionar, los desafíos no han
terminado. La buena noticia es que la “gestión basada en estadísticas” puede mejorar el comportamiento
subyacente de la persona o institución que se gestiona. Si se puede medir la proporción de productos
defectuosos que salen de una línea de montaje, y si esos defectos son una función de cosas que suceden en
la planta, entonces algún tipo de bonificación para los trabajadores ligada a una reducción de productos
defectuosos presumiblemente cambiaría el comportamiento en los tipos correctos de formas. Cada uno de
nosotros responde a los incentivos (incluso si son solo elogios o un mejor lugar para estacionar). Las
estadísticas miden los resultados que importan; Los incentivos nos dan una razón para mejorar esos resultados.
O, en algunos casos, simplemente para que las estadísticas se vean mejor. Ésa es la mala noticia.
Si los administradores escolares son evaluados (y tal vez incluso compensados) sobre la base de la tasa
de graduación de la escuela secundaria de los estudiantes en un distrito escolar en particular, centrarán sus
esfuerzos en aumentar el número de estudiantes que se gradúan. Por supuesto, también pueden dedicar
algún esfuerzo a mejorar la tasa de graduación, lo cual no es necesariamente lo mismo. Por ejemplo, los
estudiantes que abandonan la escuela antes de graduarse pueden clasificarse como “que se alejan” en lugar
de abandonarlos. Este no es simplemente un ejemplo hipotético; es un cargo que se presentó contra el
exsecretario de educación Rod Paige durante su mandato como superintendente escolar de Houston. Paige
fue contratada por el presidente George W.
Bush será secretario de Educación de Estados Unidos debido a su notable éxito en Houston al reducir la tasa
de deserción escolar y mejorar los puntajes de los exámenes.
Si estás al tanto de los pequeños aforismos empresariales que sigo lanzando
Por cierto, aquí hay otro: "Nunca es un buen día cuando 60 Minutes aparece en tu puerta". Dan Rather y el
equipo de 60 Minutes II hicieron un viaje a Houston y descubrieron que la manipulación de las estadísticas era
mucho más impresionante que la mejora educativa.
8
Las escuelas secundarias rutinariamente clasificaban a los estudiantes
que abandonaban la escuela secundaria como transferidos a otra escuela, regresando a su país natal o
saliendo para obtener un Diploma de Equivalencia General (GED), ninguno de los cuales cuenta como
abandono en las estadísticas oficiales. Houston informó una tasa de deserción escolar en toda la ciudad del
1,5 por ciento en el año examinado; 60 Minutes calculó que la verdadera tasa de abandono estaba entre el 25
y el 50 por ciento.
Las artimañas estadísticas con las puntuaciones de los exámenes fueron igualmente impresionantes. Una
forma de mejorar los puntajes de los exámenes (en Houston o en cualquier otro lugar) es mejorar la calidad
de la educación para que los estudiantes aprendan más y obtengan mejores resultados. Ésto es una cosa buena.
Otra forma (menos virtuosa) de mejorar los resultados de los exámenes es evitar que los peores estudiantes
los tomen. Si se eliminan las puntuaciones de los estudiantes de menor rendimiento, la puntuación promedio
en las pruebas de la escuela o distrito aumentará, incluso si el resto de los estudiantes no muestran ninguna
mejora. En Texas, la prueba de rendimiento estatal se realiza en décimo grado. Había evidencia de que las
escuelas de Houston estaban tratando de evitar que los estudiantes más débiles llegaran al décimo grado. En
un ejemplo particularmente atroz, un estudiante pasó tres años en noveno grado y luego fue promovido
directamente al undécimo grado, una manera tortuosamente inteligente de evitar que un estudiante débil
tomara un examen de referencia de décimo grado sin obligarlo a abandonar los estudios (lo que habría
apareció en una estadística diferente).
No está claro que Rod Paige fuera cómplice de este engaño estadístico durante su mandato como
superintendente de Houston; sin embargo, implementó un riguroso programa de rendición de cuentas que
otorgó bonificaciones en efectivo a los directores que cumplieron con sus objetivos de deserción y puntaje en
los exámenes y que despidió o degradó a los directores que no lograron sus objetivos. Los directores
definitivamente respondieron a los incentivos; esa es la lección más importante. Pero será mejor que esté
absolutamente seguro de que las personas que están siendo evaluadas no pueden verse mejor
(estadísticamente) de maneras que no sean consistentes con el objetivo en cuestión.
El estado de Nueva York aprendió esto de la manera más difícil. El estado introdujo “cuadros de mando”
que evalúan las tasas de mortalidad de los pacientes de los cardiólogos que realizan angioplastia coronaria,
un tratamiento común para las enfermedades cardíacas. 9 Esto parece un uso perfectamente razonable y útil
de la estadística descriptiva. Es importante conocer la proporción de pacientes de un cardiólogo que mueren
en cirugía, y tiene sentido que el gobierno recopile y promulgue dichos datos, ya que de otro modo los
consumidores individuales no tendrían acceso a ellos. Entonces, ¿es ésta una buena política? Sí, aparte del
hecho de que probablemente terminó matando gente.
Obviamente, los cardiólogos se preocupan por su “cuadro de mando”. Sin embargo, la forma más
fácil para un cirujano de mejorar su tasa de mortalidad no es matando a menos personas; Es de
suponer que la mayoría de los médicos ya se están esforzando mucho por mantener con vida a sus pacientes.
La forma más fácil para un médico de mejorar su tasa de mortalidad es negarse a operar a los
pacientes más enfermos. Según una encuesta realizada por la Facultad de Medicina y Odontología de
la Universidad de Rochester, el cuadro de mando, que aparentemente sirve a los pacientes, también
puede perjudicarles: el 83 por ciento de los cardiólogos encuestados dijeron que, debido a las
estadísticas públicas de mortalidad, algunos los pacientes que podrían beneficiarse de la angioplastia
podrían no recibir el procedimiento; El 79 por ciento de los médicos dijeron que algunas de sus
decisiones médicas personales habían sido influenciadas por el conocimiento de que los datos de
mortalidad se recopilan y se hacen públicos. La triste paradoja de esta estadística descriptiva
aparentemente útil es que los cardiólogos respondieron racionalmente negando la atención a los
pacientes que más la necesitaban.
Un índice estadístico tiene todos los peligros potenciales de cualquier estadística descriptiva,
además de las distorsiones introducidas al combinar múltiples indicadores en un solo número. Por
definición, cualquier índice será sensible a cómo se construye; se verá afectado tanto por las medidas
que se incluyen en el índice como por cómo se pondera cada una de esas medidas. Por ejemplo, ¿por
qué el índice de pasador de la NFL no incluye ninguna medida de pases completos en terceros
intentos? Y en el caso del Índice de Desarrollo Humano, ¿cómo debería ponderarse la tasa de
alfabetización de un país en relación con el ingreso per cápita? Al final, la pregunta importante es si la
simplicidad y facilidad de uso que se introduce al agrupar muchos indicadores en un solo número
compensa la inexactitud inherente del proceso. A veces esa respuesta puede ser no, lo que nos lleva
de regreso (como prometimos) a las clasificaciones universitarias de US News & World Report
(USNWR) .
Las clasificaciones de USNWR utilizan dieciséis indicadores para calificar y clasificar los colegios,
universidades y escuelas profesionales de Estados Unidos. En 2010, por ejemplo, la clasificación de
universidades nacionales y facultades de artes liberales utilizó la “selectividad estudiantil” como el 15
por ciento del índice; La selectividad de los estudiantes, a su vez, se calcula sobre la base de la tasa
de aceptación de una escuela, la proporción de estudiantes entrantes que se encontraban en el 10 por
ciento superior de su clase de escuela secundaria y los puntajes promedio del SAT y ACT de los
estudiantes entrantes. El beneficio de las clasificaciones de la USNWR es que brindan mucha
información sobre miles de escuelas de una manera sencilla y accesible. Incluso los críticos admiten
que gran parte de la información recopilada sobre los colegios y universidades estadounidenses es
valiosa. Los futuros estudiantes deben conocer la tasa de graduación de una institución y el tamaño
promedio de las clases.
Por supuesto, proporcionar información significativa es una tarea completamente diferente a la de
agrupar toda esa información en una sola clasificación que pretenda
ser autoritario. Para los críticos, las clasificaciones están mal construidas, son engañosas y perjudiciales para
los intereses a largo plazo de los estudiantes. "Una de las preocupaciones es simplemente que se trata de una
lista que pretende clasificar las instituciones en orden numérico, que es un nivel de precisión que esos datos
simplemente no respaldan", dice Michael McPherson,
el ex presidente del Macalester College en Minnesota. 10 ¿Por qué las aportaciones
de los exalumnos deberían contar el 5 por ciento de la puntuación de una escuela? Y si es importante, ¿por
qué no cuenta como el diez por ciento?
Según US News & World Report, “A cada indicador se le asigna un peso (expresado como porcentaje) en
función de nuestros juicios sobre qué medidas de calidad son más importantes”.
11 El juicio es una cosa; la arbitrariedad es otra. La variable más
ponderada en el ranking de universidades y facultades nacionales es la “reputación académica”.

Esta reputación se determina sobre la base de una “encuesta de evaluación de pares” completada
por administradores de otros colegios y universidades y de una encuesta de consejeros escolares
de secundaria. En su crítica general de las clasificaciones, Malcolm Gladwell ofrece una crítica
mordaz (aunque humorística) de la metodología de evaluación por pares. Cita un cuestionario
enviado por un ex presidente del Tribunal Supremo de Michigan a aproximadamente cien
abogados pidiéndoles que clasificaran diez facultades de derecho en orden de calidad. La de
Penn State era una de las facultades de derecho de la lista; los abogados lo clasificaron cerca
del medio. En ese momento, Penn State no tenía una facultad de derecho.
12
A pesar de todos los datos recopilados por USNWR, no es obvio que las clasificaciones midan lo que
debería interesar a los futuros estudiantes: ¿cuánto aprendizaje se lleva a cabo en una institución determinada?
Los fanáticos del fútbol pueden objetar la composición del índice de pasador, pero nadie puede negar que sus
componentes (terminaciones completas, yardas, touchdowns e intercepciones) son una parte importante del
desempeño general de un mariscal de campo. Ese no es necesariamente el caso con los criterios del USNWR ,
la mayoría de los cuales se centran en los insumos (por ejemplo, qué tipo de estudiantes son admitidos, cuánto
se les paga a los profesores, el porcentaje de profesores que trabajan a tiempo completo) en lugar de resultados
educativos. Dos excepciones notables son la tasa de retención de los estudiantes de primer año y la tasa de
graduación, pero ni siquiera esos indicadores miden el aprendizaje. Como señala Michael McPherson:
"Realmente no aprendemos nada de US News sobre si la educación que recibieron durante esos cuatro años
realmente mejoró sus talentos o enriqueció sus conocimientos".
Todo esto seguiría siendo un ejercicio inofensivo, si no fuera por el hecho de que parece fomentar
comportamientos que no son necesariamente buenos para los estudiantes o la educación superior.
Por ejemplo, una estadística utilizada para calcular las clasificaciones son los recursos financieros por
estudiante; el problema es que no existe una medida correspondiente de qué tan bien se está gastando ese
dinero. Una institución que gasta menos dinero para obtener mejores resultados
(y por lo tanto puede cobrar una matrícula más baja) es castigado en el proceso de clasificación.
Los colegios y universidades también tienen un incentivo para alentar a un gran número de
estudiantes a postularse, incluidos aquellos sin esperanzas realistas de ingresar, porque eso
hace que la escuela parezca más selectiva. Esto es un desperdicio de recursos para las escuelas
que solicitan solicitudes falsas y para los estudiantes que terminan postulando sin ninguna
posibilidad significativa de ser aceptados.
Dado que estamos a punto de pasar al capítulo sobre probabilidad, apuesto a que las
clasificaciones de US News & World Report no desaparecerán pronto. Como ha señalado Leon
Botstein, presidente del Bard College, “a la gente le encantan las respuestas fáciles.
13
¿Cuál es el mejor lugar? Numero 1."
La lección general de este capítulo es que la mala conducta estadística tiene muy poco que ver
con malas matemáticas. En todo caso, los cálculos impresionantes pueden ocultar motivos
nefastos. El hecho de que hayas calculado la media correctamente no alterará el hecho de que
la mediana es un indicador más preciso. El juicio y la integridad resultan sorprendentemente
importantes. Un conocimiento detallado de las estadísticas no disuade de cometer delitos, como
tampoco un conocimiento detallado de la ley previene el comportamiento criminal. Tanto con las
estadísticas como con el crimen, ¡los malos a menudo saben exactamente lo que están haciendo!
* Twain atribuyó esta frase al primer ministro británico Benjamin Disraeli, pero no hay constancia de que Disraeli
la haya dicho o escrito alguna vez.
* Disponible en http://www.bls.gov/data/inflation_calculator.htm.
CAPÍTULO 4
Correlación
¿Cómo sabe Netflix qué películas me gustan?
Netflix insiste en que me gustará la película Bhutto, un documental que ofrece una “mirada
profunda y a veces incendiaria sobre la vida y la trágica muerte de la ex primera ministra
paquistaní Benazir Bhutto”. Probablemente me gustará la película Bhutto. (Lo agregué a mi
cola). Las recomendaciones de Netflix que he visto en el pasado han sido fantásticas. Y
cuando me recomiendan una película que ya he visto, normalmente es una que realmente
he disfrutado.
¿Cómo hace Netflix eso? ¿Existe algún equipo masivo de pasantes en la sede
corporativa que haya utilizado una combinación de Google y entrevistas con mi familia y
amigos para determinar si me gustaría un documental sobre un ex primer ministro
paquistaní? Por supuesto que no. Netflix simplemente ha dominado algunas estadísticas
muy sofisticadas. Netflix no me conoce. Pero sí sabe qué películas me gustaron en el
pasado (porque las califiqué). Usando esa información, junto con las calificaciones de otros
clientes y una computadora potente, Netflix puede hacer predicciones sorprendentemente
precisas sobre mis gustos.
Volveré al algoritmo específico de Netflix para realizar estas selecciones; Por ahora, lo
importante es que todo se basa en la correlación. Netflix recomienda películas similares a
otras películas que me han gustado; También recomienda películas que han sido altamente
calificadas por otros clientes cuyas calificaciones son similares a las mías.
Recomendaron a Bhutto por mis calificaciones de cinco estrellas para otros dos
documentales, Enron: The Smartest Guys in the Room y Fog of War.
La correlación mide el grado en que dos fenómenos están relacionados entre sí. Por
ejemplo, existe una correlación entre las temperaturas del verano y las ventas de helados.
Cuando uno sube, también lo hace el otro. Dos variables están correlacionadas
positivamente si un cambio en una se asocia con un cambio en la otra en la misma
dirección, como la relación entre altura y peso. Las personas más altas pesan más (en
promedio); las personas más bajas pesan menos. Una correlación es negativa si un cambio
positivo en una variable se asocia con un cambio negativo en la otra, como la relación entre
ejercicio y peso.
Lo complicado de este tipo de asociaciones es que no todas las observaciones se
ajustan al patrón. A veces las personas bajas pesan más que las altas. A veces las
personas que no hacen ejercicio son más delgadas que las personas que hacen ejercicio todo el tiempo.
Aun así, existe una relación significativa entre la altura y el peso, y entre el ejercicio y el peso.
Si tuviéramos que hacer un diagrama de dispersión de las alturas y pesos de una muestra aleatoria
de los adultos estadounidenses, esperaríamos ver algo como lo siguiente:
Diagrama de dispersión para altura y peso
Si tuviéramos que crear un diagrama de dispersión de la asociación entre el ejercicio (medido en

minutos de ejercicio intensivo por semana) y el peso, esperaríamos una correlación negativa, y
aquellos que hacen más ejercicio tenderían a pesar menos. Pero un patrón que consiste en puntos
esparcidos por la página es una herramienta algo difícil de manejar. (Si Netflix intentara hacerme
recomendaciones de películas trazando las calificaciones de miles de películas de millones de clientes,
los resultados enterrarían la sede central en diagramas de dispersión). En cambio, el poder de la
correlación como herramienta estadística es que podemos resumir una Asociación entre dos variables
en una única estadística descriptiva: el coeficiente de correlación.
El coeficiente de correlación tiene dos características fabulosamente atractivas. Primero, por

razones matemáticas que han sido relegadas al apéndice, es un número único que va de –1 a 1. Una
correlación de 1, a menudo descrita como correlación perfecta, significa que cada cambio en una
variable está asociado con un cambio equivalente en la otra variable en la misma dirección.
Una correlación de –1, o correlación negativa perfecta, significa que cada cambio en una variable
está asociado con un cambio equivalente en la otra variable en la dirección opuesta.
Cuanto más cercana sea la correlación a 1 o –1, más fuerte será la asociación. Una correlación de
0 (o cercana) significa que las variables no tienen una asociación significativa entre sí, como la relación
entre la talla del zapato y el SAT.
puntuaciones.
La segunda característica atractiva del coeficiente de correlación es que no tiene unidades

asociadas. Podemos calcular la correlación entre la altura y el peso, aunque la altura se mida
en pulgadas y el peso en libras.
Incluso podemos calcular la correlación entre la cantidad de televisores que tienen los
estudiantes de secundaria en sus hogares y sus puntajes en el SAT, que les aseguro que serán
positivos. (Más sobre esa relación en un momento.) El coeficiente de correlación hace algo
aparentemente milagroso: colapsa un complejo lío de datos medidos en diferentes unidades
(como nuestros diagramas de dispersión de altura y peso) en una estadística descriptiva única
y elegante.
¿Cómo?
Como siempre, he incluido la fórmula más común para calcular el coeficiente de correlación
en el apéndice al final del capítulo. Esta no es una estadística que vayas a calcular a mano.
(Después de haber ingresado los datos, un paquete de software básico como Microsoft Excel
calculará la correlación entre dos variables). Aún así, la intuición no es tan difícil. La fórmula
para calcular el coeficiente de correlación hace lo siguiente:
1. Calcula la media y la desviación estándar de ambas variables. Si nos atenemos al

ejemplo de la altura y el peso, sabríamos la altura media de las personas de la muestra,
el peso medio de las personas de la muestra y la desviación estándar tanto para la altura
como para el peso.
2. Convierte todos los datos para que cada observación esté representada por su distancia
(en desviaciones estándar) de la media. Quédate conmigo; no es tan complicado. Suponga
que la altura media en la muestra es 66 pulgadas (con una desviación estándar de 5
pulgadas) y que el peso medio es 177 libras (con una desviación estándar de 10 libras).
Ahora suponga que mide 72 pulgadas y pesa 168 libras. También podemos decir que su
altura está 1,2 desviaciones estándar por encima de la media en altura [(72 – 66)/5)] y 0,9
desviaciones estándar por debajo de la media en peso, o –0,9 para los propósitos de la
fórmula [(168 – 177)/10]. Sí, es inusual que alguien esté por encima de la media en altura
y por debajo de la media en peso, pero como has pagado un buen dinero por este libro,
pensé que al menos debería hacerte alto y delgado.
Observe que su altura y peso, que antes se expresaban en pulgadas y libras, se han
reducido a 1,2 y –0,9. Esto es lo que hace que las unidades desaparezcan.
3. Aquí agitaré mis manos y dejaré que la computadora haga el trabajo. Luego, la fórmula
calcula la relación entre la altura y el peso de todos los individuos de la muestra, medido
en unidades estándar. Cuando los individuos de la muestra son altos, digamos, 1,5 o 2
desviaciones estándar por encima de la media, ¿cuál tiende a ser su peso medido en
desviaciones estándar de la media?
la media para el peso? Y cuando los individuos están cerca de la media en términos de altura,
¿cuáles son sus pesos medidos en unidades estándar?
Si la distancia desde la media de una variable tiende a ser consistente en términos generales con la
distancia desde la media de la otra variable (por ejemplo, las personas que están lejos de la media de
altura en cualquier dirección también tienden a estar lejos de la media en la misma dirección para el
peso), entonces esperaríamos una fuerte correlación positiva.
Si la distancia desde la media para una variable tiende a corresponder a una distancia similar desde
la media para la segunda variable en la otra dirección (por ejemplo, las personas que están muy por
encima de la media en términos de ejercicio tienden a estar muy por debajo de la media en términos de
ejercicio), peso), entonces esperaríamos una fuerte correlación negativa.
Si dos variables no tienden a desviarse de la media en ningún patrón significativo (por
ejemplo, talla de calzado y ejercicio), entonces esperaríamos poca o ninguna correlación.
Sufriste muchísimo en esa sección; Pronto volveremos al alquiler de películas.

Sin embargo, antes de regresar a Netflix, reflexionemos sobre otro aspecto de la vida donde la
correlación importa: el SAT. Sí, ese SAT. La prueba de razonamiento SAT, anteriormente conocida
como prueba de aptitud académica, es un examen estandarizado que consta de tres secciones:
matemáticas, lectura y escritura. Probablemente tomaste el SAT, o lo harás pronto.
Probablemente no reflexionaste profundamente sobre por qué tuviste que tomar el SAT. El propósito de
la prueba es medir la capacidad académica y predecir el desempeño universitario. Por supuesto, uno
podría preguntarse razonablemente (especialmente aquellos a quienes no les gustan los exámenes
estandarizados): ¿No es para eso la escuela secundaria? ¿Por qué es tan importante una prueba de
cuatro horas cuando los funcionarios de admisiones universitarias tienen acceso a cuatro años de
calificaciones de la escuela secundaria?
La respuesta a esas preguntas se esconde en los capítulos 1 y 2. Las calificaciones de la escuela
secundaria son una estadística descriptiva imperfecta. Un estudiante que obtiene calificaciones
mediocres mientras toma un horario difícil de clases de matemáticas y ciencias puede tener más
capacidad y potencial académico que un estudiante de la misma escuela con mejores calificaciones en
clases menos desafiantes. Obviamente, existen discrepancias potenciales aún mayores entre las
escuelas. Según el College Board, que produce y administra el SAT, el examen se creó para
“democratizar el acceso a la universidad para todos los estudiantes”. Me parece bien. El SAT ofrece una
medida estandarizada de capacidad que se puede comparar fácilmente entre todos los estudiantes que
solicitan ingreso a la universidad. ¿Pero es una buena medida de habilidad? Si queremos una métrica
que se pueda comparar fácilmente entre estudiantes, también podríamos hacer que todos los estudiantes
del último año de secundaria corran las 100 yardas, que es más barato y más fácil que administrar el
SAT. El problema, por supuesto, es que el rendimiento en las 100 yardas no está correlacionado con el
rendimiento universitario. Es fácil obtener los datos; simplemente no nos dirán nada significativo.
Entonces, ¿qué tan bien le va al SAT en este sentido? Lamentablemente para las generaciones
futuras de estudiantes de secundaria, el SAT hace un trabajo razonablemente bueno al predecir las
calificaciones del primer año universitario. El College Board publica las correlaciones relevantes. En una
escala de 0 (ninguna correlación) a 1 (correlación perfecta), la correlación entre el promedio de
calificaciones de la escuela secundaria y el promedio de calificaciones del primer año de la universidad
es .56. (Para ponerlo en perspectiva, la correlación entre la altura y el peso de los hombres adultos en
los Estados Unidos es de aproximadamente 0,4). La correlación entre el SAT compuesto
El puntaje (lectura crítica, matemáticas y escritura) y el GPA universitario de primer año también es .56.1
Eso parecería ser un argumento a favor de abandonar el SAT, ya que la prueba no parece predecir
mejor el rendimiento universitario que las calificaciones de la escuela secundaria. De hecho, el mejor
predictor de todos es una combinación de los puntajes del SAT y el GPA de la escuela secundaria, que
tiene una correlación de .64 con las calificaciones del primer año universitario. Lo lamento.
Un punto crucial en esta discusión general es que correlación no implica causalidad; Una asociación
positiva o negativa entre dos variables no significa necesariamente que un cambio en una de las
variables esté causando el cambio en la otra. Por ejemplo, antes aludí a una probable correlación
positiva entre los puntajes del SAT de un estudiante y la cantidad de televisores que posee su familia.
Esto no significa que los padres demasiado ansiosos puedan mejorar las calificaciones de sus hijos en
los exámenes comprando cinco televisores adicionales para la casa. Tampoco significa probablemente
que mirar mucha televisión sea bueno para el rendimiento académico.
La explicación más lógica para tal correlación sería que los padres con un alto nivel educativo pueden
permitirse muchos televisores y tienden a tener hijos con mejores resultados que el promedio. Tanto los
televisores como los puntajes de las pruebas probablemente sean causados por una tercera variable,
que es la educación de los padres. No puedo probar la correlación entre los televisores en el hogar y los
puntajes del SAT. (El College Board no proporciona tales datos). Sin embargo, puedo demostrar que los
estudiantes de familias ricas tienen puntuaciones medias en el SAT más altas que los estudiantes de
familias menos ricas. Según el College Board, los estudiantes con ingresos familiares superiores a
200.000 dólares tienen una puntuación media en matemáticas en el SAT de 586, en comparación con
una puntuación media en matemáticas en el SAT de 460 para estudiantes con ingresos familiares de
20.000 dólares o menos. 2 Mientras tanto, también es probable que
las familias con ingresos superiores a 200.000 dólares tengan más televisores en sus (múltiples) hogares
que las familias con ingresos de 20.000 dólares o menos.
Empecé a escribir este capítulo hace muchos días. Desde entonces, tuve la oportunidad de ver el
documental Bhutto. ¡Guau! Esta es una película extraordinaria sobre una familia extraordinaria. Las
imágenes originales, que abarcan desde la partición de India y Pakistán en 1947 hasta el asesinato de
Benazir Bhutto en 2007, son extraordinarias. La voz de Bhutto se entreteje eficazmente a lo largo de la
película en forma de discursos y entrevistas. De todos modos, le di a la película cinco estrellas, lo cual
es
Más o menos lo que Netflix predijo.

En el nivel más básico, Netflix está explotando el concepto de correlación. Primero, califico un
conjunto de películas. Netflix compara mis calificaciones con las de otros clientes para identificar
aquellos cuyas calificaciones están altamente correlacionadas con las mías. A esos clientes les suelen
gustar las películas que a mí me gustan. Una vez establecido esto, Netflix puede recomendar películas
que clientes con ideas afines hayan calificado altamente pero que yo aún no haya visto.
Ese es el "panorama general". La metodología real es mucho más compleja. De hecho, Netflix lanzó
un concurso en 2006 en el que se invitó al público a diseñar un mecanismo que mejorara las
recomendaciones existentes de Netflix en al menos un 10 por ciento (lo que significa que el sistema era
un 10 por ciento más preciso a la hora de predecir cómo un cliente calificaría un producto). película
después de verla).
El ganador se llevaría 1.000.000 de dólares.
Cada individuo o equipo que se registró para el concurso recibió “datos de entrenamiento” que
consistían en más de 100 millones de calificaciones de 18.000 películas de 480.000 clientes de Netflix.
Un conjunto separado de 2,8 millones de calificaciones fue “retenido”, lo que significa que Netflix sabía
cómo calificaban los clientes estas películas, pero los participantes del concurso no. Los competidores
fueron juzgados en función de qué tan bien sus algoritmos predijeron las opiniones reales de los clientes
sobre estas películas retenidas. Durante tres años, miles de equipos de más de 180 países presentaron
propuestas. Había dos requisitos para entrar. Primero, el ganador tuvo que licenciar el algoritmo a
Netflix. Y segundo, el ganador tenía que “describirle al mundo cómo lo hiciste y por qué funciona”. 3 En
2009, Netflix anunció un ganador: un equipo de siete personas compuesto por estadísticos e informáticos
de Estados Unidos,
Austria, Canadá e Israel. Lamentablemente, no puedo describir el sistema ganador, ni siquiera en
un apéndice. El artículo que explica el sistema tiene noventa y dos páginas.
* Estoy impresionado por la

calidad de las recomendaciones de Netflix. Aún así, el sistema es sólo una variación súper elegante de
lo que la gente ha estado haciendo desde los albores del cine: encontrar a alguien con gustos similares
y pedirle una recomendación. Suele gustarte lo que a mí me gusta y no gustarme lo que a mí no me
gusta, entonces, ¿qué te pareció la nueva película de George Clooney?
Ésa es la esencia de la correlación.
APÉNDICE DEL CAPÍTULO 4 Para calcular
el coeficiente de correlación entre dos conjuntos de números, realizaría los siguientes pasos, cada uno
de los cuales se ilustra mediante el uso de datos sobre alturas y pesos de 15 estudiantes hipotéticos en
la siguiente tabla.
1. Convierta la altura de cada estudiante a unidades estándar: (altura –

media)/desviación estándar.
2. Convierta el peso de cada estudiante a unidades estándar: (peso – media)/desviación
estándar.
3. Calcule el producto de cada estudiante de (peso en unidades estándar) × (altura en
unidades estándar). Debería ver que este número será mayor en valor absoluto cuando
la altura y el peso de un estudiante estén relativamente lejos de la media.
4. El coeficiente de correlación es la suma de los productos calculados anteriormente

dividida por el número de observaciones (15 en este caso). La correlación entre altura y
peso para este grupo de estudiantes es .83. Dado que el coeficiente de correlación puede
oscilar entre –1 y 1, se trata de un grado relativamente alto de correlación positiva, como
cabría esperar con la altura y el peso.
La fórmula para calcular el coeficiente de correlación requiere un pequeño desvío con

respecto a la notación. La cifra ∑, conocida como signo de suma, es un carácter útil en
estadística. Representa la suma de la cantidad que le sigue. Por ejemplo, si hay un conjunto
de observaciones x1 , x2 , x3 y x4 , entonces ∑ (xi ) nos dice que debemos sumar las cuatro
observaciones: x1 + x2 + x3 + x4 . Por lo tanto, ∑ (xi ) = x1 + x2 + x3 + x4 .
Nuestra fórmula para la media de un conjunto de i observaciones
podría representarse de la siguiente manera: media = ∑ (xi )/n.
Podemos hacer que la fórmula sea aún más adaptable escribiendo , que suma
la cantidad x1 + x2 + x3 + . . . xn , o, en otras palabras, todos los términos que comienzan con

x1 (porque i = 1) hasta xn (porque i = n). Nuestra fórmula para la media de un conjunto de n
observaciones podría representarse de la siguiente manera:
Dada esa notación general, la fórmula para calcular el coeficiente de correlación, r, para
dos variables xey es la siguiente:
dónde
n = el número de observaciones;
es la media de la variable
x; es la media de la variable
y; σx es la desviación estándar de la variable
x; σy es la desviación estándar de la variable y.
Cualquier programa de software estadístico con herramientas estadísticas también

puede calcular el coeficiente de correlación entre dos variables. En el ejemplo de altura
y peso del estudiante, el uso de Microsoft Excel produce la misma correlación entre
altura y peso para los quince estudiantes que el cálculo manual en el cuadro anterior: 0,83.
* Puedes leerlo en http://www.netflixprize.com/assets/GrandPrize2009_BPC_PragmaticTheory.pdf.

CAPÍTULO 5
Probabilidad básica
No compre la garantía extendida en su impresora de $99
En 1981, Joseph Schlitz Brewing Company gastó 1,7 millones de dólares en lo que parecía ser
una campaña de marketing sorprendentemente audaz y arriesgada para su debilitada marca,
Schlitz. En el entretiempo de la Super Bowl, ante 100 millones de personas en todo el mundo, la
empresa retransmitió en directo una prueba de sabor en la que se enfrentaba la cerveza Schlitz a
1
un competidor clave, Michelob. Más audaz aún, la compañía no eligió bebedores
de cerveza al azar para evaluar las dos cervezas; seleccionó a 100 bebedores de Michelob.
Esta fue la culminación de una campaña que se extendió a lo largo de los playoffs de la NFL. Los
2
En total se realizaron cinco pruebas de sabor televisadas en directo, cada una de las cuales contaba con 100
consumidores de una marca competidora (Budweiser, Miller o Michelob) realizan una prueba de
sabor a ciegas entre su supuesta cerveza favorita y Schlitz. Cada una de las degustaciones de
cerveza se promovió agresivamente, al igual que el partido de playoffs durante el cual se llevaría a
cabo (por ejemplo, “Mira Schlitz v. Bud, en vivo durante los playoffs de la AFC”).
El mensaje de marketing era claro: incluso los bebedores de cerveza que creen que les gusta
otra marca preferirán Schlitz en una prueba de sabor a ciegas. Para el lugar del Super Bowl, Schlitz
incluso contrató a un ex árbitro de la NFL para supervisar la prueba. Dado el riesgo que implica
realizar pruebas de sabor a ciegas frente a grandes audiencias en directo por televisión, se puede
suponer que Schlitz produjo una cerveza espectacularmente deliciosa, ¿verdad?
No necesariamente. Schlitz sólo necesitaba una cerveza mediocre y un sólido conocimiento de
las estadísticas para saber que esta estratagema (un término que no uso a la ligera, ni siquiera
cuando se trata de publicidad de cerveza) casi con certeza funcionaría a su favor. La mayoría de
las cervezas de la categoría Schlitz saben más o menos igual; Irónicamente, ese es exactamente
el hecho que explotó esta campaña publicitaria. Supongamos que el típico bebedor de cerveza de
la calle no puede distinguir Schlitz de Budweiser de Michelob de Miller. En ese caso, una prueba
de sabor a ciegas entre dos cervezas cualesquiera es esencialmente lanzar una moneda al aire.
En promedio, la mitad de los catadores elegirán Schlitz y la otra mitad elegirá la cerveza que les
resulte “desafiante”. Este hecho por sí solo probablemente no haría que una campaña publicitaria
fuera particularmente efectiva. (“No se nota la diferencia, así que también podrías beber Schlitz”).
Y Schlitz de ninguna manera querría hacer esta prueba entre sus propios clientes leales;
Aproximadamente la mitad de estos bebedores de Schlitz elegirían la cerveza de la competencia.
Queda mal cuando los bebedores de cerveza supuestamente más comprometidos con su marca
eligen a un competidor en una prueba de sabor a ciegas, lo cual es
exactamente lo que Schlitz intentaba hacer con sus competidores.

Schlitz hizo algo más inteligente. La genialidad de la campaña fue realizar la prueba de sabor
exclusivamente entre bebedores de cerveza, quienes afirmaron que preferían una cerveza de la
competencia. Si la prueba de sabor a ciegas es en realidad solo lanzar una moneda al aire, entonces
aproximadamente la mitad de los bebedores de Budweiser, Miller o Michelob terminarán eligiendo Schlitz.
Eso hace que Schlitz quede realmente bien. ¡A la mitad de los bebedores de Bud les gusta más Schlitz!
Y luce particularmente bien en el entretiempo del Super Bowl con un ex árbitro de la NFL (de uniforme)
realizando la prueba. Aún así, es televisión en vivo. Incluso si los estadísticos de Schlitz hubieran
determinado mediante un montón de pruebas privadas previas que el típico bebedor de Michelob elegiría
a Schlitz el 50 por ciento de las veces, ¿qué pasaría si los 100 bebedores de Michelob que realizaron la
prueba en el entretiempo del Super Bowl resultaran ser extravagantes? Sí, la prueba de degustación a
ciegas es el equivalente a lanzar una moneda al aire, pero ¿qué pasaría si la mayoría de los catadores
eligieran Michelob simplemente por casualidad? Después de todo, si alineáramos a los mismos 100 tipos
y les pidiéramos que lanzaran una moneda, es muy posible que lanzaran 85 o 90 cruces. Ese tipo de
mala suerte en la prueba de sabor sería un desastre para la marca Schlitz (por no hablar de un
desperdicio de los 1,7 millones de dólares de la cobertura televisiva en directo).
¡Estadísticas al rescate! Si hubiera algún tipo de superhéroe de las estadísticas, habría

* esto es
irrumpido en la sede corporativa de Schlitz y revelado los detalles de lo que los estadísticos llaman un
experimento binomial (también llamado ensayo de Bernoulli). Las características clave de un experimento
binomial son que tenemos un número fijo de pruebas (p. ej., 100 catadores), cada una con dos resultados
posibles (Schlitz o Michelob), y la probabilidad de "éxito" es la misma en cada prueba. (Asumo que la
probabilidad de elegir una cerveza u otra es del 50 por ciento, y defino el “éxito” como que un catador
elija Schlitz.) También asumimos que todas las “pruebas” son independientes, lo que significa que la
decisión de un catador ciego no tiene ningún impacto en la decisión de ningún otro evaluador.
Con sólo esta información, un superhéroe estadístico puede calcular la probabilidad de todos los
diferentes resultados de los 100 ensayos, como 52 Schlitz y 48 Michelob o 31 Schlitz y 69 Michelob.
Aquellos de nosotros que no somos superhéroes estadísticos podemos usar una computadora para
hacer lo mismo. Las posibilidades de los 100 Michelob
gusto probadores cosecha eran 1
en 1.267.650.600.228.229.401.496.703.205.376. Probablemente había una mayor posibilidad de que
todos los probadores murieran en el entretiempo por un asteroide. Más importante aún, los mismos
cálculos básicos pueden darnos la probabilidad acumulada para una variedad de resultados, como las
posibilidades de que 40 o menos evaluadores elijan a Schlitz.
Estas cifras claramente habrían aliviado los temores de la gente de marketing de Schlitz.
Supongamos que Schlitz se habría alegrado si al menos 40 de los 100

Los catadores eligieron Schlitz, un número impresionante dado que todos los hombres que tomaron la prueba
de sabor a ciegas en vivo habían profesado ser bebedores de Michelob. Era muy probable que se produjera un
resultado al menos tan bueno . Si la prueba de sabor es realmente como lanzar una moneda al aire, entonces
la probabilidad básica nos dice que había un 98 por ciento de posibilidades de que al menos 40 de los catadores
eligieran Schlitz, y un 86 por ciento de posibilidades de que al menos 45 de los catadores lo hicieran. † En
teoría, esta no era una táctica muy arriesgada en absoluto.
Entonces, ¿qué pasó con Schlitz? En el entretiempo del Super Bowl de 1981, exactamente 50
El 10 por ciento de los bebedores de Michelob eligieron Schlitz en la prueba de sabor a ciegas.
Hay dos lecciones importantes aquí: la probabilidad es una herramienta notablemente poderosa, y muchas
de las principales cervezas de la década de 1980 eran indistinguibles entre sí. Este capítulo se centrará
principalmente en la primera lección.
La probabilidad es el estudio de eventos y resultados que involucran un elemento de incertidumbre. Invertir en

bolsa implica incertidumbre. Lo mismo ocurre al lanzar una moneda, que puede salir cara o cruz. Lanzar una
moneda cuatro veces seguidas implica capas adicionales de incertidumbre, porque cada uno de los cuatro
lanzamientos puede resultar en cara o cruz. Si lanzas una moneda cuatro veces seguidas, no puedo saber con
certeza el resultado de antemano (tú tampoco). Sin embargo, puedo determinar de antemano que algunos
resultados (dos caras, dos cruces) son más probables que otros (cuatro caras). Como consideró la gente de
Schlitz, ese tipo de conocimientos basados en probabilidades pueden ser extremadamente útiles. De hecho, si
puedes entender por qué la probabilidad de sacar cuatro caras seguidas con una moneda justa es de 1 entre
16, puedes (con un poco de trabajo) entender todo, desde cómo funciona la industria de seguros hasta si un
equipo de fútbol profesional debería patear el balón. punto extra después de un touchdown o buscar una
conversión de dos puntos.
Comencemos con la parte fácil: muchos eventos tienen probabilidades conocidas. La probabilidad de que
salga cara con una moneda justa es ½. La probabilidad de sacar un uno con un solo dado es Otros eventos
.
tienen probabilidades que pueden inferirse sobre la base de datos pasados. La probabilidad de patear con éxito
el punto extra después del touchdown en el fútbol profesional es de 0,94, lo que significa que los pateadores
hacen, en promedio, 94 de cada 100 intentos de punto extra. (Obviamente, esta cifra puede variar ligeramente
para diferentes pateadores, bajo diferentes circunstancias climáticas, etc., pero no va a cambiar radicalmente).
El simple hecho de tener y apreciar este tipo de información a menudo puede aclarar la toma de decisiones y
hacer explícitos los riesgos.
Por ejemplo, la Junta Australiana de Seguridad en el Transporte publicó un informe que cuantifica los riesgos de
muerte para diferentes modos de transporte. A pesar del temor generalizado a volar, los riesgos asociados con
los viajes aéreos comerciales son mínimos. Australia no ha tenido una muerte en aviones comerciales desde la
década de 1960, por lo que la tasa de mortalidad por cada 100 millones de kilómetros recorridos es esencialmente
cero. La tasa para los conductores es de 0,5 víctimas mortales.
por cada 100 millones de kilómetros recorridos. La cifra realmente impresionante es la de las motocicletas,
si aspira a ser donante de órganos. La tasa de mortalidad es treinta y cinco veces mayor entre las
3
motocicletas que entre los automóviles.
En septiembre de 2011, un satélite de la NASA de 6,5 toneladas caía en picado a la Tierra y se
esperaba que se rompiera una vez que impactara la atmósfera terrestre. ¿Cuáles eran las posibilidades
de ser golpeado por los escombros? ¿Debería haber dejado a los niños en casa y sin ir a la escuela? Los
científicos espaciales de la NASA estimaron que la probabilidad de que una persona concreta fuera
alcanzada por una parte del satélite que caía era de 1 entre 21 billones.
Sin embargo, las posibilidades de que cualquier persona en cualquier lugar de la Tierra pudiera ser
*
alcanzada eran de 1 entre 3.200.
Al final, el satélite se rompió en su reingreso, pero los científicos no están
4
del todo seguros de dónde terminaron todas las piezas. ser lastimado. Las nadie informó
probabilidades no nos dicen con certeza qué sucederá; nos dicen qué es probable que suceda y qué es
menos probable que suceda. Las personas sensatas pueden utilizar este tipo de números en los negocios
y en la vida. Por ejemplo, cuando escuche en la radio que un satélite está cayendo a la Tierra, no debe
correr a casa en motocicleta para advertir a la familia.
Cuando se trata de riesgo, nuestros miedos no siempre coinciden con lo que los números nos
dicen que deberíamos temer. Uno de los hallazgos más sorprendentes de Freakonomics, de
Steve Levitt y Stephen Dubner, fue que las piscinas en el patio trasero son mucho más peligrosas
que las armas en el armario. 5 Levitt y Dubner calculan que un niño menor de diez años tiene
cien veces más probabilidades de morir en una piscina que en un accidente con arma de fuego.
† Un artículo intrigante de tres investigadores de Cornell, Garrick Blalock, Vrinda Kadiyali y Daniel
Simon, encontró que miles de estadounidenses pueden haber muerto desde los ataques del 11
de septiembre porque tenían miedo de volar. Sepa que conducir es peligroso. Cuando más
6 Nunca sabremos los verdaderos riesgos asociados con el terrorismo; hacemos
estadounidenses
optaron por conducir en lugar de volar después del 11 de septiembre, se estima que hubo 344
muertes adicionales en accidentes de tránsito por mes en octubre, noviembre y diciembre de
2001 (teniendo en cuenta el número promedio de muertes y otros factores que normalmente
contribuyen a la muerte). accidentes de tráfico, como el clima). Este efecto se disipó con el
tiempo, presumiblemente a medida que disminuyó el miedo al terrorismo, pero los autores del
estudio estiman que los ataques del 11 de septiembre pueden haber causado más de 2.000
muertes al volante.
A veces, la probabilidad también puede decirnos a posteriori lo que probablemente sucedió y lo que
probablemente no sucedió, como en el caso del análisis de ADN. Cuando los técnicos de CSI: Miami
encuentran un rastro de saliva en el corazón de una manzana cerca de una víctima de asesinato, esa
saliva no tiene el nombre del asesino, incluso cuando un técnico muy atractivo la observa bajo un potente
microscopio. En cambio, la saliva (o el cabello, la piel o un fragmento de hueso) contendrá un segmento
de ADN. Cada ADN
El segmento, a su vez, tiene regiones, o loci, que pueden variar de un individuo a otro (excepto
en el caso de los gemelos idénticos, que comparten el mismo ADN). Cuando el médico forense
informa que una muestra de ADN es “coincidente”, eso es sólo una parte de lo que la fiscalía
tiene que probar. Sí, los loci analizados en la muestra de ADN de la escena del crimen deben
coincidir con los loci de la muestra de ADN tomada del sospechoso. Sin embargo, los fiscales
también deben demostrar que la coincidencia entre las dos muestras de ADN no es una mera
coincidencia.
Los humanos comparten similitudes en su ADN, al igual que nosotros compartimos otras
similitudes: talla de zapatos, altura, color de ojos. (Más del 99 por ciento de todo el ADN es
idéntico entre todos los humanos). Si los investigadores tienen acceso sólo a una pequeña
muestra de ADN en la que sólo se pueden analizar unos pocos loci, es posible que miles o
incluso millones de individuos compartan ese fragmento genético. . Por lo tanto, cuantos más loci
se puedan probar y más variación genética natural haya en cada uno de esos loci, más segura
será la coincidencia. O, para decirlo de otra manera, es menos probable que la muestra de ADN
7
coincida con más de una persona.
Para entender esto, imagine que su “número de ADN” consiste en su número de teléfono
adjunto a su número de Seguro Social. Esta secuencia de diecinueve dígitos lo identifica de
manera única. Considere cada dígito como un “lugar” con diez posibilidades: 0, 1, 2, 3, etc. Ahora
supongamos que los investigadores de la escena del crimen encuentran el remanente de un
_ 9con
“número de ADN” en la escena del crimen: 4 5 9 4 0 Esto coincide exactamente 8 1su
7 “número
_.
de ADN”. ¿Eres culpable?
Deberías ver tres cosas. En primer lugar, cualquier cosa que no sea una coincidencia completa
del genoma completo deja cierto margen de incertidumbre. En segundo lugar, cuantos más “loci”
se puedan probar, menos incertidumbre quedará. Y tercero, el contexto importa. Esta coincidencia
sería extremadamente convincente si también te pillaran alejándote a toda velocidad de la escena
del crimen con las tarjetas de crédito de la víctima en el bolsillo.
Cuando los investigadores tienen tiempo y recursos ilimitados, el proceso típico implica probar
trece loci diferentes. Las posibilidades de que dos personas compartan el mismo perfil de ADN
en los trece loci son extremadamente bajas. Cuando se utilizó ADN para identificar los restos
encontrados en el World Trade Center después del 11 de septiembre, las muestras encontradas
en el lugar se compararon con muestras proporcionadas por familiares de las víctimas. La
probabilidad requerida para establecer una identificación positiva era de una entre mil millones,
lo que significa que la probabilidad de que los restos descubiertos pertenecieran a alguien distinto
de la víctima identificada debía juzgarse como una entre mil millones o menos. Más adelante en
la búsqueda, esta norma se relajó, ya que había menos víctimas no identificadas con las que se
pudieran confundir los restos.
Cuando los recursos son limitados, o la muestra de ADN disponible es demasiado pequeña o
demasiado contaminada para analizar trece loci, las cosas se vuelven más interesantes y
controversial. Los Angeles Times publicó una serie en 2008 examinando el uso del ADN
como prueba criminal. 8 En particular, el Times cuestionó si las probabilidades típicamente
utilizadas por las fuerzas del orden subestiman la probabilidad de coincidencias coincidentes.
(Dado que nadie conoce el perfil de ADN de toda la población, las probabilidades presentadas
ante el tribunal por el FBI y otras entidades encargadas de hacer cumplir la ley son
estimaciones). El rechazo intelectual fue instigado cuando un analista de un laboratorio
criminalístico en Arizona que realizaba pruebas con la base de datos de ADN del estado
descubrió dos delincuentes no relacionados cuyo ADN coincidía en nueve loci; Según el FBI,
las posibilidades de una coincidencia de nueve loci entre dos personas no relacionadas son
de 1 entre 113 mil millones. Búsquedas posteriores en otras bases de datos de ADN arrojaron
más de mil parejas humanas con coincidencias genéticas en nueve loci o más. Dejaré este
tema para que lo resuelvan los abogados defensores y encargados de hacer cumplir la ley.
Por ahora, la lección es que la deslumbrante ciencia del análisis de ADN es tan buena como
las probabilidades utilizadas para respaldarla.
A menudo es extremadamente valioso conocer la probabilidad de que ocurran múltiples

eventos. ¿Cuál es la probabilidad de que se vaya la electricidad y el generador no funcione?
La probabilidad de que ocurran dos eventos independientes es el producto de sus respectivas
probabilidades. En otras palabras, la probabilidad de que ocurra el Evento A y el Evento B es
la probabilidad del Evento A multiplicada por la probabilidad del Evento B. Un ejemplo lo hace
mucho más intuitivo. Si la probabilidad de que salga cara con una moneda justa es ½, entonces
la probabilidad de que salga cara dos veces seguidas es ½ × ½, o ¼. La probabilidad de
obtener tres caras seguidas es ⅛, la probabilidad de cuatro caras seguidas es 1/16, y así
sucesivamente. (Deberías ver que la probabilidad de sacar cuatro cruces seguidas también es
1/16.) Esto explica por qué el administrador del sistema de tu escuela u oficina está
constantemente pendiente de ti para mejorar la “calidad” de tu contraseña. Si tienes una
contraseña de seis dígitos usando sólo dígitos numéricos, podemos calcular el número de
contraseñas posibles: 10 × 10 × 10 × 10 × 10 × 10, lo que equivale a 10 o 1.000.000. Parecen
6
,
muchas posibilidades, pero una computadora podría analizar todas las 1.000.000 de
combinaciones posibles en una fracción de segundo.
Entonces, supongamos que el administrador de su sistema lo arenga lo suficiente como para que incluya letras en su contraseña.
En ese momento, cada uno de los 6 dígitos ahora tiene 36 combinaciones: 26 letras y 10 dígitos. El número de contraseñas posibles
supera los dos mil millones. Si su tamaño crece a 36 × 36 × 36 × 36 × 36 × 36, o 36, el administrador exige ocho dígitos y le insta a
6
Universidad de Chicago, el número de contraseñas potenciales es 8. sube , utilizar símbolos como #, @, % y !, como hace la
a 46 o poco más de 20 billones.
,
Aquí hay una distinción crucial. Esta fórmula es aplicable sólo si el
Los eventos son independientes, lo que significa que el resultado de uno no tiene efecto sobre
el resultado de otro. Por ejemplo, la probabilidad de que arrojes cara en el primer lanzamiento
no cambia la probabilidad de que arrojes cara en el segundo lanzamiento. Por otro lado, la
probabilidad de que llueva hoy no es independiente de si llovió ayer, ya que los frentes de
tormenta pueden durar días. De manera similar, la probabilidad de estrellar su automóvil hoy y
estrellar su automóvil el próximo año no son independientes. Lo que sea que haya causado su
fracaso este año también podría provocar su fracaso el año que viene; Es posible que seas
propenso a conducir en estado de ebriedad, a hacer carreras de resistencia, a enviar mensajes
de texto mientras conduces o simplemente a conducir mal. (Esta es la razón por la que las
tarifas de su seguro de automóvil aumentan después de un accidente; no es simplemente que
la compañía quiera recuperar el dinero que pagó por el reclamo; más bien, ahora tiene nueva
información sobre su probabilidad de sufrir un accidente en el futuro. , que, después de haber
atravesado la puerta del garaje con el coche, ha subido).
Supongamos que está interesado en la probabilidad de que ocurra un evento u otro:
resultado A o resultado B (suponiendo nuevamente que son independientes). En este
caso, la probabilidad de obtener A o B consiste en la suma de sus probabilidades
individuales: la probabilidad de A más la probabilidad de B.
Por ejemplo, la probabilidad de sacar un 1, 2 o 3 con un solo dado es la suma de sus
probabilidades individuales: + + = = ½. Esto debería tener sentido intuitivo. Hay seis
resultados posibles al lanzar un dado. Los números 1, 2 y 3 en conjunto representan la
mitad de esos resultados posibles. Por lo tanto, tienes un 50 por ciento de posibilidades
de sacar un 1, 2 o 3. Si estás jugando a los dados en Las Vegas, la probabilidad de sacar
un 7 u 11 en una sola tirada es el número de combinaciones que suman 7 u 11 dividido.
por el número total de combinaciones que se pueden lanzar con dos dados, o
.*
La probabilidad también nos permite calcular cuál podría ser la herramienta más útil en
toda la toma de decisiones gerenciales, particularmente en las finanzas: el valor esperado.
El valor esperado lleva la probabilidad básica un paso más allá. El valor esperado o
recompensa de algún evento, por ejemplo la compra de un billete de lotería, es la suma
de todos los diferentes resultados, cada uno ponderado por su probabilidad y recompensa.
Como siempre, un ejemplo aclara esto. Supongamos que te invitan a jugar un juego en el
que tiras un solo dado. El pago de este juego es $1 si obtienes un 1; $2 si sacas un 2; $3
si sacas un 3; etcétera. ¿Cuál es el valor esperado para una sola tirada del dado? Cada
resultado posible tiene una probabilidad, por lo que el valor esperado es: ($1) +
($2) + ($3) + ($4) + ($5) + ($6) = o $3,50. ,
A primera vista, el valor esperado de 3,50 dólares podría parecer una cifra relativamente
inútil. Después de todo, en realidad no puedes ganar $3,50 con una sola tirada del dado
(ya que tu pago tiene que ser un número entero). De hecho, el valor esperado resulta ser
extremadamente poderoso porque puede indicarle si un evento en particular es
“justo”, dado su precio y el resultado esperado. Supongamos que tienes la oportunidad de

jugar el juego anterior por $3 por lanzamiento. ¿Tiene sentido jugar? Sí, porque el valor
esperado del resultado ($3,50) es mayor que el costo de jugar ($3,00). Esto no garantiza que
ganarás dinero jugando una vez, pero sí ayuda a aclarar qué riesgos vale la pena correr y
cuáles no.
Podemos tomar este ejemplo hipotético y aplicarlo al fútbol profesional. Como se señaló
anteriormente, después de un touchdown, los equipos tienen la opción de patear un punto
extra o intentar una conversión de dos puntos. El primero implica patear el balón a través de
los postes desde la línea de tres yardas; este último implica correr o pasar a la zona de
anotación desde la línea de tres yardas, lo cual es significativamente más difícil. Los equipos
pueden elegir la opción fácil y obtener un punto, o pueden elegir la opción más difícil y obtener
dos puntos. ¿Qué hacer?
Los estadísticos no pueden jugar al fútbol ni salir con animadoras, pero pueden proporcionar
orientación estadística a los entrenadores de fútbol. 9 Como se señaló anteriormente, la
probabilidad de realizar la patada después de un touchdown es de 0,94. Esto significa que el
valor esperado de un punto después del intento también es 0,94, ya que es igual a la
recompensa (1 punto) multiplicada por la probabilidad de éxito (0,94). Ningún equipo anota
nunca 0,94 puntos, pero esta cifra es útil para cuantificar el valor de intentar esta opción
después de un touchdown en relación con la alternativa, que es la conversión de dos puntos.
El valor esperado de “ir por dos” es mucho menor: .74. Sí, la recompensa es mayor (2 puntos),
pero la tasa de éxito es dramáticamente menor (0,37). Obviamente, si queda un segundo de
juego y un equipo está dos puntos detrás después de anotar un touchdown, no le queda más
remedio que optar por una conversión de dos puntos. Pero si el objetivo de un equipo es
maximizar los puntos anotados a lo largo del tiempo, entonces patear el punto extra es la
estrategia que lo logrará.
El mismo análisis básico puede ilustrar por qué nunca deberías comprar un billete de
lotería. En Illinois, las probabilidades asociadas con los distintos pagos posibles del juego
están impresas en el reverso de cada boleto. Compré un boleto instantáneo de $1. (Nota
personal: ¿Es esto deducible de impuestos?) En el reverso, en letra muy, muy pequeña, están
las posibilidades de ganar diferentes premios en efectivo o un boleto nuevo gratis: 1 entre 10
(boleto gratis); 1 de cada 15 ($2); 1 en 42,86 ($4); 1 entre 75 ($5); y así sucesivamente hasta
la probabilidad de 1 entre 40.000 de ganar 1.000 dólares. Calculé el pago esperado para mi
boleto instantáneo sumando cada posible premio en efectivo ponderado por su*probabilidad.
Resulta que mi
billete de lotería de 1 dólar tiene un pago esperado de aproximadamente 0,56 dólares, lo que lo convierte en
una forma absolutamente miserable de gastar 1 dólar. Quiso la suerte que gané 2$.
A pesar de mi premio de $2, comprar el boleto fue una estupidez. Ésta es una de las
lecciones cruciales de la probabilidad. Las buenas decisiones (medidas por las probabilidades
subyacentes) pueden resultar malas. Y malas decisiones, como gastar
Un dólar en la lotería de Illinois todavía puede resultar bien, al menos a corto plazo. Pero al
final la probabilidad triunfa. Un teorema importante conocido como ley de los grandes números
nos dice que a medida que aumenta el número de intentos, el promedio de los resultados se
acercará cada vez más a su valor esperado. Sí, hoy gané $2 jugando a la lotería. Y mañana
podría volver a ganar 2 dólares. Pero si compro miles de billetes de lotería de 1 dólar, cada
uno con un pago esperado de 0,56 dólares, entonces tengo una certeza casi matemática de
que perderé dinero. Cuando haya gastado un millón de dólares en entradas, terminaré con
algo sorprendentemente cercano a los 560.000 dólares.
La ley de los grandes números explica por qué los casinos siempre ganan dinero a largo
plazo. Las probabilidades asociadas con todos los juegos de casino favorecen a la casa
(suponiendo que el casino pueda evitar con éxito que los jugadores de blackjack cuenten
cartas). Si se realizan suficientes apuestas durante un tiempo suficiente, el casino seguramente
ganará más de lo que perderá. La ley de los grandes números también demuestra por qué a
Schlitz le resultó mucho mejor hacer 100 pruebas de sabor a ciegas en el entretiempo del
Super Bowl en lugar de solo 10. Consulte las "funciones de densidad de probabilidad" para
una prueba tipo Schlitz con 10, 100 y 1000. ensayos.
(Aunque parezca sofisticado, una función de densidad de probabilidad simplemente traza los
resultados variados a lo largo del eje x y la probabilidad esperada de cada resultado en el eje
y; las probabilidades ponderadas (cada resultado multiplicado por su frecuencia esperada)
sumarán 1 .) Nuevamente, supongo que la prueba de sabor es como lanzar una moneda al
aire y que cada evaluador tiene una probabilidad de 0,5 de elegir Schlitz. Como puede ver a
continuación, el resultado esperado converge alrededor del 50 por ciento de los catadores
que eligen Schlitz a medida que aumenta el número de catadores. Al mismo tiempo, la
probabilidad de obtener un resultado que se desvíe marcadamente del 50 por ciento disminuye
drásticamente a medida que aumenta el número de ensayos.
10 pruebas
100 pruebas
1.000 ensayos
Anteriormente estipulé que los ejecutivos de Schlitz estarían contentos si el 40 por ciento o
más de los bebedores de Michelob eligieran Schlitz en la prueba a ciegas. Las siguientes cifras
reflejan la probabilidad de obtener ese resultado a medida que aumenta el número de catadores:
10 catadores a ciegas: 0,83

100 catadores a ciegas: 0,98
1.000 catadores a ciegas: .9999999999
1.000.000 catadores a ciegas: 1
A estas alturas, la intuición detrás del subtítulo del capítulo es obvia: “No compre la garantía
extendida para su impresora de $99”. Vale, tal vez eso no sea tan obvio. Déjame retroceder.
Toda la industria de seguros se basa en la probabilidad. (Una garantía es solo una forma de
seguro). Cuando asegura algo, se compromete a recibir una compensación específica en caso
de una contingencia claramente definida. Por ejemplo, su seguro de automóvil reemplazará su
automóvil en caso de que lo roben o lo aplaste un árbol. A cambio de esta garantía, te
comprometes a pagar una cantidad fija de dinero durante el periodo en el que estés asegurado.
La idea clave es que a cambio de un pago regular y predecible, has transferido a la compañía
de seguros el riesgo de que te roben, aplasten o incluso totalicen tu coche.
por tu propia mala conducción.

¿Por qué estas empresas están dispuestas a asumir tales riesgos? Porque obtendrán grandes
beneficios a largo plazo si fijan correctamente el precio de sus primas.
Obviamente, algunos automóviles asegurados por Allstate serán robados. Otros quedarán
destrozados cuando sus dueños pasen por encima de una boca de incendio, como le pasó a mi
novia de la secundaria. (También tuvo que reemplazar la boca de incendios, que es mucho más
cara de lo que piensas). Pero la mayoría de los autos asegurados por Allstate o cualquier otra
compañía estarán bien. Para ganar dinero, la compañía de seguros sólo necesita cobrar más
primas de lo que paga en reclamaciones. Y para lograrlo, la empresa debe tener una comprensión
sólida de lo que en la jerga de la industria se conoce como la “pérdida esperada” de cada póliza.
Este es exactamente el mismo concepto que el valor esperado, sólo que con un toque de seguro.
Si su automóvil está asegurado por $40 000 y las posibilidades de que lo roben en un año
determinado son de 1 entre 1000, entonces la pérdida anual esperada de su automóvil es de $40.
La prima anual para la parte de la cobertura contra robo debe ser superior a $40.
En ese momento, la compañía de seguros se vuelve como el casino o la lotería de Illinois. Sí,
habrá pagos, pero a la larga lo que entre será más de lo que salga.
Como consumidor, debe reconocer que el seguro no le permitirá ahorrar dinero a largo plazo.
Lo que hará es evitar pérdidas inaceptablemente altas, como reemplazar un automóvil de 40.000
dólares que fue robado o una casa de 350.000 dólares que se quemó.
Comprar un seguro es una “mala apuesta” desde un punto de vista estadístico, ya que, en
promedio, pagará a la compañía de seguros más de lo que recibirá a cambio. Sin embargo, aún
puede ser una herramienta sensata para protegerse contra resultados que de otro modo
arruinarían su vida. Irónicamente, alguien tan rico como Warren Buffett puede ahorrar dinero al no
comprar un seguro de automóvil, un seguro de vivienda o incluso un seguro médico porque puede
afrontar cualquier cosa mala que le pueda pasar.
¡Lo que finalmente nos lleva de regreso a su impresora de $99! Asumiremos que has
Acabo de elegir la nueva impresora láser perfecta en Best Buy o en algún otro minorista. *
Cuando llegue a la caja, el asistente de ventas le ofrecerá una serie de opciones de garantía
extendida. Por otros $25 o $50, Best Buy reparará o reemplazará la impresora en caso de que se
rompa en uno o dos años. Sobre la base de su comprensión de la probabilidad, los seguros y la
economía básica, debería poder suponer inmediatamente todo lo siguiente: (1) Best Buy es una
empresa con fines de lucro que busca maximizar las ganancias. (2) El asistente de ventas está
ansioso por que usted compre la garantía extendida. (3) De los números 1 y 2, podemos inferir
que el costo de la garantía para usted es mayor que el costo esperado de arreglar o reparar la
impresora para Best Buy. Si este no fuera el caso, Best Buy no sería tan agresivo al intentar
vendérselo. (4) Si su impresora de $99 se estropea y tiene que pagar de su bolsillo para arreglarla
o reemplazarla, esto no cambiará significativamente su
vida.
En promedio, pagará más por la garantía extendida de lo que pagaría por reparar la impresora.
La lección más amplia (y una de las lecciones centrales de las finanzas personales) es que
siempre debe asegurarse contra cualquier contingencia adversa que no pueda soportar
cómodamente. Deberías evitar comprar un seguro para todo lo demás.
El valor esperado también puede ayudarnos a desenmarañar decisiones complejas que involucran
muchas contingencias en diferentes momentos. Suponga que un amigo suyo le pide que invierta
1 millón de dólares en una investigación que examina una nueva cura para la calvicie de patrón
masculino. Probablemente se preguntaría cuál será la probabilidad de éxito; Obtendrás una
respuesta complicada. Este es un proyecto de investigación, por lo que solo hay un 30 por ciento
de posibilidades de que el equipo descubra una cura que funcione. Si el equipo no encuentra una
cura, usted recuperará $250,000 de su inversión, ya que esos fondos se habrán reservado para
llevar el medicamento al mercado (pruebas, marketing, etc.). Incluso si los investigadores tienen
éxito, solo hay una 60 por ciento de posibilidades de que EE.UU.
La Administración de Alimentos y Medicamentos aprobará la nueva cura milagrosa para la calvicie
como segura para su uso en humanos. Incluso entonces, si el medicamento es seguro y eficaz,
hay un 10 por ciento de posibilidades de que un competidor llegue al mercado con un medicamento
mejor aproximadamente al mismo tiempo, eliminando cualquier beneficio potencial. Si todo va bien
(el fármaco es seguro, eficaz y no tiene competencia para competir), entonces la mejor estimación
del retorno de su inversión es de 25 millones de dólares.
¿Deberías hacer la inversión?
Esto parece un lío de información. El beneficio potencial es enorme (25 veces su inversión
inicial), pero existen muchos peligros potenciales. Un árbol de decisiones puede ayudar a organizar
este tipo de información y, si las probabilidades asociadas con cada resultado son correctas,
brindarle una evaluación probabilística de lo que debe hacer. El árbol de decisiones traza cada
fuente de incertidumbre y las probabilidades asociadas con todos los resultados posibles. El final
del árbol nos da todos los posibles pagos y la probabilidad de cada uno. Si ponderamos cada
pago según su probabilidad y sumamos todas las posibilidades, obtendremos el valor esperado
de esta oportunidad de inversión. Como siempre, la mejor manera de entender esto es echar un
vistazo.
La decisión de inversión
Esta oportunidad particular tiene un valor esperado atractivo. El pago ponderado es de 4,225 millones de
dólares. Aún así, esta inversión puede no ser lo más inteligente que se puede hacer con el dinero de la
matrícula universitaria que ha ahorrado para sus hijos.
El árbol de decisiones le permite saber que su beneficio esperado es mucho mayor de lo que se le pide que
invierta. Por otro lado, el resultado más probable, es decir, el que sucederá con mayor frecuencia, es que la
empresa no descubra una cura para la calvicie y usted solo recuperará 250.000 dólares. Su apetito por esta
inversión puede depender de su perfil de riesgo. La ley de los grandes números sugiere que una empresa
de inversión, o un individuo rico como Warren Buffet, debería buscar cientos de oportunidades como ésta
con resultados inciertos pero con retornos esperados atractivos. Algunos funcionarán; muchos no lo harán.
En promedio, estos inversores ganarán mucho dinero, al igual que una compañía de seguros o un casino.
Si la recompensa esperada está a su favor, siempre es mejor realizar más pruebas.
El mismo proceso básico puede utilizarse para explicar un fenómeno aparentemente contrario a la
intuición. A veces no tiene sentido examinar a toda la población para detectar una enfermedad rara pero
grave, como el VIH/SIDA. Supongamos que podemos realizar pruebas para detectar alguna enfermedad
rara con un alto grado de precisión. A modo de ejemplo, supongamos que la enfermedad afecta a 1 de cada
100.000 adultos y que la prueba tiene una precisión del 99,9999 por ciento. La prueba nunca genera un
falso negativo (lo que significa que nunca pasa por alto a alguien que tiene la enfermedad); sin embargo,
aproximadamente 1 de cada 10.000 pruebas realizadas a una persona sana generará un falso positivo, lo
que significa que la persona da positivo pero en realidad no tiene la enfermedad. El resultado sorprendente
aquí es que, a pesar de la impresionante precisión de la prueba, la mayoría de las personas que dan positivo
no tendrán la enfermedad. Esto generará una enorme ansiedad entre quienes den falso positivo; también
puede desperdiciar recursos finitos de atención médica en pruebas de seguimiento y tratamiento.
Si analizamos a toda la población adulta estadounidense, o aproximadamente 175 millones de personas,

el árbol de decisión se parece al siguiente:
Detección generalizada de una enfermedad rara
Sólo 1.750 adultos padecen la enfermedad. Todos dan positivo. Más de 174 millones de
adultos no padecen la enfermedad. De este grupo sano que se hace la prueba, 99,9999
obtienen el resultado correcto de que no padecen la enfermedad. Sólo 0,0001 obtienen un
falso positivo. Pero 0,0001 de 174 millones sigue siendo una cifra grande. De hecho, una
media de 17.500 personas obtendrán falsos positivos.
Veamos lo que eso significa. Un total de 19.250 personas son notificadas que padecen la
enfermedad; ¡Sólo el 9 por ciento de ellos están realmente enfermos! Y eso con una prueba
que tiene una tasa muy baja de falsos positivos. Sin desviarnos demasiado del tema, esto
debería darle una idea de por qué la contención de costos en la atención médica a veces
implica menos exámenes de detección de enfermedades en personas sanas, no más. En el
caso de una enfermedad como el VIH/SIDA, los funcionarios de salud pública suelen
recomendar que los recursos disponibles se utilicen para examinar a las poblaciones de
mayor riesgo, como los hombres homosexuales o los usuarios de drogas intravenosas.
A veces la probabilidad nos ayuda al señalar patrones sospechosos. Capítulo 1

introdujo el problema de las trampas institucionalizadas en pruebas estandarizadas y una de las

empresas que lo erradica, Caveon Test Security. La Comisión de Bolsa y Valores (SEC), la
agencia gubernamental responsable de hacer cumplir las leyes federales relacionadas con el
comercio de valores, utiliza una metodología similar para atrapar a los comerciantes internos. (El
comercio interno implica el uso ilegal de información privada, como el conocimiento de un bufete
de abogados sobre una adquisición corporativa inminente, para negociar acciones u otros valores
de las empresas afectadas). La SEC utiliza potentes computadoras para examinar cientos de
millones de transacciones bursátiles y buscar sospechas. 10 La SEC también investigará las
ganancias decepcionantes de los administradores de inversiones . con rendimientos inusualmente
altos durante largos períodos de tiempo. (Tanto la teoría económica como los datos históricos
rendimientos superiores a sugieren que es extremadamente difícil para un solo inversor obtener
la media año tras año.) Por supuesto, los inversores inteligentes siempre están tratando de
anticipar buenas y malas noticias y diseñar estrategias perfectamente legales que
consecuentemente vencer al mercado. Ser un buen inversor no necesariamente lo convierte en
un criminal. ¿Cómo nota una computadora la diferencia? Llamé varias veces a la división de
aplicación de la ley de la SEC para preguntar qué patrones particulares tienen más probabilidades
de indicar una actividad delictiva. Todavía no me han devuelto la llamada.
En la película Minority Report de 2002, Tom Cruise interpreta a un detective "anterior al crimen"
que forma parte de una oficina que utiliza tecnología para predecir crímenes antes de que se
cometan.
Bueno amigos, eso ya no es ciencia ficción. En 2011, el New York Times
11
publicó el siguiente titular: “Enviar a la policía antes de que haya un crimen”. La historia
describía cómo los detectives fueron enviados a un estacionamiento en el centro de Santa Cruz
mediante un programa de computadora que predijo que había una alta probabilidad de robos de
automóviles en ese lugar ese día. Posteriormente, la policía arrestó a dos mujeres que miraban
por las ventanillas del automóvil. Uno tenía órdenes de aprehensión pendientes; el otro portaba
drogas ilegales.
El sistema Santa Cruz fue diseñado por dos matemáticos, un antropólogo y un criminólogo. El
Departamento de Policía de Chicago ha creado una unidad completa de análisis predictivo, en
parte porque la actividad de las pandillas, fuente de gran parte de la violencia de la ciudad, sigue
ciertos patrones. El libro Data Mining and Predictive Analysis: Intelligence Gathering and Crime
Analysis, una guía de estadísticas para las fuerzas del orden, comienza con entusiasmo: “Ahora
es posible predecir el futuro en lo que respecta a la delincuencia, como identificar tendencias
delictivas, anticipar puntos críticos en el comunidad, refinando las decisiones de implementación
de recursos y garantizando la mayor protección para los ciudadanos de la manera más eficiente”.
(Mira, leo este tipo de cosas para que tú no tengas que hacerlo).
La “vigilancia policial predictiva” es parte de un movimiento más amplio llamado análisis predictivo. El
crimen siempre implicará un elemento de incertidumbre, al igual que determinar quién chocará con su auto o
no pagará su hipoteca. La probabilidad nos ayuda a sortear esos riesgos. Y la información refina nuestra
comprensión de las probabilidades relevantes. Las empresas que enfrentan incertidumbre siempre han
buscado cuantificar sus riesgos. Los prestamistas solicitan cosas como verificación de ingresos y puntaje
crediticio. Sin embargo, estos contundentes instrumentos crediticios están empezando a parecer el equivalente
predictivo de las herramientas de piedra de un cavernícola. La confluencia de enormes cantidades de datos
digitales y potencia informática barata ha generado conocimientos fascinantes sobre el comportamiento
humano. Los funcionarios de seguros describen correctamente su negocio como la “transferencia de riesgo”,
por lo que deberían comprender mejor los riesgos que se les transfieren.
Empresas como Allstate se dedican a conocer cosas que de otro modo podrían parecer trivialidades aleatorias:
• Los conductores de entre veinte y veinticuatro años son los que tienen más probabilidades de verse
involucrados en un
accidente fatal. • El automóvil más comúnmente robado en Illinois es el Honda Civic (a diferencia de
las camionetas Chevrolet de tamaño completo en *
Alabama). • Enviar mensajes de texto mientras se conduce provoca accidentes, pero las leyes
estatales que prohíben esta práctica no parecen impedir que los conductores lo hagan. De hecho,
dichas leyes podrían incluso empeorar las cosas al incitar a los conductores a ocultar sus teléfonos y,
por lo tanto, apartar la vista de la carretera mientras envían mensajes de texto.
Las compañías de tarjetas de crédito están a la vanguardia de este tipo de análisis, tanto porque conocen
muchos datos sobre nuestros hábitos de gasto como porque su modelo de negocios depende en gran medida
de encontrar clientes que apenas representan un buen riesgo crediticio. (Los clientes que presentan los
mayores riesgos crediticios tienden a ser perdedores porque pagan sus facturas en su totalidad cada mes;
los clientes que tienen grandes saldos a altas tasas de interés son los que generan grandes ganancias,
siempre y cuando no incumplan sus pagos). .) Uno de los estudios más intrigantes sobre quién es probable
que pague una factura y quién probablemente se vaya fue realizado por JP Martin, “un ejecutivo amante de
las matemáticas” de Canadian Tire, un gran minorista que vende una amplia gama de 13 Cuando Martin
analizó los datos: productos automotrices y otros bienes minoristas. cada transacción realizada con una
anterior: descubrió que lo que compraban los clientes era tarjeta de crédito de Canadian Tire del año
un predictor notablemente preciso de su comportamiento de pago posterior cuando se usaba junto con
herramientas tradicionales como ingresos e historial crediticio.
Un artículo de la revista New York Times titulado “¿Qué sabe sobre usted su compañía de tarjetas de
crédito?” describió algunos de los más intrigantes de Martin
Hallazgos: “Las personas que compraron aceite automotriz genérico y barato tenían muchas más
probabilidades de no realizar un pago con tarjeta de crédito que alguien que compró aceite caro y
de marca. Las personas que compraron monitores de monóxido de carbono para sus hogares o
esas pequeñas almohadillas de fieltro que evitan que las patas de las sillas rayen el suelo casi
nunca dejaron de pagar. Cualquiera que comprara un accesorio para automóvil con una calavera
cromada o un 'sistema de escape Mega Thruster' era muy probable que eventualmente no pagara
su factura”.
La probabilidad nos brinda herramientas para enfrentar las incertidumbres de la vida. No deberías
jugar a la lotería. Deberías invertir en el mercado de valores si tienes un horizonte de inversión a
largo plazo (porque las acciones suelen tener los mejores rendimientos a largo plazo). Deberías
contratar un seguro para algunas cosas, pero no para otras. La probabilidad puede incluso ayudarle
a maximizar sus ganancias en programas de juegos (como se mostrará en el próximo capítulo).
Dicho esto (o escrito), la probabilidad no es determinista. No, no deberías comprar un billete de
lotería, pero aun así podrías ganar dinero si lo haces. Y sí, la probabilidad puede ayudarnos a
atrapar a tramposos y delincuentes, pero cuando se usa de manera inapropiada también puede
enviar a personas inocentes a la cárcel. Por eso tenemos el Capítulo 6.
* Tengo en mente “El Hombre Seis Sigma”. La letra griega minúscula sigma, σ, representa la desviación estándar.
Six Sigma Man está seis desviaciones estándar por encima de la norma en términos de capacidad estadística, fuerza e inteligencia.
† Para todos
estos cálculos, he utilizado una práctica calculadora binomial en línea, en http://stattrek.com/Tables/Binomial.aspx.
* La NASA también señaló que incluso los desechos espaciales que caen son propiedad del gobierno. Aparentemente es ilegal
conservar un souvenir satelital, incluso si aterriza en su patio trasero.
† Los cálculos de Levitt y Dubner son los siguientes. Cada año, aproximadamente 550 niños menores de diez años se ahogan y
175 niños menores de diez años mueren en accidentes con armas de fuego. Las tasas que comparan son 1 ahogamiento por
cada 11.000 piscinas residenciales en comparación con 1 muerte por arma de fuego por “más de un millón” de armas. Para los
adolescentes, sospecho que las cifras pueden cambiar drásticamente, porque saben nadar mejor y porque tienen más
probabilidades de causar una tragedia si se topan con un arma cargada. Sin embargo, no he comprobado los datos sobre este punto.
* Hay 6 formas de tirar un 7 con dos dados: (1,6); (2,5); (3,4); (6,1); (5,2); y (4,3). Sólo hay 2 formas de lanzar un 11: (5,6) y (6,5).
Mientras tanto, hay 36 lanzamientos posibles en total con dos dados: (1,1); (1,2); (1,3); (1,4); (1,5); (1,6). Y (2,1); (2,2); (2,3);
(2,4); (2,5); (2,6). Y (3,1); (3,2); (3,3); (3,4); (3,5); (3,6). Y (4,1); (4,2); (4,3); (4,4); (4,5); (4,6). Y (5,1); (5,2); (5,3); (5,4); (5,5); (5,6).
Y, finalmente, (6,1); (6,2); (6,3); (6,4); (6,5); y (6,6).
Así, la probabilidad de sacar un 7 o un 11 es el número de formas posibles de tirar cualquiera de esos dos números dividido
por el número total de tiros posibles con dos dados, que es 8/36. Por cierto, gran parte de las investigaciones anteriores sobre
probabilidad fueron realizadas por jugadores para determinar exactamente este tipo de cosas.
* El valor total esperado para el boleto de $1 del Illinois Dugout Doubler (redondeado al centavo más cercano) es el siguiente: 1/15
($2) + 1/42.86 ($4) + 1/75 ($5) + 1/200 ($10) + 1/300 ($25) + 1/1.589,40 ($50) + 1/8.000 ($100) + 1/16.000 ($200) + 1/48.000
($500) + 1/40.000 ($1.000) = $0,13 + $0,09 + $0,07 + $0,05 + $0,08 + $0,03 + $0,01 + $0,01 + $0,01 + $0,03 = $0,51. Sin embargo,
también hay una probabilidad de 1/10 de obtener un boleto gratis, que tiene un pago esperado de $0,51, por lo que el pago
esperado general es $0,51 + 0,1 ($0,51) = $0,51 + $. 05 = $.56.
* Anteriormente en el libro utilicé un ejemplo que involucraba a empleados borrachos que producían impresoras láser defectuosas.
Deberá olvidar ese ejemplo aquí y asumir que la empresa ha solucionado sus problemas de calidad.
* Ya que le he advertido que sea riguroso con las estadísticas descriptivas, me siento obligado a señalar que el automóvil más
comúnmente robado no es necesariamente el tipo de automóvil que tiene más probabilidades de ser robado. Un alto
varios Honda Civics son reportados como robados porque hay muchos en la carretera; las posibilidades de que roben
a cualquier Honda Civic (que es lo que les importa a las compañías de seguros de automóviles) pueden ser bastante
bajas. Por el contrario, incluso si el 99 por ciento de todos los Ferrari fueran robados, Ferrari no figuraría en la lista de
“los más comúnmente robados”, porque no hay muchos para robar.
CAPÍTULO 5½
El problema de Monty Hall
El “problema de Monty Hall” es un famoso enigma relacionado con la probabilidad que enfrentan
participantes en el programa de juegos Let's Make a Deal, que se estrenó en los Estados Unidos
en 1963 y todavía se transmite en algunos mercados de todo el mundo. (Recuerdo haber visto
el programa cada vez que estaba enfermo en casa desde la escuela primaria). El regalo del
programa para los estadísticos se describió en la introducción. Al final del programa de cada
día, se invitó a un concursante a pararse junto al presentador Monty Hall frente a tres puertas
grandes: Puerta no. 1, puerta núm. 2, y Puerta núm. 3. Monty le explicó al concursante que
había un premio muy deseable detrás de una de las puertas y una cabra detrás de las otras dos
puertas. El jugador elegía una de las tres puertas y obtenía como premio lo que hubiera detrás.
(No sé si los participantes realmente se quedaron con la cabra; para nuestros propósitos,
supongamos que la mayoría de los jugadores prefirieron el auto nuevo).
La probabilidad inicial de ganar era sencilla. Había dos cabras y un coche. Mientras el
participante estaba frente a las puertas con Monty, tenía una probabilidad de 1 entre 3 de elegir
la puerta que se abriría para revelar el auto. Pero como se señaló anteriormente, Let's Make a
Deal tuvo un giro, razón por la cual el programa y su presentador han sido inmortalizados en la
literatura sobre probabilidad. Después de que el concursante eligiera una puerta, Monty abría
una de las dos puertas que el concursante no había elegido, siempre revelando una cabra. En
ese momento, Monty le preguntaría al concursante si le gustaría cambiar su elección: pasar de
la puerta cerrada que había elegido originalmente a la otra puerta cerrada que quedaba.
A modo de ejemplo, supongamos que el concursante eligió originalmente la puerta núm. 1.

Monty luego abriría la puerta no. 3; una cabra viva estaría parada allí en un escenario. Todavía
quedarían dos puertas cerradas, las núms. 1 y 2. Si el valioso premio estuviera detrás del no. 1,
ganaría el concursante; si estaba detrás del no. 2, perdería. Fue entonces cuando Monty se
volvería hacia el jugador y le preguntaría si le gustaría cambiar de opinión y cambiar de puerta,
del no. 1 al núm. 2 en este caso.
Recuerde, ambas puertas todavía están cerradas. La única información nueva que ha recibido
el concursante es que apareció una cabra detrás de una de las puertas que él no abrió.
¿Debería cambiar?
Sí. El concursante tiene 1/3 de posibilidades de ganar si mantiene su inicial.
elección y 2/3 de posibilidades de ganar si cambia. Si no me crees lee

en.
Admito que esta respuesta parece completamente poco intuitiva al principio. Parecería que el
concursante tiene un tercio de posibilidades de ganar sin importar lo que haga.
Hay tres puertas cerradas. Al principio, cada puerta tiene una probabilidad entre tres de llevarse
el valioso premio. ¿Qué importancia tiene que pase de una puerta cerrada a otra?
La respuesta está en el hecho de que Monty Hall sabe qué hay detrás de cada puerta. Si el
concursante elige la Puerta no. 1 y hay un auto detrás, entonces Monty puede abrir el no. 2 o
no. 3 para mostrar una cabra.
Si el concursante elige la Puerta no. 1 y el coche está detrás del no. 2, luego Monty abre el
no. 3.
Si el concursante elige la Puerta no. 1 y el coche está detrás del no. 3, luego Monty abre el
no. 2.
Al cambiar después de abrir una puerta, el concursante obtiene el beneficio de elegir dos
puertas en lugar de una. Intentaré persuadirle de tres maneras diferentes de que este análisis
es correcto.
El primero es empírico. En 2008, el columnista del New York Times, John Tierney, escribió
sobre el fenómeno Monty Hall. característica1 que The Times luego construyó un sitio interactivo.
que te permite jugar el juego tú mismo, incluida la decisión de cambiar o no. (Incluso hay cabritos
y autos que salen detrás de las puertas). El juego realiza un seguimiento de tu éxito cuando
cambias de puerta después de tomar tu decisión inicial en comparación con cuando no lo haces.
Inténtalo tú mismo. *
Le pagué a uno de mis hijos para que jugara 100 veces, cambiando cada vez. Le pagué a su hermano
para que jugara 100 veces sin cambiar. El que cambió ganó 72 veces; el que no cambió ganó 33 veces.
Ambos recibieron dos dólares por su esfuerzo.
Los datos de los episodios de Let's Make a Deal sugieren lo mismo.
Según Leonard Mlodinow, autor de The Drunkard's Walk, los concursantes que cambiaron su
elección ganaron aproximadamente el doble que los que lo hicieron.
2 no.
Mi segunda explicación llega a la intuición. Supongamos que las reglas se modificaron
ligeramente. Supongamos que el concursante comienza eligiendo una de las tres puertas: no. 1,
núm. 2, o no. 3, tal como se juega normalmente. Pero luego, antes de que se abra cualquier
puerta para revelar una cabra, Monty dice: "¿Te gustaría renunciar a tu elección a cambio de las
otras dos puertas que no elegiste?"
Entonces, si eligió la Puerta no. 1, podrías deshacerte de esa puerta a cambio de lo que hay
detrás del no. 2 y núm. 3. Si eligió no. 3, podrías cambiar al no. 1 y núm. 2.
Etcétera.
Esa no sería una decisión particularmente difícil. Evidentemente deberás ceder una puerta a
cambio de dos, ya que aumenta tus posibilidades de ganar de 1/3 a 2/3. Aquí está la parte
intrigante: eso es exactamente lo que Monty Hall te permite hacer en el juego real después de
revelar la cabra. La idea fundamental es que si tuvieras que elegir dos puertas, una de ellas
siempre tendría una cabra detrás. Cuando abre una puerta para revelar una cabra antes de
preguntarte si quieres cambiar, ¡te está haciendo un gran favor! Está diciendo (de hecho): "Hay
dos tercios de posibilidades de que el auto esté detrás de una de las puertas que no elegiste, y
mira, ¡no es esa!".
Piénsalo de esta manera. Supongamos que eligió la puerta no. 1. Monty luego te ofrece la opción
de tomar las Puertas 2 y 3. Aceptas la oferta, renuncias a una puerta y obtienes dos, lo que significa
que puedes esperar razonablemente ganar el auto 2/3 de las veces. En ese momento, ¿qué pasaría
si Monty abriera la puerta núm. 3—una de tus puertas—para revelar una cabra? ¿Debería sentirse
menos seguro de su decisión? Por supuesto que no. Si el coche estuviera detrás del no. 3, habría
abierto el no. 2! No te ha mostrado nada.
Cuando el juego se juega normalmente, Monty realmente te da a elegir entre la puerta que elegiste
originalmente y las otras dos puertas, de las cuales solo una podría tener un auto detrás. Cuando
abre una puerta para revelar una cabra, simplemente te está teniendo la cortesía de mostrarte cuál
de las otras dos puertas no tiene el auto. Tienes la misma probabilidad de ganar en los dos escenarios
siguientes: 1. Eligiendo la Puerta no. 1, luego acepta cambiar a la Puerta no. 2 y Puerta núm. 3 antes
de abrir cualquier puerta.
2. Eligiendo la puerta no. 1, luego acepta cambiar a la Puerta no. 2 después de que Monty
revela una cabra detrás de la puerta núm. 3 (o elegir el número 3 después de revelar una cabra
detrás del número 2).
En ambos casos, cambiar te da la ventaja de tener dos puertas en lugar de una y, por lo tanto, puedes
duplicar tus posibilidades de ganar, de 1/3 a 2/3.
Mi tercera explicación es una versión más extrema de la misma intuición básica.

Supongamos que Monty Hall le ofrece la posibilidad de elegir entre 100 puertas en lugar de sólo tres.
Después de elegir la puerta, diga no. 47, abre otras 98 puertas con cabras detrás de ellas. Ahora sólo
quedan dos puertas que permanecen cerradas, no. 47 (tu elección original) y otro, digamos, no. 61.
¿Deberías cambiar?
Por supuesto que deberías. Existe un 99 por ciento de posibilidades de que el automóvil estuviera
detrás de una de las puertas que usted no eligió originalmente. Monty te hizo el favor de abrir 98 de
esas puertas que tú no elegiste, todas las cuales él sabía que no
tener el coche detrás de ellos. Sólo hay una probabilidad de 1 entre 100 de que su elección original
fuera correcta (n.° 47). Hay una probabilidad de 99 entre 100 de que su elección original no fuera
correcta. Y si su elección original no fue correcta, entonces el auto está detrás de la otra puerta, no.
61. Si quieres ganar 99 de 100 veces, debes cambiar al no. 61.
En resumen, si alguna vez eres concursante de Let's Make a Deal, definitivamente deberías cambiar
de puerta cuando Monty Hall (o su reemplazo) te dé la opción. La lección más aplicable es que su
instinto sobre la probabilidad a veces puede desviarlo.
* ¿Puedes jugar en http://www.nytimes.com/2008/04/08/science/08monty.html?

_r=2&oref=slogin&oref=slogin.
CAPÍTULO 6
Problemas con la probabilidad

Cómo los fanáticos de las matemáticas demasiado
confiados casi destruyeron el sistema financiero global
Las estadísticas no pueden ser más inteligentes que las personas que las utilizan. y en algunos
En algunos casos, pueden hacer que personas inteligentes hagan cosas tontas. Uno de los
usos más irresponsables de las estadísticas en la memoria reciente involucró el mecanismo
para medir el riesgo en Wall Street antes de la crisis financiera de 2008. En ese momento, las
empresas de toda la industria financiera utilizaban un barómetro común de riesgo, el modelo
de Valor en Riesgo o VaR. En teoría, el VaR combinaba la elegancia de un indicador (reunir
mucha información en un solo número) con el poder de la probabilidad (asociar una ganancia o
pérdida esperada a cada uno de los activos o posiciones comerciales de la empresa). El modelo
asumió que existe una variedad de resultados posibles para cada una de las inversiones de la
empresa. Por ejemplo, si la empresa posee acciones de General Electric, el valor de esas
acciones puede subir o bajar. Cuando se calcula el VaR para un período corto de tiempo,
digamos, una semana, el resultado más probable es que las acciones tengan aproximadamente
el mismo valor al final de ese período que tenían al principio. Hay menos posibilidades de que
las acciones suban o bajen un 10 por ciento. Y una probabilidad aún menor de que suban o
bajen un 25 por ciento, y así sucesivamente.
Sobre la base de datos anteriores sobre los movimientos del mercado, los expertos
cuantitativos de la empresa (a menudo llamados “quants” en la industria y “nerds ricos” en
cualquier otro lugar) podrían asignar una cifra en dólares, digamos 13 millones de dólares, que
representaba el máximo que la empresa podía perder. en esa posición durante el período de
tiempo que se examina, con un 99 por ciento de probabilidad. En otras palabras, 99 de cada 100
veces la empresa no perdería más de 13 millones de dólares en una posición comercial concreta;
1 vez de cada 100, lo haría.
Recuerda esa última parte, porque pronto será importante.
Antes de la crisis financiera de 2008, las empresas confiaban en el modelo VaR para
cuantificar su riesgo general. Si un solo comerciante tuviera 923 posiciones abiertas diferentes
(inversiones que podrían subir o bajar de valor), cada una de esas inversiones podría evaluarse
como se describió anteriormente para las acciones de General Electric; a partir de ahí, se
podría calcular el riesgo total de la cartera del comerciante. La fórmula incluso tuvo en cuenta
en cuenta las correlaciones entre diferentes posiciones. Por ejemplo, si dos inversiones tuvieran rendimientos
esperados que estuvieran correlacionados negativamente, una pérdida en una probablemente habría sido
compensada por una ganancia en la otra, lo que haría que las dos inversiones juntas fueran menos riesgosas
que cualquiera de ellas por separado. En general, el jefe de la mesa de operaciones sabría que el operador
de bonos Bob Smith tiene un VaR de 24 horas (el valor en riesgo durante las próximas 24 horas) de 19
millones de dólares, nuevamente con una probabilidad del 99 por ciento.
Lo máximo que Bob Smith podría perder en las próximas 24 horas sería 19 millones de dólares, 99 de cada
100 veces.
Entonces, mejor aún, el riesgo agregado para la empresa podría calcularse en cualquier momento
llevando el mismo proceso básico un paso más allá. La mecánica matemática subyacente es obviamente
fabulosamente complicada, ya que las empresas tenían una vertiginosa variedad de inversiones en diferentes
monedas, con diferentes cantidades de apalancamiento (la cantidad de dinero que se pidió prestada para
realizar la inversión), negociando en mercados con diferentes grados de liquidez y pronto. A pesar de todo
eso, los directivos de la empresa aparentemente tenían una medida precisa de la magnitud del riesgo que la
empresa había asumido en cualquier momento. Como explicó el ex escritor de negocios del New York
Times, Joe Nocera, “el gran atractivo del VaR, y su gran punto de venta para las personas que no son
cuantitativas, es que expresa el riesgo como un solo número, una cifra en dólares, nada menos”.
1 En JP Morgan, donde se desarrolló y
perfeccionó el modelo VaR, el cálculo diario del VaR se conocía como el “informe de las 4:15” porque estaría
en los escritorios de los altos ejecutivos todas las tardes a las 4:15, justo después de los mercados financieros
estadounidenses. había cerrado por el día.
Es de suponer que esto fue algo bueno, ya que, en general, más información es mejor, especialmente
cuando se trata de riesgos. Después de todo, la probabilidad es una herramienta poderosa. ¿No es este el
mismo tipo de cálculo que hicieron los ejecutivos de Schlitz antes de gastar mucho dinero en pruebas de
sabor a ciegas en el entretiempo del Super Bowl?
No necesariamente. Al VaR se le ha llamado “potencialmente catastrófico”, “un fraude” y muchas otras
cosas que no caben en un libro familiar sobre estadísticas como este. En particular, se ha culpado al modelo
por el inicio y la gravedad de la crisis financiera. La principal crítica al VaR es que los riesgos subyacentes
asociados con los mercados financieros no son tan predecibles como lanzar una moneda al aire o incluso
una prueba de sabor a ciegas entre dos cervezas. La falsa precisión incorporada en los modelos creó una
falsa sensación de seguridad. El VaR era como un velocímetro defectuoso, lo que podría decirse que es
peor que ningún velocímetro. Si confía demasiado en el velocímetro averiado, no se dará cuenta de otras
señales de que su velocidad no es segura. Por el contrario, si no hay ningún velocímetro, no tienes más
remedio que mirar a tu alrededor en busca de pistas sobre qué tan rápido vas realmente.
Alrededor de 2005, con el VaR cayendo sobre los escritorios a las 4:15 todos los días de la semana, Wall
Street conducía bastante rápido. Desafortunadamente, hubo dos grandes problemas con los
perfiles de riesgo encapsulados por los modelos VaR. En primer lugar, las probabilidades
subyacentes sobre las que se construyeron los modelos se basaban en movimientos pasados
del mercado; sin embargo, en los mercados financieros (a diferencia de la cata de cerveza), el
futuro no necesariamente se parece al pasado. No había ninguna justificación intelectual para
suponer que los movimientos del mercado entre 1980 y 2005 fueran el mejor predictor de los
movimientos del mercado después de 2005. En cierto modo, esta falta de imaginación se
asemeja a la suposición errónea periódica de los militares de que la próxima guerra se
parecerá a la última. En la década de 1990 y principios de la de 2000, los bancos comerciales
utilizaban modelos de préstamo para hipotecas de viviendas que asignaban probabilidad cero
a grandes caídas en los precios2 de Los
la precios
vivienda.
de la vivienda nunca antes habían caído tanto y
tan rápido como a partir de 2007. Pero eso es lo que pasó. El ex presidente de la Reserva
Federal, Alan Greenspan, explicó a un comité del Congreso después del hecho: “Sin embargo,
todo el edificio intelectual se derrumbó en el verano [de 2007] porque los datos ingresados en
los modelos de gestión de riesgos generalmente cubrían sólo las últimas dos décadas, un
período de euforia. Si, en cambio, los modelos se hubieran adaptado más apropiadamente a
los períodos históricos de tensión, los requisitos de capital habrían sido mucho más altos y el
mundo financiero estaría en mucho mejor forma, en mi opinión”.
3
En segundo lugar, incluso si los datos subyacentes pudieran predecir con precisión el
riesgo futuro, la seguridad del 99 por ciento ofrecida por el modelo VaR era peligrosamente
inútil, porque es el 1 por ciento el que realmente va a arruinarlo. El administrador de fondos de
cobertura, David Einhorn, explicó: "Esto es como una bolsa de aire que funciona todo el
tiempo, excepto cuando tienes un accidente automovilístico". Si una empresa tiene un valor en
riesgo de 500 millones de dólares, eso puede interpretarse en el sentido de que tiene un 99
por ciento de posibilidades de perder no más de 500 millones de dólares durante el período de
tiempo especificado. Bueno, hola, eso también significa que la empresa tiene un 1 por ciento
de posibilidades de perder más de 500 millones de dólares (mucho, mucho más en algunas
circunstancias). De hecho, los modelos no tenían nada que decir sobre lo malo que podría
resultar ese escenario del 1 por ciento. Se dedicó muy poca atención al “riesgo de cola”, el
pequeño riesgo (llamado así por la cola de la distribución) de algún resultado catastrófico. (Si
conduce a casa desde un bar con un nivel de alcohol en sangre de 0,15, probablemente hay
menos de un 1 por ciento de posibilidades de sufrir un accidente y morir; eso no significa que
sea algo sensato). Muchas empresas agravaron este error. haciendo suposiciones poco
realistas sobre su preparación para eventos raros. El ex secretario del Tesoro, Hank Paulson,
ha explicado que muchas empresas asumieron que podrían obtener efectivo en caso de
4 activos. necesidad vendiendo. Pero durante una crisis, todas las demás empresas también
necesitan efectivo, por lo que todas intentan vender el mismo tipo de activos. Es el equivalente en gestión de
No necesito abastecerme de agua porque si hay un desastre natural, simplemente iré al supermercado y
compraré un poco”. Por supuesto, después de que un asteroide golpea tu ciudad, otras cincuenta mil
personas también intentan comprar agua; Cuando llegas al supermercado, los cristales están rotos y los
estantes vacíos.
El hecho de que nunca hayas contemplado que tu ciudad podría ser aplastada por un asteroide masivo
fue exactamente el problema con el VaR. Aquí está nuevamente el columnista del New York Times Joe
Nocera, resumiendo los pensamientos de Nicholas Taleb, autor de The Black Swan: The Impact of the Highly
Improbable y un crítico mordaz del VaR: “Los mayores riesgos nunca son los que se pueden ver y medir, sino
los que no puedes ver y por lo tanto nunca puedes medir. Aquellos que parecen estar tan fuera de los límites
de la probabilidad normal que no puedes imaginar que puedan suceder durante tu vida... aunque, por
supuesto, suceden, con más frecuencia de lo que te imaginas.
En cierto modo, la debacle del VaR es lo opuesto al ejemplo de Schlitz del capítulo 5. Schlitz operaba con
una distribución de probabilidad conocida.
Cualquiera que fuera el dato que tenía la compañía sobre la probabilidad de que los catadores ciegos eligieran
a Schlitz era una buena estimación de cómo se comportarían catadores similares en vivo en el entretiempo.
Schlitz incluso solucionó su inconveniente realizando toda la prueba en hombres que dijeron que les gustaban
más las otras cervezas. Incluso si no más de veinticinco bebedores de Michelob eligieran Schlitz (un resultado
casi increíblemente bajo), Schlitz aún podría afirmar que uno de cada cuatro bebedores de cerveza debería
considerar cambiar. Quizás lo más importante es que todo esto era sólo cerveza, no el sistema financiero
global. Los cuantitativos de Wall Street cometieron tres errores fundamentales. Primero, confundieron
precisión con exactitud. Los modelos VaR eran como mi telémetro de golf cuando estaba configurado en
metros en lugar de yardas: exactos e incorrectos. La falsa precisión llevó a los ejecutivos de Wall Street a
creer que tenían el riesgo bajo control cuando en realidad no era así.
En segundo lugar, las estimaciones de las probabilidades subyacentes eran erróneas. Como señaló Alan
Greenspan en un testimonio citado anteriormente en este capítulo, las décadas relativamente tranquilas y
prósperas anteriores a 2005 no deberían haberse utilizado para crear distribuciones de probabilidad de lo que
podría suceder en los mercados en las décadas siguientes. Esto es el equivalente a entrar a un casino y
pensar que ganará en la ruleta el 62 por ciento de las veces porque eso fue lo que sucedió la última vez que
jugó. Sería una velada larga y cara. En tercer lugar, las empresas descuidaron su “riesgo de cola”. Los
modelos VaR predijeron lo que sucedería 99 de cada 100 veces. Así es como funciona la probabilidad (como
se enfatizará repetidamente en la segunda mitad del libro). Suceden cosas improbables. De hecho, durante
un período de tiempo suficientemente largo, ni siquiera son tan improbables. A la gente le cae un rayo todo
el tiempo. Mi madre ha tenido tres agujeros en uno.
La arrogancia estadística en los bancos comerciales y en última instancia en Wall Street

contribuyó a la contracción financiera mundial más grave desde la Gran Depresión. La crisis que
comenzó en 2008 destruyó billones de dólares en riqueza en Estados Unidos, elevó el desempleo
a más del 10 por ciento, creó oleadas de ejecuciones hipotecarias y quiebras de empresas, y cargó
con enormes deudas a los gobiernos de todo el mundo mientras luchaban por contener el daño
económico. Este es un resultado tristemente irónico, dado que herramientas sofisticadas como el
VaR fueron diseñadas para mitigar el riesgo.
La probabilidad ofrece un conjunto de herramientas poderosas y útiles, muchas de las cuales

pueden emplearse correctamente para comprender el mundo o incorrectamente para causarle estragos.
Siguiendo con la metáfora de “las estadísticas como un arma poderosa” que he utilizado a lo largo
del libro, parafrasearé al lobby de los derechos de las armas: la probabilidad no comete errores;
las personas que usan la probabilidad cometen errores. El resto de este capítulo catalogará
algunos de los errores, malentendidos y dilemas éticos más comunes relacionados con la
probabilidad.
Suponer que los eventos son independientes cuando no lo son. La probabilidad de que salga cara
con una moneda justa es ½. La probabilidad de que salgan dos caras seguidas es (½) o ¼, ya que
2
, que ocurran dos eventos independientes es el producto de sus probabilidades
la probabilidad de
individuales. Ahora que cuenta con este poderoso conocimiento, supongamos que lo han ascendido
a jefe de gestión de riesgos en una importante aerolínea. Su asistente le informa que la probabilidad
de que el motor de un avión falle por cualquier motivo durante un vuelo transatlántico es de 1 entre
100.000. Dado el número de vuelos transatlánticos, este no es un riesgo aceptable. Afortunadamente,
cada avión que realiza un viaje de este tipo tiene al menos dos motores.
Su asistente ha calculado que el riesgo de que ambos motores se apaguen sobre el Atlántico debe
2
ser (1/100.000) o 1 entre 10 mil millones, ,lo cual es un riesgo de seguridad razonable. Este sería
un buen momento para decirle a su asistente que agote sus días de vacaciones antes de que lo
despidan. Los dos fallos de motor no son acontecimientos independientes. Si un avión atraviesa
una bandada de gansos durante el despegue, es probable que ambos motores se vean
comprometidos de manera similar. Lo mismo ocurriría con muchos otros factores que afectan el
rendimiento de un motor a reacción, desde el clima hasta el mantenimiento inadecuado. Si un
motor falla, la probabilidad de que falle el segundo motor será significativamente mayor que 1 entre
100.000.
¿Parece esto obvio? No fue obvio durante la década de 1990, cuando los fiscales británicos
cometieron un grave error judicial debido a un uso inadecuado de la probabilidad. Al igual que en
el ejemplo hipotético del motor a reacción, el error estadístico fue suponer que varios eventos eran
independientes (como lanzar una moneda al aire) en lugar de dependientes (cuando un determinado
resultado hace que un resultado similar sea más probable en el futuro). Sin embargo, este error
fue real y personas inocentes
Como resultado, fueron enviados a prisión.
El error surgió en el contexto del síndrome de muerte súbita del lactante (SMSL), un fenómeno
en el que un bebé perfectamente sano muere en su cuna. (Los británicos se refieren al SMSL como
“muerte súbita”). El SMSL era un misterio médico que atrajo más atención a medida que las muertes
infantiles por otras causas se volvieron menos comunes. Estas muertes infantiles eran * Porque
tan misteriosas y poco comprendidas que generaban sospechas. A veces esa sospecha estaba
justificada. El SMSL se utilizó en ocasiones para encubrir la negligencia o el abuso de los padres;
un examen post mortem no necesariamente puede distinguir las muertes naturales de aquellas en
las que hay un acto sucio. Los fiscales y tribunales británicos se convencieron de que una forma de
separar los delitos de las muertes naturales sería centrarse en las familias en las que se produjeron
múltiples muertes súbitas. Sir Roy Meadow, un destacado pediatra británico, fue un testigo experto
frecuente en este punto. Como explica la revista británica The Economist : “Lo que se conoció como
la Ley de Meadow (la idea de que una muerte infantil es una tragedia, dos son sospechosas y tres
son un asesinato) se basa en la noción de que si un evento es raro, dos o más casos de ello en la
misma familia son tan improbables que es poco probable que sean resultado del azar”. 5 Sir Meadow
explicó a los jurados que la probabilidad de que en una familia dos bebés murieran repentinamente
por causas naturales era extraordinaria: 1 entre 73 millones. Explicó el cálculo: dado que la incidencia
de una muerte súbita es rara, 1 entre 8.500, la probabilidad de tener dos muertes súbitas en la
misma familia sería (1/8.500), es decir, aproximadamente 1 entre 73 millones. Esto apesta a juego
sucio. Eso es lo que decidieron los jurados, enviando a muchos padres a prisión basándose en este
testimonio sobre las estadísticas de muertes en cuna (a menudo sin ninguna evidencia2médica que
corrobore el abuso o la negligencia). En algunos casos, los bebés fueron separados de sus padres
al nacer debido a la muerte inexplicable de un hermano.
The Economist explicó cómo un malentendido sobre la independencia estadística se convirtió en

un defecto en el testimonio de Meadow:
Hay un error obvio en este razonamiento, como ha señalado la Royal Statistical Society,
protectora de su tema ridiculizado. El cálculo de probabilidad funciona bien, siempre que sea
seguro que las muertes en la cuna son completamente aleatorias y no están vinculadas por
algún factor desconocido. Pero con algo tan misterioso como las muertes súbitas, es muy
posible que exista un vínculo: algo genético, por ejemplo, que haría que una familia que
hubiera sufrido una muerte súbita tuviera más probabilidades, no menos, de sufrir otra. Y
desde que esas mujeres fueron condenadas, los científicos han estado sugiriendo que tal vez
exista ese vínculo.
En 2004, el gobierno británico anunció que revisaría 258 ensayos en

cuyos padres habían sido condenados por asesinar a sus hijos pequeños.
No entender cuando los eventos SON independientes. Un tipo diferente de error ocurre cuando
eventos que son independientes no se tratan como tales. Si te encuentras en un casino (un
lugar, estadísticamente hablando, al que no deberías ir), verás gente mirando con nostalgia los
dados o las cartas y declarando que “están vencidos”. Si la bola de la ruleta ha caído en negro
cinco veces seguidas, es evidente que ahora debe salir en rojo. ¡No no no! La probabilidad de
que la bola caiga en un número rojo se mantiene sin cambios: 16/38. Por el contrario, esta
creencia a veces se denomina "falacia del jugador". De hecho, si lanzas una moneda normal
1.000.000 de veces y obtienes 1.000.000 de caras seguidas, la probabilidad de obtener cruz en
el siguiente lanzamiento sigue siendo ½. La definición misma de independencia estadística entre
dos eventos es que el resultado de uno no tiene efecto sobre el resultado del otro. Incluso si las
estadísticas no le parecen convincentes, podría preguntarse acerca de la física: ¿Cómo es
posible que al lanzar una serie de cruces seguidas sea más probable que la moneda salga cara
en el siguiente lanzamiento?
Incluso en los deportes, la noción de rachas puede resultar ilusoria. Uno de los artículos
académicos más famosos e interesantes relacionados con la probabilidad refuta la noción común
de que los jugadores de baloncesto periódicamente desarrollan una racha de buenos tiros
durante un juego, o “una mano caliente”. Ciertamente, la mayoría de los fanáticos de los deportes
dirían que un jugador que hace un tiro tiene más probabilidades de realizar el siguiente tiro que
un jugador que acaba de fallar. No, según una investigación de Thomas Gilovich, Robert Vallone
6
y Amos Tversky, quienes probaron la mano caliente de tres maneras diferentes. Primero,
analizaron datos de tiros de los partidos en casa de los Philadelphia 76ers durante la temporada
198081. (En ese momento, no había datos similares disponibles para otros equipos de la NBA).
No encontraron "ninguna evidencia de una correlación positiva entre los resultados de tiros
sucesivos". En segundo lugar, hicieron lo mismo con los datos de tiros libres de los Boston
Celtics, que produjeron el mismo resultado. Y por último, hicieron un experimento controlado con
miembros de los equipos de baloncesto masculino y femenino de Cornell.
Los jugadores acertaron un promedio del 48 por ciento de sus tiros de campo después de realizar
su último tiro y el 47 por ciento después de fallar. Para catorce de veintiséis jugadores, la
correlación entre realizar un tiro y luego realizar el siguiente fue negativa.
Sólo un jugador mostró una correlación positiva significativa entre un tiro y el siguiente.
Eso no es lo que te dirán la mayoría de los fanáticos del baloncesto. Por ejemplo, el 91 por
ciento de los aficionados al baloncesto encuestados en Stanford y Cornell por los autores del
artículo estuvieron de acuerdo con la afirmación de que un jugador tiene más posibilidades de
realizar su próximo tiro después de realizar sus últimos dos o tres tiros que después de fallar el
último. dos o tres disparos. La importancia del papel de “mano caliente” radica en la diferencia
entre la percepción y la realidad empírica. Los autores señalan: "Las concepciones intuitivas que la gente
tiene sobre la aleatoriedad se apartan sistemáticamente de las leyes del azar". Vemos patrones donde en
realidad puede que no exista ninguno.
Como grupos de cáncer.
Los grupos ocurren. Probablemente haya leído la historia en el periódico, o tal vez haya visto la noticia: un
número estadísticamente improbable de personas en un área particular ha contraído una forma rara de
cáncer. Debe ser el agua, o la central eléctrica local, o la torre de telefonía móvil. Por supuesto, cualquiera de
esas cosas realmente podría estar causando resultados adversos para la salud. (En capítulos posteriores se
explorará cómo las estadísticas pueden identificar tales relaciones causales.) Pero este grupo de casos
también puede ser producto de pura casualidad, incluso cuando el número de casos parece altamente
improbable. Sí, la probabilidad de que cinco personas en la misma escuela, iglesia o lugar de trabajo
contraigan la misma forma rara de leucemia puede ser de una entre un millón, pero hay millones de escuelas,
iglesias y lugares de trabajo. No es muy improbable que cinco personas contraigan la misma forma rara de
leucemia en uno de esos lugares. Simplemente no pensamos en todas las escuelas, iglesias y lugares de
trabajo donde esto no ha sucedido. Para usar una variación diferente del mismo ejemplo básico, la probabilidad
de ganar la lotería puede ser de 1 entre 20 millones, pero a ninguno de nosotros le sorprende que alguien
gane, porque se han vendido millones de boletos. (A pesar de mi aversión general a las loterías, admiro el
eslogan de Illinois: "Alguien va a ganar la lotería, bien podrías ser tú").
Aquí hay un ejercicio que hago con mis alumnos para plantear el mismo punto básico.
Cuanto más grande sea la clase, mejor funciona. Les pido a todos en la clase que saquen una moneda y se
pongan de pie. Todos lanzamos la moneda; cualquiera que voltee la cabeza debe sentarse.
Suponiendo que empecemos con 100 estudiantes, aproximadamente 50 se sentarán después del primer giro.
Luego lo volvemos a hacer, después de lo cual quedan unos 25 en pie. Etcétera. La mayoría de las veces,
habrá un estudiante al final que haya volteado cinco o seis colas seguidas. En ese momento, le hago
preguntas al estudiante como "¿Cómo lo hiciste?" y "¿Cuáles son los mejores ejercicios de entrenamiento
para voltear tantas colas seguidas?" o "¿Existe alguna dieta especial que te haya ayudado a lograr este
impresionante logro?" Estas preguntas provocan risas porque la clase acaba de observar cómo se desarrolla
todo el proceso; saben que el estudiante que lanzó seis cruces seguidas no tiene ningún talento especial para
lanzar monedas. Él o ella resultó ser quien terminó con muchas colas. Sin embargo, cuando vemos un evento
anómalo como ese fuera de contexto, asumimos que algo más que la aleatoriedad debe ser responsable.
La falacia del fiscal. Suponga que escucha un testimonio ante el tribunal en el sentido siguiente: (1) una
muestra de ADN encontrada en la escena de un crimen coincide con una muestra tomada
del demandado; y (2) sólo hay una posibilidad entre un millón de que la muestra recuperada en la
escena del crimen coincida con la de alguien además del acusado.
(A efectos de este ejemplo, puede suponer que las probabilidades de la fiscalía son correctas). Con
base en esa evidencia, ¿votaría usted a favor de la condena?
Espero que no.

La falacia del fiscal ocurre cuando se descuida el contexto que rodea a la evidencia estadística.
Aquí hay dos escenarios, cada uno de los cuales podría explicar la evidencia de ADN que se utiliza
para procesar al acusado.
Acusado 1: Este acusado, un amante despreciado de la víctima, fue arrestado a tres cuadras de
la escena del crimen portando el arma homicida. Después de su arresto, el tribunal lo obligó a ofrecer
una muestra de ADN, que coincidía con una muestra tomada de un cabello encontrado en la escena
del crimen.
Acusado 2: Este acusado fue condenado por un delito similar en un estado diferente hace varios
años. Como resultado de esa condena, su ADN fue incluido en una base de datos nacional de ADN
de más de un millón de delincuentes violentos. La muestra de ADN tomada del cabello encontrado
en la escena del crimen se revisó en esa base de datos y se comparó con este individuo, que no
tiene asociación conocida con la víctima.
Como se señaló anteriormente, en ambos casos el fiscal puede decir con razón que la muestra
de ADN tomada de la escena del crimen coincide con la del acusado y que sólo hay una posibilidad
entre un millón de que coincida con la de cualquier otra persona. Pero en el caso del acusado 2, hay
muchas posibilidades de que pueda ser esa persona al azar, el tipo entre un millón cuyo ADN resulta
ser similar al del verdadero asesino por casualidad. Porque las posibilidades de encontrar una
coincidencia entre un millón son relativamente altas si se analiza la muestra a través de una base de
datos con muestras de un millón de personas.
Reversión a la media (o regresión a la media). Quizás hayas oído hablar del maleficio de Sports
Illustrated , mediante el cual los atletas o equipos individuales que aparecen en la portada de Sports
Illustrated ven posteriormente caer su rendimiento. Una explicación es que aparecer en la portada de
la revista tiene algún efecto adverso en el desempeño posterior. La explicación estadísticamente más
sólida es que los equipos y los atletas aparecen en su portada después de algún período
anormalmente bueno (como una racha de veinte victorias consecutivas) y que su desempeño
posterior simplemente regresa a lo normal o a la media. Este es el fenómeno conocido como
reversión a la media. La probabilidad nos dice que cualquier valor atípico (una observación que esté
particularmente alejada de la media en una dirección u otra) probablemente sea seguido por
resultados que sean más consistentes con el promedio de largo plazo.
La vuelta a la media puede explicar por qué los Cachorros de Chicago siempre parecen pagar
salarios enormes a los agentes libres que posteriormente decepcionan a los fanáticos como yo.
Los jugadores pueden negociar salarios enormes con los Cachorros después de una o dos
temporadas excepcionales. Ponerse un uniforme de los Cachorros no necesariamente empeora a
estos jugadores (aunque no necesariamente lo descartaría); más bien, los Cachorros pagan
mucho dinero por estas superestrellas al final de un período excepcional (uno o dos años atípicos)
después del cual su desempeño para los Cachorros vuelve a algo más cercano a la normalidad.
El mismo fenómeno puede explicar por qué los estudiantes que obtienen resultados mucho
mejores de lo normal en algún tipo de prueba obtendrán, en promedio, resultados ligeramente
peores en una nueva prueba, y los estudiantes que obtuvieron resultados peores de lo habitual
tenderán a obtener resultados ligeramente mejores cuando se vuelvan a realizar la prueba. Una
forma de pensar en esta reversión a la media es que el desempeño (tanto mental como físico)
consiste en algún esfuerzo subyacente relacionado con el talento más un elemento de suerte,
buena o mala. (Los estadísticos llamarían a esto error aleatorio). En cualquier caso, aquellos
individuos que se desempeñan muy por encima de la media durante algún período probablemente
hayan tenido la suerte de su lado; aquellos que obtienen resultados muy por debajo de la media
probablemente hayan tenido mala suerte. (En el caso de un examen, piense en los estudiantes
que adivinan bien o mal; en el caso de un jugador de béisbol, piense en un golpe que puede salir
mal o aterrizar con un pie justo para lograr un triple). o termina muy mala suerte (como
inevitablemente sucederá), el desempeño resultante estará más cerca de la media.
Imagínese que estoy tratando de formar un equipo de superestrellas para lanzar monedas
(bajo la impresión errónea de que el talento importa cuando se trata de lanzar monedas). Después
de observar a un estudiante lanzando seis colas seguidas, le ofrezco un contrato de diez años y
50 millones de dólares. No hace falta decir que me decepcionaré cuando este estudiante arroje
sólo el 50 por ciento de cruz en esos diez años.
A primera vista, la reversión a la media puede parecer contraria a la “falacia del jugador”.
Después de que el estudiante lanza seis cruces seguidas, ¿debe lanzar cara o no? La probabilidad
de que saque cara en el siguiente lanzamiento es la misma de siempre: ½. El hecho de que haya
lanzado muchas cruces seguidas no hace que sea más probable que salga cara en el siguiente
lanzamiento. Cada lanzamiento es un evento independiente.
Sin embargo, podemos esperar que los resultados de los lanzamientos subsiguientes sean
consistentes con lo que predice la probabilidad, que es mitad cara y mitad cruz, en lugar de lo que
ha sido en el pasado, que es todo cruz. Es prácticamente seguro que alguien que haya lanzado
todas las colas comenzará a lanzar más caras en los siguientes 10, 20 o 100 lanzamientos. Y
cuantos más cambios, más se parecerá el resultado al resultado medio 5050 que predice la ley
de los grandes números. (O, alternativamente, deberíamos empezar a buscar pruebas de fraude).
Como nota curiosa, los investigadores también han documentado un informe de Businessweek
fenómeno. Cuando los directores ejecutivos reciben premios de alto perfil, incluido el nombramiento de
uno de los “Mejores Gerentes” de Businessweek , sus empresas posteriormente tienen un desempeño
inferior durante los siguientes tres años, medido tanto por las ganancias contables como por el precio de
las acciones. Sin embargo, a diferencia del efecto Sports Illustrated , este efecto parece ser más que una
reversión a la media. Según Ulrike Malmendier y Geoffrey Tate, economistas de la Universidad de
California en Berkeley y UCLA, respectivamente, cuando los directores ejecutivos alcanzan el estatus de
“superestrella”, se distraen con su nueva prominencia.
7 Escriben sus memorias. Se les invita a sentarse en las juntas
exteriores. Comienzan a buscar esposas trofeo. (Los autores proponen sólo las dos primeras explicaciones,
pero la última también me parece plausible).
Malmendier y Tate escriben: "Nuestros resultados sugieren que la cultura de superestrella inducida por los
medios conduce a distorsiones de comportamiento más allá de la mera reversión a la mala". En otras
palabras, cuando un director ejecutivo aparece en la portada de Businessweek, vende las acciones.
Discriminación estadística. ¿Cuándo está bien actuar sobre la base de lo que la probabilidad nos dice que
es probable que suceda y cuándo no está bien? En 2003, Anna Diamantopoulou, comisaria europea de
Empleo y Asuntos Sociales, propuso una directiva que declaraba que las compañías de seguros no
pueden cobrar tarifas diferentes a hombres y mujeres, porque viola el principio de igualdad de trato de la
Unión Europea.
8 Para las aseguradoras, sin embargo, las primas basadas en el género no
constituyen discriminación; son sólo estadísticas. Los hombres suelen pagar más por el seguro de
automóvil porque tienen más accidentes. Las mujeres pagan más por anualidades (un producto financiero
que paga una suma fija mensual o anual hasta la muerte) porque viven más.
Obviamente, muchas mujeres sufren más accidentes que muchos hombres, y muchos hombres viven más
que muchas mujeres. Pero, como se explicó en el último capítulo, a las compañías de seguros eso no les
importa. Sólo les importa lo que sucede en promedio, porque si lo hacen bien, la empresa ganará dinero.
Lo interesante de la política de la Comisión Europea que prohíbe las primas de seguro basadas en el
género, que se está implementando en 2012, es que las autoridades no pretenden que el género no esté
relacionado con los riesgos asegurados; simplemente están declarando que las tasas dispares basadas
en el sexo son inaceptables.
*
Al principio, eso parece un molesto guiño a la corrección política. Pensándolo bien, no estoy tan seguro.
¿Recuerdas todas esas cosas impresionantes sobre la prevención de delitos antes de que ocurran? La
probabilidad puede llevarnos a algunos lugares intrigantes pero inquietantes a este respecto. ¿Cómo
deberíamos reaccionar cuando nuestros modelos basados en probabilidades nos dicen que los
contrabandistas de metanfetamina de México tienen más probabilidades de ser hombres hispanos de
entre dieciocho y treinta años que conducen camionetas rojas entre las 9:00 pm y la medianoche, cuando
también sabemos que la gran mayoría de Los hombres hispanos que encajan en ese perfil no son
contrabandistas
¿metanfetamina? Sí, utilicé la palabra elaboración de perfiles, porque esa es la descripción

menos glamorosa del análisis predictivo que describí tan brillantemente en el último capítulo, o
al menos un aspecto potencial del mismo.
La probabilidad nos dice qué es más probable y qué es menos probable. Sí, se trata sólo de
estadísticas básicas: las herramientas descritas en los últimos capítulos. Pero también son
estadísticas con implicaciones sociales. Si queremos atrapar a delincuentes violentos,
terroristas, traficantes de drogas y otras personas con potencial para causar un daño enorme,
entonces debemos utilizar todas las herramientas a nuestra disposición. La probabilidad puede
ser una de esas herramientas. Sería ingenuo pensar que el género, la edad, la raza, el origen
étnico, la religión y el país de origen en conjunto no nos dicen nada sobre nada relacionado
con la aplicación de la ley.
Pero lo que podemos o debemos hacer con ese tipo de información (suponiendo que tenga
algún valor predictivo) es una cuestión filosófica y jurídica, no estadística.
Cada día recibimos más y más información sobre más y más cosas. ¿Está bien discriminar si
los datos nos dicen que acertaremos con mucha más frecuencia de las que nos equivocaremos?
(Este es el origen del término “discriminación estadística” o “discriminación racional”). El mismo
tipo de análisis que puede usarse para determinar que las personas que compran alpiste tienen
menos probabilidades de incumplir con sus tarjetas de crédito (sí, eso es realmente cierto) se
puede aplicar en cualquier otro lugar de la vida.
¿Cuánto de eso es aceptable? Si podemos construir un modelo que identifique correctamente
a los traficantes de drogas 80 de cada 100 veces, ¿qué les sucederá a los pobres en el 20 por
ciento? Porque nuestro modelo los acosará una y otra vez.
El punto más amplio aquí es que nuestra capacidad para analizar datos se ha vuelto mucho
más sofisticada que nuestro pensamiento sobre lo que debemos hacer con los resultados.
Pueden estar de acuerdo o en desacuerdo con la decisión de la Comisión Europea de prohibir
las primas de seguro basadas en el género, pero les prometo que no será la última decisión
complicada de ese tipo. Nos gusta pensar en los números como "hechos fríos y concretos". Si
hacemos bien los cálculos, entonces debemos tener la respuesta correcta. La realidad más
interesante y peligrosa es que a veces podemos hacer los cálculos correctamente y terminar
equivocándonos en una dirección peligrosa. Podemos hacer estallar el sistema financiero o
acosar a un hombre blanco de veintidós años parado en una esquina particular a una hora
particular del día, porque, según nuestro modelo estadístico, es casi seguro que está allí para
comprar drogas. A pesar de toda la elegancia y precisión de la probabilidad, no hay sustituto
para pensar qué cálculos estamos haciendo y por qué los estamos haciendo.
* El SMSL sigue siendo un misterio médico, aunque se han identificado muchos de los factores de riesgo. Por ejemplo, las
muertes infantiles se pueden reducir drásticamente poniéndolos a dormir boca arriba.
* El cambio de política fue precipitado en última instancia por un fallo de 2011 del Tribunal de Justicia de la Unión Europea
según el cual las primas diferentes para hombres y mujeres constituyen discriminación sexual.
CAPÍTULO 7
La importancia de los datos

"Basura dentro basura fuera"
En la primavera de 2012, los investigadores publicaron un hallazgo sorprendente en la prestigiosa revista
Science. Según esta investigación de vanguardia, cuando las moscas macho de la fruta son rechazadas
repetidamente por las hembras, ahogan sus penas en alcohol.
El New York Times describió el estudio en un artículo de primera plana: “Eran machos jóvenes en ciernes, y
atacaron no una, ni dos, sino una docena de veces con un grupo de hembras atractivas rondando cerca.
Entonces hicieron lo que hacen tantos hombres después de haber sido rechazados repetidamente: se
emborracharon y usaron el alcohol como bálsamo para el deseo insatisfecho”.
1
Esta investigación avanza en nuestra comprensión del sistema de recompensa del cerebro, lo que a su
vez puede ayudarnos a encontrar nuevas estrategias para lidiar con la dependencia de drogas y alcohol. Un
experto en abuso de sustancias describió la lectura del estudio como "mirar hacia atrás en el tiempo, para ver
los orígenes mismos del circuito de recompensa que impulsa conductas fundamentales como el sexo, comer
y dormir".
Como no soy un experto en este campo, tuve dos reacciones ligeramente diferentes al leer sobre las
moscas de la fruta despreciadas. Primero, me hizo sentir nostalgia por la universidad.
En segundo lugar, mi investigador interior empezó a preguntarse cómo se emborrachan las moscas de la
fruta. ¿Hay una barra de moscas de la fruta en miniatura, con una variedad de licores a base de frutas y un
camarero empático contra las moscas de la fruta? ¿Suena música country occidental de fondo? ¿A las
moscas de la fruta les gusta la música country occidental?
Resulta que el diseño del experimento era endiabladamente simple. A un grupo de moscas de la fruta
macho se le permitió aparearse libremente con hembras vírgenes. Otro grupo de machos fue liberado entre
moscas de la fruta hembras que ya se habían apareado y, por tanto, eran indiferentes a las propuestas
amorosas de los machos. Luego se ofrecieron a ambos grupos de moscas de la fruta machos pajitas de
alimentación que ofrecían la posibilidad de elegir entre la comida estándar para moscas de la fruta, levadura
y azúcar, y las "cosas duras": levadura, azúcar y 15 por ciento de alcohol.
Los machos que habían pasado días tratando de aparearse con hembras indiferentes tenían significativamente
más probabilidades de beber alcohol.
A pesar de la ligereza, estos resultados tienen implicaciones importantes para los humanos. Sugieren una
conexión entre el estrés, las respuestas químicas en el cerebro y el apetito por el alcohol. Sin embargo, los
resultados no son un triunfo de las estadísticas. Son un triunfo de los datos, que hicieron que las estadísticas
relativamente básicas
análisis posible. La genialidad de este estudio fue encontrar una manera de crear un grupo de
moscas de la fruta macho sexualmente saciadas y un grupo de moscas de la fruta macho
sexualmente frustradas, y luego encontrar una manera de comparar sus hábitos de bebida. Una
vez que los investigadores hicieron eso, el cálculo de números no fue más complicado que el de
un proyecto típico de feria de ciencias de la escuela secundaria.
Los datos son para las estadísticas lo que una buena línea ofensiva es para un mariscal de
campo estrella. Delante de cada mariscal de campo estrella hay un buen grupo de bloqueadores.
Generalmente no reciben mucho crédito. Pero sin ellos, nunca verás a un mariscal de campo
estrella. La mayoría de los libros de estadística suponen que se utilizan buenos datos, del mismo
modo que un libro de cocina supone que no se compra carne rancia ni verduras podridas. Pero
ni siquiera la mejor receta va a salvar una comida que comienza con ingredientes en mal estado.
Lo mismo ocurre con las estadísticas; Ningún análisis sofisticado puede compensar datos
fundamentalmente defectuosos. De ahí la expresión “basura que entra, basura que sale”. Los
datos merecen respeto, al igual que los linieros ofensivos.
Generalmente pedimos a nuestros datos que hagan una de tres cosas. Primero, podemos exigir
una muestra de datos que sea representativa de algún grupo o población más grande. Si
intentamos medir las actitudes de los votantes hacia un candidato político en particular,
necesitaremos entrevistar a una muestra de posibles votantes que sean representativos de todos
los votantes en la jurisdicción política relevante. (Y recuerde, no queremos una muestra que sea
representativa de todos los que viven en esa jurisdicción; queremos una muestra de aquellos
que probablemente votarán). Uno de los hallazgos más poderosos en estadística, que se
explicará con mayor profundidad. Lo que veremos en los dos capítulos siguientes es que las
inferencias hechas a partir de muestras razonablemente grandes y correctamente extraídas
pueden ser tan precisas como intentar obtener la misma información de toda la población.
La forma más sencilla de reunir una muestra representativa de una población más grande es
seleccionar aleatoriamente algún subconjunto de esa población. (Sorprendentemente, esto se
conoce como muestra aleatoria simple). La clave de esta metodología es que cada observación
en la población relevante debe tener las mismas posibilidades de ser incluida en la muestra. Si
planea encuestar una muestra aleatoria de 100 adultos en un vecindario con 4,328 residentes
adultos, su metodología debe garantizar que cada uno de esos 4,328 residentes tenga la misma
probabilidad de terminar como uno de los 100 adultos encuestados. Los libros de estadística casi
siempre ilustran este punto sacando canicas de colores de una urna. (De hecho, es el único lugar
donde se ve la palabra “urna” usada con cierta regularidad). Si hay 60.000 canicas azules y
40.000 canicas rojas en una urna gigante, entonces la composición más probable de una muestra
de 100 canicas extraídas Al azar de la urna saldrían 60 canicas azules y 40 canicas rojas. Si
hiciéramos esto más de una vez, obviamente habría desviaciones de una muestra a otra: algunas
podrían tener 62 canicas azules y 38 canicas rojas,
o 58 azules y 42 rojos. Pero las posibilidades de extraer una muestra aleatoria que se desvíe
enormemente de la composición de las canicas de la urna son muy, muy bajas.
Ahora bien, es cierto que aquí existen algunos desafíos prácticos. La mayoría de las poblaciones
que nos importan tienden a ser más complicadas que una urna llena de canicas. ¿Cómo se
seleccionaría exactamente una muestra aleatoria de la población adulta estadounidense para
incluirla en una encuesta telefónica? Incluso una solución aparentemente elegante como un
marcador telefónico aleatorio tiene fallas potenciales. Es posible que algunas personas
(particularmente las de bajos ingresos) no tengan teléfono. Otros (particularmente las personas de
altos ingresos) pueden ser más propensos a filtrar llamadas y optar por no contestar. El capítulo 10
describirá algunas de las estrategias que utilizan las empresas encuestadoras para superar este
tipo de desafíos de muestreo (la mayoría de los cuales se volvieron aún más complicados con la
llegada de los teléfonos celulares). La idea clave es que una muestra extraída correctamente se
parecerá a la población de la que se extrae. En términos de intuición, uno puede imaginarse probar
una olla de sopa con una sola cucharada. Si ha revuelto la sopa adecuadamente, una sola
cucharada puede indicarle el sabor de toda la olla.
Un texto de estadística incluirá muchos más detalles sobre los métodos de muestreo. Las
empresas encuestadoras y de investigación de mercado dedican sus días a descubrir cómo
obtener buenos datos representativos de diversas poblaciones de la manera más rentable. Por
ahora, usted debe apreciar varias cosas importantes: (1) Una muestra representativa es algo
fabulosamente importante, ya que abre la puerta a algunas de las herramientas más poderosas
que las estadísticas tienen para ofrecer. (2) Obtener una buena muestra es más difícil de lo que
parece. (3) Muchas de las afirmaciones estadísticas más atroces son causadas por buenos
métodos estadísticos aplicados a malas muestras, y no al revés. (4) El tamaño importa y cuanto
más grande, mejor. Los detalles se explicarán en los próximos capítulos, pero debería resultar
intuitivo que una muestra más grande ayudará a suavizar cualquier variación anormal. (Un plato
de sopa será una prueba aún mejor que una cucharada.) Una advertencia crucial es que una
muestra más grande no compensará los errores o “sesgos” en su composición. Una mala muestra
es una mala muestra. Ninguna supercomputadora o fórmula sofisticada va a rescatar la validez de
su encuesta presidencial nacional si los encuestados provienen únicamente de una encuesta
telefónica entre los residentes de Washington, DC. Los residentes de Washington, DC, no votan
como el resto de Estados Unidos; llamar a 100.000 residentes de DC en lugar de a 1.000 no
solucionará ese problema fundamental de su encuesta. De hecho, podría decirse que una muestra
grande y sesgada es peor que una muestra pequeña y sesgada porque dará una falsa sensación
de confianza con respecto a los resultados.
La segunda cosa que a menudo pedimos a los datos es que proporcionen alguna fuente de
comparación. ¿Es un nuevo medicamento más eficaz que el tratamiento actual? ¿Tienen menos
probabilidades de regresar a prisión los ex convictos que reciben capacitación laboral que los ex convictos?
¿Convictos que no reciben esa formación? ¿Los estudiantes que asisten a escuelas charter
obtienen mejores resultados que estudiantes similares que asisten a escuelas públicas regulares?
En estos casos, el objetivo es encontrar dos grupos de sujetos que sean ampliamente
similares excepto por la aplicación de cualquier “tratamiento” que nos interese. En el contexto
de las ciencias sociales, la palabra "tratamiento" es lo suficientemente amplia como para abarcar
cualquier cosa, desde ser una mosca de la fruta sexualmente frustrada hasta recibir una
devolución del impuesto sobre la renta. Como ocurre con cualquier otra aplicación del método
científico, intentamos aislar el impacto de una intervención o atributo específico. Ésta fue la
genialidad del experimento con la mosca de la fruta. Los investigadores descubrieron una
manera de crear un grupo de control (los machos que se aparearon) y un grupo de "tratamiento"
(los machos que fueron derribados); la diferencia posterior en sus comportamientos con la
bebida puede atribuirse a si fueron despreciados sexualmente o no.
En las ciencias físicas y biológicas, crear grupos de tratamiento y control es relativamente
sencillo. Los químicos pueden hacer pequeñas variaciones de un tubo de ensayo a otro y luego
estudiar la diferencia en los resultados. Los biólogos pueden hacer lo mismo con sus placas de
Petri. Incluso la mayoría de las pruebas con animales son más sencillas que intentar hacer que
las moscas de la fruta beban alcohol. Podemos hacer que un grupo de ratas haga ejercicio
regularmente en una cinta rodante y luego comparar su agudeza mental en un laberinto con el
desempeño de otro grupo de ratas que no hicieron ejercicio. Pero cuando los humanos se
involucran, las cosas se complican más. Un análisis estadístico sólido a menudo requiere un
grupo de tratamiento y de control, pero no podemos obligar a la gente a hacer las cosas que
hacemos que hagan las ratas de laboratorio. (Y a muchas personas no les gusta que ni siquiera
las ratas de laboratorio hagan estas cosas). ¿Las conmociones cerebrales repetidas causan
problemas neurológicos graves en el futuro? Esta es una pregunta realmente importante. El
futuro del fútbol (y quizás de otros deportes) depende de la respuesta. Sin embargo, es una
pregunta que no puede responderse con experimentos en humanos. Entonces, a menos que
podamos enseñar a las moscas de la fruta a usar cascos y ejecutar la ofensiva de propagación,
tenemos que encontrar otras formas de estudiar el impacto a largo plazo del traumatismo craneoencefálico.
Un desafío recurrente en la investigación con sujetos humanos es crear grupos de tratamiento
y control que se diferencien sólo en que un grupo recibe el tratamiento y el otro no. Por esta
razón, el “estándar de oro” de la investigación es la aleatorización, un proceso mediante el cual
sujetos humanos (o escuelas, hospitales o cualquier cosa que estemos estudiando) son
asignados aleatoriamente al grupo de tratamiento o al de control. No asumimos que todos los
sujetos experimentales sean idénticos.
En cambio, la probabilidad se convierte en nuestra amiga (una vez más), y asumimos que la
aleatorización dividirá equitativamente todas las características relevantes entre los dos grupos:
tanto las características que podemos observar, como la raza o los ingresos, como también las
características confusas que no podemos medir o que no hemos tenido. considerados, como la
perseverancia o la fe.
La tercera razón por la que recopilamos datos es, para citar a mi hija adolescente, "sólo porque sí". A
veces no tenemos una idea específica de qué haremos con la información, pero sospechamos que en
algún momento será útil. Esto es similar a un detective de la escena del crimen que exige que se capturen
todas las pruebas posibles para poder clasificarlas más tarde en busca de pistas. Algunas de estas
pruebas resultarán útiles, otras no. Si supiéramos exactamente qué sería útil, probablemente no
necesitaríamos realizar la investigación en primer lugar.
Probablemente sepa que el tabaquismo y la obesidad son factores de riesgo de enfermedad cardíaca.
Probablemente no sepa que un estudio de larga duración entre los residentes de Framingham,
Massachusetts, ayudó a aclarar esas relaciones. Framingham es una ciudad suburbana de unas 67.000
personas a unas veinte millas al oeste de Boston.
Para los no investigadores, es más conocido como un suburbio de Boston con viviendas a precios
razonables y acceso conveniente al impresionante y exclusivo Natick Mall. Para los investigadores,
Framingham es mejor conocido como el hogar del Framingham Heart Study, uno de los estudios
longitudinales más exitosos e influyentes en la historia de la ciencia moderna.
Un estudio longitudinal recopila información sobre un gran grupo de sujetos en muchos momentos
diferentes, por ejemplo, una vez cada dos años. Los mismos participantes pueden ser entrevistados
periódicamente durante diez, veinte o incluso cincuenta años después de su entrada en el estudio,
creando un tesoro de información notablemente rico. En el caso del estudio de Framingham, los
investigadores recopilaron información sobre 5.209 residentes adultos de Framingham en 1948:
altura, peso, presión arterial, formación académica, estructura familiar, dieta, tabaquismo, consumo
de drogas, etc. Lo más importante es que los investigadores han recopilado datos de seguimiento
de los mismos participantes desde entonces (y también datos sobre sus descendientes, para
examinar los factores genéticos relacionados con las enfermedades cardíacas). Los datos de
Framingham se han utilizado para producir más de dos mil artículos académicos desde 1950,
incluidos casi mil entre 2000 y 2009.
Estos estudios han producido hallazgos cruciales para nuestra comprensión de las enfermedades
cardiovasculares, muchos de los cuales ahora damos por sentado: fumar cigarrillos aumenta el riesgo de
enfermedades cardíacas (1960); la actividad física reduce el riesgo de enfermedades cardíacas y la
obesidad lo aumenta (1967); la presión arterial alta aumenta el riesgo de sufrir un derrame cerebral
(1970); los niveles elevados de colesterol HDL (en adelante conocido como “colesterol bueno”) reducen
el riesgo de muerte (1988); las personas con padres y hermanos que padecen enfermedades
cardiovasculares tienen un riesgo significativamente mayor de padecer la misma (2004 y 2005).
Los conjuntos de datos longitudinales son el equivalente en investigación de un Ferrari. Los datos son
particularmente valiosos cuando se trata de explorar relaciones causales que pueden tardar años o
décadas en desarrollarse. Por ejemplo, el estudio preescolar de Perry comenzó
a finales de los años 1960 con un grupo de 123 niños afroamericanos de tres y cuatro años
procedentes de familias pobres. Los niños participantes fueron asignados aleatoriamente a un
grupo que recibió un programa preescolar intensivo y un grupo de comparación que no lo recibió.
Luego, los investigadores midieron varios resultados para ambos grupos durante los siguientes
cuarenta años. Los resultados constituyen un argumento convincente a favor de los beneficios de
la educación infantil temprana. Los estudiantes que recibieron la experiencia preescolar intensiva
tenían coeficientes intelectuales más altos a los cinco años. Tenían más probabilidades de
graduarse de la escuela secundaria. Tenían ingresos más altos a los cuarenta años. Por el
contrario, los participantes que no recibieron el programa preescolar tenían significativamente más
probabilidades de haber sido arrestados cinco o más veces antes de los cuarenta años.
No es sorprendente que no siempre podamos tener el Ferrari. El equivalente en investigación
de un Toyota es un conjunto de datos transversales, que es una colección de datos recopilados
en un único momento. Por ejemplo, si los epidemiólogos están buscando la causa de una nueva
enfermedad (o el brote de una antigua), pueden recopilar datos de todos los afectados con la
esperanza de encontrar un patrón que conduzca a la fuente. ¿Qué han comido? ¿Adónde han
viajado? ¿Qué más tienen en común?
Los investigadores también pueden recopilar datos de personas que no padecen la enfermedad
para resaltar los contrastes entre los dos grupos.
De hecho, toda esta interesante charla sobre datos transversales me recuerda la semana
anterior a mi boda, cuando me convertí en parte de un conjunto de datos. Estaba trabajando en
Katmandú, Nepal, cuando di positivo por una enfermedad estomacal poco conocida llamada “algas
verdiazules”, que se había encontrado sólo en dos lugares del mundo. Los investigadores habían
aislado el patógeno que causaba la enfermedad, pero aún no estaban seguros de qué tipo de
organismo era, ya que nunca antes se había identificado. Cuando llamé a casa para informarle a
mi prometida sobre mi diagnóstico, reconocí que había malas noticias. La enfermedad no tenía
medios de transmisión conocidos ni cura conocida y podía causar fatiga extrema y otros efectos
secundarios desagradables durante desde unos pocos días hasta muchos meses.
* Con solo
una semana para la boda, sí, esto podría ser un problema. ¿Tendría control total de mi sistema
digestivo mientras caminaba hacia el altar? Tal vez.
Pero luego traté realmente de concentrarme en las buenas noticias. En primer lugar, se
pensaba que las “algas verdiazules” no eran mortales. Y en segundo lugar, expertos en
enfermedades tropicales de lugares tan lejanos como Bangkok se habían interesado personalmente
en mi caso. ¿Cuan genial es eso? (Además, hice un excelente trabajo al dirigir repetidamente la
discusión hacia la planificación de la boda: "Ya basta de mi enfermedad incurable. Cuéntame más
sobre las flores").
Pasé mis últimas horas en Katmandú completando una encuesta de treinta páginas que
describía cada aspecto de mi vida: ¿Dónde comía? ¿Qué comí? ¿Cómo cociné? ¿Fui a nadar?
¿Dónde y con qué frecuencia? Todos los demás que habían estado
diagnosticado con la enfermedad estaba haciendo lo mismo. Finalmente, el patógeno fue

identificado como una forma de cianobacteria transmitida por el agua. (Estas bacterias son azules
y son el único tipo de bacteria que obtiene su energía de la fotosíntesis; de ahí la descripción
original de la enfermedad como “algas verdiazules”). Se descubrió que la enfermedad respondía
al tratamiento con antibióticos tradicionales, pero , curiosamente, no a algunos de los más nuevos.
Todos estos descubrimientos llegaron demasiado tarde para ayudarme, pero de todos modos tuve
la suerte de recuperarme rápidamente. Tenía un control casi perfecto de mi sistema digestivo el
día de la boda.
Detrás de cada estudio importante hay buenos datos que hicieron posible el análisis. Y detrás de
cada mal estudio. . . bueno, sigue leyendo. La gente suele hablar de “mentir con las estadísticas”.
Yo diría que algunos de los errores estadísticos más atroces implican mentir con los datos; el
análisis estadístico está bien, pero los datos sobre los que se realizan los cálculos son falsos o
inapropiados. A continuación se muestran algunos ejemplos comunes de “basura que entra, basura
que sale”.
Sesgo de selección. Pauline Kael, crítica de cine de The New Yorker desde hace mucho tiempo,
supuestamente dijo después de la elección de Richard Nixon como presidente: “Nixon no podría
haber ganado. No conozco a nadie que haya votado por él”. Lo más probable es que la cita sea
apócrifa, pero es un hermoso ejemplo de cómo una muestra pésima (el grupo de amigos liberales)
puede ofrecer una instantánea engañosa de una población más grande (los votantes de todo
Estados Unidos). E introduce la pregunta que uno siempre debería hacerse: ¿Cómo hemos elegido
la muestra o muestras que estamos evaluando? Si cada miembro de la población relevante no
tiene las mismas posibilidades de terminar en la muestra, tendremos un problema con los
resultados que surjan de esa muestra. Un ritual de la política presidencial es la encuesta de Iowa,
en la que los candidatos republicanos descienden a Ames, Iowa, en agosto del año anterior a una
elección presidencial para cortejar a los participantes, cada uno de los cuales paga 30 dólares para
emitir un voto en la encuesta. La encuesta de Iowa no nos dice mucho sobre el futuro de los
candidatos republicanos. (La encuesta ha pronosticado sólo tres de los últimos cinco candidatos
republicanos). ¿Por qué? Porque los habitantes de Iowa que pagan 30 dólares para votar en las
encuestas son diferentes de otros republicanos de Iowa; y los republicanos de Iowa son diferentes
de los votantes republicanos del resto del país.
El sesgo de selección puede introducirse de muchas otras maneras. Una encuesta de

consumidores en un aeropuerto estará sesgada por el hecho de que las personas que vuelan
probablemente sean más ricas que el público en general; una encuesta en una parada de descanso
en la Interestatal 90 puede tener el problema opuesto. Es probable que ambas encuestas estén
sesgadas por el hecho de que las personas que están dispuestas a responder una encuesta en un
lugar público son diferentes de las personas que preferirían no ser molestadas. Si le pides a 100
personas en un lugar público que completen una breve encuesta y 60 están dispuestas a responder tus preguntas
Es probable que esos 60 sean diferentes en aspectos significativos de los 40 que pasaron sin
hacer contacto visual.
Uno de los errores estadísticos más famosos de todos los tiempos, la famosa encuesta Literary
Digest de 1936, fue causado por una muestra sesgada. Ese año, el gobernador de Kansas, Alf
Landon, un republicano, se postuló para presidente contra el actual presidente Franklin Roosevelt,
un demócrata. Literary Digest, una influyente revista semanal de noticias en ese momento, envió
por correo una encuesta a sus suscriptores y a los propietarios de automóviles y teléfonos cuyas
direcciones podían extraerse de los registros públicos. En total, la encuesta de Literary Digest
incluyó a 10 millones de posibles votantes, lo que supone una muestra astronómicamente grande.
A medida que las encuestas con buenas muestras crecen, mejoran, ya que el margen de error se
reduce. A medida que crecen las encuestas con malas muestras, la pila de basura se hace cada
vez más grande y huele más mal. Literary Digest predijo que Landon vencería a Roosevelt con el
57 por ciento del voto popular. De hecho, Roosevelt ganó de manera aplastante, con el 60 por
ciento del voto popular y cuarenta y seis de los cuarenta y ocho estados en el colegio electoral.
La muestra de Literary Digest era “basura”: los suscriptores de la revista eran más ricos que el
estadounidense promedio y, por lo tanto, tenían más probabilidades de votar por los republicanos,
al igual que los hogares con teléfonos y automóviles en 1936.
2
Podemos terminar con el mismo problema básico cuando comparamos los resultados entre un
grupo de tratamiento y un grupo de control si el mecanismo para clasificar a los individuos en un
grupo u otro no es aleatorio. Consideremos un hallazgo reciente en la literatura médica sobre los
efectos secundarios del tratamiento del cáncer de próstata. Existen tres tratamientos comunes
para el cáncer de próstata: extirpación quirúrgica de la próstata; radioterapia; o braquiterapia (que
implica la implantación de “semillas” radiactivas cerca del cáncer). La impotencia es un efecto
3
tratamiento, por lo que los secundario común de las “semillas” de cáncer de próstata.
investigadores han documentado la función sexual de los hombres que reciben cada uno de los
tres tratamientos. Un estudio de 1.000 hombres encontró que dos años después del tratamiento,
el 35 por ciento de los hombres en el grupo de cirugía pudieron tener relaciones sexuales, en
comparación con el 37 por ciento en el grupo de radiación y el 43 por ciento en el grupo de
braquiterapia.
¿Se pueden observar estos datos y asumir que la braquiterapia tiene menos probabilidades de dañar la función
sexual de un hombre? No no no. Los autores del estudio advierten explícitamente que no podemos concluir que la
braquiterapia sea mejor para preservar la función sexual, ya que los hombres que reciben este tratamiento son
generalmente más jóvenes y están en mejor forma que los hombres que reciben el otro tratamiento. El propósito del
estudio fue simplemente documentar el grado de efectos secundarios sexuales en todos los tipos de tratamiento.
Una fuente relacionada de sesgo, conocida como sesgo de autoselección, surgirá siempre que
los individuos se ofrecen como voluntarios para estar en un grupo de tratamiento. Por ejemplo,
los presos que se ofrecen como voluntarios para un grupo de tratamiento de drogas se diferencian
de otros presos porque se han ofrecido como voluntarios para estar en un programa de
tratamiento de drogas. Si los participantes en este programa tienen más probabilidades de
permanecer fuera de prisión después de su liberación que otros prisioneros, eso es genial, pero
no nos dice absolutamente nada sobre el valor del programa de tratamiento de drogas. Es posible
que estos ex reclusos hayan cambiado sus vidas porque el programa los ayudó a dejar las
drogas. O pueden haber cambiado sus vidas debido a otros factores que también los hicieron
más propensos a ofrecerse como voluntarios para un programa de tratamiento de drogas (como
tener un deseo realmente fuerte de no volver a prisión). No podemos separar el impacto causal
de uno (el programa de tratamiento de drogas) del otro (ser el tipo de persona que se ofrece
como voluntaria para un programa de tratamiento de drogas).
El sesgo de publicación. Es más probable que se publiquen los hallazgos positivos que los
negativos, lo que puede sesgar los resultados que vemos. Supongamos que acaba de realizar
un estudio longitudinal riguroso en el que concluye de manera concluyente que jugar videojuegos
no previene el cáncer de colon. Ha seguido una muestra representativa de 100.000
estadounidenses durante veinte años; los participantes que pasan horas jugando videojuegos
tienen aproximadamente la misma incidencia de cáncer de colon que los participantes que no
juegan videojuegos en absoluto. Asumiremos que su metodología es impecable. ¿Qué revista
médica de prestigio va a publicar tus resultados?
Ninguno, por dos razones. En primer lugar, no existe una razón científica sólida para creer
que los videojuegos tengan algún impacto en el cáncer de colon, por lo que no es obvio por qué
se estaba realizando este estudio. En segundo lugar, y más relevante aquí, el hecho de que algo
no prevenga el cáncer no es un hallazgo particularmente interesante. Después de todo, la
mayoría de las cosas no previenen el cáncer. Los hallazgos negativos no son especialmente
atractivos, ni en medicina ni en otros ámbitos.
El efecto neto es distorsionar la investigación que vemos o no vemos. Supongamos que uno
de sus compañeros de posgrado ha realizado un estudio longitudinal diferente. Ella encuentra
que las personas que pasan mucho tiempo jugando videojuegos tienen una menor incidencia de
cáncer de colon. ¡Eso sí que es interesante! Ese es exactamente el tipo de hallazgo que llamaría
la atención de una revista médica, la prensa popular, los blogueros y los fabricantes de
videojuegos (que pondrían etiquetas en sus productos exaltando los beneficios para la salud de
sus productos). No pasaría mucho tiempo antes de que las Mamás Tigre de todo el país
“protegieran” a sus hijos del cáncer arrebatándoles libros de las manos y obligándolos a jugar
videojuegos.
Por supuesto, una importante idea recurrente en estadística es que las cosas inusuales
sucede de vez en cuando, simplemente por una cuestión de casualidad. Si se realizan 100 estudios, es probable
que uno de ellos arroje resultados que son pura tontería, como una asociación estadística entre jugar videojuegos
y una menor incidencia de cáncer de colon. Aquí está el problema: los 99 estudios que no encuentran ningún
vínculo entre los videojuegos y el cáncer de colon no se publicarán porque no son muy interesantes. El único
estudio que encuentre un vínculo estadístico se publicará y recibirá mucha atención posterior. La fuente del sesgo
no surge de los estudios en sí sino de la información sesgada que realmente llega al público. Alguien que lea la
literatura científica sobre los videojuegos y el cáncer encontrará sólo un estudio, y ese único estudio sugerirá que
jugar videojuegos puede prevenir el cáncer. De hecho, 99 de 100 estudios no habrían encontrado tal vínculo.
Sí, mi ejemplo es absurdo, pero el problema es real y grave. Aquí está la primera frase de un artículo del New
York Times sobre el sesgo de publicación que rodea a los medicamentos para tratar la depresión: “Los fabricantes
de antidepresivos como Prozac y Paxil nunca publicaron los resultados de aproximadamente un tercio de los
ensayos de medicamentos que llevaron a cabo para obtener la aprobación del gobierno. engañar a médicos y
consumidores sobre la verdadera eficacia de los medicamentos”. 4 Resulta que el 94 por ciento de los estudios
con resultados positivos sobre la eficacia de estos medicamentos fueron publicados, mientras que sólo el 14 por
ciento de los estudios con resultados no positivos fueron publicados. Para los pacientes que padecen depresión,
esto es un gran problema. Cuando se incluyen todos los estudios, los antidepresivos son mejores que un placebo
sólo por "un margen modesto".
Para combatir este problema, las revistas médicas ahora suelen exigir que cualquier estudio se registre al
comienzo del proyecto para que sea elegible para su publicación más adelante. Esto les da a los editores alguna
evidencia sobre la proporción de hallazgos positivos y no positivos. Si se registran 100 estudios que proponen
examinar el efecto del skate en las enfermedades cardíacas, y finalmente solo uno se envía para publicación con
resultados positivos, los editores pueden inferir que los otros estudios tuvieron resultados no positivos (o al menos
pueden investigar esta posibilidad). .
Sesgo de recuerdo. La memoria es algo fascinante, aunque no siempre es una gran fuente de buenos datos.
Tenemos un impulso humano natural de entender el presente como una consecuencia lógica de cosas que
sucedieron en el pasado: causa y efecto. El problema es que nuestros recuerdos resultan ser "sistemáticamente
frágiles" cuando intentamos explicar algún resultado particularmente bueno o malo en el presente. Considere un
estudio que analiza la relación entre la dieta y el cáncer. En 1993, un investigador de Harvard recopiló un conjunto
de datos que comprendía un grupo de mujeres con cáncer de mama y un grupo de mujeres de la misma edad a
las que no se les había diagnosticado cáncer.
A las mujeres de ambos grupos se les preguntó sobre sus hábitos alimentarios en etapas anteriores de su vida. El
El estudio arrojó resultados claros: las mujeres con cáncer de mama tenían significativamente más
probabilidades de haber tenido dietas ricas en grasas cuando eran más jóvenes.
Ah, pero en realidad este no fue un estudio sobre cómo la dieta afecta la probabilidad de contraer
cáncer. Este fue un estudio sobre cómo el cáncer afecta la memoria de una mujer sobre su dieta en una
etapa más temprana de su vida. Todas las mujeres del estudio habían completado una encuesta dietética
años antes, antes de que a ninguna de ellas se le diagnosticara cáncer. El hallazgo sorprendente fue que
las mujeres con cáncer de mama recordaban una dieta mucho más rica en grasas que la que realmente
consumían; las mujeres sin cáncer no lo hicieron. El New York Times Magazine describió la naturaleza
insidiosa de este sesgo de retirada:
El diagnóstico de cáncer de mama no sólo había cambiado el presente y el futuro de una mujer;
había alterado su pasado. Las mujeres con cáncer de mama habían decidido (inconscientemente)
que una dieta alta en grasas era una predisposición probable a su enfermedad y (inconscientemente)
recordaron una dieta alta en grasas. Era un patrón conmovedoramente familiar para cualquiera que
conozca la historia de esta enfermedad estigmatizada: estas mujeres, como miles de mujeres antes
que ellas, habían buscado en sus propios recuerdos una causa y luego habían invocado esa causa
en
5 memoria.
El sesgo de recuerdo es una de las razones por las que a menudo se prefieren los estudios longitudinales
a los estudios transversales. En un estudio longitudinal los datos se recogen al mismo tiempo. A los cinco
años, se puede preguntar a un participante sobre sus actitudes hacia la escuela. Luego, trece años
después, podemos volver a visitar a ese mismo participante y determinar si abandonó la escuela
secundaria. En un estudio transversal, en el que todos los datos se recopilan en un momento determinado,
debemos preguntarle a un joven de dieciocho años que abandonó la escuela secundaria cómo se sentía
acerca de la escuela a los cinco años, lo cual es inherentemente menos confiable.
Sesgo de supervivencia. Supongamos que el director de una escuela secundaria informa que los puntajes
de las pruebas de un grupo particular de estudiantes han aumentado constantemente durante cuatro años.
Los puntajes de los estudiantes de segundo año para esta clase fueron mejores que los de los estudiantes
de primer año. Los puntajes del tercer año fueron aún mejores y los del último año fueron los mejores de
todos. Estipularemos que no se hacen trampas, ni siquiera ningún uso creativo de estadísticas descriptivas.
Cada año, a esta cohorte de estudiantes le ha ido mejor que el año anterior, según todas las medidas
posibles: media, mediana, porcentaje de estudiantes al nivel de grado, etc.
¿(a) nominaría a este líder escolar como “director del año” o (b)
¿Exigir más datos?
Yo digo "b". Huelo el sesgo de supervivencia, que ocurre cuando algunos o muchos de los
las observaciones están cayendo de la muestra, cambiando la composición de las observaciones que
quedan y, por lo tanto, afectando los resultados de cualquier análisis. Supongamos que nuestro director
es realmente horrible. Los estudiantes de su escuela no aprenden nada; cada año la mitad de ellos
abandonan los estudios. Bueno, eso podría hacer cosas muy buenas para los resultados de los exámenes
de la escuela, sin que ningún estudiante individual obtenga mejores resultados. Si hacemos el supuesto
razonable de que los peores estudiantes (con los puntajes más bajos en las pruebas) son los que tienen
más probabilidades de abandonar la escuela, entonces las calificaciones promedio de los estudiantes que
se quedaron atrás aumentarán constantemente a medida que más y más estudiantes abandonen. (Si
tiene una habitación con personas de diferentes alturas, obligar a las personas bajas a irse aumentará la
altura promedio en la habitación, pero no hará que nadie sea más alto).
La industria de los fondos mutuos ha aprovechado de manera agresiva (e insidiosa) el sesgo de

supervivencia para que sus rendimientos parezcan mejores a los ojos de los inversores de lo que realmente son.
Los fondos mutuos suelen comparar su desempeño con un punto de referencia clave para las acciones,
el Standard & Poor's 500, que es un índice de 500 compañías mutuas líderes en Estados Unidos. Se dice
por detrás del índice si su * que el fondo supera al índice si su desempeño es mejor que ese, o está
desempeño es peor. Una opción fácil y barata para los inversores que no quieren pagarle a un
administrador de fondos mutuos es comprar un fondo indexado S&P 500, que es un fondo mutuo que
simplemente compra acciones de las 500 acciones del índice. A los administradores de fondos mutuos les
gusta creer que son inversionistas inteligentes, capaces de utilizar su conocimiento para elegir acciones
que tendrán un mejor desempeño que un simple fondo indexado. De hecho, resulta relativamente difícil
superar al S&P 500 durante un período constante de tiempo. (El S&P 500 es esencialmente un promedio
de todas las acciones grandes que se negocian, por lo que, simplemente como cuestión matemática,
esperaríamos que aproximadamente la mitad de los fondos mutuos administrados activamente superaran
al S&P 500 en un año determinado y la otra mitad tuvieran un desempeño inferior). No parece muy bueno
perder ante un índice sin sentido que simplemente compra 500 acciones y las mantiene. Sin análisis. Sin
previsiones macroeconómicas sofisticadas. Y, para deleite de los inversores, no hay comisiones de
gestión elevadas.
¿Qué debe hacer una empresa de fondos mutuos tradicional? ¡Datos falsos al rescate!
Así es como pueden “ganarle al mercado” sin ganarle al mercado. Una gran compañía mutua abrirá
muchos fondos nuevos administrados activamente (lo que significa que los expertos eligen las acciones,
a menudo con un enfoque o estrategia particular). A modo de ejemplo, supongamos que una empresa de
fondos mutuos abre veinte nuevos fondos, cada uno de los cuales tiene aproximadamente un 50 por
ciento de posibilidades de superar al S&P 500 en un año determinado. (Esta suposición es consistente
con los datos a largo plazo.) Ahora bien, la probabilidad básica sugiere que sólo diez de los nuevos fondos
de la empresa superarán al S&P 500 el primer año; cinco fondos le superarán dos años seguidos; y dos o
tres lo superarán tres años seguidos.
Aquí viene la parte inteligente. En ese momento, los nuevos fondos mutuos con rendimientos
poco impresionantes en relación con el S&P 500 se cierran silenciosamente. (Sus activos se
integran en otros fondos existentes). Luego, la empresa puede publicitar intensamente los dos o
tres nuevos fondos que han “superado consistentemente al S&P 500”, incluso si ese desempeño
es el equivalente en la selección de acciones a sacar tres caras seguidas. . Es probable que el
rendimiento posterior de estos fondos vuelva a la media, aunque después de que los inversores
se hayan acumulado. El número de fondos mutuos o gurús de la inversión que han superado
consistentemente al S&P 500 durante un largo período
es sorprendentemente pequeño. *
Sesgo de usuario saludable. Es probable que las personas que toman vitaminas con regularidad
estén sanas , ¡porque son el tipo de personas que toman vitaminas con regularidad! Si las
vitaminas tienen algún impacto es un tema aparte. Considere el siguiente experimento mental.
Supongamos que los funcionarios de salud pública promulgan la teoría de que todos los nuevos
padres deberían acostar a sus hijos sólo con pijamas morados, porque eso ayuda a estimular el
desarrollo del cerebro. Veinte años después, una investigación longitudinal confirma que haber
usado pijamas morados cuando era niño tiene una asociación positiva abrumadoramente grande
con el éxito en la vida. Encontramos, por ejemplo, que el 98 por ciento de los estudiantes de
primer año de Harvard vestían pijamas morados cuando eran niños (y muchos todavía lo hacen),
en comparación con sólo el 3 por ciento de los reclusos en el sistema penitenciario del estado de
Massachusetts.
Eso sí, el pijama morado da igual; pero tener el tipo de padres que ponen a sus hijos en
pijamas morados sí importa. Incluso cuando intentamos controlar factores como la educación de
los padres, todavía nos quedarán diferencias inobservables entre los padres que se obsesionan
con poner a sus hijos un pijama morado y los que no. Como explica Gary Taubes, redactor de
salud del New York Times : “En su forma más simple, el problema es que las personas que se
dedican fielmente a actividades que son buenas para ellos (tomar un medicamento según lo
recetado, por ejemplo, o comer lo que creen que es una dieta saludable) son fundamentalmente
diferentes de aquellos que no lo hacen”. 6 Este efecto puede confundir potencialmente cualquier
estudio que intente evaluar el efecto real de actividades percibidas como saludables, como hacer
ejercicio regularmente o comer col rizada. Creemos que estamos comparando los efectos sobre
la salud de dos dietas: col rizada versus no col rizada. De hecho, si los grupos de tratamiento y
control no se asignan al azar, estamos comparando dos dietas que consumen dos tipos diferentes
de personas. Tenemos un grupo de tratamiento que es diferente del grupo de control en dos
aspectos, en lugar de solo uno.
Si la estadística es un trabajo de detective, entonces los datos son las pistas. Mi esposa pasó un
año enseñando a estudiantes de secundaria en la zona rural de New Hampshire. Uno de sus
alumnos fue arrestado por irrumpir en una ferretería y robar algunas herramientas. La policía
pudimos resolver la caja porque (1) acababa de nevar y había huellas en la nieve que iban desde
la ferretería hasta la casa del estudiante; y (2) las herramientas robadas se encontraron en el
interior. Las buenas pistas ayudan.
Como buenos datos. Pero primero hay que conseguir buenos datos, y eso es mucho más difícil
de lo que parece.
* En ese momento, la enfermedad tenía una duración media de cuarenta y tres días con una desviación estándar de veinticuatro
días.
* El S&P 500 es un buen ejemplo de lo que puede y debe hacer un índice. El índice se compone de los precios de las acciones
de las 500 empresas líderes de EE. UU., cada una ponderada por su valor de mercado (de modo que las empresas más grandes
tienen más peso en el índice que las más pequeñas). El índice es un indicador simple y preciso de lo que está sucediendo con
los precios de las acciones de las empresas estadounidenses más grandes en un momento dado.
* Para una muy interesante discusión sobre por qué probablemente deberías comprar fondos indexados en lugar de intentar
ganarle al mercado, lee Un paseo aleatorio por Wall Street, de mi ex profesor Burton Malkiel.
CAPÍTULO 8
El teorema del límite central

El Lebron James de las estadísticas
A veces, las estadísticas parecen casi mágicas. Podemos sacar conclusiones amplias y poderosas
a partir de relativamente pocos datos. De alguna manera podemos obtener una visión significativa
de una elección presidencial convocando a apenas mil votantes estadounidenses. Podemos
analizar cien pechugas de pollo para detectar salmonella en una planta procesadora de aves y
concluir, solo a partir de esa muestra, que toda la planta es segura o no. ¿De dónde viene este
extraordinario poder de generalizar?
Gran parte proviene del teorema del límite central, que es el Lebron James de la estadística, si
Lebron fuera también una supermodelo, un profesor de Harvard y el ganador del Premio Nobel de
la Paz. El teorema del límite central es la “fuente de energía” de muchas de las actividades
estadísticas que implican el uso de una muestra para hacer inferencias sobre una población
grande (como una encuesta o una prueba de salmonella). Este tipo de inferencias pueden parecer
místicas; de hecho, son sólo una combinación de dos herramientas que ya hemos explorado:
probabilidad y muestreo adecuado. Antes de sumergirnos en la mecánica del teorema del límite
central (que no es tan complicado), he aquí un ejemplo para darle una intuición general.
Suponga que vive en una ciudad que organiza un maratón. Competirán corredores de todo el
mundo, lo que significa que muchos de ellos no hablan inglés. La logística de la carrera requiere
que los corredores se registren la mañana de la carrera, después de lo cual se les asigna
aleatoriamente a autobuses que los llevarán a la línea de salida. Desafortunadamente uno de los
autobuses se pierde camino a la carrera.
(Está bien, tendrás que asumir que nadie tiene un teléfono celular y que el conductor no tiene un
dispositivo de navegación GPS; a menos que quieras hacer muchos cálculos desagradables ahora
mismo, simplemente hazlo). Como líder cívico de esta ciudad, te unes al equipo de búsqueda.
Quiso la suerte que cerca de tu casa te topes con un autobús averiado con un gran grupo de
pasajeros internacionales descontentos, ninguno de los cuales habla inglés. ¡Este debe ser el
autobús perdido! ¡Vas a ser un héroe! Excepto que tienes una duda persistente: los pasajeros de
...
este autobús son, bueno, muy grandes.
Con un vistazo rápido, se calcula que el peso promedio de este grupo de pasajeros debe ser
superior a 220 libras. No hay manera de que un grupo aleatorio
de los corredores de maratón podrían ser así de pesados. Envía su mensaje por radio al cuartel
general de búsqueda: “Creo que es el autobús equivocado. Seguir mirando."
Un análisis más detallado confirma su impresión inicial. Cuando llega un traductor, descubres que
este autobús averiado se dirigía al Festival Internacional del Embutido, que también se celebra en tu
ciudad ese mismo fin de semana. (En aras de la verosimilitud, es muy posible que los participantes
del festival de las salchichas también usen pantalones deportivos).
Felicidades. Si puedes entender cómo alguien que echa un vistazo rápido a los pesos de los
pasajeros de un autobús puede inferir que probablemente no están en camino a la línea de salida de
un maratón, entonces entiendes la idea básica del teorema del límite central. El resto es simplemente
darle cuerpo a los detalles. Y si comprende el teorema del límite central, la mayoría de las formas de
inferencia estadística le parecerán relativamente intuitivas.
El principio central que subyace al teorema del límite central es que una muestra grande y extraída
correctamente se parecerá a la población de la que se extrae. Obviamente habrá variación de una
muestra a otra (por ejemplo, cada autobús que se dirige al inicio del maratón tendrá una mezcla de
pasajeros ligeramente diferente), pero la probabilidad de que cualquier muestra se desvíe
enormemente de la población subyacente es muy baja. Esta lógica es la que le permitió tomar un
juicio rápido cuando subió al autobús averiado y vio la circunferencia promedio de los pasajeros a
bordo. Mucha gente importante corre maratones; es probable que haya cientos de personas que
pesen más de 200 libras en cualquier carrera determinada. Pero la mayoría de los corredores de
maratón son relativamente delgados. Por lo tanto, la probabilidad de que tantos de los corredores más
grandes fueran asignados aleatoriamente al mismo autobús es muy, muy baja. Se podría concluir con
un grado razonable de confianza que este no era el autobús perdido del maratón. Sí, podrías haberte
equivocado, pero la probabilidad nos dice que la mayoría de las veces habrías estado en lo cierto.
Ésa es la intuición básica detrás del teorema del límite central. Cuando agregamos algunos detalles
estadísticos, podemos cuantificar la probabilidad de que tenga razón o no. Por ejemplo, podríamos calcular que
en un campo de maratón de 10.000 corredores con un peso medio de 155 libras, hay menos de 1 probabilidad
entre 100 de que una muestra aleatoria de 60 de esos corredores (nuestro autobús perdido) tuviera un peso
medio. de 220 libras o más. Por ahora, sigamos con la intuición; Habrá mucho tiempo para hacer cálculos más
adelante. El teorema del límite central nos permite hacer las siguientes inferencias, todas las cuales se explorarán
con mayor profundidad en el próximo capítulo.
1. Si tenemos información detallada sobre alguna población, entonces podemos hacer

inferencias poderosas sobre cualquier muestra extraída adecuadamente de esa población.
población. Por ejemplo, supongamos que el director de una escuela tiene información
detallada sobre los puntajes de las pruebas estandarizadas de todos los estudiantes de
su escuela (media, desviación estándar, etc.). Esa es la población relevante. Ahora
supongamos que un burócrata del distrito escolar llegará la próxima semana para aplicar
una prueba estandarizada similar a 100 estudiantes seleccionados al azar. El desempeño
de esos 100 estudiantes, la muestra, se utilizará para evaluar el desempeño de la escuela
en general.
¿Cuánta confianza puede tener el director en que el desempeño de esos 100
estudiantes elegidos al azar reflejará con precisión cómo se ha desempeñado todo el
alumnado en pruebas estandarizadas similares? Bastante.
Según el teorema del límite central, la puntuación promedio de la prueba para una muestra
aleatoria de 100 estudiantes normalmente no se desviará marcadamente de la puntuación
promedio de la prueba de toda la escuela.
2. Si tenemos información detallada sobre una muestra extraída correctamente (media y
desviación estándar), podemos hacer inferencias sorprendentemente precisas sobre la
población de la que se extrajo esa muestra. Básicamente, esto funciona en la dirección
opuesta al ejemplo anterior, poniéndonos en el lugar del burócrata del distrito escolar que
está evaluando varias escuelas del distrito. A diferencia del director de la escuela, este
burócrata no tiene (o no confía) en los datos de calificaciones de las pruebas estandarizadas
que el director tiene para todos los estudiantes de una escuela en particular, que es la
población relevante. En cambio, administrará una prueba similar a una muestra aleatoria
de 100 estudiantes en cada escuela.
¿Puede este administrador estar razonablemente seguro de que el desempeño general

de cualquier escuela determinada puede evaluarse de manera justa basándose en los
puntajes de las pruebas de una muestra de sólo 100 estudiantes de esa escuela? Sí. El
teorema del límite central nos dice que una muestra grande normalmente no se desviará
marcadamente de su población subyacente, lo que significa que los resultados de la
muestra (puntajes de los 100 estudiantes elegidos al azar) son un buen sustituto de los
resultados de la población en general (el cuerpo estudiantil). en una escuela en particular).
Por supuesto, así es como funcionan las encuestas. Una encuesta metodológicamente
sólida entre 1.200 estadounidenses puede decirnos mucho sobre cómo piensa todo el país.
Piénsalo: si no. 1 anterior es cierto, no. 2 también debe ser cierta y viceversa. Si una
muestra normalmente se parece a la población de la que se extrae, también debe ser
cierto que una población normalmente se parecerá a una muestra extraída de esa
población. (Si los niños normalmente se parecen a sus padres, los padres también deben
parecerse a sus hijos).
3. Si tenemos datos que describen una muestra particular y datos sobre una población
particular, podemos inferir si esa muestra es consistente o no con una
muestra que probablemente se extraerá de esa población. Este es el ejemplo del bus
perdido descrito al principio del capítulo. Conocemos el peso medio (más o menos) de
los participantes en el maratón. Y conocemos el peso medio (más o menos) de los
pasajeros del autobús averiado. El teorema del límite central nos permite calcular la
probabilidad de que una muestra particular (las personas regordetas en el autobús) haya
sido extraída de una población determinada (el campo de maratón). Si esa probabilidad
es baja, entonces podemos concluir con un alto grado de confianza que la muestra no
se tomó de la población en cuestión (por ejemplo, las personas en este autobús
realmente no parecen un grupo de corredores de maratón que se dirigen a la salida).
línea).
4. Por último, si conocemos las características subyacentes de dos muestras, podemos
inferir si ambas muestras probablemente fueron extraídas de la misma población.
Volvamos a nuestro (cada vez más absurdo) ejemplo del autobús. Ahora sabemos que
en la ciudad se está celebrando una maratón, además del Festival Internacional del
Embutido. Supongamos que ambos grupos tienen miles de participantes y que ambos
grupos operan autobuses, todos cargados con muestras aleatorias de corredores de
maratón o entusiastas de las salchichas. Supongamos además que dos autobuses
chocan. (Ya he admitido que el ejemplo es absurdo, así que sigue leyendo). En tu
calidad de líder cívico, llegas al lugar y tienes la tarea de determinar si ambos autobuses
se dirigían o no al mismo evento (festival de las salchichas o maratón). ). Milagrosamente,
nadie en ninguno de los autobuses habla inglés, pero los paramédicos le brindan
información detallada sobre el peso de todos los pasajeros de cada autobús.
Solo a partir de eso, se puede inferir si los dos autobuses probablemente se dirigían
al mismo evento o a eventos diferentes. Nuevamente, piense en esto de manera intuitiva.
Supongamos que el peso promedio de los pasajeros de un autobús es de 157 libras,
con una desviación estándar de 11 libras (lo que significa que una alta proporción de los
pasajeros pesa entre 146 y 168 libras).
Supongamos ahora que los pasajeros del segundo autobús tienen un peso medio de
211 libras con una desviación estándar de 21 libras (lo que significa que una alta
proporción de los pasajeros pesa entre 190 libras y 232 libras).
Olvídese de las fórmulas estadísticas por un momento y utilice simplemente la lógica:
¿parece probable que los pasajeros de esos dos autobuses procedieran aleatoriamente
de la misma población?
No. Parece mucho más probable que un autobús esté lleno de corredores de maratón
y el otro esté lleno de entusiastas de las salchichas. Además de la diferencia en el peso
promedio entre los dos autobuses, también puede ver que la variación de pesos entre
los dos autobuses es muy grande en comparación con la variación de pesos dentro de
cada autobús. Las personas que pesan una desviación estándar por encima
la media en el autobús “delgado” es 168 libras, que es menos que las personas que están
una desviación estándar por debajo de la media en el “otro” autobús (190 libras). Esta es
una señal reveladora (tanto estadística como lógicamente) de que las dos muestras
probablemente provenían de poblaciones diferentes.
Si todo esto tiene sentido intuitivo, entonces estás en el 93,2 por ciento del camino hacia
comprensión del teorema del límite central. * Necesitamos dar un paso más para poner
algo de peso técnico detrás de la intuición. Obviamente, cuando asomabas la cabeza dentro del
autobús averiado y veías a un grupo de personas grandes con pantalones deportivos, tenías la
“corazonada” de que no eran maratonistas. El teorema del límite central nos permite ir más allá
de esa corazonada y asignar un grado de confianza a nuestra conclusión.
Por ejemplo, algunos cálculos básicos me permitirán concluir que 99 de cada 100 veces el
peso medio de cualquier autobús de maratonistas seleccionado al azar estará dentro de las
nueve libras del peso medio de todo el campo de maratón. Eso es lo que le da peso estadístico
a mi corazonada cuando me tropiezo con el autobús averiado.
Estos pasajeros tienen un peso medio veintiún libras superior al peso medio del maratón, algo
que sólo debería ocurrir por casualidad menos de 1 vez entre 100. Como resultado, puedo
rechazar la hipótesis de que se trata de un peso faltante. autobús maratón con un 99 por ciento
de confianza, lo que significa que debería esperar que mi inferencia sea correcta 99 de cada
100 veces.
Y sí, la probabilidad sugiere que, en promedio, me equivocaré 1 vez entre 100.
Todo este tipo de análisis surge del teorema del límite central, que, desde un punto de vista
estadístico, tiene poder y elegancia similares a los de Lebron James. Según el teorema del
límite central, las medias muestrales de cualquier población se distribuirán aproximadamente
como una distribución normal alrededor de la media poblacional. Espere un momento mientras
analizamos esa declaración.
1. Supongamos que tenemos una población, como nuestro campo de maratón, y estamos
interesados en los pesos de sus miembros. Cualquier muestra de corredores, como cada
autobús de sesenta corredores, tendrá una media.
2. Si tomamos muestras repetidas, como seleccionar grupos aleatorios de sesenta
corredores del campo una y otra vez, entonces cada una de esas muestras tendrá su
propio peso medio. Estos son los medios de muestra.
3. La mayoría de las medias muestrales estarán muy cerca de la media poblacional.
Algunos serán un poco más altos. Algunos serán un poco más bajos. Sólo por cuestión
de azar, muy pocos serán significativamente más altos que la media de la población, y
muy pocos serán significativamente más bajos.
Cue la música, porque aquí es donde todo se junta en un poderoso

crescendo ...
4. El teorema del límite central nos dice que las medias muestrales se distribuirán aproximadamente
como una distribución normal alrededor de la media poblacional.
La distribución normal, como recordará del Capítulo 2, es la distribución en forma de campana (por ejemplo, la
altura de los hombres adultos) en la que el 68 por ciento de las observaciones se encuentran dentro de una
desviación estándar de la media, el 95 por ciento se encuentra dentro de dos desviaciones estándar y el 95 por
ciento se encuentra dentro de dos desviaciones estándar. pronto.
5. Todo esto será cierto sin importar cuál sea la distribución de la población subyacente. La población
de la que se extraen las muestras no tiene que tener una distribución normal para que las medias
muestrales se distribuyan normalmente.
Pensemos en algunos datos reales, digamos, la distribución del ingreso de los hogares en Estados
Unidos. Los ingresos de los hogares no se distribuyen normalmente en Estados Unidos; en cambio, tiende
a estar sesgado hacia la derecha. Ningún hogar puede ganar menos de $0 en un año determinado, por lo
que ese debe ser el límite inferior de la distribución. Mientras tanto, un pequeño grupo de hogares puede
obtener ingresos anuales asombrosamente elevados: cientos de millones o incluso miles de millones de
dólares en algunos casos. Como resultado, esperaríamos que la distribución de los ingresos de los hogares
tuviera una cola derecha larga, algo como esto:
El ingreso familiar medio en los Estados Unidos es de aproximadamente 51.900 dólares; el ingreso
familiar medio es $70,900. 1 (Personas como Bill Gates desplazan el ingreso
familiar medio hacia la derecha, tal como lo hizo cuando entró al bar en el capítulo 2). Supongamos ahora
que tomamos una muestra aleatoria de 1.000 hogares estadounidenses y recopilamos información sobre el
ingreso familiar anual. Con base en la información anterior y el teorema del límite central, ¿qué podemos
inferir sobre esta muestra?
Resulta que bastante. En primer lugar, nuestra mejor suposición sobre cuál es el significado de cualquier
La muestra será es la media de la población de la que se extrae. El objetivo de una muestra

representativa es que se parezca a la población subyacente. Una muestra correctamente
extraída se parecerá, en promedio, a Estados Unidos. Habrá administradores de fondos de
cobertura, personas sin hogar, agentes de policía y todos los demás, todo aproximadamente en
proporción a su frecuencia en la población. Por lo tanto, esperaríamos que el ingreso familiar
medio para una muestra representativa de 1.000 hogares estadounidenses fuera de
aproximadamente 70.900 dólares. ¿Será exactamente eso? No. Pero tampoco debería ser
tremendamente diferente.
Si tomáramos varias muestras de 1.000 hogares, esperaríamos que las diferentes medias
muestrales se agruparan alrededor de la media poblacional, $70.900. Esperaríamos que algunas
medias fueran más altas y otras más bajas. ¿Podríamos obtener una muestra de 1.000 hogares
con un ingreso familiar medio de $427.000? Claro, eso es posible, pero muy poco probable.
(Recuerde, nuestra metodología de muestreo es sólida; no estamos realizando una encuesta en
el estacionamiento del Greenwich Country Club.) También es muy poco probable que una
muestra adecuada de 1.000 hogares estadounidenses tenga un ingreso medio de 8.000 dólares.
Todo eso es sólo lógica básica. El teorema del límite central nos permite ir un paso más allá
al describir la distribución esperada de esas diferentes medias muestrales a medida que se
agrupan alrededor de la media poblacional. Específicamente, las medias muestrales formarán
una distribución normal alrededor de la media poblacional, que en este caso es $70 900.
Recuerde, la forma de la población subyacente no importa. La distribución del ingreso de los
hogares en Estados Unidos está bastante sesgada, pero la distribución de las medias muestrales
no lo estará. Si tomáramos 100 muestras diferentes, cada una con 1.000 hogares, y graficaramos
la frecuencia de nuestros resultados, esperaríamos que esas medias muestrales formaran la
conocida distribución "en forma de campana" alrededor de $70.900.
Cuanto mayor sea el número de muestras, más se aproximará la distribución a la distribución

normal. Y cuanto mayor sea el tamaño de cada muestra, más estrecha será esa distribución.
Para probar este resultado, hagamos un experimento divertido con datos reales sobre el peso
de estadounidenses reales. La Universidad de Michigan lleva a cabo un estudio longitudinal
llamado Americans' Changing Lives, que consiste en observaciones detalladas de varios miles
de adultos estadounidenses, incluido su peso. La distribución del peso está ligeramente sesgada
hacia la derecha, porque es biológicamente más fácil tener 100 libras de sobrepeso que 100
libras de menos peso. El peso medio de todos los adultos del estudio es de 162 libras.
Utilizando un software estadístico básico, podemos ordenar a la computadora que tome una
muestra aleatoria de 100 personas a partir de los datos de Changing Lives. De hecho, podemos
hacer esto una y otra vez para ver cómo los resultados coinciden con lo que predeciría el
teorema del límite central. Aquí hay un gráfico de la distribución de 100 medias muestrales (redondeadas
a la libra más cercana) generado aleatoriamente a partir de los datos de Changing Lives.
100 medias muestrales, n = 100
Cuanto mayor sea el tamaño de la muestra y más muestras se tomen, más se aproximará la
distribución de las medias muestrales a la curva normal. (Como regla general, el tamaño de la
muestra debe ser al menos 30 para que el teorema del límite central sea válido). Esto tiene sentido.
Es menos probable que una muestra más grande se vea afectada por la variación aleatoria. Una
muestra de 2 puede estar muy sesgada por una persona particularmente grande o pequeña. Por el
contrario, una muestra de 500 no se verá excesivamente afectada por unas pocas personas
particularmente grandes o pequeñas.
¡Ahora estamos muy cerca de hacer realidad todos nuestros sueños estadísticos! Las medias
muestrales se distribuyen aproximadamente como una curva normal, como se describe
anteriormente. El poder de una distribución normal se deriva del hecho de que sabemos
aproximadamente qué proporción de observaciones estarán dentro de una desviación estándar por
encima o por debajo de la media (68 por ciento); qué proporción de observaciones estarán dentro
de dos desviaciones estándar por encima o por debajo de la media (95 por ciento); etcétera. Esto
es algo poderoso.
Anteriormente en este capítulo señalé que podíamos inferir intuitivamente que un autobús lleno
de pasajeros con un peso medio veinticinco libras superior al peso medio de todo el maratón
probablemente no era el autobús de corredores perdido. Para cuantificar esa intuición (para poder
decir que esta inferencia será correcta el 95 por ciento de las veces, o el 99 por ciento, o el 99,9
por ciento), necesitamos sólo un concepto técnico más: el error estándar.
El error estándar mide la dispersión de las medias muestrales. ¿Con qué precisión esperamos
que las medias muestrales se agrupen alrededor de la media poblacional? Aquí existe cierta
confusión potencial, ya que ahora hemos introducido dos medidas diferentes de dispersión: la
desviación estándar y el error estándar. Esto es lo que debes recordar para mantenerlos en orden:
1. La desviación estándar mide la dispersión en la población subyacente.

En este caso, podría medir la dispersión de los pesos de todos los
participantes en el Estudio del Corazón de Framingham, o la dispersión alrededor de la

media para todo el campo de maratón.
2. El error estándar mide la dispersión de las medias muestrales. Si extraemos muestras
repetidas de 100 participantes del Framingham Heart Study, ¿cómo será la dispersión de
esas medias muestrales?
3. Esto es lo que une los dos conceptos: ¡El error estándar es la desviación estándar de
las medias muestrales! ¿No es genial?
Un error estándar grande significa que las medias muestrales están ampliamente distribuidas
alrededor de la media poblacional; un error estándar pequeño significa que están agrupados
relativamente estrechamente. Aquí hay tres ejemplos reales de los datos de Changing Lives.
Población femenina únicamente/100 Medias de muestra, n = 100

La segunda distribución, que tiene un tamaño de muestra mayor, está más estrechamente
agrupada alrededor de la media que la primera distribución. El tamaño de muestra más
grande hace que sea menos probable que la media muestral se desvíe marcadamente de la
media poblacional. El conjunto final de medias muestrales se extrae únicamente de un
subconjunto de la población, las mujeres del estudio. Dado que las ponderaciones de las
mujeres en el conjunto de datos son menos difusas que las ponderaciones de todas las
personas de la población, es lógico que las ponderaciones de las muestras extraídas sólo de
las mujeres estén menos dispersas que las muestras extraídas de toda la población de
Cambiando Vidas. (Estas muestras también están agrupadas en torno a una media
poblacional ligeramente diferente, ya que el peso medio de todas las mujeres en el estudio
Cambiando Vidas es diferente del peso medio de toda la población del estudio).
El patrón que viste arriba es válido en general. Las medias muestrales se agruparán más
estrechamente alrededor de la media poblacional a medida que el tamaño de cada muestra
aumenta (por ejemplo, nuestras medias muestrales estaban más agrupadas cuando tomamos
muestras de 100 en lugar de 30). Y las medias muestrales se agruparán menos estrechamente
alrededor de la media poblacional cuando la población subyacente esté más dispersa (por
ejemplo, nuestras medias muestrales para toda la población de Cambiando Vidas estaban
más dispersas que las medias muestrales solo para las mujeres del estudio).
Si has seguido la lógica hasta ahora, entonces la fórmula para el error estándar
sigue naturalmente:
yn donde s es la desviación estándar de la población de la cual se extrae la muestra SE,
es el tamaño de la muestra. ¡Mantén la cabeza sobre ti!
No dejes que la apariencia de las letras arruine la intuición básica. El error estándar será
grande cuando la desviación estándar de la distribución subyacente sea grande.
Es probable que una muestra grande extraída de una población muy dispersa también lo
esté; una muestra grande de una población estrechamente agrupada alrededor de la media
también es probable que esté estrechamente agrupada alrededor de la media. Si todavía
analizamos el peso, esperaríamos que el error estándar de una muestra extraída de toda la
población de Changing Lives fuera mayor que el error estándar de una muestra extraída
únicamente de hombres de veintitantos años. Esta es la razón por la que las desviaciones estándar
está en el numerador.
De manera similar, esperaríamos que el error estándar se redujera a medida que aumenta el tamaño de
la muestra, ya que las muestras grandes son menos propensas a sufrir distorsión por valores atípicos extremos.
Por eso el tamaño de la muestra (n) está en el denominador. (La razón por la que tomamos la raíz cuadrada
de n se dejará para un texto más avanzado; la relación básica es lo importante aquí).
En el caso de los datos de Changing Lives, en realidad conocemos la desviación estándar de la población;
muchas veces ese no es el caso. Para muestras grandes, podemos suponer que la desviación estándar de la
muestra está razonablemente cerca de la desviación estándar de la población.
*
Finalmente, hemos llegado a la recompensa de todo esto. Debido a que las medias muestrales se
distribuyen normalmente (gracias al teorema del límite central), podemos aprovechar el poder de la curva
normal. Esperamos que aproximadamente el 68 por ciento de todas las medias muestrales se encuentren
dentro de un error estándar de la media poblacional; El 95 por ciento de las medias muestrales estarán dentro
de dos errores estándar de la media poblacional; y el 99,7 por ciento de las medias muestrales estarán dentro
de tres errores estándar de la media poblacional.
Distribución de frecuencia de las medias muestrales
Así que volvamos a una variación de nuestro ejemplo del autobús perdido, sólo que ahora podemos
sustituir la intuición por números. (El ejemplo en sí seguirá siendo absurdo; el próximo capítulo tendrá muchos
ejemplos menos absurdos del mundo real.) Supongamos que el estudio Cambiando Vidas ha invitado a todos
los individuos del estudio a reunirse en
Boston para un fin de semana de recopilación de datos y juerga. Los participantes son cargados
aleatoriamente en autobuses y transportados entre los edificios de las instalaciones de pruebas,
donde son pesados, medidos, pinchados, pinchados, etc. Sorprendentemente, un autobús
desaparece, hecho que se retransmite en las noticias locales. Aproximadamente a esa hora, estás
regresando del Festival de la Salchicha cuando ves un autobús accidentado al costado de la
carretera. Aparentemente el autobús se desvió para evitar a un zorro salvaje que cruzaba la calle, y
todos los pasajeros están inconscientes pero no gravemente heridos. (Necesito que no se
comuniquen para que el ejemplo funcione, pero no quiero que sus lesiones sean demasiado
preocupantes). Los paramédicos en el lugar le informan que el peso medio de los 62 pasajeros en
el autobús es de 194 libras. Además, el zorro que el autobús se desvió para evitar fue cortado
ligeramente y parece tener una pata trasera rota.
Afortunadamente, usted conoce el peso medio y la desviación estándar de toda la población de
Changing Lives, tiene conocimientos prácticos del teorema del límite central y sabe cómo administrar
primeros auxilios a un zorro salvaje. El peso medio de los participantes de Cambiando Vidas es 162;
la desviación estándar es 36.
A partir de esa información, podemos calcular el error estándar para una muestra de 62 personas
(el número de pasajeros inconscientes en el autobús):
La diferencia entre la media de la muestra (194 libras) y la media de la población (162 libras) es
32 libras, o mucho más que tres errores estándar. Sabemos por el teorema del límite central que el
99,7 por ciento de todas las medias muestrales estarán dentro de tres errores estándar de la media
poblacional. Eso hace que sea extremadamente improbable que este autobús represente un grupo
aleatorio de participantes de Cambiando Vidas.
En su deber como líder cívico, llama a los funcionarios del estudio para decirles que probablemente
este no sea el autobús perdido, solo que ahora puede ofrecer evidencia estadística, en lugar de
simplemente “una corazonada”. Le informa a la gente de Cambiando Vidas que puede rechazar la
posibilidad de que este sea el autobús perdido con un nivel de confianza del 99,7 por ciento. Y como
estás hablando con investigadores, ellos realmente entienden de qué estás hablando.
Su análisis se confirma aún más cuando los paramédicos realizan análisis de sangre a los
pasajeros del autobús y descubren que el nivel medio de colesterol para todos los pasajeros del
autobús está cinco errores estándar por encima del nivel medio de colesterol de los participantes
del estudio Cambiando Vidas. Esto sugiere, correctamente como se verá más tarde, que los
pasajeros inconscientes están involucrados en el Festival de la Salchicha.
[Hay un final feliz. Cuando los pasajeros del autobús recuperaron la conciencia, los funcionarios
del estudio Cambiando Vidas les ofrecieron asesoramiento sobre los peligros de una dieta rica en
grasas saturadas, lo que hizo que muchos de ellos adoptaran hábitos alimentarios más saludables
para el corazón. Mientras tanto, el zorro fue cuidado hasta que recuperó la salud en una reserva de
*
vida silvestre local y finalmente fue liberado nuevamente en la naturaleza.]
He tratado de ceñirme a lo básico en este capítulo. Debe tener en cuenta que para que se aplique el
teorema del límite central, los tamaños de muestra deben ser relativamente grandes (más de 30
como regla general). También necesitamos una muestra relativamente grande si vamos a suponer
que la desviación estándar de la muestra es aproximadamente la misma que la desviación estándar
de la población de la que se extrae. Hay muchas correcciones estadísticas que se pueden aplicar
cuando no se cumplen estas condiciones, pero eso es todo el glaseado del pastel (y tal vez incluso
una pizca del glaseado del pastel).
El “panorama general” aquí es simple y tremendamente poderoso: 1.
Si se extraen muestras aleatorias grandes de cualquier población, las medias de esas muestras
se distribuirán normalmente alrededor de la media poblacional (independientemente de cómo
se vea la distribución de la población subyacente). ).
2. La mayoría de las medias muestrales estarán razonablemente cercanas a la media
poblacional; el error estándar es lo que define "razonablemente cerca".
3. El teorema del límite central nos dice la probabilidad de que una media muestral se encuentre
dentro de una cierta distancia de la media poblacional. Es relativamente improbable que una
media muestral se encuentre a más de dos errores estándar de la media poblacional, y
extremadamente improbable que se encuentre a tres o más errores estándar de la media
poblacional.
4. Cuanto menos probable sea que un resultado haya sido observado por casualidad, más
seguros podremos estar al suponer que hay algún otro factor en juego.
De eso se trata más o menos la inferencia estadística. El teorema del límite central es lo que hace
posible la mayor parte de esto. Y hasta que Lebron James gane tantos campeonatos de la NBA como
Michael Jordan (seis), el teorema del límite central será mucho más impresionante que él.
* Nótese el uso inteligente de la falsa precisión aquí.

* Cuando la desviación estándar de la población se calcula a partir de una muestra más pequeña, la fórmula se modifica
ligeramente: esto ayuda a tener en cuenta el hecho de que la dispersión en una muestra pequeña puede subestimar la
dispersión de la población completa. Esto no es muy relevante para los puntos más importantes de este capítulo.
* Mi colega de la Universidad de Chicago, Jim Sallee, hace una crítica muy importante de los ejemplos de autobuses perdidos.
Señala que muy pocos autobuses se pierden. Entonces, si estamos buscando un autobús perdido, cualquier autobús que
aparezca perdido o chocado probablemente será ese autobús, independientemente del peso de los pasajeros en el autobús. El
tiene razón. (Piénselo: si pierde a su hijo en un supermercado y el gerente de la tienda le dice que hay un niño perdido cerca
de la caja registradora seis, concluiría inmediatamente que probablemente sea su hijo). Por lo tanto, vamos a A estos ejemplos
hay que añadir un elemento más de absurdo y pretender que los autobuses se pierden todo el tiempo.
CAPÍTULO 9
Inferencia
Por qué mi profesor de estadística
pensó que podría haber hecho trampa
En la primavera de mi último año de universidad, tomé una clase de estadística. yo no estaba

Estaba particularmente enamorado de la estadística o de la mayoría de las disciplinas basadas
en matemáticas en ese momento, pero le había prometido a mi papá que tomaría el curso si
podía dejar la escuela por diez días para ir en un viaje familiar a la Unión Soviética. Entonces,
básicamente tomé estadísticas a cambio de un viaje a la URSS. Esto resultó ser un gran
negocio, tanto porque me gustaban las estadísticas más de lo que pensaba como porque
pude visitar la URSS en la primavera de 1988. ¿Quién iba a saber que el país no existiría en
su forma comunista por mucho tiempo? ¿más extenso?
Esta historia es realmente relevante para el capítulo; El caso es que no estuve tan dedicado
a mi curso de estadística durante el semestre como podría haberlo estado. Entre otras
responsabilidades, también estaba escribiendo una tesis con honores que debía entregarse
aproximadamente a la mitad del semestre. Teníamos cuestionarios regulares en el curso de
estadística, muchos de los cuales ignoré o reprobé. Estudié un poco para el examen parcial y
me fue bastante bien, literalmente. Pero unas semanas antes del final del semestre, sucedieron
dos cosas. Primero, terminé mi tesis, lo que me dio una gran cantidad de tiempo libre. Y
segundo, me di cuenta de que las estadísticas no eran tan difíciles como había pensado.
Comencé a estudiar el libro de estadísticas y a hacer el trabajo desde antes en el curso. Obtuve
una A en el examen final.
Fue entonces cuando mi profesor de estadística, cuyo nombre hace tiempo que olvidé, me
llamó a su oficina. No recuerdo exactamente lo que dijo, pero fue algo así como "Realmente
lo hiciste mucho mejor en la final que en la mitad de período". Esta no fue una visita de
felicitación durante la cual fui reconocido por finalmente hacer un trabajo serio en la clase.
Había una acusación implícita (aunque no explícita) en su citación; la expectativa era que
explicara por qué obtuve mejores resultados en el examen final que en el parcial. En resumen,
este tipo sospechaba que podría haberlo hecho trampa. Ahora que he enseñado durante
muchos años, simpatizo más con su línea de pensamiento. En casi todos los cursos que he
impartido, existe un sorprendente grado de correlación entre el desempeño de un estudiante
en el examen parcial y en el final. Es muy inusual que un estudiante
obtenga una puntuación por debajo del promedio en el examen parcial y luego cerca de los mejores de la clase en
el final.
Le expliqué que había terminado mi tesis y que me había tomado en serio la clase (haciendo
cosas como leer los capítulos del libro de texto asignados y hacer la tarea). Parecía contento con
esta explicación y me fui, todavía algo inquieto por la acusación implícita.
Lo creas o no, esta anécdota encarna gran parte de lo que necesitas saber sobre la inferencia
estadística, incluidas tanto sus fortalezas como sus posibles debilidades. Las estadísticas no
pueden demostrar nada con certeza. En cambio, el poder de la inferencia estadística se deriva de
observar algún patrón o resultado y luego utilizar la probabilidad para determinar la explicación más
probable para ese resultado.
Supongamos que un jugador extraño llega a la ciudad y le ofrece una apuesta: gana 1.000 dólares
si saca un seis con un solo dado; ganas $500 si tira cualquier otra cosa, una apuesta bastante
buena desde tu punto de vista. Luego procede a tirar diez seises seguidos, quitándote $10,000.
Una posible explicación es que tuvo suerte. Una explicación alternativa es que hizo trampa de
alguna manera. La probabilidad de sacar diez seises seguidos con un dado justo es aproximadamente
de 1 entre 60 millones. No puedes probar que hizo trampa, pero al menos deberías inspeccionar el
dado.
Por supuesto, la explicación más probable no siempre es la correcta.
Suceden cosas extremadamente raras. Linda Cooper es una mujer de Carolina del Sur que fue
alcanzada por un rayo cuatro veces. 1 (La Administración Federal para el Manejo de
Emergencias estima que la probabilidad de ser alcanzado por un rayo sólo una vez es de 1 entre
600.000.) La compañía de seguros de Linda Cooper no puede negarle cobertura simplemente
porque sus lesiones son estadísticamente improbables. Volviendo a mi examen de estadística de
pregrado, el profesor tenía motivos razonables para sospechar. Vio un patrón que era muy
improbable; Así es exactamente como los investigadores detectan las trampas en los exámenes
estandarizados y cómo la SEC detecta el uso de información privilegiada. Pero un patrón improbable
es simplemente un patrón improbable a menos que sea corroborado por evidencia adicional. Más
adelante en este capítulo analizaremos los errores que pueden surgir cuando la probabilidad nos
desvía.
Por ahora, debemos apreciar que la inferencia estadística utiliza datos para abordar preguntas
importantes. ¿Es un nuevo fármaco eficaz en el tratamiento de enfermedades cardíacas? ¿Los
teléfonos móviles causan cáncer de cerebro? Tenga en cuenta que no estoy afirmando que las
estadísticas puedan responder este tipo de preguntas de manera inequívoca; en cambio, la
inferencia nos dice qué es probable y qué es improbable. Los investigadores no pueden probar que
un nuevo medicamento sea eficaz en el tratamiento de enfermedades cardíacas, incluso cuando
cuentan con datos de un ensayo clínico cuidadosamente controlado. Después de todo, es muy
posible que haya una variación aleatoria en los resultados de los pacientes en los grupos de tratamiento y control q
no relacionado con el nuevo fármaco. Si 53 de 100 pacientes que tomaron el nuevo

medicamento para enfermedades cardíacas mostraron una marcada mejoría en comparación
con 49 pacientes de 100 que recibieron un placebo, no concluiríamos inmediatamente que
el nuevo medicamento es efectivo. Este es un resultado que puede explicarse fácilmente por
la variación aleatoria entre los dos grupos más que por el nuevo fármaco.
Pero supongamos en cambio que 91 de 100 pacientes que reciben el nuevo fármaco
muestran una marcada mejoría, en comparación con 49 de 100 pacientes en el grupo de control.
Todavía es posible que este impresionante resultado no esté relacionado con el nuevo
fármaco; Los pacientes del grupo de tratamiento pueden ser particularmente afortunados o
resistentes. Pero ahora esa es una explicación mucho menos probable. En el lenguaje formal
de la inferencia estadística, los investigadores probablemente concluirían lo siguiente: (1) Si
el fármaco experimental no tiene ningún efecto, rara vez veríamos esta cantidad de variación
en los resultados entre quienes reciben el fármaco y quienes toman el placebo. . (2) Por
tanto, es muy improbable que el fármaco no tenga ningún efecto positivo.
(3) La explicación alternativa (y más probable) para el patrón de datos observado es que el
fármaco experimental tiene un efecto positivo.
La inferencia estadística es el proceso mediante el cual los datos nos hablan y nos
permiten sacar conclusiones significativas. ¡Esta es la recompensa! El objetivo de la
estadística no es hacer innumerables cálculos matemáticos rigurosos; el objetivo es obtener
una visión de los fenómenos sociales significativos. La inferencia estadística es en realidad
solo la unión de dos conceptos que ya hemos discutido: datos y probabilidad (con un poco
de ayuda del teorema del límite central). En este capítulo he tomado un atajo metodológico
importante. Todos los ejemplos asumirán que estamos trabajando con muestras grandes y
extraídas correctamente. Esta suposición significa que se aplica el teorema del límite central
y que la media y la desviación estándar de cualquier muestra serán aproximadamente las
mismas que la media y la desviación estándar de la población de la que se extrae. Ambas
cosas facilitan nuestros cálculos.
La inferencia estadística no depende de este supuesto simplificador, pero las diversas
soluciones metodológicas para tratar con muestras pequeñas o datos imperfectos a menudo
obstaculizan la comprensión del panorama general. El propósito aquí es presentar el poder
de la inferencia estadística y explicar cómo funciona. Una vez que lo consigues, es bastante
fácil añadir complejidad.
Una de las herramientas más comunes en la inferencia estadística es la prueba de hipótesis.

En realidad, ya he introducido este concepto, sólo que sin la terminología sofisticada. Como
se señaló anteriormente, las estadísticas por sí solas no pueden probar nada; en cambio,
utilizamos la inferencia estadística para aceptar o rechazar explicaciones sobre la base de
su probabilidad relativa. Para ser más precisos, cualquier inferencia estadística comienza
con una hipótesis nula implícita o explícita. Esta es nuestra suposición inicial, que
ser rechazado o no en función de un análisis estadístico posterior. Si rechazamos la hipótesis nula,

normalmente aceptamos alguna hipótesis alternativa que sea más consistente con los datos observados.
Por ejemplo, en un tribunal de justicia el supuesto inicial, o hipótesis nula, es que el acusado es inocente.
El trabajo de la fiscalía es persuadir al juez o al jurado para que rechace esa suposición y acepte la
hipótesis alternativa, que es que el acusado es culpable. Como cuestión de lógica, la hipótesis alternativa
es una conclusión que debe ser verdadera si podemos rechazar la hipótesis nula. Consideremos algunos
ejemplos.
Hipótesis nula: este nuevo fármaco experimental ya no es eficaz en

prevenir la malaria que un placebo.
Hipótesis alternativa: este nuevo fármaco experimental puede ayudar a prevenir la malaria.
Los datos: se elige aleatoriamente un grupo para recibir el nuevo fármaco experimental y un grupo
de control recibe un placebo. Al final de un período de tiempo, el grupo que recibe el fármaco
experimental tiene muchos menos casos de malaria que el grupo de control. Este sería un resultado
extremadamente improbable si el fármaco experimental no tuviera impacto médico. Como resultado,
rechazamos la hipótesis nula de que el nuevo fármaco no tiene ningún impacto (más allá del de un
placebo) y aceptamos la alternativa lógica, que es nuestra hipótesis alternativa: este nuevo fármaco
experimental puede ayudar a prevenir la malaria.
Este enfoque metodológico es tan extraño que deberíamos hacer un ejemplo más. Nuevamente,
observe que la hipótesis nula y la hipótesis alternativa son complementos lógicos. Si uno es cierto, el
otro no lo es. O, si rechazamos una afirmación, debemos aceptar la otra.
Hipótesis nula: el tratamiento por abuso de sustancias para los presos no reduce su
Tasa de nuevas detenciones después de salir de prisión.
Hipótesis alternativa: El tratamiento por abuso de sustancias para los prisioneros hará que sea
menos probable que sean arrestados nuevamente después de su liberación.
Los datos (hipotéticos): los prisioneros fueron asignados aleatoriamente a dos grupos; el grupo de
“tratamiento” recibió tratamiento por abuso de sustancias y el grupo de control no. (¡Esta es una de esas
ocasiones interesantes en las que el grupo de tratamiento realmente recibe tratamiento!) Al cabo de
cinco años, ambos grupos tienen tasas similares de reingresos.
En este caso, no podemos rechazar la hipótesis nula. * Los datos no nos han dado ninguna
razón para descartar nuestra suposición inicial de que el tratamiento por abuso de sustancias no es una
herramienta eficaz para evitar que los ex delincuentes regresen a prisión.
Puede parecer contradictorio, pero los investigadores suelen crear una hipótesis nula con la
esperanza de poder rechazarla. En los dos ejemplos anteriores, un “éxito” de la investigación (encontrar
un nuevo medicamento contra la malaria o reducir la reincidencia) implicó rechazar la hipótesis nula.
Los datos lo hicieron posible sólo en uno de los casos (el
medicamento contra la malaria).
En un tribunal, el umbral para rechazar la presunción de inocencia es la evaluación cualitativa de

que el acusado es “culpable más allá de toda duda razonable”.
El juez o el jurado debe definir qué significa exactamente eso. Las estadísticas aprovechan la
misma idea básica, pero en su lugar “culpable más allá de toda duda razonable” se define
cuantitativamente. Los investigadores suelen preguntar: Si la hipótesis nula es cierta, ¿qué
probabilidad hay de que observemos este patrón de datos por casualidad? Para utilizar un ejemplo
familiar, los investigadores médicos podrían preguntarse: si este fármaco experimental no tiene
ningún efecto sobre las enfermedades cardíacas (nuestra hipótesis nula), ¿qué probabilidad hay
de que 91 de cada 100 pacientes que reciben el fármaco muestren una mejoría en comparación
con sólo 49 de 100? ¿Los pacientes reciben un placebo? Si los datos sugieren que la hipótesis
nula es extremadamente improbable (como en este ejemplo médico), entonces debemos
rechazarla y aceptar la hipótesis alternativa (que el fármaco es eficaz en el tratamiento de
enfermedades cardíacas).
En ese sentido, revisemos el escándalo de trampas estandarizadas de Atlanta al que se alude
en varios puntos del libro. Los resultados de las pruebas de Atlanta se marcaron por primera vez
debido a una gran cantidad de borrados de "de mal a derecho". Obviamente, los estudiantes que
toman exámenes estandarizados borran las respuestas todo el tiempo. Y algunos grupos de
estudiantes pueden ser particularmente afortunados en sus cambios, sin que necesariamente
haya que hacer trampa. Por esa razón, la hipótesis nula es que los puntajes de las pruebas
estandarizadas para cualquier distrito escolar en particular son legítimos y que cualquier patrón
irregular de borrados es simplemente producto del azar. Ciertamente no queremos castigar a los
estudiantes ni a los administradores porque una proporción inusualmente alta de estudiantes hizo
cambios sensatos en sus hojas de respuestas en los minutos finales de un importante examen
estatal.
Pero “inusualmente alto” no es suficiente para describir lo que estaba sucediendo en Atlanta.
Algunas aulas tenían hojas de respuestas en las que el número de borrados de incorrecto a
correcto superaba entre veinte y cincuenta desviaciones estándar la norma estatal. (Para poner
esto en perspectiva, recuerde que la mayoría de las observaciones en una distribución
generalmente caen dentro de dos desviaciones estándar de la media). Entonces, ¿qué
probabilidades había de que los estudiantes de Atlanta borraran una gran cantidad de respuestas
incorrectas y las reemplazaran con respuestas correctas como si nada? cuestión de casualidad?
El funcionario que analizó los datos describió la probabilidad de que el patrón de Atlanta ocurriera
sin hacer trampa como aproximadamente igual a la posibilidad de que 70.000 personas se
presentaran a un partido de fútbol en el Georgia Dome y todas midieran más de siete pies de
2
altura. ¿Podría suceder? Sí. ¿Es probable? No tanto.
Los funcionarios de Georgia aún no podían condenar a nadie por mala conducta, del mismo
modo que mi profesor no podía (y no debería) haber hecho que me expulsaran de la escuela porque
La nota de mi examen final de estadística no estaba sincronizada con mi nota de mitad de semestre.
Los funcionarios de Atlanta no pudieron probar que se estuvieran haciendo trampas. Sin embargo,
podrían rechazar la hipótesis nula de que los resultados fueran legítimos. Y podían hacerlo con un
"alto grado de confianza", lo que significa que el patrón observado era casi imposible entre los
examinados normales. Por lo tanto, aceptaron explícitamente la hipótesis alternativa, que es que
algo sospechoso estaba pasando. (Sospecho que usaron un lenguaje que parecía más oficial). De
hecho, la investigación posterior descubrió los “borradores humeantes”. Hubo informes de maestros
que cambiaban respuestas, daban respuestas, permitían que los niños con puntajes bajos copiaran
a los niños con puntajes altos e incluso señalaban las respuestas mientras estaban parados frente
a los escritorios de los estudiantes. La trampa más atroz involucró a un grupo de profesores que
celebraron una fiesta de pizza el fin de semana durante la cual revisaron hojas de exámenes y
cambiaron las respuestas de los estudiantes.
En el ejemplo de Atlanta, podríamos rechazar la hipótesis nula de “no hacer trampa” porque el
patrón de resultados de las pruebas era tremendamente improbable en ausencia de juego sucio.
Pero, ¿hasta qué punto tiene que ser inverosímil la hipótesis nula antes de que podamos rechazarla
e invitar a alguna explicación alternativa?
Uno de los umbrales más comunes que utilizan los investigadores para rechazar una hipótesis
nula es el 5 por ciento, que a menudo se escribe en forma decimal: 0,05. Esta probabilidad se
conoce como nivel de significancia y representa el límite superior de la probabilidad de observar
algún patrón de datos si la hipótesis nula fuera cierta. Quédate conmigo por un momento, porque en
realidad no es tan complicado.
Pensemos en un nivel de significancia de .05. Podemos rechazar una hipótesis nula al nivel de
0,05 si hay menos del 5 por ciento de posibilidades de obtener un resultado al menos tan extremo
como el que habríamos observado si la hipótesis nula fuera cierta. Un ejemplo sencillo puede aclarar
esto mucho. Odio hacerte esto, pero asume una vez más que te han asignado tareas de autobús
perdido (en parte debido a tus valientes esfuerzos en el último capítulo). Solo que ahora está
trabajando a tiempo completo para los investigadores del estudio Cambiando Vidas y ellos le han
brindado datos excelentes para ayudarlo a informar su trabajo. Cada autobús operado por los
organizadores del estudio tiene aproximadamente 60 pasajeros, por lo que podemos tratar a los
pasajeros de cualquier autobús como una muestra aleatoria extraída de toda la población de
Changing Lives. Una mañana te despierta la noticia de que un grupo terrorista proobesidad ha
secuestrado un autobús en el área de Boston.
* Su trabajo consiste en dejarse caer desde un
helicóptero hasta el techo del autobús en movimiento, colarse dentro a través de la salida de
emergencia y luego determinar sigilosamente si los pasajeros son participantes de Changing Lives,
basándose únicamente en su peso. (En serio, esto no es más inverosímil que la mayoría de las
tramas de acción y aventuras, y es mucho más educativo).
Cuando el helicóptero despega de la base de comando, te entregan una máquina.
pistola, varias granadas, un reloj que también funciona como cámara de vídeo de alta resolución y los
datos que calculamos en el último capítulo sobre el peso medio y el error estándar de las muestras
extraídas de los participantes de Cambiando Vidas. Cualquier muestra aleatoria de 60 participantes
tendrá un peso medio esperado de 162 libras y una desviación estándar de 36 libras, ya que esa es
la media y la desviación estándar de todos los participantes en el estudio (la población). Con esos
datos, podemos calcular el error estándar de la media muestral: en el control de la misión, se escanea
la siguiente distribución en el interior de la retina derecha, para que pueda consultarla después de
penetrar en el autobús en movimiento y pesar en secreto a todos los pasajeros. adentro.
Distribución de medias muestrales
Como muestra la distribución anterior, esperaríamos que aproximadamente el 95 por ciento de

todas las muestras de 60 personas extraídas de los participantes de Cambiando Vidas tuvieran un
peso medio dentro de dos errores estándar de la media de la población, o aproximadamente entre
153 y 171 libras. * Por el contrario, sólo 5 de cada 100 veces una muestra de
60 personas extraídas al azar de los participantes de Changing Lives tendría un peso medio superior
a 171 libras o inferior a 153 libras.
(Usted está realizando lo que se conoce como una prueba de hipótesis de “dos colas”; la diferencia
entre ésta y una prueba de “una cola” se tratará en un apéndice al final del capítulo). Sus supervisores
en el grupo de trabajo antiterrorista Hemos decidido que .05 es el nivel de importancia para su misión.
Si el peso medio de los 60 pasajeros en el autobús secuestrado es superior a 171 o inferior a 153,
entonces rechazará la hipótesis nula de que el autobús contiene participantes de Cambiando Vidas,
aceptará la hipótesis alternativa de que el autobús contiene 60 personas que se dirigen a otro lugar y
esperará. pedidos adicionales.
Te subes con éxito al autobús en movimiento y pesas en secreto a todos los pasajeros. El
peso medio de esta muestra de 60 personas es 136 libras, lo que está más de dos errores
estándar por debajo de la media. (Otra pista importante es que todos los pasajeros son niños
que visten "Glendale Hockey Camp".
camisetas.)
Según las instrucciones de su misión, puede rechazar la hipótesis nula de que este autobús
contiene una muestra aleatoria de 60 participantes del estudio Cambiando Vidas con un nivel de
significancia de 0,05. Esto significa (1) el peso medio en el autobús cae dentro de un rango que
esperaríamos observar sólo 5 veces de cada 100 si la hipótesis nula fuera cierta y este fuera
realmente un autobús lleno de pasajeros de Cambiando Vidas; (2) se puede rechazar la hipótesis
nula con un nivel de significancia de 0,05; y (3) en promedio, 95 de cada 100 veces habrás
rechazado correctamente la hipótesis nula, y 5 de cada 100 veces te equivocarás, es decir que
habrás concluido que este no es un autobús de participantes de Cambiando Vidas, cuando en
De hecho lo es. Resulta que esta muestra de personas de Changing Lives tiene un peso medio
particularmente alto o bajo en relación con la media de los participantes del estudio en general.
La misión aún no ha terminado. Su supervisor en el control de la misión (interpretada por

Angelina Jolie en la versión cinematográfica de este ejemplo) le pide que calcule un valor p para
su resultado. El valor p es la probabilidad específica de obtener un resultado al menos tan
extremo como el observado si la hipótesis nula es verdadera. El peso medio de los pasajeros de
este autobús es 136, lo que supone 5,7 errores estándar por debajo de la media de los
participantes del estudio Cambiando Vidas. La probabilidad de obtener un resultado al menos
tan extremo si realmente se tratara de una muestra de participantes de Cambiando Vidas es
inferior a 0,0001. (En un documento de investigación, esto se informaría como p<.0001.) Una
vez completada la misión, saltas del autobús en movimiento y aterrizas de manera segura en el
asiento del pasajero de un convertible que conduce en un carril adyacente.
[Esta historia también tiene un final feliz. Una vez que los terroristas proobesidad aprendan
más sobre el Festival Internacional de la Salchicha de su ciudad, aceptarán abandonar la
violencia y trabajar pacíficamente para promover la obesidad expandiendo y promoviendo los
festivales de la salchicha en todo el mundo.]
Si el nivel de significancia de 0,05 parece algo arbitrario, es porque lo es. No existe un umbral
estadístico único estandarizado para rechazar una hipótesis nula. Tanto 0,01 como 0,1 también
son umbrales razonablemente comunes para realizar el tipo de análisis descrito anteriormente.
Obviamente, rechazar la hipótesis nula en el nivel 0,01 (lo que significa que hay menos de 1
probabilidad entre 100 de observar un resultado en este rango si la hipótesis nula fuera cierta)
conlleva más peso estadístico que rechazar la hipótesis nula.
hipótesis en el nivel .1 (lo que significa que hay menos de 1 probabilidad entre 10 de observar
este resultado si la hipótesis nula fuera cierta). Los pros y los contras de los diferentes niveles
de significancia se discutirán más adelante en este capítulo. Por ahora, el punto importante es
que cuando podemos rechazar una hipótesis nula con algún nivel de significancia razonable, se
dice que los resultados son "estadísticamente significativos".
Esto es lo que eso significa en la vida real. Cuando lees en el periódico que las personas
que comen veinte muffins de salvado al día tienen tasas más bajas de cáncer de colon que las
personas que no comen cantidades prodigiosas de salvado, la investigación académica
subyacente probablemente se parecía a esto: (1) En algunos grandes datos En conjunto, los
investigadores determinaron que las personas que comían al menos veinte muffins de salvado
al día tenían una menor incidencia de cáncer de colon que las personas que no comían mucho
salvado. (2) La hipótesis nula de los investigadores fue que comer muffins de salvado no tiene
ningún impacto sobre el cáncer de colon. (3) La disparidad en los resultados del cáncer de colon
entre quienes comieron muchas magdalenas de salvado y quienes no lo hicieron no podría
explicarse fácilmente sólo por el azar. Más específicamente, si comer muffins de salvado no
tiene una verdadera asociación con el cáncer de colon, la probabilidad de que se produzca una
diferencia tan amplia en la incidencia de cáncer entre los que comen salvado y los que no lo
hacen por casualidad es inferior a algún umbral, como 0,05. (Los investigadores deben
establecer este umbral antes de realizar su análisis estadístico para evitar elegir un umbral
después del hecho que sea conveniente para que los resultados parezcan significativos). (4) El
artículo académico probablemente contenga una conclusión que diga algo parecido a este :
“Encontramos una asociación estadísticamente significativa entre el consumo diario de veinte o
más muffins de salvado y una incidencia reducida de cáncer de colon. Estos resultados son
significativos al nivel de .05”.
Cuando leí posteriormente sobre ese estudio en el Chicago SunTimes mientras desayunaba
huevos con tocino, el titular probablemente sea más directo e interesante: “20 muffins de
salvado al día ayudan a mantener alejado el cáncer de colon”. Sin embargo, ese titular de
periódico, si bien es mucho más interesante de leer que el artículo académico, también puede
estar introduciendo una grave inexactitud. En realidad, el estudio no afirma que comer muffins
de salvado reduzca el riesgo de que una persona contraiga cáncer de colon; simplemente
muestra una correlación negativa entre el consumo de muffins de salvado y la incidencia de
cáncer de colon en un gran conjunto de datos. Esta asociación estadística no es suficiente para
demostrar que las magdalenas de salvado mejoran los resultados de salud. Después de todo,
el tipo de personas que comen muffins de salvado (¡particularmente veinte al día!) pueden hacer
muchas otras cosas que reducen su riesgo de cáncer, como comer menos carne roja, hacer
ejercicio regularmente, hacerse exámenes de detección de cáncer, etc.
(Éste es el “sesgo del usuario saludable” del Capítulo 7.) ¿Son los muffins de salvado los que
actúan aquí, o son otros comportamientos o atributos personales que comparten las personas
que comen muchos muffins de salvado? Esta distinción entre correlación y
La causalidad es crucial para la interpretación adecuada de los resultados estadísticos. Volveremos a

examinar la idea de que “correlación no es igual a causalidad” más adelante en el libro.
También debo señalar que la significación estadística no dice nada sobre el tamaño de la
asociación. Las personas que comen muchas magdalenas de salvado pueden tener una menor
incidencia de cáncer de colon, pero ¿cuánto menor? La diferencia en las tasas de cáncer de colon
entre los consumidores de panecillos con salvado y los que no comen panecillos con salvado puede
ser trivial; el hallazgo de significancia estadística significa sólo que el efecto observado, por pequeño
que sea, no es probable que sea una coincidencia. Supongamos que se topa con un estudio bien
diseñado que ha encontrado una relación positiva estadísticamente significativa entre comer un
plátano antes del SAT y lograr una puntuación más alta en la parte de matemáticas del examen. Una
de las primeras preguntas que querrás hacer es: ¿Qué tan grande es este efecto? Fácilmente podrían
ser 0,9 puntos; en una prueba con una puntuación media de 500, esa no es una cifra que cambie la
vida. En el capítulo 11 volveremos a esta distinción crucial entre tamaño y significancia cuando se
trata de interpretar resultados estadísticos.
Mientras tanto, el hallazgo de que "no existe una asociación estadísticamente significativa" entre
dos variables significa que cualquier relación entre las dos variables puede explicarse razonablemente
únicamente por el azar. El New York Times publicó recientemente una denuncia sobre empresas de
tecnología que venden software que, según afirman, mejora el rendimiento de los estudiantes, cuando
los datos sugieren lo contrario. 3 Según el artículo, la Universidad Carnegie Mellon vende un programa
de software llamado Cognitive Tutor con esta audaz afirmación: “Curricula de matemáticas
revolucionaria. Resultados revolucionarios”.
Sin embargo, una evaluación de Cognitive Tutor realizada por el Departamento de Educación de EE.
UU. concluyó que el producto “no tenía efectos discernibles” en las puntuaciones de las pruebas de
los estudiantes de secundaria. (El Times sugirió que la campaña de marketing adecuada debería ser
“Planes de estudios de matemáticas poco distinguidos. Resultados no probados”). De hecho, un
estudio de diez productos de software diseñados para enseñar habilidades como matemáticas o
lectura encontró que nueve de ellos “no tenían resultados estadísticamente significativos”. efectos en
los puntajes de las pruebas”. En otras palabras, los investigadores federales no pueden descartar la
mera casualidad como causa de cualquier variación en el desempeño de los estudiantes que usan
estos productos de software y los de los que no.
Permítanme hacer una pausa aquí para recordarles por qué todo esto es importante. Un artículo del
Wall Street Journal de mayo de 2011 llevaba el título “Vínculo entre el autismo y el tamaño del cerebro”.
Se trata de un avance importante, ya que las causas del trastorno del espectro autista siguen siendo
difíciles de alcanzar. La primera frase del artículo del Wall Street Journal , que resume un artículo
publicado en Archives of General Psychiatry, informa: “Los niños con autismo tienen cerebros más
grandes que los niños sin el trastorno, y el crecimiento parece ocurrir antes de los 2 años, según un
estudio. Nuevo estudio publicado el lunes”.
4
Basado en imágenes cerebrales realizadas a 59 niños con autismo
y 38 niños sin autismo, investigadores de la Universidad de Carolina del Norte informaron

que los niños con autismo tienen cerebros que son hasta un 10 por ciento más grandes
que los de niños de la misma edad sin autismo.
Aquí está la pregunta médica relevante: ¿Existe una diferencia fisiológica en los
cerebros de los niños pequeños que padecen un trastorno del espectro autista? De ser
así, esta información podría conducir a una mejor comprensión de las causas del trastorno
y cómo se puede tratar o prevenir.
Y aquí está la pregunta estadística relevante: ¿Pueden los investigadores hacer
inferencias amplias sobre el trastorno del espectro autista en general que se basen en un
estudio de un grupo aparentemente pequeño de niños con autismo (59) y un grupo de
control aún más pequeño (38): apenas 97? temas en total? La respuesta es sí. Los
investigadores concluyeron que la probabilidad de observar las diferencias en el tamaño
total del cerebro que encontraron en sus dos muestras sería de apenas 2 entre 1.000 (p =
0,002) si en realidad no hubiera una diferencia real en el tamaño del cerebro entre los
niños con y sin Trastorno del espectro autista en la población general.
Luego localicé el estudio original en Archives of General Psychiatry. Los métodos5
utilizados por estos investigadores no son más sofisticados que los conceptos que hemos
cubierto hasta ahora. Les daré un recorrido rápido por los fundamentos de este resultado
social y estadísticamente significativo. En primer lugar, se debe reconocer que cada grupo
de niños, los 59 con autismo y los 38 sin autismo, constituye una muestra razonablemente
grande extraída de sus respectivas poblaciones: todos los niños con y sin trastorno del
espectro autista. Las muestras son lo suficientemente grandes como para que se aplique
el límite central. Si ya ha intentado olvidarse del último capítulo, le recordaré lo que nos
dice el teorema del límite central: (1) las medias muestrales para cualquier población se
distribuirán aproximadamente como una distribución normal alrededor de la población
verdadera significar; (2) esperaríamos que la media muestral y la desviación estándar
muestral fueran aproximadamente iguales a la media y la desviación estándar de la
población de la que se extraen; y (3) aproximadamente el 68 por ciento de las medias
muestrales estarán dentro de un error estándar de la media poblacional, aproximadamente
el 95 por ciento estará dentro de dos errores estándar de la media poblacional, y así
sucesivamente.
En un lenguaje menos técnico, todo esto significa que cualquier muestra debe parecerse
mucho a la población de la que se extrae; Si bien cada muestra será diferente, sería
relativamente raro que la media de una muestra extraída correctamente se desvíe en gran
medida de la media de la población subyacente relevante. De manera similar, también
esperaríamos que dos muestras extraídas de la misma población se parecieran mucho
entre sí. O, para pensar la situación de manera algo diferente, si tenemos dos muestras
que tienen medias extremadamente diferentes, la explicación más probable es que
provienen de poblaciones diferentes.
A continuación se muestra un ejemplo rápido e intuitivo. Suponga que su hipótesis nula es

que los jugadores de baloncesto profesionales masculinos tienen la misma altura media que el
resto de la población masculina adulta. Seleccionas aleatoriamente una muestra de 50 jugadores
de baloncesto profesionales y una muestra de 50 hombres que no juegan baloncesto profesional.
Suponga que la altura media de su muestra de baloncesto es 6 pies 7 pulgadas y la altura media
de los jugadores que no juegan baloncesto es 5 pies 10 pulgadas (una diferencia de 9 pulgadas).
¿Cuál es la probabilidad de observar una diferencia tan grande en la altura media entre las dos
muestras si en realidad no hay diferencia en la altura promedio entre los jugadores de baloncesto
profesionales y todos los demás hombres de la población general? La respuesta no técnica: muy,
muy, muy bajo. *
El artículo de investigación sobre el autismo tiene la misma metodología básica. El artículo
compara varias medidas del tamaño del cerebro entre muestras de niños. (Las mediciones del
cerebro se realizaron con imágenes de resonancia magnética a los dos años, y nuevamente
entre los cuatro y cinco años). Me centraré en una sola medición, el volumen cerebral total. La
hipótesis nula de los investigadores fue presumiblemente que no existen diferencias anatómicas
en el cerebro de los niños con y sin autismo. La hipótesis alternativa es que los cerebros de los
niños con trastorno del espectro autista son fundamentalmente diferentes. Un hallazgo así
todavía dejaría muchas preguntas, pero señalaría una dirección para futuras investigaciones.
En este estudio, los niños con trastorno del espectro autista tenían un volumen cerebral medio
de 1.310,4 centímetros cúbicos; los niños del grupo de control tenían un volumen cerebral medio
de 1238,8 centímetros cúbicos. Por tanto, la diferencia en el volumen cerebral medio entre los
dos grupos es de 71,6 centímetros cúbicos. ¿Qué probabilidad tendría este resultado si en
realidad no hubiera diferencias en el tamaño promedio del cerebro en la población general entre
los niños que tienen un trastorno del espectro autista y los que no lo tienen?
Quizás recuerdes del último capítulo que podemos crear un error estándar para cada una de
nuestras muestras: donde s es la desviación estándar de la muestra y n es el número de
observaciones. El trabajo de investigación nos da estas cifras. El error estándar para el volumen
cerebral total de los 59 niños de la muestra de trastornos del espectro autista es de 13 centímetros
cúbicos; el error estándar para el volumen cerebral total de los 38 niños del grupo de control es
de 18 centímetros cúbicos. Recordará que el teorema del límite central nos dice que para 95
muestras de 100, la media muestral estará dentro de dos errores estándar de la media poblacional
verdadera, en una dirección u otra.
Como resultado, podemos inferir de nuestra muestra que 95 de cada 100 veces el intervalo
de 1310,4 centímetros cúbicos ± 26 (que son dos errores estándar) contendrá el volumen
cerebral promedio de todos los niños con trastorno del espectro autista. Esta expresión se llama
intervalo de confianza. Podemos decir con un 95 por ciento.
Confianza en que el rango de 1284,4 a 1336,4 centímetros cúbicos contiene el volumen cerebral
total promedio de los niños de la población general con trastorno del espectro autista.
Utilizando la misma metodología, podemos decir con un 95 por ciento de confianza que el
intervalo de 1238,8 ± 36, o entre 1202,8 y 1274,8 centímetros cúbicos, incluirá el volumen
cerebral promedio de los niños de la población general que no padecen el trastorno del espectro
autista.
Sí, hay muchos números aquí. Quizás acabas de arrojar el libro al otro lado de la habitación.
* Si no, o si luego fue y recuperó el libro, lo que debería notar es que
nuestros intervalos de confianza no se superponen. El límite inferior de nuestro intervalo de
confianza del 95 por ciento para el tamaño promedio del cerebro de los niños con autismo en la
población general (1284,4 centímetros cúbicos) es aún mayor que el límite superior del intervalo
de confianza del 95 por ciento para el tamaño promedio del cerebro de los niños pequeños en la
población general. población sin autismo (1274,8 centímetros cúbicos), como ilustra el siguiente
diagrama.
Esta es la primera pista de que puede haber una diferencia anatómica subyacente en los
cerebros de niños pequeños con trastorno del espectro autista. Aún así, es sólo una pista.
Todas estas inferencias se basan en datos de menos de 100 niños. Quizás solo tengamos
muestras extravagantes.
Un último procedimiento estadístico puede hacer que todo esto se haga realidad. Si las
estadísticas fueran un evento olímpico como el patinaje artístico, este sería el último programa,
después del cual los fanáticos eufóricos arrojan ramos de flores sobre el hielo. Podemos calcular
la probabilidad exacta de observar una diferencia de medias al menos así de grande (1310,4
centímetros cúbicos versus 1238,8 centímetros cúbicos) si realmente no hay diferencia en el
tamaño del cerebro entre los niños con espectro autista y todos los demás niños de la población
general. Podemos encontrar un valor p para la diferencia de medias observada.
Para que no arrojes el libro otra vez por la habitación, he incluido la fórmula en un apéndice.
La intuición es bastante sencilla. Si extraemos dos muestras grandes de la misma población,
esperaríamos que tuvieran medias muy similares. De hecho, nuestra mejor suposición es que
tendrán medios idénticos. Por ejemplo, si tuviera que seleccionar 100 jugadores de la NBA y
tuvieran una altura promedio de 6 pies y 7 pulgadas, entonces esperaría otra muestra aleatoria
de 100 jugadores de la NBA.
La NBA tendrá una altura media cercana a los 6 pies y 7 pulgadas. Bien, tal vez las dos muestras estén
separadas por una pulgada o dos. Pero es menos probable que las medias de las dos muestras estén
separadas por 4 pulgadas, y aún menos probable que haya una diferencia de 6 u 8 pulgadas. Resulta
que podemos calcular un error estándar para la diferencia entre dos medias muestrales; este error
estándar nos da una medida de la dispersión que podemos esperar, en promedio, cuando restamos una
media muestral de la otra. (Como se señaló anteriormente, la fórmula se encuentra en el apéndice del
capítulo). Lo importante es que podemos usar este error estándar para calcular la probabilidad de que
dos muestras provengan de la misma población. Así es como funciona:
1. Si se extraen dos muestras de la misma población, nuestra mejor estimación de la diferencia

entre sus medias es cero.
2. El teorema del límite central nos dice que en muestras repetidas, la diferencia entre las dos
medias se distribuirá aproximadamente como una distribución normal.
(Bien, ¿ya te ha encantado el teorema del límite central o no?)
3. Si las dos muestras realmente provienen de la misma población, entonces en aproximadamente
68 casos de 100, la diferencia entre las dos medias muestrales estará dentro de un error estándar
de cero. Y en aproximadamente 95 casos de 100, la diferencia entre las dos medias muestrales
estará dentro de dos errores estándar de cero. Y en 99,7 casos de cada 100, la diferencia estará
dentro de tres errores estándar de cero, lo que resulta ser lo que motiva la conclusión del artículo
de investigación sobre el autismo con el que comenzamos.
Como se señaló anteriormente, la diferencia en el tamaño medio del cerebro entre la muestra de
niños con trastorno del espectro autista y el grupo de control es de 71,6 centímetros cúbicos. El error
estándar de esa diferencia es 22,7, lo que significa que la diferencia de medias entre las dos muestras
es más de tres errores estándar desde cero; esperaríamos un resultado tan extremo (o más) sólo 2
veces entre 1.000 si estas muestras se extraen de una población idéntica.
En el artículo publicado en Archives of General Psychiatry, los autores informan un valor p de 0,002,
como mencioné anteriormente. ¡Ahora sabes de dónde vino!
A pesar de todas las maravillas de la inferencia estadística, existen algunos inconvenientes importantes.
Se derivan del ejemplo que introducía el capítulo: mi sospechoso profesor de estadística. El poderoso
proceso de inferencia estadística se basa en la probabilidad, no en algún tipo de certeza cósmica. No
queremos enviar gente a la cárcel sólo por hacer el equivalente a sacar dos escaleras reales seguidas;
Puede suceder , incluso si alguien no está haciendo trampa. Como resultado, nos encontramos ante un
dilema fundamental cuando se trata de cualquier tipo de prueba de hipótesis.
Esta realidad estadística llegó a un punto crítico en 2011, cuando el Journal of Personality and
Social Psychology se preparó para publicar un artículo académico que, en apariencia, parecía
6
miles de otros artículos académicos. Un profesor de Cornell
propuso explícitamente una hipótesis nula, realizó un experimento para probar su hipótesis nula
y luego rechazó la hipótesis nula con una significancia de 0,05 sobre la base de los resultados
experimentales. El resultado fue un gran revuelo, tanto en los círculos científicos como en los
principales medios de comunicación como el New York Times.
Baste decir que los artículos del Journal of Personality and Social Psychology no suelen atraer
grandes titulares. ¿Qué hizo exactamente que este estudio fuera tan controvertido? El investigador
en cuestión estaba probando la capacidad de los humanos para ejercer la percepción
extrasensorial o ESP. La hipótesis nula fue que la PES no existe; la hipótesis alternativa era que
los humanos tienen poderes extrasensoriales. Para estudiar esta cuestión, el investigador reclutó
una gran muestra de participantes para examinar dos “cortinas” colocadas en la pantalla de una
computadora. Un programa de software coloca al azar una foto erótica detrás de una cortina u
otra. En ensayos repetidos, los participantes del estudio pudieron elegir la cortina con la foto
erótica detrás el 53 por ciento de las veces, mientras que la probabilidad dice que acertarían sólo
el 50 por ciento de las veces. Debido al gran tamaño de la muestra, el investigador pudo rechazar
la hipótesis nula de que la percepción extrasensorial no existe y aceptar en su lugar la hipótesis
alternativa de que la percepción extrasensorial puede permitir a los individuos sentir eventos
futuros. La decisión de publicar el artículo fue ampliamente criticada con el argumento de que un
único evento estadísticamente significativo puede ser fácilmente producto del azar, especialmente
cuando no hay otra evidencia que corrobore o incluso explique el hallazgo. El New York Times
resumió las críticas: “Las afirmaciones que desafían casi todas las leyes de la ciencia son por
definición extraordinarias y, por lo tanto, requieren evidencia extraordinaria.
No tener esto en cuenta (como lo hacen los análisis convencionales de las ciencias sociales)
hace que muchos hallazgos parezcan mucho más significativos de lo que realmente son”.
Una respuesta a este tipo de tonterías parecería ser un umbral más riguroso para definir la
*
significación estadística, como 0,001. Pero eso crea sus
propios problemas. Elegir un nivel de significancia apropiado implica una compensación inherente.
Si nuestra carga de prueba para rechazar la hipótesis nula es demasiado baja (por ejemplo,
.1), nos encontraremos periódicamente rechazando la hipótesis nula cuando en realidad es cierta
(como sospecho que fue el caso con el estudio ESP). En lenguaje estadístico, esto se conoce
como error de tipo I. Consideremos el ejemplo de un tribunal estadounidense, donde la hipótesis
nula es que un acusado no es culpable y el umbral para rechazar esa hipótesis nula es “culpable
más allá de toda duda razonable”. Supongamos que nosotros
Si relajamos ese umbral a algo así como "un fuerte presentimiento de que el tipo lo hizo". Esto
garantizará que más criminales vayan a la cárcel, y también más personas inocentes. En un
contexto estadístico, esto equivale a tener un nivel de significancia relativamente bajo, como 0,1.
Bueno, 1 de cada 10 no es exactamente tremendamente improbable. Considere este desafío

en el contexto de la aprobación de un nuevo medicamento contra el cáncer. Por cada diez
medicamentos que aprobamos con esta carga relativamente baja de pruebas estadísticas, uno
de ellos en realidad no funciona y mostró resultados prometedores en el ensayo simplemente
por casualidad. (O, en el ejemplo del tribunal, por cada diez acusados que declaramos culpables,
uno de ellos era en realidad inocente). Un error de tipo I implica rechazar erróneamente una
hipótesis nula. Aunque la terminología es algo contradictoria, esto también se conoce como
"falso positivo". He aquí una forma de conciliar la jerga. Cuando vas al médico para hacerte una
prueba de alguna enfermedad, la hipótesis nula es que no tienes esa enfermedad. Si los
resultados del laboratorio pueden usarse para rechazar la hipótesis nula, entonces se dice que
la prueba es positiva. Y si el resultado es positivo pero no estás realmente enfermo, entonces
es un falso positivo.
En cualquier caso, cuanto menor sea nuestra carga estadística para rechazar la hipótesis
nula, más probable será que esto suceda. Obviamente preferiríamos no aprobar medicamentos
contra el cáncer ineficaces o enviar a prisión a acusados inocentes.
Pero aquí hay una tensión. Cuanto más alto sea el umbral para rechazar la hipótesis nula,
más probable será que no rechacemos una hipótesis nula que debería rechazarse. Si
necesitamos cinco testigos oculares para condenar a cada acusado penal, entonces muchos
acusados culpables serán liberados injustamente. (Por supuesto, menos inocentes irán a
prisión.) Si adoptamos un nivel de significancia de 0,001 en los ensayos clínicos de todos los
nuevos medicamentos contra el cáncer, entonces minimizaremos la aprobación de medicamentos
ineficaces. (Sólo hay una probabilidad de 1 entre 1.000 de rechazar erróneamente la hipótesis
nula de que el fármaco no es más eficaz que un placebo.) Sin embargo, ahora introducimos el
riesgo de no aprobar muchos fármacos eficaces porque hemos puesto el listón muy alto para su
aprobación. Esto se conoce como error tipo II o falso negativo.
¿Qué tipo de error es peor? Eso depende de las circunstancias. El punto más importante es
que reconozca la compensación. No existe un “almuerzo gratis” estadístico. Consideremos estas
situaciones no estadísticas, todas las cuales implican un equilibrio entre errores de tipo I y tipo II.
1. Filtros de spam. La hipótesis nula es que cualquier mensaje de correo electrónico en

particular no es spam. Su filtro de spam busca pistas que puedan usarse para rechazar
esa hipótesis nula para cualquier correo electrónico en particular, como listas de distribución
enormes o frases como "agrandamiento del pene". Un error de tipo I implicaría una detección
enviar un mensaje de correo electrónico que en realidad no es spam (un falso positivo). Un
error de tipo II implicaría dejar que el spam pase por el filtro de su bandeja de entrada (un
falso negativo). Dados los costos de perder un correo electrónico importante en comparación
con los costos de recibir un mensaje ocasional sobre vitaminas a base de hierbas, la
mayoría de la gente probablemente se equivocaría al permitir errores de Tipo II. Un filtro de
spam diseñado óptimamente debería requerir un grado relativamente alto de certeza antes
de rechazar la hipótesis nula de que un correo electrónico entrante es legítimo y bloquearlo.
2. Detección de cáncer. Disponemos de numerosas pruebas para la detección temprana

del cáncer, como las mamografías (cáncer de mama), la prueba de PSA (cáncer de próstata)
e incluso resonancias magnéticas de cuerpo completo para cualquier otra cosa que pueda
parecer sospechosa. La hipótesis nula para cualquier persona que se someta a este tipo de
detección es que no hay cáncer. El cribado se utiliza para rechazar esta hipótesis nula si
los resultados son sospechosos. Siempre se ha supuesto que un error de tipo I (un falso
positivo que resulta no ser nada) es mucho más preferible a un error de tipo II (un falso
negativo que no detecta un diagnóstico de cáncer). Históricamente, la detección del cáncer
ha sido lo opuesto al ejemplo del spam. Los médicos y los pacientes están dispuestos a
tolerar un buen número de errores de tipo I (falsos positivos) para evitar la posibilidad de un
error de tipo II (omitir un diagnóstico de cáncer). Más recientemente, los expertos en
políticas de salud han comenzado a cuestionar esta opinión debido a los altos costos y los
graves efectos secundarios asociados con los falsos positivos.
3. Capturar terroristas. Ni un error de tipo I ni un error de tipo II son aceptables en esta

situación, razón por la cual la sociedad continúa debatiendo sobre el equilibrio apropiado
entre la lucha contra el terrorismo y la protección de las libertades civiles. La hipótesis nula
es que un individuo no es un terrorista. Como en un contexto criminal normal, no queremos
cometer un error de Tipo I y enviar gente inocente a la Bahía de Guantánamo. Sin embargo,
en un mundo con armas de destrucción masiva, dejar en libertad incluso a un solo terrorista
(un error de tipo II) puede ser literalmente catastrófico. Esta es la razón por la que (lo
aprueben o no) Estados Unidos mantiene a presuntos terroristas en la Bahía de Guantánamo
basándose en menos pruebas de las que podrían ser necesarias para condenarlos en un
tribunal penal ordinario.
La inferencia estadística no es mágica ni infalible, pero es una herramienta extraordinaria para

dar sentido al mundo. Podemos obtener una gran comprensión de muchos fenómenos de la vida
simplemente determinando la explicación más probable. La mayoría de nosotros hacemos esto
todo el tiempo (por ejemplo, “Creo que ese estudiante universitario que se desmayó en el suelo
rodeado de latas de cerveza ha bebido demasiado” en lugar de “Creo que ese estudiante universitario
desmayado en el suelo rodeado de latas de cerveza ha sido envenenado por terroristas”).
La inferencia estadística simplemente formaliza el proceso.
Calcular el error estándar para una diferencia de medias

Fórmula para comparar dos medias
donde = media de la muestra x =

media de la muestra y
sx = desviación estándar de la muestra x
sy = desviación estándar de la muestra y
nx = número de observaciones en la muestra x
ny = número de observaciones en la muestra y
Nuestra hipótesis nula es que las dos medias muestrales son iguales. La fórmula anterior
calcula la diferencia de medias observada en relación con el tamaño del error estándar para la
diferencia de medias. Nuevamente nos apoyamos en gran medida en la distribución normal. Si
las medias poblacionales subyacentes son realmente las mismas, entonces esperaríamos que
la diferencia en las medias muestrales fuera menor que un error estándar alrededor del 68 por
ciento de las veces; menos de dos errores estándar aproximadamente el 95 por ciento de las
veces; etcétera.
En el ejemplo del autismo del capítulo, la diferencia en la media entre las dos muestras fue
de 71,6 centímetros cúbicos con un error estándar de 22,7. La relación de esa diferencia
observada es 3,15, lo que significa que las dos muestras tienen medias que están separadas
por más de 3 errores estándar. Como se señaló en el capítulo, la probabilidad de obtener
muestras con medias tan diferentes si las poblaciones subyacentes tienen la misma media es
muy, muy baja. Específicamente, la probabilidad de observar una diferencia de medias de 3,15
errores estándar o mayor es 0,002.
Diferencia en medias muestrales

Prueba de hipótesis de una y dos colas En este

capítulo se presentó la idea de utilizar muestras para comprobar si los jugadores de
baloncesto profesionales masculinos tienen la misma altura que la población general.
Perfeccioné un detalle. Nuestra hipótesis nula es que los jugadores de baloncesto masculinos
tienen la misma altura media que los hombres de la población general. Lo que pasé por alto
es que tenemos dos posibles hipótesis alternativas.
Una hipótesis alternativa es que los jugadores de baloncesto profesionales masculinos
tienen una altura media diferente a la de la población masculina en general; podrían ser más
altos que otros hombres de la población o más bajos. Este fue el enfoque que adoptó cuando
se subió al autobús secuestrado y pesó a los pasajeros para determinar si participaban en el
estudio Cambiando Vidas. Se podría rechazar la hipótesis nula de que los participantes del
autobús formaron parte del estudio si el peso medio de los pasajeros fuera significativamente
mayor que la media general de los participantes de Changing Lives o si fuera significativamente
menor (como resultó ser el caso). Nuestra segunda hipótesis alternativa es que los jugadores
de baloncesto profesionales masculinos son, en promedio, más altos que otros hombres de
la población. En este caso, el conocimiento previo que aportamos a esta pregunta nos dice
que los jugadores de baloncesto no pueden ser más bajos que la población general. La
distinción entre estas dos hipótesis alternativas determinará si hacemos una prueba de
hipótesis de una cola o una prueba de hipótesis de dos colas.
En ambos casos, supongamos que vamos a hacer una prueba de significancia al nivel
0,05. Rechazaremos nuestra hipótesis nula si observamos una diferencia de alturas entre las
dos muestras que ocurriría 5 veces de cada 100 o menos si todos estos tipos realmente
tuvieran la misma altura. Hasta ahora, todo bien.
Aquí es donde las cosas se vuelven un poco más matizadas. Cuando nuestra hipótesis
alternativa es que los jugadores de baloncesto son más altos que otros hombres, vamos a
hacer una prueba de hipótesis de una cola. Mediremos la diferencia en la altura media entre
nuestra muestra de jugadores de baloncesto masculinos y nuestra muestra de hombres normales.
Sabemos que si nuestra hipótesis nula es cierta, entonces observaremos una diferencia de
1,64 errores estándar o más solo 5 veces de 100. Rechazamos nuestra hipótesis nula si
nuestro resultado cae en este rango, como muestra el siguiente diagrama.

(Medido en errores estándar)
Ahora revisemos la otra hipótesis alternativa: que los jugadores de baloncesto masculinos
podrían ser más altos o más bajos que la población general. Nuestro enfoque general es el
mismo. Nuevamente, rechazaremos nuestra hipótesis nula de que los jugadores de baloncesto
tienen la misma altura que la población general si obtenemos un resultado que ocurriría 5 veces
de cada 100 o menos si realmente no hay diferencia de alturas. La diferencia, sin embargo, es
que ahora debemos considerar la posibilidad de que los jugadores de baloncesto sean más
bajos que la población general. Por lo tanto, rechazaremos nuestra hipótesis nula si nuestra
muestra de jugadores de baloncesto masculinos tiene una altura media significativamente
mayor o menor que la altura media de nuestra muestra de hombres normales. Esto requiere
una prueba de hipótesis de dos colas. Los puntos de corte para rechazar nuestra hipótesis nula
serán diferentes porque ahora debemos tener en cuenta la posibilidad de una gran diferencia
en las medias muestrales en ambas direcciones: positiva o negativa. Más específicamente, el
rango en el que rechazaremos nuestra hipótesis nula se ha dividido entre las dos colas.
Seguiremos rechazando nuestra hipótesis nula si obtenemos un resultado que ocurriría el 5 por
ciento de las veces o menos si los jugadores de baloncesto tienen la misma altura que la
población general; sólo que ahora tenemos dos formas diferentes de acabar rechazando la
hipótesis nula.
Rechazaremos nuestra hipótesis nula si la altura media de la muestra de jugadores de
baloncesto masculinos es mucho mayor que la media de los hombres normales que
observaríamos tal resultado sólo 2,5 veces de cada 100 si los jugadores de baloncesto
realmente tuvieran la misma altura que todos. demás.
Y rechazaremos nuestra hipótesis nula si la altura media de la muestra de jugadores de
baloncesto masculinos es mucho menor que la media de los hombres normales que
observaríamos tal resultado sólo 2,5 veces de cada 100 si los jugadores de baloncesto tuvieran
realmente la misma altura que todos los demás.
Juntas, estas dos contingencias suman el 5 por ciento, como lo ilustra el siguiente diagrama.

(Medido en errores estándar)
El juicio debe informar si una hipótesis de una o dos colas es más

apropiada para el análisis que se está realizando.
* Por una cuestión de semántica, no hemos demostrado que la hipótesis nula sea cierta (que el tratamiento por abuso de sustancias no
tiene ningún efecto). Puede resultar extremadamente eficaz para otro grupo de presos. O quizás muchos más prisioneros de este grupo
de tratamiento habrían sido arrestados nuevamente si no hubieran recibido el tratamiento. En cualquier caso, sobre la base de los datos
recopilados, simplemente no hemos podido rechazar nuestra hipótesis nula. Existe una distinción similar entre “no rechazar” una
hipótesis nula y aceptarla. Sólo porque un estudio no pudo refutar que el tratamiento por abuso de sustancias no tiene ningún efecto (sí,
un doble negativo) no significa que uno deba aceptar que el tratamiento por abuso de sustancias sea inútil. Aquí hay una distinción
estadística significativa. Dicho esto, la investigación suele estar diseñada para informar las políticas, y los funcionarios penitenciarios,
que tienen que decidir dónde asignar los recursos, podrían aceptar razonablemente la posición de que el tratamiento de sustancias es
ineficaz hasta que se les convenza de lo contrario. Aquí, como en tantas otras áreas de la estadística, el juicio importa.
* Este ejemplo está inspirado en hechos reales. Evidentemente se han cambiado muchos detalles por motivos de seguridad nacional.
No puedo confirmar ni negar mi propia participación.
* Para ser precisos, el 95 por ciento de todas las medias muestrales estarán dentro de 1,96 errores estándar por encima o por debajo
de la media poblacional.
* Hay dos posibles hipótesis alternativas. Una es que los jugadores de baloncesto profesionales masculinos son más altos que la
población masculina en general. La otra es simplemente que los jugadores de baloncesto profesionales masculinos tienen una altura
media diferente a la de la población masculina en general (dejando abierta la posibilidad de que los jugadores de baloncesto masculinos
en realidad sean más bajos que otros hombres). Esta distinción tiene un pequeño impacto cuando se realizan pruebas de significancia y
se calculan los valores p. Se explica en textos más avanzados y no es importante para nuestra discusión general aquí.
* Admito que una vez rompí un libro de estadísticas por la mitad debido a la frustración.
* Otra respuesta es intentar replicar los resultados en estudios adicionales.
CAPÍTULO 10
Votación
¿Cómo sabemos que el 64 por ciento de
Los estadounidenses apoyan la pena de muerte
(con un error de muestreo de ± 3 por ciento)
A finales de 2011, el New York Times publicó un artículo en primera plana en el que informaba que
1
“un profundo sentimiento de ansiedad y duda sobre el futuro se cierne sobre la nación”. La historia
profundizó en la psique de Estados Unidos y ofreció información sobre la opinión pública sobre
temas que van desde el desempeño de la administración Obama hasta la distribución de la riqueza.
He aquí una instantánea de lo que los estadounidenses dijeron en el otoño de 2011:
• Un sorprendente 89 por ciento de los estadounidenses dijo que desconfían de que el

gobierno haga lo correcto, el nivel más alto de desconfianza jamás
registrado. • Dos tercios del público dijeron que la riqueza debería distribuirse más
equitativamente en el país. •
Cuarenta y tres por ciento de los estadounidenses dijeron que en general estaban de acuerdo
con las opiniones del movimiento Occupy Wall Street, un movimiento de protesta amorfo que
comenzó cerca de Wall Street en Nueva York y se estaba extendiendo a otras ciudades del
*
país. Un porcentaje ligeramente mayor, el 46 por ciento,
dijo que las opiniones de las personas involucradas en el movimiento Occupy Wall Street
“generalmente reflejan las opiniones de la mayoría de los estadounidenses”.
• Cuarenta y seis por ciento de los estadounidenses aprobaron el manejo de Barack Obama
de su trabajo como presidente, y un 46 por ciento idéntico desaprobó su desempeño laboral. •
Apenas el 9 por
ciento del público aprobó la forma en que el Congreso estaba manejando su trabajo. • Aunque
las primarias
presidenciales comenzarían en sólo dos meses, aproximadamente el 80 por ciento de los
votantes primarios republicanos dijeron que “todavía era demasiado pronto para decir a quién
apoyarán”.
Se trata de cifras fascinantes que proporcionaron una visión significativa de las opiniones
estadounidenses un año antes de la carrera presidencial. Aún así, uno podría preguntarse
razonablemente: ¿Cómo sabemos todo esto? ¿Cómo podemos sacar conclusiones tan radicales?
¿Sobre las actitudes de cientos de millones de adultos? ¿Y cómo sabemos si estas amplias
conclusiones son exactas?
La respuesta, por supuesto, es que realizamos encuestas. O en el ejemplo anterior, el New
York Times y CBS News pueden realizar una encuesta. (El hecho de que dos organizaciones de
noticias en competencia colaboren en un proyecto como este es la primera pista de que realizar
una encuesta nacional metodológicamente sólida no es barato). No tengo ninguna duda de que
usted está familiarizado con los resultados de las encuestas. Puede que sea menos obvio que la
metodología de las encuestas sea sólo una forma más de inferencia estadística. Una encuesta (o
encuesta) es una inferencia sobre las opiniones de una población que se basa en las opiniones
expresadas por alguna muestra extraída de esa población.
El poder del sondeo surge de la misma fuente que nuestros ejemplos de muestreo anteriores:
el teorema del límite central. Si tomamos una muestra grande y representativa de votantes
estadounidenses (o de cualquier otro grupo), podemos suponer razonablemente que nuestra
muestra se parecerá mucho a la población de la que se extrae. Si exactamente la mitad de los
adultos estadounidenses desaprueba el matrimonio homosexual, entonces nuestra mejor
suposición sobre las actitudes de una muestra representativa de 1.000 estadounidenses es que
aproximadamente la mitad de ellos desaprobará el matrimonio homosexual.
Por el contrario, y lo que es más importante desde el punto de vista de las encuestas, si
tenemos una muestra representativa de 1.000 estadounidenses que se sienten de cierta manera,
como el 46 por ciento que desaprueba el desempeño laboral del presidente Obama, entonces
podemos inferir de esa muestra que la población general Es probable que sienta lo mismo.
De hecho, podemos calcular la probabilidad de que los resultados de nuestra muestra se desvíen
enormemente de las verdaderas actitudes de la población. Cuando leemos que una encuesta tiene
un “margen de error” de ± 3 por ciento, en realidad se trata del mismo tipo de intervalo de confianza
del 95 por ciento que calculamos en el capítulo anterior. Nuestra “confianza del 95 por ciento”
significa que si realizáramos 100 encuestas diferentes en muestras extraídas de la misma
población, esperaríamos que las respuestas que obtengamos de nuestra muestra en 95 de esas
encuestas estuvieran dentro de 3 puntos porcentuales en una dirección u otra de el verdadero
sentimiento de la población. En el contexto de la pregunta sobre aprobación del trabajo en la
encuesta del New York Times/CBS , podemos tener una confianza del 95 por ciento en que la
verdadera proporción de todos los estadounidenses que desaprueban la calificación del trabajo del
presidente Obama se encuentra en el rango del 46 por ciento ± 3 por ciento, o entre 43 por ciento
y 49 por ciento. Si lees la letra pequeña de la encuesta del New York Times/CBS (como te insto a
que hagas), eso es más o menos lo que dice: “En teoría, en 19 de 20 casos, los resultados
generales basados en dichas muestras diferirán por no más de 3 puntos porcentuales en cualquier
dirección de lo que se habría obtenido al intentar entrevistar a todos los adultos estadounidenses”.
Una diferencia fundamental entre una encuesta y otras formas de muestreo es que
la estadística muestral que nos interesa no será una media (p. ej., 187 libras) sino más bien un
porcentaje o proporción (p. ej., 47 por ciento de los votantes, o 0,47). En otros aspectos, el proceso
es idéntico. Cuando tenemos una muestra grande y representativa (la encuesta), esperaríamos
que la proporción de encuestados que se sienten de cierta manera en la muestra (por ejemplo, el
9 por ciento que piensa que el Congreso está haciendo un buen trabajo) sea aproximadamente
igual a la proporción de todos los estadounidenses que se sienten así. Esto no es diferente de
suponer que el peso medio de una muestra de 1.000 hombres estadounidenses debería ser
aproximadamente igual al peso medio de todos los hombres estadounidenses. Aun así, esperamos
cierta variación en el porcentaje que aprueba el Congreso de una muestra a otra, del mismo modo
que esperaríamos alguna variación en el peso medio al tomar diferentes muestras aleatorias de
1.000 hombres. Si el New York Times y la CBS hubieran realizado una segunda encuesta
(haciendo las mismas preguntas a una nueva muestra de 1.000 adultos estadounidenses) es muy
poco probable que los resultados de la segunda encuesta hubieran sido idénticos a los resultados
de la primera. Por otro lado, no debemos esperar que las respuestas de nuestra segunda muestra
difieran mucho de las respuestas dadas por la primera. (Para volver a la metáfora utilizada
anteriormente, si pruebas una cucharada de sopa, revuelves la olla y luego vuelves a probar, las
dos cucharadas tendrán un sabor similar).
El error estándar es lo que nos dice cuánta dispersión podemos esperar en nuestros resultados
de una muestra a otra, lo que en este caso significa encuesta a encuesta.
La fórmula para calcular un error estándar para un porcentaje o proporción es ligeramente
diferente de la fórmula presentada anteriormente; la intuición es exactamente la misma. Para
cualquier muestra aleatoria correctamente extraída, el error estándar es igual a donde p es la
proporción de encuestados que expresan una opinión particular, (1 – p) es la proporción
de encuestados que expresan una opinión diferente y n es el número total de encuestados en la
muestra. muestra. Debería ver que el error estándar disminuirá a medida que el tamaño de la
muestra aumente, ya que n está en el denominador. El error estándar también tiende a ser menor
cuando p y (1 – p) están muy separados. Por ejemplo, el error estándar será menor en una
encuesta en la que el 95 por ciento de los encuestados expresa una determinada opinión que en
una encuesta en la que las opiniones tienden a dividirse 5050. Esto es sólo matemática, ya que
(0,05)(0,95) = 0,047, mientras que (0,5)(0,5) = 0,25; un número menor en el numerador de la
fórmula conduce a un error estándar menor.
Como ejemplo, supongamos que una simple “encuesta a pie de urna” entre 500 votantes
representativos el día de las elecciones revela que el 53 por ciento votó por el candidato
republicano; El 45 por ciento de los votantes votó por el demócrata; y el 2 por ciento apoyó a un
candidato de un tercer partido. Si utilizamos al candidato republicano como nuestra proporción de
interés, la encuesta
error para
estándar sería este salida haría
Para simplificar, redondearemos el error estándar de esta encuesta a pie de urna a 0,02. Hasta
ahora, eso es sólo un número. Analicemos por qué ese número es importante. asumir el
Las urnas acaban de cerrarse y usted trabaja para una cadena de televisión que desea declarar un
ganador en la carrera antes de que estén disponibles los resultados completos. Ahora usted es el
analizador oficial de datos de la cadena (después de haber leído dos tercios de este libro) y su
productor quiere saber si es posible “convocar la carrera” sobre la base de esta encuesta a boca de
urna.
Usted explica que la respuesta depende de la confianza que la gente de la red quisiera tener en
el anuncio o, más específicamente, del riesgo que estén dispuestos a correr de equivocarse.
Recuerde, el error estándar nos da una idea de con qué frecuencia podemos esperar que nuestra
proporción muestral (la encuesta a pie de urna) se encuentre razonablemente cerca de la verdadera
proporción poblacional (el resultado electoral). Sabemos que aproximadamente el 68 por ciento de
las veces podemos esperar que la proporción de la muestra (el 53 por ciento de los votantes que
dijeron que votaron por el republicano en este caso) esté dentro de un error estándar del verdadero
recuento final. Como resultado, usted le dice a su productor “con un 68 por ciento de confianza” que
su muestra, que muestra que el republicano obtuvo el 53 por ciento de los votos ± 2 por ciento, o
entre el 51 y el 55 por ciento, ha capturado el verdadero recuento del candidato republicano. Mientras
tanto, la misma encuesta a pie de urna muestra que el candidato demócrata ha recibido el 45 por
ciento de los votos. Si asumimos que el recuento de votos para el candidato demócrata tiene el
mismo error estándar (una simplificación que explicaré en un minuto), podemos decir con un 68 por
ciento de confianza que la muestra de la encuesta a pie de urna, que muestra al demócrata con un
45 por ciento de el voto ± 2 por ciento, o entre 43 y 47 por ciento, contiene el verdadero recuento del
demócrata. Según este cálculo, el republicano es el ganador.
El departamento de gráficos se apresura a crear una elegante imagen tridimensional que puede
mostrar en la pantalla a sus espectadores: Republicano
53% Demócrata 45%

Independiente 2%
(Margen de error 2%)
Al principio, su productor está impresionado y emocionado, en gran parte porque el gráfico de

arriba es tridimensional, multicolor y puede girar en la pantalla.
Sin embargo, cuando explica que aproximadamente 68 de cada 100 veces los resultados de su
encuesta a pie de urna estarán dentro de un error estándar del verdadero resultado electoral, su
productor, que ha sido enviado dos veces por los tribunales a programas de manejo de la ira, señala
las matemáticas obvias: 32 de cada 100 veces su encuesta a pie de urna no estará dentro de un
error estándar del verdadero resultado electoral. ¿Y que?
Usted explica que hay dos posibilidades: (1) el candidato republicano podría haber recibido incluso
más votos de los que predijo su encuesta, en cuyo caso usted
Aún así habrá convocado las elecciones correctamente. O (2) existe una probabilidad
razonablemente alta de que el candidato demócrata haya recibido muchos más votos de los
que su encuesta ha reportado, en cuyo caso su elegante gráfico giratorio multicolor en 3D
habrá reportado al ganador equivocado.
Su productor arroja una taza de café al otro lado de la habitación y usa varias frases que
violan su libertad condicional. Ella grita: "¿Cómo podemos estar [eliminados] seguros de que
tenemos el resultado [eliminado] correcto?"
Siempre gurú de las estadísticas, señala que no puede estar seguro de ningún resultado
hasta que se cuenten todos los votos. Sin embargo, puede ofrecer un intervalo de confianza del
95 por ciento. En este caso, su gráfico giratorio, tridimensional y multicolor será incorrecto, en
promedio, sólo 5 de cada 100 veces.
Su productor enciende un cigarrillo y parece relajarse. Decide no mencionar la prohibición
de fumar en el lugar de trabajo, ya que la última vez resultó desastrosa.
Sin embargo, comparte algunas malas noticias. La única forma en que la emisora puede tener
más confianza en los resultados de sus encuestas es ampliando el “margen de error”. Y cuando
se hace eso, ya no hay un ganador claro en las elecciones. Le muestras a tu jefe el nuevo
gráfico elegante:
Republicano 53%
Demócrata 45%
Independiente 2%
(Margen de error 4%)
Sabemos por el teorema del límite central que aproximadamente el 95 por ciento de las
proporciones de la muestra estarán dentro de dos errores estándar de la verdadera proporción
de la población (que es del 4 por ciento en este caso). Por lo tanto, si queremos tener más
confianza en los resultados de nuestras encuestas, tenemos que ser menos ambiciosos en lo
que predecimos. Como ilustra el gráfico anterior (sin el 3D ni el color), con un nivel de confianza
del 95 por ciento, la estación de televisión puede anunciar que el candidato republicano ha
obtenido el 53 por ciento de los votos ± 4 por ciento, o entre el 49 y el 57 por ciento de los
votos. votos emitidos. Mientras tanto, el candidato demócrata obtuvo el 45 por ciento ± 4 por
ciento, o entre el 41 y el 49 por ciento de los votos emitidos.
Y sí, ahora tienes un nuevo problema. Con un nivel de confianza del 95 por ciento, no se
puede rechazar la posibilidad de que los dos candidatos estén empatados con el 49 por ciento
de los votos cada uno. Esta es una compensación inevitable; La única manera de estar más
seguro de que los resultados de sus encuestas serán consistentes con el resultado de las
elecciones sin nuevos datos es volverse más tímido en sus predicciones. Piense en un contexto
no estadístico. Suponga que le dice a un amigo que está “bastante seguro” de que Thomas
Jefferson fue el tercer o cuarto presidente. ¿Cómo puede tener más confianza en su
conocimiento histórico? Al ser menos específico. Eres
Es “absolutamente positivo” que Thomas Jefferson haya sido uno de los primeros cinco presidentes.
Tu productor te dice que pidas una pizza y te prepares para quedarte en el trabajo toda la noche. En ese
momento, la buena suerte estadística brilla sobre ti. Los resultados de una segunda encuesta a pie de urna
llegan a su escritorio con una muestra de 2.000 votantes. Estos resultados muestran lo siguiente:
Republicano (52 por ciento); Demócrata (45 por ciento); Independiente (3 por ciento). Su productor está
ahora completamente exasperado, ya que esta encuesta sugiere que la brecha entre los candidatos se ha
reducido, lo que hace aún más difícil para usted convocar la carrera a tiempo. ¡Pero espera! Usted señala
(heroicamente) que el tamaño de la muestra (2000) es cuatro veces mayor que la muestra de la primera
encuesta. Como resultado, el error estándar se reducirá significativamente. El nuevo error estándar para el
candidato republicano es 0,01.
Si su productor todavía se siente cómodo con un nivel de confianza del 95 por ciento, puede declarar
ganador al candidato republicano. Con su nuevo error estándar de .01, los intervalos de confianza del 95
por ciento para los candidatos son los siguientes: Republicano: 52 ± 2, o entre 50 y 54 por ciento de los
votos emitidos; Demócrata: 45 ± 2, o entre el 43 y el 47 por ciento de los votos emitidos. Ya no hay
superposición entre los dos intervalos de confianza. Se puede predecir al aire que el candidato republicano
será el ganador; más de 95 de cada 100 veces serás
correcto. *
Pero este caso es incluso mejor que eso. El teorema del límite central nos dice que el 99,7 por ciento de
las veces una proporción muestral estará dentro de tres errores estándar de la verdadera proporción
poblacional. En este ejemplo electoral, nuestros intervalos de confianza del 99,7 por ciento para los dos
candidatos son los siguientes: republicano, 52 ± 3 por ciento, o entre 49 y 55 por ciento; Demócrata, 45 ± 3
por ciento, o entre 42 y 48 por ciento. Si informa que el candidato republicano ha ganado, existe una
pequeña posibilidad de que usted y su productor sean despedidos, gracias a su nueva muestra de 2.000
votantes.
Debería ver que una muestra más grande genera un error estándar cada vez menor, que es la forma en
que las encuestas nacionales de gran tamaño pueden terminar con resultados sorprendentemente precisos.
Por otro lado, muestras más pequeñas obviamente generan errores estándar más grandes y, por lo tanto,
un intervalo de confianza más grande (o “margen de error de muestreo”, para usar la jerga de las encuestas).
La letra pequeña de la encuesta del New York Times/CBS señala que el margen de error de las preguntas
sobre las primarias republicanas es de 5 puntos porcentuales, en comparación con los 3 puntos porcentuales
de otras preguntas de la encuesta. Sólo se hicieron estas preguntas a los votantes autodenominados
republicanos de las primarias y del caucus, por lo que el tamaño de la muestra para este subgrupo de
preguntas se redujo a 455 (en comparación con 1.650 adultos para el resto de la encuesta).
Como siempre, he simplificado muchas cosas en este capítulo. Es posible que usted tenga
Reconocí que en mi ejemplo electoral anterior, los candidatos republicanos y demócratas

deberían tener cada uno su propio error estándar. Piense nuevamente en la fórmula: el tamaño
de la muestra, n, es el mismo para ambos candidatos, pero p y (1 – p) serán ligeramente
diferentes. En la segunda encuesta a pie de urna (con la muestra de 2.000 votantes), el error
estándar para el republicano es para el demócrata. Por supuesto, para
todos los efectos, esas dos cifras son las mismas. Por esa razón, he adoptado una convención
común, que consiste en tomar el error estándar más alto de los dos y usarlo para todos los
candidatos. En todo caso, esto introduce un poco más de precaución en nuestros intervalos de
confianza.
Muchas encuestas nacionales que plantean múltiples preguntas irán un paso más allá. En
el caso de la encuesta del New York Times/CBS , el error estándar debería ser técnicamente
diferente para cada pregunta, dependiendo de la respuesta. Por ejemplo, el error estándar para
encontrar que el 9 por ciento del público aprueba la forma en que el Congreso está manejando
su trabajo debería ser menor que el error estándar para la pregunta que encuentra que el 46
por ciento del público aprueba la forma en que el presidente Obama ha manejado su trabajo.
trabajo, ya que .09 × (.91) es menor que .46 × (.54) —0819 versus .2484. (La intuición detrás
de esta fórmula se explica en el apéndice de un capítulo).
Dado que sería confuso e inconveniente tener un error estándar diferente para cada
pregunta, las encuestas de esta naturaleza generalmente asumirán que la proporción muestral
para cada pregunta es 0,5 (o 50 por ciento), generando el error estándar más grande posible
para cualquier pregunta dada. tamaño de la muestra y luego adoptar ese error estándar para
calcular el margen de error de muestreo para toda la encuesta. *
Cuando se hacen correctamente, las encuestas son instrumentos asombrosos. Según Frank
Newport, editor en jefe de la Organización Gallup, una encuesta entre 1.000 personas puede
ofrecer información significativa y precisa sobre las actitudes de todo el país.
Estadísticamente hablando, tiene razón. Pero para obtener esos resultados significativos y
precisos, tenemos que realizar una encuesta adecuada y luego interpretar los resultados
correctamente, lo cual es mucho más fácil de decir que de hacer. Los malos resultados de las
encuestas no suelen deberse a malas matemáticas al calcular los errores estándar. Los malos
resultados de las encuestas suelen deberse a una muestra sesgada, a malas preguntas o a
ambas cosas. El mantra “basura entra, basura sale” se aplica con creces cuando se trata de
muestrear la opinión pública. A continuación se presentan las preguntas metodológicas clave
que uno debería plantearse al realizar una encuesta o al revisar el trabajo de otros.
¿Es esta una muestra precisa de la población cuyas opiniones estamos tratando de medir? En
el Capítulo 7 se analizaron muchos desafíos comunes relacionados con los datos.
No obstante, señalaré una vez más el peligro del sesgo de selección, particularmente
autoselección. Cualquier encuesta que dependa de individuos seleccionados para la muestra,

como un programa de radio con llamadas telefónicas o una encuesta voluntaria por Internet,
captará sólo las opiniones de quienes hacen el esfuerzo de expresar sus opiniones. Es
probable que se trate de personas que tienen un sentimiento particularmente fuerte sobre un
tema, o aquellas que tienen mucho tiempo libre. Es probable que ninguno de estos grupos
sea representativo del público en general. Una vez aparecí como invitado en un programa
de radio con llamadas telefónicas. Una de las personas que llamó al programa declaró
enfáticamente al aire que mis puntos de vista eran “tan equivocados” que sacó su auto de la
carretera y encontró un teléfono público para llamar al programa y registrar su disidencia. Me
gustaría pensar que los oyentes que no sacaron sus autos de la carretera para ver el
programa se sintieron diferentes.
Cualquier método de recopilación de opinión que excluya sistemáticamente a algún
segmento de la población también es propenso al sesgo. Por ejemplo, los teléfonos móviles
han introducido una serie de nuevas complejidades metodológicas. Las organizaciones
encuestadoras profesionales hacen todo lo posible para encuestar a una muestra
representativa de la población relevante. La encuesta del New York Times/CBS se basó en
entrevistas telefónicas realizadas durante seis días a 1.650 adultos, 1.475 de los cuales
dijeron que estaban registrados para votar.
Sólo puedo adivinar el resto de la metodología, pero la mayoría de las encuestas
profesionales utilizan alguna variación de las siguientes técnicas. Para garantizar que los
adultos que contestan el teléfono sean representativos de la población, el proceso comienza
con la probabilidad, una variación de sacar canicas de una urna. Una computadora selecciona
aleatoriamente un conjunto de centrales telefónicas fijas. (Una central es un código de área
más los primeros tres dígitos de un número de teléfono). Al elegir aleatoriamente entre las
69.000 centrales residenciales del país, cada una en proporción a su proporción de todos los
números telefónicos, es probable que la encuesta obtenga un resultado generalmente
representativo. Distribución geográfica de la población. Como explica la letra pequeña, "Las
centrales se eligieron de manera que garantizaran que cada región del país estuviera
representada en proporción a su proporción de todos los números de teléfono". Para cada
intercambio seleccionado, la computadora agregó cuatro dígitos aleatorios. Como resultado,
tanto los números listados como los no listados terminarán en la lista final de hogares a los
que se llamará. La encuesta también incluyó una “marcación aleatoria de números de teléfonos celulares”.
Para cada número marcado, se designa a un adulto para que responda mediante un
“procedimiento aleatorio”, como preguntar por el adulto más joven que se encuentra
actualmente en casa. Este proceso se ha perfeccionado para producir una muestra de
encuestados que se asemeja a la población adulta en términos de edad y género. Lo más
importante es que el entrevistador intentará realizar varias llamadas a diferentes horas del
día y de la noche para comunicarse con cada número de teléfono seleccionado. Estos
intentos repetidos (hasta diez o doce llamadas al mismo número) son una parte importante de
obteniendo una muestra imparcial. Obviamente, sería más barato y más fácil hacer llamadas
aleatorias a diferentes números hasta que una muestra suficientemente grande de adultos
haya cogido el teléfono y respondido las preguntas pertinentes. Sin embargo, una muestra de
este tipo estaría sesgada hacia las personas que probablemente estén en casa y contesten el
teléfono: los desempleados, los ancianos, etc. Eso está bien siempre y cuando esté dispuesto
a calificar los resultados de su encuesta de la siguiente manera: el índice de aprobación del
presidente Obama es del 46 por ciento entre los desempleados, los ancianos y otros que
están ansiosos por contestar llamadas telefónicas al azar.
Un indicador de la validez de una encuesta es la tasa de respuesta: ¿Qué proporción de
encuestados que fueron elegidos para ser contactados finalmente completaron la encuesta?
Una tasa de respuesta baja puede ser una señal de advertencia de un posible sesgo de muestreo.
Cuantas más personas opten por no responder la encuesta, o que simplemente no puedan
ser contactadas, mayor será la posibilidad de que este gran grupo sea diferente de alguna
manera material de aquellos que sí respondieron las preguntas. Los encuestadores pueden
comprobar el “sesgo de falta de respuesta” analizando los datos disponibles sobre los
encuestados con quienes no pudieron contactar. ¿Viven en una zona en particular? ¿Se
niegan a responder por algún motivo en particular? ¿Es más probable que sean de un grupo
racial, étnico o de ingresos en particular? Este tipo de análisis puede determinar si una baja
tasa de respuesta afectará o no los resultados de la encuesta.
¿Se han planteado las preguntas de manera que obtengan información precisa sobre el tema
de interés? Solicitar la opinión pública requiere más matices que medir los puntajes de las
pruebas o poner a los encuestados en una balanza para determinar su peso. Los resultados
de la encuesta pueden ser extremadamente sensibles a la forma en que se formula una pregunta.
Tomemos un ejemplo aparentemente simple: ¿Qué proporción de estadounidenses apoya la
pena capital? Como sugiere el título del capítulo, una mayoría sólida y consistente de
estadounidenses aprueba la pena de muerte. Según Gallup, cada año desde 2002, más del
60 por ciento de los estadounidenses han dicho que están a favor de la pena de muerte para
una persona condenada por asesinato. El porcentaje de estadounidenses que apoyan la pena
capital ha fluctuado en un rango relativamente estrecho desde un máximo del 70 por ciento en
2003 a un mínimo del 64 por ciento en varios momentos diferentes. Los datos de las encuestas
son claros: los estadounidenses apoyan la pena de muerte por un amplio margen.
O no. El apoyo estadounidense a la pena de muerte se desploma cuando se ofrece como
alternativa la cadena perpetua sin libertad condicional. Una encuesta de Gallup de 2006
encontró que sólo el 47 por ciento de los estadounidenses consideraba que la pena de muerte
era la pena apropiada para el asesinato, en comparación con el 48 por ciento que prefería la
invitados a una 2 cadena perpetua. Eso no es sólo un dato estadístico para divertir a los
cena en prisión. fiesta; significa que ya no existe un apoyo mayoritario a la pena capital cuando
la cadena perpetua sin libertad condicional es una alternativa creíble. cuando solicitamos
La opinión pública, la formulación de la pregunta y la elección del lenguaje pueden tener una
enorme importancia.
Los políticos a menudo explotan este fenómeno utilizando encuestas y grupos focales para
probar “palabras que funcionan”. Por ejemplo, los votantes se inclinan más a apoyar la “alivio
fiscal” que los “recortes fiscales”, aunque las dos frases describen lo mismo.
De manera similar, los votantes están menos preocupados por el “cambio climático” que por el
“calentamiento global”, a pesar de que el calentamiento global es una forma de cambio climático.
Obviamente los políticos están tratando de manipular las respuestas de los votantes eligiendo
palabras no neutrales. Si se considera que los encuestadores son intermediarios honestos que
generan resultados legítimos, deben evitar un lenguaje que pueda afectar la exactitud de la
información recopilada. De manera similar, si las respuestas se van a comparar a lo largo del
tiempo (por ejemplo, cómo se sienten los consumidores acerca de la economía hoy en comparación
con cómo se sentían hace un año), entonces las preguntas que suscitan esa información a lo largo
del tiempo deben ser las mismas o muy similares.
Las organizaciones encuestadoras como Gallup suelen realizar “pruebas de muestra dividida”,
en las que se prueban variaciones de una pregunta en diferentes muestras para evaluar cómo los
pequeños cambios en la redacción afectan las respuestas de los encuestados. Para expertos
como Frank Newport de Gallup, las respuestas a cada pregunta presentan datos significativos,
pueden parecer inconsistentes. Las actitudes hacia la pena capitalincluso cuando esas respuestas
cambian dramáticamente cuando se ofrece la cadena perpetua sin libertad condicional como una
opción que nos dice algo importante. El punto clave, dice Newport, es ver cualquier resultado de
encuesta en contexto. Ninguna pregunta o encuesta por sí sola puede captar toda la profundidad
de la opinión pública sobre un tema complejo.
¿Los encuestados dicen la verdad? Las encuestas son como las citas por Internet: hay un pequeño
margen de maniobra en la veracidad de la información proporcionada. Sabemos que la gente
oculta la verdad, especialmente cuando las preguntas que se hacen son embarazosas o delicadas.
Los encuestados pueden exagerar sus ingresos o inflar el número de veces que tienen relaciones
sexuales en un mes típico. Puede que no admitan que no votan. Pueden dudar en expresar
opiniones que sean impopulares o socialmente inaceptables. Por todas estas razones, incluso la
encuesta más cuidadosamente diseñada depende de la integridad de las respuestas de los
encuestados.
Las encuestas electorales dependen crucialmente de separar a los que votarán el día de las
elecciones de los que no. (Si intentamos calibrar el probable ganador de una elección, no nos
importan las opiniones de nadie que no vaya a votar).
Las personas suelen decir que van a votar porque creen que eso es lo que los encuestadores
quieren oír. Los estudios que han comparado el comportamiento electoral autoinformado con los
registros electorales encuentran consistentemente que entre un cuarto y un tercio de los
encuestados dicen que votaron cuando en realidad 4noUna
lo hicieron.
forma de minimizar este potencial
El sesgo es preguntar si un encuestado votó en la última elección o en las últimas elecciones.

Los encuestados que han votado consistentemente en el pasado tienen más probabilidades
de votar en el futuro. De manera similar, si existe la preocupación de que los encuestados
puedan dudar en expresar una respuesta socialmente inaceptable, como una visión negativa
de un grupo racial o étnico, la pregunta puede formularse de una manera más sutil, como
preguntando “si las personas que conoces “Sostengo tal opinión.
Una de las encuestas más sensibles de todos los tiempos fue un estudio realizado por el
Centro Nacional de Investigación de Opinión (NORC) de la Universidad de Chicago llamado
"La organización social de la sexualidad: prácticas sexuales en los Estados Unidos".
rápidamente se conoció como el “Estudio del Sexo”. El 5 La descripción formal del que
estudio incluyó frases como "la organización de los comportamientos que constituyen
transacciones sexuales" y "la pareja sexual y el comportamiento a lo largo de la vida". (Ni
siquiera estoy seguro de qué es un “curso de vida”; el corrector ortográfico dice que no es una
palabra). Estoy simplificando demasiado cuando escribo que la encuesta buscaba documentar
quién hace qué y a quién y con qué frecuencia. El propósito del estudio, que fue publicado en
1995, no era simplemente iluminarnos a todos sobre el comportamiento sexual de nuestros
vecinos (aunque eso era parte del mismo), sino también evaluar cómo el comportamiento
sexual en los Estados Unidos probablemente afectaría el propagación del VIH/SIDA.
Si los estadounidenses dudan en admitir que no votan, puede imaginarse lo interesados
que están a la hora de describir su comportamiento sexual, sobre todo cuando puede implicar
actividades ilícitas, infidelidad o simplemente cosas realmente raras. La metodología del
Estudio de Sexo fue impresionante. La investigación se basó en entrevistas de noventa minutos
a 3.342 adultos elegidos como representativos de la población adulta de Estados Unidos. Casi
el 80 por ciento de los encuestados seleccionados completaron la encuesta, lo que llevó a los
autores a concluir que los hallazgos son un informe preciso del comportamiento sexual de
Estados Unidos (o al menos de lo que estábamos haciendo en 1995).
Dado que ha sufrido un capítulo sobre metodología de encuestas y ahora casi un libro
completo sobre estadísticas, tiene derecho a echar un vistazo a lo que encontraron (ninguno
de los cuales es particularmente impactante). Como señaló un crítico: "Hay mucho menos
comportamiento sexual de lo que podríamos pensar". 6
• Las personas generalmente tienen relaciones sexuales con otras personas como ellos.
El noventa por ciento de las parejas compartían la misma raza, religión, clase social y
grupo de edad general. • El encuestado típico participaba en actividades sexuales
“algunas veces al mes”, aunque había una amplia variación. El número de parejas
sexuales desde los dieciocho años osciló entre cero y más
de 1.000. • Aproximadamente el 5 por ciento de los hombres y el 4 por ciento de las
mujeres informaron alguna actividad
sexual con una pareja del mismo sexo. • El ochenta por ciento de los encuestados tenía una pareja sexu
año anterior o ninguno en

absoluto. • Los encuestados con una pareja sexual eran más felices que aquellos que
no tenían ninguna o tenían7
múltiples parejas. • Una cuarta parte de los hombres casados y el 10 por ciento de las
mujeres casadas informaron haber tenido actividad
sexual extramarital. • La mayoría de la gente lo hace a la antigua usanza: el coito vaginal
era la actividad sexual más atractiva para hombres y mujeres.
Una revisión del Sex Study hizo una crítica simple pero potente: la conclusión de que la
precisión de la encuesta representa las prácticas sexuales de los adultos en los Estados
Unidos “da por sentado que los encuestados de NORC reflejaron la población de la que fueron
extraídos y dieron sus datos”. exacto 8 Esa frase también podría ser la conclusión de todo
respuestas”.este capítulo. A primera vista, lo más sospechoso de las encuestas es que las
opiniones de tan pocos pueden decirnos sobre las opiniones de tantos. Pero esa es la parte
fácil. Uno de los principios estadísticos más básicos es que una muestra adecuada se
parecerá a la población de la que se extrae. El verdadero desafío de las encuestas es doble:
encontrar y llegar a la muestra adecuada; y obtener información de ese grupo representativo
de una manera que refleje con precisión lo que creen sus miembros.
¿Por qué el error estándar es mayor cuando

p (y 1 – p) están cerca del 50 por ciento?
Aquí está la intuición de por qué el error estándar es mayor cuando la proporción que responde
de una manera particular (p) es cercana al 50 por ciento (lo que, como cuestión matemática,
significa que 1 – p también estará cerca del 50 por ciento). Imaginemos que está realizando
dos encuestas en Dakota del Norte. La primera encuesta está diseñada para medir la
combinación de republicanos y demócratas en el estado. Supongamos que la verdadera
mezcla política en la población de Dakota del Norte está dividida equitativamente 5050, pero
que su encuesta encuentra que un 60 por ciento son republicanos y un 40 por ciento
demócratas. Sus resultados están desviados en 10 puntos porcentuales, lo cual es un margen
grande. Sin embargo, ha generado este gran error sin cometer un error inimaginablemente
grande en la recopilación de datos. Ha contado en exceso a los republicanos en relación con
su verdadera incidencia en la población en un 20 por ciento [(60 – 50)/50]. Y al hacerlo,
también ha subestimado a los demócratas en un 20 por ciento [(40 – 50)/50]. Eso podría
suceder, incluso con una metodología de encuestas decente.
Su segunda encuesta está diseñada para medir la fracción de nativos americanos en la
población de Dakota del Norte. Supongamos que la verdadera proporción de nativos
Los estadounidenses en Dakota del Norte son el 10 por ciento, mientras que los no nativos americanos
constituyen el 90 por ciento de la población del estado. Ahora analicemos qué tan mala debería ser la
recopilación de datos para producir una encuesta con un error de muestreo de 10 puntos porcentuales. Esto
podría suceder de dos maneras. Primero, podría encontrar que el 0 por ciento de la población es nativo
americano y el 100 por ciento no es nativo americano. O podría encontrar que el 20 por ciento de la población
es nativo americano y el 80 por ciento no es nativo americano. En un caso se ha pasado por alto a todos los
nativos americanos; y en el otro, se ha encontrado el doble de su incidencia real en la población. Estos son
errores de muestreo realmente graves. En ambos casos, su estimación está equivocada en un 100 por
ciento: ya sea [(0 – 10)/10] o [(20 – 10)/10].
Y si se pasara por alto sólo el 20 por ciento de los nativos americanos (el mismo grado de error que se tuvo
en la encuesta entre republicanos y demócratas), los resultados arrojarían un 8 por ciento de nativos
americanos y un 92 por ciento de no nativos americanos, lo que representa sólo 2 puntos porcentuales de
los nativos americanos. la verdadera división de la población.
Cuando p y 1 – p están cerca del 50 por ciento, los errores de muestreo relativamente pequeños se
magnifican hasta convertirse en grandes errores absolutos en el resultado de la encuesta.
Cuando p o 1 – p están más cerca de cero, ocurre lo contrario. Incluso relativamente
grandes errores de muestreo producen pequeños errores absolutos en el resultado de la encuesta.
El mismo error de muestreo del 20 por ciento distorsionó el resultado de la encuesta entre demócratas y
republicanos en 10 puntos porcentuales, mientras que distorsionó la encuesta de nativos americanos en sólo
2 puntos porcentuales. Dado que el error estándar en una encuesta se mide en términos absolutos (por
ejemplo, ± 5 por ciento), la fórmula reconoce que es probable que este error sea mayor cuando p y 1 – p
están cerca del 50 por ciento.
* Según su sitio web, “Occupy Wall Street es un movimiento impulsado por las personas que comenzó el 17 de
septiembre de 2011 en Liberty Square en el distrito financiero de Manhattan y se ha extendido a más de 100 ciudades
en los Estados Unidos y acciones en más de 1,500 ciudades en todo el mundo. . Occupy Wall Street está luchando
contra el poder corrosivo de los grandes bancos y las corporaciones multinacionales sobre el proceso democrático, y el
papel de Wall Street en la creación de un colapso económico que ha causado la mayor recesión en generaciones. El
movimiento está inspirado en los levantamientos populares en Egipto y Túnez, y tiene como objetivo exponer cómo el
1% más rico de la gente está escribiendo las reglas de una economía global injusta que está cerrando nuestro futuro”.
* Esperamos que el verdadero recuento de votos del candidato republicano esté fuera del intervalo de confianza de la
encuesta aproximadamente el 5 por ciento de las veces. En esos casos, su verdadero recuento de votos sería inferior
al 50 por ciento o superior al 54 por ciento. Sin embargo, si obtiene más del 54 por ciento de los votos, su estación no
ha cometido un error al declararlo ganador. (Solo ha subestimado el margen de su victoria.) Como resultado, la
probabilidad de que su encuesta le lleve a declarar erróneamente ganador al candidato republicano es sólo del 2,5 por ciento.
* La fórmula para calcular el error estándar de una encuesta que he presentado aquí supone que la encuesta se realiza
sobre una muestra aleatoria de la población. Las organizaciones encuestadoras sofisticadas pueden desviarse de este
método de muestreo, en cuyo caso la fórmula para calcular el error estándar también cambiará ligeramente. Sin
embargo, la metodología básica sigue siendo la misma.
CAPÍTULO 11
Análisis de regresión
El elixir milagroso
¿Puede el estrés en el trabajo matarte? Sí. Hay pruebas convincentes de que los rigores en el
trabajo pueden provocar una muerte prematura, especialmente por enfermedades cardíacas. Pero
no es el tipo de estrés que probablemente esté imaginando. Los directores ejecutivos, que
rutinariamente deben tomar decisiones de enorme importancia que determinan el destino de sus
empresas, corren un riesgo significativamente menor que sus secretarias, quienes diligentemente
contestan el teléfono y realizan otras tareas según las instrucciones. ¿Cómo puede eso tener
sentido? Resulta que el tipo más peligroso de estrés laboral surge de tener “bajo control” sobre las
propias responsabilidades. Varios estudios de miles de funcionarios británicos (los estudios de
Whitehall) han descubierto que los trabajadores que tienen poco control sobre sus puestos de
trabajo (lo que significa que tienen una voz mínima sobre qué tareas se realizan o cómo se llevan
a cabo) tienen una tasa de mortalidad significativamente más alta que otros trabajadores de la
administración pública con mayor autoridad para tomar decisiones. Según esta investigación, no
es el estrés asociado con las responsabilidades importantes lo que te matará; es el estrés asociado
con que te digan qué hacer y tener poco que decir sobre cómo o cuándo hacerlo.
Este no es un capítulo sobre estrés laboral, enfermedades cardíacas o funcionarios británicos.

La pregunta relevante con respecto a los estudios de Whitehall (y otros similares) es cómo los
investigadores pueden llegar a tal conclusión. Es evidente que éste no puede ser un experimento
aleatorio. No podemos asignar arbitrariamente a seres humanos a diferentes trabajos, obligarlos a
trabajar en esos trabajos durante muchos años y luego medir quiénes mueren en mayor proporción.
(Dejando de lado las preocupaciones éticas, presumiblemente causaríamos estragos en la
administración pública británica si distribuyéramos los puestos al azar). En lugar de ello, los
investigadores han recopilado datos longitudinales detallados sobre miles de personas en la
administración pública británica; Estos datos se pueden analizar para identificar asociaciones
significativas, como la conexión entre trabajos de "bajo control" y enfermedades coronarias.
Una simple asociación no es suficiente para concluir que ciertos tipos de trabajos son malos
para la salud. Si simplemente observamos que los trabajadores de bajo rango en la jerarquía de la
administración pública británica tienen tasas más altas de enfermedades cardíacas, nuestros
resultados se verían confusos por otros factores. Por ejemplo, esperaríamos que los trabajadores
de bajo nivel tuvieran menos educación que los altos funcionarios de la burocracia. Pueden ser
más probabilidades de fumar (quizás debido a su frustración laboral). Es posible que hayan
tenido una infancia menos saludable, lo que disminuyó sus perspectivas laborales. O su salario
más bajo puede limitar su acceso a la atención médica. Etcétera. La cuestión es que cualquier
estudio que simplemente compare los resultados de salud de un grupo grande de trabajadores
británicos (o de cualquier otro grupo grande) en realidad no nos dirá mucho. Es probable que
otras fuentes de variación en los datos oscurezcan la relación que nos importa. ¿El “bajo control
laboral” realmente está causando enfermedades cardíacas? ¿O es alguna combinación de
otros factores que comparten personas con bajo control laboral, en cuyo caso es posible que
estemos pasando por alto por completo la verdadera amenaza para la salud pública?
El análisis de regresión es la herramienta estadística que nos ayuda a afrontar este desafío.
Específicamente, el análisis de regresión nos permite cuantificar la relación entre una variable
particular y un resultado que nos interesa mientras controlamos otros factores. En otras
palabras, podemos aislar el efecto de una variable, como tener cierto tipo de trabajo, mientras
mantenemos constantes los efectos de otras variables. Los estudios de Whitehall utilizaron
análisis de regresión para medir los impactos en la salud del bajo control laboral entre personas
que son similares en otros aspectos, como el comportamiento de fumar. (De hecho, los
trabajadores de bajo nivel fuman más que sus superiores; esto explica una cantidad
relativamente pequeña de la variación en las enfermedades cardíacas en la jerarquía de
Whitehall).
La mayoría de los estudios sobre los que lee en el periódico se basan en análisis de
regresión. Cuando los investigadores concluyen que los niños que pasan mucho tiempo en la
guardería son más propensos a tener problemas de conducta en la escuela primaria que los
niños que pasan ese tiempo en casa, el estudio no asignó aleatoriamente a miles de bebés a
la guardería o al cuidado en el hogar con un padre. El estudio tampoco se ha limitado a
comparar el comportamiento en la escuela primaria de niños que tuvieron diferentes experiencias
en la primera infancia sin reconocer que es probable que estas poblaciones sean diferentes en
otros aspectos fundamentales. Diferentes familias toman decisiones diferentes sobre el cuidado
infantil porque son diferentes. En algunos hogares hay dos padres presentes; algunos no lo
hacen. Algunos tienen dos padres que trabajan; algunos no lo hacen.
Algunos hogares son más ricos o tienen más educación que otros. Todas estas cosas afectan
las decisiones sobre el cuidado infantil y afectan el desempeño de los niños de esas familias
en la escuela primaria. Cuando se hace correctamente, el análisis de regresión puede ayudarnos
a estimar los efectos de las guarderías aparte de otras cosas que afectan a los niños pequeños:
ingresos familiares, estructura familiar, educación de los padres, etc.
Ahora bien, hay dos frases clave en esa última frase. La primera es "cuando se hace
correctamente". Con datos adecuados y acceso a una computadora personal, un niño de seis
años podría usar un programa de estadística básico para generar resultados de regresión. La
informática personal ha hecho que la mecánica del análisis de regresión sea casi sencilla. El
problema es que la mecánica del análisis de regresión no es la parte difícil; el
Lo difícil es determinar qué variables deben considerarse en el análisis y cómo hacerlo mejor. El
análisis de regresión es como una de esas sofisticadas herramientas poderosas. Es relativamente
fácil de usar, pero difícil de usar bien y potencialmente peligroso si se usa incorrectamente.
La segunda frase importante anterior es "ayúdanos a estimar". Nuestro estudio sobre el cuidado
infantil no nos da una respuesta “correcta” sobre la relación entre el cuidado diurno y el desempeño
escolar posterior. En cambio, cuantifica la relación observada para un grupo particular de niños
durante un período de tiempo particular. ¿Podemos sacar conclusiones que podrían aplicarse a la
población en general? Sí, pero tendremos las mismas limitaciones y salvedades que con cualquier
otro tipo de inferencia. Primero, nuestra muestra tiene que ser representativa de la población que
nos importa. Un estudio de 2.000 niños pequeños en Suecia no nos dirá mucho sobre las mejores
políticas para la educación infantil en las zonas rurales de México. Y en segundo lugar, habrá
variaciones de una muestra a otra. Si realizamos múltiples estudios sobre los niños y el cuidado
infantil, cada estudio producirá hallazgos ligeramente diferentes, incluso si las metodologías son
todas sólidas y similares.
El análisis de regresión es similar a las encuestas. La buena noticia es que si tenemos una
muestra representativa grande y una metodología sólida, no es probable que la relación que
observamos para los datos de nuestra muestra se desvíe mucho de la relación verdadera para
toda la población. Si 10.000 personas que hacen ejercicio tres o más veces por semana tienen
tasas mucho más bajas de enfermedad cardiovascular que 10.000 personas que no hacen ejercicio
(pero son similares en todos los demás aspectos importantes), entonces hay muchas posibilidades
de que veamos una asociación similar. entre el ejercicio y la salud cardiovascular para la población
en general. Por eso hacemos estos estudios.
(El punto no es decirles a aquellos que no hacen ejercicio y que están enfermos al final del estudio
que deberían haber hecho ejercicio).
La mala noticia es que no estamos demostrando de manera definitiva que el ejercicio prevenga
las enfermedades cardíacas. En cambio, estamos rechazando la hipótesis nula de que el ejercicio
no tiene asociación con la enfermedad cardíaca, sobre la base de algún umbral estadístico que se
eligió antes de realizar el estudio. Específicamente, los autores del estudio informarían que si el
ejercicio no está relacionado con la salud cardiovascular, la probabilidad de observar una diferencia
tan marcada en enfermedades cardíacas entre los deportistas y los no deportistas en esta gran
muestra sería inferior a 5 entre 100, o por debajo de algún otro umbral de significación estadística.
Hagamos una pausa por un momento y ondeemos nuestra primera bandera amarilla gigante.
Supongamos que este estudio en particular comparó un grupo grande de individuos que juegan
squash regularmente con aquellos de un grupo de igual tamaño que no hacen ningún ejercicio.
Jugar al squash proporciona un buen ejercicio cardiovascular. Sin embargo, también sabemos que
los jugadores de squash tienden a ser lo suficientemente ricos como para pertenecer a clubes de squash.
tribunales. Las personas ricas pueden tener un gran acceso a la atención médica, que
también puede mejorar la salud cardiovascular. Si nuestro análisis es descuidado, podemos
atribuir beneficios para la salud a jugar squash cuando en realidad el beneficio real proviene
de ser lo suficientemente rico como para jugar squash (en cuyo caso jugar polo también
estaría asociado con una mejor salud cardíaca, incluso aunque el caballo esté haciendo más
ejercicio). del trabajo).
O tal vez la causalidad va en la otra dirección. ¿Tener un corazón sano podría “provocar”
ejercicio? Sí. A las personas enfermas, especialmente aquellas que padecen alguna forma
incipiente de enfermedad cardíaca, les resultará mucho más difícil hacer ejercicio.
Seguramente será menos probable que jueguen al squash con regularidad. Nuevamente, si
el análisis es descuidado o demasiado simplificado, la afirmación de que el ejercicio es bueno
para la salud puede simplemente reflejar el hecho de que a las personas que comienzan con
mala salud les resulta difícil hacer ejercicio. En este caso, jugar al squash no hace que nadie
esté más sano; simplemente separa lo sano de lo no saludable.
Hay tantos peligros potenciales en la regresión que he dedicado el siguiente capítulo a los
errores más atroces. Por ahora, nos centraremos en lo que puede salir bien.
El análisis de regresión tiene la asombrosa capacidad de aislar una relación estadística que
nos interesa, como la que existe entre el control del trabajo y las enfermedades cardíacas, y
al mismo tiempo tiene en cuenta otros factores que podrían confundir la relación.
¿Cómo funciona esto exactamente? Si sabemos que los funcionarios británicos de bajo
nivel fuman más que sus superiores, ¿cómo podemos discernir qué parte de su mala salud
cardiovascular se debe a sus trabajos de bajo nivel y qué parte se debe al tabaquismo? Estos
dos factores parecen inextricablemente entrelazados.
El análisis de regresión (¡realizado correctamente!) puede desenredarlos. Para explicar la
intuición, necesito comenzar con la idea básica que subyace a todas las formas de análisis de
regresión, desde las relaciones estadísticas más simples hasta los modelos complejos
improvisados por los ganadores del Premio Nobel. En esencia, el análisis de regresión busca
encontrar el “mejor ajuste” para una relación lineal entre dos variables. Un ejemplo sencillo es
la relación entre altura y peso. Las personas más altas tienden a pesar más, aunque
obviamente no siempre es así. Si tuviéramos que trazar las alturas y los pesos de un grupo
de estudiantes de posgrado, quizás recuerdes cómo se veían en el Capítulo 4:
Diagrama de dispersión para altura y peso

Si le pidieran que describiera el patrón, podría decir algo como “El peso parece aumentar con la
altura”. Esta no es una declaración terriblemente reveladora o específica. El análisis de regresión nos
permite ir un paso más allá y “ajustar una línea” que describa mejor una relación lineal entre las dos
variables.
Muchas líneas posibles coinciden en términos generales con los datos de altura y peso.
Pero ¿cómo sabemos cuál es la mejor línea para estos datos? De hecho, ¿cómo definiríamos
exactamente “mejor”? El análisis de regresión suele utilizar una metodología llamada mínimos cuadrados
ordinarios u OLS. Los detalles técnicos, incluyendo por qué OLS produce el mejor ajuste, deberán
dejarse para un libro más avanzado. El punto clave reside en la parte de “mínimos cuadrados” del
nombre; MCO se ajusta a la línea que minimiza la suma de los residuos al cuadrado. Eso no es tan
complicado como parece.
Cada observación en nuestro conjunto de datos de altura y peso tiene un residual, que es su distancia
vertical desde la línea de regresión, excepto aquellas observaciones que se encuentran directamente
sobre la línea, para las cuales el residual es igual a cero. (En el siguiente diagrama, el residuo está
marcado para una persona hipotética A.) Debería ser intuitivo que cuanto mayor sea la suma de los
residuos en general, peor será el ajuste de la línea. El único giro no intuitivo de MCO es que la fórmula
toma el cuadrado de cada residuo antes de sumarlos todos (lo que aumenta el peso otorgado a las
observaciones que se encuentran particularmente lejos de la línea de regresión, o los “valores atípicos”).
Los mínimos cuadrados ordinarios "se ajustan" a la línea que minimiza la suma de los residuos al
cuadrado, como se ilustra a continuación.
Línea de mejor ajuste para altura y peso

Si los detalles técnicos le han causado dolor de cabeza, se le puede perdonar que se
limite a comprender la conclusión: los mínimos cuadrados ordinarios nos dan la mejor
descripción de una relación lineal entre dos variables. El resultado no es sólo una línea
sino, como recordarás de la geometría de la escuela secundaria, una ecuación que
describe esa línea. Esto se conoce como ecuación de regresión y toma la siguiente forma:
y = a + bx, donde y es el peso en libras; a es la intersección y de la línea (el valor de y
cuando x = 0); b es la pendiente de la recta; y x es la altura en pulgadas. La pendiente de
la línea que hemos ajustado, b, describe la "mejor" relación lineal entre altura y peso para
esta muestra, definida por mínimos cuadrados ordinarios.
La línea de regresión ciertamente no describe perfectamente todas las observaciones
del conjunto de datos. Pero es la mejor descripción que podemos encontrar de lo que
claramente es una relación significativa entre altura y peso. También significa que cada
observación puede explicarse como PESO = a + b(ALTURA) + e, donde e es un “residual”
que capta la variación en el peso de cada individuo que no se explica por la altura.
Finalmente, significa que nuestra mejor estimación para el peso de cualquier persona en
el conjunto de datos sería a + b(ALTURA). Aunque la mayoría de las observaciones no se
encuentran exactamente en la línea de regresión, el residual todavía tiene un valor
esperado de cero, ya que cualquier persona en nuestra muestra tiene la misma probabilidad
de pesar más de lo que predice la ecuación de regresión que de pesar menos.
¡Basta de jerga teórica! Veamos algunos datos reales de altura y peso del estudio
Cambiando Vidas, aunque primero debo aclarar cierta terminología básica. La variable
que se explica (el peso en este caso) se conoce como variable dependiente (porque
depende de otros factores). Las variables que utilizamos para explicar nuestra variable
dependiente se conocen como variables explicativas ya que explican el resultado que nos
importa. (Para hacer las cosas más difíciles, las variables explicativas a veces también se
denominan variables independientes o variables de control). Comencemos usando la
altura para explicar
peso entre los participantes de Cambiando Vidas; Más adelante agregaremos otros potenciales.
factores explicativos. * Hay 3.537 adultos participantes en el estudio Cambiando Vidas. Este es
nuestro número de observaciones, o n. (A veces, un trabajo de investigación puede señalar que n =
3537). Cuando ejecutamos una regresión simple en los datos de Changing Lives con el peso como
variable dependiente y la altura como única variable explicativa, obtenemos los siguientes resultados:
PESO = –135 + (4,5) × ALTURA EN PULGADAS
a = –135. Esta es la intersección con el eje y, que por sí sola no tiene ningún significado particular.
(Si lo interpretas literalmente, una persona que mide cero pulgadas pesaría menos 135 libras;
obviamente esto es una tontería en varios niveles). Esta cifra también se conoce como constante,
porque es el punto de partida para calcular el peso de todas las observaciones. en el estudio.
b = 4,5. Nuestra estimación de b, 4,5, se conoce como coeficiente de regresión o, en la jerga

estadística, “coeficiente de altura”, porque nos da la mejor estimación de la relación entre altura y
peso entre los participantes de Cambiando Vidas. El coeficiente de regresión tiene una interpretación
conveniente: un aumento de una unidad en la variable independiente (altura) se asocia con un
aumento de 4,5 unidades en la variable dependiente (peso). Para nuestra muestra de datos, esto
significa que un aumento de 1 pulgada en altura se asocia con un aumento de peso de 4,5 libras.
Por lo tanto, si no tuviéramos otra información, nuestra mejor estimación para el peso de una persona
que mide 5 pies y 10 pulgadas (70 pulgadas) en el estudio Cambiando Vidas sería – 135 + 4,5 (70) =
180 libras.
Esta es nuestra recompensa, ya que ahora hemos cuantificado el mejor ajuste para la relación
lineal entre altura y peso para los participantes de Changing Lives. Las mismas herramientas básicas
pueden utilizarse para explorar relaciones más complejas y cuestiones socialmente más significativas.
Para cualquier coeficiente de regresión, generalmente le interesarán tres cosas: signo, tamaño y
significancia.
Firmar. El signo (positivo o negativo) del coeficiente de una variable independiente nos indica la
dirección de su asociación con la variable dependiente (el resultado que intentamos explicar). En el
caso simple anterior, el coeficiente de altura es positivo. Las personas más altas tienden a pesar más.
Algunas relaciones funcionarán en la otra dirección. Yo esperaría que la asociación entre el ejercicio
y el peso fuera negativa. Si el estudio Changing Lives incluyera datos sobre algo así como “millas
recorridas por mes”, estoy bastante seguro de que el coeficiente de “millas recorridas” sería negativo.
Correr más se asocia con pesar menos.
Tamaño. ¿Qué tan grande es el efecto observado entre la variable independiente y la variable
dependiente? ¿Es de una magnitud que importa? En este caso, cada pulgada de altura se asocia con
4,5 libras, que es un porcentaje considerable de una
peso corporal típico de una persona. Para explicar por qué algunas personas pesan más que
otras, la altura es claramente un factor importante. En otros estudios, podemos encontrar una
variable explicativa que tiene un impacto estadísticamente significativo en nuestro resultado de
interés (lo que significa que el efecto observado probablemente no sea producto del azar), pero
ese efecto puede ser tan pequeño que resulte trivial o socialmente. insignificante.
Por ejemplo, supongamos que estamos examinando los determinantes del ingreso. ¿Por qué
algunas personas ganan más dinero que otras? Es probable que las variables explicativas sean
aspectos como la educación, los años de experiencia laboral, etc. En un gran conjunto de
datos, los investigadores también podrían encontrar que las personas con dientes más blancos
ganan 86 dólares más al año que otros trabajadores, ceteris paribus. (“Ceteris paribus” proviene
del latín y significa “en igualdad de condiciones”). El coeficiente positivo y estadísticamente
significativo de la variable “dientes blancos” supone que los individuos comparados son
similares en otros aspectos: misma educación, misma experiencia laboral, etcétera. (Explicaré
en un momento cómo logramos esta tentadora hazaña). Nuestro análisis estadístico ha
demostrado que los dientes más blancos están asociados con $86 en ingresos anuales
adicionales por año y que este hallazgo no es probable que sea una mera coincidencia. Esto
significa (1) que hemos rechazado la hipótesis nula de que los dientes realmente blancos no
tienen asociación con los ingresos con un alto grado de confianza; y (2) si analizamos otras
muestras de datos, es probable que encontremos una relación similar entre dientes bonitos y
mayores ingresos.
¿Así que lo que? Hemos encontrado un resultado estadísticamente significativo, pero no
uno que sea particularmente significativo. Para empezar, 86 dólares al año no es una suma de
dinero que cambie la vida. Desde el punto de vista de las políticas públicas, 86 dólares
probablemente también sea menos de lo que costaría blanquear los dientes de una persona
cada año, por lo que ni siquiera podemos recomendar que los trabajadores jóvenes hagan tal
inversión. Y, aunque me queda un capítulo por delante, también me preocuparían algunos
problemas metodológicos graves. Por ejemplo, tener una dentadura perfecta puede estar
asociado con otros rasgos de personalidad que explican la ventaja salarial; El efecto ingresos
puede ser causado por el tipo de personas que se preocupan por sus dientes, no por los
dientes en sí. Por ahora, la cuestión es que debemos tomar nota del tamaño de la asociación
que observamos entre la variable explicativa y nuestro resultado de interés.
Significado. ¿Es el resultado observado una aberración basada en una muestra peculiar de
datos, o refleja una asociación significativa que probablemente se observe en la población en
su conjunto? Ésta es la misma pregunta básica que nos hemos estado haciendo en los últimos
capítulos. En el contexto de la altura y el peso, ¿creemos que observaríamos una asociación
positiva similar en otras muestras representativas de la población? Para responder a esta
pregunta, utilizamos las herramientas básicas de inferencia que ya se han introducido. Nuestro
coeficiente de regresión
se basa en una relación observada entre la altura y el peso para una muestra particular de
datos. Si tuviéramos que probar otra muestra grande de datos, es casi seguro que obtendríamos
una asociación ligeramente diferente entre altura y peso y, por lo tanto, un coeficiente diferente.
Es probable que la relación entre altura y peso observada en los datos de Whitehall (los
funcionarios británicos) sea diferente de la relación observada entre altura y peso para los
participantes en el estudio Changing Lives. Sin embargo, sabemos por el teorema del límite
central que la media de una muestra grande y correctamente extraída normalmente no se
desviará mucho de la media de la población en su conjunto. De manera similar, podemos
suponer que la relación observada entre variables como la altura y el peso normalmente no
variará de forma desenfrenada de una muestra a otra, suponiendo que estas muestras sean
grandes y se hayan extraído adecuadamente de la misma población.
Piense en la intuición: es muy poco probable (aunque aún posible) que encontremos que
cada centímetro de altura esté asociado con 4,5 libras adicionales entre los participantes de
Changing Lives, pero que no haya asociación entre la altura y el peso en una muestra
representativa diferente de 3.000 americanos adultos.
Esto debería darle una primera idea de cómo probaremos si los resultados de nuestra
regresión son estadísticamente significativos o no. Al igual que con las encuestas y otras formas
de inferencia, podemos calcular un error estándar para el coeficiente de regresión. El error
estándar es una medida de la dispersión probable que observaríamos en el coeficiente si
realizáramos el análisis de regresión en muestras repetidas extraídas de la misma población.
Si midiéramos y pesaramos una muestra diferente de 3.000 estadounidenses, podríamos
encontrar en el análisis posterior que cada pulgada de altura está asociada con 4,3 libras. Si lo
volviéramos a hacer con otra muestra de 3.000 estadounidenses, podríamos encontrar que
cada pulgada está asociada con 5,2 libras. Una vez más, la distribución normal es nuestra
amiga. Para muestras grandes de datos, como nuestro conjunto de datos Changing Lives,
podemos suponer que nuestros diversos coeficientes se distribuirán normalmente en torno a la
asociación "verdadera" entre altura y peso en la población adulta estadounidense. Partiendo de
ese supuesto, podemos calcular un error estándar para el coeficiente de regresión que nos da
una idea de cuánta dispersión deberíamos esperar en los coeficientes de una muestra a otra.
No profundizaré aquí en la fórmula para calcular el error estándar, porque nos llevará en una
dirección que implica mucha matemática y porque todos los paquetes estadísticos básicos lo
calcularán por usted.
Sin embargo, debo advertir que cuando trabajamos con una muestra pequeña de datos
(como un grupo de 20 adultos en lugar de las más de 3.000 personas del estudio Cambiando
Vidas) la distribución normal ya no está dispuesta a ser nuestra amiga.
Específicamente, si realizamos repetidamente análisis de regresión en diferentes muestras
pequeñas, ya no podemos asumir que nuestros diversos coeficientes serán
distribuido normalmente en torno a la asociación "verdadera" entre altura y peso en la

población adulta estadounidense. En cambio, nuestros coeficientes seguirán distribuyéndose
en torno a la asociación “verdadera” entre altura y peso para la población adulta
estadounidense en lo que se conoce como distribución t. (Básicamente, la distribución t está
más dispersa que la distribución normal y, por lo tanto, tiene “colas más gruesas”).
Nada más cambia; cualquier paquete de software estadístico básico gestionará fácilmente la
complejidad adicional asociada con el uso de las distribuciones t. Por esta razón, la
distribución t se explicará con mayor detalle en el apéndice del capítulo.
Siguiendo con muestras grandes por ahora (y la distribución normal), lo más importante
que hay que entender es por qué es importante el error estándar. Al igual que con las
encuestas y otras formas de inferencia, esperamos que más de la mitad de nuestros
coeficientes de regresión observados se encuentren dentro de un error estándar de la
* población
estándar. Etcétera. parámetro.
real. Aproximadamente el 95 por ciento estará dentro de dos errores
Con eso, ya casi estamos en casa, porque ahora podemos hacer una pequeña prueba de
hipótesis. (En serio, ¿pensabas que ya habías terminado con la prueba de hipótesis?) Una
vez que tenemos un coeficiente y un error estándar, podemos probar la hipótesis nula de
que, de hecho, no existe relación entre la variable explicativa y la variable dependiente (lo
que significa que la la verdadera asociación entre las dos variables en la población es cero).
En nuestro ejemplo simple de altura y peso, podemos probar qué tan probable es que
encontremos en nuestra muestra de Cambiando Vidas que cada centímetro de altura está
asociado con 4,5 libras si realmente no existe ninguna asociación entre la altura y el peso en
la población general. Ejecuté la regresión usando un programa de estadística básico; el error
estándar en el coeficiente de altura es 0,13. Esto significa que si tuviéramos que hacer este
análisis repetidamente (digamos con 100 muestras diferentes), entonces esperaríamos que
nuestro coeficiente de regresión observado estuviera dentro de dos errores estándar del
verdadero parámetro poblacional aproximadamente 95 de cada 100 veces.
Por lo tanto, podemos expresar nuestros resultados de dos maneras diferentes pero
relacionadas. Primero, podemos construir un intervalo de confianza del 95 por ciento.
Podemos decir que 95 de cada 100 veces esperamos que nuestro intervalo de confianza,
que es 4,5 ± 0,26, contenga el verdadero parámetro poblacional. Este es el rango entre 4,24
y 4,76. Un paquete de estadísticas básico también calculará este intervalo. En segundo lugar,
podemos ver que nuestro intervalo de confianza del 95 por ciento para la verdadera
asociación entre altura y peso no incluye el cero. Por lo tanto, podemos rechazar la hipótesis
nula de que no existe asociación entre la altura y el peso para la población general con un
nivel de confianza del 95 por ciento. Este resultado también puede expresarse como
estadísticamente significativo al nivel de 0,05; sólo hay un 5 por ciento de posibilidades de
que estemos rechazando erróneamente la hipótesis nula.
De hecho, nuestros resultados son incluso más extremos que eso. El error estándar (0,13)
es extremadamente bajo en relación con el tamaño del coeficiente (4,5). Una regla general
aproximada es que es probable que el coeficiente sea estadísticamente significativo cuando es
*
al menos el doble del tamaño del error estándar. Un paquete de
estadísticas también calcula un valor p, que es 0,000 en este caso, lo que significa que
esencialmente hay cero posibilidades de obtener un resultado tan extremo como el que hemos
observado (o más) si no existe una verdadera asociación entre la altura y la altura. y peso en la
población general. Recuerde, no hemos demostrado que las personas más altas pesen más en
la población general; simplemente hemos demostrado que nuestros resultados para la muestra
Cambiando Vidas serían altamente anómalos si ese no fuera el caso.
2
Nuestro análisis de regresión básico produce otra estadística notable: la R es una , cual
medida de la cantidad total de variación explicada por la ecuación de regresión. Sabemos que
tenemos una amplia variación en el peso de nuestra muestra Cambiando Vidas. Muchas de las
personas de la muestra pesan más que la media del grupo en general; muchos pesan menos.
2
La R nos dice qué parte de esa variación alrededor de la media está asociada únicamente con
diferencias de altura. La respuesta en nuestro caso es 0,25, o 25 por ciento. El punto más
significativo puede ser que el 75 por ciento de la variación de peso de nuestra muestra sigue
sin explicación. Claramente, existen otros factores además de la altura que podrían ayudarnos
a comprender el peso de los participantes de Changing Lives. Aquí es donde las cosas se
ponen más interesantes.
Admito que comencé este capítulo vendiendo el análisis de regresión como el elixir milagroso
de la investigación en ciencias sociales. Hasta ahora, todo lo que he hecho es utilizar un
paquete de estadísticas y un impresionante conjunto de datos para demostrar que las personas
altas tienden a pesar más que las bajas. Una visita corta a un centro comercial probablemente
le habría convencido de lo mismo. Ahora que comprende los conceptos básicos, podemos
liberar el verdadero poder del análisis de regresión. ¡Es hora de quitarse las ruedas de apoyo!
Como prometí, el análisis de regresión nos permite desentrañar relaciones complejas en las
que múltiples factores afectan algún resultado que nos importa, como los ingresos, las
puntuaciones de los exámenes o las enfermedades cardíacas. Cuando incluimos múltiples
variables en la ecuación de regresión, el análisis nos da una estimación de la asociación lineal
entre cada variable explicativa y la variable dependiente mientras se mantienen constantes
otras variables dependientes, o se “controlan” estos otros factores. Sigamos con el peso por un
tiempo. Hemos encontrado una asociación entre la altura y el peso; Sabemos que hay otros
factores que pueden ayudar a explicar el peso (edad, sexo, dieta, ejercicio, etc.). El análisis de
regresión (a menudo llamado análisis de regresión múltiple cuando interviene más de una
variable explicativa, o análisis de regresión multivariada) nos dará un coeficiente para cada
variable explicativa incluida en la ecuación de regresión. En otras palabras, entre

personas del mismo sexo y altura, ¿cuál es la relación entre la edad y el peso? Una vez
que tenemos más de una variable explicativa, ya no podemos representar estos datos
en dos dimensiones. (Intente imaginar una gráfica que represente el peso, el sexo, la
altura y la edad de cada participante en el estudio Cambiando Vidas).
Sin embargo, la metodología básica es la misma que en nuestro ejemplo simple de
altura y peso. A medida que agregamos variables explicativas, un paquete estadístico
calculará los coeficientes de regresión que minimizan la suma total de los residuos al
cuadrado de la ecuación de regresión.
Trabajemos con los datos de Cambiando Vidas por ahora; luego regresaré y daré
una explicación intuitiva de cómo podría funcionar esta división estadística del Mar Rojo.
Podemos comenzar agregando una variable más a la ecuación que explica los pesos
de los participantes de Changing Lives: la edad. Cuando ejecutamos la regresión
incluyendo la altura y la edad como variables explicativas del peso, esto es lo que
obtenemos.
PESO = –145 + 4,6 × (ALTURA EN PULGADAS) + 0,1 × (EDAD EN AÑOS)
El coeficiente de edad es 0,1. Esto puede interpretarse en el sentido de que cada año
adicional de edad se asocia con 0,1 libras adicionales de peso, manteniendo la altura
constante. Para cualquier grupo de personas de la misma altura, en promedio aquellos
que son diez años mayores pesarán una libra más. Este no es un efecto enorme, pero
es consistente con lo que tendemos a ver en la vida. El coeficiente es significativo al
nivel de 0,05.
Quizás hayas notado que el coeficiente de altura ha aumentado ligeramente.
Una vez que la edad está en nuestra regresión, tenemos una comprensión más refinada
de la relación entre altura y peso. Entre las personas que tienen la misma edad en
nuestra muestra, o que “mantienen la edad constante”, cada pulgada adicional de altura
se asocia con 4,6 libras de peso.
Agreguemos una variable más: el sexo. Esto será ligeramente diferente porque el
sexo sólo puede aceptar dos posibilidades, masculino o femenino. ¿Cómo se pone M o
F en una regresión? La respuesta es que utilizamos lo que se llama una variable binaria
o variable ficticia. En nuestro conjunto de datos, ingresamos un 1 para los participantes
que son mujeres y un 0 para los que son hombres. (Esto no pretende ser un juicio de
valor.) El coeficiente de sexo puede entonces interpretarse como el efecto sobre el peso
de ser mujer, ceteris paribus. El coeficiente es –4,8, lo que no sorprende. Podemos
interpretar que eso significa que para personas de la misma altura y edad, las mujeres
suelen pesar 4,8 libras menos que los hombres. Ahora podemos empezar a ver algo del
poder del análisis de regresión múltiple. Sabemos que las mujeres tienden a ser más
bajas que los hombres, pero nuestro coeficiente tiene esto en cuenta ya que tenemos
ya controlado por altura. Lo que hemos aislado aquí es el efecto de ser mujer. La nueva regresión
se convierte en:
PESO = –118 + 4,3 × (ALTURA EN PULGADAS) + 0,12 (EDAD EN AÑOS) – 4,8 (SI EL SEXO
ES FEMENINO)
Nuestra mejor estimación del peso de una mujer de cincuenta y tres años que mide 5 pies
5 pulgadas es: –118 + 4,3 (65) + 0,12 (53) – 4,8 = 163 libras.
Y nuestra mejor suposición para un hombre de treinta y cinco años que mide 6 pies y 3
pulgadas es: 118 + 4,3 (75) + 0,12 (35) = 209 libras. Saltamos el último término de nuestro
resultado de regresión (–4,8) ya que esta persona no es mujer.
Ahora podemos empezar a probar cosas que son más interesantes y menos predecibles.
¿Qué pasa con la educación? ¿Cómo podría eso afectar el peso? Yo plantearía la hipótesis de
que las personas mejor educadas son más conscientes de su salud y, por lo tanto, pesarán
menos, ceteris paribus. Tampoco hemos probado ninguna medida de ejercicio; Supongo que,
manteniendo constantes los demás factores, las personas de la muestra que hacen más ejercicio
pesarán menos.
¿Qué pasa con la pobreza? ¿Ser de bajos ingresos en Estados Unidos tiene efectos que se
manifiestan en el peso? El estudio Changing Lives pregunta si los participantes reciben cupones
de alimentos, que es una buena medida de la pobreza en Estados Unidos. Finalmente, estoy
interesado en la raza. Sabemos que las personas de color tienen diferentes experiencias de vida
en los Estados Unidos debido a su raza. Hay factores culturales y residenciales asociados con
la raza en Estados Unidos que tienen implicaciones para el peso. Muchas ciudades todavía se
caracterizan por un alto grado de segregación racial; Los afroamericanos podrían tener más
probabilidades que otros residentes de vivir en “desiertos alimentarios”, que son áreas con
acceso limitado a tiendas de comestibles que venden frutas, verduras y otros productos frescos.
Podemos utilizar el análisis de regresión para separar el efecto independiente de cada uno
de los posibles factores explicativos descritos anteriormente. Por ejemplo, podemos aislar la
asociación entre raza y peso, manteniendo constantes otros factores socioeconómicos como el
nivel educativo y la pobreza. Entre las personas que se graduaron de la escuela secundaria y
son elegibles para recibir cupones de alimentos, ¿cuál es la asociación estadística entre el peso
y ser negro?
En este punto, nuestra ecuación de regresión es tan larga que sería engorroso imprimir aquí
los resultados en su totalidad. Los artículos académicos suelen incluir tablas grandes que
resumen los resultados de varias ecuaciones de regresión. He incluido una tabla con los
resultados completos de esta ecuación de regresión en el apéndice de este capítulo. Mientras
tanto, aquí están los aspectos más destacados de lo que sucede cuando sumamos la educación,
el ejercicio, la pobreza (medida mediante la recepción de cupones de alimentos) y
carrera hacia nuestra ecuación.

Todas nuestras variables originales (altura, edad y sexo) siguen siendo significativas. Los
coeficientes cambian poco a medida que agregamos variables explicativas. Todas nuestras nuevas
variables son estadísticamente significativas al nivel de 0,05. La R en la 2regresión tiene 2 de cero
a 0,29. (Recuerde, una ecuación R no predice mejor significa que nuestra regresión subió de 0,25
que la media el peso de cualquier individuo 2 de 1 significa que la ecuación de regresión predice
muestra). Gran parte de perfectamente en la muestra; una R el peso de cada persona en la
la variación en peso entre individuos sigue sin explicación.
La educación resulta estar asociada negativamente con el peso, como había planteado la
hipótesis. Entre los participantes en el estudio Cambiando Vidas, cada año de educación se asocia
con 1,3 libras.
No es sorprendente que el ejercicio también esté asociado negativamente con el peso. El
estudio Changing Lives incluye un índice que evalúa a cada participante en el estudio según su
nivel de actividad física. Los individuos que se encuentran en el quintil inferior de actividad física
pesan, en promedio, 4,5 libras más que otros adultos de la muestra, ceteris paribus. Aquellos en el
quintil inferior de actividad física pesan, en promedio, casi 9 libras más que los adultos en el quintil
superior de actividad física.
Las personas que reciben cupones de alimentos (el indicador de pobreza en esta regresión)
tienen más peso que otros adultos. Los beneficiarios de cupones para alimentos pesan un promedio
de 5,6 libras más que otros participantes de Changing Lives, ceteris paribus.
La variable racial resulta particularmente interesante. Incluso después de controlar todas las
demás variables descritas hasta este punto, la raza sigue siendo muy importante cuando se trata
de explicar el peso. Los adultos negros no hispanos de la muestra de Changing Lives pesan, en
promedio, aproximadamente 10 libras más que los demás adultos de la muestra. Diez libras es
mucho peso, tanto en términos absolutos como en comparación con los efectos de las otras
variables explicativas en la ecuación de regresión. Esto no es una peculiaridad de los datos. El
valor p de la variable ficticia para los negros no hispanos es 0,000 y el intervalo de confianza del
95 por ciento se extiende desde 7,7 libras hasta 16,1 libras.
¿Qué está pasando? La respuesta honesta es que no tengo idea. Permítanme reiterar un punto
que quedó enterrado anteriormente en una nota a pie de página: aquí sólo estoy jugando con datos
para ilustrar cómo funciona el análisis de regresión. Los análisis presentados aquí son, para una
verdadera investigación académica, lo que el hockey callejero es para la NHL. Si este fuera un
proyecto de investigación real, habría semanas o meses de análisis de seguimiento para probar
este hallazgo. Lo que puedo decir es que he demostrado por qué el análisis de regresión múltiple
es la mejor herramienta que tenemos para encontrar patrones significativos en grandes cantidades.
conjuntos de datos complejos. Empezamos con un ejercicio ridículamente banal: cuantificar la

relación entre altura y peso. Al poco tiempo estábamos metidos hasta las rodillas en cuestiones
de verdadera importancia social.
En ese sentido, puedo ofrecerles un estudio real que utilizó el análisis de regresión para
investigar un tema socialmente significativo: la discriminación de género en el lugar de trabajo.
Lo curioso de la discriminación es que es difícil observarla directamente. Ningún empleador
declara explícitamente que a alguien se le paga menos debido a su raza o género o que alguien
no ha sido contratado por razones discriminatorias (lo que presumiblemente dejaría a la persona
en un trabajo diferente con un salario más bajo).
En cambio, lo que observamos son brechas salariales por raza y género que pueden ser el
resultado de la discriminación: los blancos ganan más que los negros; los hombres ganan más
que las mujeres; etcétera. El desafío metodológico es que estas brechas observadas también
pueden ser el resultado de diferencias subyacentes entre los trabajadores que no tienen nada
que ver con la discriminación en el lugar de trabajo, como el hecho de que las mujeres tienden
a elegir más trabajos a tiempo parcial. ¿Qué parte de la brecha salarial se debe a factores
asociados con la productividad en el trabajo y qué parte de la brecha, si la hay, se debe a la
discriminación de la fuerza laboral? Nadie puede afirmar que se trata de una cuestión trivial.
El análisis de regresión puede ayudarnos a responderla. Sin embargo, nuestra metodología
será un poco más indirecta de lo que fue con nuestro análisis que explica el peso. Como no
podemos medir la discriminación directamente, examinaremos otros factores que tradicionalmente
explican los salarios, como la educación, la experiencia, el campo ocupacional, etc. Los
argumentos a favor de la discriminación son circunstanciales: si persiste una brecha salarial
significativa después de controlar otros factores que normalmente explican los salarios, entonces
la discriminación es un probable culpable. Cuanto mayor sea la parte inexplicable de cualquier
brecha salarial, más sospechas deberíamos tener. Como ejemplo, veamos un artículo de tres
economistas que examinan las trayectorias salariales de una muestra de aproximadamente
2.500 hombres y mujeres que se graduaron con un MBA de la Booth School of Business de la
Universidad de Chicago. 1 Al graduarse, los graduados masculinos y femeninos tienen
salarios iniciales promedio muy similares: 130.000 dólares para los hombres y 115.000 dólares
para las mujeres. Sin embargo, después de diez años en el mercado laboral, se ha abierto una
enorme brecha; En promedio, las mujeres ganan un sorprendente 45 por ciento menos que sus
compañeros de clase masculinos: 243.000 dólares frente a 442.000 dólares. En una muestra
más amplia de más de 18.000 graduados de MBA que ingresaron a la fuerza laboral entre 1990
y 2006, ser mujer se asocia con ingresos un 29 por ciento más bajos. ¿Qué les sucede a las
mujeres una vez que ingresan a la fuerza laboral?
Según los autores del estudio (Marianne Bertrand de la Booth School of Business y Claudia
Goldin y Lawrence Katz de Harvard), la discriminación no es una explicación probable para la
mayor parte de la brecha. La brecha salarial de género se desvanece a medida que los autores
añaden más variables explicativas al análisis. Por ejemplo, los hombres
tomar más clases de finanzas en el programa MBA y graduarse con promedios de calificaciones
más altos. Cuando estos datos se incluyen como variables de control en la ecuación de regresión,
la parte no explicada de la brecha entre los ingresos de hombres y mujeres cae al 19 por ciento.
Cuando se agregan variables a la ecuación para tener en cuenta la experiencia laboral posterior a
un MBA, particularmente fuera de la fuerza laboral, la porción inexplicable de la brecha salarial
entre hombres y mujeres cae al 9 por ciento. Y cuando se agregan variables explicativas para otras
características laborales, como el tipo de empleador y las horas trabajadas, la porción no explicada
de la brecha salarial de género cae a menos del 4 por ciento.
Para los trabajadores que han estado en la fuerza laboral más de diez años, los autores pueden
en última instancia explicar todo menos el 1 por ciento de la brecha salarial de género con factores
no relacionados con la discriminación en el trabajo. * Concluyen: “Identificamos tres razones
inmediatas para la gran y creciente brecha de género en los ingresos: diferencias en la formación
previa a la graduación del MBA; diferencias en las interrupciones de carrera; y diferencias en las
horas semanales. Estos tres determinantes pueden explicar la mayor parte de las diferencias de
género a lo largo de los años posteriores a la finalización del MBA”.
Espero haberlo convencido del valor del análisis de regresión múltiple, particularmente de los
conocimientos de investigación que surgen de poder aislar el efecto de una variable explicativa
mientras se controlan otros factores de confusión. Todavía no he proporcionado una explicación
intuitiva de cómo funciona este “elixir milagroso” estadístico. Cuando utilizamos el análisis de
regresión para evaluar la relación entre educación y peso, ceteris paribus, ¿cómo controla un
paquete estadístico factores como la altura, el sexo, la edad y los ingresos cuando sabemos que
nuestros participantes de Changing Lives no son idénticos en estos otros aspectos?
Para comprender cómo podemos aislar el efecto sobre el peso de una sola variable, digamos la
educación, imagine la siguiente situación. Supongamos que todos los participantes de Cambiando
Vidas están reunidos en un solo lugar, digamos, Framingham, Massachusetts. Ahora supongamos
que los hombres y las mujeres están separados. Y luego supongamos que tanto los hombres como
las mujeres están divididos por altura. Habrá una sala de hombres de seis pies de altura. Al lado
habrá una sala para hombres de 6 pies y 1 pulgada, y así sucesivamente para ambos sexos. Si
tenemos suficientes participantes en nuestro estudio, podemos subdividir aún más cada una de
esas habitaciones por ingresos. Con el tiempo tendremos muchas habitaciones, cada una de las
cuales contiene individuos que son idénticos en todos los aspectos excepto en educación y peso,
que son las dos variables que nos importan. Habría una sala de hombres de cuarenta y cinco años
de 5 pies y 5 pulgadas de altura que ganarían entre 30.000 y 40.000 dólares al año. Al lado estarían
todas las mujeres de cuarenta y cinco años de 5 pies y 5 pulgadas de altura que ganan entre 30.000
y 40.000 dólares al año. Y así sucesivamente (y así sucesivamente).
Todavía habrá alguna variación de peso en cada habitación; personas que son el
Las personas del mismo sexo y altura y con los mismos ingresos pesarán cantidades diferentes,
aunque presumiblemente habrá mucha menos variación en el peso en cada habitación que en la
muestra general. Nuestro objetivo ahora es ver qué parte de la variación restante en el peso en
cada habitación puede explicarse por la educación. En otras palabras, ¿cuál es la mejor relación
lineal entre educación y peso en cada habitación?
El desafío final, sin embargo, es que no queremos coeficientes diferentes en cada “sala”. El
objetivo de este ejercicio es calcular un coeficiente único que exprese mejor la relación entre
educación y peso para toda la muestra, manteniendo constantes los demás factores. Lo que nos
gustaría calcular es el coeficiente único de educación que podemos usar en cada habitación para
minimizar la suma de los residuos al cuadrado de todas las habitaciones combinadas. ¿Qué
coeficiente de educación minimiza el cuadrado del peso inexplicable de cada individuo en todas las
habitaciones? Éste se convierte en nuestro coeficiente de regresión porque es la mejor explicación
de la relación lineal entre educación y peso para esta muestra cuando mantenemos constantes el
sexo, la altura y el ingreso.
Además, puedes ver por qué los grandes conjuntos de datos son tan útiles. Nos permiten
controlar muchos factores y al mismo tiempo tener muchas observaciones en cada “habitación”.
Obviamente, una computadora puede hacer todo esto en una fracción de segundo sin tener que
reunir a miles de personas en diferentes habitaciones.
Terminemos el capítulo donde empezamos, con la conexión entre el estrés laboral y la enfermedad
coronaria. Los estudios de Whitehall sobre funcionarios británicos intentaron medir la asociación
entre el grado de empleo y la muerte por enfermedad coronaria en los años siguientes. Uno de los
primeros estudios siguió a 17.530 funcionarios públicos durante siete años y medio.
2 Los autores
concluyeron: “Los hombres en los grados laborales más bajos eran más bajos, más pesados para
su altura, tenían presión arterial más alta, glucosa plasmática más alta, fumaban más y reportaban
menos actividad física en su tiempo libre que los hombres en los grados superiores. Sin embargo,
cuando se tuvo en cuenta la influencia sobre la mortalidad de todos estos factores más el colesterol
plasmático, la asociación inversa entre el grado de empleo y la mortalidad [por enfermedad
coronaria] seguía siendo fuerte”. La “asignación” a la que se refieren para estos otros factores de
riesgo conocidos se realiza mediante análisis de regresión.
*
El estudio demuestra que, manteniendo constantes otros factores de salud (incluida la
altura, que es un indicador decente de la salud y la nutrición de la primera infancia), trabajar en un
empleo de “baja categoría” puede literalmente matarte.
El escepticismo es siempre una buena primera respuesta. Al principio del capítulo escribí que los
trabajos de “bajo control” son malos para la salud. Eso puede o no ser sinónimo de estar en un lugar
bajo en el tótem administrativo. Un estudio de seguimiento
Utilizando una segunda muestra de 10.308 funcionarios británicos se intentó profundizar en esta
distinción. 3 Una vez más, los trabajadores fueron divididos en grados administrativos (alto,
intermedio y bajo), solo que esta vez a los participantes también se les entregó un cuestionario de
quince ítems que evaluaba su nivel de “latitud de decisión o control”. Estas incluían preguntas como
"¿Tienes la opción de decidir cómo haces tu trabajo?" y respuestas categóricas (que van desde
"nunca" hasta "a menudo") a afirmaciones como "Puedo decidir cuándo tomar un descanso". Los
investigadores encontraron que los trabajadores de "bajo control" tenían un riesgo significativamente
mayor de desarrollar enfermedad coronaria durante el transcurso del estudio que los trabajadores
de "alto control". Sin embargo, los investigadores también encontraron que los trabajadores con
exigencias laborales rigurosas no tenían mayor riesgo de desarrollar enfermedades cardíacas, ni
tampoco los trabajadores que reportaban bajos niveles de apoyo social en el trabajo. La falta de
control parece ser la causa de la muerte, literalmente.
Los estudios de Whitehall tienen dos características típicamente asociadas con una investigación
sólida. En primer lugar, los resultados se han replicado en otros lugares. En la literatura sobre salud
pública, la idea de “bajo control” evolucionó hasta convertirse en un término conocido como “tensión
laboral”, que caracteriza trabajos con “altas exigencias de carga de trabajo psicológica” y “baja
libertad de decisión”. Entre 1981 y 1993 se publicaron treinta y seis estudios sobre el tema; la
mayoría encontró una asociación positiva significativa entre la tensión laboral y las enfermedades
cardíacas. 4
En segundo lugar, los investigadores buscaron y encontraron evidencia biológica que corroborara
el mecanismo por el cual este tipo particular de estrés en el trabajo causa mala salud. Las
condiciones laborales que implican exigencias rigurosas pero poco control pueden provocar
respuestas fisiológicas (como la liberación de hormonas relacionadas con el estrés) que aumentan
el riesgo de enfermedad cardíaca a largo plazo. Incluso la investigación con animales desempeña
un papel; Los monos y babuinos de bajo estatus (que guardan cierto parecido con los funcionarios
públicos que se encuentran en la parte inferior de la cadena de autoridad) tienen diferencias
fisiológicas con respecto a sus pares de alto estatus que los exponen a un mayor riesgo cardiovascular. 5
En igualdad de condiciones, es mejor no ser un babuino de bajo estatus, que es un punto que
trato de transmitirles a mis hijos con la mayor frecuencia posible, particularmente a mi hijo. El
mensaje más amplio aquí es que el análisis de regresión es posiblemente la herramienta más
importante que tienen los investigadores para encontrar patrones significativos en grandes conjuntos
de datos. Por lo general, no podemos realizar experimentos controlados para aprender sobre la
discriminación laboral o los factores que causan enfermedades cardíacas. Nuestras ideas sobre
estos temas socialmente significativos y muchos otros provienen de las herramientas estadísticas
cubiertas en este capítulo. De hecho, no sería exagerado decir que una alta proporción de todas las
investigaciones importantes realizadas en ciencias sociales durante el último medio siglo
(particularmente desde la llegada de la potencia informática barata) se basa en análisis de regresión.
El análisis de regresión sobredimensiona el método científico; Como resultado, estamos más

sanos, más seguros y mejor informados.
Entonces, ¿qué podría salir mal con esta poderosa e impresionante herramienta?
Sigue leyendo.

La distribución t
La vida se vuelve un poco más complicada cuando hacemos nuestro análisis de regresión (u otras
formas de inferencia estadística) con una pequeña muestra de datos. Supongamos que estuviéramos
analizando la relación entre peso y altura sobre la base de una muestra de sólo 25 adultos, en lugar
de utilizar un conjunto de datos enorme como el estudio Changing Lives.
La lógica sugiere que deberíamos tener menos confianza en generalizar nuestros resultados a toda
la población adulta a partir de una muestra de 25 que de una muestra de 3.000.
Uno de los temas a lo largo del libro ha sido que las muestras más pequeñas tienden a generar
una mayor dispersión en los resultados. Nuestra muestra de 25 seguirá brindándonos información
significativa, al igual que una muestra de 5 o 10, pero ¿hasta qué punto es significativa?
La distribución t responde a esa pregunta. Si analizamos la asociación entre altura y peso para
muestras repetidas de 25 adultos, ya no podemos suponer que los diversos coeficientes que
obtenemos para la altura se distribuirán normalmente alrededor del coeficiente "verdadero" para la
altura en la población adulta. Seguirán estando distribuidos alrededor del coeficiente verdadero
para toda la población, pero la forma de esa distribución no será nuestra conocida curva normal en
forma de campana.
En lugar de ello, tenemos que suponer que muestras repetidas de sólo 25 producirán una mayor
dispersión en torno al verdadero coeficiente de población y, por tanto, una distribución con “colas
más anchas”. Y muestras repetidas de 10 producirán una dispersión aún mayor que esa y, por lo
tanto, colas aún más gruesas. La distribución t es en realidad una serie o “familia” de funciones de
densidad de probabilidad que varían según el tamaño de nuestra muestra. Específicamente,
cuantos más datos tengamos en nuestra muestra, más “grados de libertad” tendremos al determinar
la distribución adecuada con la cual evaluar nuestros resultados. En una clase más avanzada,
aprenderá exactamente cómo calcular grados de libertad; para nuestros propósitos, son
aproximadamente iguales al número de observaciones en nuestra muestra. Por ejemplo, un análisis
de regresión básico con una muestra de 10 y una única variable explicativa tiene 9 grados de
libertad. Cuantos más grados de libertad tengamos, más seguros podremos estar de que nuestra
muestra representa la población real y más “estricta” será nuestra distribución, como lo ilustra el
siguiente diagrama.
Cuando el número de grados de libertad aumenta, la distribución t converge a la distribución

normal. Es por eso que cuando trabajamos con grandes conjuntos de datos, podemos usar la
distribución normal para nuestros cálculos variados.
La distribución t simplemente añade matices al mismo proceso de inferencia estadística que
hemos estado utilizando a lo largo del libro. Todavía estamos formulando una hipótesis nula y
luego probándola con algunos datos observados. Si los datos que observamos serían muy
improbables si la hipótesis nula fuera cierta, entonces rechazamos la hipótesis nula. Lo único
que cambia con la distribución t son las probabilidades subyacentes para evaluar los resultados
observados. Cuanto más “gorda” sea la cola en una distribución de probabilidad particular (por
ejemplo, la distribución t para ocho grados de libertad), más dispersión esperaríamos en nuestros
datos observados simplemente como una cuestión de azar y, por lo tanto, menos seguros
podemos tener. al rechazar nuestra hipótesis nula.
Por ejemplo, supongamos que estamos ejecutando una ecuación de regresión y la hipótesis
nula es que el coeficiente de una variable particular es cero. Una vez que obtengamos los
resultados de la regresión, calcularíamos un estadístico t, que es la relación entre el coeficiente
observado y el error estándar de ese coeficiente. luego se evalúa contra * Este estadístico t es
cualquier distribución t que sea apropiada para el tamaño de la muestra de datos (ya que esto
es en gran medida lo que determina el número de grados de libertad). Cuando el estadístico t es
suficientemente grande, lo que significa que nuestro coeficiente observado está lejos de lo que
predeciría la hipótesis nula, podemos rechazar la hipótesis nula en algún nivel de significancia
estadística. Nuevamente, este es el mismo proceso básico de inferencia estadística que hemos
estado empleando a lo largo del libro.
Cuantos menos grados de libertad (y por lo tanto más “gruesas” sean las colas de la
distribución t relevante), mayor tendrá que ser el estadístico t para que podamos rechazar
la hipótesis nula en algún nivel de significancia dado. En el ejemplo de regresión
hipotética descrito anteriormente, si tuviéramos cuatro grados de libertad, necesitaríamos
un estadístico t de al menos 2,13 para rechazar la hipótesis nula al nivel de 0,05 (en una
prueba de una cola).
Sin embargo, si tenemos 20.000 grados de libertad (lo que esencialmente nos permite
usar la distribución normal), necesitaríamos sólo un estadístico t de 1,65 para rechazar
la hipótesis nula en el nivel de 0,05 en la misma prueba de una cola.
Ecuación de regresión para el peso
* Debería considerar este ejercicio como “diversión con los datos” en lugar de una exploración autorizada de cualquiera de las
relaciones descritas en las ecuaciones de regresión siguientes. El propósito aquí es proporcionar un ejemplo intuitivo de cómo
funciona el análisis de regresión, no realizar una investigación significativa sobre el peso de los estadounidenses.
* “Parámetro” es un término elegante para cualquier estadística que describa una característica de alguna población; el peso medio
de todos los hombres adultos es un parámetro de esa población. También lo es la desviación estándar. En el ejemplo aquí, la
verdadera asociación entre altura y peso para la población es un parámetro de esa población.
* Cuando la hipótesis nula es que un coeficiente de regresión es cero (como suele ser el caso), la relación entre el coeficiente de
regresión observado y el error estándar se conoce como estadístico t. Esto también se explicará en el apéndice del capítulo.
* Fuerzas discriminatorias más amplias en la sociedad pueden afectar las carreras que eligen las mujeres o el hecho de que son
más propensas que los hombres a interrumpir sus carreras para cuidar a sus hijos. Sin embargo, estas importantes cuestiones son
distintas de la cuestión más específica de si a las mujeres se les paga menos que a los hombres por hacer los mismos trabajos.
* Estos estudios difieren ligeramente de las ecuaciones de regresión presentadas anteriormente en este capítulo. El resultado de
interés, o variable dependiente, es binario en estos estudios. Un participante tiene algún tipo de problema de salud relacionado
con el corazón durante el período de estudio o no lo tiene. Como resultado, los investigadores utilizan una herramienta llamada
regresión logística multivariada. La idea básica es la misma que la de los modelos de mínimos cuadrados ordinarios descritos en
este capítulo. Cada coeficiente expresa el efecto de una variable explicativa particular sobre la variable dependiente mientras se
mantienen constantes los efectos de otras variables en el modelo. La diferencia clave es que todas las variables de la ecuación
afectan la probabilidad de que ocurra algún evento, como sufrir un ataque cardíaco durante el período de estudio. En este estudio,
por ejemplo, los trabajadores del grupo de bajo control tienen 1,99 veces más probabilidades de sufrir “cualquier evento coronario”
durante el período de estudio que los trabajadores del grupo de alto control después de controlar otros factores de riesgo coronario.
* La fórmula más general para calcular un estadístico t es la siguiente:

donde lo observado es eficiente , boh es entonces la hipótesis nula para ese coeficiente, andsebisthestandard
error para el coeficiente observado b.
CAPITULO 12
Errores comunes de regresión

La etiqueta de advertencia obligatoria
Ésta es una de las cosas más importantes que debe recordar al realizar una investigación que implique
análisis de regresión: trate de no matar a nadie. Incluso puedes poner una pequeña nota adhesiva en el
monitor de tu computadora: “No mates gente con tu investigación”.
Porque algunas personas muy inteligentes han violado esa regla sin darse cuenta.
A partir de la década de 1990, el establishment médico se unió en torno a la idea de que las mujeres
mayores deberían tomar suplementos de estrógeno para protegerse contra enfermedades cardíacas,
1
osteoporosis y otras afecciones asociadas con la menopausia. En
2001, a unos 15 millones de mujeres se les recetaba estrógeno con la creencia de que las haría más
saludables. ¿Por qué? Porque la investigación de la época (utilizando la metodología básica expuesta en el
último capítulo) sugirió que se trataba de una estrategia médica sensata. En particular, un estudio longitudinal
de 122.000 mujeres (el Estudio de Salud de las Enfermeras) encontró una asociación negativa entre los
suplementos de estrógeno y los ataques cardíacos. Las mujeres que tomaban estrógeno sufrieron un tercio
de ataques cardíacos que las mujeres que no tomaban estrógeno. No se trataba de un par de adolescentes
que usaban la computadora de papá para ver pornografía y ejecutar ecuaciones de regresión. El Estudio de
Salud de las Enfermeras está dirigido por la Facultad de Medicina de Harvard y la Escuela de Salud Pública
de Harvard.
Mientras tanto, los científicos y médicos ofrecieron una teoría médica de por qué los suplementos hormonales podrían ser beneficiosos
para la salud femenina. Los ovarios de una mujer producen menos estrógeno a medida que envejece; Si el estrógeno es importante para
el cuerpo, compensar este déficit en la vejez podría proteger la salud de la mujer a largo plazo. De ahí el nombre del tratamiento: terapia
de reemplazo hormonal. Algunos investigadores incluso comenzaron a sugerir que los hombres mayores deberían recibir un refuerzo de
estrógeno 2 .
Y luego, mientras a millones de mujeres se les recetaba terapia de reemplazo hormonal, el estrógeno
fue sometido a la forma más rigurosa de escrutinio científico: los ensayos clínicos. En lugar de buscar en un
gran conjunto de datos, como el Estudio de salud de las enfermeras, asociaciones estadísticas que pueden
ser causales o no, un ensayo clínico consiste en un experimento controlado. A una muestra se le administra
un tratamiento, como un reemplazo hormonal; a otra muestra se le administra un placebo.
Los ensayos clínicos demostraron que las mujeres que tomaban estrógenos tenían una mayor incidencia de
enfermedades cardíacas, accidentes cerebrovasculares, coágulos sanguíneos, cáncer de mama y otros

resultados adversos para la salud. Los suplementos de estrógeno tuvieron algunos beneficios, pero esos
beneficios fueron superados con creces por otros riesgos. A partir de 2002, se recomendó a los médicos que no
prescribieran estrógenos a sus pacientes de edad avanzada. El New York Times Magazine planteó una pregunta
delicada pero socialmente significativa: ¿Cuántas mujeres murieron prematuramente o sufrieron accidentes
cerebrovasculares o cáncer de mama porque estaban tomando una pastilla que sus médicos les habían recetado
para mantenerlas saludables?
La respuesta: “Una estimación razonable sería decenas de miles”. 3
El análisis de regresión es la bomba de hidrógeno del arsenal estadístico. Cualquier persona con un ordenador
personal y un gran conjunto de datos puede ser investigador en su propia casa o cubículo. ¿Qué podría salir
mal? Toda clase de cosas.
El análisis de regresión proporciona respuestas precisas a preguntas complicadas. Estas respuestas pueden
ser precisas o no. En las manos equivocadas, el análisis de regresión producirá resultados engañosos o
simplemente erróneos. Y, como ilustra el ejemplo del estrógeno, incluso en las manos adecuadas esta poderosa
herramienta estadística puede llevarnos a acelerar peligrosamente en la dirección equivocada. El resto de este
capítulo explicará los “errores” de regresión más comunes. Pongo “errores” entre comillas porque, como ocurre
con todos los demás tipos de análisis estadístico, las personas inteligentes pueden explotar conscientemente
estos puntos metodológicos con fines nefastos.
Aquí hay una lista de los "siete principales" de los abusos más comunes de una persona que de otra manera
herramienta extraordinaria.
Usar la regresión para analizar una relación no lineal. * ¿Alguna vez ha leído la etiqueta
de advertencia de un secador de pelo, la parte que advierte: No utilizar en la bañera? Y piensas: "¿Qué clase
de idiota usa un secador de pelo en la bañera?" Es un aparato eléctrico; No utilices aparatos eléctricos cerca
del agua. No están diseñados para eso. Si el análisis de regresión tuviera una etiqueta de advertencia similar,
diría: No utilizar cuando no exista una asociación lineal entre las variables que está analizando. Recuerde, un
coeficiente de regresión describe la pendiente de la “línea de mejor ajuste” de los datos; una línea que no es
recta tendrá diferente pendiente en diferentes lugares. Como ejemplo, consideremos la siguiente relación
hipotética entre el número de lecciones de golf que tomo durante un mes (una variable explicativa) y mi
puntuación promedio en una ronda de dieciocho hoyos durante ese mes (la variable dependiente). Como puede
verse en el diagrama de dispersión, no existe una relación lineal consistente .
Efecto de las lecciones de golf en la puntuación

Hay un patrón, pero no se puede describir fácilmente con una sola línea recta.
Las primeras lecciones de golf parecen hacer que mi puntuación baje rápidamente. Existe una
asociación negativa entre las lecciones y mis puntuaciones en este tramo; la pendiente es
negativa. Más lecciones producen puntuaciones más bajas (lo cual es bueno en golf).
Pero luego, cuando llego al punto en el que gasto entre $200 y $300 al mes en lecciones, las
lecciones no parecen tener mucho efecto. No existe una asociación clara en este tramo entre la
instrucción adicional y mis puntajes de golf; la pendiente es cero.
Y finalmente, las lecciones parecen volverse contraproducentes. Una vez que gasto $300 al
mes en instrucción, las lecciones incrementales se asocian con puntajes más altos; la pendiente
es positiva en este tramo. (Más adelante en este capítulo analizaré la clara posibilidad de que el
mal golf pueda estar causando las lecciones, y no al revés).
El punto más importante aquí es que no podemos resumir con precisión la relación entre
lecciones y puntuaciones con un único coeficiente. La mejor interpretación del patrón descrito
anteriormente es que las lecciones de golf tienen varias relaciones lineales diferentes con mis
puntuaciones. Puedes ver eso; un paquete de estadísticas no lo hará. Si introduces estos datos
en una ecuación de regresión, la computadora te dará un coeficiente único. Ese coeficiente no
reflejará con precisión la verdadera relación entre las variables de interés. Los resultados que
obtenga serán el equivalente estadístico a usar un secador de pelo en la bañera.
El análisis de regresión está destinado a utilizarse cuando la relación entre variables es lineal.
Un libro de texto o un curso avanzado de estadística lo guiará a través de los otros supuestos
centrales que subyacen al análisis de regresión. Como ocurre con cualquier otra herramienta,
cuanto más se desvíe uno de su uso previsto, menos eficaz o incluso potencialmente peligrosa
será.
La correlación no es igual a la causalidad. El análisis de regresión sólo puede demostrar

una asociación entre dos variables. Como mencioné antes, no podemos probar únicamente
con estadísticas que un cambio en una variable esté provocando un cambio en la otra. De
hecho, una ecuación de regresión descuidada puede producir una asociación grande y
estadísticamente significativa entre dos variables que no tienen nada que ver entre sí.
Supongamos que estuviéramos buscando causas potenciales para la creciente tasa de
autismo en los Estados Unidos durante las últimas dos décadas. Nuestra variable
dependiente (el resultado que intentamos explicar) sería alguna medida de la incidencia del
autismo por año, como el número de casos diagnosticados por cada 1.000 niños de una
determinada edad. Si incluyéramos el ingreso anual per cápita en China como variable
explicativa, casi con seguridad encontraríamos una asociación positiva y estadísticamente
significativa entre el aumento de los ingresos en China y el aumento de las tasas de autismo
en Estados Unidos durante los últimos veinte años.
¿Por qué? Porque ambos han aumentado considerablemente durante el mismo período.
Sin embargo, dudo mucho que una fuerte recesión en China reduzca la tasa de autismo en
Estados Unidos. (Para ser justos, si observara una fuerte relación entre el rápido crecimiento
económico en China y las tasas de autismo solo en China, podría comenzar a buscar algún
factor ambiental relacionado con el crecimiento económico, como la contaminación industrial,
que podría explicar la asociación).
El tipo de asociación falsa entre dos variables que acabo de ilustrar es sólo un ejemplo
de un fenómeno más general conocido como causalidad espuria.
Hay varias otras formas en las que se puede interpretar erróneamente una asociación entre
A y B.
Causalidad inversa. Una asociación estadística entre A y B no prueba que A cause B. De

hecho, es completamente plausible que B esté causando A. Mencioné esta posibilidad
anteriormente en el ejemplo de la lección de golf. Supongamos que cuando construyo un
modelo complejo para explicar mis puntuaciones de golf, la variable de lecciones de golf se
asocia consistentemente con peores puntuaciones. ¡Cuantas más lecciones tomo, peor
disparo! Una explicación es que tengo un instructor de golf realmente malo. Una explicación
más plausible es que tiendo a tomar más lecciones cuando juego mal; El mal golf está
provocando más lecciones, y no al revés. (Existen algunas soluciones metodológicas
sencillas para un problema de esta naturaleza. Por ejemplo, podría incluir lecciones de golf
en un mes como variable explicativa de las puntuaciones de golf del mes siguiente).
Como se señaló anteriormente en este capítulo, la causalidad puede ir en ambas

direcciones. Supongamos que realiza una investigación que demuestra que los estados que
gastan más dinero en educación K12 tienen tasas de crecimiento económico más altas que
los estados que gastan menos en educación K12. Una asociación positiva y significativa
entre estas dos variables no proporciona ninguna idea sobre en qué dirección se encuentra la relación.
pasa a correr. Las inversiones en educación K12 podrían generar crecimiento económico.
Por otro lado, los estados que tienen economías fuertes pueden darse el lujo de gastar más en
educación K12, por lo que la economía fuerte podría estar causando el gasto en educación. O bien,
el gasto en educación podría impulsar el crecimiento económico, lo que haría posible un gasto
adicional en educación; la causalidad podría ser en ambos sentidos.
La cuestión es que no deberíamos utilizar variables explicativas que puedan verse afectadas
por el resultado que intentamos explicar, o de lo contrario los resultados quedarán
irremediablemente enredados. Por ejemplo, sería inapropiado utilizar la tasa de desempleo en
una ecuación de regresión que explique el crecimiento del PIB, ya que el desempleo se ve
claramente afectado por la tasa de crecimiento del PIB. O, para verlo de otra manera, un
análisis de regresión que encuentre que reducir el desempleo impulsará el crecimiento del PIB
es un hallazgo tonto y sin sentido, ya que normalmente es necesario impulsar el crecimiento
del PIB para reducir el desempleo.
Deberíamos tener razones para creer que nuestras variables explicativas afectan la
variable dependiente y no al revés.
Sesgo de variable omitida. Debería ser escéptico la próxima vez que vea un gran titular que
proclame: "¡Los golfistas son más propensos a sufrir enfermedades cardíacas, cáncer y
artritis!". No me sorprendería que los golfistas tuvieran una mayor incidencia de todas esas
enfermedades que los no golfistas; También sospecho que el golf probablemente sea bueno
para la salud porque proporciona socialización y ejercicio moderado. ¿Cómo puedo conciliar
esas dos declaraciones? Muy facilmente. Cualquier estudio que intente medir los efectos de la
práctica del golf sobre la salud debe controlar adecuadamente la edad. En general, la gente
juega más golf cuando envejece, especialmente cuando se jubila. Cualquier análisis que deje
de lado la edad como variable explicativa pasará por alto el hecho de que los golfistas, en
promedio, serán mayores que los no golfistas. El golf no mata gente; La vejez está matando a
la gente, y resulta que ellos disfrutan jugando al golf mientras lo hace. Sospecho que cuando
se inserta la edad en el análisis de regresión como variable de control, obtendremos un
resultado diferente. Entre personas de la misma edad, el golf puede ser levemente preventivo
de enfermedades graves. Esa es una diferencia bastante grande.
En este ejemplo, la edad es una “variable omitida” importante. Cuando dejamos la edad
fuera de una ecuación de regresión que explica las enfermedades cardíacas o algún otro
resultado adverso para la salud, la variable “jugar al golf” asume dos roles explicativos en lugar
de solo uno. Nos dice el efecto de jugar golf sobre las enfermedades cardíacas y nos dice el
efecto de la edad avanzada sobre las enfermedades cardíacas (ya que los golfistas tienden a
ser mayores que el resto de la población). En la jerga estadística, diríamos que la variable golf
está “captando” el efecto de la edad. El problema es que estos dos efectos están mezclados.
En el mejor de los casos, nuestros resultados son un lío confuso. En el peor de los casos, equivocadamente
asumir que el golf es malo para la salud, cuando en realidad es probable que sea lo contrario
verdadero.
Los resultados de la regresión serán engañosos e inexactos si la ecuación de regresión omite

una variable explicativa importante, particularmente si otras variables en la ecuación “captan” ese
efecto. Supongamos que estamos tratando de explicar la calidad de la escuela.
Éste es un resultado importante que hay que entender: ¿qué hace que las escuelas sean buenas?
Nuestra variable dependiente, la medida cuantificable de la calidad, probablemente serían las
puntuaciones de los exámenes. Es casi seguro que examinaríamos el gasto escolar como una
variable explicativa con la esperanza de cuantificar la relación entre el gasto y las puntuaciones de
las pruebas. ¿Las escuelas que gastan más obtienen mejores resultados? Si el gasto escolar fuera
la única variable explicativa, no tengo ninguna duda de que encontraríamos una relación amplia y
estadísticamente significativa entre el gasto y las puntuaciones de los exámenes. Sin embargo, ese
hallazgo, y la implicación de que podemos gastar dinero para llegar a mejores escuelas, es
profundamente erróneo.
Hay muchas variables omitidas potencialmente significativas aquí, pero la crucial es la educación
de los padres. Las familias bien educadas tienden a vivir en zonas prósperas que gastan mucho
dinero en sus escuelas; estas familias también tienden a tener hijos que obtienen buenos resultados
en los exámenes (y las familias pobres tienen más probabilidades de tener estudiantes con
dificultades). Si no tenemos alguna medida del estatus socioeconómico del estudiantado como
variable de control, nuestros resultados de regresión probablemente mostrarán una gran asociación
positiva entre el gasto escolar y los puntajes de las pruebas, cuando en realidad esos resultados
pueden ser una función del tipo de los estudiantes que entran por la puerta de la escuela, no del
dinero que se gasta en el edificio.
Recuerdo que un profesor universitario señaló que los puntajes del SAT están altamente
correlacionados con la cantidad de automóviles que posee una familia. Insinuó que, por tanto, el
SAT era una herramienta injusta e inapropiada para la admisión a la universidad. El SAT tiene sus
fallos pero la correlación entre puntuaciones y coches familiares no es la que más me preocupa.
No me preocupa mucho que las familias ricas puedan llevar a sus hijos a la universidad comprando
tres automóviles más. La cantidad de automóviles en el garaje de una familia es un indicador de
sus ingresos, educación y otras medidas de estatus socioeconómico. El hecho de que los niños
ricos obtengan mejores resultados en el SAT que los niños pobres no es ninguna novedad. (Como
se señaló anteriormente, el puntaje promedio de lectura crítica del SAT para estudiantes de familias
con ingresos familiares superiores a $200,000 es 134 puntos más alto que el puntaje promedio
para estudiantes de hogares con ingresos inferiores a $20,000).
4
La mayor preocupación debería ser si el SAT es “entrenable” o no.
¿Cuánto pueden mejorar los estudiantes sus puntajes al tomar clases privadas de preparación para
el SAT? Las familias ricas claramente están en mejores condiciones de enviar a sus hijos a clases
de preparación para exámenes. Cualquier mejora causal entre estas clases y los puntajes del SAT
favorecería a los estudiantes de familias ricas en relación con los estudiantes más desfavorecidos
con iguales capacidades (que presumiblemente también podrían haber mejorado sus puntajes con
una clase preparatoria pero nunca tuvieron esa oportunidad).
Variables explicativas altamente correlacionadas (multicolinealidad). Si una ecuación de regresión

incluye dos o más variables explicativas que están altamente correlacionadas entre sí, el análisis
no necesariamente podrá discernir la verdadera relación entre cada una de esas variables y el
resultado que estamos tratando de explicar. Un ejemplo aclarará esto. Supongamos que estamos
tratando de medir el efecto del uso de drogas ilegales en las puntuaciones del SAT. En concreto,
tenemos datos sobre si los participantes de nuestro estudio han consumido alguna vez cocaína y
también sobre si alguna vez han consumido heroína. (Presumiblemente también tendríamos
muchas otras variables de control). ¿Cuál es el impacto del consumo de cocaína en las puntuaciones
del SAT, manteniendo constantes otros factores, incluido el consumo de heroína? ¿Y cuál es el
impacto del consumo de heroína en las puntuaciones del SAT, controlando el consumo de cocaína
y otros factores?
Es posible que los coeficientes sobre el consumo de heroína y cocaína no puedan decirnos eso.
El desafío metodológico es que las personas que han consumido heroína probablemente también
hayan consumido cocaína. Si ponemos ambas variables en la ecuación, tendremos muy pocos
individuos que hayan consumido una droga pero no la otra, lo que nos deja muy poca variación en
los datos con los que calcular sus efectos independientes.
Piense por un momento en las imágenes mentales utilizadas para explicar el análisis de regresión
en el último capítulo. Dividimos nuestra muestra de datos en diferentes “habitaciones” en las que
cada observación es idéntica excepto por una variable, lo que luego nos permite aislar el efecto de
esa variable mientras controlamos otros posibles factores de confusión. Es posible que tengamos
692 individuos en nuestra muestra que han consumido tanto cocaína como heroína. Sin embargo,
es posible que tengamos sólo 3 personas que hayan consumido cocaína pero no heroína y 2
personas que hayan consumido heroína y no cocaína. Cualquier inferencia sobre el efecto
independiente de un fármaco u otro se basará en estas pequeñas muestras.
Es poco probable que obtengamos coeficientes significativos en la variable cocaína o heroína;

También podemos oscurecer la relación más amplia e importante entre las puntuaciones del SAT y
el uso de cualquiera de estos medicamentos. Cuando dos variables explicativas están altamente
correlacionadas, los investigadores generalmente usan una u otra en la ecuación de regresión, o
pueden crear algún tipo de variable compuesta, como "consumió cocaína o heroína". Por ejemplo,
cuando los investigadores quieren controlar el entorno socioeconómico general de un estudiante,
pueden incluir variables tanto para la “educación de la madre” como para la “educación del padre”,
ya que esta inclusión proporciona información importante sobre el entorno educativo del hogar.
Sin embargo, si el objetivo del análisis de regresión es aislar el efecto de una

la educación de la madre o del padre, entonces es más probable que poner ambas variables en la
ecuación confunda la cuestión que la aclare. La correlación entre los logros educativos de un marido y su
esposa es tan alta que no podemos depender del análisis de regresión para obtener coeficientes que
aíslen significativamente el efecto de la educación de cualquiera de los padres (del mismo modo que es
difícil separar el impacto del consumo de cocaína del impacto de consumo de heroína).
Extrapolando más allá de los datos. El análisis de regresión, como todas las formas de inferencia
estadística, está diseñado para ofrecernos información sobre el mundo que nos rodea. Buscamos patrones
que sean válidos para la población en general. Sin embargo, nuestros resultados son válidos sólo para
una población similar a la muestra en la que se realizó el análisis. En el último capítulo, creé una ecuación
de regresión para predecir 2 del peso final de mi modelo en función de una serie de variables
0,29, lo que significa que hizo un trabajo decente al explicar la variación de independientes. El R fue
peso para una muestra grande de individuos, todos los cuales eran adultos.
Entonces, ¿qué sucede si utilizamos nuestra ecuación de regresión para predecir el peso probable de
un recién nacido? Vamos a intentarlo. Mi hija medía 21 pulgadas cuando nació. Diremos que su edad al
nacer era cero; no tenía educación y no hacía ejercicio. Ella era blanca y femenina. La ecuación de
regresión basada en los datos de Changing Lives predice que su peso al nacer debería haber sido
negativo de 19,6 libras.
(Pesaba 8½ libras).
Los autores de uno de los estudios de Whitehall mencionados en el último capítulo fueron
sorprendentemente explícitos al llegar a su estrecha conclusión: “El bajo control en el entorno laboral se
asocia con un mayor riesgo de futuras enfermedades coronarias entre hombres y mujeres empleados en
oficinas gubernamentales”. 5 (cursiva agregada).
Minería de datos (demasiadas variables). Si omitir variables importantes es un problema potencial,

entonces presumiblemente la solución debe ser agregar tantas variables explicativas como sea posible a
una ecuación de regresión. No.
Sus resultados pueden verse comprometidos si incluye demasiadas variables, particularmente variables
explicativas extrañas sin justificación teórica.
Por ejemplo, no se debería diseñar una estrategia de investigación basada en la siguiente premisa: dado
que no sabemos qué causa el autismo, deberíamos incluir tantas variables explicativas potenciales como
sea posible en la ecuación de regresión sólo para ver qué podría resultar estadísticamente significativo. ;
Entonces tal vez obtengamos algunas respuestas. Si se ponen suficientes variables basura en una
ecuación de regresión, es probable que una de ellas alcance el umbral de significación estadística
simplemente por casualidad. El peligro adicional es que las variables basura no siempre se reconocen
fácilmente como tales.
Los investigadores inteligentes siempre pueden construir una teoría a posteriori de por qué alguna variable
curiosa que en realidad es una tontería resulta estadísticamente significativa.
Para aclarar este punto, a menudo hago el mismo ejercicio de lanzamiento de moneda que expliqué
durante la discusión sobre probabilidades. En una clase de unos cuarenta estudiantes, haré que cada
estudiante lance una moneda. Cualquier estudiante que dé vuelta cruz es eliminado; el resto se voltea nuevamente.
En la segunda ronda, aquellos que dan vuelta cruz quedan nuevamente eliminados. Continúo las rondas
de voltear hasta que un estudiante haya volteado cinco o seis cabezas seguidas.
Quizás recuerdes algunas de las preguntas tontas de seguimiento: “¿Cuál es tu secreto? ¿Está en la
muñeca? ¿Puedes enseñarnos a voltear cabezas todo el tiempo? Tal vez sea esa sudadera de Harvard
que llevas puesta.
Obviamente la serie de cabezas es sólo suerte; Todos los estudiantes han visto lo que sucedió. Sin
embargo, no es necesariamente así como se podría interpretar o se interpretaría el resultado en un contexto
científico. La probabilidad de sacar cinco caras seguidas es 1/32, o 0,03. Esto está cómodamente por
debajo del umbral de 0,05 que normalmente utilizamos para rechazar una hipótesis nula. Nuestra hipótesis
nula en este caso es que el estudiante no tiene talento especial para hacer girar cabezas; la serie de caras
de la suerte (que seguramente le sucederá al menos a un estudiante cuando comienzo con un grupo
grande) nos permite rechazar la hipótesis nula y adoptar la hipótesis alternativa: este estudiante tiene una
habilidad especial para voltear caras. Una vez que haya logrado esta impresionante hazaña, podemos
estudiarlo en busca de pistas sobre su éxito en el lanzamiento: su forma de lanzar, su entrenamiento
atlético, su extraordinaria concentración mientras la moneda está en el aire, etc.
Y todo es una tontería.

Este fenómeno puede afectar incluso a la investigación legítima. La convención aceptada es rechazar
una hipótesis nula cuando observamos algo que sucedería por casualidad sólo 1 de cada 20 veces o
menos si la hipótesis nula fuera cierta. Por supuesto, si realizamos 20 estudios, o si incluimos 20 variables
basura en una sola ecuación de regresión, entonces, en promedio, obtendremos 1 hallazgo falso y
estadísticamente significativo. El New York Times Magazine captó maravillosamente esta tensión en una
cita de Richard Peto, estadístico médico y epidemiólogo: “La epidemiología es tan hermosa y proporciona
una perspectiva tan importante sobre la vida y la muerte humanas, pero se publica una cantidad increíble
de basura”.
6
Incluso los resultados de los ensayos clínicos, que suelen ser experimentos aleatorios y, por tanto, el
estándar de oro de la investigación médica, deberían verse con cierto escepticismo. En 2011, el Wall Street
Journal publicó en primera plana un artículo sobre lo que describió como uno de los “pequeños secretos
sucios” de la investigación médica: “La mayoría de los resultados, incluidos los que aparecen en revistas
de primer nivel revisadas por pares, no pueden ser reproducido.”
7 (Una revista revisada por pares es una publicación en la que otros expertos en el mismo
campo revisan estudios y artículos para determinar su solidez metodológica antes de aprobarlos para su
publicación; dichas publicaciones se consideran los guardianes de la investigación académica). Una razón
para esto “ pequeño y sucio
"secreto" es el sesgo de publicación positivo descrito en el Capítulo 7. Si los investigadores y las

revistas médicas prestan atención a los hallazgos positivos e ignoran los negativos, entonces
pueden publicar el único estudio que encuentra que un fármaco es eficaz e ignorar los diecinueve
en los que no tiene ningún efecto. . Algunos ensayos clínicos también pueden tener muestras
pequeñas (como las de enfermedades raras), lo que aumenta las posibilidades de que la variación
aleatoria en los datos reciba más atención de la que merece. Además de eso, los investigadores
pueden tener algún sesgo consciente o inconsciente, ya sea debido a una creencia previa
fuertemente arraigada o porque un hallazgo positivo sería mejor para su carrera. (Nadie se vuelve
rico o famoso demostrando qué no cura el cáncer).
Por todas estas razones, una cantidad sorprendente de investigaciones de expertos resulta
errónea. John Ioannidis, médico y epidemiólogo griego, examinó cuarenta y nueve 8 Cada estudio
revistas médicas destacadas. citado en la literatura médica al menoshabía sido publicado en tres
mil veces. Sin embargo, aproximadamente un tercio de la investigación fue refutada posteriormente
por trabajos posteriores. (Por ejemplo, algunos de los estudios que examinó promovían la terapia
de reemplazo de estrógenos). El Dr. Ioannidis estima que aproximadamente la mitad de los
artículos científicos publicados terminarán siendo incorrectos.
9
Su investigación fue publicada en el Journal of the American Medical
Association, una de las revistas en las que habían aparecido los artículos que estudió. Esto crea
una cierta ironía alucinante: si la investigación del Dr. Ioannidis es correcta, entonces hay muchas
posibilidades de que su investigación esté equivocada.
El análisis de regresión sigue siendo una herramienta estadística increíble. (Está bien, tal vez mi
descripción como “elixir milagroso” en el último capítulo fue un poco hiperbólica).
El análisis de regresión nos permite encontrar patrones clave en grandes conjuntos de datos, y
esos patrones suelen ser la clave para investigaciones importantes en medicina y ciencias
sociales. Las estadísticas nos brindan estándares objetivos para evaluar estos patrones.
Cuando se utiliza correctamente, el análisis de regresión es una parte importante del método
científico. Considere este capítulo como la etiqueta de advertencia obligatoria.
Todas las diversas advertencias específicas de esa etiqueta se pueden resumir en dos
lecciones clave. En primer lugar, diseñar una buena ecuación de regresión (descubrir qué
variables deben examinarse y de dónde deben provenir los datos) es más importante que los
cálculos estadísticos subyacentes. Este proceso se conoce como estimación de la ecuación o
especificación de una buena ecuación de regresión. Los mejores investigadores son los que
pueden pensar lógicamente sobre qué variables deberían incluirse en una ecuación de regresión,
qué podría faltar y cómo pueden y deben interpretarse los resultados finales.
En segundo lugar, como la mayoría de las demás inferencias estadísticas, el análisis de

regresión construye sólo un caso circunstancial. Una asociación entre dos variables es como una
huella dactilar en la escena del crimen. Nos indica la dirección correcta, pero rara vez es suficiente para
condenar. (Y a veces una huella dactilar en la escena de un crimen no pertenece al perpetrador).

Cualquier análisis de regresión necesita un sustento teórico: ¿por qué están las variables explicativas
en la ecuación? ¿Qué fenómenos de otras disciplinas pueden explicar los resultados observados? Por
ejemplo, ¿por qué pensamos que usar zapatos morados mejoraría el rendimiento en la parte de
matemáticas del SAT o que comer palomitas de maíz puede ayudar a prevenir el cáncer de próstata?
Los resultados deben replicarse, o al menos ser coherentes con otros hallazgos.
Incluso un elixir milagroso no funcionará si no se toma según las indicaciones.
* Existen métodos más sofisticados que se pueden utilizar para adaptar el análisis de regresión para su uso con datos no
lineales. Sin embargo, antes de utilizar esas herramientas, es necesario comprender por qué utilizar el método estándar de
mínimos cuadrados ordinarios con datos no lineales le dará un resultado sin sentido.
CAPITULO 13
Evaluación del
programa ¿Ir a Harvard cambiará tu vida?
Los investigadores brillantes en ciencias sociales no lo son porque puedan hacer cálculos
complejos mentalmente o porque ganen más dinero en Jeopardy que los investigadores
menos brillantes (aunque ambas hazañas pueden ser ciertas).
Los investigadores brillantes (aquellos que cambian apreciablemente nuestro conocimiento
del mundo) suelen ser individuos o equipos que encuentran formas creativas de realizar
experimentos "controlados". Para medir el efecto de cualquier tratamiento o intervención,
necesitamos algo con qué compararlo. ¿Cómo afectaría tu vida ir a Harvard?
Bueno, para responder a esa pregunta, tenemos que saber qué te sucede después de ir a
Harvard y qué te sucede después de no ir a Harvard. Obviamente no podemos tener datos
sobre ambos. Sin embargo, investigadores inteligentes encuentran formas de comparar
algunos tratamientos (por ejemplo, ir a Harvard) con el contrafactual, que es lo que habría
sucedido en ausencia de ese tratamiento.
Para ilustrar este punto, reflexionemos sobre una pregunta aparentemente simple: ¿poner
más agentes de policía en las calles disuade el crimen? Esta es una cuestión socialmente
importante, ya que el crimen impone enormes costos a la sociedad. Si una mayor presencia
policial reduce la delincuencia, ya sea mediante la disuasión o capturando y encarcelando a
los malos, entonces las inversiones en agentes de policía adicionales podrían generar
grandes beneficios. Por otra parte, los agentes de policía son relativamente caros; si tienen
poco o ningún impacto en la reducción del crimen, entonces la sociedad podría hacer un
mejor uso de sus recursos en otros lugares (quizás con inversiones en tecnología para
combatir el crimen, como cámaras de vigilancia).
El desafío es que nuestra pregunta aparentemente simple –¿cuál es el efecto causal de
más agentes de policía sobre el crimen?– resulta muy difícil de responder. A estas alturas del
libro, debería reconocer que no podemos responder a esta pregunta simplemente examinando
si las jurisdicciones con un alto número de agentes de policía per cápita tienen tasas de
criminalidad más bajas. Zurich no es Los Ángeles. Incluso una comparación de las grandes
ciudades estadounidenses será profundamente defectuosa; Los Ángeles, Nueva York,
Houston, Miami, Detroit y Chicago son lugares diferentes con diferentes desafíos demográficos
y criminales.
Nuestro enfoque habitual sería intentar especificar una ecuación de regresión que controle
estas diferencias. Por desgracia, ni siquiera el análisis de regresión múltiple es
vamos a salvarnos aquí. Si intentamos explicar las tasas de criminalidad (nuestra variable
dependiente) utilizando agentes de policía per cápita como variable explicativa (junto con otros
controles), tendremos un grave problema de causalidad inversa. Tenemos una sólida razón
teórica para creer que poner más agentes de policía en las calles reducirá el crimen, pero
también es posible que el crimen pueda "causar" agentes de policía, en el sentido de que las
ciudades que experimentan oleadas de criminalidad contratarán más agentes de policía.
Fácilmente podríamos encontrar una asociación positiva pero engañosa entre el crimen y la
policía: los lugares con más agentes de policía tienen los peores problemas de criminalidad.
Por supuesto, los lugares con muchos médicos también suelen tener la mayor concentración
de enfermos. Estos médicos no enferman a la gente; están ubicados en los lugares donde más
se necesitan (y al mismo tiempo los enfermos se trasladan a lugares donde pueden recibir
atención médica adecuada). Sospecho que hay un número desproporcionado de oncólogos y
cardiólogos en Florida; desterrarlos del estado no hará que la población de jubilados sea más
saludable.
Bienvenidos a la evaluación de programas, que es el proceso mediante el cual buscamos
medir el efecto causal de alguna intervención, desde un nuevo medicamento contra el cáncer
hasta un programa de colocación laboral para quienes abandonaron la escuela secundaria. O
poner más policías en la calle. La intervención que nos interesa suele denominarse “tratamiento”,
aunque esa palabra se usa de manera más amplia en un contexto estadístico que en el lenguaje
normal. Un tratamiento puede ser un tratamiento literal, como algún tipo de intervención médica,
o puede ser algo como asistir a la universidad o recibir capacitación laboral al salir de prisión.
La cuestión es que buscamos aislar el efecto de ese único factor; Lo ideal sería saber cómo le
va al grupo que recibe ese tratamiento en comparación con algún otro grupo cuyos miembros
son idénticos en todos los demás aspectos excepto en el tratamiento.
La evaluación del programa ofrece un conjunto de herramientas para aislar el efecto del
tratamiento cuando la causa y el efecto son difíciles de alcanzar. Así es como Jonathan Klick y
Alexander Tabarrok, investigadores de la Universidad de Pensilvania y la Universidad George
Mason, respectivamente, estudiaron cómo el hecho de poner más agentes de policía en las
calles afecta la tasa de criminalidad. Su estrategia de investigación hizo uso del sistema de
alerta terrorista. Específicamente, Washington, DC responde a los días de “alerta máxima” por
terrorismo poniendo más agentes en ciertas áreas de la ciudad, ya que la capital es un objetivo
natural del terrorismo. Podemos suponer que no existe una relación entre la delincuencia
callejera y la amenaza terrorista, por lo que este aumento de la presencia policial en DC no
está relacionado con la tasa de criminalidad convencional, o es “exógeno”. La idea más valiosa
de los investigadores fue reconocer el experimento natural aquí: ¿Qué sucede con la
delincuencia común en los días de “alerta máxima” por terrorismo?
La respuesta: el número de delitos cometidos cuando la amenaza terrorista era Naranja
(alerta máxima y más policía) fue aproximadamente un 7 por ciento menor que cuando el
El nivel de amenaza terrorista era Amarillo (alerta elevada pero sin precauciones policiales
adicionales). Los autores también encontraron que la disminución de la delincuencia fue más
pronunciada en el distrito policial que recibe la mayor atención policial en los días de alerta
máxima (porque incluye la Casa Blanca, el Capitolio y el National Mall). Lo importante es que
podemos responder preguntas difíciles pero socialmente significativas; sólo tenemos que ser
inteligentes al respecto. Éstos son algunos de los enfoques más comunes para aislar el
efecto de un tratamiento.
Experimentos aleatorios y controlados. La forma más sencilla de crear un grupo de tratamiento

y control es (esperar) crear un grupo de tratamiento y control. Hay dos grandes desafíos para
este enfoque. Primero, hay muchos tipos de experimentos que no podemos realizar con
personas. Esta limitación (espero) no desaparecerá pronto. Como resultado, sólo podemos
realizar experimentos controlados en sujetos humanos cuando hay motivos para creer que el
efecto del tratamiento tiene un resultado potencialmente positivo. A menudo este no es el
caso (por ejemplo, “tratamientos” como experimentar con drogas o abandonar la escuela
secundaria), razón por la cual necesitamos las estrategias que se presentan al final del
capítulo.
En segundo lugar, hay mucha más variación entre las personas que entre las ratas de
laboratorio. El efecto del tratamiento que estamos probando podría verse fácilmente
confundido por otras variaciones en los grupos de tratamiento y control; seguramente habrá
gente alta, gente baja, gente enferma, gente sana, hombres, mujeres, delincuentes,
alcohólicos, banqueros de inversión, etc. ¿Cómo podemos garantizar que las diferencias
entre estas otras características no arruinen los resultados? Tengo buenas noticias: ¡este es
uno de esos raros casos en la vida en los que el mejor enfoque implica menos trabajo!
La forma óptima de crear cualquier grupo de tratamiento y control es distribuir aleatoriamente
a los participantes del estudio entre los dos grupos. Lo bueno de la aleatorización es que
generalmente distribuirá las variables no relacionadas con el tratamiento de manera más o
menos uniforme entre los dos grupos: tanto las características que son obvias, como el sexo,
la raza, la edad y la educación, como las características no observables que de otro modo
podrían aparecer. arruinar los resultados.
Piénselo: si tenemos 1000 mujeres en nuestra muestra prospectiva, cuando dividimos la
muestra aleatoriamente en dos grupos, el resultado más probable es que 500 mujeres
terminen en cada uno. Obviamente no podemos esperar esa división exactamente, pero una
vez más la probabilidad es nuestra amiga. La probabilidad de que un grupo obtenga un
número desproporcionado de mujeres (o un número desproporcionado de individuos con
cualquier otra característica) es baja. Por ejemplo, si tenemos una muestra de 1.000
personas, la mitad de las cuales son mujeres, hay menos del 1 por ciento de posibilidades
de tener menos de 450 mujeres en un grupo u otro. Obviamente, cuanto más grandes sean
las muestras, más efectiva será la aleatorización para crear dos
grupos similares.
Los ensayos médicos normalmente aspiran a realizar experimentos controlados y aleatorios.
Idealmente, estos ensayos clínicos son doble ciego, lo que significa que ni el paciente ni el
médico saben quién recibe el tratamiento y quién recibe un placebo.
Obviamente, esto es imposible con tratamientos como los procedimientos quirúrgicos (es de
esperar que el cirujano cardíaco sepa qué pacientes se someterán a una cirugía de bypass).
Sin embargo, incluso con procedimientos quirúrgicos, aún es posible evitar que los pacientes
sepan si están en el grupo de tratamiento o de control. Uno de mis estudios favoritos involucró
la evaluación de cierto tipo de cirugía de rodilla para aliviar el dolor. El grupo de tratamiento
recibió la cirugía. Al grupo de control se le realizó una cirugía "simulada" en la que el cirujano
hizo tres pequeñas incisiones en la rodilla y "fingió operar".
*
Resultó que la cirugía real no fue más efectiva que la
cirugía simulada para aliviar el dolor de rodilla. 1
Se pueden utilizar ensayos aleatorios para probar algunos fenómenos interesantes. Por
ejemplo, ¿las oraciones ofrecidas por extraños mejoran los resultados posquirúrgicos?
Las personas razonables tienen opiniones muy diversas sobre la religión, pero un estudio
publicado en el American Heart Journal realizó un estudio controlado que examinó si los
pacientes que se recuperaban de una cirugía de bypass cardíaco tendrían menos complicaciones
postoperatorias si un grupo grande de extraños orara por su recuperación rápida y segura.
2 En el estudio participaron 1.800 pacientes y miembros de tres
congregaciones religiosas de todo el país. Los pacientes, todos los cuales recibieron cirugía de
bypass coronario, se dividieron en tres grupos: en un grupo no se oró por él; se oró por un
grupo y así se lo dijeron; Se oró por el tercer grupo, pero a los participantes de ese grupo se
les dijo que podrían o no recibir oraciones (controlando así el efecto placebo de la oración).
Mientras tanto, a los miembros de las congregaciones religiosas se les pidió que ofrecieran
oraciones por pacientes específicos por el nombre y la primera inicial de su apellido (por
ejemplo, Charlie W.).
A los feligreses se les dio libertad para orar, siempre y cuando la oración incluyera la frase “por
una cirugía exitosa con una recuperación rápida, saludable y sin complicaciones”.
¿Y? ¿Será la oración la solución rentable a los desafíos de la atención médica en Estados
Unidos? Probablemente no. Los investigadores no encontraron ninguna diferencia en la tasa
de complicaciones dentro de los treinta días posteriores a la cirugía entre aquellos a quienes
se les ofrecieron oraciones en comparación con aquellos a quienes no se les ofrecieron
oraciones. Los críticos del estudio señalaron una posible variable omitida: las oraciones
provenientes de otras fuentes. Como resumió el New York Times : “Los expertos dijeron que el
estudio no pudo superar quizás el mayor obstáculo para el estudio de la oración: la cantidad
desconocida de oración que cada persona recibió de amigos, familiares y congregaciones de todo el mundo qu
diariamente por los enfermos y moribundos”.
Experimentar con humanos puede hacer que te arresten o quizás te lleven a comparecer ante
algún tribunal penal internacional. Deberías ser consciente de esto.
Sin embargo, todavía hay espacio en las ciencias sociales para experimentos aleatorios y
controlados con “sujetos humanos”. Un experimento famoso e influyente es el experimento del
Proyecto STAR de Tennessee, que probó el efecto de clases más pequeñas en el aprendizaje
de los estudiantes. La relación entre el tamaño de la clase y el aprendizaje es enormemente
importante. Las naciones de todo el mundo están luchando por mejorar los resultados educativos.
Si las clases más pequeñas promueven un aprendizaje más eficaz, ceteris paribus, entonces la
sociedad debería invertir en contratar más profesores para reducir el tamaño de las clases. Al
mismo tiempo, contratar profesores es caro; Si a los estudiantes de clases más pequeñas les
va mejor por razones no relacionadas con el tamaño de la clase, entonces podríamos terminar
desperdiciando una enorme cantidad de dinero.
La relación entre el tamaño de la clase y el rendimiento de los estudiantes es
sorprendentemente difícil de estudiar. Las escuelas con clases pequeñas generalmente tienen
mayores recursos, lo que significa que es probable que tanto los estudiantes como los profesores
sean diferentes de los estudiantes y profesores de las escuelas con clases más grandes. Y
dentro de las escuelas, las clases más pequeñas tienden a ser más pequeñas por una razón.
Un director puede asignar estudiantes difíciles a una clase pequeña, en cuyo caso podríamos
encontrar una asociación negativa espuria entre las clases más pequeñas y el rendimiento de
los estudiantes. O los profesores veteranos pueden optar por impartir clases pequeñas, en cuyo
caso el beneficio de las clases pequeñas puede provenir de los profesores que eligen impartirlas
y no de la menor proporción alumnosmaestro.
A partir de 1985, el Proyecto STAR de Tennessee realizó un experimento controlado para
probar los efectos de clases más pequeñas. 3 (Lamar Alexander era gobernador de Tennessee
en ese momento; luego pasó a ser secretario de educación durante la presidencia de George
HW Bush.) En el jardín de infantes, los estudiantes de setenta y nueve escuelas diferentes
fueron asignados al azar a una clase pequeña (de 13 a 17 años). estudiantes), una clase regular
(22 a 25 estudiantes) o una clase regular con un maestro regular y un asistente de maestro. Los
profesores también fueron asignados aleatoriamente a las diferentes aulas. Los estudiantes
permanecieron en el tipo de clase al que fueron asignados aleatoriamente hasta el tercer grado.
Diversas realidades de la vida erosionaron la aleatorización. Algunos estudiantes ingresaron al
sistema en medio del experimento; otros se fueron. Algunos estudiantes fueron trasladados de
una clase a otra por motivos disciplinarios; algunos padres presionaron con éxito para que los
estudiantes fueran trasladados a clases más pequeñas. Etcétera.
Aún así, el Proyecto STAR sigue siendo la única prueba aleatoria de los efectos de las clases
más pequeñas. Los resultados resultaron ser estadística y socialmente significativos. En general,
los estudiantes de las clases pequeñas obtuvieron 0,15 desviaciones estándar mejores en
exámenes estandarizados que los estudiantes en las clases de tamaño regular; los estudiantes negros
en clases pequeñas obtuvieron ganancias que fueron el doble. Ahora las malas noticias. El experimento
del Proyecto STAR costó aproximadamente 12 millones de dólares. El estudio sobre el efecto de la
oración en las complicaciones posquirúrgicas costó 2,4 millones de dólares. Los mejores estudios son
como cualquier otra cosa: cuestan mucho dinero.
Experimento natural. No todo el mundo dispone de millones de dólares para crear un ensayo aleatorio
de gran tamaño. Una alternativa más económica es explotar un experimento natural, que ocurre
cuando circunstancias aleatorias de alguna manera crean algo parecido a un experimento aleatorio y
controlado. Este fue el caso de nuestro ejemplo de la policía de Washington, DC, al comienzo del
capítulo.
A veces la vida crea un grupo de tratamiento y control por accidente; cuando eso ocurre, los
investigadores están ansiosos por aprovechar los resultados. Consideremos el sorprendente pero
complicado vínculo entre educación y longevidad. Las personas que reciben más educación tienden a
vivir más tiempo, incluso después de controlar aspectos como los ingresos y el acceso a la atención
médica. Como ha señalado el New York Times : “El único factor social que los investigadores coinciden
en que está constantemente vinculado con vidas más largas en todos los países donde se ha estudiado
es la educación. Es más importante que la raza; borra cualquier efecto de los ingresos”.
4
Pero hasta ahora, eso es sólo una correlación. ¿Más
educación, ceteris paribus, produce mejor salud? Si piensa en la educación en sí misma como el
“tratamiento”, ¿obtener más educación le hará vivir más tiempo?
Ésta parecería una cuestión casi imposible de estudiar, ya que las personas que eligen recibir más
educación son diferentes de las que no lo hacen. La diferencia entre los graduados de la escuela
secundaria y los graduados universitarios no es sólo cuatro años de escolarización. Fácilmente podría
haber algunas características no observables compartidas por las personas que siguen una educación
que también expliquen su mayor esperanza de vida. Si ese es el caso, ofrecer más educación a
quienes habrían elegido menos educación en realidad no mejorará su salud. La mejora de la salud no
sería función de la educación incremental; sería una función del tipo de personas que persiguen esa
educación incremental.
No podemos realizar un experimento aleatorio para resolver este enigma, porque eso implicaría
que algunos participantes abandonaran la escuela antes de lo que les gustaría. (Intenta explicarle a
alguien que no puede ir a la universidad, nunca, porque está en el grupo de control.) La única prueba
posible del efecto causal de la educación sobre la longevidad sería algún tipo de experimento que
obligara a un gran segmento de que la población permanezca en la escuela más tiempo del que sus
miembros elegirían. Esto es al menos moralmente aceptable, ya que esperamos un efecto positivo del
tratamiento. Aún así, no podemos obligar a los niños a permanecer en la escuela; ese no es el
Al estilo americano.
Ah, pero lo es. Cada estado tiene algún tipo de ley de escolarización mínima y en diferentes
momentos de la historia esas leyes han cambiado. Ese tipo de cambio exógeno en el nivel
educativo (lo que significa que no es causado por los individuos estudiados) es exactamente el
tipo de cosa que hace que los investigadores se desmayen de emoción. Adriana LlerasMuney,
estudiante de posgrado en Columbia, vio el potencial de la investigación en el hecho de que
diferentes estados han cambiado sus leyes de escolaridad mínima en diferentes momentos.
Retrocedió en la historia y estudió la relación entre el momento en que los estados cambiaron
sus leyes de escolarización mínima y los cambios posteriores en la esperanza de vida en esos
estados (revisando muchísimos datos del censo). Todavía tenía un desafío metodológico; Si los
residentes de un estado viven más después de que el estado eleva su ley de escolarización
mínima, no podemos atribuir la longevidad a la escolarización adicional. La esperanza de vida
generalmente aumenta con el tiempo. La gente vivía más en 1900 que en 1850, sin importar lo
que hicieran los estados.
Sin embargo, LlerasMuney tenía un control natural: estados que no cambiaron sus leyes de escolaridad
mínima. Su trabajo se aproxima a un gigantesco experimento de laboratorio en el que los residentes de
Illinois se ven obligados a permanecer en la escuela durante siete años, mientras que sus vecinos de
Indiana pueden abandonar la escuela después de seis años. La diferencia es que este experimento
controlado fue posible gracias a un accidente histórico, de ahí el término "experimento natural".
¿Qué pasó? La esperanza de vida de los adultos que alcanzaron los treinta y cinco años se amplió en
un año y medio adicional simplemente por asistir un año más a la escuela. 5 Los resultados de Lleras
Muney se han replicado en otros países donde las variaciones en las leyes de escolarización obligatoria
han creado experimentos naturales similares. Es necesario cierto escepticismo. Todavía no entendemos
el mecanismo por el cual una escolarización adicional conduce a vidas más largas.
Control no equivalente. A veces, la mejor opción disponible para estudiar el efecto de un tratamiento es
crear grupos de tratamiento y control no aleatorios. Nuestra esperanza/expectativa es que los dos grupos
sean ampliamente similares a pesar de que las circunstancias no nos han permitido el lujo estadístico de
la aleatorización. La buena noticia es que tenemos un grupo de tratamiento y un grupo de control. La
mala noticia es que cualquier asignación no aleatoria crea al menos la posibilidad de sesgo. Puede haber
diferencias no observadas entre los grupos de tratamiento y control relacionadas con cómo se asigna a
los participantes a un grupo u otro. De ahí el nombre de “control no equivalente”.
Un grupo de control no equivalente todavía puede ser una herramienta muy útil. Reflexionemos sobre
la pregunta planteada en el título de este capítulo: ¿Existe una ventaja significativa en la vida para
¿Asistiendo a un colegio o universidad altamente selectiva? Obviamente, a los graduados de

Harvard, Princeton y Dartmouth de todo el mundo les va muy bien. En promedio, ganan más dinero
y tienen oportunidades de vida más amplias que los estudiantes que asisten a instituciones menos
selectivas. (Un estudio de 2008 realizado por PayScale.com encontró que el salario medio para los
graduados de Dartmouth con diez a veinte años de experiencia laboral era de 134.000 dólares, el
más alto de cualquier institución de pregrado; Princeton ocupaba el segundo lugar con una media
6
de 131.000 dólares.) Como espero que se dé cuenta a estas
alturas, estas impresionantes cifras no nos dicen absolutamente nada sobre el valor de una
educación en Dartmouth o Princeton. Los estudiantes que asisten a Dartmouth y Princeton tienen
talento cuando postulan; por eso son aceptados. Probablemente les iría bien en la vida sin importar
a qué universidad fueran.
Lo que no sabemos es el efecto terapéutico de asistir a un lugar como Harvard o Yale. ¿A los
graduados de estas instituciones de élite les va bien en la vida porque tenían mucho talento cuando
entraron al campus? ¿O estos colegios y universidades agregan valor al aceptar individuos
talentosos y hacerlos aún más productivos? ¿O ambos?
No podemos realizar un experimento aleatorio para responder a esta pregunta. Pocos

estudiantes de secundaria aceptarían ser asignados aleatoriamente a una universidad; Harvard y
Dartmouth tampoco estarían particularmente interesados en aceptar a los estudiantes que se les
asignaron al azar. Parece que nos quedamos sin ningún mecanismo para probar el valor del efecto
del tratamiento. ¡Astucia al rescate! economistas
*
Stacy Dale y Alan Krueger encontraron una manera de responder a esta pregunta aprovechando
7
el hecho de que muchos estudiantes postulan a varias universidades. Algunos de esos estudiantes
son aceptados en una escuela altamente selectiva y eligen asistir a esa escuela; otros son
aceptados en una escuela altamente selectiva pero eligen asistir a un colegio o universidad menos
selectiva. ¡Bingo! Ahora tenemos un grupo de tratamiento (aquellos estudiantes que asistieron a
colegios y universidades altamente selectivos) y un grupo de control no equivalente (aquellos
estudiantes que tenían el talento suficiente para ser aceptados en una escuela de este tipo pero
optaron por asistir a una institución menos selectiva).
†
Dale y Krueger estudiaron datos longitudinales sobre los ingresos de ambos grupos.
Esta no es una comparación perfecta de manzanas con manzanas, y los ingresos claramente no
son el único resultado de vida que importa, pero sus hallazgos deberían aliviar las ansiedades de
los estudiantes de secundaria sobrecargados y de sus padres. Los estudiantes que asistieron a
universidades más selectivas obtuvieron aproximadamente lo mismo que los estudiantes de
habilidades aparentemente similares que asistieron a escuelas menos selectivas. La única
excepción fueron los estudiantes de familias de bajos ingresos, que ganaban más si asistían a un
colegio o universidad selectiva. El enfoque de Dale y Krueger es una forma elegante de resolver los problemas
efecto del tratamiento (pasar cuatro años en una institución de élite) del efecto de selección
(los estudiantes más talentosos son admitidos en esas instituciones). En un resumen de la
investigación para el New York Times, Alan Krueger respondió indirectamente a la pregunta
planteada en el título de este capítulo: “Reconoce que tu propia motivación, ambición y
talentos determinarán tu éxito más que el nombre de la universidad en tu diploma. "
8
Diferencia en diferencias. Una de las mejores formas de observar causa y efecto es hacer
algo y luego ver qué sucede. Después de todo, así es como los bebés y los niños pequeños
(y a veces los adultos) aprenden sobre el mundo. Mis hijos aprendieron muy rápidamente
que si arrojaban trozos de comida por la cocina (causa), el perro corría ansioso tras ellos
(efecto). Presumiblemente, el mismo poder de observación puede ayudar a informar el
resto de la vida. Si recortamos los impuestos y la economía mejora, entonces los recortes
de impuestos deben haber sido responsables.
Tal vez. El enorme peligro potencial de este enfoque es que la vida tiende a ser más
compleja que tirar nuggets de pollo por la cocina. Sí, es posible que hayamos recortado
los impuestos en un momento específico, pero hubo otras “intervenciones” que se
desarrollaron aproximadamente durante el mismo período: más mujeres iban a la
universidad, Internet y otras innovaciones tecnológicas estaban elevando la productividad
de los trabajadores estadounidenses, la La moneda china estaba subvaluada, los
Cachorros de Chicago despidieron a su gerente general, y así sucesivamente. Lo que
ocurrió después del recorte de impuestos no puede atribuirse únicamente al recorte de
impuestos. El desafío de cualquier tipo de análisis de “antes y después” es que el hecho
de que una cosa siga a otra no significa que exista una relación causal entre las dos.
Un enfoque de “diferencia en diferencias” puede ayudarnos a identificar los efectos de
alguna intervención haciendo dos cosas. Primero, examinamos los datos de “antes” y
“después” de cualquier grupo o jurisdicción que haya recibido el tratamiento, como las
cifras de desempleo de un condado que ha implementado un programa de capacitación laboral.
En segundo lugar, comparamos esos datos con las cifras de desempleo durante el mismo
período para un condado similar que no implementó ningún programa de este tipo.
La suposición importante es que los dos grupos utilizados para el análisis son en gran
medida comparables excepto por el tratamiento; como resultado, cualquier diferencia
significativa en los resultados entre los dos grupos puede atribuirse al programa o política
que se está evaluando. Por ejemplo, supongamos que un condado de Illinois implementa
un programa de capacitación laboral para combatir el alto desempleo. Durante los dos
años siguientes, la tasa de desempleo sigue aumentando. ¿Eso hace que el programa
sea un fracaso? ¿Quién sabe?
Efecto de la capacitación laboral sobre el desempleo en el condado A

Es posible que estén en juego otras fuerzas económicas amplias, incluida la posibilidad de
una crisis económica prolongada. Un enfoque de diferencias en diferencias compararía el
cambio en la tasa de desempleo a lo largo del tiempo en el condado que estamos evaluando
con la tasa de desempleo de un condado vecino sin programa de capacitación laboral; los dos
condados deben ser similares en todos los demás aspectos importantes: combinación de
industrias, demografía, etc. ¿Cómo cambia con el tiempo la tasa de desempleo en el condado
con el nuevo programa de capacitación laboral en relación con el condado que no implementó
dicho programa? Podemos inferir razonablemente el efecto del tratamiento del programa
comparando los cambios en los dos condados durante el período de estudio: la "diferencia en
diferencias". El otro condado en este estudio actúa efectivamente como grupo de control, lo
que nos permite aprovechar los datos recopilados antes y después de la intervención. Si el
grupo de control es bueno, estará expuesto a las mismas fuerzas más amplias que nuestro
grupo de tratamiento. El enfoque de diferencias en diferencias puede ser particularmente
esclarecedor cuando el tratamiento inicialmente parece ineficaz (el desempleo es mayor
después de que se implementa el programa que antes), sin embargo, el grupo de control nos
muestra que la tendencia habría sido aún peor en ausencia de la intervención. .
Efecto de la capacitación laboral sobre el desempleo en el condado A, con

Condado B como comparación
Análisis de discontinuidad. Una forma de crear un grupo de tratamiento y control es comparar

los resultados de algún grupo que apenas calificó para una intervención o tratamiento con los
resultados de un grupo que apenas no alcanzó el límite de elegibilidad y no recibió el tratamiento.
Aquellos individuos que se encuentran justo por encima y por debajo de algún límite arbitrario,
como la puntuación de un examen o un ingreso familiar mínimo, serán casi idénticos en muchos
aspectos importantes; el hecho de que un grupo recibiera el tratamiento y el otro no es
esencialmente arbitrario. Como resultado, podemos comparar sus resultados de manera que
proporcionen resultados significativos sobre la efectividad de la intervención relevante.
Supongamos que un distrito escolar exige clases de verano para los estudiantes con
dificultades. Al distrito le gustaría saber si el programa de verano tiene algún valor académico a
largo plazo. Como siempre, una simple comparación entre los estudiantes que asisten a la
escuela de verano y los que no, sería peor que inútil. Los estudiantes que asisten a la escuela
de verano están allí porque tienen dificultades. Incluso si el programa de escuela de verano es
muy eficaz, a los estudiantes participantes probablemente les irá peor a largo plazo que a los
estudiantes a los que no se les exigió asistir a la escuela de verano. Lo que queremos saber es
cómo se desempeñan los estudiantes con dificultades después de asistir a la escuela de verano
en comparación con cómo les habría ido si no hubieran asistido a la escuela de verano. Sí,
podríamos hacer algún tipo de experimento controlado en el que los estudiantes con dificultades
sean seleccionados al azar para asistir a la escuela de verano o no, pero eso implicaría negarle
al grupo de control el acceso a un programa que creemos que sería útil.
En cambio, los grupos de tratamiento y control se crean comparando a aquellos estudiantes

que apenas estuvieron por debajo del umbral para la escuela de verano con aquellos que apenas
escaparon. Piénselo: los estudiantes que reprueban un examen parcial son apreciablemente
diferentes de los estudiantes que no reprueban el examen parcial. Pero los estudiantes
que obtienen un 59 por ciento (una calificación reprobatoria) no son apreciablemente diferentes de
aquellos estudiantes que obtienen un 60 por ciento (una calificación aprobatoria). Si aquellos que
no aprueban el examen parcial están inscritos en algún tratamiento, como tutoría obligatoria para
el examen final, entonces tendríamos un grupo de tratamiento y control razonable si comparamos
las puntuaciones del examen final de aquellos que apenas reprobaron el examen parcial (y
recibieron tutoría). con las puntuaciones de aquellos que apenas aprobaron el examen parcial (y
no recibieron tutoría).
Este enfoque se utilizó para determinar la eficacia del encarcelamiento de delincuentes juveniles
como elemento disuasivo de delitos futuros. Obviamente, este tipo de análisis no puede
simplemente comparar las tasas de reincidencia de los delincuentes juveniles que están
encarcelados con las tasas de reincidencia de los delincuentes juveniles que recibieron sentencias
más leves. Los delincuentes juveniles que son enviados a prisión suelen cometer delitos más
graves que los delincuentes juveniles que reciben sentencias más leves; por eso van a prisión.
Tampoco podemos crear un grupo de tratamiento y control distribuyendo las penas de prisión al
azar (a menos que quieras arriesgarte a veinticinco años en la casa grande la próxima vez que
hagas un giro ilegal a la derecha en rojo). Randi Hjalmarsson, ahora investigador de la Universidad
de Londres, aprovechó las rígidas pautas de sentencia para delincuentes juveniles en el estado de
Washington para comprender mejor el efecto causal de una sentencia de prisión en el
comportamiento criminal futuro.
Específicamente, comparó la tasa de reincidencia de aquellos delincuentes juveniles que “apenas”
fueron sentenciados a prisión con la tasa de reincidencia de aquellos jóvenes que “apenas”
obtuvieron un pase (que generalmente implicaba una multa o libertad condicional).
9
El sistema de justicia penal de Washington crea una cuadrícula para cada delincuente
condenado que se utiliza para administrar una sentencia. El eje x mide los delitos adjudicados
anteriormente al delincuente. Por ejemplo, cada delito grave anterior cuenta como un punto; cada
delito menor anterior cuenta como un cuarto de punto. El total de puntos se redondea a la baja a
un número entero (lo cual será importante en un momento). Mientras tanto, el eje y mide la
gravedad del delito actual en una escala que va desde E (menos grave) hasta A+ (más grave). La
sentencia de un menor condenado se calcula literalmente encontrando la casilla correspondiente
en la cuadrícula: un delincuente con dos puntos de delitos anteriores que comete un delito grave
de Clase B recibirá de quince a treinta y seis meses en una cárcel juvenil. Un delincuente
condenado con solo un punto por delitos anteriores que cometa el mismo delito no será enviado a
prisión. Esa discontinuidad es lo que motivó la estrategia de investigación. Hjalmarsson comparó
los resultados de los delincuentes condenados que se encontraban justo por encima y por debajo
del umbral para una sentencia de cárcel. Como explica en el artículo, “si hay dos individuos con
una clase de delito actual de C+ y puntuaciones de adjudicación [anteriores] de 2¾ y 3, entonces
sólo el último individuo será sentenciado a prisión estatal”.
Para fines de investigación, esos dos individuos son esencialmente iguales, hasta que uno de
ellos va a la cárcel. Y en ese punto, su comportamiento parece divergir marcadamente. Los
delincuentes juveniles que van a la cárcel tienen muchas menos probabilidades de ser
condenados por otro delito (después de salir de la cárcel).
Nos preocupamos por lo que funciona. Esto es cierto en la medicina, en la economía, en los
negocios, en la justicia penal... en todo. Sin embargo, la causalidad es un hueso duro de roer,
incluso en los casos en los que la causa y el efecto parecen sorprendentemente obvios. Para
comprender el verdadero impacto de un tratamiento, necesitamos conocer el “contrafactual”, que
es lo que habría sucedido en ausencia de ese tratamiento o intervención. A menudo el
contrafactual es difícil o imposible de observar. Consideremos un ejemplo no estadístico: ¿la
invasión estadounidense de Irak hizo que Estados Unidos fuera más seguro?
Sólo hay una respuesta intelectualmente honesta: nunca lo sabremos. La razón por la que
nunca lo sabremos es que no sabemos –y no podemos saber– qué habría pasado si Estados
Unidos no hubiera invadido Irak. Es cierto que Estados Unidos no encontró armas de destrucción
masiva. Pero es posible que el día después de que Estados Unidos no invadiera Irak, Saddam
Hussein se hubiera metido en la ducha y se hubiera dicho: “Realmente me vendría bien una
bomba de hidrógeno. ¿Me pregunto si los norcoreanos me venderán uno? Después de eso,
¿quién sabe?
Por supuesto, también es posible que Saddam Hussein se hubiera metido en esa misma
ducha el día después de que Estados Unidos no invadió Irak y se dijera a sí mismo: "Realmente
me vendría bien...", momento en el que se resbaló en una pastilla de jabón. se golpeó la cabeza
con un adorno de mármol y murió. En ese caso, el mundo se habría librado de Saddam Hussein
sin los enormes costos asociados con la invasión estadounidense. ¿Quién sabe qué hubiera
pasado?
El propósito de cualquier evaluación de programa es proporcionar algún tipo de contrafactual
contra el cual se pueda medir un tratamiento o intervención. En el caso de un experimento
controlado y aleatorio, el grupo de control es el contrafactual. En los casos en que un experimento
controlado sea poco práctico o inmoral, necesitamos encontrar alguna otra forma de aproximarnos
al contrafactual. Nuestra comprensión del mundo depende de encontrar formas inteligentes de
hacerlo.
* Los participantes sabían que estaban participando en un ensayo clínico y que podrían recibir la cirugía simulada.
* A los investigadores les encanta usar la palabra "explotar". Tiene un significado específico en términos de aprovechar alguna
oportunidad relacionada con los datos. Por ejemplo, cuando los investigadores encuentran algún experimento natural que
crea un grupo de tratamiento y control, describirán cómo planean "explotar la variación en los datos". † Aquí existe
potencial de sesgo. Ambos grupos de estudiantes tienen el talento suficiente para ingresar a una escuela altamente selectiva.
Sin embargo, un grupo de estudiantes optó por ir a dicha escuela y el otro grupo no. El grupo de estudiantes que eligió asistir
a una escuela menos selectiva puede estar menos motivado, ser menos trabajador o diferente en otros aspectos que no
podemos observar. Si Dale y Krueger hubieran descubierto que los estudiantes que asisten a una escuela altamente selectiva
tenían mayores ingresos a lo largo de su vida que los estudiantes que fueron aceptados en dicha escuela pero
En cambio, fuimos a una universidad menos selectiva, todavía no podíamos estar seguros de si la diferencia se debía a la
escuela selectiva o al tipo de estudiante que optó por asistir a dicha escuela cuando se le dio la opción. Sin embargo, este
posible sesgo resulta poco importante en el estudio de Dale y Krueger debido a su dirección.
Dale y Krueger encuentran que los estudiantes que asistieron a escuelas altamente selectivas no ganaron significativamente
más en la vida que los estudiantes que fueron aceptados pero fueron a otra parte a pesar de que los estudiantes que
rechazaron asistir a una escuela altamente selectiva pueden haber tenido atributos que les llevaron a ganar dinero. menos
en la vida aparte de su educación. En todo caso, el sesgo aquí hace que los hallazgos exageren los beneficios pecuniarios
de asistir a una universidad altamente selectiva, que de todos modos resultan ser insustanciales.
Conclusión
Cinco preguntas que las estadísticas
pueden ayudar a responder
No hace mucho tiempo, era mucho más difícil reunir información y mucho más
caro de analizar. Imagínese estudiar la información de un millón de transacciones con tarjetas
de crédito en la época (hace sólo unas décadas) en la que sólo existían recibos en papel y no
había computadoras personales para analizar los datos acumulados.
Durante la Gran Depresión, no hubo estadísticas oficiales con las que medir la profundidad de
los problemas económicos. El gobierno no recopiló información oficial ni sobre el producto interno
bruto (PIB) ni sobre el desempleo, lo que significa que los políticos intentaban hacer el equivalente
económico de navegar a través de un bosque sin brújula. Herbert Hoover declaró que la Gran
Depresión había terminado en 1930, basándose en los datos inexactos y obsoletos disponibles.
En su discurso sobre el Estado de la Unión le dijo al país que dos millones y medio de
estadounidenses estaban sin trabajo. De hecho, cinco millones de estadounidenses estaban
desempleados y el desempleo aumentaba en cien mil personas cada semana. Como observó
recientemente James Surowiecki en The New Yorker, “Washington estaba formulando políticas
a oscuras”.
1
Ahora estamos inundados de datos. En su mayor parte, eso es algo bueno. Las herramientas
estadísticas presentadas en este libro pueden utilizarse para abordar algunos de nuestros
desafíos sociales más importantes. En ese sentido, pensé que sería apropiado terminar el libro
con preguntas, no con respuestas. Mientras intentamos digerir y analizar cantidades asombrosas
de información, he aquí cinco preguntas importantes (y ciertamente aleatorias) cuyas respuestas
socialmente significativas implicarán muchas de las herramientas presentadas en este libro.
¿CUÁL ES EL FUTURO DEL FÚTBOL?
En 2009, Malcolm Gladwell planteó una pregunta en un artículo del New Yorker que al principio
me pareció innecesariamente sensacionalista y provocativa: ¿Qué tan diferentes son las peleas
de perros y el fútbol? 2 La conexión entre las dos actividades surgió del hecho de que el mariscal
de campo Michael Vick, que había cumplido condena en prisión por su
participación en una red de peleas de perros, había sido reincorporado a la Liga Nacional de Fútbol
justo cuando comenzaba a surgir información de que los traumatismos craneales relacionados con el
fútbol pueden estar asociados con depresión, pérdida de memoria, demencia y otros problemas
neurológicos más adelante en la vida. La premisa central de Gladwell era que tanto el fútbol profesional
como las peleas de perros son inherentemente devastadores para los participantes. Al final del
artículo, estaba convencido de que había planteado un punto intrigante.
Esto es lo que sabemos. Cada vez hay más pruebas de que las conmociones cerebrales y otras
lesiones cerebrales asociadas con el fútbol pueden causar daños neurológicos graves y permanentes.
(Se han observado fenómenos similares en boxeadores y jugadores de hockey). Muchos exjugadores
destacados de la NFL han compartido públicamente sus batallas posteriores al fútbol contra la
depresión, la pérdida de memoria y la demencia. Quizás el más conmovedor fue Dave Duerson, ex
safety y ganador del Super Bowl de los Chicago Bears, quien se suicidó pegándose un tiro en el
pecho; Dejó instrucciones explícitas a su familia para que estudiaran su cerebro después de su muerte.
En una encuesta telefónica realizada a mil exjugadores de la NFL seleccionados al azar que
habían jugado al menos tres años en la liga, el 6,1 por ciento de los exjugadores mayores de cincuenta
años informaron que habían recibido un diagnóstico de “demencia, enfermedad de Alzheimer u otras
enfermedades relacionadas con la memoria”. enfermedad." Eso es cinco veces el promedio nacional
para ese grupo de edad. Para los jugadores más jóvenes, la tasa de diagnóstico fue diecinueve veces
mayor que el promedio nacional. Cientos de exjugadores de la NFL han demandado tanto a la liga
como a los fabricantes de cascos de fútbol americano por supuestamente ocultar información sobre
3
los peligros de los traumatismos craneales.
Uno de los investigadores que estudia los impactos del trauma cerebral es Ann McKee, que dirige
el laboratorio de neuropatología del Hospital de Veteranos de Bedford, Massachusetts. (Casualmente,
McKee también realiza el trabajo de neuropatología para el Framingham Heart Study). El Dr. McKee
ha documentado la acumulación de proteínas anormales llamadas tau en el cerebro de atletas que
han sufrido traumatismos cerebrales, como boxeadores y jugadores de fútbol. Esto conduce a una
afección conocida como encefalopatía traumática crónica o CTE, que es un trastorno neurológico
progresivo que tiene muchas de las mismas manifestaciones que el Alzheimer.
Mientras tanto, otros investigadores han estado documentando la conexión entre el fútbol y el
trauma cerebral. Kevin Guskiewicz, que dirige el Programa de Investigación de Concusiones
Deportivas de la Universidad de Carolina del Norte, ha instalado sensores en el interior de los cascos
de los jugadores de fútbol de Carolina del Norte para registrar la fuerza y la naturaleza de los golpes
en la cabeza. Según sus datos, los jugadores reciben habitualmente golpes en la cabeza con una
fuerza equivalente a golpear el parabrisas en un accidente automovilístico a veinticinco millas por hora.
Esto es lo que no sabemos. ¿Se han descubierto hasta ahora pruebas de lesiones cerebrales?
¿Representativo de los riesgos neurológicos a largo plazo que enfrentan todos los jugadores de
fútbol profesionales? ¿O podría tratarse simplemente de un “grupo” de resultados adversos que
constituye una aberración estadística? Incluso si resulta que los jugadores de fútbol enfrentan
riesgos significativamente mayores de sufrir trastornos neurológicos en el futuro, aún tendríamos
que investigar la causalidad. ¿Podría el tipo de hombres que juegan al fútbol (y al boxeo y al hockey)
ser propensos a sufrir este tipo de problemas? ¿Es posible que otros factores, como el uso de
esteroides, contribuyan a los problemas neurológicos en el futuro?
Si la evidencia acumulada sugiere un vínculo causal claro entre jugar fútbol americano y una
lesión cerebral a largo plazo, los jugadores (y los padres de los jugadores más jóvenes), los
entrenadores, los abogados, los funcionarios de la NFL y quizás incluso los padres de los jugadores
más jóvenes tendrán que abordar una pregunta primordial. Reguladores gubernamentales: ¿Existe
alguna forma de jugar fútbol que reduzca la mayor parte o la totalidad del riesgo de traumatismo
craneoencefálico? Si no, ¿entonces qué? Este es el punto detrás de la comparación que hace
Malcolm Gladwell entre el fútbol y las peleas de perros. Explica que las peleas de perros son
aborrecibles para el público porque el dueño del perro voluntariamente somete a su perro a una
competencia que culmina en sufrimiento y destrucción. "¿Y por qué?" él pide. “Para el entretenimiento
de una audiencia y la posibilidad de ganar un día de pago. En el siglo XIX, las peleas de perros
eran ampliamente aceptadas por el público estadounidense. Pero ya no consideramos que ese tipo
de transacción sea moralmente aceptable en un deporte”.
Casi todos los tipos de análisis estadístico descritos en este libro se utilizan actualmente para
determinar si el fútbol profesional tal como lo conocemos ahora tiene futuro.
¿QUÉ ESTÁ CAUSANDO (SI HAY ALGO) EL DRAMÁTICO

AUMENTO EN LA INCIDENCIA DEL AUTISMO?
En 2012, los Centros para el Control de Enfermedades informaron que 1 de cada 88 niños
estadounidenses había sido diagnosticado con un trastorno del espectro autista (según datos de
4
2008). La tasa de diagnóstico había aumentado de 1 entre 110 en 2006 y 1 entre 150 en
2002, o casi el doble en menos de una década. Los trastornos del espectro autista (TEA) son un
grupo de discapacidades del desarrollo caracterizadas por un desarrollo atípico en la socialización,
la comunicación y el comportamiento. El "espectro" indica que el autismo abarca una amplia gama
de condiciones definidas conductualmente. 5 Los niños tienen cinco veces más probabilidades de
ser diagnosticados con un TEA que las niñas (lo que significa que la incidencia en los niños es
incluso mayor que 1 en 88).
La primera pregunta estadística intrigante es si estamos experimentando una epidemia de autismo, una “epidemia de diagnóstico”
o alguna combinación de ambas. 6 En décadas anteriores, los niños con un trastorno del espectro autista tenían dos. síntomas que
podrían no haber sido diagnosticados, o sus desafíos de desarrollo

podría haberse descrito de manera más general como una “dificultad de aprendizaje”. Los médicos, padres
y profesores son ahora mucho más conscientes de los síntomas de los TEA, lo que naturalmente conduce
a más diagnósticos independientemente de si la incidencia del autismo está aumentando o no.
En cualquier caso, la incidencia sorprendentemente alta de los TEA representa un serio desafío para las
familias, las escuelas y el resto de la sociedad. El coste medio de por vida del tratamiento de un trastorno
del espectro autista para un solo individuo es de 3,5 millones de dólares.
7
A pesar de lo que es claramente una epidemia, sabemos sorprendentemente poco
sobre las causas de esta afección. Thomas Insel, director del Instituto Nacional de Salud Mental, ha dicho:
“¿Son los teléfonos móviles? ¿Ultrasonido? ¿Refrescos dietéticos? Cada padre tiene una teoría. En este
punto, simplemente no lo sabemos”. 8 ¿Qué es diferente o único en las
vidas y los antecedentes de los niños con TEA? ¿Cuáles son las diferencias fisiológicas más significativas
entre niños con y sin TEA? ¿La incidencia de los TEA es diferente entre países?
Si es así, ¿por qué? El trabajo tradicional de detective estadístico está encontrando pistas.
Un estudio reciente realizado por investigadores de la Universidad de California en Davis identificó diez
lugares en California con tasas de autismo que duplican las tasas de las áreas circundantes; Cada uno de
los grupos de autismo es un vecindario con una concentración de padres blancos y con un alto nivel
9
educativo. ¿Es eso una pista o una coincidencia?
¿O podría reflejar que las familias relativamente privilegiadas tienen más probabilidades de que se les
diagnostique un trastorno del espectro autista? Los mismos investigadores también están realizando un
estudio en el que recolectarán muestras de polvo de los hogares de 1.300 familias con un niño autista para
realizar pruebas de sustancias químicas u otros contaminantes ambientales que puedan desempeñar un
papel causal.
Mientras tanto, otros investigadores han identificado lo que parece ser una herencia genética.
10
componente del autismo mediante el estudio de los TEA entre gemelos idénticos y fraternos.
La probabilidad de que dos niños de la misma familia tengan un TEA es mayor entre gemelos idénticos (que
comparten la misma composición genética) que entre gemelos fraternos (cuya similitud genética es la misma
que la de los hermanos normales). Este hallazgo no descarta factores ambientales importantes, o quizás la
interacción entre factores ambientales y genéticos. Después de todo, la enfermedad cardíaca tiene un
componente genético importante, pero claramente el tabaquismo, la dieta, el ejercicio y muchos otros
factores ambientales y de comportamiento también importan.
Una de las contribuciones más importantes del análisis estadístico hasta ahora ha sido desacreditar
causas falsas, muchas de las cuales han surgido debido a una confusión entre correlación y causalidad. Un
trastorno del espectro autista suele aparecer repentinamente entre el primer y segundo cumpleaños de un
niño. Esto ha llevado a una creencia generalizada de que las vacunas infantiles, en particular la vacuna
triple para
El sarampión, las paperas y la rubéola (MMR) están provocando la creciente incidencia del autismo.
Dan Burton, miembro del Congreso de Indiana, dijo al New York Times: “Mi nieto recibió nueve inyecciones en un día, siete de las cuales
contenían timerosal, que, como usted sabe, tiene un 50 por ciento de mercurio, y poco tiempo después se volvió autista. .”
Los científicos han refutado rotundamente la falsa asociación entre el timerosal y los TEA. Las tasas
de autismo no disminuyeron cuando se eliminó el timerosal de la vacuna MMR, ni las tasas de autismo
son más bajas en países que nunca usaron esta vacuna. Sin embargo, persiste la falsa conexión, que
ha provocado que algunos padres se nieguen a vacunar a sus hijos. Irónicamente, esto no ofrece
protección contra el autismo y al mismo tiempo pone a los niños en riesgo de contraer otras enfermedades
graves (y contribuye a la propagación de esas enfermedades entre la población).
El autismo plantea uno de los mayores desafíos médicos y sociales de nuestros días. Entendemos
muy poco sobre el trastorno en relación con su enorme (y posiblemente creciente) impacto en nuestro
bienestar colectivo. Los investigadores están utilizando todas las herramientas de este libro (y muchas
más) para cambiar eso.
¿CÓMO PODEMOS IDENTIFICAR Y PREMIAR A LOS BUENOS

MAESTROS Y ESCUELAS?
Necesitamos buenas escuelas. Y necesitamos buenos profesores para tener buenas escuelas. Por lo
tanto, se deduce lógicamente que debemos recompensar a los buenos profesores y a las buenas
escuelas, mientras que despedimos a los malos profesores y cerramos las malas escuelas.
¿Cómo exactamente hacemos eso?
Los resultados de los exámenes nos dan una medida objetiva del desempeño de los estudiantes. Sin
embargo, sabemos que a algunos estudiantes les irá mucho mejor en las pruebas estandarizadas que a
otros por razones que no tienen nada que ver con lo que sucede dentro de un aula o de una escuela. La
solución aparentemente sencilla es evaluar a las escuelas y a los profesores sobre la base del progreso
que logran sus estudiantes durante un período de tiempo. ¿Qué sabían los estudiantes cuando
comenzaron en un aula determinada con un maestro en particular?
¿Qué sabían un año después? La diferencia es el “valor agregado” en esa aula.
Incluso podemos usar estadísticas para tener una idea más refinada de este valor agregado al tomar
en cuenta las características demográficas de los estudiantes en un aula determinada, como la raza, los
ingresos y el desempeño en otras pruebas (que pueden ser una medida de aptitud). . Si un profesor
logra avances significativos con estudiantes que normalmente han tenido dificultades en el pasado,
entonces se le puede considerar muy eficaz.
¡Voilá! Ahora podemos evaluar la calidad de los docentes con precisión estadística. Y el
Las buenas escuelas, por supuesto, son sólo aquellas que están llenas de profesores eficaces.
¿Cómo funcionan en la práctica estas prácticas evaluaciones estadísticas? En 2012, la ciudad de Nueva
York dio el paso y publicó calificaciones de los 18.000 docentes de escuelas públicas sobre la base de una
“evaluación de valor agregado” que midió los avances en su desempeño.
12
los puntajes de las pruebas de los estudiantes teniendo en cuenta diversas características de los estudiantes.
Los Angeles Times publicó un conjunto similar de clasificaciones para los docentes de Los Ángeles en 2010.
Tanto en Nueva York como en Los Ángeles, la reacción ha sido ruidosa y mixta. Arne Duncan, el secretario de
Educación de Estados Unidos, en general ha apoyado este tipo de evaluaciones de valor agregado. Proporcionan
información donde antes no existía. Después de que se publicaron los datos de Los Ángeles, el secretario Duncan
dijo al New York Times: “El silencio no es una opción”. La administración Obama ha proporcionado incentivos
financieros para que los estados desarrollen indicadores de valor agregado para pagar y promover a los docentes.
Los defensores de estas medidas de evaluación señalan con razón que representan una enorme mejora potencial
con respecto a los sistemas en los que a todos los docentes se les paga de acuerdo con un plan salarial uniforme
que no da importancia a ninguna medida del desempeño en el aula.
Por otro lado, muchos expertos han advertido que este tipo de datos de evaluación docente tienen grandes
márgenes de error y pueden arrojar resultados engañosos.
El sindicato que representa a los docentes de la ciudad de Nueva York gastó más de 100.000 dólares en una
campaña publicitaria en un periódico basada en el titular “Esta no es manera de calificar a un docente”. 13 Los
opositores argumentan que las evaluaciones de valor agregado crean una precisión falsa que será abusada por
los padres y funcionarios públicos que no comprenden las limitaciones de este tipo de evaluación.
Este parece ser un caso en el que todo el mundo tiene razón, hasta cierto punto. Doug Staiger, economista
del Dartmouth College que trabaja extensamente con datos de valor agregado para docentes, advierte que
estos datos son inherentemente “ruidosos”. Los resultados de un profesor determinado a menudo se basan en
una única prueba realizada en un solo día por un solo grupo de estudiantes. Todo tipo de factores pueden
conducir a fluctuaciones aleatorias: cualquier cosa, desde un grupo de estudiantes particularmente difícil hasta
una unidad de aire acondicionado averiada que hace ruido en el aula el día del examen. La correlación en el
desempeño de un año a otro para un solo maestro que utiliza estos indicadores es sólo de aproximadamente
0,35. (Curiosamente, la correlación en el rendimiento año tras año de los jugadores de béisbol de las Grandes
Ligas también es de alrededor de 0,35, medida por el promedio de bateo de los bateadores y el promedio de
rendimiento acumulado de los lanzadores).
14
Los datos sobre la eficacia docente son útiles, afirma Staiger, pero son sólo una herramienta en el proceso
de evaluación del desempeño docente. Los datos se vuelven “menos ruidosos” cuando las autoridades tienen
más años de datos para un maestro en particular con diferentes
aulas de estudiantes (del mismo modo que podemos saber más sobre un atleta cuando tenemos
datos de más juegos y más temporadas). En el caso de las calificaciones de los docentes de la
ciudad de Nueva York, los directores del sistema habían sido preparados sobre el uso apropiado de
los datos de valor agregado y las limitaciones inherentes. El público no recibió esa información. Como
resultado, con demasiada frecuencia las evaluaciones de los docentes se consideran una guía
definitiva para distinguir entre los “buenos” y los “malos” docentes. Nos gustan las clasificaciones
(basta pensar en las clasificaciones universitarias de US News & World Report ), incluso cuando los
datos no respaldan tal precisión.
Staiger ofrece una advertencia final de otro tipo: será mejor que estemos seguros de que los
resultados que estamos midiendo, como los resultados de una determinada prueba estandarizada,
realmente corresponden a lo que nos importa a largo plazo. Algunos datos únicos de la Academia de
la Fuerza Aérea sugieren, como era de esperar, que los puntajes de las pruebas que brillan ahora
pueden no ser dorados en el futuro. La Academia de la Fuerza Aérea, al igual que otras academias
militares, asigna aleatoriamente a sus cadetes a diferentes secciones de cursos básicos
estandarizados, como la introducción al cálculo. Esta aleatorización elimina cualquier potencial efecto
de selección al comparar la efectividad de los profesores; Con el tiempo, podemos suponer que todos
los profesores obtienen estudiantes con aptitudes similares (a diferencia de la mayoría de las
universidades, donde estudiantes con diferentes habilidades pueden seleccionar dentro o fuera de
diferentes cursos). La Academia de la Fuerza Aérea también utiliza el mismo plan de estudios y
exámenes en cada sección de un curso en particular. Scott Carrell y James West, profesores de la
Universidad de California en Davis y de la Academia de la Fuerza Aérea, aprovecharon este elegante
arreglo para responder una de las preguntas más importantes en la educación superior: ¿qué
profesores son más eficaces? 15 La respuesta: los profesores con menos experiencia y menos
títulos de universidades elegantes. Estos profesores tienen estudiantes que generalmente obtienen
mejores resultados en los exámenes estandarizados de los cursos introductorios. También obtienen
mejores evaluaciones de los estudiantes para sus cursos. Es evidente que estos profesores jóvenes
y motivados están más comprometidos con su enseñanza que los viejos y malhumorados profesores
con doctorados de lugares como Harvard. Los viejos deben estar usando las mismas notas didácticas
amarillentas que usaron en 1978; probablemente piensen que PowerPoint es una bebida energética,
excepto que tampoco saben qué es una bebida energética. Obviamente los datos nos dicen que
deberíamos despedir a estos viejos, o al menos dejarlos retirarse con dignidad.
Pero espera. No despidamos a nadie todavía. El estudio de la Academia de la Fuerza Aérea arrojó
otro hallazgo relevante: el desempeño de los estudiantes en un horizonte más amplio.
Carrell y West descubrieron que en matemáticas y ciencias los estudiantes que tenían instructores
más experimentados (y con más credenciales) en los cursos introductorios obtuvieron mejores
resultados en sus cursos obligatorios de seguimiento que los estudiantes que tenían profesores
menos experimentados en los cursos introductorios. Una interpretación lógica es que es más probable
que los instructores menos experimentados “enseñen al
prueba” en el curso introductorio. Esto produce puntajes impresionantes en los exámenes y estudiantes felices
cuando se trata de completar la evaluación del instructor.
Mientras tanto, los viejos y malhumorados profesores (a quienes casi despedimos hace apenas un párrafo)
se centran menos en el examen y más en los conceptos importantes, que son lo más importante en los cursos
posteriores y en la vida después de la Academia de la Fuerza Aérea.
Es evidente que necesitamos evaluar a los profesores y profesores. Sólo tenemos que asegurarnos de
hacerlo bien. El desafío político a largo plazo, arraigado en las estadísticas, es desarrollar un sistema que
recompense el valor agregado real de un docente en el aula.
¿CUÁLES SON LAS MEJORES HERRAMIENTAS

PARA COMBATIR LA POBREZA GLOBAL?
Sabemos sorprendentemente poco sobre cómo hacer que los países pobres sean menos pobres. Es cierto que
entendemos las cosas que distinguen a los países ricos de los pobres, como sus niveles educativos y la calidad
de sus gobiernos. Y también es cierto que hemos visto a países como India y China transformarse
económicamente en las últimas décadas. Pero incluso con este conocimiento, no es obvio qué medidas podemos
tomar para que lugares como Mali o Burkina Faso sean menos pobres. ¿Por dónde deberíamos empezar?
La economista francesa Esther Duflo está transformando nuestro conocimiento sobre la pobreza global
adaptando una vieja herramienta a nuevos propósitos: el experimento aleatorio y controlado. Duflo, que enseña
en el MIT, literalmente conduce experimentos sobre diferentes intervenciones para mejorar las vidas de los
pobres en los países en desarrollo.
Por ejemplo, uno de los problemas de larga data de las escuelas en la India es el ausentismo entre los docentes,
particularmente en las escuelas rurales pequeñas con un solo docente. Duflo y su coautora Rema Hanna
probaron una solución inteligente basada en tecnología en una muestra aleatoria de 60 escuelas de un solo
maestro en el estado indio. A 16 maestros de estas 60 escuelas experimentales se les ofreció una bonificación
cámaras con de Rajasthan. por buena asistencia. Aquí está la parte creativa: los profesores recibieron
sellos de fecha y hora a prueba de manipulaciones. Demostraron que habían aparecido todos los días tomándose
una fotografía con sus alumnos.
17
El ausentismo se redujo a la mitad entre los docentes de las escuelas experimentales en comparación con
los docentes de un grupo de control seleccionado al azar de 60 escuelas.
Los puntajes de los exámenes de los estudiantes aumentaron y más estudiantes se graduaron al siguiente nivel
de educación. (¡Apuesto a que las fotos también son adorables!)
Uno de los experimentos de Duflo en Kenia implicó otorgar a un grupo de agricultores seleccionados al azar
un pequeño subsidio para comprar fertilizante inmediatamente después de la cosecha. La evidencia anterior
sugirió que los fertilizantes aumentan apreciablemente el rendimiento de los cultivos. Los agricultores eran
conscientes de este beneficio, pero cuando llegó el momento de sembrar un nuevo cultivo,
a menudo no les quedaba suficiente dinero de la última cosecha para comprar fertilizantes.
Esto perpetúa lo que se conoce como “trampa de la pobreza”, ya que los agricultores de
subsistencia son demasiado pobres para ser menos pobres. Duflo y sus coautores descubrieron
que un pequeño subsidio (la entrega gratuita de fertilizantes) ofrecido a los agricultores cuando
todavía tenían efectivo después de la cosecha aumentaba el uso de fertilizantes entre 10 y 20
puntos porcentuales en comparación con el uso en un grupo de control.
18
Esther Duflo incluso se ha metido en la guerra de género. ¿Quién es más responsable a la
hora de manejar las finanzas de la familia, los hombres o las mujeres? En los países ricos,
este es el tipo de cosas por las que las parejas pueden discutir en el asesoramiento matrimonial.
En los países pobres, esto puede literalmente determinar si los niños comen lo suficiente. La
evidencia anecdótica que se remonta a los albores de la civilización sugiere que las mujeres
dan una alta prioridad a la salud y el bienestar de sus hijos, mientras que los hombres son más
propensos a beber hasta su salario en el pub local (o lo que sea que fuera el equivalente
cavernícola). En el peor de los casos, esta evidencia anecdótica simplemente refuerza viejos
estereotipos. En el mejor de los casos, es algo difícil de demostrar, porque las finanzas de una
familia están mezcladas hasta cierto punto. ¿Cómo podemos separar cómo los maridos y las
esposas eligen gastar los recursos comunitarios?
Duflo no rehuyó esta delicada cuestión. 19 Al contrario, encontró
un experimento natural fascinante. En Costa de Marfil, las mujeres y los hombres de una
familia suelen compartir la responsabilidad de algunos cultivos. Por razones culturales de larga
data, hombres y mujeres también cultivan sus propios cultivos comerciales. (Los hombres
cultivan cacao, café y algunas otras cosas; las mujeres cultivan plátanos, cocos y algunos
otros cultivos). La belleza de este arreglo desde el punto de vista de la investigación es que
los cultivos de los hombres y los de las mujeres responden a los patrones de lluvia de
diferentes maneras. . En los años en los que al cacao y al café les va bien, los hombres tienen
más ingresos disponibles para gastar. En los años en los que a los plátanos y los cocos les va
bien, las mujeres tienen más dinero extra.
Ahora sólo necesitamos abordar una cuestión delicada: ¿Están mejor los niños de estas
familias en los años en que las cosechas de los hombres van bien o en los años en que las
mujeres obtienen una cosecha particularmente abundante?
La respuesta: cuando a las mujeres les va bien, gastan parte de su dinero extra en
Más comida para la familia. Los hombres no. Lo siento chicos.
En 2010, Duflo recibió la medalla John Bates Clark. Este premio lo entrega la Asociación
Económica Estadounidense al mejor economista menor de cuarenta años.
* Entre los economistas expertos, este premio se considera más prestigioso
que el Premio Nobel de Economía porque históricamente se concedía sólo cada dos años. (A
partir del premio de Duflo en 2010, la medalla ahora se entrega anualmente). En cualquier
caso, la Medalla Clark es la MVP.
Premio para personas con gafas gruesas (metafóricamente hablando).

Duflo está realizando una evaluación del programa. Su trabajo, y el de otros que ahora utilizan
sus métodos, está literalmente cambiando las vidas de los pobres. Desde un punto de vista
estadístico, el trabajo de Duflo nos ha animado a pensar más ampliamente sobre cómo los
experimentos aleatorios y controlados (que durante mucho tiempo se consideraron competencia
de las ciencias de laboratorio) pueden usarse más ampliamente para descubrir relaciones
causales en muchas otras áreas de la vida.
¿QUIÉN SABE QUÉ DE TI?
El verano pasado contratamos a una nueva niñera. Cuando llegó a la casa, comencé a explicarle
nuestros antecedentes familiares: “Soy profesor, mi esposa es maestra. . .”
“Oh, lo sé”, dijo la niñera con un gesto de la mano. "Te busqué en Google".
Me sentí al mismo tiempo aliviado de no tener que terminar mi perorata y ligeramente alarmado
por la cantidad de parte de mi vida que podría reconstruirse a partir de una breve búsqueda en
Internet. Nuestra capacidad para recopilar y analizar enormes cantidades de datos (la combinación
de información digital con potencia informática barata e Internet) es única en la historia de la
humanidad. Vamos a necesitar algunas reglas nuevas para esta nueva era.
Pongamos en perspectiva el poder de los datos con solo un ejemplo del minorista Target.
Como la mayoría de las empresas, Target se esfuerza por aumentar las ganancias comprendiendo
a sus clientes. Para ello, la empresa contrata a estadísticos para que realicen el tipo de “análisis
predictivo” descrito anteriormente en el libro; utilizan datos de ventas combinados con otra
información sobre los consumidores para determinar quién compra qué y por qué. Nada de esto
es intrínsecamente malo, porque significa que es probable que el objetivo cercano a usted tenga
exactamente lo que usted desea.
Pero analicemos por un momento sólo un ejemplo del tipo de cosas que los estadísticos que
trabajan en el sótano sin ventanas de la sede corporativa pueden descifrar. Target ha aprendido
que el embarazo es un momento particularmente importante en términos del desarrollo de
patrones de compras. Las mujeres embarazadas desarrollan “relaciones minoristas” que pueden
durar décadas. Como resultado, Target quiere identificar a las mujeres embarazadas,
particularmente aquellas en su segundo trimestre, y llevarlas a sus tiendas con más frecuencia.
Un escritor de la revista New York Times siguió al equipo de análisis predictivo de Target en su
intento de encontrar y atraer
20
compradoras embarazadas.
La primera parte es fácil. Target tiene un registro de baby shower en el que las mujeres
embarazadas se registran para recibir regalos para bebés antes del nacimiento de sus hijos.
Estas mujeres ya son compradoras de Target y efectivamente le han dicho a la tienda que están
embarazadas. Pero aquí está el giro estadístico: Target descubrió que otras mujeres que
demuestran los mismos patrones de compra probablemente también estén embarazadas.
Por ejemplo, las mujeres embarazadas suelen cambiar a lociones sin perfume. ellos comienzan a
comprar suplementos vitamínicos. Empiezan a comprar bolsas extragrandes de bolas de algodón.

Los gurús del análisis predictivo de Target identificaron veinticinco productos que en conjunto
hicieron posible una "puntuación de predicción de embarazo". El objetivo de este análisis era
enviar cupones relacionados con el embarazo a mujeres embarazadas con la esperanza de
atraerlas como compradoras de Target a largo plazo.
¿Qué tan bueno fue el modelo? El New York Times Magazine publicó una historia sobre un
hombre de Minneapolis que entró en una tienda Target y exigió ver a un gerente. El hombre
estaba furioso porque su hija de la escuela secundaria estaba siendo bombardeada con cupones
de Target relacionados con el embarazo. “¿Ella todavía está en la escuela secundaria y le estás
enviando cupones para ropa de bebé y cunas? ¿Estás tratando de animarla a quedar
embarazada? preguntó el hombre.
El gerente de la tienda se disculpó profusamente. Incluso llamó al padre varios días después
para disculparse nuevamente. Sólo que esta vez el hombre estaba menos furioso; Era su turno
de disculparse. “Resulta que ha habido algunas actividades en mi casa de las que no estaba
completamente consciente”, dijo el padre. "Ella nacerá en agosto".
Los estadísticos de Target habían descubierto que su hija estaba embarazada antes que él.
ese es su negocio . . . y tampoco su negocio. Puede parecer más que un poco

intrusivo. Por esa razón, algunas empresas ahora ocultan cuánto saben sobre usted. Por
ejemplo, si es una mujer embarazada en su segundo trimestre, puede recibir algunos cupones
por correo para cunas y pañales, junto con un descuento en una cortadora de césped y un cupón
para calcetines de bolos gratis con la compra de cualquier par de zapatos de bolos. A usted le
parece fortuito que los cupones relacionados con el embarazo llegaran por correo junto con el
resto de la basura. De hecho, la empresa sabe que usted no juega a los bolos ni corta su propio
césped; simplemente está cubriendo sus huellas para que lo que sabe sobre ti no parezca tan
espeluznante.
Facebook, una empresa prácticamente sin activos físicos, se ha convertido en una de las
empresas más valiosas del mundo. Para los inversores (a diferencia de los usuarios), Facebook
tiene un activo enorme: los datos. A los inversores no les encanta Facebook porque les permite
volver a conectarse con sus citas de graduación. Les encanta Facebook porque cada clic del
mouse genera datos sobre dónde viven los usuarios, dónde compran, qué compran, a quién
conocen y cómo pasan su tiempo. Para los usuarios que esperan volver a conectarse con sus
fechas de graduación, la recopilación de datos corporativos puede traspasar los límites de la
privacidad.
Chris Cox, vicepresidente de producto de Facebook, dijo al New York Times:
21
"El desafío de la era de la información es qué hacer con ella".
Sí.
Y en el ámbito público, la unión de datos y tecnología se vuelve aún más complicada.
Ciudades de todo el mundo han instalado miles de cámaras de seguridad en
lugares públicos, algunos de los cuales pronto contarán con tecnología de reconocimiento facial. Las autoridades
encargadas de hacer cumplir la ley pueden seguir cualquier automóvil a cualquier lugar al que vaya (y mantener
registros extensos de dónde ha estado) conectando un dispositivo de posicionamiento global al vehículo y luego
rastreándolo por satélite. ¿Es esta una manera barata y eficiente de monitorear posibles actividades criminales?
¿O es que el gobierno está utilizando la tecnología para pisotear nuestra libertad personal? En 2012, la Corte
Suprema de Estados Unidos decidió por unanimidad que era lo último, dictaminando que los funcionarios
encargados de hacer cumplir la ley ya no pueden colocar dispositivos de rastreo en vehículos privados sin una
*
orden judicial.
Mientras tanto, los gobiernos de todo el mundo mantienen enormes bases de datos de ADN que son una
poderosa herramienta para resolver crímenes. ¿El ADN de quién debería estar en la base de datos?
¿El de todos los delincuentes condenados? ¿La de cada persona arrestada (condenada o no finalmente)? ¿O
una muestra de cada uno de nosotros?
Recién estamos comenzando a luchar con los problemas que se encuentran en la intersección de la tecnología
y los datos personales, ninguno de los cuales era terriblemente relevante cuando la información gubernamental
se almacenaba en polvorientos archivadores de sótanos en lugar de en bases de datos digitales en las que
cualquier persona puede realizar búsquedas desde cualquier lugar.
Las estadísticas son más importantes que nunca porque tenemos oportunidades más significativas para hacer
uso de los datos. Sin embargo, las fórmulas no nos dirán qué usos de los datos son apropiados y cuáles no. Las
matemáticas no pueden suplantar el juicio.
En ese sentido, terminemos el libro con alguna asociación de palabras: fuego, cuchillos, automóviles, crema
depilatoria. Cada una de estas cosas tiene un propósito importante. Cada uno mejora nuestras vidas. Y cada uno
de ellos puede causar serios problemas cuando se abusa de ellos.
Ahora puedes agregar estadísticas a esa lista. ¡Continúe y utilice los datos de forma inteligente y adecuada!
* No pude optar al premio de 2010 por tener más de cuarenta años. Además, no había hecho nada para merecerlo.
* Estados Unidos contra Jones.
Apéndice
software estadístico
Sospecho que no harás tu análisis estadístico con lápiz, papel y calculadora. A continuación
se ofrece un recorrido rápido por los paquetes de software más utilizados para los tipos de
tareas descritas en este libro.
Microsoft Excel
Microsoft Excel es probablemente el programa más utilizado para calcular estadísticas simples
como la media y la desviación estándar. Excel también puede realizar análisis de regresión
básicos. La mayoría de las computadoras vienen equipadas con Microsoft Office, por lo que
probablemente Excel esté en su escritorio en este momento. Excel es fácil de usar en
comparación con paquetes de software estadístico más sofisticados. Los cálculos estadísticos
básicos se pueden realizar mediante la barra de fórmulas.
Excel no puede realizar algunas de las tareas avanzadas que pueden realizar los programas
más especializados. Sin embargo, existen extensiones de Excel que puedes comprar (y algunas
que puedes descargar gratis) que ampliarán las capacidades estadísticas del programa. Una
gran ventaja de Excel es que ofrece formas sencillas de mostrar datos bidimensionales con
gráficos visualmente atractivos. Estos gráficos se pueden colocar fácilmente en Microsoft
PowerPoint y Microsoft Word.
*
Era
Stata es un paquete estadístico utilizado en todo el mundo por profesionales de la investigación;
su interfaz tiene una sensación seria y académica. Stata tiene una amplia gama de capacidades
para realizar tareas básicas, como crear tablas de datos y calcular estadísticas descriptivas. Por
supuesto, esa no es la razón por la que los profesores universitarios y otros investigadores
serios eligen Stata. El software está diseñado para manejar pruebas estadísticas sofisticadas y
modelado de datos que van mucho más allá de los tipos de cosas descritas en este libro.
Stata es ideal para aquellos que tienen un conocimiento sólido de las estadísticas (un
conocimiento básico de programación también ayuda) y aquellos que no necesitan un formato
sofisticado, solo las respuestas a sus consultas estadísticas. Stata no es la mejor opción si su
objetivo es producir gráficos rápidos a partir de los datos. Usuarios expertos
Decir que Stata puede producir buenos gráficos pero que Excel es más fácil de usar para ese propósito.
Stata ofrece varios paquetes de software independientes diferentes. Puede licenciar el producto
por un año (después de un año, el software ya no funciona en su computadora) o licenciarlo para
siempre. Una de las opciones más baratas es Stata/IC, que está diseñada para "estudiantes e
investigadores con conjuntos de datos de tamaño moderado". Existe un descuento para usuarios que
estén en el sector educativo. Incluso entonces, una licencia anual para un solo usuario para Stata/IC
cuesta $295 y una licencia perpetua cuesta $595. Si planea lanzar un satélite a Marte y necesita hacer
algunos cálculos numéricos realmente serios, puede buscar paquetes Stata más avanzados, que
pueden costar miles de dólares.
SAS †
SAS tiene un gran atractivo no sólo para los investigadores profesionales sino también para
los analistas e ingenieros de negocios debido a su amplia gama de capacidades analíticas.
SAS vende dos paquetes estadísticos diferentes. El primero se llama SAS Analytics Pro,
que puede leer datos en prácticamente cualquier formato y realizar análisis de datos avanzados.
El software también cuenta con buenas herramientas de visualización de datos, como capacidades
cartográficas avanzadas. No es barato. Incluso para aquellos en los sectores educativo y
gubernamental, una única licencia comercial o individual para este paquete cuesta $8,500, más una
tarifa de licencia anual.
El segundo paquete estadístico de SAS es SAS Visual Data Discovery. Tiene una interfaz fácil de
usar que no requiere conocimientos de codificación o programación y, al mismo tiempo, proporciona
capacidades avanzadas de análisis de datos. Como sugiere su nombre, este paquete está destinado
a permitir al usuario explorar datos fácilmente con visualización interactiva. También puede exportar
las animaciones de datos a presentaciones, páginas web y otros documentos. Éste tampoco es barato.
Una única licencia comercial o individual para este paquete cuesta $9,810, más una tarifa de licencia
anual.
SAS vende algunas herramientas de gestión especializadas, como un producto que utiliza
estadísticas para detectar fraudes y delitos financieros.
Esto puede parecer un personaje de una película de James Bond. De hecho, R es un paquete
estadístico popular, gratuito o de “código abierto”. Se puede descargar e instalar fácilmente en su
computadora en cuestión de minutos. También existe una "comunidad R" activa que comparte código
y puede ofrecer ayuda y orientación cuando sea necesario.
R no sólo es la opción más barata, sino que también es uno de los paquetes más maleables de
todos los que se describen aquí. Dependiendo de su perspectiva, esto
La flexibilidad es frustrante o es uno de los grandes activos de R. Si es nuevo en el

software estadístico, el programa casi no ofrece estructura. La interfaz no te ayudará
mucho. Por otro lado, los programadores (e incluso las personas que tienen una
familiaridad básica con los principios de codificación) pueden encontrar liberadora la falta
de estructura. Los usuarios son libres de decirle al programa que haga exactamente lo
que quieren que haga, incluso que funcione con programas externos.
*
IBMSPSS
IBM SPSS tiene algo para todos, desde expertos en estadística hasta analistas de
negocios menos expertos en estadística. IBM SPSS es bueno para principiantes porque
ofrece una interfaz basada en menús. IBM SPSS también ofrece una gama de herramientas
o “módulos” diseñados para realizar funciones específicas, como IBM SPSS Forecasting,
IBM SPSS Advanced Statistics, IBM SPSS Visualization Designer e IBM SPSS Regression.
Los módulos se pueden comprar individualmente o combinar en paquetes.
El paquete más básico que se ofrece es IBM SPSS Statistics Standard Edition, que le
permite calcular estadísticas simples y realizar análisis de datos básicos, como identificar
tendencias y crear modelos predictivos. Una licencia comercial única de plazo fijo cuesta
$2250. El paquete premium, que incluye la mayoría de los módulos, cuesta $6,750. Hay
descuentos disponibles para quienes trabajan en la educación.
sector.
* Ver http://www.stata.com/. †
Consulte http://www.sas.com/technologies/analytics/statistics/.
* Consulte http://www01.ibm.com/software/analytics/spss/products/statistics/.
Notas
Capítulo 1: ¿Cuál es el punto?

1 Agencia Central de Inteligencia, The World Factbook,
https://www.cia.gov/library/publications/theworldfactbook/.
2 Steve Lohr, “Para el graduado de hoy, solo una palabra: estadísticas”, New York
Times, 6 de agosto de 2009.
3 Ibídem.
4 BaseballReference.com, http://www.baseball
reference.com/players/m/mantlmi01.shtml.
5 Trip Gabriel, “Los trucos encuentran un adversario en la tecnología”, New York
Times, 28 de diciembre de 2010.
6 Eyder Peralta, “Hombre de Atlanta gana la lotería por segunda vez en tres años”,
NPR News (blog), 29 de noviembre de 2011.
7 Alan B. Krueger, Qué hace a un terrorista: la economía y las raíces del terrorismo
(Princeton: Princeton University Press, 2008).
Capítulo 2: Estadísticas descriptivas
1 Oficina del Censo de EE. UU., Encuesta de población actual, Suplementos

sociales y económicos
anuales, http://www.census.gov/hhes/www/ Income/data/historical/people/.
2 Malcolm Gladwell, “The Order of Things”, The New Yorker, 14 de febrero de
2011.
3 CIA, World Factbook y Programa de las Naciones Unidas para el Desarrollo,
Informe sobre Desarrollo Humano 2011, http://hdr.undp.org/en/statistics/.
4 BaseballReference.com.
Capítulo 3: Descripción engañosa

1 Robert Griffith, La política del miedo: Joseph R. McCarthy y el Senado, 2ª ed. (Amherst: University
of Massachusetts Press, 1987), pág. 49.
2 “Ponerse al día”, Economist, 23 de agosto de 2003.
3 Carl Bialik, “Cuando la mediana no significa lo que parece”, Wall Street Journal, 21 y 22 de mayo
de 2011.
4 Stephen Jay Gould, “The Median Isn't the Message”, con una nota preliminar y una posdata
de Steve Dunn, http://cancerguide.org/
median_not_msg.html.
5 Consulte http://www.movieweb.com/boxoffice/alltime.
6 Box Office Mojo (boxofficemojo.com), 29 de junio de 2011.
7 Steve Patterson, “El aumento de impuestos del 527% puede sorprender a algunos, pero solo cuesta
alrededor de $5”, Chicago SunTimes, 5 de diciembre de 2005.
8 Rebecca Leung, “'El 'Milagro de Texas': 60 Minutos II investiga afirmaciones de que las escuelas
de Houston falsificaron las tasas de deserción escolar”, CBSNews.com, 25 de agosto de 2004.
9 Marc Santora, "Los cardiólogos dicen que las clasificaciones influyen en las decisiones quirúrgicas",
New York Times, 11 de enero de 2005.
10 Entrevista con la Radio Pública Nacional, 20 de agosto de 2006, http://
www.npr.org/templates/story/story.php?storyId=5678463.
11 Véase http://www.usnews.com/education/articles/2010/08/17/frequencyaskedquestions
collegerankings#4.
12 Gladwell, "Orden de las cosas".
13 Entrevista con la Radio Pública Nacional, 22 de febrero de 2007, http://
www.npr.org/templates/story/story.php?storyId=7383744.
Capítulo 4: Correlación
1 College Board, Preguntas
frecuentes, http://www.collegeboard.com/prod_downloads/about/news_info/cbsenior/yr2010/correlof
predictorswithfirstyearcollegegradepointaverage.pdf.
2 College Board, Informe del perfil total del grupo de personas mayores con destino a la
universidad de 2011, http://professionals.collegeboard.com/profdownload/cbs2011_total_group_report.pdf.
3 Consulte http://www.netflixprize.com/rules.
Capítulo 5: Probabilidad básica

1 David A. Aaker, Gestión del valor de la marca: capitalización del valor de una marca (Nueva
York: Free Press, 1991).
2 Victor J. Tremblay y Carol Horton Tremblay, La industria cervecera de EE. UU.: análisis
económico y de datos (Cambridge: MIT Press, 2005).
3 Documento de debate de la Oficina Australiana de Seguridad en el Transporte, “Cross Modal
Safety Comparisons”, 1 de enero de 2005.
4 Marcia Dunn, “1 entre 21 billones de posibilidades de que un satélite te golpee”, Chicago Sun
Times, 21 de septiembre de 2011.
5 Steven D. Levitt y Stephen J. Dubner, Freakonomics: A Rogue Economist Explores the Hidden
Side of Everything (Nueva York: William Morrow Libros en rústica, 2009).
6 Garrick Blalock, Vrinda Kadiyali y Daniel Simon, “Driving Fatalities after 9/11: A Hidden Cost of
Terrorism” (manuscrito inédito, 5 de diciembre de 2005).
7 La información general sobre pruebas genéticas proviene de Human Genome Project Forensics,
Información, ADN
http://www.ornl.gov/sci/techresources/Human_Genome/elsi/forensics.shtml.
8 Jason Felch y Maura Dolan, “El FBI se resiste al escrutinio de 'partidos'”, Los
Ángeles Times, 20 de julio de 2008.

9 David Leonhardt, “En el fútbol, 6 + 2 suele ser igual a 6”, New York Times, 16 de enero de 2000.
10 Roger Lowenstein, “La guerra contra el uso de información privilegiada: cuidado con los
vencedores del mercado”, New York Times Magazine, 22 de septiembre de 2011.
11 Erica Goode, “Enviar a la policía antes de que haya un crimen”, New York Times, 15 de agosto
de 2011.
12 Los datos de riesgo de seguros provienen de todos los siguientes: “Conductores adolescentes”,
Instituto de Información de Seguros, marzo de 2012; “Leyes de mensajes de texto y frecuencias
de reclamos por colisiones”, Instituto de Seguros para la Seguridad en las Carreteras, septiembre
de 2010; “Hot Wheels”, Oficina Nacional de Delitos contra Seguros, 2 de agosto de 2011.
13 Charles Duhigg, “¿Qué sabe sobre usted su compañía de tarjeta de crédito?” Revista del New
York Times, 12 de mayo de 2009.
Capítulo 5½: El problema 1 de Monty Hall John Tierney, “Y

detrás de la puerta número 1, un defecto fatal”, New York Times, 8 de abril de 2008.
2 Leonard Mlodinow, El paseo del borracho: cómo el azar gobierna nuestras

vidas (Nueva York: Vintage Books, 2009).
Capítulo 6: Problemas con la probabilidad

1 Joe Nocera, “Risk Mismanagement”, New York Times Magazine, 2 de enero de 2009.
2 Robert E. Hall, “The Long Slump”, American Economic Review 101, no.
2 (abril de 2011): 431–69.
3 Alan Greenspan, Testimonio ante el Comité de Supervisión y Reforma Gubernamental de la
Cámara de Representantes, 23 de octubre de 2008.
4 Hank Paulson, Discurso en Dartmouth College, Hanover, NH, 11 de agosto de 2011.
5 “La probabilidad de injusticia”, Economist, 22 de enero de 2004.

6 Thomas Gilovich, Robert Vallone y Amos Tversky, “La mano caliente en el baloncesto: sobre
la percepción errónea de secuencias aleatorias”, Psicología cognitiva 17, no. 3 (1985): 295–
314.
7 Ulrike Malmendier y Geoffrey Tate, “Superstar CEOs”, Quarterly Journal of Economics 124,
no. 4 (noviembre de 2009): 1593–638.
8 “El precio de la igualdad”, Economist, 15 de noviembre de 2003.
Capítulo 7: La importancia de los datos

1 Benedict Carey, “Aprendiendo de la mosca de la fruta despreciada y borracha”, New York Times,
15 de marzo de 2012.
2 Cynthia Crossen, “El fiasco en la encuesta de 1936 llevó la 'ciencia' a las encuestas electorales”,
Wall Street Journal, 2 de octubre de 2006.
3 Tara ParkerPope, “Las posibilidades de recuperación sexual varían ampliamente después del
cáncer de próstata”, New York Times, 21 de septiembre de 2011.
4 Benedict Carey, “Los investigadores encuentran sesgos en los informes de ensayos de drogas”,
New York Times, 17 de enero de 2008.
5 Siddhartha Mukherjee, "¿Los teléfonos móviles causan cáncer de cerebro?" New York Times, 17
de abril de 2011.
6 Gary Taubes, “¿Sabemos realmente qué nos hace saludables?” New York Times, 16 de
septiembre de 2007.
Capítulo 8: El teorema del límite central

1 Oficina del Censo de EE. UU.
Capítulo 9: Inferencia
1 John Friedman, De la nada: una historia de los rayos: ciencia, superstición e historias
asombrosas de supervivencia (Nueva York: Delacorte Press, 2008).
2 “Low Marks All Round”, Economist, 14 de julio de 2011.

3 Trip Gabriel y Matt Richtel, “Inflando el boletín de calificaciones de software”, New
York Times, 9 de octubre de 2011.
4 Jennifer Corbett Dooren, “Link in Autism, Brain Size”, Wall Street Journal, 3 de mayo
de 2011.
5 Heather Cody Hazlett et al., “Crecimiento excesivo del cerebro temprano en el autismo
asociado con un aumento en el área de superficie cortical antes de los 2 años de edad”,
Archivos de Psiquiatría General 68, núm. 5 (mayo de 2011): 467–76.
6 Benedict Carey, “Top Journal planea publicar un artículo sobre ESP y los psicólogos
sienten indignación”, New York Times, 6 de enero de 2011.
Capítulo 10: Encuesta
1 Jeff Zeleny y Megan TheeBrenan, “New Poll Finds a Deep Distrust of Government”, New
York Times, 26 de octubre de 2011.
2 Lydia Saad, “Los estadounidenses se mantienen firmes en su apoyo a la pena de muerte”,
Gallup.com, 17 de noviembre de 2008.
3 Entrevista telefónica con Frank Newport, 30 de noviembre de 2011.
4 Stanley Presser, “Sexo, muestras y errores de respuesta”, Sociología contemporánea 24,
no. 4 (julio de 1995): 296–98.
5 Los resultados se publicaron en dos formatos diferentes, uno más académico que el otro.
Edward O. Lauman, La organización social de la sexualidad: prácticas sexuales en los
Estados Unidos (Chicago: University of Chicago Press, 1994); Robert T. Michael, John H.
Gagnon, Edward O. Laumann y Gina Kolata, Sex in America: A Definitive Survey (Nueva
York: Grand Central Publishing, 1995).
6 Kaye Wellings, reseña del libro en British Medical Journal 310, no. 6978 (25 de febrero de
1995): 540.
7 John DeLamater, “The NORC Sex Survey”, Science 270, no. 5235 (20 de octubre de
1995): 501.
8 Presser, “Sexo, muestras y errores de respuesta”.
Capítulo 11: Análisis de regresión

1 Marianne Bertrand, Claudia Goldin y Lawrence F. Katz, “Dynamics of the Gender Gap for
Young Professionals in the Corporate and Financial Sectors”, documento de trabajo NBER
14681, enero de 2009.
2 MG Marmot, Geoffrey Rose, M. Shipley y PJS Hamilton, “Grado de empleo y enfermedad
coronaria en funcionarios públicos británicos”.
Revista de Epidemiología y Salud Comunitaria 32, no. 4 (1978): 244–49.
3 Hans Bosma, Michael G. Marmot, Harry Hemingway, Amanda C.
Nicholson, Eric Brunner y Stephen A. Stansfeld, “Bajo control laboral y riesgo de enfermedad
coronaria en Whitehall II (cohorte prospectiva)
Estudio”, British Medical Journal 314, no. 7080 (22 de febrero de 1997): 558–65.
4 Peter L. Schnall, Paul A. Landesbergis y Dean Baker, “Job Strain and Cardiovascular
Disease”, Annual Review of Public Health 15 (1994): 381–411.
5 MG Marmot, H. Bosma, H. Hemingway, E. Brunner y S. Stansfeld, “Contribución del control

laboral y otros factores de riesgo a las variaciones sociales en la incidencia de enfermedades
coronarias”, Lancet 350 (26 de julio de 1997): 235 –39.
Capítulo 12: Errores comunes de regresión

1 Gary Taubes, “¿Sabemos realmente qué nos hace saludables?” Revista del New York Times, 16 de
septiembre de 2007.
2 “Vive la Diferencia”, Economist, 20 de octubre de 2001.
3 Taubes, “¿Lo sabemos realmente?”
4 College Board, Informe del perfil total del grupo de personas mayores con destino a la universidad de
2011, http://professionals.collegeboard.com/profdownload/cbs2011_total_group_report.pdf.
5 Hans Bosma et al., “Bajo control laboral y riesgo de enfermedad coronaria en el estudio Whitehall II
(cohorte prospectiva)”, British Medical Journal 314, no. 7080 (22 de febrero de 1997): 564.
6 Taubes, “¿Lo sabemos realmente?”

7 Gautam Naik, “El objetivo difícil de alcanzar de los científicos: reproducir los resultados de los estudios”,
Wall Street Journal, 2 de diciembre de 2011.
8 John PA Ioannidis, “Efectos contradictorios e inicialmente más fuertes en investigaciones clínicas
altamente citadas”, Revista de la Asociación Médica Estadounidense 294, no. 2 (13 de julio de 2005):
218–28.
9 “Scientific Accuracy and Statistics”, Economist, 1 de septiembre de 2005.
Capítulo 13: Evaluación del programa
1 Gina Kolata, “La cirugía de artritis en rodillas enfermas se cita como una farsa”, New York Times,
11 de julio de 2002.
2 Benedict Carey, “Un estudio médico largamente esperado cuestiona el poder de la oración”, New
York Times, 31 de marzo de 2006.
3 Diane Whitmore Schanzenbach, “¿Qué han aprendido los investigadores del Proyecto STAR?”
Documento de trabajo de Harris School, agosto de 2006.
4 Gina Kolata, “Un secreto sorprendente para una vida larga: permanecer en la escuela”, New York
Times, 3 de enero de 2007.
5 Adriana LlerasMuney, “La relación entre educación y mortalidad de adultos en los Estados Unidos”,
Review of Economic Studies 72, no. 1 (2005): 189–221.
6 Kurt Badenhausen, “Las mejores universidades para hacerse rico”, Forbes.com, 30 de julio
de 2008.
7 Stacy Berg Dale y Alan Krueger, “Estimación del beneficio de asistir a una universidad más
selectiva: una aplicación de la selección de observables y no observables”, Quarterly Journal of
Economics 117, no. 4 (noviembre de 2002): 1491–527.
8 Alan B. Krueger, “Los niños lo suficientemente inteligentes como para ingresar a escuelas de élite
tal vez no necesiten molestarse”, New York Times, 27 de abril de 2000.
9 Randi Hjalmarsson, “Cárceles de menores: ¿un camino hacia lo recto y estrecho o hacia una
criminalidad más endurecida?” Revista de Derecho y Economía 52, núm. 4 (noviembre de 2009):
779–809.
Conclusión
1 James Surowiecki, “A Billion Prices Now”, The New Yorker, 30 de mayo de 2011.
2 Malcolm Gladwell, “Offensive Play”, The New Yorker, 19 de octubre de 2009.

3 Ken Belson, “Resumen de la NFL; Se unieron trajes por conmoción cerebral”, New York Times, 1
de febrero de 2012.
4 Shirley S. Wang, “Los diagnósticos de autismo aumentan considerablemente en EE. UU.”, Wall
Street Journal, 30 de marzo de 2012.
5 Catherine Rice, “Prevalencia de los trastornos del espectro autista”, Red de monitoreo del autismo
y las discapacidades del desarrollo, Centros para el Control y la Prevención de Enfermedades,
2006, http://www.cdc.gov/mmwr/preview/
mmwrhtml/ss5810a1.htm.
6 Alan Zarembo, “Auge del autismo: ¿una epidemia de enfermedad o de descubrimiento?”

latimes.com, 11 de diciembre de 2011.
7 Michael Ganz, “La distribución a lo largo de la vida de los costos sociales incrementales del
autismo”, Archives of Pediatrics & Adolescent Medicine 161, no. 4 (abril de 2007): 343–49.
8 Gardiner Harris y Anahad O'Connor, “Sobre la causa del autismo, son los padres versus la
investigación”, New York Times, 25 de junio de 2005.
9 Julie Steenhuysen, "Un estudio revela 10 grupos de autismo en California",
Yahoo! Noticias, 5 de enero de 2012.
10 Joachim Hallmayer et al., “Heredabilidad genética y factores ambientales compartidos entre
pares de gemelos con autismo”, Archives of General Psychiatry 68, no. 11 (noviembre de 2011):
1095–102.
11 Gardiner Harris y Anahad O'Connor, “Sobre la causa del autismo, son los padres versus la
investigación”, New York Times, 25 de junio de 2005.
12 Fernanda Santos y Robert Gebeloff, “Teacher Quality Widely Diffused, Ratings Indicate”, New
York Times, 24 de febrero de 2012.
13 Winnie Hu, “Con las calificaciones de los docentes a punto de publicarse, el sindicato abre
una campaña para desacreditarlos”, New York Times, 23 de febrero de 2012.
14 T. Schall y G. Smith, "¿Los jugadores de béisbol regresan a la media?"
Estadístico estadounidense 54 (2000): 231–35.
15 Scott E. Carrell y James E. West, “¿Importa la calidad del profesor?
Evidence from Random Assignment of Students to Professors”, documento de trabajo 14081 de
la Oficina Nacional de Investigación Económica, junio de 2008.
16 Esther Duflo y Rema Hanna, “Monitoring Works: Getting Teachers to Come to School”,
documento de trabajo 11880 de la Oficina Nacional de Investigación Económica, diciembre de
2005.
17 Christopher Udry, “Esther Duflo: Medallista John Bates Clark 2010”,
Revista de Perspectivas Económicas 25, no. 3 (verano de 2011): 197–216.
18 Esther Duflo, Michael Kremer y Jonathan Robinson, “Empujar a los agricultores a utilizar
fertilizantes: teoría y evidencia experimental de Kenia”,
Documento de trabajo 15131 de la Oficina Nacional de Investigación Económica, julio de 2009.
19 Esther Duflo y Christopher Udry, “Intrahousehold Resource Allocation in CÔte d'Ivoire: Social
Norms, Separated Accounts and Consumption Choices”, documento de trabajo, 21 de diciembre
de 2004.
20 Charles Duhigg, “Cómo las empresas aprenden sus secretos”, New York Times Magazine, 16
de febrero de 2012.
21 Somini Sengupta y Evelyn M. Rusley, “¿El valor de los datos personales?
Facebook listo para descubrirlo”, New York Times, 1 de febrero de 2012.
Expresiones de gratitud
Este libro fue concebido como un homenaje a un clásico anterior de WW Norton, Cómo
Mentir con estadísticas de Darrell Huff, escrito en la década de 1950 y que ha vendido
más de un millón de copias. Ese libro, como éste, fue escrito para desmitificar las
estadísticas y persuadir a los lectores comunes de que lo que no entienden sobre las
cifras detrás de los titulares puede perjudicarlos. Espero haber hecho justicia al clásico
del Sr. Huff. En cualquier caso, ¡me encantaría haber vendido un millón de copias dentro
de cincuenta años!
Estoy continuamente agradecido a WW Norton, y a Drake McFeely en particular, por
permitirme escribir libros que abordan temas importantes de una manera comprensible para
los lectores no especializados. Drake ha sido un gran amigo y partidario desde hace más de
una década.
Jeff Shreve es el tipo de WW Norton que hizo realidad este libro.
Al conocer a Jeff, uno podría pensar que es demasiado amable para imponer los
múltiples plazos que implica la producción de un libro como este. No es verdad. Sí,
realmente es así de amable, pero de alguna manera su suave empujón parece hacer el trabajo.
(Por ejemplo, estos agradecimientos vencen mañana por la mañana). Aprecio tener un
capataz amable que haga avanzar las cosas.
Mi mayor deuda de gratitud es con los muchos hombres y mujeres que realizan la
importante investigación y análisis descritos en este libro. No soy estadístico ni
investigador. Soy simplemente un traductor del trabajo interesante y significativo de
otras personas. Espero haber transmitido a lo largo de este libro lo importantes que son
una buena investigación y un análisis sólido para hacernos más saludables, más ricos,
más seguros y mejor informados.
En particular, me gustaría reconocer el amplio trabajo del economista de Princeton
Alan Krueger, quien ha realizado contribuciones de investigación inteligentes y
significativas sobre temas que van desde las raíces del terrorismo hasta los beneficios
económicos de la educación superior. (Sus hallazgos sobre ambos temas son
agradablemente contradictorios). Lo más importante (para mí) es que Alan fue uno de
mis profesores de estadística en la escuela de posgrado; Siempre me ha impresionado
su capacidad para equilibrar con éxito la investigación, la enseñanza y el servicio público.
Jim Sallee, Jeff Grogger, Patty Anderson y Arthur Minetz leyeron borradores anteriores del
manuscrito e hicieron numerosas sugerencias útiles. ¡Gracias por salvarme de mí mismo! Frank
Newport de Gallup y Mike Kagay del New York Times tuvieron la amabilidad de dedicar tiempo a
explicarme los matices metodológicos de las encuestas. A pesar de todos sus esfuerzos, los
errores que persisten son míos.
Katie Wade fue una asistente de investigación infatigable. (Siempre quise usar la palabra
“infatigable” y, finalmente, este es el contexto perfecto). Katie es la fuente de muchas de las
anécdotas y ejemplos que iluminan conceptos a lo largo del libro. No Katie, no hay ejemplos
divertidos.
He querido escribir libros desde que estaba en la escuela primaria. La persona que me permite
hacer eso y ganarme la vida con ello es mi agente, Tina Bennett.
Tina encarna lo mejor del negocio editorial. Le encanta hacer realidad un trabajo significativo y al
mismo tiempo promover incansablemente los intereses de sus clientes.
Y por último, mi familia merece crédito por tolerarme mientras escribía este libro.
(Las fechas límite de los capítulos estaban publicadas en el refrigerador). Hay evidencia de que
me vuelvo un 31 por ciento más irritable y un 23 por ciento más agotado cuando me acerco (o
incumplo) las fechas límite de los libros importantes. Mi esposa, Leah, es la primera, la mejor y la
más importante editora de todo lo que escribo. Gracias por eso y por ser un socio tan inteligente,
solidario y divertido en todos los demás esfuerzos.
El libro está dedicado a mi hija mayor, Katrina. Es difícil creer que el niño que estaba en una
cuna cuando escribí Naked Economics ahora pueda leer capítulos y brindar comentarios
significativos. Katrina, eres el sueño de cualquier padre, al igual que Sophie y CJ, quienes pronto
también leerán capítulos y manuscritos.
Índice
Los números de página en cursiva se refieren a figuras.
Puntuación “absoluta”, 22, 23, 48 en

porcentajes, 28
reputación académica, 56
precisión, 37–38, 84, 99
ACTO, 55
Afroamericanos, 201 años, 198,
199, 204
Academia de la Fuerza Aérea, 248 a
49 pasajeros de aerolíneas, 23 a 24, 25
Alabama, 87
alcohol, 110–11, 114
Alexander, Lamar, 230
algoritmos, 64–65
Allstate, 81, 87
Enfermedad de Alzheimer, 242, 243
asociación económica americana,
251
Diario americano del corazón, 229
Las vidas cambiantes de los estadounidenses, 135, 135, 136, 137, 138–41, 150–52, 166, 192, 193,
195, 196, 199, 200, 201, 202, 204, 208, 221 anualidades,
107 antidepresivos,
121
Arbetter, Brian, x
Archivos de Psiquiatría General, 155, 156–60 arsénico, 48
líneas de
montaje, 53
AT&T, 42
turnos al bate, 32
Junta Australiana de Seguridad en el Transporte, 71–72
Austria, 65
autismo, 4, 221, 244–46
tamaño del cerebro y, 155–60, 165
Avatar (película), 47, 48
promedio, ver ingreso
promedio promedio, 16–17, 18–19, 27, 55 yardas
promedio por intento de pase, 1
babuinos, 207
bancos, 170n
Colegio Bardo, 57
Baseball Info Solutions, 16, 31–32 jugadores
de béisbol, 5, 248 los mejores
de todos los tiempos, 13, 15, 30,
31–32 baloncesto, rachas, 103
promedios de bateo, xii, 1, 4, 5, 15–16 curva
de campana, 20, 25–26, 26, 133, 134, 136, 208, 209
Juicio Bernoulli, 70
Bertrand, Marianne, 203
Bhutto, Benazir, 58, 64
Bhutto (película), 58–60, 64
sesgos,
113 variables binarias, 200
experimento binomial, 70
Cisne negro, El: El impacto de lo altamente improbable (Taleb), 98–99
Blalock, Garrick, 72–73
pruebas de sabor a ciegas, 68–71, 79, 79, 80, 97, 99
presión arterial, 115, 116 algas
verdiazules, 116–17
Celtas de Boston, 103
Maratón de Boston, 23–24, 25
Botstein, León, 57
puntuaciones de bolos,
4 boxeadores, 242,
243 cáncer de
cerebro, 145 tamaño del cerebro, autismo y,
155–60, 165 muffins de salvado, 11, 153–54
Brasil, 3
cáncer de mama, 122, 163
Brunei, 31
Budweiser, 68, 69
Buffett, Warren, 19, 81–82, 84 Oficina
de Estadísticas Laborales, EE. UU., 46 Burton,
Dan, 246 Bush, George
HW, 230 Bush, George W., 43,
53 Businessweek, 107
Caddyshack (película), 44–45

cálculo, ix–xi, xii
california, 41 años
California, Universidad de, 245
Canada, 3, 65
Canadian Tire, 88
cáncer, 44, 162, 226
cerebro, 145
muffins de salvado y, 11, 153–54
mama, 122, 163
causas de, xv, 4
teléfonos celulares y, 145
colon, 11, 153–54 dieta
y, 122 próstata,
163, 224 exámenes de
detección, 163
tabaquismo y, xiv, 9–10, 11 grupos
de cáncer, 103–4 accidentes
automovilísticos, 8, 76
cardiología, 54–55
enfermedades cardiovasculares, consulte seguro de
automóvil para enfermedades cardíacas, 81, 107
Universidad Carnegie Mellon, 155
Carrell, Scott, 248–49 coches,
72
Carter, Jimmy, 50
casinos, 7, 79, 84, 99, 102
causalidad, causalidad, 225–40, 243 como
no implicado en la correlación, 63, 154, 215–17, 245–46 inversa, 216–17
Seguridad de prueba de cueva, 8

CBS News, 170, 172, 177, 178 servicio de
telefonía celular, 42
Centros para el Control de Enfermedades, 244
teorema del límite central, 127–42, 146, 195 en estudio
sobre autismo, 156, 158, 159 en encuestas,
130, 170–71, 174 muestreo y, 127–30,
139 tendencia central, 17–18 , 19, 20–
21, 20, 21, 34 ver también media; mediana
Directores ejecutivos, 19
Cambiando vidas, consulte las escuelas autónomas Cambiando vidas

de los estadounidenses, 113
Chase, Chevy, 44–45 hacer
trampa, 89 autor
acusado de, 143–44, 149 en pruebas
estandarizadas, 4, 8–9, 86, 145, 148–49
chevrolet, 87
Chevrolet Corbeta, 3031
Chicago, Universidad de, 75, 182, 203
Osos de Chicago, 12
Cachorros de Chicago, 105–6, 235–36
Departamento de Policía de Chicago, 87
Chicago SunTimes, 154 decisiones
sobre cuidado infantil, 187
China, 39
moneda de, 235
colesterol, 116
encefalopatía traumática crónica (CTE), 243 funcionarios públicos,
185–87, 195, 205–7, 221 claridad, 38–39 cambio
climático, 180
agrupaciones, agrupaciones,
103–4 de la muestra medias, 138
cocaína, 219–20 cacao, 251
coeficientes, 196, 197,
199, 208, 220
en altura, 193 regresión, 193, 195, 196
tamaño de, 197–

98 ver también coeficiente de
correlación
(r) café, 251 Tutor
cognitivo, 155 lanzamiento de moneda, 71, 75–
76, 100, 104, 221–22 falacia del
jugador y, 106–
7 Guerra Fría, 49 College
Board, 62, 63, 64
títulos universitarios,
4 clasificaciones
universitarias, 30 cáncer
de colon, 11, 153–54
bancos comerciales,
97 Partido
Comunista, 37 tasa de finalización, 1
confianza, 149
intervalo de
confianza, 158,
171–75, 176–77
Congreso, EE. UU., 171
constante, 193 control, 11, 198 no equivalente,
233–40 ver también
análisis de regresión grupo control, 114,
126, 227–28, 238–39 como contrafactual, 240
experimentos controlados,
ética y 9 variables de
control, ver explicativo
variables Condado de Cook,
Ill., 48–49 Cooper, Linda, 144–45
Universidad de
Cornell, 103 angioplastia
coronaria, 54–55 cirugía de bypass coronario, correlación 229–30, 58–67 de
ejercicio y peso,
60 de altura y peso, 59, 59, 60, 61, 63, 65–67, 189–204,
190, 191,
208 negativos, 60, 62
que no implican causalidad, 63,
154, 215–17, 245–46 perfectos, 60 en rachas deportivas , 103 coeficiente de correlación (r), 60–61
ajustes por costo de vida, 47 muerte

súbita, 101–2
Costa de Marfil, 251
Consejo de Asesores Económicos, 32
Cox, Chris, 254
tarjetas de crédito, xv, 88,
241 riesgos
crediticios, 88
puntaje crediticio, 87 delitos,
delincuentes, 11, 14, 89 agentes de policía y disuasión
de, 225–26, 227
predicciones, 86–87 datos
transversales , 11516 sesgo de recuerdo y, 123
Crucero, Tom, 86
CSI: Miami, 73
probabilidad acumulada, 165
monedas, 96
Cutler, Jay, 2
cianobacterias, 117
Dale, Stacy, 234–35

Caballero Oscuro, La (película), 47
Dartmouth College, 233, 234, 247 datos,
xv, 3, 115–17, 241–42, 252, 255 para
comparación, 113–15
transversal, 115–16
desacuerdos sobre, 13–14
distribución normal de, 25– 26 pobre,
xiv como
representativo, 111–13
muestreo de, 6–7, 111–13
estadísticas y, 4, 111
resumen de, 5, 14, 15–16, 17 datos,
problemas con, 117–26 sesgo de
usuario saludable, 125–26, 154 sesgo
de publicación, 120–22, 223 sesgo
de selección, 118–19, 178 sesgo
de supervivencia, 123–25
extracción de datos, 221–23
Minería de datos y análisis predictivo: recopilación de inteligencia y delincuencia

Análisis, 87
tablas de datos, 258
citas, 36
descripciones engañosas, 36–57 para
angioplastia coronaria, 54–55 media como,
42–43 mediana como,
42–44 pruebas
estandarizadas como, 51–52, 53–54 deciles, 22
Defensa
Departamento, EE. UU., 49–50, 50 demencia, 242
Partido Demócrata,
EE. UU.: gasto en defensa y, 49
aumento de impuestos y, 29
variables dependientes, 192, 193–94, 197, 198, 199, 206n, 216, 217, 226 depresión, 121, 242
estadísticas descriptivas, 15–
35 tendencia central descubierta en,
18–22 dispersión medida en, 23–25 temas
enmarcados por, 33 salud económica de
la clase media medida por,
16–17 en Stata, 258 como resumen, 15–16, 30
Diamantopoulou, Anna, 107 pañales,

14 dieta, 115,
198 cáncer y 122
diferencia en
diferencias, 235–37 análisis de discontinuidad,
238–40 dispersión, 23–24, 196, 210 media
afectada por, 44 de medias de muestra,
136
Disraeli, Benjamin, 36
desconfianza, 169
bases de datos de ADN, 254
Pruebas de ADN, xi, 10
pruebas criminales de, 74–75, 105 loci in, 73–75
falacia del fiscal y, 105 peleas de

perros, 242, 243–44 conducción,
71–72, 73 tasa de
abandono, 53, 54 drogas,
9, 43–44, 115
contrabandistas de drogas, 108,
109 tratamiento de drogas, 120
El paseo del borracho, El (Mlodinow), 92
Dubner, Stephen, 72 años
Duerson, Dave, 242
Duflo, Esther, 250–52
variables ficticias, 200
Duncan, Arne, 247
Dunkel, Andrés, xv
Economista, 39–40, 41, 42, 101–2

educación, 115, 194, 200, 201, 204–5, 216–17, 218, 220, 249 ingresos y 233–
35 longevidad y 231–33
nivel educativo , 31
Departamento de Educación, EE.
UU., 155 Egipto, 170n Einhorn, David, 98
elecciones, EE.
UU., de 1936, 118–19
empleo, 39–40 Enron: The Smartest
Guys in the Room
(película), 59 epidemiología, 222–23 estimación , 187–88
suplementos de estrógeno,
211–12 ET (película),
48 Comisión Europea, 107–8, 109
euros, 45 ex
convictos, 113, 147–48, 227 ejercicio, 125–
26, 198, 201
enfermedad cardíaca y, 188–89

peso y, 60, 62 encuestas
a pie de urna, 172–73
pérdida esperada, 81
valor esperado, 77
de jugadas de fútbol, 77–78

de billetes de lotería, 78–79
de inversión en medicamentos para la calvicie de patrón
masculino, 82–84 variables explicativas, 192, 193–94, 197, 198, 199,
203, 217 altamente
correlacionadas, 219–20 garantías
ampliadas , 80–81, 82 actividad sexual
extramarital, 183 punto
extra, 71, 77–78
extrapolación, 220–21 percepción extrasensorial (ESP), 161
Facebook, 254
falsos negativos (errores de tipo II), 84, 162–64
falsos positivos (errores de tipo I), 84–85, 162–64
estructura familiar, 115
colas gordas, 208, 209–
10 FBI, 74–
75 Emergencia federal Administración de gestión, 144 películas,
mayor recaudación, 47–48 crisis
financiera de 2008, 7–8, 38, 95–100, 109 industria
financiera, 7–8, 38, 95–100, 109 incendios, 8
Niebla
de guerra ( película), 59
Administración de Alimentos y Medicamentos,
EE. UU., 83 desiertos
alimentarios, 201 cupones
de alimentos,
200, 201 fútbol, 51 punto extra versus conversión de dos
puntos en, 71, 77–78 traumatismo
craneal en, 114, 242–44
pasador calificación en, 1–
2, 3, 56 inversión
extranjera, 41 “informe 4:15”, 96, 97 Framingham
Heart Study,
115–16, 136, 243 fraude, 86, 107 Freakonomics
(Levitt y Dubner), 72 distribución de
frecuencia , 20, 20, 25 tasa de
retención de estudiantes de primer año, 56–57 moscas de la fruta, 110–11, 113, 114
Organización Gallup, 7, 177, 180, 181 falacia

del jugador, 102, 106–7 juego, 7, 79,
99, 102
Gates, Bill, 1819, 27, 134
matrimonio homosexual, 171
PIB, 217
género, como variable explicativa, 198, 199–200, 204, 205
discriminación de género, 107–8, 202–4
General Electric, 95, 96
Diploma de Equivalencia General (GED), 53 factores
genéticos, 115 genética,
245
Alemania, 39
Gilovich, Thomas, 103
Índice de Gini, 23
Gladwell, Malcolm, 30–31, 56, 242, 243–44 globalización,
41 calentamiento
global, 180
El Padrino, La (película), 47
Goldin, Claudia, 203 golf,
217
lecciones de golf, 214–15, 214
telémetro de golf, 38, 99
Lo que el viento se llevó (película), 47, 48
google, 4
Gould, Stephen Jay, 44
deuda pública, promedio de
calificaciones de 99 a 100, 1, 5 a 6, 63
tasa de graduación, 56 a 57
Gran Bretaña, falacia probabilística en el sistema de justicia penal en, 100102
Gran Depresión, 99, 241
Gran Recesión, 39
Empacadores de Green Bay, 12
Greenspan, Alan, 97, 99
Grogger, Jeff, 32
producto interno bruto (PIB), 241
Bahía de Guantánamo, 164
culpables más allá de toda duda razonable, 148
armas, 72
Guskiewicz, Kevin, 243
Hall, Monty, xi–xii, 90–94

Hanna, Rema, 250
Universidad de Harvard, 211, 225, 233, 234, 249
Recuento de “HCb2”, 24–
25 Colesterol HDL, 116
traumatismo craneoencefálico,
114, 242–44
Atención médica , 189
contención de costos
en, 85 seguro médico, 82 sesgo de
usuario saludable, 125–26, 154
enfermedades cardíacas, 145, 148,
198, 217–18 suplementos
de estrógeno y, 211 ejercicio y, 188–89
Estudio de Framingham sobre,
115–16 , 136 componente
genético de, 245 estrés y,
185–87, 205–7
administradores de fondos de cobertura, 19
altura, 115, 204, 205 media, 25, 26, 35, 156–57, 159, 166–68 peso correlacionado con,
59, 59, 60, 61,
63, 65–67, 189–204, 190, 191, 208 heroína, 219–20
variables explicativas altamente
correlacionadas, 219–20
abandono de la escuela
secundaria, 226–27
VIH/SIDA, 84–85 , 182
Hjalmarsson,
Randi, 239 jugadores
de hockey, 242 ejecuciones
hipotecarias, 99
personas sin hogar,
6 hipotecas de viviendas,
97 seguros de
propietarios, 82
homosexualidad, 182
Honda Civic, 87 Hoover, Herbert, 241 hormonas, 207 manos calientes, 102–3 Houston, Tex ., 53–54 Cómo men
Hussein, Saddam, 240 pruebas

de hipótesis, 146–48, 197
IBMSPSS, 260
Illinois, 29, 41, 87, 236 lotería,
78–79, 81 encarcelamiento,
239–40 incentivos, 53 ingresos,
32, 114, 194, 198,
204, 205 educación y 235 per cápita, 16–17, 18 –
19, 27, 55, 216 inclinación
a la derecha, 133–34, 133 desigualdad de ingresos,
2–3, 41–42 impuesto sobre la renta,
29, 114 verificación de ingresos, 87
eventos independientes:
falacia del jugador y, 106–7
malentendido de, 102–3
probabilidad de que sucedan ambos, 75–
76, 100 probabilidad de que cualquiera
de los dos suceda, 76–77 variables independientes, ver
variables explicativas
India, 39, 45, 64

indicador, 95
series infinitas, xii–xiii inflación,
16, 45–46, 47 información, 96–
97
Insel, Thomas, 245
seguros, 8, 71, 81–82, 84, 89, 144–45 igualdad de
género y, 107–8 tasa de interceptación,
1
internet, 235
Encuestas de Internet, 178
intervención, 225, 226–27 intuición,
xii–xiv
Iónnidis, Juan, 223
Encuesta informal de Iowa, 118
Guerra de Irak, 240
Tiburón (película), 47
motores a reacción,
100 Jeter, Derek, 15,
19 programa de colocación laboral,
226 capacitación laboral, 113, 227, 236–37, 236,
237 Medalla John Bates Clark, 251
Journal of Personality and Social Psychology, 160–61 Journal of
the American Asociación Médica, 223 JP Morgan, 96
sentencias, 57
delincuentes
juveniles, 239–40 Kadiyali,
Vrinda, 72–73 Kael, Pauline,
118 Katmandú, Nepal,
116–17 Katz, Lawrence, 203
Kenia, 250 Kinney,
Delma, 9
Klick , Jonathan, 227
Knight, Ted, 44–45
Krueger, Alan, 12–13,
32, 234–35 Kuwait, 31
Landon, Alf, 118–19

impresoras láser, tendencia central explicada por, 17–18, 19, 20–21, 20, 21, 34 ley de los
grandes números, 78–79, 84, 107 mínimos
cuadrados, 190–94
sistema legal , 148, 162
problema del “limón”, 21
Hagamos un trato, xi–xii, 90–94
leucemia, 104
apalancamiento, 96
Levitt, Steve, 72
esperanza de vida, 31, 43
liquidez, 96
tasa de alfabetización, 55
Compendio literario, 11819
LlerasMuney, Adriana, 232–33
longevidad, educación y, 231–33
estudios longitudinales:
Cambiando vidas, 135, 135, 136, 137, 138–41, 150–52, 166, 192, 193, 195,
196, 199, 200, 201, 202, 204, 208, 221 sobre

educación, 116 sobre
educación e ingresos, 231–33 sesgo de
usuario saludable y 125 sobre
enfermedades cardíacas,
115–16 sesgo de recuerdo
y, 122–23 Los Ángeles,
California, 247 Los Angeles
Times,
74, 247 lotería: doble
ganador de, 9 irracionalidad del juego, xi, 78–79,
81, 89 Lotus Evora, 30–
31 suerte, 106
malaria, 146–47, 148

calvicie de patrón masculino, 82–84, 83
Malkiel, Burton, 125n
Malmendier, Ulrike, 107
mamografías, 163
Manning, Peyton, 30
Mantle, Mickey, 5
manufactura, 39–40, 39
corredores de maratón, 23 –24, 25
maratones, 127–29
canicas en urna, probabilidad y, 112, 178–79 margen
de error, ver empresas de investigación
de
mercado de intervalo de confianza,
113 Martin, JP, 88
Mauricio, 41
McCarthy, Joseph, 37
McKee, Ann, 243
McPherson, Michael, 56–57
Meadow, Roy, 101–2 Ley
de Meadow, 101–2 media,
18–19, 146, 196n afectado
por la dispersión, 44 en estudio
de autismo, 156 teorema
del límite central y, 129, 131, 132
en coeficiente de correlación,
67 fórmula para,
66 de altura de estadounidenses,
25, 26 de
ingresos, 134 mediana
vs., 18, 19, 44 en Microsoft
Excel, 257 posible engaño de, 42–
43 error estándar para la diferencia de,
164– 65 sarampión, paperas y rubéola (MMR),
245–46
mediana, 21 media
vs., 18, 19, 44
valores atípicos y 43 posible engaño
de, 42–44 “La mediana no es el mensaje” (Gould) ,
44 pérdida de
memoria, 242 hombres, manejo de
dinero por, 250–51
Michelob, 68–71, 80 Corte
Suprema de Michigan, 56
Microsoft Excel, 61, 67, 257 clase
media, 13, 15, 16–17, 32
según lo
medido por mediana, 19
Miller, 68, 69 salario mínimo,
46–47 Minority Report
(película), 86 concurso
de Miss América, 30 Mlodinow,
Leonard, 92
modelos, financiero, 7–8, 38, 95–100
monos, 207
Problema de Monty Hall ,
xi–xii, 90–94
motocicletas, 72 Moyer,
Steve, 16, 31–32
exploraciones por resonancia magnética, 163
multicolinealidad, 219–20 multinacionales,
170n análisis de regresión múltiple, 199–204, 226 regresión logística multivariada, 206n fondos mutuos,
NASA, 72
Liga Nacional de Fútbol, 1–2, 3, 51, 56, 242–44 Instituto

Nacional de Salud Mental, 245 Centro Nacional
de Investigación de Opinión (NORC), 7, 181–83 Nativos
americanos, 184
experimentos naturales, 231–33
NBA, 103
correlación negativa, 60, 62
Netflix, 4, 58–59, 60, 62, 64–65
Newport, Frank, 177
Nueva York, 41, 54–55
Nueva York, NY, 247
New Yorker, 30–31, 118, 241 , 242 New
York Times, 4, 43, 86–87, 91–92, 96, 98–99, 110, 125, 154–55, 161, 169,
170, 172, 177, 178, 229–30, 231, 235, 246, 247, 254
Revista del New York Times, 88, 122, 222, 253
Nixon, Ricardo, 118
Premio Nobel de Economía, 251
Nocera, Joe, 96, 98–99
cifras nominales, 45–46, 47
control no equivalente, 233–40
relaciones no lineales, 214–15
distribución normal, ver curva de campana
Carolina del Norte, Universidad de, 155–60
Dakota del Norte, 41, 183–84
hipótesis nula, 146–48, 149, 156–57, 166, 188 umbral de
rechazo de, 149–50, 152, 153, 161–64, 197, 222
Estudio de salud de las enfermeras, 211
Obama, Barack, 17, 32

calificación laboral de, 169, 170, 171, 177,
179 obesidad, enfermedades cardíacas
y, 115–16 observaciones, 67, 192–93
Occupy Wall Street, 16, 169–70 sesgo
de variable omitida, 217–19
porcentaje de base, 31
prueba de hipótesis “de una cola”, 151, 166–68
mínimos cuadrados ordinarios (MCO), 190–
94 osteoporosis, 211
valores atípicos, 18–20, 21
reversión de la media de, 105

insensibilidad de la mediana a, 43
media de la muestra y, 138
en la varianza, 34
producción, 39–
40 subcontratación, 41
Paige, Rod, 53, 54

Pakistán, 64
parámetros, 196, 197
calificación de pasador, 1–2,
3, 56 patrones,
14 Paulson, Hank, 98
Paxil, 121
PayScale.com, 233
encuesta de evaluación de pares,
56 Penn State, 56
producción económica per cápita, 31
ingreso per cápita, 16–17, 18–19, 27, 55, 216 porcentaje
de pases de touchdown por intento de pase, 1 porcentajes, 27–
28, 29 exageración por, 48
fórmula para, 28
percentiles, 22 , 23
correlación perfecta,
60 correlación negativa
perfecta, 60 Estudio preescolar de
Perry, 116 Peto, Richard, 222
Philadelphia 76ers, 103
física, x placebo, 148, 228
efecto
placebo, 229 agentes
de policía y disuasión
del crimen, 225–26, 227 empresas encuestadoras, 113 encuestas,
xv, 169–84 precisión
de las respuestas en,
181–83 teorema del límite central y, 130,
170–71, 174 intervalo de confianza en, 171–75 salida,
172–73
margen de error en, 171

metodología de, 178–82
mal hecho, 178
presidencial, xii
proporción utilizada en, 171–
72 análisis de regresión vs.,
188 tasa de respuesta de, 179–
80 tamaño de muestra en,
172, 175 muestreo en, 6 –7,
111–13 sesgo de
selección en, 178 sobre la actividad
sexual, 6, 7, 181–83 error estándar
en, 172–76, 195
teléfono, 112 Porsche
Cayman,
30–31 libras, 45 pobreza,
200–201, 249 –52
trampa de pobreza, 250
oración, 4, 13, 229–30, 231
precisión, 37–38, 99, 247
análisis predictivo, 252–54 vigilancia
policial predictiva, 86–
87, 108 embarazo, 252–54
Universidad de Princeton, 233
impresores , garantías sobre, 80–81,
82 prisioneros, tratamiento
de drogas para, 120
información
privada, 86
probabilidad, 68–89
acumulativa,
165 en juegos de azar, 7 falta de
determinismo en,
89 límites de, 9 y canicas en urna, 112, 178 –79 utilidad de, xi probabilidad, problemas con, 95–109
en el sistema de justicia británico, 100–
102 agrupación,
104–5 y crisis financiera de 2008, 7–8, 38, 95–100, 109
falacia del fiscal, 104–5
reversión a la media, 105–7
discriminación estadística, 107–9

función de densidad de probabilidad,
79 productividad,
235 elaboración
de perfiles, 108 falacia del fiscal,
104–5 cáncer de próstata, 163, 224
Prozac, 121
Prueba de PSA,
163 sesgo de publicación, 120–22,
223 valor p, 152, 157n, 159, 160, 197–98
Qatar, 31
cuántos, 95, 99
quarterbacks, 1–2
cuartiles, 22
R (programa de computadora),
259 r (coeficiente de correlación), 60–
61 cálculo de, 65–67 raza,
114, 200–201 programa
de llamadas de radio, 178
Rajasthan, India, 250
error aleatorio, 106
aleatorización, 114–15
experimentos controlados aleatorios, 227–29 grupo de
control como contrafactual en, 240 sobre curar
la pobreza, 250–52 ética y, 227–
28, 240 sobre oración y
cirugía, 229 –30 sobre el tamaño de
la escuela, 230–31
Paseo aleatorio por Wall Street, A (Malkiel), ranking 125n, 30–
31, 56, 248
Más bien, Dan, 53
discriminación racional, 108
Reagan, Ronald, 49, 50
cifras reales, 46
sesgo de recuerdo,
122–23 análisis de regresión, 10–12, 185–
211 dificultad de, 187
sobre discriminación de género,

202–4 de altura y peso, 189–204, 190, 191
en Microsoft Excel, 257
múltiples, 199–204, 226
encuestas vs.,
188 error estándar en, 195–
97 estudios de Whitehall, 185–87, 195,
205–7 análisis de regresión, errores en, 187, 189, 211–
24 correlación confundida con causalidad, 215–
16 extracción de datos,
221–23 extrapolación,
220–21 variables explicativas altamente
correlacionadas, 219–20 con relaciones
no lineales, 214 –15 sesgo de
variable omitida, 217–19 coeficiente de
regresión, 193, 195, 196 ecuación de regresión,
191–92, 198, 201, 222
estadísticas relativas,
22–23, 27 porcentajes
como, 28 Partido
Republicano,
EE. UU.: gasto en
defensa y, 49
encuestas de, 170
aumento de impuestos y,
29 residuos, 190–94 tasa de respuesta, 179–
80 causalidad
inversa, 216–17 reversión
(regresión) a la media,
105–7 Rhode Island,
41 “sesgado a la derecha”, 44,
133 evaluación de
riesgos, 7–8 gestión de riesgos,
98 Rochester, Universidad
de, 55 Rodgers,
Aaron, 2, 29 Royal Statistical Society, 102 Rumsfeld, Donald, 14 rupias, 45, 47 Ruth, Babe, 32
Sallee, Jim, 141n

medias muestrales, 132–33, 139, 139, 142, 150, 151, 167, 168
en el estudio del
autismo, 156
agrupación de, 138
dispersión de, 136
valores atípicos y, 138 muestreo,
6–7, 111–
13, 134 malo, 113 teorema del límite
central y, 127–
30 de personas sin hogar, 6 tamaño
de, 113, 172, 175, 196, 220
Santa Cruz,
California, 86–87 SAS, 258–59
puntajes en el SAT, 55, 60, 62–63, 220
televisores domésticos y 63–64
ingresos y 63–64, 218–
19 en matemáticas prueba, 25, 224 media y
desviación
estándar en, 25, 26 satélites, 72 Cerveza
Schlitz, 68–71, 79, 79,
80, 97, 99 escuelas,
187, 246–49
calidad de, 51–52
tamaño de, 230 –31
Ciencia, 110–11 cuadros de mando, 54–55 Comisión
de Bolsa y Seguridad, 86, 145
sesgo de selección, 118–19, 178
comportamiento de
voto autoinformado, 181, 182 autoselección, 178 11 de
septiembre de 2001,
ataques terroristas
de , 72–73, 74 “Sex Study”, 181–83
comportamiento sexual: de las
moscas de la fruta, 110–
11, 113, 114 autoinforme de, 6, 7,
181–83
Shrek 2 (película), 47, 48
sigma , ver
signo de desviación estándar, 193 significancia, 193, 195–96
tamaño vs., 154 nivel de significancia, 149–50, 152, 153, 157n, 166, 199 Simon, Daniel, 73
muestra aleatoria simple, 112 Six

Sigma Man, 70n 60
Minutes II, 53 tamaño,
193–94
significancia vs., 154
porcentaje de slugging, 31–32
Smith, Carol, ix–x, xii fumar,
116 cáncer
causado por, xiv, 9 –10, 11
enfermedades cardíacas y, 115–16, 186–87, 189–90
conducta de fumar, 115
efectos socialmente insignificantes, 194
“Organización social de la sexualidad, The: Prácticas sexuales en los Estados Unidos”,
181–83
sodio, 27
Sonidos de la musica, La (película), 48
Sudáfrica, 3
Unión Soviética, 49, 143
filtros de spam, 163
deportes, rachas, 1023
Programa de investigación de conmociones cerebrales deportivas, 243
Sports Illustrated, 107

calabaza, 188–89
Staiger, Doug, 24748
Standard & Poor's 500, 123–24
desviación estándar, 23–25, 146, 196n en el
escándalo de trampa de Atlanta, 149 en
el estudio del autismo,
156 en la curva de
campana, 133 teorema del límite central y
129, 131 en el coeficiente de
correlación, 67
fórmula para, 35 en Microsoft
Excel, 257 en distribución
normal, 26 error estándar, 136–42, 152,
184 en estudio de autismo,
159–60 para diferencia de medias, 164–
65 fórmula para, 138, 150, 172, 176–77 en
encuestas , 172–76
en análisis de regresión, 195–97

pruebas estandarizadas, 246
teorema del límite central y 129–30 hacer
trampa, 4, 8–9, 86, 145, 148–49 como indicador
engañoso, 51–52, 53–54 estadísticas relativas
producidas por , 22–23 ver también puntuaciones
del SAT unidades
estándar, 65
Universidad de Stanford, 103
Star Wars Episodio IV (película), 47, 48
Stata, 258
discriminación estadística, 107–9
ejemplos estadísticos:
autor acusado de hacer trampa, 143–44, 149
inversión del autor, 28–29 ingreso
promedio, 16–17, 18–19, 27 altura de los
jugadores de baloncesto, 156–57, 159, 166–68 teorema del límite
central y, 127–28, 130, 131, 132 tendencia central, 17–18, 19,
20–21, 20, 21 riesgos crediticios, 88 delitos y, 86–87
sobre la eficacia
de los profesores,
248–49
Estudio de Framingham, 115–16, 136
telémetro de golf, 38, 99
medicamento para la calvicie de patrón masculino,
82–84, 83 canicas de urna, 112, 178–79
Algoritmo de Netflix, 4, 58–59, 60, 62, 64–65
Estudio preescolar de Perry, 116
vigilancia policial predictiva, 86–87, 108
de enfermedades raras, 84–85, 85
Cerveza Schlitz, 68–71, 79, 79, 80
sodio, 27
desviación estándar, 23–25 valor
en riesgo, 38, 95–97, 98–100 ver también
estudios longitudinales
hallazgos estadísticamente significativos, 11, 153, 154–55, 194, 221
software estadístico, 257–60
estadísticas:
datos vs., 111
como trabajo de detective, 10–11,

14 errores en,
14 falta de certeza en, 144–46
mentir con, 14
conclusiones engañosas de, xiv, 6 relativo
versus absoluto, 22–23
reputación de, xii, 1
como resumen, 5 , 14, 15–16, 17
ubicuidad de, xii
comportamiento indeseable causado
por, 6 utilidad de, xi, xii, xv, 3, 14
ver también descripción engañosa; estadísticas descriptivas
esteroides,
243 mercado de valores,
71, 89 rachas,
102–3 estrés, enfermedades cardíacas y, 185–
87, 205–7
accidentes
cerebrovasculares, 116
selectividad estudiantil, 55 abuso de sustancias, 110–11 Distrito del sanatorio
de tuberculosis suburbano del condado de Cook, 48 –
49 síndrome de muerte
súbita del lactante
(SMSL), 101–2 signo de suma,
66 escuela de verano, 238
Super Bowl, 68–71, 79, 97 Corte Suprema,
EE. UU., 254 cirugía,
oración y, 4, 13, 229–30, 231
Surowiecki,
James, 241 sesgo de supervivencia, 123–25 Suecia, 3 piscinas, 72
Tabarrok, Alexander, 227

riesgo de cola,
98, 99 colas, gordo, 208, 209–10
Taleb, Nicolás, 98–99
Objetivo, 52–54
Tate, Geoffrey, 107
tau, 243
Taubes, Gary, 125
impuestos, ingresos, 29,

114 recortes de impuestos, 43,
114, 180, 235 distribución t, 196,
208–11 calidad docente,
51 docentes, 246–49
ausentismo entre, 250 salario
de, 4
empresas de tecnología, 154–55
telecomunicaciones , 42
encuestas telefónicas, 112
televisiones, 63–64
Diez Mandamientos, La (película), 48
Experimento del Proyecto STAR de Tennessee, 230–31
terrorismo, terroristas, 163–64
sistema de alerta para, 227
causas de, 11, 12–13 del
11 de septiembre, 72–
73, 74 riesgos
de, 73 puntajes de
pruebas, 53, 198 medias
reversión y, 106 ver también puntuaciones del SAT; pruebas estandarizadas
Texas, 41, 54
enviando mensajes de texto mientras
conduce, 88 timerosal, 246
Tierney, John, 91–92
Titanic (película), 47
touchdowns, 1
intercambio,
41 tratamiento, 9, 113–14, 225, 226–27 grupo
de tratamiento, 114, 126, 227–29, 238–39 coeficiente de
población real, 208 parámetro de población
real, 196, 197 estadístico t, 197n
Túnez, 170n
Tversky, Amós, 103
Twain, Mark, 36
estudios de gemelos,
245 conversiones de dos puntos, 71, 77–78
prueba de hipótesis de “dos colas”, 151, 166–68
Errores de tipo I (falsos positivos), 84–85, 162–64

Errores tipo II (falsos negativos), 84, 162–64
incertidumbre, 71, 74
desempleo, 217, 236–37, 236, 241 sindicatos,
47, 247 Índice de
Desarrollo Humano de las Naciones Unidas, 31, 55 Estados
Unidos, 65 Índice de
Gini de, 3
manufactura en, 39–40, 39 media
de altura en, 25, 26 clase
media en, 13, 15, 16–17, 32 producción
económica per cápita de, 31 unidad de
análisis, 40–42 US News &
World Report, 55–57, 248
vacunas, 245–46
Vallone, Robert, 103
evaluaciones de valor agregado, 247–48
valor en riesgo, 38, 95–97, 98–100
variables, 224
dependientes, 192, 193–94, 197, 198, 199, 206n, 216, 217, 226 explicativo
(independiente), 192, 193–94, 197, 198, 199, 203, 217 altamente correlacionado,
219–20
Varian, Hal, 4
varianza, 24
fórmula para, 34–35
valores atípicos en, 34
Verizon, 42 años
Vermont, 41
viviendas para veteranos, 45–46
Vick, Michael, 242
vitaminas, 125
votaciones, comportamiento de autoinforme, 181, 182
Derechos de autor
Copyright © 2013 por Charles Wheelan
Reservados todos los derechos

Impreso en los Estados Unidos de América.
Primera edición
Para obtener información sobre el permiso para reproducir selecciones de este libro, escriba a Permissions, WW
Norton & Company, Inc., 500
Quinta Avenida
Para obtener información sobre descuentos especiales para compras al

por mayor, comuníquese con Ventas especiales de WW
Norton en [email protected] o al 8002334830
Fabricación por Courier Westford

Production manager: Anna Oler
ISBN 9780393071955 (tapa dura) eISBN

9780393089820
WW Norton & Company, Inc.

500 Quinta Avenida, Nueva York, NY 10110
www.wwnorton.com
WW Norton & Company Ltd.

Casa del Castillo, 75/76 Wells Street, Londres W1T 3QT
También por Charles Wheelan
10½ cosas que ningún orador de graduación ha dicho jamás

Economía desnuda: desnudando la ciencia lúgubre

Estadistica Al Desnudo

Cargado por

Copyright:

Formatos disponibles

Estadistica Al Desnudo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Al Desnudo

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Machine Translated by Google

Pagina del titulo

Introducción: Por qué odiaba el cálculo pero amo la estadística

2 Estadísticas Descriptivas: ¿Quién fue el mejor jugador de béisbol de todos los

3 Descripción engañosa: "¡Tiene una gran personalidad!" y otras declaraciones

4 Correlación: ¿Cómo sabe Netflix qué películas me gustan?

5 Probabilidad básica: no compre la garantía extendida para su impresora de $99

5½ El problema de Monty Hall

Seis problemas con la probabilidad: cómo los fanáticos de las matemáticas

7 La importancia de los datos: “Basura entra, basura sale”

8 El teorema del límite central: el Lebron James de la estadística

9 Inferencia: Por qué mi profesor de estadística pensó que podría haber

10 Encuestas: Cómo sabemos que el 64 por ciento de los estadounidenses apoya

11 Análisis de regresión: el elixir milagroso

12 errores comunes de regresión: la etiqueta de advertencia obligatoria

13 Evaluación del programa: ¿Ir a Harvard cambiará tu vida?

Conclusión: cinco preguntas que las estadísticas pueden ayudar a responder

También por Charles Wheelan

La idea de este libro nació no mucho después de mi desafortunada experiencia en la clase de

El caso es que convencí a Will. Me convencí a mí mismo. No recuerdo las matemáticas

más comprensible, pero no necesariamente al revés.

Si desea comprender los números detrás de las noticias y apreciar el extraordinario (y

¿Cuál es el punto de?

Descripción y comparación Una puntuación

(Supongo que hay algo ligeramente deprimente en tener el trabajo de la vida

preguntas; de hecho, ambas pueden responderse (no perfectamente) mediante el uso de

Evaluación del riesgo y otros eventos relacionados con la probabilidad

Identificación de relaciones importantes

Mentiras, malditas mentiras y estadísticas

Entonces, volviendo al capítulo del título, ¿cuál es el sentido de aprender estadística?

Debido a que ha habido un crecimiento explosivo en los ingresos en el extremo superior de la

Distribución de frecuencia de quejas de calidad de la competencia

Como la distribución es casi simétrica, la media y la mediana están relativamente cerca

Distribución de frecuencia de quejas de calidad en su empresa

El beneficio de este tipo de estadísticas descriptivas es que describen dónde se encuentra

La desviación estándar y la varianza (otra medida común de dispersión de la que se deriva la

¿Qué diablos significa eso?

La media es la línea media que a menudo se representa con la letra griega µ.

Probablemente aprendiste a calcular porcentajes en cuarto grado y te sentirás tentado a

Desgraciadamente, la desventaja de cualquier índice es que consolida mucha información compleja en

1. Porcentaje de embase (OBP), a veces llamado promedio de embase (OBA): Mide la

2. Porcentaje de slugging (SLG): Mide el poder de bateo calculando el total de bases

APÉNDICE DEL CAPÍTULO 2

Datos para los gráficos de defectos de la impresora.

Fórmula para la varianza y la desviación estándar.

Para cualquier conjunto de n observaciones x1, ... xn con media µ,

Descripción engañosa “¡Tiene

De hecho, la precisión puede enmascarar la inexactitud al darnos una falsa sensación de

En cambio, empeoró apreciablemente.

“La recuperación del cinturón industrial,” 10 de marzo de 2011

La aparente contradicción radica en cómo se define la “salud” de la industria manufacturera

Político A (populista): “¡Nuestra economía está en la mierda! Treinta estados habían

Las empresas de telecomunicaciones AT&T y Verizon se han involucrado recientemente en

¿Recibirían un recorte de impuestos 92 millones de estadounidenses? Sí.

TED KNIGHT: ¿Qué disparaste?

1. Lo que el viento se llevó (1939)

Gasto en defensa en miles de millones, 1981­1988

Gasto en defensa en miles de millones, 1977­1988

Gasto en defensa en miles de millones, 19811988

Gasto en defensa en miles de millones, 19771988