Estadistica Al Desnudo
Estadistica Al Desnudo
Estadistica Al Desnudo
estadísticas desnudas
Eliminando el temor de los datos
CARLOS WHEELAN
Machine Translated by Google
Dedicación
Machine Translated by Google
Para Katrina
Machine Translated by Google
Contenido
Cubrir
1 ¿Cuál es el punto?
Expresiones de gratitud
Índice
Derechos de autor
Introducción
Por qué odiaba el cálculo pero amo la estadística
Siempre he tenido una relación incómoda con las matemáticas. No me gustan los
números por los números. No me impresionan las fórmulas sofisticadas que no tienen
aplicación en el mundo real. En particular, no me gustaba el cálculo de la escuela
secundaria por la sencilla razón de que nadie se molestó en decirme por qué necesitaba aprenderlo.
¿Cuál es el área debajo de una parábola? ¿A quién le importa?
De hecho, uno de los grandes momentos de mi vida ocurrió durante mi último año de secundaria, al
final del primer semestre de Cálculo de Colocación Avanzada. Estaba trabajando en el examen final,
ciertamente menos preparado para el examen de lo que debería haber estado. (Me habían aceptado en
la universidad de mi primera elección unas semanas antes, lo que había agotado la poca motivación que
tenía para el curso). Mientras miraba las preguntas del examen final, me parecían completamente
desconocidas. No quiero decir que tuviera problemas para responder las preguntas. Quiero decir que ni
siquiera reconocí lo que me preguntaban. No era ajeno a no estar preparado para los exámenes, pero,
parafraseando a Donald Rumsfeld, normalmente sabía lo que no sabía. Este examen parecía aún más
griego de lo habitual. Hojeé las páginas del examen durante un rato y luego más o menos me rendí.
Caminé hacia el frente del salón de clases, donde mi maestra de cálculo, a quien llamaremos Carol
Smith, estaba supervisando el examen. "Señora. Smith”, dije, “no reconozco muchas de las cosas del
examen”.
Baste decir que yo no le agradaba a la señora Smith mucho más de lo que yo le agradaba a ella. Sí,
ahora puedo admitir que a veces usé mis poderes limitados como presidente de la asociación estudiantil
para programar asambleas de toda la escuela sólo para que se cancelara la clase de cálculo de la Sra.
Smith. Sí, mis amigos y yo recibimos flores para la Sra. Smith durante la clase de parte de “un admirador
secreto” solo para que pudiéramos reírnos en el fondo del salón mientras ella miraba avergonzada a su
alrededor. Y sí, dejé de hacer tarea una vez que entré a la universidad.
Entonces, cuando me acerqué a la Sra. Smith en medio del examen y le dije que el material no me
parecía familiar, ella se mostró, bueno, poco comprensiva. "Carlos", dijo
Machine Translated by Google
en voz alta, aparentemente para mí, pero de cara a las filas de escritorios para asegurarse de
que toda la clase pudiera escuchar, "si hubieras estudiado, el material te resultaría mucho más
familiar". Este fue un punto convincente.
Así que regresé sigilosamente a mi escritorio. Después de unos minutos, Brian Arbetter,
mucho mejor estudiante de cálculo que yo, caminó hacia el frente de la sala y le susurró algunas
cosas a la señora Smith. Ella le respondió en un susurro y entonces sucedió algo realmente
extraordinario. "Clase, necesito su atención", anunció la Sra. Smith. "Parece que te di el examen
del segundo semestre por error". Estábamos lo suficientemente avanzados en el período de
prueba que todo el examen tuvo que ser abortado y reprogramado.
No puedo describir completamente mi euforia. Continuaría en la vida y me casaría con una
mujer maravillosa. Tenemos tres hijos sanos. He publicado libros y visitado lugares como el Taj
Mahal y Angkor Wat. Aún así, el día en que mi profesora de cálculo recibió su merecido es uno
de los cinco momentos más importantes de la vida. (El hecho de que casi reprobé el examen final
de recuperación no disminuyó significativamente esta maravillosa experiencia de vida).
El incidente del examen de cálculo te dice mucho de lo que necesitas saber sobre mi relación
con las matemáticas, pero no todo. Curiosamente, me encantaba la física en la escuela
secundaria, a pesar de que la física se basa en gran medida en el mismo cálculo que me negaba
a hacer en la clase de la Sra. Smith. ¿Por qué? Porque la física tiene un propósito claro. Recuerdo
claramente que mi profesor de física de la escuela secundaria nos mostró durante la Serie
Mundial cómo podíamos usar la fórmula básica de aceleración para estimar hasta qué punto se
había alcanzado un jonrón. Eso es genial, y la misma fórmula tiene muchas más aplicaciones
socialmente significativas.
Una vez que llegué a la universidad, disfruté muchísimo de la probabilidad, nuevamente
porque me ofrecía información sobre situaciones interesantes de la vida real. En retrospectiva,
ahora reconozco que no eran las matemáticas las que me molestaban en la clase de cálculo; fue
que nadie consideró oportuno explicar el significado de esto. Si no estás fascinado sólo por la
elegancia de las fórmulas (cosa que a mí enfáticamente no me fascina), entonces se trata
simplemente de un montón de fórmulas tediosas y mecanicistas, al menos tal como me las enseñaron.
Esto me lleva a la estadística (que, para los fines de este libro, incluye la probabilidad). Me
encantan las estadísticas. Las estadísticas pueden usarse para explicar todo, desde las pruebas
de ADN hasta la idiotez de jugar a la lotería. Las estadísticas pueden ayudarnos a identificar los
factores asociados con enfermedades como el cáncer y las enfermedades cardíacas; puede
ayudarnos a detectar trampas en los exámenes estandarizados. Las estadísticas pueden incluso
ayudarte a ganar en programas de juegos. Hubo un programa famoso durante mi infancia llamado
Let's Make a Deal, con su igualmente famoso presentador, Monty Hall. Al final del espectáculo de
cada día, un jugador exitoso se paraba con Monty frente a tres grandes puertas: Puerta no. 1,
puerta núm. 2, y Puerta núm. 3. Monty Hall le explicó al jugador que había un premio muy
deseable detrás de una de las puertas (algo así como un auto nuevo) y un
Machine Translated by Google
cabra detrás de los otros dos. La idea era sencilla: el jugador elegía una de las puertas y colocaba
el contenido detrás de esa puerta.
Mientras cada jugador se encontraba frente a las puertas con Monty Hall, tenía una probabilidad
de 1 entre 3 de elegir la puerta que se abriría para revelar el valioso premio.
Pero Hagamos un Trato tuvo un giro que ha deleitado a los estadísticos desde entonces (y dejado
perplejos a todos los demás). Después de que el jugador eligiera una puerta, Monty Hall abriría una
de las dos puertas restantes, siempre revelando una cabra. A modo de ejemplo, supongamos que
el jugador ha elegido la puerta núm. 1. Monty luego abriría la puerta no. 3; la cabra viva estaría
parada allí en el escenario. Todavía quedarían dos puertas cerradas, las núms. 1 y 2. Si el valioso
premio estuviera detrás del no. 1, ganaría el concursante; si estaba detrás del no. 2, perdería. Pero
luego las cosas se pusieron más interesantes: Monty se volvía hacia el jugador y le preguntaba si
le gustaría cambiar de opinión y cambiar de puerta (del número 1 al número 2 en este caso).
Recuerde, ambas puertas todavía estaban cerradas y la única información nueva que recibió el
concursante fue que apareció una cabra detrás de una de las puertas que él no escogió.
¿Debería cambiar?
La respuesta es sí. ¿Por qué? Eso está en el Capítulo 5½.
La paradoja de las estadísticas es que están en todas partes (desde los promedios de aciertos
hasta las encuestas presidenciales), pero la disciplina en sí tiene fama de ser poco interesante e
inaccesible. Muchos libros y clases de estadística están demasiado cargados de matemáticas y
jerga. Créame, los detalles técnicos son cruciales (e interesantes), pero es griego si no comprende
la intuición. Y es posible que ni siquiera te importe la intuición si no estás convencido de que existe
alguna razón para aprenderla. Cada capítulo de este libro promete responder la pregunta básica
que le hice (sin éxito) a mi profesor de cálculo de la escuela secundaria: ¿ Cuál es el punto de esto?
Este libro trata sobre la intuición. Le faltan matemáticas, ecuaciones y gráficas; cuando se
utilicen, prometo que tendrán un propósito claro y esclarecedor. Mientras tanto, el libro contiene
muchos ejemplos para convencerlo de que existen grandes razones para aprender estas cosas.
Las estadísticas pueden ser realmente interesantes y la mayoría no es tan difícil.
El instructor estaba tratando de enseñarnos las circunstancias bajo las cuales la suma de una
serie infinita converge en un número finito. Quédense conmigo aquí por un minuto porque este
concepto quedará claro. (En este momento probablemente te estés sintiendo como me sentí yo
en ese salón de clases sin ventanas). Una serie infinita es un patrón de números que continúa
. .patrón
para siempre, como 1 + ½ + ¼ + ⅛ Los tres puntos significan que el . continúa hasta el
infinito. .
Esta es la parte en la que estábamos teniendo problemas para entender. Nuestro
instructor estaba tratando de convencernos, utilizando alguna prueba que he olvidado hace
mucho tiempo, de que una serie de números puede durar para siempre y aún así sumar
(aproximadamente) un número finito. Uno de mis compañeros de clase, Will Warshauer, no
quiso saber nada de eso, a pesar de la impresionante demostración matemática. (Para ser
honesto, yo mismo era un poco escéptico). ¿Cómo puede algo que es infinito sumar algo que es finito?
Entonces tuve una inspiración, o más exactamente, la intuición de lo que el instructor
intentaba explicar. Me volví hacia Will y le hablé de lo que acababa de resolver en mi cabeza.
Imagine que se ha colocado exactamente a 2 pies de una pared.
Ahora muévase la mitad de la distancia hasta esa pared (1 pie), de modo que quede parado a 1
pie de distancia.
Desde 1 pie de distancia, muévase nuevamente la mitad de la distancia hasta la pared (6
pulgadas o ½ pie). Y desde 6 pulgadas de distancia, hágalo nuevamente (muévase 3 pulgadas o ¼ de pie).
Luego hazlo de nuevo (muévete 1½ pulgadas o ⅛ de pie). Etcétera.
Poco a poco te acercarás bastante a la pared. (Por ejemplo, cuando estés a 1/1024 de
pulgada de la pared, te moverás la mitad de la distancia, u otro 1/2048 de pulgada). Pero
nunca golpearás la pared, porque por definición cada movimiento te llevará sólo la mitad de
la distancia restante. En otras palabras, te acercarás infinitamente a la pared pero nunca la
golpearás. Si medimos tus movimientos en pies, la serie se puede describir como 1 + ½ + ¼
+⅛ ...
Ahí radica la idea: aunque continuarás moviéndote para siempre (cada movimiento te llevará
la mitad de la distancia restante hasta la pared), la distancia total que viajes nunca puede ser
más de 2 pies, que es tu distancia inicial desde la pared. Para fines matemáticos, la distancia
total que recorre se puede aproximar a 2 pies, lo que resulta muy útil para fines de cálculo. Un
matemático diría que la suma de esta serie infinita es 1 pie + ½ pie + ¼ pie + ⅛ pie. . . converge
a 2 pies, que es lo que nuestro instructor estaba tratando de enseñarnos ese día.
Ahora bien, después de haber argumentado que las herramientas básicas de las estadísticas son
menos intuitivas y accesibles de lo que deberían ser, voy a señalar un punto aparentemente
contradictorio: las estadísticas pueden ser demasiado accesibles en el sentido de que cualquiera que
tenga datos y una computadora Puede realizar procedimientos estadísticos sofisticados con unas pocas
teclas. El problema es que si los datos son deficientes o si las técnicas estadísticas se utilizan
incorrectamente, las conclusiones pueden ser tremendamente engañosas e incluso potencialmente
peligrosas. Considere las siguientes noticias hipotéticas de Internet: Las personas que toman descansos
breves en el trabajo tienen muchas más probabilidades de morir de cáncer. Imagínese ese titular
apareciendo mientras navega por la Web.
Según un estudio aparentemente impresionante de 36.000 trabajadores de oficina (¡un conjunto de
datos enorme!), aquellos trabajadores que informaron que salían de sus oficinas para tomar descansos
regulares de diez minutos durante la jornada laboral tenían un 41 por ciento más de probabilidades de
desarrollar cáncer en los siguientes cinco años que los trabajadores. que no abandonan sus oficinas
durante la jornada laboral. Es evidente que debemos actuar ante este tipo de hallazgos, tal vez algún
tipo de campaña de concientización nacional para evitar breves interrupciones en el trabajo.
O tal vez simplemente necesitemos pensar más claramente en lo que hacen muchos trabajadores
durante ese descanso de diez minutos. Mi experiencia profesional sugiere que muchos de esos
trabajadores que reportan salir de sus oficinas para descansos cortos están apiñados afuera de la
entrada del edificio fumando cigarrillos (creando una neblina de humo a través de la cual el resto de
nosotros tenemos que caminar para entrar o salir). . Además, inferiría que probablemente son los
cigarrillos, y no las breves pausas en el trabajo, los que están causando el cáncer. He inventado este
ejemplo sólo para que resulte particularmente absurdo, pero puedo asegurarles que muchas
abominaciones estadísticas de la vida real son casi así de absurdas una vez que se deconstruyen.
Las estadísticas son como un arma de alto calibre: útiles cuando se usan correctamente y
potencialmente desastrosas en las manos equivocadas. Este libro no le convertirá en un experto en
estadística; te enseñará suficiente cuidado y respeto por el campo como para no hacer el equivalente
estadístico de volarle la cabeza a alguien.
Este no es un libro de texto, lo cual es liberador en términos de los temas que deben cubrirse y las
formas en que pueden explicarse. El libro ha sido diseñado para presentar los conceptos estadísticos
más relevantes para la vida cotidiana. ¿Cómo llegan los científicos a la conclusión de que algo causa
cáncer? ¿Cómo funcionan las encuestas (y qué puede salir mal)? Quién “miente con las estadísticas” y
cómo
Machine Translated by Google
¿lo hacen? ¿Cómo utiliza su compañía de tarjeta de crédito los datos sobre lo que está
comprando para predecir si es probable que no realice un pago? (En serio, pueden hacer eso).
Pero tengo aspiraciones aún más audaces que eso. Creo que es posible que disfrutes de las
estadísticas. Las ideas subyacentes son fabulosamente interesantes y relevantes. La clave es
separar las ideas importantes de los detalles técnicos arcanos que pueden interponerse en el
camino. Esas son las estadísticas desnudas.
Machine Translated by Google
CAPÍTULO 1
He notado un fenómeno curioso. Los estudiantes se quejarán de que las estadísticas son confusas
e irrelevantes. Luego, los mismos estudiantes saldrán del aula y hablarán alegremente durante el
almuerzo sobre los promedios de bateo (durante el verano) o el factor de sensación térmica
(durante el invierno) o los promedios de calificaciones (siempre). Reconocerán que el “índice de
pasador” de la Liga Nacional de Fútbol Americano (una estadística que condensa el desempeño
de un mariscal de campo en un solo número) es una medida un tanto defectuosa y arbitraria del
desempeño de un mariscal de campo el día del partido. Los mismos datos (tasa de finalización,
yardas promedio por intento de pase, porcentaje de pases de touchdown por intento de pase y
tasa de intercepciones) podrían combinarse de una manera diferente, como dando mayor o menor
peso a cualquiera de esas entradas, para generar una información diferente. pero igualmente
creíble medida de desempeño. Sin embargo, cualquiera que haya visto fútbol americano reconoce
que es útil tener un único número que pueda usarse para resumir el desempeño de un mariscal de
campo.
¿Es perfecta la calificación del mariscal de campo? No. Las estadísticas rara vez ofrecen una
única forma "correcta" de hacer algo. ¿Proporciona información significativa de una manera
fácilmente accesible? Absolutamente. Es una buena herramienta para hacer una comparación
rápida entre el desempeño de dos mariscales de campo en un día determinado. Soy fanático de
los Osos de Chicago. Durante los playoffs de 2011, los Bears jugaron contra los Packers; los
Packers ganaron. Hay muchas maneras en que podría describir ese juego, incluidas páginas y
páginas de análisis y datos sin procesar. Pero he aquí un análisis más sucinto. El mariscal de
campo de los Chicago Bears, Jay Cutler, tuvo un índice de pasador de 31,8. Por el contrario, el
mariscal de campo de Green Bay, Aaron Rodgers, tuvo un índice de pasador de 55,4. De manera
similar, podemos comparar el desempeño de Jay Cutler con el de un juego a principios de
temporada contra Green Bay, cuando tenía un índice de pasador de 85,6. Eso te dice mucho de lo
que necesitas saber para entender por qué los Bears vencieron a los Packers a principios de
temporada pero perdieron ante ellos en los playoffs.
Esa es una sinopsis muy útil de lo que sucedió en el campo. ¿Simplifica las cosas? Sí, esa es a
la vez la fortaleza y la debilidad de cualquier estadística descriptiva. Un número te dice que Jay
Cutler fue superado en armas por Aaron Rodgers en la derrota de los Bears en los playoffs. Por
otro lado, ese número no le dirá si un mariscal de campo tuvo una mala jugada, como lanzar un
pase perfecto que fue rechazado por el receptor y luego interceptado, o si "avanzó" en cierta clave.
Machine Translated by Google
jugadas (ya que cada finalización tiene el mismo peso, ya sea un tercer intento crucial o una
jugada sin sentido al final del juego), o si la defensa fue terrible. Etcétera.
Lo curioso es que las mismas personas que se sienten perfectamente cómodas hablando de
estadística en el contexto de los deportes, el clima o las calificaciones se paralizarán de ansiedad
cuando un investigador comience a explicar algo como el índice de Gini, que es una herramienta
estándar en economía para medir la desigualdad de ingresos. Explicaré qué es el índice de Gini
en un momento, pero por ahora lo más importante a reconocer es que el índice de Gini es como
el índice de pasador. Es una herramienta útil para reducir información compleja en un solo
número. Como tal, tiene los puntos fuertes de la mayoría de las estadísticas descriptivas, es
decir, que proporciona una manera fácil de comparar la distribución del ingreso en dos países, o
en un solo país en diferentes momentos.
El índice de Gini mide cuán equitativamente se comparte la riqueza (o los ingresos) dentro de
un país en una escala de cero a uno. La estadística se puede calcular para la riqueza o para el
ingreso anual, y se puede calcular a nivel individual o a nivel del hogar. (Todas estas estadísticas
estarán altamente correlacionadas pero no serán idénticas). El índice de Gini, al igual que la
calificación del pasador, no tiene un significado intrínseco; es una herramienta de comparación.
Un país en el que todos los hogares tuvieran la misma riqueza tendría un índice de Gini de cero.
Por el contrario, un país en el que un solo hogar poseyera toda la riqueza del país tendría un
índice de Gini de uno. Como probablemente puedas suponer, cuanto más cerca esté un país de
uno, más desigual será su distribución de la riqueza. Estados Unidos tiene un índice de Gini de
0,45, según la Agencia Central de Inteligencia (gran recopiladora de estadísticas, por cierto).
1 ¿Así
que lo que?
Una vez que ese número se pone en contexto, puede decirnos mucho. Por ejemplo, Suecia
tiene un índice de Gini de 0,23. El de Canadá es .32. El de China es .42. El de Brasil es .54. El
*
de Sudáfrica es .65.Al analizar esas cifras, tenemos una idea de dónde cae Estados Unidos en
relación con el resto del mundo en lo que respecta a la desigualdad de ingresos. También
podemos comparar diferentes momentos en el tiempo. El índice de Gini para Estados Unidos
era de 0,41 en 1997 y creció a 0,45 durante la década siguiente. (Los datos más recientes de la
CIA son de 2007). Esto nos dice de manera objetiva que, si bien Estados Unidos se hizo más
rico durante ese período de tiempo, la distribución de la riqueza se volvió más desigual.
Nuevamente, podemos comparar los cambios en el índice de Gini entre países durante
aproximadamente el mismo período de tiempo. La desigualdad en Canadá se mantuvo
básicamente sin cambios durante el mismo tramo. Suecia ha tenido un crecimiento económico
significativo en las últimas dos décadas, pero el índice de Gini en Suecia en realidad cayó de
0,25 en 1992 a 0,23 en 2005, lo que significa que Suecia se hizo más rica y más igualitaria durante ese período.
Machine Translated by Google
período.
¿Es el índice de Gini la medida perfecta de la desigualdad? Absolutamente no, así como el índice de
pasador no es una medida perfecta del desempeño del mariscal de campo. Pero ciertamente nos brinda
información valiosa sobre un fenómeno socialmente significativo en un formato conveniente.
También hemos retrocedido lentamente en nuestro camino para responder la pregunta planteada en el
título del capítulo: ¿Cuál es el punto? La cuestión es que las estadísticas nos ayudan a procesar datos,
que en realidad no son más que un nombre elegante para la información. A veces los datos son triviales en
el gran esquema de las cosas, como ocurre con las estadísticas deportivas. A veces ofrecen información
sobre la naturaleza de la existencia humana, como ocurre con el índice de Gini.
Pero, como señalaría cualquier buen infomercial, ¡eso no es todo! Hal Varian, economista jefe de
Google, dijo al New York Times que ser estadístico será 2. Seré el primero en admitir que los economistas
tenemos una definición distorsionada de "sexy". serán “el trabajo sexy” durante la próxima década. A veces
Aún así, considere las siguientes preguntas dispares: ¿Cómo podemos detectar a las escuelas que hacen
trampa en sus exámenes
estandarizados?
¿Cómo sabe Netflix qué tipo de películas te gustan?
¿Cómo podemos saber qué sustancias o comportamientos causan cáncer, dado que
¿No podemos realizar experimentos que causen cáncer en humanos?
¿Orar por los pacientes quirúrgicos mejora sus resultados?
¿Existe realmente un beneficio económico al obtener un título de una facultad o universidad altamente
selectiva?
¿Qué está causando la creciente incidencia del autismo?
Las estadísticas pueden ayudar a responder estas preguntas (o, esperamos, lo puedan hacer pronto).
El mundo está produciendo cada vez más datos, cada vez más rápido. Sin embargo, como ha señalado el
New York Times , “los datos son simplemente la materia prima del conocimiento”. la 3* La estadística es
herramienta más poderosa que tenemos para utilizar la información con algún fin significativo, ya sea
identificar a jugadores de béisbol subestimados o pagar a los maestros de manera más justa. A continuación
se ofrece un recorrido rápido por cómo las estadísticas pueden aportar significado a los datos sin procesar.
de bolos es una estadística descriptiva. También lo es el promedio de bateo. La mayoría de los aficionados
a los deportes estadounidenses mayores de cinco años ya están familiarizados con el campo de la
estadística descriptiva. Usamos números, en los deportes y en cualquier otro lugar de la vida, para resumir
información. ¿Qué tan buen jugador de béisbol era Mickey Mantle? Fue un bateador de .298 en su carrera.
Para un aficionado al béisbol, esa es una declaración significativa, lo cual es notable.
cuando lo piensas bien, porque resume una carrera de dieciocho temporadas. 4
colapsó en un solo número.) Por supuesto, los fanáticos del béisbol también han llegado a
reconocer que las estadísticas descriptivas distintas al promedio de bateo pueden resumir mejor
el valor de un jugador en el campo.
Evaluamos el rendimiento académico de los estudiantes de secundaria y universitarios
mediante un promedio de calificaciones o GPA. A una calificación con letras se le asigna un
valor en puntos; normalmente una A vale 4 puntos, una B vale 3, una C vale 2, y así
sucesivamente. Al graduarse, cuando los estudiantes de secundaria solicitan ingreso a la
universidad y los estudiantes universitarios buscan trabajo, el promedio de calificaciones es una
herramienta útil para evaluar su potencial académico. Alguien que tiene un GPA de 3,7 es
claramente un mejor estudiante que alguien de la misma escuela con un GPA de 2,5. Eso la
convierte en una buena estadística descriptiva. Es fácil de calcular, fácil de entender y fácil de
comparar entre estudiantes.
Pero no es perfecto. El GPA no refleja la dificultad de los cursos que diferentes estudiantes
hayan tomado. ¿Cómo podemos comparar a un estudiante con un GPA de 3,4 en clases que
parecen relativamente sencillas y un estudiante con un GPA de 2,9 que ha cursado cálculo,
física y otras materias difíciles? Fui a una escuela secundaria que intentó resolver este problema
dando mayor importancia a las clases difíciles, de modo que una A en una clase de “honores”
valía cinco puntos en lugar de los cuatro habituales. Esto causó sus propios problemas. Mi
madre reconoció rápidamente la distorsión causada por esta “solución” del GPA. Para un
estudiante que toma muchas clases de honores (yo), cualquier A en un curso que no sea de
honores, como gimnasia o educación para la salud, en realidad reduciría mi GPA, aunque es
imposible obtener mejores resultados que una A en esas clases. Como resultado, mis padres
me prohibieron tomar educación vial en la escuela secundaria, para que ni siquiera un desempeño
perfecto disminuyera mis posibilidades de ingresar a una universidad competitiva y escribir libros
populares. En cambio, pagaron para enviarme a una escuela de manejo privada, por las noches
durante el verano.
¿Eso fue una locura? Sí. Pero un tema de este libro será que una dependencia excesiva de
cualquier estadística descriptiva puede llevar a conclusiones engañosas o provocar un
comportamiento indeseable. Mi borrador original de esa oración usaba la frase "estadística
descriptiva demasiado simplificada", pero eliminé la palabra "demasiado simplificada" porque es
redundante. Las estadísticas descriptivas existen para simplificar, lo que siempre implica alguna
pérdida de matices o detalles. Cualquiera que trabaje con números debe reconocerlo.
Inferencia
¿Cuántas personas sin hogar viven en las calles de Chicago? ¿Con qué frecuencia las personas
casadas tienen relaciones sexuales? Estos pueden parecer tipos tremendamente diferentes de
Machine Translated by Google
Una encuesta política es una forma de muestreo. Una organización de investigación intentará
ponerse en contacto con una muestra de hogares que sean ampliamente representativos de la
población en general y preguntarles sus opiniones sobre un tema o candidato en particular.
Obviamente, esto es mucho más barato y rápido que intentar contactar a todos los hogares en
todo un estado o país. La firma de encuestas e investigación Gallup calcula que una encuesta
metodológicamente sólida de 1.000 hogares producirá aproximadamente los mismos resultados
que una encuesta que intentara contactar a todos los hogares de Estados Unidos.
Así es como descubrimos con qué frecuencia los estadounidenses tienen relaciones sexuales,
con quién y de qué tipo. A mediados de la década de 1990, el Centro Nacional de Investigación
de Opinión de la Universidad de Chicago llevó a cabo un estudio notablemente ambicioso sobre
el comportamiento sexual estadounidense. Los resultados se basaron en encuestas detalladas
realizadas en persona con una muestra grande y representativa de adultos estadounidenses. Si
sigue leyendo, el Capítulo 10 le dirá lo que aprendieron. ¿Cuántos otros libros de estadística
pueden prometerte eso?
siempre lo hacen), podemos estar cada vez más seguros de que la “casa” saldrá ganando a
medida que el número de apuestas realizadas sea cada vez mayor, incluso cuando esas
campanas y silbatos sigan sonando.
Esto resulta ser un fenómeno poderoso en áreas de la vida mucho más allá de los casinos.
Muchas empresas deben evaluar los riesgos asociados con una variedad de resultados
adversos. No pueden hacer que esos riesgos desaparezcan por completo, del mismo modo
que un casino no puede garantizar que usted no gane todas las manos de blackjack que
juegue. Sin embargo, cualquier empresa que enfrente incertidumbre puede gestionar estos
riesgos diseñando procesos de modo que la probabilidad de un resultado adverso, desde una
catástrofe ambiental hasta un producto defectuoso, sea aceptablemente baja. Las empresas
de Wall Street a menudo evalúan los riesgos que plantean sus carteras bajo diferentes
escenarios, ponderando cada uno de esos escenarios en función de su probabilidad. La crisis
financiera de 2008 fue precipitada en parte por una serie de eventos de mercado que se habían
considerado extremadamente improbables, como si todos los jugadores de un casino jugaran
blackjack en toda la noche. Más adelante en el libro sostendré que estos modelos de Wall
Street eran defectuosos y que los datos que utilizaron para evaluar los riesgos subyacentes
eran demasiado limitados, pero lo importante aquí es que cualquier modelo para abordar el
riesgo debe tener como base la probabilidad.
Cuando los individuos y las empresas no pueden hacer desaparecer los riesgos inaceptables,
buscan protección de otras maneras. Toda la industria de seguros se basa en cobrar a los
clientes para protegerlos contra algún resultado adverso, como un accidente automovilístico o
un incendio doméstico. La industria de seguros no gana dinero eliminando estos eventos; Los
coches chocan y las casas se queman todos los días. A veces, los coches incluso chocan
contra las casas, provocando que éstas se quemen. En cambio, la industria de seguros gana
dinero cobrando primas que son más que suficientes para pagar los pagos esperados por
accidentes automovilísticos e incendios domésticos. (La compañía de seguros también puede
intentar reducir sus pagos esperados fomentando una conducción segura, vallas alrededor de
las piscinas, instalación de detectores de humo en cada habitación, etc.).
La probabilidad incluso se puede utilizar para detectar trampas en algunas situaciones. La
empresa Caveon Test Security se especializa en lo que describe como "datos forenses" para
5
un antiguo desarrollador de pruebas encontrar Por ejemplo, la empresa (que fue fundada por
para el SAT) marcará los exámenes en una escuela o sitio de pruebas en en el que el número
de respuestas incorrectas idénticas es muy improbable, normalmente un patrón que ocurriría
por casualidad menos de una vez entre un millón. La lógica matemática surge del hecho de
que no podemos aprender mucho cuando un grupo grande de estudiantes responde
correctamente una pregunta. Eso es lo que se supone que deben hacer; podrían estar haciendo
trampa o podrían ser inteligentes. Pero cuando esos mismos examinados obtienen una
respuesta incorrecta, no todos deberían tener siempre la misma respuesta incorrecta. Si lo
hacen, sugiere que se están copiando unos de otros (o
Machine Translated by Google
compartir respuestas a través de texto). La empresa también busca exámenes en los que el
examinado obtiene resultados significativamente mejores en preguntas difíciles que en
preguntas fáciles (lo que sugiere que tenía las respuestas de antemano) y exámenes en los
que el número de tachaduras “de mal a bien” es significativamente mayor que el número de
tachaduras de “bien a mal” (lo que sugiere que un maestro o administrador cambió las hojas
de respuestas después de la prueba).
Por supuesto, puedes ver las limitaciones del uso de la probabilidad. Un grupo grande de
examinados podría tener las mismas respuestas incorrectas por coincidencia; de hecho,
cuantas más escuelas evaluamos, más probable es que observemos tales patrones
simplemente por casualidad. Una anomalía estadística no prueba que se haya cometido un
delito. Delma Kinney, un hombre de Atlanta de cincuenta años, ganó $1 millón en un juego
lotería 6 La probabilidad en 2008 y luego otro $1 millón en un juego instantáneo de
instantáneo en 2011. de que eso le suceda a la misma persona está en el rango de 1 entre
25 billones. No podemos arrestar al Sr. Kinney por fraude basándonos únicamente en ese
cálculo (aunque podríamos preguntar si tiene familiares que trabajen para la lotería estatal).
La probabilidad es un arma en un arsenal que requiere buen juicio.
No. Es probable que los fumadores y los no fumadores sean diferentes en otros aspectos
además de en su comportamiento de fumar. Por ejemplo, es más probable que los fumadores
tengan otros hábitos, como beber en exceso o comer mal, que provocan resultados adversos para
la salud. Si los fumadores están particularmente enfermos en la vigésima reunión, no sabríamos si
atribuir este resultado al tabaquismo o a otras cosas nocivas que muchos fumadores hacen.
También tendríamos un grave problema con los datos en los que basamos nuestro análisis. Los
fumadores que han enfermado gravemente de cáncer tienen menos probabilidades de asistir a la
vigésima reunión.
(Los fumadores muertos definitivamente no aparecerán.) Como resultado, cualquier análisis de la
salud de los asistentes a la vigésima reunión (relacionado con el tabaquismo o cualquier otra cosa)
estará seriamente defectuoso por el hecho de que los miembros más sanos de la clase son los
que tienen más probabilidades de aparecer. Cuanto más se aleje la clase de la graduación,
digamos en una cuadragésima o quincuagésima reunión, más grave será este sesgo.
No podemos tratar a los humanos como ratas de laboratorio. Como resultado, las estadísticas
se parecen mucho a un buen trabajo de detective. Los datos arrojan pistas y patrones que, en
última instancia, pueden conducir a conclusiones significativas. Probablemente haya visto uno de
esos impresionantes programas de procedimientos policiales como CSI: Nueva York, en el que
detectives y expertos forenses muy atractivos analizan minuciosamente pistas (ADN de una colilla
de cigarrillo, marcas de dientes en una manzana, una sola fibra de la alfombra del piso de un
automóvil). y luego usar la evidencia para atrapar a un criminal violento. El atractivo del programa
es que estos expertos no cuentan con la evidencia convencional utilizada para encontrar al malo,
como un testigo ocular o una cinta de video de vigilancia. Entonces, en su lugar, recurren a la
inferencia científica. Las estadísticas hacen básicamente lo mismo. Los datos presentan pistas
desorganizadas: la escena del crimen. El análisis estadístico es el trabajo de detective que
transforma los datos brutos en una conclusión significativa.
Después del Capítulo 11, apreciarán el programa de televisión que espero presentar: CSI:
Análisis de regresión, que sería sólo una pequeña desviación de esos otros procedimientos
policiales llenos de acción. El análisis de regresión es la herramienta que permite a los
investigadores aislar una relación entre dos variables, como el tabaquismo y el cáncer, mientras
se mantienen constantes (o “controlan”) los efectos de otras variables importantes, como la dieta,
el ejercicio, el peso, etc. . Cuando lees en el periódico que comer un panecillo de salvado todos
los días reducirá tus posibilidades de contraer cáncer de colon, no debes temer que algún
desafortunado grupo de sujetos experimentales humanos hayan sido alimentados a la fuerza con
panecillos de salvado en el sótano de un laboratorio federal en algún lugar mientras el grupo de
control en el edificio de al lado recibe tocino y huevos. En lugar de ello, los investigadores
recopilarán información detallada sobre miles de personas, incluida la frecuencia con la que comen
muffins de salvado, y luego utilizarán el análisis de regresión para hacer dos cosas cruciales: (1)
cuantificar la asociación observada entre comer muffins de salvado y contraer cáncer de colon (por
ejemplo, un
Machine Translated by Google
(hallazgo hipotético de que las personas que comen muffins de salvado tienen una incidencia un
9 por ciento menor de cáncer de colon, controlando otros factores que pueden afectar la incidencia
de la enfermedad); y (2) cuantificar la probabilidad de que la asociación entre las magdalenas de
salvado y una tasa más baja de cáncer de colon observada en este estudio sea simplemente una
coincidencia (una peculiaridad en los datos de esta muestra de personas) en lugar de una idea
significativa sobre la relación entre la dieta y salud.
Por supuesto, CSI: Análisis de regresión estará protagonizada por actores y actrices que son
mucho más atractivos que los académicos que normalmente estudian minuciosamente esos datos.
Estas bellezas (todos los cuales tendrían un doctorado, a pesar de tener sólo veintitrés años)
estudiarían grandes conjuntos de datos y utilizarían las últimas herramientas estadísticas para
responder importantes preguntas sociales: ¿Cuáles son las herramientas más efectivas para
combatir los delitos violentos? ¿Qué personas tienen más probabilidades de convertirse en
terroristas? Más adelante en el libro analizaremos el concepto de hallazgo “estadísticamente
significativo”, lo que significa que el análisis ha descubierto una asociación entre dos variables
que probablemente no sea producto únicamente del azar. Para los investigadores académicos,
este tipo de hallazgo estadístico es la “prueba irrefutable”. En CSI: Análisis de regresión, imagino
a una investigadora trabajando hasta altas horas de la noche en el laboratorio de computación
debido a su compromiso diurno como miembro del equipo olímpico de voleibol de playa de
Estados Unidos. Cuando obtiene la copia impresa de su análisis estadístico, ve exactamente lo
que estaba buscando: una relación grande y estadísticamente significativa en su conjunto de
datos entre alguna variable que había planteado la hipótesis de que podría ser importante y la
aparición del autismo. ¡Debe compartir este avance de inmediato!
La investigadora toma la copia impresa y corre por el pasillo, un poco más lenta por el hecho
de que lleva tacones altos y una falda negra relativamente pequeña y ajustada.
Encuentra a su compañero masculino, que inexplicablemente está en forma y bronceado para un
tipo que trabaja catorce horas al día en un laboratorio de computación en el sótano, y le muestra
los resultados. Se pasa los dedos por su perilla cuidadosamente recortada, toma su pistola Glock
de 9 mm del cajón del escritorio y la desliza en la pistolera debajo de su traje Hugo Boss de 5.000
dólares (también inexplicable dado su salario académico inicial de 38.000 dólares al año). Juntos,
los expertos en análisis de regresión caminan rápidamente para ver a su jefe, un veterano canoso
que ha superado relaciones fallidas y un problema con la bebida.
..
Bien, no es necesario aceptar el drama televisivo para apreciar la importancia de este tipo de
investigación estadística. Casi todos los desafíos sociales que nos preocupan se han basado en
el análisis sistemático de grandes conjuntos de datos. (En muchos casos, la recopilación de datos
relevantes, que es costosa y requiere mucho tiempo, desempeña un papel crucial en este
proceso, como se explicará en el Capítulo 7.)
Puede que haya embellecido a mis personajes en CSI: Análisis de regresión, pero no el tipo de
preguntas importantes que podrían examinar. Hay una literatura académica.
Machine Translated by Google
sobre terroristas y terroristas suicidas, un tema que sería difícil de estudiar por medio de sujetos
humanos (o ratas de laboratorio, para el caso). Uno de esos libros, What Makes a Terrorist, fue
escrito por uno de mis profesores de estadística de mi escuela de posgrado. El libro extrae sus
conclusiones de datos recopilados sobre ataques terroristas en todo el mundo. Un ejemplo de
conclusión: los terroristas no son desesperadamente pobres ni tienen poca educación. El autor, Alan
Krueger, economista de Princeton, concluye: “Los terroristas tienden a provenir de familias bien
educadas, de clase media o de altos ingresos”. 7 ¿Por qué? Bueno, eso expone una de las
limitaciones
del análisis de regresión. Podemos aislar una fuerte asociación entre dos variables mediante el
uso de análisis estadístico, pero no necesariamente podemos explicar por qué existe esa relación y,
en algunos casos, no podemos saber con certeza si la relación es causal, lo que significa que un
cambio en una variable realmente está causando un cambio en el otro. En el caso del terrorismo, el
profesor Krueger plantea la hipótesis de que, dado que los terroristas están motivados por objetivos
políticos, quienes tienen mayor educación y mayores recursos tienen el mayor incentivo para cambiar
la sociedad. Estas personas también pueden sentirse particularmente irritadas por la supresión de la
libertad, otro factor asociado con el terrorismo. En el estudio de Krueger, los países con altos niveles
de represión política tienen más actividad terrorista (manteniendo constantes otros factores).
Esta discusión me lleva de nuevo a la pregunta planteada por el título del capítulo: ¿Cuál es el
punto? La cuestión no es hacer matemáticas ni deslumbrar a amigos y colegas con técnicas
estadísticas avanzadas. El punto es aprender cosas que informen nuestras vidas.
Simplemente no es posible. Tampoco podemos crear dos naciones idénticas (excepto que una es
altamente represiva y la otra no) y luego comparar el número de terroristas suicidas que surgen en cada
una. Incluso cuando podemos realizar grandes experimentos controlados con seres humanos, no son ni
fáciles ni baratos. Los investigadores realizaron un estudio a gran escala sobre si la oración reduce o no
las complicaciones posquirúrgicas, que fue una de las preguntas planteadas anteriormente en este
capítulo. Ese estudio costó 2,4 millones de dólares. (Para obtener los resultados, tendrá que esperar
hasta el Capítulo 13).
El Secretario de Defensa Donald Rumsfeld dijo la famosa frase: “Uno va a la guerra con el ejército
que tiene, no con el ejército que podría querer o desear tener más adelante”. Independientemente de lo
que se piense de Rumsfeld (y de la guerra de Irak que estaba explicando), ese aforismo también se
aplica a la investigación. Realizamos análisis estadísticos utilizando los mejores datos, metodologías y
recursos disponibles. El enfoque no es como la suma o la división larga, en la que la técnica correcta
produce la respuesta “correcta” y una computadora es siempre más precisa y menos falible que un
humano. El análisis estadístico se parece más a un buen trabajo de detective (de ahí el potencial
comercial de CSI: Análisis de regresión). Las personas inteligentes y honestas a menudo no estarán de
acuerdo sobre lo que los datos intentan decirnos.
Pero ¿quién dice que todo aquel que utiliza las estadísticas es inteligente u honesto? Como se
mencionó, este libro comenzó como un homenaje a Cómo mentir con estadísticas, que se publicó por
primera vez en 1954 y ha vendido más de un millón de copias. La realidad es que se puede mentir con
las estadísticas. O puede cometer errores involuntarios. En cualquier caso, la precisión matemática
asociada al análisis estadístico puede disfrazar graves tonterías. Este libro analizará muchos de los
errores y tergiversaciones estadísticas más comunes (para que pueda reconocerlos, no utilizarlos).
* El índice de Gini a veces se multiplica por 100 para convertirlo en un número entero. En ese caso, Estados Unidos tendría
un índice de Gini de 45.
* Históricamente, la palabra “datos” se ha considerado plural (p. ej., “Los datos son muy alentadores”). El singular es “dato”,
que se referiría a un solo punto de datos, como la respuesta de una persona a una sola pregunta en un encuesta. Usar la
palabra "datos" como sustantivo plural es una forma rápida de indicarle a cualquiera que realice una investigación seria que
está familiarizado con las estadísticas. Dicho esto, muchas autoridades en gramática y muchas publicaciones, como el New
York Times, ahora aceptan que los “datos” pueden ser singulares o plurales, como lo demuestra el pasaje que he citado del
Times .
* Se trata de una burda simplificación del fascinante y complejo campo de la ética médica.
Machine Translated by Google
CAPITULO 2
Estadísticas Descriptivas
¿Quién fue el mejor jugador de béisbol de todos los tiempos?
Reflexionemos por un momento sobre dos preguntas aparentemente no relacionadas: (1) ¿Qué
está pasando con la salud económica de la clase media estadounidense? y (2) ¿Quién fue el mejor
jugador de béisbol de todos los tiempos?
La primera pregunta es profundamente importante. Tiende a estar en el centro de las campañas
presidenciales y otros movimientos sociales. La clase media es el corazón de Estados Unidos, por
lo que el bienestar económico de ese grupo es un indicador crucial de la salud económica general
de la nación. La segunda pregunta es trivial (en el sentido literal de la palabra), pero los entusiastas
del béisbol pueden discutir sobre ella sin cesar.
Lo que las dos preguntas tienen en común es que pueden usarse para ilustrar las fortalezas y
limitaciones de la estadística descriptiva, que son los números y cálculos que utilizamos para
resumir los datos sin procesar.
Si quiero demostrar que Derek Jeter es un gran jugador de béisbol, puedo sentarme y describir
cada turno al bate en cada partido de Grandes Ligas que haya jugado. Esos serían datos en bruto,
y tomaría un tiempo asimilarlos, dado que Jeter ha jugado diecisiete temporadas con los Yankees
de Nueva York y ha realizado 9,868 turnos al bate.
O simplemente puedo decirles que al final de la temporada 2011, Derek Jeter tenía un promedio
de bateo de .313 en su carrera. Se trata de una estadística descriptiva o una “estadística resumida”.
El promedio de bateo es una burda simplificación de las diecisiete temporadas de Jeter. Es fácil
de entender, elegante en su simplicidad y limitado en lo que puede decirnos.
Los expertos en béisbol tienen una gran cantidad de estadísticas descriptivas que consideran más
valiosas que el promedio de bateo. Llamé a Steve Moyer, presidente de Baseball Info Solutions
(una empresa que proporciona muchos datos brutos sobre los tipos de Moneyball ), para preguntarle:
(1) ¿Cuáles son las estadísticas más importantes para evaluar el talento del béisbol? y (2) ¿Quién
fue el mejor jugador de todos los tiempos? Compartiré su respuesta una vez que tengamos más
contexto.
Mientras tanto, volvamos al tema menos trivial: la salud económica de la clase media. Lo ideal
sería encontrar el equivalente económico de un promedio de bateo, o algo incluso mejor. Nos
gustaría tener una medida simple pero precisa de cómo se ha visto el bienestar económico del
trabajador estadounidense típico.
Machine Translated by Google
cambiando en los últimos años. ¿Las personas que definimos como clase media se están
volviendo más ricas, más pobres o simplemente se están quedando quietas? Una respuesta
razonable (aunque de ninguna manera la respuesta “correcta”) sería calcular el cambio en el
ingreso per cápita en Estados Unidos a lo largo de una generación, que equivale aproximadamente
a treinta años. El ingreso per cápita es un promedio simple: el ingreso total dividido por el tamaño
de la población. Según esa medida, el ingreso promedio en Estados Unidos aumentó de 7.787
dólares en 1980 a 26.487 dólares en 2010 (el último año para el que el gobierno tiene datos).
1
¡Voilá! Felicitaciones a nosotros.
Sólo hay un problema. Mi cálculo rápido es técnicamente correcto y, sin embargo, totalmente
erróneo en términos de la pregunta que me propuse responder. Para empezar, las cifras
anteriores no están ajustadas a la inflación. (Un ingreso per cápita de 7.787 dólares en 1980
equivale a unos 19.600 dólares cuando se convierte a dólares de 2010). Se trata de una solución
relativamente rápida. El mayor problema es que el ingreso promedio en Estados Unidos no es
igual al ingreso del estadounidense promedio. Analicemos esa pequeña frase inteligente.
El ingreso per cápita simplemente toma todos los ingresos obtenidos en el país y lo divide por
el número de personas, lo que no nos dice absolutamente nada sobre quién gana y cuánto de
ese ingreso, en 1980 o en 2010. Como señalarían los miembros de Occupy Wall Street Como
se puede observar, un crecimiento explosivo de los ingresos del 1 por ciento superior puede
aumentar significativamente el ingreso per cápita sin poner más dinero en los bolsillos del 99 por
ciento restante. En otras palabras, el ingreso promedio puede aumentar sin ayudar al
estadounidense promedio.
Al igual que con la consulta sobre las estadísticas del béisbol, he buscado expertos externos
sobre cómo deberíamos medir la salud de la clase media estadounidense. Pregunté a dos
destacados economistas laborales, incluido el principal asesor económico del presidente Obama,
qué estadísticas descriptivas utilizarían para evaluar el bienestar económico de un estadounidense
típico. Sí, usted también obtendrá esa respuesta una vez que hayamos realizado un recorrido
rápido por las estadísticas descriptivas para darle más significado.
Desde el béisbol hasta los ingresos, la tarea más básica cuando se trabaja con datos es
resumir una gran cantidad de información. Hay unos 330 millones de residentes en Estados
Unidos. Una hoja de cálculo con el nombre y el historial de ingresos de cada estadounidense
contendría toda la información que podríamos desear sobre la salud económica del país, pero
también sería tan difícil de manejar que no nos diría nada en absoluto. La ironía es que más
datos a menudo pueden presentar menos claridad. Entonces simplificamos. Realizamos cálculos
que reducen una serie compleja de datos a un puñado de números que describen esos datos,
del mismo modo que podríamos encapsular una actuación de gimnasia olímpica compleja y
multifacética en un número: 9,8.
La buena noticia es que estas estadísticas descriptivas nos brindan un resumen manejable y
significativo del fenómeno subyacente. De eso se trata este capitulo
Machine Translated by Google
acerca de. La mala noticia es que cualquier simplificación invita al abuso. Las estadísticas
descriptivas pueden ser como perfiles de citas online: técnicamente precisas y, sin embargo,
bastante engañosas.
Supongamos que está en el trabajo, navegando ociosamente por la Web cuando se topa con un
fascinante relato diario del fallido matrimonio de setenta y dos días de Kim Kardashian con el
jugador de baloncesto profesional Kris Humphries. Ha terminado de leer sobre el séptimo día de
matrimonio cuando su jefe aparece con dos enormes archivos de datos. Un archivo contiene
información sobre reclamos de garantía para cada una de las 57,334 impresoras láser que su
empresa vendió el año pasado. (Para cada impresora vendida, el archivo documenta la cantidad
de problemas de calidad que se informaron durante el período de garantía). El otro archivo tiene
la misma información para cada una de las 994,773 impresoras láser que su principal competidor
vendió durante el mismo período.
Su jefe quiere saber cómo se comparan las imprentas de su empresa en términos de calidad con
las de la competencia.
Afortunadamente, la computadora que has estado usando para leer sobre el matrimonio
Kardashian tiene un paquete de estadísticas básicas, pero ¿por dónde empezar? Probablemente
sus instintos sean correctos: la primera tarea descriptiva suele ser encontrar alguna medida del
“centro” de un conjunto de datos, o lo que los estadísticos podrían describir como su “tendencia
central”. ¿Cuál es la experiencia de calidad típica de sus impresores en comparación con los de
la competencia? La medida más básica del “medio” de una distribución es la media o promedio.
En este caso, queremos saber el número promedio de problemas de calidad por impresora
vendida para su empresa y para su competidor. Simplemente sumaría el número total de
problemas de calidad informados para todas las impresoras durante el período de garantía y
luego lo dividiría por el número total de impresoras vendidas. (Recuerde, la misma impresora
puede tener múltiples problemas mientras está en garantía). Haría eso para cada empresa,
creando una estadística descriptiva importante: el número promedio de problemas de calidad por
impresora vendida.
Supongamos que resulta que las impresoras de su competencia tienen un promedio de 2,8
problemas relacionados con la calidad por impresora durante el período de garantía, en
comparación con el promedio de 9,1 defectos reportados por su empresa. Eso fue fácil. Acaba
de tomar información sobre un millón de impresoras vendidas por dos empresas diferentes y la
ha reducido a la esencia del problema: sus impresoras se estropean con frecuencia. Claramente
es hora de enviar un breve correo electrónico a su jefe cuantificando esta brecha de calidad y
luego volver al octavo día del matrimonio de Kim Kardashian.
O tal vez no. Antes fui deliberadamente vago cuando me referí a la “mitad” de una distribución.
La media, o promedio, resulta tener algunos problemas en ese sentido, a saber, que es propensa
a ser distorsionada por "valores atípicos", que son observaciones
Machine Translated by Google
que se encuentran más alejados del centro. Para comprender este concepto, imagine que diez tipos
están sentados en taburetes de bar en un establecimiento de bebidas de clase media en Seattle; cada
uno de estos chicos gana $35 000 al año, lo que hace que el ingreso anual medio del grupo sea de
$35 000. Bill Gates entra al bar con un loro parlante posado en su hombro. (El loro no tiene nada que
ver con el ejemplo, pero en cierto modo le da más sabor a las cosas). Supongamos, por el bien del
ejemplo, que Bill Gates tiene un ingreso anual de mil millones de dólares. Cuando Bill se sienta en el
undécimo taburete de la barra, el ingreso anual medio de los clientes del bar aumenta a
aproximadamente 91 millones de dólares.
Obviamente, ninguno de los diez bebedores originales es más rico (aunque podría ser razonable
esperar que Bill Gates comprara una o dos rondas). Si tuviera que describir a los clientes de este bar
con un ingreso anual promedio de 91 millones de dólares, la afirmación sería estadísticamente correcta
y tremendamente engañosa. Este no es un bar donde pasan el rato multimillonarios; es un bar donde
un grupo de tipos con ingresos relativamente bajos están sentados junto a Bill Gates y su loro parlante.
La sensibilidad de la media a los valores atípicos es la razón por la que no deberíamos medir la salud
económica de la clase media estadounidense observando el ingreso per cápita.
Debido a que la distribución incluye todos los resultados de calidad posibles, incluido cero
defectos, las proporciones deben sumar 1 (o 100 por ciento).
Lo que queda claro es que su empresa no tiene un problema de calidad uniforme; tienes un
problema de “limón”; un pequeño número de impresores tienen una gran cantidad de quejas
sobre la calidad. Estos valores atípicos inflan la media pero no la mediana. Lo más importante
desde el punto de vista de la producción es que no es necesario reestructurar todo el proceso
de fabricación; Sólo necesita averiguar de dónde vienen las impresoras de baja calidad y
solucionarlo. *
Ni la mediana ni la media son difíciles de calcular; la clave es determinar qué medida del
“medio” es más precisa en una situación particular (un fenómeno que se explota fácilmente).
Mientras tanto, la mediana tiene algunos parientes útiles. Como ya hemos comentado, la
mediana divide una distribución por la mitad.
La distribución se puede dividir en trimestres o cuartiles. El primer cuartil consta del 25 por ciento
inferior de las observaciones; el segundo cuartil consta del siguiente 25 por ciento de las
observaciones; etcétera. O la distribución se puede dividir en deciles, cada uno con el 10 por
ciento de las observaciones. (Si su ingreso está en el decil superior de la distribución del ingreso
estadounidense, estaría ganando más del 90 por ciento de sus compañeros de trabajo). Podemos
ir aún más lejos y dividir la distribución en centésimas o percentiles. Cada percentil representa el
1 por ciento de la distribución, de modo que el primer percentil representa el 1 por ciento inferior
de la distribución y el percentil 99 representa el 1 por ciento superior de la distribución.
torneo, esa es una estadística relativa. Un valor o cifra “relativa” sólo tiene significado en
comparación con otra cosa, o en algún contexto más amplio, como en comparación con los
ocho golfistas que dispararon mejor que yo. La mayoría de las pruebas estandarizadas
producen resultados que sólo tienen significado como estadística relativa. Si les digo que un
estudiante de tercer grado en una escuela primaria de Illinois obtuvo una puntuación de 43
sobre 60 en la parte de matemáticas de la Prueba de Rendimiento del Estado de Illinois, esa
puntuación absoluta no tiene mucho significado. Pero cuando lo convierto a un percentil (es
decir, pongo ese puntaje bruto en una distribución con los puntajes de matemáticas de todos
los demás estudiantes de tercer grado de Illinois), adquiere mucho significado. Si 43 respuestas
correctas caen dentro del percentil 83, entonces a este estudiante le está yendo mejor que a
la mayoría de sus compañeros en todo el estado. Si está en el percentil 8, entonces está
pasando apuros. En este caso, el percentil (la puntuación relativa) es más significativo que el
número de respuestas correctas (la puntuación absoluta).
Otra estadística que puede ayudarnos a describir lo que de otro modo podría ser una
confusión de números es la desviación estándar, que es una medida de cuán dispersos están
los datos con respecto a su media. En otras palabras, ¿qué tan dispersas están las observaciones?
Supongamos que recopilé datos sobre los pesos de 250 personas en un avión con destino a
Boston, y también recopilé los pesos de una muestra de 250 clasificados para el maratón de
Boston. Ahora supongamos que el peso medio de ambos grupos es aproximadamente el
mismo, digamos 155 libras. Cualquiera que haya estado apretujado en una fila en un vuelo
lleno de gente, luchando por el apoyabrazos, sabe que muchas personas en un vuelo
comercial típico pesan más de 155 libras. Pero tal vez recuerdes de esos mismos vuelos
desagradables y abarrotados que había muchos bebés llorando y niños con mal
comportamiento, todos los cuales tienen una enorme capacidad pulmonar pero no mucha
masa. Cuando se trata de calcular el peso promedio en el vuelo, el peso de los jugadores de
fútbol de 320 libras a cada lado del asiento del medio probablemente se ve compensado por
el pequeño bebé que grita al otro lado de la fila y el niño de seis años que patea el respaldo
del asiento. su asiento desde la fila de atrás.
Sobre la base de las herramientas descriptivas presentadas hasta ahora, los pesos de los
pasajeros de las líneas aéreas y de los maratonistas son casi idénticos. Pero no lo son. Sí, los
pesos de los dos grupos tienen aproximadamente el mismo “medio”, pero los pasajeros de las
aerolíneas tienen mucha más dispersión alrededor de ese punto medio, lo que significa que
sus pesos están más alejados del punto medio. Mi hijo de ocho años podría señalar que
parece que todos los corredores de maratón pesan lo mismo, mientras que los pasajeros de
las aerolíneas tienen algunas personas diminutas y otras extrañamente grandes.
Los pesos de los pasajeros de las aerolíneas están "más repartidos", lo cual es un atributo
importante cuando se trata de describir los pesos de estos dos grupos.
La desviación estándar es el estadístico descriptivo que nos permite asignar un único número
a esta dispersión en torno a la media. Las fórmulas para calcular el
Machine Translated by Google
Alto, no particularmente inusual. Por supuesto, muchas menos observaciones se encuentran a dos
desviaciones estándar de la media, y menos aún a tres o cuatro desviaciones estándar. (En el caso de
la altura, un hombre estadounidense que esté tres desviaciones estándar por encima del promedio en
altura mediría 6 pies y 7 pulgadas o más).
Algunas distribuciones están más dispersas que otras. Por lo tanto, la desviación estándar de los
pesos de los 250 pasajeros de la aerolínea será mayor que la desviación estándar de los pesos de los
250 corredores de maratón. Una distribución de frecuencia con los pesos de los pasajeros de las
aerolíneas sería literalmente más amplia (más dispersa) que una distribución de frecuencias de los
pesos de los corredores de maratón. Una vez que conocemos la media y la desviación estándar de
cualquier recopilación de datos, tenemos una gran tracción intelectual. Por ejemplo, supongamos que le
digo que la puntuación media en el examen de matemáticas SAT es 500 con una desviación estándar
de 100.
Al igual que con la altura, la mayor parte de los estudiantes que toman el examen estarán dentro de una
desviación estándar de la media, o entre 400 y 600. ¿Cuántos estudiantes crees que obtendrán una
puntuación de 720 o más? Probablemente no muchos, ya que están más de dos desviaciones estándar
por encima de la media.
De hecho, podemos hacerlo incluso mejor que “no muchos”. Este es un buen momento para
presentar una de las distribuciones más importantes, útiles y comunes en estadística: la distribución
normal. Los datos que se distribuyen normalmente son simétricos alrededor de su media en forma de
campana que le resultará familiar.
La distribución normal describe muchos fenómenos comunes. Imagine una distribución de frecuencia
que describe las palomitas de maíz reventando en la estufa. Algunos granos comienzan a explotar
temprano, tal vez uno o dos por segundo; al cabo de diez o quince segundos, los granos explotan
frenéticamente. Luego, gradualmente, el número de granos que explotan por segundo se desvanece
aproximadamente al mismo ritmo al que comenzó el estallido. Las alturas de los hombres
estadounidenses se distribuyen más o menos normalmente, lo que significa que son aproximadamente
simétricas alrededor de la media de 5 pies y 10 pulgadas.
Cada prueba SAT está diseñada específicamente para producir una distribución normal de puntuaciones
con una media de 500 y una desviación estándar de 100. Según el Wall Street Journal, los
estadounidenses incluso tienden a estacionarse en una distribución normal en los centros comerciales;
la mayoría de los automóviles se estacionan directamente frente a la entrada del centro comercial (el
“pico” de la curva normal), con “colas” de automóviles que se dirigen a la derecha e izquierda de la entrada.
La belleza de la distribución normal (su poder, finura y elegancia de Michael Jordan) proviene del
hecho de que sabemos por definición exactamente qué proporción de las observaciones en una
distribución normal se encuentran dentro de una desviación estándar de la media (68,2 por ciento),
dentro de dos desviaciones estándar de la media (95,4 por ciento), dentro de tres desviaciones estándar
(99,7 por ciento), y así sucesivamente. Esto puede parecer una trivialidad. De hecho, es la base sobre
la que se construyen gran parte de las estadísticas. Volveremos a este punto con mucha mayor
profundidad más adelante en el libro.
Machine Translated by Google
La distribución normal
La estadística descriptiva se utiliza a menudo para comparar dos cifras o cantidades. Soy una
pulgada más alto que mi hermano; la temperatura de hoy se encuentra nueve grados por encima
del promedio histórico para esta fecha; etcétera. Esas comparaciones tienen sentido porque la
mayoría de nosotros reconocemos la escala de las unidades involucradas. Una pulgada no es
mucho cuando se trata de la altura de una persona, por lo que puedes inferir que mi hermano y
yo tenemos aproximadamente la misma altura. Por el contrario, nueve grados es una desviación
de temperatura significativa en casi cualquier clima y en cualquier época del año, por lo que
nueve grados por encima del promedio hacen que el día sea mucho más caluroso de lo habitual.
Pero supongamos que le dijera que el cereal de granola A contiene 31 miligramos más de sodio
que el cereal de granola B. A menos que sepa muchísimo sobre el sodio (y los tamaños de las
porciones de cereal de granola), esa afirmación no será particularmente informativa. ¿O qué
pasaría si le dijera que mi primo Al ganó $53,000 menos este año que el año pasado?
¿Deberíamos preocuparnos por Al? ¿O es un gestor de fondos de cobertura para quien 53.000
dólares es un error de redondeo en su remuneración anual?
Tanto en el ejemplo del sodio como en el de los ingresos, nos falta contexto. La forma más
sencilla de dar significado a estas comparaciones relativas es mediante el uso de porcentajes.
Significaría algo si les dijera que la barra de granola A tiene un 50 por ciento más de sodio que
la barra de granola B, o que los ingresos del tío Al cayeron un 47 por ciento el año pasado. Medir
el cambio como porcentaje nos da una cierta sensación de escala.
ejercicio para mi. Supongamos que una tienda departamental vende un vestido por $100. El subgerente
rebaja todas las mercancías en un 25 por ciento. Pero entonces ese subdirector es despedido por estar
* ciento. ¿Cuál
en un bar con Bill Gates, y el nuevo subdirector aumenta todos los precios en un 25 por
es el precio final del vestido? Si dijiste (o pensaste) $100, entonces será mejor que no te saltes ningún
párrafo.
El precio final del vestido es en realidad 93,75 dólares. Este no es simplemente un divertido truco de
salón que le hará ganar aplausos y adulación en los cócteles. Los porcentajes son útiles, pero también
potencialmente confusos o incluso engañosos. La fórmula para calcular una diferencia (o cambio)
porcentual es la siguiente: (cifra nueva – cifra original)/cifra original. El numerador (la parte superior de
la fracción) nos da el tamaño del cambio en términos absolutos; el denominador (la parte inferior de la
fracción) es lo que pone este cambio en contexto comparándolo con nuestro punto de partida. Al
principio, esto parece sencillo, como cuando el subgerente de la tienda reduce el precio del vestido de
100 dólares en un 25 por ciento. El veinticinco por ciento del precio original de $100 es $25; ese es el
descuento, que reduce el precio a $75. Puedes introducir los números en la fórmula anterior y hacer
algunas manipulaciones simples para llegar al mismo lugar: ($100 – $75)/$100 = 0,25, o 25 por ciento.
El vestido se vende por $75 cuando el nuevo subgerente exige que el precio aumente un 25 por
ciento. Ahí es donde probablemente muchas de las personas que leyeron este párrafo cometieron un
error. El margen de beneficio del 25 por ciento se calcula como un porcentaje del precio reducido del
nuevo vestido, que es de 75 dólares. El aumento será de 0,25 ($75), o $18,75, que es como el precio
final termina en $93,75 (y no $100). La cuestión es que un cambio porcentual siempre da el valor de
una cifra en relación con otra cosa. Por lo tanto, será mejor que comprendamos qué es ese algo más.
Una vez invertí algo de dinero en una empresa que fundó mi compañero de cuarto de la universidad.
Como se trataba de una empresa privada, no había requisitos sobre qué información debía
proporcionarse a los accionistas. Pasaron varios años sin información alguna sobre el destino de mi
inversión; Mi antiguo compañero de cuarto se mantuvo bastante reservado sobre el tema. Finalmente,
recibí una carta por correo informándome que las ganancias de la empresa eran un 46 por ciento más
altas que el año anterior. No había información sobre el tamaño de esas ganancias en términos
absolutos, lo que significa que todavía no tenía la menor idea de cómo se estaba desempeñando mi
inversión. Supongamos que el año pasado la empresa ganó 27 centavos, es decir, prácticamente nada.
Este año la empresa ganó 39 centavos, es decir, prácticamente nada. Sin embargo, las ganancias de
la empresa crecieron de 27 centavos a 39 centavos, lo que técnicamente representa un aumento del
46 por ciento. Obviamente, la carta a los accionistas habría sido más deprimente si hubiera señalado
que las ganancias acumuladas de la empresa durante dos años eran menores que el costo de una taza
de Starbucks.
Machine Translated by Google
café.
Para ser justos con mi compañero de cuarto, finalmente vendió la empresa por cientos
de millones de dólares, lo que me permitió obtener un retorno del 100 por ciento de mi
inversión. (Como no tienes idea de cuánto invertí, tampoco tienes idea de cuánto dinero
gané, ¡lo que refuerza muy bien mi punto aquí!)
Permítanme hacer una distinción adicional. El cambio porcentual no debe confundirse
con un cambio en puntos porcentuales. Las tarifas suelen expresarse en porcentajes. La
tasa del impuesto sobre las ventas en Illinois es del 6,75 por ciento. Le pago a mi agente
el 15 por ciento de las regalías de mi libro. Estos tipos se aplican a una determinada
cantidad, como los ingresos en el caso del tipo del impuesto sobre la renta. Obviamente
las tarifas pueden subir o bajar; De manera menos intuitiva, los cambios en las tasas
pueden describirse de maneras muy diferentes. El mejor ejemplo de esto fue un cambio
reciente en el impuesto sobre la renta personal de Illinois, que se elevó del 3 al 5 por
ciento. Hay dos formas de expresar este cambio fiscal, y ambas son técnicamente
precisas. Los demócratas, que diseñaron este aumento de impuestos, señalaron
(correctamente) que la tasa del impuesto estatal sobre la renta se incrementó en 2 puntos
porcentuales (del 3 por ciento al 5 por ciento). Los republicanos señalaron (también
correctamente) que el impuesto estatal sobre la renta había aumentado un 67 por ciento.
[Esta es una prueba útil de la fórmula de algunos párrafos atrás: (5 – 3)/3 = 2/3, que se redondea al 67 p
Los demócratas se centraron en el cambio absoluto del tipo impositivo; Los republicanos
se centraron en el cambio porcentual en la carga fiscal. Como se señaló, ambas
descripciones son técnicamente correctas, aunque yo diría que la descripción republicana
transmite con mayor precisión el impacto del cambio impositivo, ya que lo que tendré que
pagar al gobierno (la cantidad que me importa, en lugar de según la forma en que se
calcula, en realidad ha aumentado en un 67 por ciento.
Muchos fenómenos desafían la descripción perfecta con una sola estadística. Supongamos
que el mariscal de campo Aaron Rodgers lanza para 365 yardas pero sin touchdowns.
Mientras tanto, Peyton Manning lanza para apenas 127 yardas pero tres touchdowns.
Manning generó más puntos, pero presumiblemente Rodgers preparó touchdowns
haciendo marchar a su equipo por el campo y manteniendo a la ofensiva del otro equipo
fuera del campo. ¿Quién jugó mejor? En el Capítulo 1, hablé del índice de pasador de la
NFL, que es el intento razonable de la liga para abordar este desafío estadístico. La
calificación del pasador es un ejemplo de índice, que es una estadística descriptiva
compuesta de otras estadísticas descriptivas. Una vez que estas diferentes medidas de
desempeño se consolidan en un solo número, esa estadística se puede usar para hacer
comparaciones, como clasificar a los mariscales de campo en un día en particular, o
incluso a lo largo de toda una carrera. Si el béisbol tuviera un índice similar, entonces la
cuestión del mejor jugador de todos los tiempos estaría resuelta. ¿O sí?
Machine Translated by Google
La ventaja de cualquier índice es que consolida mucha información compleja en un solo número. Luego
podemos clasificar cosas que de otro modo desafiarían una simple comparación: cualquier cosa, desde
mariscales de campo hasta universidades y concursantes de concursos de belleza. En el certamen de Miss
América, el ganador general es una combinación de cinco competencias distintas: entrevista personal, traje
de baño, traje de noche, talento y pregunta en el escenario. (Los propios participantes votan por separado a
Miss Simpatía).
Pero espera. Gladwell también señala que el precio de etiqueta del automóvil tiene relativamente poco
peso en la fórmula de Car and Driver . Si se pondera más el valor (de modo que la clasificación se basa
igualmente en el precio, el estilo exterior y las características del vehículo), el Chevy Corvette ocupa el puesto
número uno.
Cualquier índice es muy sensible a las estadísticas descriptivas que se improvisan para construirlo y al
peso que se le da a cada uno de esos componentes. Como resultado, los índices van desde herramientas
útiles pero imperfectas hasta charadas completas. Un ejemplo de lo primero es el Índice de Desarrollo
Humano de las Naciones Unidas o IDH. El IDH se creó como una medida del bienestar económico que es
más amplia que el ingreso por sí solo. El IDH utiliza el ingreso como uno de sus componentes, pero también
incluye medidas de esperanza de vida y nivel educativo. Estados Unidos ocupa el undécimo lugar en el
mundo en términos de producción económica per cápita (detrás de varias naciones ricas en petróleo como
Qatar, Brunei y Kuwait), pero el cuarto en el mundo en desarrollo humano.
3
Es cierto que las clasificaciones del IDH cambiarían ligeramente
si se reconfiguraran los componentes del índice, pero ningún cambio razonable hará que Zimbabwe suba en
las clasificaciones más allá de Noruega. El IDH proporciona una instantánea práctica y razonablemente
precisa de los niveles de vida en todo el mundo.
Las estadísticas descriptivas nos dan una idea de los fenómenos que nos interesan. En eso
Machine Translated by Google
En este sentido, podemos volver a las preguntas planteadas al comienzo del capítulo. ¿Quién
es el mejor jugador de béisbol de todos los tiempos? Más importante para los propósitos de
este capítulo, ¿qué estadísticas descriptivas serían más útiles para responder esa pregunta?
Según Steve Moyer, presidente de Baseball Info Solutions, las tres estadísticas más valiosas
(aparte de la edad) para evaluar a cualquier jugador que no sea lanzador serían las siguientes:
En opinión de Moyer (sin dudarlo, debo añadir), el mejor jugador de béisbol de todos los tiempos
fue Babe Ruth debido a su habilidad única para batear y lanzar. Babe Ruth todavía ostenta el
récord de slugging de su carrera en las Grandes Ligas con .690. 4
¿Qué pasa con la salud económica de la clase media estadounidense? Una vez más, cedí
la palabra a los expertos. Envié un correo electrónico a Jeff Grogger (un colega mío en la
Universidad de Chicago) y Alan Krueger (el mismo economista de Princeton que estudió a los
terroristas y ahora preside el Consejo de Asesores Económicos del presidente Obama). Ambos
dieron variaciones de la misma respuesta básica. Para evaluar la salud económica de la “clase
media” estadounidense debemos examinar los cambios en el salario medio (ajustado por
inflación) durante las últimas décadas. También recomendaron examinar los cambios en los
salarios en los percentiles 25 y 75 (que pueden interpretarse razonablemente como los límites
superior e inferior para la clase media).
Es necesaria una distinción más. Al evaluar la salud económica, podemos examinar los
ingresos o los salarios. No són la misma cosa. Un salario es lo que nos pagan por una cantidad
fija de trabajo, como un salario por hora o por semana. Los ingresos son la suma de todos los
pagos de diferentes fuentes. Si los trabajadores aceptan un segundo empleo o trabajan más
horas, sus ingresos pueden aumentar sin que cambie el salario. (De hecho, los ingresos pueden
aumentar incluso si el salario está cayendo, siempre que un trabajador trabaje suficientes horas
en el trabajo.) Sin embargo, si los individuos tienen que trabajar más para ganar más, es difícil
evaluar el efecto general sobre sus ingresos. bienestar. el salario
Machine Translated by Google
es una medida menos ambigua de cómo se compensa a los estadounidenses por el trabajo que
realizan; cuanto más alto es el salario, más ganan los trabajadores por cada hora de trabajo.
Dicho todo esto, he aquí un gráfico de los salarios estadounidenses durante las últimas tres
décadas. También agregué el percentil 90 para ilustrar los cambios en los salarios de los
trabajadores de clase media en comparación durante este período de tiempo con los trabajadores
en la parte superior de la distribución.
Fuente: “Cambios en la distribución de los salarios por hora de los trabajadores entre 1979 y 2009”,
Oficina de Presupuesto del Congreso, 16 de febrero de 2011. Los datos del gráfico se pueden encontrar
en http://www.cbo.gov/sites/default/ files/cbofiles/ftpdocs/120xx/doc12051/0216wagedispersion.pdf.
De estos datos se pueden extraer diversas conclusiones. No presentan una sola respuesta
“correcta” con respecto a la suerte económica de la clase media.
Nos dicen que el trabajador típico, un trabajador estadounidense que gana el salario medio, ha
estado “trabajando en su lugar” durante casi treinta años. A los trabajadores del percentil 90 les ha
ido mucho, mucho mejor. Las estadísticas descriptivas ayudan a encuadrar la cuestión. Lo que
hagamos al respecto, en todo caso, es una cuestión ideológica y política.
Debido a que la diferencia entre cada término y la media se eleva al cuadrado, la fórmula
para calcular la varianza otorga especial importancia a las observaciones que se encuentran
lejos de la media o valores atípicos, como lo ilustra la siguiente tabla de alturas de los estudiantes.
* El valor absoluto es la distancia entre dos figuras, independientemente de la dirección, por lo que siempre es
positivo. En este caso, representa el número de pulgadas entre la altura del individuo y la media.
Machine Translated by Google
Ambos grupos de estudiantes tienen una altura media de 70 pulgadas. Las alturas de los
estudiantes de ambos grupos también difieren de la media en el mismo número de pulgadas
totales: 14. Según esa medida de dispersión, las dos distribuciones son idénticas.
Sin embargo, la varianza para el Grupo 2 es mayor debido al peso dado en la fórmula de
varianza a los valores que se encuentran particularmente alejados de la media (Sahar y Narciso
en este caso).
La varianza rara vez se utiliza como estadística descriptiva por sí sola. En cambio, la varianza
es más útil como paso hacia el cálculo de la desviación estándar de una distribución, que es una
herramienta más intuitiva como estadística descriptiva.
La desviación estándar de un conjunto de observaciones es la raíz cuadrada de la varianza:
* Con doce clientes del bar, la mediana sería el punto medio entre los ingresos del hombre en el sexto taburete y los ingresos
del hombre en el séptimo taburete. Dado que ambos ganan $35 000, la mediana es $35 000.
Si uno ganara $35 000 y el otro $36 000, la mediana para todo el grupo sería $35 500.
* Actualización de fabricación: Resulta que casi todas las impresoras defectuosas se fabricaban en una planta en Kentucky
donde los trabajadores habían quitado piezas de la línea de montaje para construir una destilería de bourbon. Tanto los
empleados perpetuamente borrachos como las piezas que faltan al azar en la línea de montaje parecen haber comprometido
la calidad de las impresoras que se producen allí.
* Sorprendentemente, esta persona era una de las diez personas con ingresos anuales de 35.000 dólares que estaban
sentadas en taburetes de bar cuando Bill Gates entró con su loro. ¡Imagínate!
Machine Translated by Google
CAPÍTULO 3
Para cualquiera que alguna vez haya pensado en tener una cita, la frase "tiene una gran personalidad"
suele hacer sonar las alarmas, no porque la descripción sea necesariamente incorrecta, sino por lo
que tal vez no revele, como el hecho de que el chico tiene antecedentes penales. o que su divorcio
“no es del todo definitivo”. No dudamos que este chico tiene una gran personalidad; Tememos que
una afirmación verdadera, la gran personalidad, se esté utilizando para enmascarar u oscurecer otra
información de una manera que sea seriamente engañosa (suponiendo que la mayoría de nosotros
preferiría no salir con ex delincuentes que todavía están casados). La declaración no es una mentira
per se, lo que significa que no lo condenaría por perjurio, pero aún así podría ser tan inexacta como
para ser falsa.
Y lo mismo ocurre con las estadísticas. Aunque el campo de la estadística tiene sus raíces en las
matemáticas y las matemáticas son exactas, el uso de la estadística para describir fenómenos
complejos no es exacto. Eso deja mucho espacio para oscurecer la verdad. Mark Twain señaló que
hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas.
* Como se explicó en el último capítulo, la mayoría de los fenómenos que nos interesan
pueden describirse de múltiples maneras. Una vez que existen múltiples formas de describir la misma
cosa (por ejemplo, "tiene una gran personalidad" o "fue condenado por fraude de valores"), las
estadísticas descriptivas que decidamos usar (o no usar) tendrán un impacto profundo. en la
impresión que nos vamos. Alguien con motivos nefastos puede utilizar hechos y cifras perfectamente
válidos para respaldar conclusiones totalmente discutibles o ilegítimas.
Deberíamos comenzar con la distinción crucial entre "precisión" y "exactitud". Estas palabras no
son intercambiables. La precisión refleja la exactitud con la que podemos expresar algo. En una
descripción de la longitud de su viaje, “41,6 millas” es más preciso que “alrededor de 40 millas”, que
es más preciso que “un camino largo y jodido”. Si me preguntas qué tan lejos está la gasolinera más
cercana y te digo que está 1.265 millas al este, esa es una respuesta precisa. Aquí está el problema:
esa respuesta puede ser completamente inexacta si la gasolinera está en la otra dirección. Por otro
lado, si te digo,
Machine Translated by Google
“Conduce unos diez minutos hasta que veas un puesto de perritos calientes. La gasolinera
estará unos cientos de metros después a la derecha. Si pasas los Hooters, has ido demasiado
lejos”, mi respuesta es menos precisa que “1,265 millas al este”, pero significativamente mejor
porque te envío en dirección a la gasolinera.
La exactitud es una medida de si una cifra es, en términos generales, consistente con la verdad;
de ahí el peligro de confundir precisión con exactitud. Si una respuesta es precisa, una mayor
precisión suele ser mejor. Pero ninguna precisión puede compensar la inexactitud.
Resulta que el periódico no tenía ningún nombre, pero la especificidad de la acusación le dio
credibilidad, a pesar de que era una mentira descarada.
Aprendí la importante distinción entre precisión y exactitud en un contexto menos malicioso.
Un año, para Navidad, mi esposa me compró un telémetro de golf para calcular las distancias
en el campo desde mi pelota de golf hasta el hoyo. El dispositivo funciona con una especie de
láser; Me paro junto a mi bola en la calle (o en el rugoso) y apunto el telémetro a la bandera en
el green, momento en el que el dispositivo calcula la distancia exacta a la que se supone que
debo golpear la bola. Esta es una mejora con respecto a los marcadores de yardas estándar,
que dan distancias solo hasta el centro del green (y por lo tanto son precisos pero menos
precisos). Con mi telémetro de regalo de Navidad pude saber que estaba a 147,2 yardas del
hoyo. Esperaba que la precisión de esta ingeniosa tecnología mejorara mi juego de golf.
Los modelos de gestión de riesgos anteriores a la crisis financiera de 2008 eran bastante precisos.
El concepto de “valor en riesgo” permitió a las empresas cuantificar con precisión la cantidad de
capital de la empresa que podría perderse en diferentes escenarios. El problema era que los
modelos supersofisticados equivalían a configurar mi telémetro en metros en lugar de yardas. Las
matemáticas eran complejas y arcanas. Las respuestas que produjo fueron tranquilizadoramente
precisas. Pero las suposiciones sobre lo que podría pasar con los mercados globales que estaban
incluidas en los modelos eran simplemente erróneas, lo que hacía que las conclusiones fueran
totalmente inexactas de maneras que desestabilizaron no sólo a Wall Street sino a toda la economía
global.
Incluso las estadísticas descriptivas más precisas y exactas pueden sufrir un problema más
fundamental: la falta de claridad sobre qué es exactamente lo que estamos tratando de definir,
describir o explicar. Los argumentos estadísticos tienen mucho en común con los malos matrimonios;
los litigantes a menudo hablan entre sí. Consideremos una cuestión económica importante: ¿Qué
tan saludable es la industria manufacturera estadounidense? A menudo se oye decir que se están
perdiendo enormes cantidades de empleos en el sector manufacturero estadounidense en favor de
China, la India y otros países con salarios bajos. También se oye decir que la manufactura de alta
tecnología todavía prospera en Estados Unidos y que Estados Unidos sigue siendo uno de los
principales exportadores de productos manufacturados del mundo. ¿Cuál es? Este parecería ser un
caso en el que un análisis sólido de buenos datos podría conciliar estas narrativas contrapuestas.
¿Es la industria manufacturera estadounidense rentable y globalmente competitiva, o se está
reduciendo ante la intensa competencia extranjera?
Ambos. La revista británica The Economist concilió ambos aspectos aparentemente
puntos de vista contradictorios sobre la fabricación estadounidense con el siguiente gráfico.
con datos del World Factbook de la CIA que muestran que Estados Unidos es el tercer mayor exportador
manufacturero del mundo, detrás de China y Alemania.
Estados Unidos sigue siendo una potencia manufacturera.
Pero el gráfico de The Economist tiene una segunda línea, que es el empleo manufacturero. El número
de empleos manufactureros en Estados Unidos ha caído constantemente; En la última década se perdieron
aproximadamente seis millones de empleos en el sector manufacturero.
Juntas, estas dos historias (aumento de la producción manufacturera y caída del empleo) cuentan la historia
completa. La manufactura en Estados Unidos se ha vuelto cada vez más productiva, lo que significa que las
fábricas están produciendo más con menos trabajadores. Esto es bueno desde el punto de vista de la
competitividad global, porque hace que los productos estadounidenses sean más competitivos con respecto
a los productos manufacturados de países con salarios bajos. (Una forma de competir con una empresa que
puede pagar a sus trabajadores 2 dólares la hora es crear un proceso de fabricación tan eficiente que un
trabajador que gane 40 dólares pueda hacer veinte veces más.) Pero hay muchos menos empleos en el
sector manufacturero, lo cual es una noticia terrible para los trabajadores desplazados que dependían de
esos salarios.
Dado que este es un libro sobre estadísticas y no sobre manufactura, volvamos al punto principal, que
es que la “salud” de la industria manufacturera estadounidense –algo aparentemente fácil de cuantificar–
depende de cómo se decide definir la salud: ¿producción o empleo? En este caso (y en muchos otros), la
historia más completa viene de incluir ambas cifras, como sabiamente decidió hacer The Economist en su
gráfico.
Incluso cuando estamos de acuerdo sobre una única medida de éxito, digamos, los puntajes de los
exámenes de los estudiantes, hay mucho margen de maniobra estadística. Vea si puede conciliar las
siguientes afirmaciones hipotéticas, las cuales podrían ser ciertas:
Político A (el retador): “¡Nuestras escuelas están empeorando! El sesenta por ciento de nuestras escuelas
obtuvieron puntajes de exámenes más bajos este año que el año pasado”.
Político B (el titular): “¡Nuestras escuelas están mejorando! El ochenta por ciento de nuestros estudiantes
obtuvieron puntuaciones más altas en los exámenes este año que el año pasado”.
He aquí una pista: no todas las escuelas tienen necesariamente el mismo número de estudiantes. Si
echas otro vistazo a las declaraciones aparentemente contradictorias, lo que verás es que un político está
utilizando las escuelas como su unidad de análisis (“Sesenta por ciento de nuestras escuelas...”), y el otro
está utilizando a los estudiantes como unidad. de análisis (“Ochenta por ciento de nuestros estudiantes…”).
La unidad de análisis es la entidad que las estadísticas comparan o describen: el desempeño escolar de una
de ellas y el desempeño de los estudiantes de la otra. Es completamente posible que la mayoría de los
estudiantes mejoren y que la mayoría de las escuelas empeoren, si los estudiantes que muestran mejoras
pertenecen a escuelas muy grandes. Para que este ejemplo sea más intuitivo, hagamos el mismo ejercicio
utilizando los estados americanos:
Machine Translated by Google
Aunque los ejemplos anteriores son hipotéticos, he aquí una pregunta estadística crucial que
no lo es: ¿está la globalización mejorando o empeorando la desigualdad de ingresos en todo el
planeta? Según una interpretación, la globalización no ha hecho más que exacerbar las
desigualdades de ingresos existentes; En 1980, los países más ricos (medidos por el PIB per
2 El
cápita) tendieron a crecer más rápidamente entre 1980 y 2000 que los países más
pobres. los países ricos simplemente se volvieron más ricos, lo que sugiere que el comercio, la
subcontratación, la inversión extranjera y los demás componentes de la “globalización” son
meras herramientas para que el mundo desarrollado extienda su hegemonía económica. ¡Abajo la globalizació
¡Abajo la globalización!
Pero espera un momento. Los mismos datos pueden (y deben) interpretarse de manera
completamente diferente si se cambia la unidad de análisis. No nos importan los países pobres;
Nos preocupamos por los pobres. Y resulta que una alta proporción de los pobres del mundo
vive en China y la India. Ambos países son enormes (con una población de más de mil
millones); ambos eran relativamente pobres en 1980. China y la India no sólo han crecido
rápidamente durante las últimas décadas, sino que lo han hecho en gran parte debido a su
mayor integración económica con el resto del mundo. Son “globalizadores rápidos”, como los
ha descrito The Economist .
Dado que nuestro objetivo es aliviar la miseria humana, no tiene sentido darle a China (con una
población de 1.300 millones) el mismo peso que a Mauricio (con una población de 1,3 millones)
al examinar los efectos de la globalización sobre los pobres.
La unidad de análisis deberían ser las personas, no los países. Lo que realmente sucedió
entre 1980 y 2000 se parece mucho al ejemplo de mi escuela falsa anterior. La mayor parte de
los pobres del mundo vivía en dos países gigantes que crecieron extremadamente rápido a
medida que se integraban más a la economía global. Un análisis adecuado arroja una
conclusión completamente diferente sobre los beneficios de la globalización para los pobres
del mundo. Como señala The Economist , “si se consideran las personas, no los países, la
desigualdad global está disminuyendo rápidamente”.
Machine Translated by Google
Ahora veamos cómo se desarrolla esto en la vida real. Consideremos los recortes de
impuestos de George W. Bush, que fueron promocionados por la administración Bush como
algo bueno para la mayoría de las familias estadounidenses. Mientras impulsaba el plan, la
administración señaló que 92 millones de estadounidenses recibirían una reducción fiscal promedio de más de
Machine Translated by Google
1.000 dólares (1.083 dólares para ser precisos). ¿Pero fue exacto ese resumen del recorte de impuestos?
Según el New York Times, "Los datos no mienten, pero algunos de ellos son falsos".
Un número relativamente pequeño de personas extremadamente ricas tenían derecho a grandes recortes
de impuestos; Estas grandes cifras distorsionan la media, haciendo que el recorte fiscal promedio parezca
mayor de lo que la mayoría de los estadounidenses probablemente recibirían. La mediana no es sensible a
los valores atípicos y, en este caso, es probablemente una descripción más precisa de cómo los recortes de
impuestos afectaron al hogar típico.
Por supuesto, la mediana también puede hacer su parte para disimular porque no es sensible a los valores
atípicos. Supongamos que usted tiene una enfermedad potencialmente mortal. La buena noticia es que se ha
desarrollado un nuevo fármaco que podría resultar eficaz. El inconveniente es que es extremadamente caro
y tiene muchos efectos secundarios desagradables.
“¿Pero funciona?” usted pregunta. El médico le informa que el nuevo fármaco aumenta en dos semanas la
esperanza de vida media de los pacientes con su enfermedad. Éstas no son noticias alentadoras; Es posible
que el medicamento no valga la pena por el costo y las molestias. Su compañía de seguros se niega a pagar
el tratamiento; tiene un caso bastante bueno sobre la base de las cifras de esperanza de vida media.
Sin embargo, en este caso la mediana puede ser una estadística terriblemente engañosa. Supongamos que muchos pacientes no
responden al nuevo tratamiento pero que un gran número de pacientes, digamos el 30 o el 40 por ciento, se curan por completo. Este
éxito no se reflejaría en la mediana (aunque la esperanza de vida media de quienes toman el medicamento parecería muy impresionante).
En este caso, los valores atípicos (aquellos que toman el medicamento y viven mucho tiempo) serían muy relevantes para su decisión. Y
no se trata simplemente de un caso hipotético. Al biólogo evolutivo Stephen Jay Gould le diagnosticaron una forma de cáncer que tenía
una mediana de supervivencia de ocho meses; Murió de un tipo de cáncer diferente y no relacionado veinte años después. 3 Gould
escribió posteriormente un famoso artículo titulado “La mediana no es el mensaje”, en el que argumentaba que su conocimiento científico
de las estadísticas lo salvó de la conclusión errónea de que necesariamente estaría muerto en ocho meses. La definición de la mediana
nos dice que la mitad de los pacientes vivirán al menos ocho meses, y posiblemente mucho, mucho más que eso. La distribución de la
mortalidad está “sesgada a la derecha”, lo cual es más que un tecnicismo si uno tiene la enfermedad.
En este ejemplo, la característica definitoria de la mediana: que no pondera las observaciones en función
de qué tan lejos se encuentran del punto medio, sólo en función de
Machine Translated by Google
Ya sea que estén arriba o abajo, resulta ser su debilidad. Por el contrario, la media se ve
afectada por la dispersión. Desde el punto de vista de la precisión, la cuestión de la mediana
versus la media gira en torno a si los valores atípicos en una distribución distorsionan lo que se
describe o si, por el contrario, son una parte importante del mensaje.
(Una vez más, el juicio triunfa sobre las matemáticas.) Por supuesto, nada dice que debas elegir la
mediana o la media. Cualquier análisis estadístico exhaustivo probablemente presentaría ambas
cosas. Cuando aparece solo la mediana o la media, puede ser por razones de brevedad, o puede
ser porque alguien está tratando de “persuadir” con estadísticas.
Los de cierta edad quizá recuerden el siguiente intercambio (según yo lo recuerdo) entre los
personajes interpretados por Chevy Chase y Ted Knight en la película Caddyshack. Los dos
hombres se encuentran en el vestuario después de que ambos acaban de salir del campo de
golf:
No voy a intentar explicar por qué esto es gracioso. Diré que muchas travesuras estadísticas
surgen de comparaciones de “manzanas y naranjas”. Supongamos que está intentando comparar
el precio de una habitación de hotel en Londres con el precio de una habitación de hotel en
París. Envías a tu hijo de seis años a la computadora para que investigue un poco en Internet,
ya que es mucho más rápido y mejor que tú. Su hijo le informa que las habitaciones de hotel en
París son más caras, alrededor de 180 por noche; una habitación comparable en Londres cuesta
150 por noche.
Probablemente le explicaría a su hijo la diferencia entre libras y euros y luego lo enviaría de
regreso a la computadora para encontrar el tipo de cambio entre las dos monedas para poder
hacer una comparación significativa. (Este ejemplo tiene una base vaga en la verdad: después
de que pagué 100 rupias por una taza de té en la India, mi hija quiso saber por qué todo en la
India era tan caro).
Obviamente, los números de las monedas de diferentes países no significan nada hasta que los
convertimos en unidades comparables. ¿Cuál es el tipo de cambio entre la libra y el euro o, en
el caso de la India, entre el dólar y la rupia?
Esto parece una lección dolorosamente obvia, pero que habitualmente se ignora,
especialmente por los políticos y los estudios de Hollywood. Esta gente reconoce claramente la
diferencia entre euros y libras; en cambio, pasan por alto un ejemplo más sutil de manzanas y
naranjas: la inflación. Un dólar de hoy no es lo mismo que un dólar de hace sesenta años; se
compra mucho menos. Debido a la inflación, algo que
Machine Translated by Google
costaba $1 en 1950 costaría $9,37 en 2011. Como resultado, cualquier comparación monetaria entre 1950
y 2011 sin ajustar los cambios en el valor del dólar sería menos precisa que comparar cifras en euros y
libras, ya que el euro y la libra son más cercanos entre sí en valor que un dólar de 1950 a un dólar de 2011.
Este es un fenómeno tan importante que los economistas tienen términos para indicar si las cifras se
han ajustado a la inflación o no. Las cifras nominales no están ajustadas por inflación. Una comparación del
costo nominal de un programa gubernamental en 1970 con el costo nominal del mismo programa en 2011
simplemente compara el tamaño de los cheques que el Tesoro emitió en esos dos años, sin ningún
reconocimiento de que un dólar en 1970 compraba más cosas que un dólar en 2011. Si gastamos $10
millones en un programa en 1970 para brindar asistencia de vivienda a los veteranos de guerra y $40
millones en el mismo programa en 2011, el compromiso federal con ese programa en realidad ha disminuido.
Sí, el gasto ha aumentado en términos nominales, pero eso no refleja el valor cambiante de los dólares que
se gastan. Un dólar de 1970 equivale a 5,83 dólares en 2011; El gobierno necesitaría gastar 58,3 millones
de dólares en beneficios de vivienda para veteranos en 2011 para brindar un apoyo comparable a los 10
millones de dólares que gastaba en 1970.
Las cifras reales , por otra parte, se ajustan a la inflación. La metodología más comúnmente aceptada
es convertir todas las cifras a una sola unidad, como dólares de 2011, para hacer una comparación de
“manzanas con manzanas”. Muchos sitios web, incluido el de la Oficina de Estadísticas Laborales de EE.
UU., tienen calculadoras de inflación simples que compararán el valor de un dólar en diferentes momentos.
Un ejemplo real (sí, un juego de palabras) de cómo las estadísticas pueden verse diferentes cuando * Para
se ajustan a la inflación, consulte el siguiente gráfico del salario mínimo federal de EE. UU., que representa
tanto el valor nominal del salario mínimo como su poder adquisitivo real en dólares de 2010. .
Machine Translated by Google
Fuente: http://oregonstate.edu/instruct/anth484/minwage.html.
El salario mínimo federal (el número publicado en el tablón de anuncios en algún rincón
remoto de su oficina) lo fija el Congreso. Este salario, actualmente de 7,25 dólares, es una
cifra nominal. Su jefe no tiene que asegurarse de que con 7,25 dólares se pueda comprar
tanto como hace dos años; solo tiene que asegurarse de que usted reciba un mínimo de
$7,25 por cada hora de trabajo que realice. Lo importante es el número del cheque, no lo
que ese número puede comprar.
Sin embargo, la inflación erosiona con el tiempo el poder adquisitivo del salario mínimo
(y de todos los demás salarios nominales, razón por la cual los sindicatos suelen negociar
“ajustes por costo de vida”). Si los precios aumentan más rápido de lo que el Congreso
aumenta el salario mínimo, el valor real de ese pago mínimo por hora caerá. Los partidarios
de un salario mínimo deberían preocuparse por el valor real de ese salario, ya que el
objetivo de la ley es garantizar a los trabajadores con salarios bajos un nivel mínimo de
consumo por una hora de trabajo, no darles un cheque con una gran cantidad. que compra
menos que antes. (Si ese fuera el caso, entonces podríamos pagar a los trabajadores con
salarios bajos en rupias).
Los estudios de Hollywood pueden ser los más atroces ajenos a las distorsiones causadas por la inflación al comparar cifras en
diferentes momentos en el tiempo, y de manera deliberada. ¿Cuáles fueron las cinco películas más taquilleras (nacionales) de las cinco
épocas en 2011?
1.Avatar ( 2009)
2. Titanic (1997)
3. El caballero oscuro (2008)
4. Star Wars Episodio IV (1977)
5.Shrek 2 (2004)
Machine Translated by Google
Ahora puede que sientas que esa lista parece un poco sospechosa. Fueron películas
exitosas, pero ¿Shrek 2? ¿Fue realmente un éxito comercial mayor que Lo que el viento se
llevó? ¿El Padrino? ¿Mandíbulas? No, no y no. A Hollywood le gusta hacer que cada éxito de
taquilla parezca más grande y exitoso que el anterior. Una forma de hacerlo sería cotizar los
ingresos de taquilla en rupias indias, lo que inspiraría titulares como el siguiente: “¡Harry Potter
bate récord de taquilla con ingresos de fin de semana de 1,3 billones!” Pero incluso los cinéfilos
más tontos sospecharían de cifras que son grandes sólo porque están cotizadas en una
moneda con relativamente poco poder adquisitivo. En cambio, los estudios de Hollywood (y
los periodistas que informan sobre ellos) simplemente utilizan cifras nominales, lo que hace
que las películas recientes parezcan exitosas en gran medida porque los precios de las
entradas son más altos ahora que hace diez, veinte o cincuenta años. (Cuando se estrenó Lo
que el viento se llevó en 1939, un billete costaba alrededor de 0,50 dólares). La forma más
precisa de comparar el éxito comercial a lo largo del tiempo sería ajustar los recibos de los
billetes a la inflación. Ganar 100 millones de dólares en 1939 es mucho más impresionante
que ganar 500 millones de dólares en 2011. Entonces, ¿cuáles son las películas más
taquilleras en Estados Unidos de todos los tiempos, ajustadas a la inflación?
6
En términos reales, Avatar cae al puesto 14; Shrek 2 cae hasta el puesto 31.
Incluso comparar manzanas con manzanas deja mucho espacio para travesuras. Como se
analizó en el último capítulo, una función importante de las estadísticas es describir los
cambios en las cantidades a lo largo del tiempo. ¿Están subiendo los impuestos? ¿Cuántas
hamburguesas con queso estamos vendiendo en comparación con el año pasado? ¿En
cuánto hemos reducido el arsénico en nuestra agua potable? A menudo utilizamos porcentajes
para expresar estos cambios porque nos dan una sensación de escala y contexto. Entendemos
lo que significa reducir la cantidad de arsénico en el agua potable en un 22 por ciento, mientras
que pocos de nosotros sabríamos si reducir el arsénico en un microgramo (la reducción
absoluta) sería un cambio significativo o no. Los porcentajes no mienten, pero pueden
exagerar. Una forma de hacer que el crecimiento parezca explosivo es utilizar el cambio
porcentual para describir algún cambio en relación con un punto de partida muy bajo. Vivo en
el condado de Cook, Illinois. Un día me sorprendí al enterarme de que estaba previsto que la
parte de mis impuestos que financiaba el distrito del sanatorio de tuberculosis del condado
suburbano de Cook aumentara en un 527 por ciento. Sin embargo, cancelé mi manifestación
masiva contra los impuestos (que en realidad todavía estaba en la fase de planificación) cuando me enteré de
Machine Translated by Google
Me costaría menos que un buen sándwich de pavo. El Distrito Sanatorio de Tuberculosis atiende
aproximadamente un centenar de casos al año; no es una organización grande ni costosa. El Chicago
SunTimes señaló que para el propietario típico de una vivienda, la factura de impuestos pasaría de 1,15
7 A veces los investigadores
dólares a 6 dólares. calificar una cifra de crecimiento señalando
que proviene “de una base baja”, lo que significa que cualquier aumento parecerá grande en comparación.
Obviamente la otra cara es cierta. Un pequeño porcentaje de una suma enorme puede ser una gran
cifra. Supongamos que el secretario de Defensa informa que el gasto en defensa crecerá sólo un 4 por
ciento este año. ¡Una gran noticia! En realidad no, dado que el presupuesto del Departamento de Defensa
es de casi 700 mil millones de dólares. El cuatro por ciento de 700 mil millones de dólares son 28 mil
millones de dólares, con los que se pueden comprar muchos sándwiches de pavo. De hecho, ese aumento
aparentemente insignificante del 4 por ciento en el presupuesto de defensa es más que todo el presupuesto
de la NASA y aproximadamente lo mismo que los presupuestos de los Departamentos de Trabajo y del
Tesoro combinados.
De manera similar, su bondadoso jefe podría señalar que, para ser justos, todos los empleados
recibirán el mismo aumento este año: 10 por ciento.
Qué gesto tan magnánimo, salvo que si su jefe gana 1 millón de dólares y usted gana 50.000 dólares, su
aumento será de 100.000 dólares y el suyo será de 5.000 dólares. La afirmación “todos recibirán el mismo
aumento del 10 por ciento este año” suena mucho mejor que “mi aumento será veinte veces mayor que el
tuyo”. Ambas cosas son ciertas en este caso.
Cualquier comparación de una cantidad que cambia con el tiempo debe tener un punto inicial y un
punto final. A veces se pueden manipular esos puntos de manera que afecten al mensaje. Una vez tuve
un profesor al que le gustaba hablar sobre sus “diapositivas republicanas” y sus “diapositivas demócratas”.
Se refería a datos sobre el gasto en defensa, y lo que quería decir es que podía organizar los mismos
datos de diferentes maneras para complacer al público demócrata o republicano. Para sus audiencias
republicanas, ofrecería la siguiente diapositiva con datos sobre los aumentos en el gasto en defensa bajo
Ronald Reagan. Es evidente que Reagan ayudó a restaurar nuestro compromiso con la defensa y la
seguridad, lo que a su vez ayudó a ganar la Guerra Fría. Nadie puede mirar estas cifras y no apreciar la
férrea determinación de Ronald Reagan de enfrentarse a los soviéticos.
Para los demócratas, mi ex profesor simplemente utilizó los mismos datos (nominales),
pero en un marco temporal más largo. Para este grupo, señaló que Jimmy Carter merece
crédito por iniciar la preparación de la defensa. Como muestra la siguiente diapositiva
“demócrata”, los aumentos del gasto en defensa de 1977 a 1980 muestran la misma tendencia
básica que los aumentos durante la presidencia de Reagan. ¡Gracias a Dios que Jimmy
Carter, graduado de Annapolis y ex oficial naval, comenzó el proceso de hacer que Estados
Unidos volviera a ser fuerte!
Fuente: http://www.usgovernmentspending.com/spend.php?
span=usgs302&year=1988&view=1&expand=30&expandC=&units=b&fy=fy12&local=s&state=US&pie=#usgs302.
Si bien el objetivo principal de las estadísticas es presentar una imagen significativa de las
cosas que nos importan, en muchos casos también esperamos actuar en función de estas
cifras. Los equipos de la NFL quieren una medida simple de la calidad del mariscal de campo
para poder encontrar y reclutar jugadores talentosos fuera de la universidad. Las empresas
miden el desempeño de sus empleados para poder promover a los que son valiosos y
despedir a los que no lo son. Existe un aforismo empresarial común: "No se puede gestionar
lo que no se puede medir". Verdadero. Pero será mejor que esté absolutamente seguro de
que lo que está midiendo es realmente lo que está tratando de gestionar.
Machine Translated by Google
Considere la calidad de la escuela. Es crucial medir esto, ya que nos gustaría recompensar y emular
a las escuelas “buenas” mientras sancionamos o arreglamos las escuelas “malas”. (Y dentro de cada
escuela, tenemos el desafío similar de medir la calidad de los docentes, por la misma razón básica). La
medida de calidad más común tanto para las escuelas como para los docentes son las calificaciones de
los exámenes. Si los estudiantes obtienen puntuaciones impresionantes en una prueba estandarizada
bien concebida, entonces presumiblemente el maestro y la escuela están haciendo un buen trabajo. Por
el contrario, las malas calificaciones en los exámenes son una señal clara de que mucha gente debería
ser despedida, más temprano que tarde. Estas estadísticas pueden ayudarnos mucho a arreglar nuestro
sistema de educación pública, ¿verdad?
Equivocado. Cualquier evaluación de docentes o escuelas que se base únicamente en los resultados
de las pruebas presentará una imagen peligrosamente inexacta. Los estudiantes que cruzan la puerta
principal de diferentes escuelas tienen antecedentes y habilidades muy diferentes. Sabemos, por ejemplo,
que la educación y los ingresos de los padres de un estudiante tienen un impacto significativo en el
rendimiento, independientemente de a qué escuela asista. La estadística que nos falta en este caso
resulta ser la única que importa para nuestros propósitos: ¿Cuánto del desempeño de un estudiante,
bueno o malo, se puede atribuir a lo que sucede dentro de la escuela (o dentro de un aula en particular)?
Los estudiantes que viven en comunidades ricas y con un alto nivel educativo obtendrán buenos
resultados desde el momento en que sus padres los dejen en la escuela el primer día de jardín de infantes.
La otra cara también es cierta. Hay escuelas con poblaciones extremadamente desfavorecidas en las que
los docentes pueden estar haciendo un trabajo notable, pero los puntajes de los estudiantes en las
pruebas seguirán siendo bajos, aunque no tan bajos como lo habrían sido si los docentes no hubieran
hecho un buen trabajo. Lo que necesitamos es alguna medida de “valor agregado” a nivel escolar, o
incluso a nivel de aula. No queremos saber el nivel absoluto de rendimiento estudiantil; queremos saber
en qué medida el rendimiento estudiantil se ha visto afectado por los factores educativos que estamos
tratando de evaluar.
A primera vista, esto parece una tarea fácil, ya que simplemente podemos darles a los estudiantes una
prueba previa y una prueba posterior. Si conocemos los puntajes de los exámenes de los estudiantes
cuando ingresan a una escuela o salón de clases en particular, entonces podemos medir su desempeño
al final y atribuir la diferencia a lo que sucedió en esa escuela o salón de clases.
Por desgracia, me equivoco de nuevo. Los estudiantes con diferentes habilidades o antecedentes
también pueden aprender a diferentes ritmos. Algunos estudiantes captarán el material más rápido que
otros por razones que no tienen nada que ver con la calidad de la enseñanza. Entonces, si los estudiantes
de la Escuela Acomodada A y de la Escuela Pobre B comienzan a estudiar álgebra al mismo tiempo y al
mismo nivel, la explicación del hecho de que los estudiantes de la Escuela Acomodada A obtengan
mejores resultados en álgebra un año después puede ser que los profesores sean mejores, o puede que
ser que los estudiantes fueran capaces de aprender más rápido, o ambas cosas. Los investigadores están trabajando
Machine Translated by Google
Desarrollar técnicas estadísticas que midan la calidad de la instrucción de manera que tengan en cuenta
adecuadamente los diferentes antecedentes y habilidades de los estudiantes. Mientras tanto, nuestros intentos
de identificar las “mejores” escuelas pueden ser ridículamente engañosos.
Cada otoño, varios periódicos y revistas de Chicago publican una clasificación de las “mejores” escuelas
secundarias de la región, generalmente sobre la base de los datos de calificaciones de los exámenes estatales.
Aquí está la parte que hace reír a carcajadas desde un punto de vista estadístico: varias de las escuelas
secundarias que constantemente ocupan los primeros lugares de la clasificación son escuelas de inscripción
selectiva, lo que significa que los estudiantes deben presentar una solicitud para ingresar, y sólo una pequeña
proporción de ellas Se aceptan estudiantes. Uno de los criterios de admisión más importantes son los puntajes
de las pruebas estandarizadas. Así que resumamos: (1) estas escuelas están siendo reconocidas como
“excelentes” por tener estudiantes con puntajes altos en los exámenes; (2) para ingresar a una escuela de
este tipo, uno debe tener puntajes altos en los exámenes. Este es el equivalente lógico a otorgar un premio al
equipo de baloncesto por hacer un trabajo tan excelente al producir estudiantes altos.
Incluso si tienes un indicador sólido de lo que estás tratando de medir y gestionar, los desafíos no han
terminado. La buena noticia es que la “gestión basada en estadísticas” puede mejorar el comportamiento
subyacente de la persona o institución que se gestiona. Si se puede medir la proporción de productos
defectuosos que salen de una línea de montaje, y si esos defectos son una función de cosas que suceden en
la planta, entonces algún tipo de bonificación para los trabajadores ligada a una reducción de productos
defectuosos presumiblemente cambiaría el comportamiento en los tipos correctos de formas. Cada uno de
nosotros responde a los incentivos (incluso si son solo elogios o un mejor lugar para estacionar). Las
estadísticas miden los resultados que importan; Los incentivos nos dan una razón para mejorar esos resultados.
O, en algunos casos, simplemente para que las estadísticas se vean mejor. Ésa es la mala noticia.
Si los administradores escolares son evaluados (y tal vez incluso compensados) sobre la base de la tasa
de graduación de la escuela secundaria de los estudiantes en un distrito escolar en particular, centrarán sus
esfuerzos en aumentar el número de estudiantes que se gradúan. Por supuesto, también pueden dedicar
algún esfuerzo a mejorar la tasa de graduación, lo cual no es necesariamente lo mismo. Por ejemplo, los
estudiantes que abandonan la escuela antes de graduarse pueden clasificarse como “que se alejan” en lugar
de abandonarlos. Este no es simplemente un ejemplo hipotético; es un cargo que se presentó contra el
exsecretario de educación Rod Paige durante su mandato como superintendente escolar de Houston. Paige
fue contratada por el presidente George W.
Bush será secretario de Educación de Estados Unidos debido a su notable éxito en Houston al reducir la tasa
de deserción escolar y mejorar los puntajes de los exámenes.
Si estás al tanto de los pequeños aforismos empresariales que sigo lanzando
Machine Translated by Google
Por cierto, aquí hay otro: "Nunca es un buen día cuando 60 Minutes aparece en tu puerta". Dan Rather y el
equipo de 60 Minutes II hicieron un viaje a Houston y descubrieron que la manipulación de las estadísticas era
mucho más impresionante que la mejora educativa.
8
Las escuelas secundarias rutinariamente clasificaban a los estudiantes
que abandonaban la escuela secundaria como transferidos a otra escuela, regresando a su país natal o
saliendo para obtener un Diploma de Equivalencia General (GED), ninguno de los cuales cuenta como
abandono en las estadísticas oficiales. Houston informó una tasa de deserción escolar en toda la ciudad del
1,5 por ciento en el año examinado; 60 Minutes calculó que la verdadera tasa de abandono estaba entre el 25
y el 50 por ciento.
Las artimañas estadísticas con las puntuaciones de los exámenes fueron igualmente impresionantes. Una
forma de mejorar los puntajes de los exámenes (en Houston o en cualquier otro lugar) es mejorar la calidad
de la educación para que los estudiantes aprendan más y obtengan mejores resultados. Ésto es una cosa buena.
Otra forma (menos virtuosa) de mejorar los resultados de los exámenes es evitar que los peores estudiantes
los tomen. Si se eliminan las puntuaciones de los estudiantes de menor rendimiento, la puntuación promedio
en las pruebas de la escuela o distrito aumentará, incluso si el resto de los estudiantes no muestran ninguna
mejora. En Texas, la prueba de rendimiento estatal se realiza en décimo grado. Había evidencia de que las
escuelas de Houston estaban tratando de evitar que los estudiantes más débiles llegaran al décimo grado. En
un ejemplo particularmente atroz, un estudiante pasó tres años en noveno grado y luego fue promovido
directamente al undécimo grado, una manera tortuosamente inteligente de evitar que un estudiante débil
tomara un examen de referencia de décimo grado sin obligarlo a abandonar los estudios (lo que habría
apareció en una estadística diferente).
No está claro que Rod Paige fuera cómplice de este engaño estadístico durante su mandato como
superintendente de Houston; sin embargo, implementó un riguroso programa de rendición de cuentas que
otorgó bonificaciones en efectivo a los directores que cumplieron con sus objetivos de deserción y puntaje en
los exámenes y que despidió o degradó a los directores que no lograron sus objetivos. Los directores
definitivamente respondieron a los incentivos; esa es la lección más importante. Pero será mejor que esté
absolutamente seguro de que las personas que están siendo evaluadas no pueden verse mejor
(estadísticamente) de maneras que no sean consistentes con el objetivo en cuestión.
El estado de Nueva York aprendió esto de la manera más difícil. El estado introdujo “cuadros de mando”
que evalúan las tasas de mortalidad de los pacientes de los cardiólogos que realizan angioplastia coronaria,
un tratamiento común para las enfermedades cardíacas. 9 Esto parece un uso perfectamente razonable y útil
de la estadística descriptiva. Es importante conocer la proporción de pacientes de un cardiólogo que mueren
en cirugía, y tiene sentido que el gobierno recopile y promulgue dichos datos, ya que de otro modo los
consumidores individuales no tendrían acceso a ellos. Entonces, ¿es ésta una buena política? Sí, aparte del
hecho de que probablemente terminó matando gente.
Machine Translated by Google
Obviamente, los cardiólogos se preocupan por su “cuadro de mando”. Sin embargo, la forma más
fácil para un cirujano de mejorar su tasa de mortalidad no es matando a menos personas; Es de
suponer que la mayoría de los médicos ya se están esforzando mucho por mantener con vida a sus pacientes.
La forma más fácil para un médico de mejorar su tasa de mortalidad es negarse a operar a los
pacientes más enfermos. Según una encuesta realizada por la Facultad de Medicina y Odontología de
la Universidad de Rochester, el cuadro de mando, que aparentemente sirve a los pacientes, también
puede perjudicarles: el 83 por ciento de los cardiólogos encuestados dijeron que, debido a las
estadísticas públicas de mortalidad, algunos los pacientes que podrían beneficiarse de la angioplastia
podrían no recibir el procedimiento; El 79 por ciento de los médicos dijeron que algunas de sus
decisiones médicas personales habían sido influenciadas por el conocimiento de que los datos de
mortalidad se recopilan y se hacen públicos. La triste paradoja de esta estadística descriptiva
aparentemente útil es que los cardiólogos respondieron racionalmente negando la atención a los
pacientes que más la necesitaban.
Un índice estadístico tiene todos los peligros potenciales de cualquier estadística descriptiva,
además de las distorsiones introducidas al combinar múltiples indicadores en un solo número. Por
definición, cualquier índice será sensible a cómo se construye; se verá afectado tanto por las medidas
que se incluyen en el índice como por cómo se pondera cada una de esas medidas. Por ejemplo, ¿por
qué el índice de pasador de la NFL no incluye ninguna medida de pases completos en terceros
intentos? Y en el caso del Índice de Desarrollo Humano, ¿cómo debería ponderarse la tasa de
alfabetización de un país en relación con el ingreso per cápita? Al final, la pregunta importante es si la
simplicidad y facilidad de uso que se introduce al agrupar muchos indicadores en un solo número
compensa la inexactitud inherente del proceso. A veces esa respuesta puede ser no, lo que nos lleva
de regreso (como prometimos) a las clasificaciones universitarias de US News & World Report
(USNWR) .
Las clasificaciones de USNWR utilizan dieciséis indicadores para calificar y clasificar los colegios,
universidades y escuelas profesionales de Estados Unidos. En 2010, por ejemplo, la clasificación de
universidades nacionales y facultades de artes liberales utilizó la “selectividad estudiantil” como el 15
por ciento del índice; La selectividad de los estudiantes, a su vez, se calcula sobre la base de la tasa
de aceptación de una escuela, la proporción de estudiantes entrantes que se encontraban en el 10 por
ciento superior de su clase de escuela secundaria y los puntajes promedio del SAT y ACT de los
estudiantes entrantes. El beneficio de las clasificaciones de la USNWR es que brindan mucha
información sobre miles de escuelas de una manera sencilla y accesible. Incluso los críticos admiten
que gran parte de la información recopilada sobre los colegios y universidades estadounidenses es
valiosa. Los futuros estudiantes deben conocer la tasa de graduación de una institución y el tamaño
promedio de las clases.
Por supuesto, proporcionar información significativa es una tarea completamente diferente a la de
agrupar toda esa información en una sola clasificación que pretenda
Machine Translated by Google
ser autoritario. Para los críticos, las clasificaciones están mal construidas, son engañosas y perjudiciales para
los intereses a largo plazo de los estudiantes. "Una de las preocupaciones es simplemente que se trata de una
lista que pretende clasificar las instituciones en orden numérico, que es un nivel de precisión que esos datos
simplemente no respaldan", dice Michael McPherson,
el ex presidente del Macalester College en Minnesota. 10 ¿Por qué las aportaciones
de los exalumnos deberían contar el 5 por ciento de la puntuación de una escuela? Y si es importante, ¿por
qué no cuenta como el diez por ciento?
Según US News & World Report, “A cada indicador se le asigna un peso (expresado como porcentaje) en
función de nuestros juicios sobre qué medidas de calidad son más importantes”.
11 El juicio es una cosa; la arbitrariedad es otra. La variable más
A pesar de todos los datos recopilados por USNWR, no es obvio que las clasificaciones midan lo que
debería interesar a los futuros estudiantes: ¿cuánto aprendizaje se lleva a cabo en una institución determinada?
Los fanáticos del fútbol pueden objetar la composición del índice de pasador, pero nadie puede negar que sus
componentes (terminaciones completas, yardas, touchdowns e intercepciones) son una parte importante del
desempeño general de un mariscal de campo. Ese no es necesariamente el caso con los criterios del USNWR ,
la mayoría de los cuales se centran en los insumos (por ejemplo, qué tipo de estudiantes son admitidos, cuánto
se les paga a los profesores, el porcentaje de profesores que trabajan a tiempo completo) en lugar de resultados
educativos. Dos excepciones notables son la tasa de retención de los estudiantes de primer año y la tasa de
graduación, pero ni siquiera esos indicadores miden el aprendizaje. Como señala Michael McPherson:
"Realmente no aprendemos nada de US News sobre si la educación que recibieron durante esos cuatro años
realmente mejoró sus talentos o enriqueció sus conocimientos".
Todo esto seguiría siendo un ejercicio inofensivo, si no fuera por el hecho de que parece fomentar
comportamientos que no son necesariamente buenos para los estudiantes o la educación superior.
Por ejemplo, una estadística utilizada para calcular las clasificaciones son los recursos financieros por
estudiante; el problema es que no existe una medida correspondiente de qué tan bien se está gastando ese
dinero. Una institución que gasta menos dinero para obtener mejores resultados
Machine Translated by Google
(y por lo tanto puede cobrar una matrícula más baja) es castigado en el proceso de clasificación.
Los colegios y universidades también tienen un incentivo para alentar a un gran número de
estudiantes a postularse, incluidos aquellos sin esperanzas realistas de ingresar, porque eso
hace que la escuela parezca más selectiva. Esto es un desperdicio de recursos para las escuelas
que solicitan solicitudes falsas y para los estudiantes que terminan postulando sin ninguna
posibilidad significativa de ser aceptados.
Dado que estamos a punto de pasar al capítulo sobre probabilidad, apuesto a que las
clasificaciones de US News & World Report no desaparecerán pronto. Como ha señalado Leon
Botstein, presidente del Bard College, “a la gente le encantan las respuestas fáciles.
13
¿Cuál es el mejor lugar? Numero 1."
La lección general de este capítulo es que la mala conducta estadística tiene muy poco que ver
con malas matemáticas. En todo caso, los cálculos impresionantes pueden ocultar motivos
nefastos. El hecho de que hayas calculado la media correctamente no alterará el hecho de que
la mediana es un indicador más preciso. El juicio y la integridad resultan sorprendentemente
importantes. Un conocimiento detallado de las estadísticas no disuade de cometer delitos, como
tampoco un conocimiento detallado de la ley previene el comportamiento criminal. Tanto con las
estadísticas como con el crimen, ¡los malos a menudo saben exactamente lo que están haciendo!
* Twain atribuyó esta frase al primer ministro británico Benjamin Disraeli, pero no hay constancia de que Disraeli
la haya dicho o escrito alguna vez.
* Disponible en http://www.bls.gov/data/inflation_calculator.htm.
Machine Translated by Google
CAPÍTULO 4
Correlación
¿Cómo sabe Netflix qué películas me gustan?
Netflix insiste en que me gustará la película Bhutto, un documental que ofrece una “mirada
profunda y a veces incendiaria sobre la vida y la trágica muerte de la ex primera ministra
paquistaní Benazir Bhutto”. Probablemente me gustará la película Bhutto. (Lo agregué a mi
cola). Las recomendaciones de Netflix que he visto en el pasado han sido fantásticas. Y
cuando me recomiendan una película que ya he visto, normalmente es una que realmente
he disfrutado.
¿Cómo hace Netflix eso? ¿Existe algún equipo masivo de pasantes en la sede
corporativa que haya utilizado una combinación de Google y entrevistas con mi familia y
amigos para determinar si me gustaría un documental sobre un ex primer ministro
paquistaní? Por supuesto que no. Netflix simplemente ha dominado algunas estadísticas
muy sofisticadas. Netflix no me conoce. Pero sí sabe qué películas me gustaron en el
pasado (porque las califiqué). Usando esa información, junto con las calificaciones de otros
clientes y una computadora potente, Netflix puede hacer predicciones sorprendentemente
precisas sobre mis gustos.
Volveré al algoritmo específico de Netflix para realizar estas selecciones; Por ahora, lo
importante es que todo se basa en la correlación. Netflix recomienda películas similares a
otras películas que me han gustado; También recomienda películas que han sido altamente
calificadas por otros clientes cuyas calificaciones son similares a las mías.
Recomendaron a Bhutto por mis calificaciones de cinco estrellas para otros dos
documentales, Enron: The Smartest Guys in the Room y Fog of War.
La correlación mide el grado en que dos fenómenos están relacionados entre sí. Por
ejemplo, existe una correlación entre las temperaturas del verano y las ventas de helados.
Cuando uno sube, también lo hace el otro. Dos variables están correlacionadas
positivamente si un cambio en una se asocia con un cambio en la otra en la misma
dirección, como la relación entre altura y peso. Las personas más altas pesan más (en
promedio); las personas más bajas pesan menos. Una correlación es negativa si un cambio
positivo en una variable se asocia con un cambio negativo en la otra, como la relación entre
ejercicio y peso.
Lo complicado de este tipo de asociaciones es que no todas las observaciones se
ajustan al patrón. A veces las personas bajas pesan más que las altas. A veces las
personas que no hacen ejercicio son más delgadas que las personas que hacen ejercicio todo el tiempo.
Machine Translated by Google
Aun así, existe una relación significativa entre la altura y el peso, y entre el ejercicio y el peso.
Si tuviéramos que hacer un diagrama de dispersión de las alturas y pesos de una muestra aleatoria
de los adultos estadounidenses, esperaríamos ver algo como lo siguiente:
Una correlación de –1, o correlación negativa perfecta, significa que cada cambio en una variable
está asociado con un cambio equivalente en la otra variable en la dirección opuesta.
Cuanto más cercana sea la correlación a 1 o –1, más fuerte será la asociación. Una correlación de
0 (o cercana) significa que las variables no tienen una asociación significativa entre sí, como la relación
entre la talla del zapato y el SAT.
puntuaciones.
Machine Translated by Google
Como siempre, he incluido la fórmula más común para calcular el coeficiente de correlación
en el apéndice al final del capítulo. Esta no es una estadística que vayas a calcular a mano.
(Después de haber ingresado los datos, un paquete de software básico como Microsoft Excel
calculará la correlación entre dos variables). Aún así, la intuición no es tan difícil. La fórmula
para calcular el coeficiente de correlación hace lo siguiente:
Observe que su altura y peso, que antes se expresaban en pulgadas y libras, se han
reducido a 1,2 y –0,9. Esto es lo que hace que las unidades desaparezcan.
3. Aquí agitaré mis manos y dejaré que la computadora haga el trabajo. Luego, la fórmula
calcula la relación entre la altura y el peso de todos los individuos de la muestra, medido
en unidades estándar. Cuando los individuos de la muestra son altos, digamos, 1,5 o 2
desviaciones estándar por encima de la media, ¿cuál tiende a ser su peso medido en
desviaciones estándar de la media?
Machine Translated by Google
la media para el peso? Y cuando los individuos están cerca de la media en términos de altura,
¿cuáles son sus pesos medidos en unidades estándar?
Si la distancia desde la media de una variable tiende a ser consistente en términos generales con la
distancia desde la media de la otra variable (por ejemplo, las personas que están lejos de la media de
altura en cualquier dirección también tienden a estar lejos de la media en la misma dirección para el
peso), entonces esperaríamos una fuerte correlación positiva.
Si la distancia desde la media para una variable tiende a corresponder a una distancia similar desde
la media para la segunda variable en la otra dirección (por ejemplo, las personas que están muy por
encima de la media en términos de ejercicio tienden a estar muy por debajo de la media en términos de
ejercicio), peso), entonces esperaríamos una fuerte correlación negativa.
Si dos variables no tienden a desviarse de la media en ningún patrón significativo (por
ejemplo, talla de calzado y ejercicio), entonces esperaríamos poca o ninguna correlación.
Entonces, ¿qué tan bien le va al SAT en este sentido? Lamentablemente para las generaciones
futuras de estudiantes de secundaria, el SAT hace un trabajo razonablemente bueno al predecir las
calificaciones del primer año universitario. El College Board publica las correlaciones relevantes. En una
escala de 0 (ninguna correlación) a 1 (correlación perfecta), la correlación entre el promedio de
calificaciones de la escuela secundaria y el promedio de calificaciones del primer año de la universidad
es .56. (Para ponerlo en perspectiva, la correlación entre la altura y el peso de los hombres adultos en
los Estados Unidos es de aproximadamente 0,4). La correlación entre el SAT compuesto
El puntaje (lectura crítica, matemáticas y escritura) y el GPA universitario de primer año también es .56.1
Eso parecería ser un argumento a favor de abandonar el SAT, ya que la prueba no parece predecir
mejor el rendimiento universitario que las calificaciones de la escuela secundaria. De hecho, el mejor
predictor de todos es una combinación de los puntajes del SAT y el GPA de la escuela secundaria, que
tiene una correlación de .64 con las calificaciones del primer año universitario. Lo lamento.
Un punto crucial en esta discusión general es que correlación no implica causalidad; Una asociación
positiva o negativa entre dos variables no significa necesariamente que un cambio en una de las
variables esté causando el cambio en la otra. Por ejemplo, antes aludí a una probable correlación
positiva entre los puntajes del SAT de un estudiante y la cantidad de televisores que posee su familia.
Esto no significa que los padres demasiado ansiosos puedan mejorar las calificaciones de sus hijos en
los exámenes comprando cinco televisores adicionales para la casa. Tampoco significa probablemente
que mirar mucha televisión sea bueno para el rendimiento académico.
La explicación más lógica para tal correlación sería que los padres con un alto nivel educativo pueden
permitirse muchos televisores y tienden a tener hijos con mejores resultados que el promedio. Tanto los
televisores como los puntajes de las pruebas probablemente sean causados por una tercera variable,
que es la educación de los padres. No puedo probar la correlación entre los televisores en el hogar y los
puntajes del SAT. (El College Board no proporciona tales datos). Sin embargo, puedo demostrar que los
estudiantes de familias ricas tienen puntuaciones medias en el SAT más altas que los estudiantes de
familias menos ricas. Según el College Board, los estudiantes con ingresos familiares superiores a
200.000 dólares tienen una puntuación media en matemáticas en el SAT de 586, en comparación con
una puntuación media en matemáticas en el SAT de 460 para estudiantes con ingresos familiares de
20.000 dólares o menos. 2 Mientras tanto, también es probable que
las familias con ingresos superiores a 200.000 dólares tengan más televisores en sus (múltiples) hogares
que las familias con ingresos de 20.000 dólares o menos.
Empecé a escribir este capítulo hace muchos días. Desde entonces, tuve la oportunidad de ver el
documental Bhutto. ¡Guau! Esta es una película extraordinaria sobre una familia extraordinaria. Las
imágenes originales, que abarcan desde la partición de India y Pakistán en 1947 hasta el asesinato de
Benazir Bhutto en 2007, son extraordinarias. La voz de Bhutto se entreteje eficazmente a lo largo de la
película en forma de discursos y entrevistas. De todos modos, le di a la película cinco estrellas, lo cual
es
Machine Translated by Google
el coeficiente de correlación entre dos conjuntos de números, realizaría los siguientes pasos, cada uno
de los cuales se ilustra mediante el uso de datos sobre alturas y pesos de 15 estudiantes hipotéticos en
la siguiente tabla.
media)/desviación estándar.
2. Convierta el peso de cada estudiante a unidades estándar: (peso – media)/desviación
estándar.
3. Calcule el producto de cada estudiante de (peso en unidades estándar) × (altura en
unidades estándar). Debería ver que este número será mayor en valor absoluto cuando
la altura y el peso de un estudiante estén relativamente lejos de la media.
Podemos hacer que la fórmula sea aún más adaptable escribiendo , que suma
Machine Translated by Google
Dada esa notación general, la fórmula para calcular el coeficiente de correlación, r, para
dos variables xey es la siguiente:
Machine Translated by Google
dónde
n = el número de observaciones;
es la media de la variable
x; es la media de la variable
y; σx es la desviación estándar de la variable
x; σy es la desviación estándar de la variable y.
CAPÍTULO 5
Probabilidad básica
No compre la garantía extendida en su impresora de $99
En 1981, Joseph Schlitz Brewing Company gastó 1,7 millones de dólares en lo que parecía ser
una campaña de marketing sorprendentemente audaz y arriesgada para su debilitada marca,
Schlitz. En el entretiempo de la Super Bowl, ante 100 millones de personas en todo el mundo, la
empresa retransmitió en directo una prueba de sabor en la que se enfrentaba la cerveza Schlitz a
1
un competidor clave, Michelob. Más audaz aún, la compañía no eligió bebedores
de cerveza al azar para evaluar las dos cervezas; seleccionó a 100 bebedores de Michelob.
Esta fue la culminación de una campaña que se extendió a lo largo de los playoffs de la NFL. Los
2
En total se realizaron cinco pruebas de sabor televisadas en directo, cada una de las cuales contaba con 100
consumidores de una marca competidora (Budweiser, Miller o Michelob) realizan una prueba de
sabor a ciegas entre su supuesta cerveza favorita y Schlitz. Cada una de las degustaciones de
cerveza se promovió agresivamente, al igual que el partido de playoffs durante el cual se llevaría a
cabo (por ejemplo, “Mira Schlitz v. Bud, en vivo durante los playoffs de la AFC”).
El mensaje de marketing era claro: incluso los bebedores de cerveza que creen que les gusta
otra marca preferirán Schlitz en una prueba de sabor a ciegas. Para el lugar del Super Bowl, Schlitz
incluso contrató a un ex árbitro de la NFL para supervisar la prueba. Dado el riesgo que implica
realizar pruebas de sabor a ciegas frente a grandes audiencias en directo por televisión, se puede
suponer que Schlitz produjo una cerveza espectacularmente deliciosa, ¿verdad?
No necesariamente. Schlitz sólo necesitaba una cerveza mediocre y un sólido conocimiento de
las estadísticas para saber que esta estratagema (un término que no uso a la ligera, ni siquiera
cuando se trata de publicidad de cerveza) casi con certeza funcionaría a su favor. La mayoría de
las cervezas de la categoría Schlitz saben más o menos igual; Irónicamente, ese es exactamente
el hecho que explotó esta campaña publicitaria. Supongamos que el típico bebedor de cerveza de
la calle no puede distinguir Schlitz de Budweiser de Michelob de Miller. En ese caso, una prueba
de sabor a ciegas entre dos cervezas cualesquiera es esencialmente lanzar una moneda al aire.
En promedio, la mitad de los catadores elegirán Schlitz y la otra mitad elegirá la cerveza que les
resulte “desafiante”. Este hecho por sí solo probablemente no haría que una campaña publicitaria
fuera particularmente efectiva. (“No se nota la diferencia, así que también podrías beber Schlitz”).
Y Schlitz de ninguna manera querría hacer esta prueba entre sus propios clientes leales;
Aproximadamente la mitad de estos bebedores de Schlitz elegirían la cerveza de la competencia.
Queda mal cuando los bebedores de cerveza supuestamente más comprometidos con su marca
eligen a un competidor en una prueba de sabor a ciegas, lo cual es
Machine Translated by Google
Con sólo esta información, un superhéroe estadístico puede calcular la probabilidad de todos los
diferentes resultados de los 100 ensayos, como 52 Schlitz y 48 Michelob o 31 Schlitz y 69 Michelob.
Aquellos de nosotros que no somos superhéroes estadísticos podemos usar una computadora para
hacer lo mismo. Las posibilidades de los 100 Michelob
gusto probadores cosecha eran 1
en 1.267.650.600.228.229.401.496.703.205.376. Probablemente había una mayor posibilidad de que
todos los probadores murieran en el entretiempo por un asteroide. Más importante aún, los mismos
cálculos básicos pueden darnos la probabilidad acumulada para una variedad de resultados, como las
posibilidades de que 40 o menos evaluadores elijan a Schlitz.
Estas cifras claramente habrían aliviado los temores de la gente de marketing de Schlitz.
Los catadores eligieron Schlitz, un número impresionante dado que todos los hombres que tomaron la prueba
de sabor a ciegas en vivo habían profesado ser bebedores de Michelob. Era muy probable que se produjera un
resultado al menos tan bueno . Si la prueba de sabor es realmente como lanzar una moneda al aire, entonces
la probabilidad básica nos dice que había un 98 por ciento de posibilidades de que al menos 40 de los catadores
eligieran Schlitz, y un 86 por ciento de posibilidades de que al menos 45 de los catadores lo hicieran. † En
teoría, esta no era una táctica muy arriesgada en absoluto.
Entonces, ¿qué pasó con Schlitz? En el entretiempo del Super Bowl de 1981, exactamente 50
El 10 por ciento de los bebedores de Michelob eligieron Schlitz en la prueba de sabor a ciegas.
Hay dos lecciones importantes aquí: la probabilidad es una herramienta notablemente poderosa, y muchas
de las principales cervezas de la década de 1980 eran indistinguibles entre sí. Este capítulo se centrará
principalmente en la primera lección.
Comencemos con la parte fácil: muchos eventos tienen probabilidades conocidas. La probabilidad de que
salga cara con una moneda justa es ½. La probabilidad de sacar un uno con un solo dado es Otros eventos
.
tienen probabilidades que pueden inferirse sobre la base de datos pasados. La probabilidad de patear con éxito
el punto extra después del touchdown en el fútbol profesional es de 0,94, lo que significa que los pateadores
hacen, en promedio, 94 de cada 100 intentos de punto extra. (Obviamente, esta cifra puede variar ligeramente
para diferentes pateadores, bajo diferentes circunstancias climáticas, etc., pero no va a cambiar radicalmente).
El simple hecho de tener y apreciar este tipo de información a menudo puede aclarar la toma de decisiones y
hacer explícitos los riesgos.
Por ejemplo, la Junta Australiana de Seguridad en el Transporte publicó un informe que cuantifica los riesgos de
muerte para diferentes modos de transporte. A pesar del temor generalizado a volar, los riesgos asociados con
los viajes aéreos comerciales son mínimos. Australia no ha tenido una muerte en aviones comerciales desde la
década de 1960, por lo que la tasa de mortalidad por cada 100 millones de kilómetros recorridos es esencialmente
cero. La tasa para los conductores es de 0,5 víctimas mortales.
Machine Translated by Google
por cada 100 millones de kilómetros recorridos. La cifra realmente impresionante es la de las motocicletas,
si aspira a ser donante de órganos. La tasa de mortalidad es treinta y cinco veces mayor entre las
3
motocicletas que entre los automóviles.
En septiembre de 2011, un satélite de la NASA de 6,5 toneladas caía en picado a la Tierra y se
esperaba que se rompiera una vez que impactara la atmósfera terrestre. ¿Cuáles eran las posibilidades
de ser golpeado por los escombros? ¿Debería haber dejado a los niños en casa y sin ir a la escuela? Los
científicos espaciales de la NASA estimaron que la probabilidad de que una persona concreta fuera
alcanzada por una parte del satélite que caía era de 1 entre 21 billones.
Sin embargo, las posibilidades de que cualquier persona en cualquier lugar de la Tierra pudiera ser
*
alcanzada eran de 1 entre 3.200.
Al final, el satélite se rompió en su reingreso, pero los científicos no están
4
del todo seguros de dónde terminaron todas las piezas. ser lastimado. Las nadie informó
probabilidades no nos dicen con certeza qué sucederá; nos dicen qué es probable que suceda y qué es
menos probable que suceda. Las personas sensatas pueden utilizar este tipo de números en los negocios
y en la vida. Por ejemplo, cuando escuche en la radio que un satélite está cayendo a la Tierra, no debe
correr a casa en motocicleta para advertir a la familia.
Cuando se trata de riesgo, nuestros miedos no siempre coinciden con lo que los números nos
dicen que deberíamos temer. Uno de los hallazgos más sorprendentes de Freakonomics, de
Steve Levitt y Stephen Dubner, fue que las piscinas en el patio trasero son mucho más peligrosas
que las armas en el armario. 5 Levitt y Dubner calculan que un niño menor de diez años tiene
cien veces más probabilidades de morir en una piscina que en un accidente con arma de fuego.
† Un artículo intrigante de tres investigadores de Cornell, Garrick Blalock, Vrinda Kadiyali y Daniel
Simon, encontró que miles de estadounidenses pueden haber muerto desde los ataques del 11
de septiembre porque tenían miedo de volar. Sepa que conducir es peligroso. Cuando más
6 Nunca sabremos los verdaderos riesgos asociados con el terrorismo; hacemos
estadounidenses
optaron por conducir en lugar de volar después del 11 de septiembre, se estima que hubo 344
muertes adicionales en accidentes de tránsito por mes en octubre, noviembre y diciembre de
2001 (teniendo en cuenta el número promedio de muertes y otros factores que normalmente
contribuyen a la muerte). accidentes de tráfico, como el clima). Este efecto se disipó con el
tiempo, presumiblemente a medida que disminuyó el miedo al terrorismo, pero los autores del
estudio estiman que los ataques del 11 de septiembre pueden haber causado más de 2.000
muertes al volante.
A veces, la probabilidad también puede decirnos a posteriori lo que probablemente sucedió y lo que
probablemente no sucedió, como en el caso del análisis de ADN. Cuando los técnicos de CSI: Miami
encuentran un rastro de saliva en el corazón de una manzana cerca de una víctima de asesinato, esa
saliva no tiene el nombre del asesino, incluso cuando un técnico muy atractivo la observa bajo un potente
microscopio. En cambio, la saliva (o el cabello, la piel o un fragmento de hueso) contendrá un segmento
de ADN. Cada ADN
Machine Translated by Google
El segmento, a su vez, tiene regiones, o loci, que pueden variar de un individuo a otro (excepto
en el caso de los gemelos idénticos, que comparten el mismo ADN). Cuando el médico forense
informa que una muestra de ADN es “coincidente”, eso es sólo una parte de lo que la fiscalía
tiene que probar. Sí, los loci analizados en la muestra de ADN de la escena del crimen deben
coincidir con los loci de la muestra de ADN tomada del sospechoso. Sin embargo, los fiscales
también deben demostrar que la coincidencia entre las dos muestras de ADN no es una mera
coincidencia.
Los humanos comparten similitudes en su ADN, al igual que nosotros compartimos otras
similitudes: talla de zapatos, altura, color de ojos. (Más del 99 por ciento de todo el ADN es
idéntico entre todos los humanos). Si los investigadores tienen acceso sólo a una pequeña
muestra de ADN en la que sólo se pueden analizar unos pocos loci, es posible que miles o
incluso millones de individuos compartan ese fragmento genético. . Por lo tanto, cuantos más loci
se puedan probar y más variación genética natural haya en cada uno de esos loci, más segura
será la coincidencia. O, para decirlo de otra manera, es menos probable que la muestra de ADN
7
coincida con más de una persona.
Para entender esto, imagine que su “número de ADN” consiste en su número de teléfono
adjunto a su número de Seguro Social. Esta secuencia de diecinueve dígitos lo identifica de
manera única. Considere cada dígito como un “lugar” con diez posibilidades: 0, 1, 2, 3, etc. Ahora
supongamos que los investigadores de la escena del crimen encuentran el remanente de un
_ 9con
“número de ADN” en la escena del crimen: 4 5 9 4 0 Esto coincide exactamente 8 1su
7 “número
_.
de ADN”. ¿Eres culpable?
Deberías ver tres cosas. En primer lugar, cualquier cosa que no sea una coincidencia completa
del genoma completo deja cierto margen de incertidumbre. En segundo lugar, cuantos más “loci”
se puedan probar, menos incertidumbre quedará. Y tercero, el contexto importa. Esta coincidencia
sería extremadamente convincente si también te pillaran alejándote a toda velocidad de la escena
del crimen con las tarjetas de crédito de la víctima en el bolsillo.
Cuando los investigadores tienen tiempo y recursos ilimitados, el proceso típico implica probar
trece loci diferentes. Las posibilidades de que dos personas compartan el mismo perfil de ADN
en los trece loci son extremadamente bajas. Cuando se utilizó ADN para identificar los restos
encontrados en el World Trade Center después del 11 de septiembre, las muestras encontradas
en el lugar se compararon con muestras proporcionadas por familiares de las víctimas. La
probabilidad requerida para establecer una identificación positiva era de una entre mil millones,
lo que significa que la probabilidad de que los restos descubiertos pertenecieran a alguien distinto
de la víctima identificada debía juzgarse como una entre mil millones o menos. Más adelante en
la búsqueda, esta norma se relajó, ya que había menos víctimas no identificadas con las que se
pudieran confundir los restos.
Cuando los recursos son limitados, o la muestra de ADN disponible es demasiado pequeña o
demasiado contaminada para analizar trece loci, las cosas se vuelven más interesantes y
Machine Translated by Google
controversial. Los Angeles Times publicó una serie en 2008 examinando el uso del ADN
como prueba criminal. 8 En particular, el Times cuestionó si las probabilidades típicamente
utilizadas por las fuerzas del orden subestiman la probabilidad de coincidencias coincidentes.
(Dado que nadie conoce el perfil de ADN de toda la población, las probabilidades presentadas
ante el tribunal por el FBI y otras entidades encargadas de hacer cumplir la ley son
estimaciones). El rechazo intelectual fue instigado cuando un analista de un laboratorio
criminalístico en Arizona que realizaba pruebas con la base de datos de ADN del estado
descubrió dos delincuentes no relacionados cuyo ADN coincidía en nueve loci; Según el FBI,
las posibilidades de una coincidencia de nueve loci entre dos personas no relacionadas son
de 1 entre 113 mil millones. Búsquedas posteriores en otras bases de datos de ADN arrojaron
más de mil parejas humanas con coincidencias genéticas en nueve loci o más. Dejaré este
tema para que lo resuelvan los abogados defensores y encargados de hacer cumplir la ley.
Por ahora, la lección es que la deslumbrante ciencia del análisis de ADN es tan buena como
las probabilidades utilizadas para respaldarla.
Entonces, supongamos que el administrador de su sistema lo arenga lo suficiente como para que incluya letras en su contraseña.
En ese momento, cada uno de los 6 dígitos ahora tiene 36 combinaciones: 26 letras y 10 dígitos. El número de contraseñas posibles
supera los dos mil millones. Si su tamaño crece a 36 × 36 × 36 × 36 × 36 × 36, o 36, el administrador exige ocho dígitos y le insta a
6
Universidad de Chicago, el número de contraseñas potenciales es 8. sube , utilizar símbolos como #, @, % y !, como hace la
a 46 o poco más de 20 billones.
,
Aquí hay una distinción crucial. Esta fórmula es aplicable sólo si el
Machine Translated by Google
Los eventos son independientes, lo que significa que el resultado de uno no tiene efecto sobre
el resultado de otro. Por ejemplo, la probabilidad de que arrojes cara en el primer lanzamiento
no cambia la probabilidad de que arrojes cara en el segundo lanzamiento. Por otro lado, la
probabilidad de que llueva hoy no es independiente de si llovió ayer, ya que los frentes de
tormenta pueden durar días. De manera similar, la probabilidad de estrellar su automóvil hoy y
estrellar su automóvil el próximo año no son independientes. Lo que sea que haya causado su
fracaso este año también podría provocar su fracaso el año que viene; Es posible que seas
propenso a conducir en estado de ebriedad, a hacer carreras de resistencia, a enviar mensajes
de texto mientras conduces o simplemente a conducir mal. (Esta es la razón por la que las
tarifas de su seguro de automóvil aumentan después de un accidente; no es simplemente que
la compañía quiera recuperar el dinero que pagó por el reclamo; más bien, ahora tiene nueva
información sobre su probabilidad de sufrir un accidente en el futuro. , que, después de haber
atravesado la puerta del garaje con el coche, ha subido).
Supongamos que está interesado en la probabilidad de que ocurra un evento u otro:
resultado A o resultado B (suponiendo nuevamente que son independientes). En este
caso, la probabilidad de obtener A o B consiste en la suma de sus probabilidades
individuales: la probabilidad de A más la probabilidad de B.
Por ejemplo, la probabilidad de sacar un 1, 2 o 3 con un solo dado es la suma de sus
probabilidades individuales: + + = = ½. Esto debería tener sentido intuitivo. Hay seis
resultados posibles al lanzar un dado. Los números 1, 2 y 3 en conjunto representan la
mitad de esos resultados posibles. Por lo tanto, tienes un 50 por ciento de posibilidades
de sacar un 1, 2 o 3. Si estás jugando a los dados en Las Vegas, la probabilidad de sacar
un 7 u 11 en una sola tirada es el número de combinaciones que suman 7 u 11 dividido.
por el número total de combinaciones que se pueden lanzar con dos dados, o
.*
La probabilidad también nos permite calcular cuál podría ser la herramienta más útil en
toda la toma de decisiones gerenciales, particularmente en las finanzas: el valor esperado.
El valor esperado lleva la probabilidad básica un paso más allá. El valor esperado o
recompensa de algún evento, por ejemplo la compra de un billete de lotería, es la suma
de todos los diferentes resultados, cada uno ponderado por su probabilidad y recompensa.
Como siempre, un ejemplo aclara esto. Supongamos que te invitan a jugar un juego en el
que tiras un solo dado. El pago de este juego es $1 si obtienes un 1; $2 si sacas un 2; $3
si sacas un 3; etcétera. ¿Cuál es el valor esperado para una sola tirada del dado? Cada
resultado posible tiene una probabilidad, por lo que el valor esperado es: ($1) +
($2) + ($3) + ($4) + ($5) + ($6) = o $3,50. ,
A primera vista, el valor esperado de 3,50 dólares podría parecer una cifra relativamente
inútil. Después de todo, en realidad no puedes ganar $3,50 con una sola tirada del dado
(ya que tu pago tiene que ser un número entero). De hecho, el valor esperado resulta ser
extremadamente poderoso porque puede indicarle si un evento en particular es
Machine Translated by Google
billete de lotería de 1 dólar tiene un pago esperado de aproximadamente 0,56 dólares, lo que lo convierte en
una forma absolutamente miserable de gastar 1 dólar. Quiso la suerte que gané 2$.
A pesar de mi premio de $2, comprar el boleto fue una estupidez. Ésta es una de las
lecciones cruciales de la probabilidad. Las buenas decisiones (medidas por las probabilidades
subyacentes) pueden resultar malas. Y malas decisiones, como gastar
Machine Translated by Google
Un dólar en la lotería de Illinois todavía puede resultar bien, al menos a corto plazo. Pero al
final la probabilidad triunfa. Un teorema importante conocido como ley de los grandes números
nos dice que a medida que aumenta el número de intentos, el promedio de los resultados se
acercará cada vez más a su valor esperado. Sí, hoy gané $2 jugando a la lotería. Y mañana
podría volver a ganar 2 dólares. Pero si compro miles de billetes de lotería de 1 dólar, cada
uno con un pago esperado de 0,56 dólares, entonces tengo una certeza casi matemática de
que perderé dinero. Cuando haya gastado un millón de dólares en entradas, terminaré con
algo sorprendentemente cercano a los 560.000 dólares.
La ley de los grandes números explica por qué los casinos siempre ganan dinero a largo
plazo. Las probabilidades asociadas con todos los juegos de casino favorecen a la casa
(suponiendo que el casino pueda evitar con éxito que los jugadores de blackjack cuenten
cartas). Si se realizan suficientes apuestas durante un tiempo suficiente, el casino seguramente
ganará más de lo que perderá. La ley de los grandes números también demuestra por qué a
Schlitz le resultó mucho mejor hacer 100 pruebas de sabor a ciegas en el entretiempo del
Super Bowl en lugar de solo 10. Consulte las "funciones de densidad de probabilidad" para
una prueba tipo Schlitz con 10, 100 y 1000. ensayos.
(Aunque parezca sofisticado, una función de densidad de probabilidad simplemente traza los
resultados variados a lo largo del eje x y la probabilidad esperada de cada resultado en el eje
y; las probabilidades ponderadas (cada resultado multiplicado por su frecuencia esperada)
sumarán 1 .) Nuevamente, supongo que la prueba de sabor es como lanzar una moneda al
aire y que cada evaluador tiene una probabilidad de 0,5 de elegir Schlitz. Como puede ver a
continuación, el resultado esperado converge alrededor del 50 por ciento de los catadores
que eligen Schlitz a medida que aumenta el número de catadores. Al mismo tiempo, la
probabilidad de obtener un resultado que se desvíe marcadamente del 50 por ciento disminuye
drásticamente a medida que aumenta el número de ensayos.
10 pruebas
100 pruebas
Machine Translated by Google
1.000 ensayos
Anteriormente estipulé que los ejecutivos de Schlitz estarían contentos si el 40 por ciento o
más de los bebedores de Michelob eligieran Schlitz en la prueba a ciegas. Las siguientes cifras
reflejan la probabilidad de obtener ese resultado a medida que aumenta el número de catadores:
A estas alturas, la intuición detrás del subtítulo del capítulo es obvia: “No compre la garantía
extendida para su impresora de $99”. Vale, tal vez eso no sea tan obvio. Déjame retroceder.
Toda la industria de seguros se basa en la probabilidad. (Una garantía es solo una forma de
seguro). Cuando asegura algo, se compromete a recibir una compensación específica en caso
de una contingencia claramente definida. Por ejemplo, su seguro de automóvil reemplazará su
automóvil en caso de que lo roben o lo aplaste un árbol. A cambio de esta garantía, te
comprometes a pagar una cantidad fija de dinero durante el periodo en el que estés asegurado.
La idea clave es que a cambio de un pago regular y predecible, has transferido a la compañía
de seguros el riesgo de que te roben, aplasten o incluso totalicen tu coche.
Machine Translated by Google
Como consumidor, debe reconocer que el seguro no le permitirá ahorrar dinero a largo plazo.
Lo que hará es evitar pérdidas inaceptablemente altas, como reemplazar un automóvil de 40.000
dólares que fue robado o una casa de 350.000 dólares que se quemó.
Comprar un seguro es una “mala apuesta” desde un punto de vista estadístico, ya que, en
promedio, pagará a la compañía de seguros más de lo que recibirá a cambio. Sin embargo, aún
puede ser una herramienta sensata para protegerse contra resultados que de otro modo
arruinarían su vida. Irónicamente, alguien tan rico como Warren Buffett puede ahorrar dinero al no
comprar un seguro de automóvil, un seguro de vivienda o incluso un seguro médico porque puede
afrontar cualquier cosa mala que le pueda pasar.
¡Lo que finalmente nos lleva de regreso a su impresora de $99! Asumiremos que has
Acabo de elegir la nueva impresora láser perfecta en Best Buy o en algún otro minorista. *
Cuando llegue a la caja, el asistente de ventas le ofrecerá una serie de opciones de garantía
extendida. Por otros $25 o $50, Best Buy reparará o reemplazará la impresora en caso de que se
rompa en uno o dos años. Sobre la base de su comprensión de la probabilidad, los seguros y la
economía básica, debería poder suponer inmediatamente todo lo siguiente: (1) Best Buy es una
empresa con fines de lucro que busca maximizar las ganancias. (2) El asistente de ventas está
ansioso por que usted compre la garantía extendida. (3) De los números 1 y 2, podemos inferir
que el costo de la garantía para usted es mayor que el costo esperado de arreglar o reparar la
impresora para Best Buy. Si este no fuera el caso, Best Buy no sería tan agresivo al intentar
vendérselo. (4) Si su impresora de $99 se estropea y tiene que pagar de su bolsillo para arreglarla
o reemplazarla, esto no cambiará significativamente su
Machine Translated by Google
vida.
En promedio, pagará más por la garantía extendida de lo que pagaría por reparar la impresora.
La lección más amplia (y una de las lecciones centrales de las finanzas personales) es que
siempre debe asegurarse contra cualquier contingencia adversa que no pueda soportar
cómodamente. Deberías evitar comprar un seguro para todo lo demás.
El valor esperado también puede ayudarnos a desenmarañar decisiones complejas que involucran
muchas contingencias en diferentes momentos. Suponga que un amigo suyo le pide que invierta
1 millón de dólares en una investigación que examina una nueva cura para la calvicie de patrón
masculino. Probablemente se preguntaría cuál será la probabilidad de éxito; Obtendrás una
respuesta complicada. Este es un proyecto de investigación, por lo que solo hay un 30 por ciento
de posibilidades de que el equipo descubra una cura que funcione. Si el equipo no encuentra una
cura, usted recuperará $250,000 de su inversión, ya que esos fondos se habrán reservado para
llevar el medicamento al mercado (pruebas, marketing, etc.). Incluso si los investigadores tienen
éxito, solo hay una 60 por ciento de posibilidades de que EE.UU.
La Administración de Alimentos y Medicamentos aprobará la nueva cura milagrosa para la calvicie
como segura para su uso en humanos. Incluso entonces, si el medicamento es seguro y eficaz,
hay un 10 por ciento de posibilidades de que un competidor llegue al mercado con un medicamento
mejor aproximadamente al mismo tiempo, eliminando cualquier beneficio potencial. Si todo va bien
(el fármaco es seguro, eficaz y no tiene competencia para competir), entonces la mejor estimación
del retorno de su inversión es de 25 millones de dólares.
¿Deberías hacer la inversión?
Esto parece un lío de información. El beneficio potencial es enorme (25 veces su inversión
inicial), pero existen muchos peligros potenciales. Un árbol de decisiones puede ayudar a organizar
este tipo de información y, si las probabilidades asociadas con cada resultado son correctas,
brindarle una evaluación probabilística de lo que debe hacer. El árbol de decisiones traza cada
fuente de incertidumbre y las probabilidades asociadas con todos los resultados posibles. El final
del árbol nos da todos los posibles pagos y la probabilidad de cada uno. Si ponderamos cada
pago según su probabilidad y sumamos todas las posibilidades, obtendremos el valor esperado
de esta oportunidad de inversión. Como siempre, la mejor manera de entender esto es echar un
vistazo.
La decisión de inversión
Machine Translated by Google
Esta oportunidad particular tiene un valor esperado atractivo. El pago ponderado es de 4,225 millones de
dólares. Aún así, esta inversión puede no ser lo más inteligente que se puede hacer con el dinero de la
matrícula universitaria que ha ahorrado para sus hijos.
El árbol de decisiones le permite saber que su beneficio esperado es mucho mayor de lo que se le pide que
invierta. Por otro lado, el resultado más probable, es decir, el que sucederá con mayor frecuencia, es que la
empresa no descubra una cura para la calvicie y usted solo recuperará 250.000 dólares. Su apetito por esta
inversión puede depender de su perfil de riesgo. La ley de los grandes números sugiere que una empresa
de inversión, o un individuo rico como Warren Buffet, debería buscar cientos de oportunidades como ésta
con resultados inciertos pero con retornos esperados atractivos. Algunos funcionarán; muchos no lo harán.
En promedio, estos inversores ganarán mucho dinero, al igual que una compañía de seguros o un casino.
Si la recompensa esperada está a su favor, siempre es mejor realizar más pruebas.
El mismo proceso básico puede utilizarse para explicar un fenómeno aparentemente contrario a la
intuición. A veces no tiene sentido examinar a toda la población para detectar una enfermedad rara pero
grave, como el VIH/SIDA. Supongamos que podemos realizar pruebas para detectar alguna enfermedad
rara con un alto grado de precisión. A modo de ejemplo, supongamos que la enfermedad afecta a 1 de cada
100.000 adultos y que la prueba tiene una precisión del 99,9999 por ciento. La prueba nunca genera un
falso negativo (lo que significa que nunca pasa por alto a alguien que tiene la enfermedad); sin embargo,
aproximadamente 1 de cada 10.000 pruebas realizadas a una persona sana generará un falso positivo, lo
que significa que la persona da positivo pero en realidad no tiene la enfermedad. El resultado sorprendente
aquí es que, a pesar de la impresionante precisión de la prueba, la mayoría de las personas que dan positivo
no tendrán la enfermedad. Esto generará una enorme ansiedad entre quienes den falso positivo; también
puede desperdiciar recursos finitos de atención médica en pruebas de seguimiento y tratamiento.
Sólo 1.750 adultos padecen la enfermedad. Todos dan positivo. Más de 174 millones de
adultos no padecen la enfermedad. De este grupo sano que se hace la prueba, 99,9999
obtienen el resultado correcto de que no padecen la enfermedad. Sólo 0,0001 obtienen un
falso positivo. Pero 0,0001 de 174 millones sigue siendo una cifra grande. De hecho, una
media de 17.500 personas obtendrán falsos positivos.
Veamos lo que eso significa. Un total de 19.250 personas son notificadas que padecen la
enfermedad; ¡Sólo el 9 por ciento de ellos están realmente enfermos! Y eso con una prueba
que tiene una tasa muy baja de falsos positivos. Sin desviarnos demasiado del tema, esto
debería darle una idea de por qué la contención de costos en la atención médica a veces
implica menos exámenes de detección de enfermedades en personas sanas, no más. En el
caso de una enfermedad como el VIH/SIDA, los funcionarios de salud pública suelen
recomendar que los recursos disponibles se utilicen para examinar a las poblaciones de
mayor riesgo, como los hombres homosexuales o los usuarios de drogas intravenosas.
En la película Minority Report de 2002, Tom Cruise interpreta a un detective "anterior al crimen"
que forma parte de una oficina que utiliza tecnología para predecir crímenes antes de que se
cometan.
Bueno amigos, eso ya no es ciencia ficción. En 2011, el New York Times
11
publicó el siguiente titular: “Enviar a la policía antes de que haya un crimen”. La historia
describía cómo los detectives fueron enviados a un estacionamiento en el centro de Santa Cruz
mediante un programa de computadora que predijo que había una alta probabilidad de robos de
automóviles en ese lugar ese día. Posteriormente, la policía arrestó a dos mujeres que miraban
por las ventanillas del automóvil. Uno tenía órdenes de aprehensión pendientes; el otro portaba
drogas ilegales.
El sistema Santa Cruz fue diseñado por dos matemáticos, un antropólogo y un criminólogo. El
Departamento de Policía de Chicago ha creado una unidad completa de análisis predictivo, en
parte porque la actividad de las pandillas, fuente de gran parte de la violencia de la ciudad, sigue
ciertos patrones. El libro Data Mining and Predictive Analysis: Intelligence Gathering and Crime
Analysis, una guía de estadísticas para las fuerzas del orden, comienza con entusiasmo: “Ahora
es posible predecir el futuro en lo que respecta a la delincuencia, como identificar tendencias
delictivas, anticipar puntos críticos en el comunidad, refinando las decisiones de implementación
de recursos y garantizando la mayor protección para los ciudadanos de la manera más eficiente”.
Machine Translated by Google
(Mira, leo este tipo de cosas para que tú no tengas que hacerlo).
La “vigilancia policial predictiva” es parte de un movimiento más amplio llamado análisis predictivo. El
crimen siempre implicará un elemento de incertidumbre, al igual que determinar quién chocará con su auto o
no pagará su hipoteca. La probabilidad nos ayuda a sortear esos riesgos. Y la información refina nuestra
comprensión de las probabilidades relevantes. Las empresas que enfrentan incertidumbre siempre han
buscado cuantificar sus riesgos. Los prestamistas solicitan cosas como verificación de ingresos y puntaje
crediticio. Sin embargo, estos contundentes instrumentos crediticios están empezando a parecer el equivalente
predictivo de las herramientas de piedra de un cavernícola. La confluencia de enormes cantidades de datos
digitales y potencia informática barata ha generado conocimientos fascinantes sobre el comportamiento
humano. Los funcionarios de seguros describen correctamente su negocio como la “transferencia de riesgo”,
por lo que deberían comprender mejor los riesgos que se les transfieren.
Empresas como Allstate se dedican a conocer cosas que de otro modo podrían parecer trivialidades aleatorias:
• Los conductores de entre veinte y veinticuatro años son los que tienen más probabilidades de verse
involucrados en un
accidente fatal. • El automóvil más comúnmente robado en Illinois es el Honda Civic (a diferencia de
las camionetas Chevrolet de tamaño completo en *
Alabama). • Enviar mensajes de texto mientras se conduce provoca accidentes, pero las leyes
estatales que prohíben esta práctica no parecen impedir que los conductores lo hagan. De hecho,
dichas leyes podrían incluso empeorar las cosas al incitar a los conductores a ocultar sus teléfonos y,
por lo tanto, apartar la vista de la carretera mientras envían mensajes de texto.
Las compañías de tarjetas de crédito están a la vanguardia de este tipo de análisis, tanto porque conocen
muchos datos sobre nuestros hábitos de gasto como porque su modelo de negocios depende en gran medida
de encontrar clientes que apenas representan un buen riesgo crediticio. (Los clientes que presentan los
mayores riesgos crediticios tienden a ser perdedores porque pagan sus facturas en su totalidad cada mes;
los clientes que tienen grandes saldos a altas tasas de interés son los que generan grandes ganancias,
siempre y cuando no incumplan sus pagos). .) Uno de los estudios más intrigantes sobre quién es probable
que pague una factura y quién probablemente se vaya fue realizado por JP Martin, “un ejecutivo amante de
las matemáticas” de Canadian Tire, un gran minorista que vende una amplia gama de 13 Cuando Martin
analizó los datos: productos automotrices y otros bienes minoristas. cada transacción realizada con una
anterior: descubrió que lo que compraban los clientes era tarjeta de crédito de Canadian Tire del año
un predictor notablemente preciso de su comportamiento de pago posterior cuando se usaba junto con
herramientas tradicionales como ingresos e historial crediticio.
Un artículo de la revista New York Times titulado “¿Qué sabe sobre usted su compañía de tarjetas de
crédito?” describió algunos de los más intrigantes de Martin
Machine Translated by Google
Hallazgos: “Las personas que compraron aceite automotriz genérico y barato tenían muchas más
probabilidades de no realizar un pago con tarjeta de crédito que alguien que compró aceite caro y
de marca. Las personas que compraron monitores de monóxido de carbono para sus hogares o
esas pequeñas almohadillas de fieltro que evitan que las patas de las sillas rayen el suelo casi
nunca dejaron de pagar. Cualquiera que comprara un accesorio para automóvil con una calavera
cromada o un 'sistema de escape Mega Thruster' era muy probable que eventualmente no pagara
su factura”.
La probabilidad nos brinda herramientas para enfrentar las incertidumbres de la vida. No deberías
jugar a la lotería. Deberías invertir en el mercado de valores si tienes un horizonte de inversión a
largo plazo (porque las acciones suelen tener los mejores rendimientos a largo plazo). Deberías
contratar un seguro para algunas cosas, pero no para otras. La probabilidad puede incluso ayudarle
a maximizar sus ganancias en programas de juegos (como se mostrará en el próximo capítulo).
Dicho esto (o escrito), la probabilidad no es determinista. No, no deberías comprar un billete de
lotería, pero aun así podrías ganar dinero si lo haces. Y sí, la probabilidad puede ayudarnos a
atrapar a tramposos y delincuentes, pero cuando se usa de manera inapropiada también puede
enviar a personas inocentes a la cárcel. Por eso tenemos el Capítulo 6.
* Tengo en mente “El Hombre Seis Sigma”. La letra griega minúscula sigma, σ, representa la desviación estándar.
Six Sigma Man está seis desviaciones estándar por encima de la norma en términos de capacidad estadística, fuerza e inteligencia.
† Para todos
estos cálculos, he utilizado una práctica calculadora binomial en línea, en http://stattrek.com/Tables/Binomial.aspx.
* La NASA también señaló que incluso los desechos espaciales que caen son propiedad del gobierno. Aparentemente es ilegal
conservar un souvenir satelital, incluso si aterriza en su patio trasero.
† Los cálculos de Levitt y Dubner son los siguientes. Cada año, aproximadamente 550 niños menores de diez años se ahogan y
175 niños menores de diez años mueren en accidentes con armas de fuego. Las tasas que comparan son 1 ahogamiento por
cada 11.000 piscinas residenciales en comparación con 1 muerte por arma de fuego por “más de un millón” de armas. Para los
adolescentes, sospecho que las cifras pueden cambiar drásticamente, porque saben nadar mejor y porque tienen más
probabilidades de causar una tragedia si se topan con un arma cargada. Sin embargo, no he comprobado los datos sobre este punto.
* Hay 6 formas de tirar un 7 con dos dados: (1,6); (2,5); (3,4); (6,1); (5,2); y (4,3). Sólo hay 2 formas de lanzar un 11: (5,6) y (6,5).
Mientras tanto, hay 36 lanzamientos posibles en total con dos dados: (1,1); (1,2); (1,3); (1,4); (1,5); (1,6). Y (2,1); (2,2); (2,3);
(2,4); (2,5); (2,6). Y (3,1); (3,2); (3,3); (3,4); (3,5); (3,6). Y (4,1); (4,2); (4,3); (4,4); (4,5); (4,6). Y (5,1); (5,2); (5,3); (5,4); (5,5); (5,6).
Y, finalmente, (6,1); (6,2); (6,3); (6,4); (6,5); y (6,6).
Así, la probabilidad de sacar un 7 o un 11 es el número de formas posibles de tirar cualquiera de esos dos números dividido
por el número total de tiros posibles con dos dados, que es 8/36. Por cierto, gran parte de las investigaciones anteriores sobre
probabilidad fueron realizadas por jugadores para determinar exactamente este tipo de cosas.
* El valor total esperado para el boleto de $1 del Illinois Dugout Doubler (redondeado al centavo más cercano) es el siguiente: 1/15
($2) + 1/42.86 ($4) + 1/75 ($5) + 1/200 ($10) + 1/300 ($25) + 1/1.589,40 ($50) + 1/8.000 ($100) + 1/16.000 ($200) + 1/48.000
($500) + 1/40.000 ($1.000) = $0,13 + $0,09 + $0,07 + $0,05 + $0,08 + $0,03 + $0,01 + $0,01 + $0,01 + $0,03 = $0,51. Sin embargo,
también hay una probabilidad de 1/10 de obtener un boleto gratis, que tiene un pago esperado de $0,51, por lo que el pago
esperado general es $0,51 + 0,1 ($0,51) = $0,51 + $. 05 = $.56.
* Anteriormente en el libro utilicé un ejemplo que involucraba a empleados borrachos que producían impresoras láser defectuosas.
Deberá olvidar ese ejemplo aquí y asumir que la empresa ha solucionado sus problemas de calidad.
* Ya que le he advertido que sea riguroso con las estadísticas descriptivas, me siento obligado a señalar que el automóvil más
comúnmente robado no es necesariamente el tipo de automóvil que tiene más probabilidades de ser robado. Un alto
Machine Translated by Google
varios Honda Civics son reportados como robados porque hay muchos en la carretera; las posibilidades de que roben
a cualquier Honda Civic (que es lo que les importa a las compañías de seguros de automóviles) pueden ser bastante
bajas. Por el contrario, incluso si el 99 por ciento de todos los Ferrari fueran robados, Ferrari no figuraría en la lista de
“los más comúnmente robados”, porque no hay muchos para robar.
Machine Translated by Google
CAPÍTULO 5½
El “problema de Monty Hall” es un famoso enigma relacionado con la probabilidad que enfrentan
participantes en el programa de juegos Let's Make a Deal, que se estrenó en los Estados Unidos
en 1963 y todavía se transmite en algunos mercados de todo el mundo. (Recuerdo haber visto
el programa cada vez que estaba enfermo en casa desde la escuela primaria). El regalo del
programa para los estadísticos se describió en la introducción. Al final del programa de cada
día, se invitó a un concursante a pararse junto al presentador Monty Hall frente a tres puertas
grandes: Puerta no. 1, puerta núm. 2, y Puerta núm. 3. Monty le explicó al concursante que
había un premio muy deseable detrás de una de las puertas y una cabra detrás de las otras dos
puertas. El jugador elegía una de las tres puertas y obtenía como premio lo que hubiera detrás.
(No sé si los participantes realmente se quedaron con la cabra; para nuestros propósitos,
supongamos que la mayoría de los jugadores prefirieron el auto nuevo).
La probabilidad inicial de ganar era sencilla. Había dos cabras y un coche. Mientras el
participante estaba frente a las puertas con Monty, tenía una probabilidad de 1 entre 3 de elegir
la puerta que se abriría para revelar el auto. Pero como se señaló anteriormente, Let's Make a
Deal tuvo un giro, razón por la cual el programa y su presentador han sido inmortalizados en la
literatura sobre probabilidad. Después de que el concursante eligiera una puerta, Monty abría
una de las dos puertas que el concursante no había elegido, siempre revelando una cabra. En
ese momento, Monty le preguntaría al concursante si le gustaría cambiar su elección: pasar de
la puerta cerrada que había elegido originalmente a la otra puerta cerrada que quedaba.
¿Debería cambiar?
Sí. El concursante tiene 1/3 de posibilidades de ganar si mantiene su inicial.
Machine Translated by Google
La respuesta está en el hecho de que Monty Hall sabe qué hay detrás de cada puerta. Si el
concursante elige la Puerta no. 1 y hay un auto detrás, entonces Monty puede abrir el no. 2 o
no. 3 para mostrar una cabra.
Si el concursante elige la Puerta no. 1 y el coche está detrás del no. 2, luego Monty abre el
no. 3.
Si el concursante elige la Puerta no. 1 y el coche está detrás del no. 3, luego Monty abre el
no. 2.
Al cambiar después de abrir una puerta, el concursante obtiene el beneficio de elegir dos
puertas en lugar de una. Intentaré persuadirle de tres maneras diferentes de que este análisis
es correcto.
El primero es empírico. En 2008, el columnista del New York Times, John Tierney, escribió
sobre el fenómeno Monty Hall. característica1 que The Times luego construyó un sitio interactivo.
que te permite jugar el juego tú mismo, incluida la decisión de cambiar o no. (Incluso hay cabritos
y autos que salen detrás de las puertas). El juego realiza un seguimiento de tu éxito cuando
cambias de puerta después de tomar tu decisión inicial en comparación con cuando no lo haces.
Inténtalo tú mismo. *
Le pagué a uno de mis hijos para que jugara 100 veces, cambiando cada vez. Le pagué a su hermano
para que jugara 100 veces sin cambiar. El que cambió ganó 72 veces; el que no cambió ganó 33 veces.
Ambos recibieron dos dólares por su esfuerzo.
Los datos de los episodios de Let's Make a Deal sugieren lo mismo.
Según Leonard Mlodinow, autor de The Drunkard's Walk, los concursantes que cambiaron su
elección ganaron aproximadamente el doble que los que lo hicieron.
2 no.
Mi segunda explicación llega a la intuición. Supongamos que las reglas se modificaron
ligeramente. Supongamos que el concursante comienza eligiendo una de las tres puertas: no. 1,
núm. 2, o no. 3, tal como se juega normalmente. Pero luego, antes de que se abra cualquier
puerta para revelar una cabra, Monty dice: "¿Te gustaría renunciar a tu elección a cambio de las
otras dos puertas que no elegiste?"
Entonces, si eligió la Puerta no. 1, podrías deshacerte de esa puerta a cambio de lo que hay
detrás del no. 2 y núm. 3. Si eligió no. 3, podrías cambiar al no. 1 y núm. 2.
Etcétera.
Machine Translated by Google
Esa no sería una decisión particularmente difícil. Evidentemente deberás ceder una puerta a
cambio de dos, ya que aumenta tus posibilidades de ganar de 1/3 a 2/3. Aquí está la parte
intrigante: eso es exactamente lo que Monty Hall te permite hacer en el juego real después de
revelar la cabra. La idea fundamental es que si tuvieras que elegir dos puertas, una de ellas
siempre tendría una cabra detrás. Cuando abre una puerta para revelar una cabra antes de
preguntarte si quieres cambiar, ¡te está haciendo un gran favor! Está diciendo (de hecho): "Hay
dos tercios de posibilidades de que el auto esté detrás de una de las puertas que no elegiste, y
mira, ¡no es esa!".
Piénsalo de esta manera. Supongamos que eligió la puerta no. 1. Monty luego te ofrece la opción
de tomar las Puertas 2 y 3. Aceptas la oferta, renuncias a una puerta y obtienes dos, lo que significa
que puedes esperar razonablemente ganar el auto 2/3 de las veces. En ese momento, ¿qué pasaría
si Monty abriera la puerta núm. 3—una de tus puertas—para revelar una cabra? ¿Debería sentirse
menos seguro de su decisión? Por supuesto que no. Si el coche estuviera detrás del no. 3, habría
abierto el no. 2! No te ha mostrado nada.
Cuando el juego se juega normalmente, Monty realmente te da a elegir entre la puerta que elegiste
originalmente y las otras dos puertas, de las cuales solo una podría tener un auto detrás. Cuando
abre una puerta para revelar una cabra, simplemente te está teniendo la cortesía de mostrarte cuál
de las otras dos puertas no tiene el auto. Tienes la misma probabilidad de ganar en los dos escenarios
siguientes: 1. Eligiendo la Puerta no. 1, luego acepta cambiar a la Puerta no. 2 y Puerta núm. 3 antes
de abrir cualquier puerta.
2. Eligiendo la puerta no. 1, luego acepta cambiar a la Puerta no. 2 después de que Monty
revela una cabra detrás de la puerta núm. 3 (o elegir el número 3 después de revelar una cabra
detrás del número 2).
En ambos casos, cambiar te da la ventaja de tener dos puertas en lugar de una y, por lo tanto, puedes
duplicar tus posibilidades de ganar, de 1/3 a 2/3.
tener el coche detrás de ellos. Sólo hay una probabilidad de 1 entre 100 de que su elección original
fuera correcta (n.° 47). Hay una probabilidad de 99 entre 100 de que su elección original no fuera
correcta. Y si su elección original no fue correcta, entonces el auto está detrás de la otra puerta, no.
61. Si quieres ganar 99 de 100 veces, debes cambiar al no. 61.
En resumen, si alguna vez eres concursante de Let's Make a Deal, definitivamente deberías cambiar
de puerta cuando Monty Hall (o su reemplazo) te dé la opción. La lección más aplicable es que su
instinto sobre la probabilidad a veces puede desviarlo.
CAPÍTULO 6
Las estadísticas no pueden ser más inteligentes que las personas que las utilizan. y en algunos
En algunos casos, pueden hacer que personas inteligentes hagan cosas tontas. Uno de los
usos más irresponsables de las estadísticas en la memoria reciente involucró el mecanismo
para medir el riesgo en Wall Street antes de la crisis financiera de 2008. En ese momento, las
empresas de toda la industria financiera utilizaban un barómetro común de riesgo, el modelo
de Valor en Riesgo o VaR. En teoría, el VaR combinaba la elegancia de un indicador (reunir
mucha información en un solo número) con el poder de la probabilidad (asociar una ganancia o
pérdida esperada a cada uno de los activos o posiciones comerciales de la empresa). El modelo
asumió que existe una variedad de resultados posibles para cada una de las inversiones de la
empresa. Por ejemplo, si la empresa posee acciones de General Electric, el valor de esas
acciones puede subir o bajar. Cuando se calcula el VaR para un período corto de tiempo,
digamos, una semana, el resultado más probable es que las acciones tengan aproximadamente
el mismo valor al final de ese período que tenían al principio. Hay menos posibilidades de que
las acciones suban o bajen un 10 por ciento. Y una probabilidad aún menor de que suban o
bajen un 25 por ciento, y así sucesivamente.
Sobre la base de datos anteriores sobre los movimientos del mercado, los expertos
cuantitativos de la empresa (a menudo llamados “quants” en la industria y “nerds ricos” en
cualquier otro lugar) podrían asignar una cifra en dólares, digamos 13 millones de dólares, que
representaba el máximo que la empresa podía perder. en esa posición durante el período de
tiempo que se examina, con un 99 por ciento de probabilidad. En otras palabras, 99 de cada 100
veces la empresa no perdería más de 13 millones de dólares en una posición comercial concreta;
1 vez de cada 100, lo haría.
Recuerda esa última parte, porque pronto será importante.
Antes de la crisis financiera de 2008, las empresas confiaban en el modelo VaR para
cuantificar su riesgo general. Si un solo comerciante tuviera 923 posiciones abiertas diferentes
(inversiones que podrían subir o bajar de valor), cada una de esas inversiones podría evaluarse
como se describió anteriormente para las acciones de General Electric; a partir de ahí, se
podría calcular el riesgo total de la cartera del comerciante. La fórmula incluso tuvo en cuenta
Machine Translated by Google
en cuenta las correlaciones entre diferentes posiciones. Por ejemplo, si dos inversiones tuvieran rendimientos
esperados que estuvieran correlacionados negativamente, una pérdida en una probablemente habría sido
compensada por una ganancia en la otra, lo que haría que las dos inversiones juntas fueran menos riesgosas
que cualquiera de ellas por separado. En general, el jefe de la mesa de operaciones sabría que el operador
de bonos Bob Smith tiene un VaR de 24 horas (el valor en riesgo durante las próximas 24 horas) de 19
millones de dólares, nuevamente con una probabilidad del 99 por ciento.
Lo máximo que Bob Smith podría perder en las próximas 24 horas sería 19 millones de dólares, 99 de cada
100 veces.
Entonces, mejor aún, el riesgo agregado para la empresa podría calcularse en cualquier momento
llevando el mismo proceso básico un paso más allá. La mecánica matemática subyacente es obviamente
fabulosamente complicada, ya que las empresas tenían una vertiginosa variedad de inversiones en diferentes
monedas, con diferentes cantidades de apalancamiento (la cantidad de dinero que se pidió prestada para
realizar la inversión), negociando en mercados con diferentes grados de liquidez y pronto. A pesar de todo
eso, los directivos de la empresa aparentemente tenían una medida precisa de la magnitud del riesgo que la
empresa había asumido en cualquier momento. Como explicó el ex escritor de negocios del New York
Times, Joe Nocera, “el gran atractivo del VaR, y su gran punto de venta para las personas que no son
cuantitativas, es que expresa el riesgo como un solo número, una cifra en dólares, nada menos”.
perfeccionó el modelo VaR, el cálculo diario del VaR se conocía como el “informe de las 4:15” porque estaría
en los escritorios de los altos ejecutivos todas las tardes a las 4:15, justo después de los mercados financieros
estadounidenses. había cerrado por el día.
Es de suponer que esto fue algo bueno, ya que, en general, más información es mejor, especialmente
cuando se trata de riesgos. Después de todo, la probabilidad es una herramienta poderosa. ¿No es este el
mismo tipo de cálculo que hicieron los ejecutivos de Schlitz antes de gastar mucho dinero en pruebas de
sabor a ciegas en el entretiempo del Super Bowl?
No necesariamente. Al VaR se le ha llamado “potencialmente catastrófico”, “un fraude” y muchas otras
cosas que no caben en un libro familiar sobre estadísticas como este. En particular, se ha culpado al modelo
por el inicio y la gravedad de la crisis financiera. La principal crítica al VaR es que los riesgos subyacentes
asociados con los mercados financieros no son tan predecibles como lanzar una moneda al aire o incluso
una prueba de sabor a ciegas entre dos cervezas. La falsa precisión incorporada en los modelos creó una
falsa sensación de seguridad. El VaR era como un velocímetro defectuoso, lo que podría decirse que es
peor que ningún velocímetro. Si confía demasiado en el velocímetro averiado, no se dará cuenta de otras
señales de que su velocidad no es segura. Por el contrario, si no hay ningún velocímetro, no tienes más
remedio que mirar a tu alrededor en busca de pistas sobre qué tan rápido vas realmente.
Alrededor de 2005, con el VaR cayendo sobre los escritorios a las 4:15 todos los días de la semana, Wall
Machine Translated by Google
Street conducía bastante rápido. Desafortunadamente, hubo dos grandes problemas con los
perfiles de riesgo encapsulados por los modelos VaR. En primer lugar, las probabilidades
subyacentes sobre las que se construyeron los modelos se basaban en movimientos pasados
del mercado; sin embargo, en los mercados financieros (a diferencia de la cata de cerveza), el
futuro no necesariamente se parece al pasado. No había ninguna justificación intelectual para
suponer que los movimientos del mercado entre 1980 y 2005 fueran el mejor predictor de los
movimientos del mercado después de 2005. En cierto modo, esta falta de imaginación se
asemeja a la suposición errónea periódica de los militares de que la próxima guerra se
parecerá a la última. En la década de 1990 y principios de la de 2000, los bancos comerciales
utilizaban modelos de préstamo para hipotecas de viviendas que asignaban probabilidad cero
a grandes caídas en los precios2 de Los
la precios
vivienda.
de la vivienda nunca antes habían caído tanto y
tan rápido como a partir de 2007. Pero eso es lo que pasó. El ex presidente de la Reserva
Federal, Alan Greenspan, explicó a un comité del Congreso después del hecho: “Sin embargo,
todo el edificio intelectual se derrumbó en el verano [de 2007] porque los datos ingresados en
los modelos de gestión de riesgos generalmente cubrían sólo las últimas dos décadas, un
período de euforia. Si, en cambio, los modelos se hubieran adaptado más apropiadamente a
los períodos históricos de tensión, los requisitos de capital habrían sido mucho más altos y el
mundo financiero estaría en mucho mejor forma, en mi opinión”.
3
En segundo lugar, incluso si los datos subyacentes pudieran predecir con precisión el
riesgo futuro, la seguridad del 99 por ciento ofrecida por el modelo VaR era peligrosamente
inútil, porque es el 1 por ciento el que realmente va a arruinarlo. El administrador de fondos de
cobertura, David Einhorn, explicó: "Esto es como una bolsa de aire que funciona todo el
tiempo, excepto cuando tienes un accidente automovilístico". Si una empresa tiene un valor en
riesgo de 500 millones de dólares, eso puede interpretarse en el sentido de que tiene un 99
por ciento de posibilidades de perder no más de 500 millones de dólares durante el período de
tiempo especificado. Bueno, hola, eso también significa que la empresa tiene un 1 por ciento
de posibilidades de perder más de 500 millones de dólares (mucho, mucho más en algunas
circunstancias). De hecho, los modelos no tenían nada que decir sobre lo malo que podría
resultar ese escenario del 1 por ciento. Se dedicó muy poca atención al “riesgo de cola”, el
pequeño riesgo (llamado así por la cola de la distribución) de algún resultado catastrófico. (Si
conduce a casa desde un bar con un nivel de alcohol en sangre de 0,15, probablemente hay
menos de un 1 por ciento de posibilidades de sufrir un accidente y morir; eso no significa que
sea algo sensato). Muchas empresas agravaron este error. haciendo suposiciones poco
realistas sobre su preparación para eventos raros. El ex secretario del Tesoro, Hank Paulson,
ha explicado que muchas empresas asumieron que podrían obtener efectivo en caso de
4 activos. necesidad vendiendo. Pero durante una crisis, todas las demás empresas también
necesitan efectivo, por lo que todas intentan vender el mismo tipo de activos. Es el equivalente en gestión de
Machine Translated by Google
No necesito abastecerme de agua porque si hay un desastre natural, simplemente iré al supermercado y
compraré un poco”. Por supuesto, después de que un asteroide golpea tu ciudad, otras cincuenta mil
personas también intentan comprar agua; Cuando llegas al supermercado, los cristales están rotos y los
estantes vacíos.
El hecho de que nunca hayas contemplado que tu ciudad podría ser aplastada por un asteroide masivo
fue exactamente el problema con el VaR. Aquí está nuevamente el columnista del New York Times Joe
Nocera, resumiendo los pensamientos de Nicholas Taleb, autor de The Black Swan: The Impact of the Highly
Improbable y un crítico mordaz del VaR: “Los mayores riesgos nunca son los que se pueden ver y medir, sino
los que no puedes ver y por lo tanto nunca puedes medir. Aquellos que parecen estar tan fuera de los límites
de la probabilidad normal que no puedes imaginar que puedan suceder durante tu vida... aunque, por
supuesto, suceden, con más frecuencia de lo que te imaginas.
En cierto modo, la debacle del VaR es lo opuesto al ejemplo de Schlitz del capítulo 5. Schlitz operaba con
una distribución de probabilidad conocida.
Cualquiera que fuera el dato que tenía la compañía sobre la probabilidad de que los catadores ciegos eligieran
a Schlitz era una buena estimación de cómo se comportarían catadores similares en vivo en el entretiempo.
Schlitz incluso solucionó su inconveniente realizando toda la prueba en hombres que dijeron que les gustaban
más las otras cervezas. Incluso si no más de veinticinco bebedores de Michelob eligieran Schlitz (un resultado
casi increíblemente bajo), Schlitz aún podría afirmar que uno de cada cuatro bebedores de cerveza debería
considerar cambiar. Quizás lo más importante es que todo esto era sólo cerveza, no el sistema financiero
global. Los cuantitativos de Wall Street cometieron tres errores fundamentales. Primero, confundieron
precisión con exactitud. Los modelos VaR eran como mi telémetro de golf cuando estaba configurado en
metros en lugar de yardas: exactos e incorrectos. La falsa precisión llevó a los ejecutivos de Wall Street a
creer que tenían el riesgo bajo control cuando en realidad no era así.
En segundo lugar, las estimaciones de las probabilidades subyacentes eran erróneas. Como señaló Alan
Greenspan en un testimonio citado anteriormente en este capítulo, las décadas relativamente tranquilas y
prósperas anteriores a 2005 no deberían haberse utilizado para crear distribuciones de probabilidad de lo que
podría suceder en los mercados en las décadas siguientes. Esto es el equivalente a entrar a un casino y
pensar que ganará en la ruleta el 62 por ciento de las veces porque eso fue lo que sucedió la última vez que
jugó. Sería una velada larga y cara. En tercer lugar, las empresas descuidaron su “riesgo de cola”. Los
modelos VaR predijeron lo que sucedería 99 de cada 100 veces. Así es como funciona la probabilidad (como
se enfatizará repetidamente en la segunda mitad del libro). Suceden cosas improbables. De hecho, durante
un período de tiempo suficientemente largo, ni siquiera son tan improbables. A la gente le cae un rayo todo
el tiempo. Mi madre ha tenido tres agujeros en uno.
contribuyó a la contracción financiera mundial más grave desde la Gran Depresión. La crisis que
comenzó en 2008 destruyó billones de dólares en riqueza en Estados Unidos, elevó el desempleo
a más del 10 por ciento, creó oleadas de ejecuciones hipotecarias y quiebras de empresas, y cargó
con enormes deudas a los gobiernos de todo el mundo mientras luchaban por contener el daño
económico. Este es un resultado tristemente irónico, dado que herramientas sofisticadas como el
VaR fueron diseñadas para mitigar el riesgo.
Suponer que los eventos son independientes cuando no lo son. La probabilidad de que salga cara
con una moneda justa es ½. La probabilidad de que salgan dos caras seguidas es (½) o ¼, ya que
2
, que ocurran dos eventos independientes es el producto de sus probabilidades
la probabilidad de
individuales. Ahora que cuenta con este poderoso conocimiento, supongamos que lo han ascendido
a jefe de gestión de riesgos en una importante aerolínea. Su asistente le informa que la probabilidad
de que el motor de un avión falle por cualquier motivo durante un vuelo transatlántico es de 1 entre
100.000. Dado el número de vuelos transatlánticos, este no es un riesgo aceptable. Afortunadamente,
cada avión que realiza un viaje de este tipo tiene al menos dos motores.
Su asistente ha calculado que el riesgo de que ambos motores se apaguen sobre el Atlántico debe
2
ser (1/100.000) o 1 entre 10 mil millones, ,lo cual es un riesgo de seguridad razonable. Este sería
un buen momento para decirle a su asistente que agote sus días de vacaciones antes de que lo
despidan. Los dos fallos de motor no son acontecimientos independientes. Si un avión atraviesa
una bandada de gansos durante el despegue, es probable que ambos motores se vean
comprometidos de manera similar. Lo mismo ocurriría con muchos otros factores que afectan el
rendimiento de un motor a reacción, desde el clima hasta el mantenimiento inadecuado. Si un
motor falla, la probabilidad de que falle el segundo motor será significativamente mayor que 1 entre
100.000.
¿Parece esto obvio? No fue obvio durante la década de 1990, cuando los fiscales británicos
cometieron un grave error judicial debido a un uso inadecuado de la probabilidad. Al igual que en
el ejemplo hipotético del motor a reacción, el error estadístico fue suponer que varios eventos eran
independientes (como lanzar una moneda al aire) en lugar de dependientes (cuando un determinado
resultado hace que un resultado similar sea más probable en el futuro). Sin embargo, este error
fue real y personas inocentes
Machine Translated by Google
El error surgió en el contexto del síndrome de muerte súbita del lactante (SMSL), un fenómeno
en el que un bebé perfectamente sano muere en su cuna. (Los británicos se refieren al SMSL como
“muerte súbita”). El SMSL era un misterio médico que atrajo más atención a medida que las muertes
infantiles por otras causas se volvieron menos comunes. Estas muertes infantiles eran * Porque
tan misteriosas y poco comprendidas que generaban sospechas. A veces esa sospecha estaba
justificada. El SMSL se utilizó en ocasiones para encubrir la negligencia o el abuso de los padres;
un examen post mortem no necesariamente puede distinguir las muertes naturales de aquellas en
las que hay un acto sucio. Los fiscales y tribunales británicos se convencieron de que una forma de
separar los delitos de las muertes naturales sería centrarse en las familias en las que se produjeron
múltiples muertes súbitas. Sir Roy Meadow, un destacado pediatra británico, fue un testigo experto
frecuente en este punto. Como explica la revista británica The Economist : “Lo que se conoció como
la Ley de Meadow (la idea de que una muerte infantil es una tragedia, dos son sospechosas y tres
son un asesinato) se basa en la noción de que si un evento es raro, dos o más casos de ello en la
misma familia son tan improbables que es poco probable que sean resultado del azar”. 5 Sir Meadow
explicó a los jurados que la probabilidad de que en una familia dos bebés murieran repentinamente
por causas naturales era extraordinaria: 1 entre 73 millones. Explicó el cálculo: dado que la incidencia
de una muerte súbita es rara, 1 entre 8.500, la probabilidad de tener dos muertes súbitas en la
misma familia sería (1/8.500), es decir, aproximadamente 1 entre 73 millones. Esto apesta a juego
sucio. Eso es lo que decidieron los jurados, enviando a muchos padres a prisión basándose en este
testimonio sobre las estadísticas de muertes en cuna (a menudo sin ninguna evidencia2médica que
corrobore el abuso o la negligencia). En algunos casos, los bebés fueron separados de sus padres
al nacer debido a la muerte inexplicable de un hermano.
Hay un error obvio en este razonamiento, como ha señalado la Royal Statistical Society,
protectora de su tema ridiculizado. El cálculo de probabilidad funciona bien, siempre que sea
seguro que las muertes en la cuna son completamente aleatorias y no están vinculadas por
algún factor desconocido. Pero con algo tan misterioso como las muertes súbitas, es muy
posible que exista un vínculo: algo genético, por ejemplo, que haría que una familia que
hubiera sufrido una muerte súbita tuviera más probabilidades, no menos, de sufrir otra. Y
desde que esas mujeres fueron condenadas, los científicos han estado sugiriendo que tal vez
exista ese vínculo.
cuyos padres habían sido condenados por asesinar a sus hijos pequeños.
No entender cuando los eventos SON independientes. Un tipo diferente de error ocurre cuando
eventos que son independientes no se tratan como tales. Si te encuentras en un casino (un
lugar, estadísticamente hablando, al que no deberías ir), verás gente mirando con nostalgia los
dados o las cartas y declarando que “están vencidos”. Si la bola de la ruleta ha caído en negro
cinco veces seguidas, es evidente que ahora debe salir en rojo. ¡No no no! La probabilidad de
que la bola caiga en un número rojo se mantiene sin cambios: 16/38. Por el contrario, esta
creencia a veces se denomina "falacia del jugador". De hecho, si lanzas una moneda normal
1.000.000 de veces y obtienes 1.000.000 de caras seguidas, la probabilidad de obtener cruz en
el siguiente lanzamiento sigue siendo ½. La definición misma de independencia estadística entre
dos eventos es que el resultado de uno no tiene efecto sobre el resultado del otro. Incluso si las
estadísticas no le parecen convincentes, podría preguntarse acerca de la física: ¿Cómo es
posible que al lanzar una serie de cruces seguidas sea más probable que la moneda salga cara
en el siguiente lanzamiento?
Incluso en los deportes, la noción de rachas puede resultar ilusoria. Uno de los artículos
académicos más famosos e interesantes relacionados con la probabilidad refuta la noción común
de que los jugadores de baloncesto periódicamente desarrollan una racha de buenos tiros
durante un juego, o “una mano caliente”. Ciertamente, la mayoría de los fanáticos de los deportes
dirían que un jugador que hace un tiro tiene más probabilidades de realizar el siguiente tiro que
un jugador que acaba de fallar. No, según una investigación de Thomas Gilovich, Robert Vallone
6
y Amos Tversky, quienes probaron la mano caliente de tres maneras diferentes. Primero,
analizaron datos de tiros de los partidos en casa de los Philadelphia 76ers durante la temporada
198081. (En ese momento, no había datos similares disponibles para otros equipos de la NBA).
No encontraron "ninguna evidencia de una correlación positiva entre los resultados de tiros
sucesivos". En segundo lugar, hicieron lo mismo con los datos de tiros libres de los Boston
Celtics, que produjeron el mismo resultado. Y por último, hicieron un experimento controlado con
miembros de los equipos de baloncesto masculino y femenino de Cornell.
Los jugadores acertaron un promedio del 48 por ciento de sus tiros de campo después de realizar
su último tiro y el 47 por ciento después de fallar. Para catorce de veintiséis jugadores, la
correlación entre realizar un tiro y luego realizar el siguiente fue negativa.
Sólo un jugador mostró una correlación positiva significativa entre un tiro y el siguiente.
Eso no es lo que te dirán la mayoría de los fanáticos del baloncesto. Por ejemplo, el 91 por
ciento de los aficionados al baloncesto encuestados en Stanford y Cornell por los autores del
artículo estuvieron de acuerdo con la afirmación de que un jugador tiene más posibilidades de
realizar su próximo tiro después de realizar sus últimos dos o tres tiros que después de fallar el
último. dos o tres disparos. La importancia del papel de “mano caliente” radica en la diferencia
Machine Translated by Google
entre la percepción y la realidad empírica. Los autores señalan: "Las concepciones intuitivas que la gente
tiene sobre la aleatoriedad se apartan sistemáticamente de las leyes del azar". Vemos patrones donde en
realidad puede que no exista ninguno.
Como grupos de cáncer.
Los grupos ocurren. Probablemente haya leído la historia en el periódico, o tal vez haya visto la noticia: un
número estadísticamente improbable de personas en un área particular ha contraído una forma rara de
cáncer. Debe ser el agua, o la central eléctrica local, o la torre de telefonía móvil. Por supuesto, cualquiera de
esas cosas realmente podría estar causando resultados adversos para la salud. (En capítulos posteriores se
explorará cómo las estadísticas pueden identificar tales relaciones causales.) Pero este grupo de casos
también puede ser producto de pura casualidad, incluso cuando el número de casos parece altamente
improbable. Sí, la probabilidad de que cinco personas en la misma escuela, iglesia o lugar de trabajo
contraigan la misma forma rara de leucemia puede ser de una entre un millón, pero hay millones de escuelas,
iglesias y lugares de trabajo. No es muy improbable que cinco personas contraigan la misma forma rara de
leucemia en uno de esos lugares. Simplemente no pensamos en todas las escuelas, iglesias y lugares de
trabajo donde esto no ha sucedido. Para usar una variación diferente del mismo ejemplo básico, la probabilidad
de ganar la lotería puede ser de 1 entre 20 millones, pero a ninguno de nosotros le sorprende que alguien
gane, porque se han vendido millones de boletos. (A pesar de mi aversión general a las loterías, admiro el
eslogan de Illinois: "Alguien va a ganar la lotería, bien podrías ser tú").
Aquí hay un ejercicio que hago con mis alumnos para plantear el mismo punto básico.
Cuanto más grande sea la clase, mejor funciona. Les pido a todos en la clase que saquen una moneda y se
pongan de pie. Todos lanzamos la moneda; cualquiera que voltee la cabeza debe sentarse.
Suponiendo que empecemos con 100 estudiantes, aproximadamente 50 se sentarán después del primer giro.
Luego lo volvemos a hacer, después de lo cual quedan unos 25 en pie. Etcétera. La mayoría de las veces,
habrá un estudiante al final que haya volteado cinco o seis colas seguidas. En ese momento, le hago
preguntas al estudiante como "¿Cómo lo hiciste?" y "¿Cuáles son los mejores ejercicios de entrenamiento
para voltear tantas colas seguidas?" o "¿Existe alguna dieta especial que te haya ayudado a lograr este
impresionante logro?" Estas preguntas provocan risas porque la clase acaba de observar cómo se desarrolla
todo el proceso; saben que el estudiante que lanzó seis cruces seguidas no tiene ningún talento especial para
lanzar monedas. Él o ella resultó ser quien terminó con muchas colas. Sin embargo, cuando vemos un evento
anómalo como ese fuera de contexto, asumimos que algo más que la aleatoriedad debe ser responsable.
La falacia del fiscal. Suponga que escucha un testimonio ante el tribunal en el sentido siguiente: (1) una
muestra de ADN encontrada en la escena de un crimen coincide con una muestra tomada
Machine Translated by Google
del demandado; y (2) sólo hay una posibilidad entre un millón de que la muestra recuperada en la
escena del crimen coincida con la de alguien además del acusado.
(A efectos de este ejemplo, puede suponer que las probabilidades de la fiscalía son correctas). Con
base en esa evidencia, ¿votaría usted a favor de la condena?
Reversión a la media (o regresión a la media). Quizás hayas oído hablar del maleficio de Sports
Illustrated , mediante el cual los atletas o equipos individuales que aparecen en la portada de Sports
Illustrated ven posteriormente caer su rendimiento. Una explicación es que aparecer en la portada de
la revista tiene algún efecto adverso en el desempeño posterior. La explicación estadísticamente más
sólida es que los equipos y los atletas aparecen en su portada después de algún período
anormalmente bueno (como una racha de veinte victorias consecutivas) y que su desempeño
posterior simplemente regresa a lo normal o a la media. Este es el fenómeno conocido como
reversión a la media. La probabilidad nos dice que cualquier valor atípico (una observación que esté
particularmente alejada de la media en una dirección u otra) probablemente sea seguido por
resultados que sean más consistentes con el promedio de largo plazo.
Machine Translated by Google
La vuelta a la media puede explicar por qué los Cachorros de Chicago siempre parecen pagar
salarios enormes a los agentes libres que posteriormente decepcionan a los fanáticos como yo.
Los jugadores pueden negociar salarios enormes con los Cachorros después de una o dos
temporadas excepcionales. Ponerse un uniforme de los Cachorros no necesariamente empeora a
estos jugadores (aunque no necesariamente lo descartaría); más bien, los Cachorros pagan
mucho dinero por estas superestrellas al final de un período excepcional (uno o dos años atípicos)
después del cual su desempeño para los Cachorros vuelve a algo más cercano a la normalidad.
El mismo fenómeno puede explicar por qué los estudiantes que obtienen resultados mucho
mejores de lo normal en algún tipo de prueba obtendrán, en promedio, resultados ligeramente
peores en una nueva prueba, y los estudiantes que obtuvieron resultados peores de lo habitual
tenderán a obtener resultados ligeramente mejores cuando se vuelvan a realizar la prueba. Una
forma de pensar en esta reversión a la media es que el desempeño (tanto mental como físico)
consiste en algún esfuerzo subyacente relacionado con el talento más un elemento de suerte,
buena o mala. (Los estadísticos llamarían a esto error aleatorio). En cualquier caso, aquellos
individuos que se desempeñan muy por encima de la media durante algún período probablemente
hayan tenido la suerte de su lado; aquellos que obtienen resultados muy por debajo de la media
probablemente hayan tenido mala suerte. (En el caso de un examen, piense en los estudiantes
que adivinan bien o mal; en el caso de un jugador de béisbol, piense en un golpe que puede salir
mal o aterrizar con un pie justo para lograr un triple). o termina muy mala suerte (como
inevitablemente sucederá), el desempeño resultante estará más cerca de la media.
Imagínese que estoy tratando de formar un equipo de superestrellas para lanzar monedas
(bajo la impresión errónea de que el talento importa cuando se trata de lanzar monedas). Después
de observar a un estudiante lanzando seis colas seguidas, le ofrezco un contrato de diez años y
50 millones de dólares. No hace falta decir que me decepcionaré cuando este estudiante arroje
sólo el 50 por ciento de cruz en esos diez años.
A primera vista, la reversión a la media puede parecer contraria a la “falacia del jugador”.
Después de que el estudiante lanza seis cruces seguidas, ¿debe lanzar cara o no? La probabilidad
de que saque cara en el siguiente lanzamiento es la misma de siempre: ½. El hecho de que haya
lanzado muchas cruces seguidas no hace que sea más probable que salga cara en el siguiente
lanzamiento. Cada lanzamiento es un evento independiente.
Sin embargo, podemos esperar que los resultados de los lanzamientos subsiguientes sean
consistentes con lo que predice la probabilidad, que es mitad cara y mitad cruz, en lugar de lo que
ha sido en el pasado, que es todo cruz. Es prácticamente seguro que alguien que haya lanzado
todas las colas comenzará a lanzar más caras en los siguientes 10, 20 o 100 lanzamientos. Y
cuantos más cambios, más se parecerá el resultado al resultado medio 5050 que predice la ley
de los grandes números. (O, alternativamente, deberíamos empezar a buscar pruebas de fraude).
Como nota curiosa, los investigadores también han documentado un informe de Businessweek
Machine Translated by Google
fenómeno. Cuando los directores ejecutivos reciben premios de alto perfil, incluido el nombramiento de
uno de los “Mejores Gerentes” de Businessweek , sus empresas posteriormente tienen un desempeño
inferior durante los siguientes tres años, medido tanto por las ganancias contables como por el precio de
las acciones. Sin embargo, a diferencia del efecto Sports Illustrated , este efecto parece ser más que una
reversión a la media. Según Ulrike Malmendier y Geoffrey Tate, economistas de la Universidad de
California en Berkeley y UCLA, respectivamente, cuando los directores ejecutivos alcanzan el estatus de
“superestrella”, se distraen con su nueva prominencia.
7 Escriben sus memorias. Se les invita a sentarse en las juntas
exteriores. Comienzan a buscar esposas trofeo. (Los autores proponen sólo las dos primeras explicaciones,
pero la última también me parece plausible).
Malmendier y Tate escriben: "Nuestros resultados sugieren que la cultura de superestrella inducida por los
medios conduce a distorsiones de comportamiento más allá de la mera reversión a la mala". En otras
palabras, cuando un director ejecutivo aparece en la portada de Businessweek, vende las acciones.
Discriminación estadística. ¿Cuándo está bien actuar sobre la base de lo que la probabilidad nos dice que
es probable que suceda y cuándo no está bien? En 2003, Anna Diamantopoulou, comisaria europea de
Empleo y Asuntos Sociales, propuso una directiva que declaraba que las compañías de seguros no
pueden cobrar tarifas diferentes a hombres y mujeres, porque viola el principio de igualdad de trato de la
Unión Europea.
8 Para las aseguradoras, sin embargo, las primas basadas en el género no
constituyen discriminación; son sólo estadísticas. Los hombres suelen pagar más por el seguro de
automóvil porque tienen más accidentes. Las mujeres pagan más por anualidades (un producto financiero
que paga una suma fija mensual o anual hasta la muerte) porque viven más.
Obviamente, muchas mujeres sufren más accidentes que muchos hombres, y muchos hombres viven más
que muchas mujeres. Pero, como se explicó en el último capítulo, a las compañías de seguros eso no les
importa. Sólo les importa lo que sucede en promedio, porque si lo hacen bien, la empresa ganará dinero.
Lo interesante de la política de la Comisión Europea que prohíbe las primas de seguro basadas en el
género, que se está implementando en 2012, es que las autoridades no pretenden que el género no esté
relacionado con los riesgos asegurados; simplemente están declarando que las tasas dispares basadas
en el sexo son inaceptables.
*
Al principio, eso parece un molesto guiño a la corrección política. Pensándolo bien, no estoy tan seguro.
¿Recuerdas todas esas cosas impresionantes sobre la prevención de delitos antes de que ocurran? La
probabilidad puede llevarnos a algunos lugares intrigantes pero inquietantes a este respecto. ¿Cómo
deberíamos reaccionar cuando nuestros modelos basados en probabilidades nos dicen que los
contrabandistas de metanfetamina de México tienen más probabilidades de ser hombres hispanos de
entre dieciocho y treinta años que conducen camionetas rojas entre las 9:00 pm y la medianoche, cuando
también sabemos que la gran mayoría de Los hombres hispanos que encajan en ese perfil no son
contrabandistas
Machine Translated by Google
El punto más amplio aquí es que nuestra capacidad para analizar datos se ha vuelto mucho
más sofisticada que nuestro pensamiento sobre lo que debemos hacer con los resultados.
Pueden estar de acuerdo o en desacuerdo con la decisión de la Comisión Europea de prohibir
las primas de seguro basadas en el género, pero les prometo que no será la última decisión
complicada de ese tipo. Nos gusta pensar en los números como "hechos fríos y concretos". Si
hacemos bien los cálculos, entonces debemos tener la respuesta correcta. La realidad más
interesante y peligrosa es que a veces podemos hacer los cálculos correctamente y terminar
equivocándonos en una dirección peligrosa. Podemos hacer estallar el sistema financiero o
acosar a un hombre blanco de veintidós años parado en una esquina particular a una hora
particular del día, porque, según nuestro modelo estadístico, es casi seguro que está allí para
comprar drogas. A pesar de toda la elegancia y precisión de la probabilidad, no hay sustituto
para pensar qué cálculos estamos haciendo y por qué los estamos haciendo.
* El SMSL sigue siendo un misterio médico, aunque se han identificado muchos de los factores de riesgo. Por ejemplo, las
muertes infantiles se pueden reducir drásticamente poniéndolos a dormir boca arriba.
Machine Translated by Google
* El cambio de política fue precipitado en última instancia por un fallo de 2011 del Tribunal de Justicia de la Unión Europea
según el cual las primas diferentes para hombres y mujeres constituyen discriminación sexual.
Machine Translated by Google
CAPÍTULO 7
Science. Según esta investigación de vanguardia, cuando las moscas macho de la fruta son rechazadas
repetidamente por las hembras, ahogan sus penas en alcohol.
El New York Times describió el estudio en un artículo de primera plana: “Eran machos jóvenes en ciernes, y
atacaron no una, ni dos, sino una docena de veces con un grupo de hembras atractivas rondando cerca.
Entonces hicieron lo que hacen tantos hombres después de haber sido rechazados repetidamente: se
emborracharon y usaron el alcohol como bálsamo para el deseo insatisfecho”.
1
Esta investigación avanza en nuestra comprensión del sistema de recompensa del cerebro, lo que a su
vez puede ayudarnos a encontrar nuevas estrategias para lidiar con la dependencia de drogas y alcohol. Un
experto en abuso de sustancias describió la lectura del estudio como "mirar hacia atrás en el tiempo, para ver
los orígenes mismos del circuito de recompensa que impulsa conductas fundamentales como el sexo, comer
y dormir".
Como no soy un experto en este campo, tuve dos reacciones ligeramente diferentes al leer sobre las
moscas de la fruta despreciadas. Primero, me hizo sentir nostalgia por la universidad.
En segundo lugar, mi investigador interior empezó a preguntarse cómo se emborrachan las moscas de la
fruta. ¿Hay una barra de moscas de la fruta en miniatura, con una variedad de licores a base de frutas y un
camarero empático contra las moscas de la fruta? ¿Suena música country occidental de fondo? ¿A las
moscas de la fruta les gusta la música country occidental?
Resulta que el diseño del experimento era endiabladamente simple. A un grupo de moscas de la fruta
macho se le permitió aparearse libremente con hembras vírgenes. Otro grupo de machos fue liberado entre
moscas de la fruta hembras que ya se habían apareado y, por tanto, eran indiferentes a las propuestas
amorosas de los machos. Luego se ofrecieron a ambos grupos de moscas de la fruta machos pajitas de
alimentación que ofrecían la posibilidad de elegir entre la comida estándar para moscas de la fruta, levadura
y azúcar, y las "cosas duras": levadura, azúcar y 15 por ciento de alcohol.
Los machos que habían pasado días tratando de aparearse con hembras indiferentes tenían significativamente
más probabilidades de beber alcohol.
A pesar de la ligereza, estos resultados tienen implicaciones importantes para los humanos. Sugieren una
conexión entre el estrés, las respuestas químicas en el cerebro y el apetito por el alcohol. Sin embargo, los
resultados no son un triunfo de las estadísticas. Son un triunfo de los datos, que hicieron que las estadísticas
relativamente básicas
Machine Translated by Google
análisis posible. La genialidad de este estudio fue encontrar una manera de crear un grupo de
moscas de la fruta macho sexualmente saciadas y un grupo de moscas de la fruta macho
sexualmente frustradas, y luego encontrar una manera de comparar sus hábitos de bebida. Una
vez que los investigadores hicieron eso, el cálculo de números no fue más complicado que el de
un proyecto típico de feria de ciencias de la escuela secundaria.
Los datos son para las estadísticas lo que una buena línea ofensiva es para un mariscal de
campo estrella. Delante de cada mariscal de campo estrella hay un buen grupo de bloqueadores.
Generalmente no reciben mucho crédito. Pero sin ellos, nunca verás a un mariscal de campo
estrella. La mayoría de los libros de estadística suponen que se utilizan buenos datos, del mismo
modo que un libro de cocina supone que no se compra carne rancia ni verduras podridas. Pero
ni siquiera la mejor receta va a salvar una comida que comienza con ingredientes en mal estado.
Lo mismo ocurre con las estadísticas; Ningún análisis sofisticado puede compensar datos
fundamentalmente defectuosos. De ahí la expresión “basura que entra, basura que sale”. Los
datos merecen respeto, al igual que los linieros ofensivos.
Generalmente pedimos a nuestros datos que hagan una de tres cosas. Primero, podemos exigir
una muestra de datos que sea representativa de algún grupo o población más grande. Si
intentamos medir las actitudes de los votantes hacia un candidato político en particular,
necesitaremos entrevistar a una muestra de posibles votantes que sean representativos de todos
los votantes en la jurisdicción política relevante. (Y recuerde, no queremos una muestra que sea
representativa de todos los que viven en esa jurisdicción; queremos una muestra de aquellos
que probablemente votarán). Uno de los hallazgos más poderosos en estadística, que se
explicará con mayor profundidad. Lo que veremos en los dos capítulos siguientes es que las
inferencias hechas a partir de muestras razonablemente grandes y correctamente extraídas
pueden ser tan precisas como intentar obtener la misma información de toda la población.
La forma más sencilla de reunir una muestra representativa de una población más grande es
seleccionar aleatoriamente algún subconjunto de esa población. (Sorprendentemente, esto se
conoce como muestra aleatoria simple). La clave de esta metodología es que cada observación
en la población relevante debe tener las mismas posibilidades de ser incluida en la muestra. Si
planea encuestar una muestra aleatoria de 100 adultos en un vecindario con 4,328 residentes
adultos, su metodología debe garantizar que cada uno de esos 4,328 residentes tenga la misma
probabilidad de terminar como uno de los 100 adultos encuestados. Los libros de estadística casi
siempre ilustran este punto sacando canicas de colores de una urna. (De hecho, es el único lugar
donde se ve la palabra “urna” usada con cierta regularidad). Si hay 60.000 canicas azules y
40.000 canicas rojas en una urna gigante, entonces la composición más probable de una muestra
de 100 canicas extraídas Al azar de la urna saldrían 60 canicas azules y 40 canicas rojas. Si
hiciéramos esto más de una vez, obviamente habría desviaciones de una muestra a otra: algunas
podrían tener 62 canicas azules y 38 canicas rojas,
Machine Translated by Google
o 58 azules y 42 rojos. Pero las posibilidades de extraer una muestra aleatoria que se desvíe
enormemente de la composición de las canicas de la urna son muy, muy bajas.
Ahora bien, es cierto que aquí existen algunos desafíos prácticos. La mayoría de las poblaciones
que nos importan tienden a ser más complicadas que una urna llena de canicas. ¿Cómo se
seleccionaría exactamente una muestra aleatoria de la población adulta estadounidense para
incluirla en una encuesta telefónica? Incluso una solución aparentemente elegante como un
marcador telefónico aleatorio tiene fallas potenciales. Es posible que algunas personas
(particularmente las de bajos ingresos) no tengan teléfono. Otros (particularmente las personas de
altos ingresos) pueden ser más propensos a filtrar llamadas y optar por no contestar. El capítulo 10
describirá algunas de las estrategias que utilizan las empresas encuestadoras para superar este
tipo de desafíos de muestreo (la mayoría de los cuales se volvieron aún más complicados con la
llegada de los teléfonos celulares). La idea clave es que una muestra extraída correctamente se
parecerá a la población de la que se extrae. En términos de intuición, uno puede imaginarse probar
una olla de sopa con una sola cucharada. Si ha revuelto la sopa adecuadamente, una sola
cucharada puede indicarle el sabor de toda la olla.
Un texto de estadística incluirá muchos más detalles sobre los métodos de muestreo. Las
empresas encuestadoras y de investigación de mercado dedican sus días a descubrir cómo
obtener buenos datos representativos de diversas poblaciones de la manera más rentable. Por
ahora, usted debe apreciar varias cosas importantes: (1) Una muestra representativa es algo
fabulosamente importante, ya que abre la puerta a algunas de las herramientas más poderosas
que las estadísticas tienen para ofrecer. (2) Obtener una buena muestra es más difícil de lo que
parece. (3) Muchas de las afirmaciones estadísticas más atroces son causadas por buenos
métodos estadísticos aplicados a malas muestras, y no al revés. (4) El tamaño importa y cuanto
más grande, mejor. Los detalles se explicarán en los próximos capítulos, pero debería resultar
intuitivo que una muestra más grande ayudará a suavizar cualquier variación anormal. (Un plato
de sopa será una prueba aún mejor que una cucharada.) Una advertencia crucial es que una
muestra más grande no compensará los errores o “sesgos” en su composición. Una mala muestra
es una mala muestra. Ninguna supercomputadora o fórmula sofisticada va a rescatar la validez de
su encuesta presidencial nacional si los encuestados provienen únicamente de una encuesta
telefónica entre los residentes de Washington, DC. Los residentes de Washington, DC, no votan
como el resto de Estados Unidos; llamar a 100.000 residentes de DC en lugar de a 1.000 no
solucionará ese problema fundamental de su encuesta. De hecho, podría decirse que una muestra
grande y sesgada es peor que una muestra pequeña y sesgada porque dará una falsa sensación
de confianza con respecto a los resultados.
La segunda cosa que a menudo pedimos a los datos es que proporcionen alguna fuente de
comparación. ¿Es un nuevo medicamento más eficaz que el tratamiento actual? ¿Tienen menos
probabilidades de regresar a prisión los ex convictos que reciben capacitación laboral que los ex convictos?
Machine Translated by Google
¿Convictos que no reciben esa formación? ¿Los estudiantes que asisten a escuelas charter
obtienen mejores resultados que estudiantes similares que asisten a escuelas públicas regulares?
En estos casos, el objetivo es encontrar dos grupos de sujetos que sean ampliamente
similares excepto por la aplicación de cualquier “tratamiento” que nos interese. En el contexto
de las ciencias sociales, la palabra "tratamiento" es lo suficientemente amplia como para abarcar
cualquier cosa, desde ser una mosca de la fruta sexualmente frustrada hasta recibir una
devolución del impuesto sobre la renta. Como ocurre con cualquier otra aplicación del método
científico, intentamos aislar el impacto de una intervención o atributo específico. Ésta fue la
genialidad del experimento con la mosca de la fruta. Los investigadores descubrieron una
manera de crear un grupo de control (los machos que se aparearon) y un grupo de "tratamiento"
(los machos que fueron derribados); la diferencia posterior en sus comportamientos con la
bebida puede atribuirse a si fueron despreciados sexualmente o no.
En las ciencias físicas y biológicas, crear grupos de tratamiento y control es relativamente
sencillo. Los químicos pueden hacer pequeñas variaciones de un tubo de ensayo a otro y luego
estudiar la diferencia en los resultados. Los biólogos pueden hacer lo mismo con sus placas de
Petri. Incluso la mayoría de las pruebas con animales son más sencillas que intentar hacer que
las moscas de la fruta beban alcohol. Podemos hacer que un grupo de ratas haga ejercicio
regularmente en una cinta rodante y luego comparar su agudeza mental en un laberinto con el
desempeño de otro grupo de ratas que no hicieron ejercicio. Pero cuando los humanos se
involucran, las cosas se complican más. Un análisis estadístico sólido a menudo requiere un
grupo de tratamiento y de control, pero no podemos obligar a la gente a hacer las cosas que
hacemos que hagan las ratas de laboratorio. (Y a muchas personas no les gusta que ni siquiera
las ratas de laboratorio hagan estas cosas). ¿Las conmociones cerebrales repetidas causan
problemas neurológicos graves en el futuro? Esta es una pregunta realmente importante. El
futuro del fútbol (y quizás de otros deportes) depende de la respuesta. Sin embargo, es una
pregunta que no puede responderse con experimentos en humanos. Entonces, a menos que
podamos enseñar a las moscas de la fruta a usar cascos y ejecutar la ofensiva de propagación,
tenemos que encontrar otras formas de estudiar el impacto a largo plazo del traumatismo craneoencefálico.
Un desafío recurrente en la investigación con sujetos humanos es crear grupos de tratamiento
y control que se diferencien sólo en que un grupo recibe el tratamiento y el otro no. Por esta
razón, el “estándar de oro” de la investigación es la aleatorización, un proceso mediante el cual
sujetos humanos (o escuelas, hospitales o cualquier cosa que estemos estudiando) son
asignados aleatoriamente al grupo de tratamiento o al de control. No asumimos que todos los
sujetos experimentales sean idénticos.
En cambio, la probabilidad se convierte en nuestra amiga (una vez más), y asumimos que la
aleatorización dividirá equitativamente todas las características relevantes entre los dos grupos:
tanto las características que podemos observar, como la raza o los ingresos, como también las
características confusas que no podemos medir o que no hemos tenido. considerados, como la
perseverancia o la fe.
Machine Translated by Google
La tercera razón por la que recopilamos datos es, para citar a mi hija adolescente, "sólo porque sí". A
veces no tenemos una idea específica de qué haremos con la información, pero sospechamos que en
algún momento será útil. Esto es similar a un detective de la escena del crimen que exige que se capturen
todas las pruebas posibles para poder clasificarlas más tarde en busca de pistas. Algunas de estas
pruebas resultarán útiles, otras no. Si supiéramos exactamente qué sería útil, probablemente no
necesitaríamos realizar la investigación en primer lugar.
Probablemente sepa que el tabaquismo y la obesidad son factores de riesgo de enfermedad cardíaca.
Probablemente no sepa que un estudio de larga duración entre los residentes de Framingham,
Massachusetts, ayudó a aclarar esas relaciones. Framingham es una ciudad suburbana de unas 67.000
personas a unas veinte millas al oeste de Boston.
Para los no investigadores, es más conocido como un suburbio de Boston con viviendas a precios
razonables y acceso conveniente al impresionante y exclusivo Natick Mall. Para los investigadores,
Framingham es mejor conocido como el hogar del Framingham Heart Study, uno de los estudios
longitudinales más exitosos e influyentes en la historia de la ciencia moderna.
Un estudio longitudinal recopila información sobre un gran grupo de sujetos en muchos momentos
diferentes, por ejemplo, una vez cada dos años. Los mismos participantes pueden ser entrevistados
periódicamente durante diez, veinte o incluso cincuenta años después de su entrada en el estudio,
creando un tesoro de información notablemente rico. En el caso del estudio de Framingham, los
investigadores recopilaron información sobre 5.209 residentes adultos de Framingham en 1948:
altura, peso, presión arterial, formación académica, estructura familiar, dieta, tabaquismo, consumo
de drogas, etc. Lo más importante es que los investigadores han recopilado datos de seguimiento
de los mismos participantes desde entonces (y también datos sobre sus descendientes, para
examinar los factores genéticos relacionados con las enfermedades cardíacas). Los datos de
Framingham se han utilizado para producir más de dos mil artículos académicos desde 1950,
incluidos casi mil entre 2000 y 2009.
Estos estudios han producido hallazgos cruciales para nuestra comprensión de las enfermedades
cardiovasculares, muchos de los cuales ahora damos por sentado: fumar cigarrillos aumenta el riesgo de
enfermedades cardíacas (1960); la actividad física reduce el riesgo de enfermedades cardíacas y la
obesidad lo aumenta (1967); la presión arterial alta aumenta el riesgo de sufrir un derrame cerebral
(1970); los niveles elevados de colesterol HDL (en adelante conocido como “colesterol bueno”) reducen
el riesgo de muerte (1988); las personas con padres y hermanos que padecen enfermedades
cardiovasculares tienen un riesgo significativamente mayor de padecer la misma (2004 y 2005).
Los conjuntos de datos longitudinales son el equivalente en investigación de un Ferrari. Los datos son
particularmente valiosos cuando se trata de explorar relaciones causales que pueden tardar años o
décadas en desarrollarse. Por ejemplo, el estudio preescolar de Perry comenzó
Machine Translated by Google
a finales de los años 1960 con un grupo de 123 niños afroamericanos de tres y cuatro años
procedentes de familias pobres. Los niños participantes fueron asignados aleatoriamente a un
grupo que recibió un programa preescolar intensivo y un grupo de comparación que no lo recibió.
Luego, los investigadores midieron varios resultados para ambos grupos durante los siguientes
cuarenta años. Los resultados constituyen un argumento convincente a favor de los beneficios de
la educación infantil temprana. Los estudiantes que recibieron la experiencia preescolar intensiva
tenían coeficientes intelectuales más altos a los cinco años. Tenían más probabilidades de
graduarse de la escuela secundaria. Tenían ingresos más altos a los cuarenta años. Por el
contrario, los participantes que no recibieron el programa preescolar tenían significativamente más
probabilidades de haber sido arrestados cinco o más veces antes de los cuarenta años.
No es sorprendente que no siempre podamos tener el Ferrari. El equivalente en investigación
de un Toyota es un conjunto de datos transversales, que es una colección de datos recopilados
en un único momento. Por ejemplo, si los epidemiólogos están buscando la causa de una nueva
enfermedad (o el brote de una antigua), pueden recopilar datos de todos los afectados con la
esperanza de encontrar un patrón que conduzca a la fuente. ¿Qué han comido? ¿Adónde han
viajado? ¿Qué más tienen en común?
Los investigadores también pueden recopilar datos de personas que no padecen la enfermedad
para resaltar los contrastes entre los dos grupos.
De hecho, toda esta interesante charla sobre datos transversales me recuerda la semana
anterior a mi boda, cuando me convertí en parte de un conjunto de datos. Estaba trabajando en
Katmandú, Nepal, cuando di positivo por una enfermedad estomacal poco conocida llamada “algas
verdiazules”, que se había encontrado sólo en dos lugares del mundo. Los investigadores habían
aislado el patógeno que causaba la enfermedad, pero aún no estaban seguros de qué tipo de
organismo era, ya que nunca antes se había identificado. Cuando llamé a casa para informarle a
mi prometida sobre mi diagnóstico, reconocí que había malas noticias. La enfermedad no tenía
medios de transmisión conocidos ni cura conocida y podía causar fatiga extrema y otros efectos
secundarios desagradables durante desde unos pocos días hasta muchos meses.
* Con solo
una semana para la boda, sí, esto podría ser un problema. ¿Tendría control total de mi sistema
digestivo mientras caminaba hacia el altar? Tal vez.
Pero luego traté realmente de concentrarme en las buenas noticias. En primer lugar, se
pensaba que las “algas verdiazules” no eran mortales. Y en segundo lugar, expertos en
enfermedades tropicales de lugares tan lejanos como Bangkok se habían interesado personalmente
en mi caso. ¿Cuan genial es eso? (Además, hice un excelente trabajo al dirigir repetidamente la
discusión hacia la planificación de la boda: "Ya basta de mi enfermedad incurable. Cuéntame más
sobre las flores").
Pasé mis últimas horas en Katmandú completando una encuesta de treinta páginas que
describía cada aspecto de mi vida: ¿Dónde comía? ¿Qué comí? ¿Cómo cociné? ¿Fui a nadar?
¿Dónde y con qué frecuencia? Todos los demás que habían estado
Machine Translated by Google
Detrás de cada estudio importante hay buenos datos que hicieron posible el análisis. Y detrás de
cada mal estudio. . . bueno, sigue leyendo. La gente suele hablar de “mentir con las estadísticas”.
Yo diría que algunos de los errores estadísticos más atroces implican mentir con los datos; el
análisis estadístico está bien, pero los datos sobre los que se realizan los cálculos son falsos o
inapropiados. A continuación se muestran algunos ejemplos comunes de “basura que entra, basura
que sale”.
Sesgo de selección. Pauline Kael, crítica de cine de The New Yorker desde hace mucho tiempo,
supuestamente dijo después de la elección de Richard Nixon como presidente: “Nixon no podría
haber ganado. No conozco a nadie que haya votado por él”. Lo más probable es que la cita sea
apócrifa, pero es un hermoso ejemplo de cómo una muestra pésima (el grupo de amigos liberales)
puede ofrecer una instantánea engañosa de una población más grande (los votantes de todo
Estados Unidos). E introduce la pregunta que uno siempre debería hacerse: ¿Cómo hemos elegido
la muestra o muestras que estamos evaluando? Si cada miembro de la población relevante no
tiene las mismas posibilidades de terminar en la muestra, tendremos un problema con los
resultados que surjan de esa muestra. Un ritual de la política presidencial es la encuesta de Iowa,
en la que los candidatos republicanos descienden a Ames, Iowa, en agosto del año anterior a una
elección presidencial para cortejar a los participantes, cada uno de los cuales paga 30 dólares para
emitir un voto en la encuesta. La encuesta de Iowa no nos dice mucho sobre el futuro de los
candidatos republicanos. (La encuesta ha pronosticado sólo tres de los últimos cinco candidatos
republicanos). ¿Por qué? Porque los habitantes de Iowa que pagan 30 dólares para votar en las
encuestas son diferentes de otros republicanos de Iowa; y los republicanos de Iowa son diferentes
de los votantes republicanos del resto del país.
Es probable que esos 60 sean diferentes en aspectos significativos de los 40 que pasaron sin
hacer contacto visual.
Uno de los errores estadísticos más famosos de todos los tiempos, la famosa encuesta Literary
Digest de 1936, fue causado por una muestra sesgada. Ese año, el gobernador de Kansas, Alf
Landon, un republicano, se postuló para presidente contra el actual presidente Franklin Roosevelt,
un demócrata. Literary Digest, una influyente revista semanal de noticias en ese momento, envió
por correo una encuesta a sus suscriptores y a los propietarios de automóviles y teléfonos cuyas
direcciones podían extraerse de los registros públicos. En total, la encuesta de Literary Digest
incluyó a 10 millones de posibles votantes, lo que supone una muestra astronómicamente grande.
A medida que las encuestas con buenas muestras crecen, mejoran, ya que el margen de error se
reduce. A medida que crecen las encuestas con malas muestras, la pila de basura se hace cada
vez más grande y huele más mal. Literary Digest predijo que Landon vencería a Roosevelt con el
57 por ciento del voto popular. De hecho, Roosevelt ganó de manera aplastante, con el 60 por
ciento del voto popular y cuarenta y seis de los cuarenta y ocho estados en el colegio electoral.
La muestra de Literary Digest era “basura”: los suscriptores de la revista eran más ricos que el
estadounidense promedio y, por lo tanto, tenían más probabilidades de votar por los republicanos,
al igual que los hogares con teléfonos y automóviles en 1936.
2
Podemos terminar con el mismo problema básico cuando comparamos los resultados entre un
grupo de tratamiento y un grupo de control si el mecanismo para clasificar a los individuos en un
grupo u otro no es aleatorio. Consideremos un hallazgo reciente en la literatura médica sobre los
efectos secundarios del tratamiento del cáncer de próstata. Existen tres tratamientos comunes
para el cáncer de próstata: extirpación quirúrgica de la próstata; radioterapia; o braquiterapia (que
implica la implantación de “semillas” radiactivas cerca del cáncer). La impotencia es un efecto
3
tratamiento, por lo que los secundario común de las “semillas” de cáncer de próstata.
investigadores han documentado la función sexual de los hombres que reciben cada uno de los
tres tratamientos. Un estudio de 1.000 hombres encontró que dos años después del tratamiento,
el 35 por ciento de los hombres en el grupo de cirugía pudieron tener relaciones sexuales, en
comparación con el 37 por ciento en el grupo de radiación y el 43 por ciento en el grupo de
braquiterapia.
¿Se pueden observar estos datos y asumir que la braquiterapia tiene menos probabilidades de dañar la función
sexual de un hombre? No no no. Los autores del estudio advierten explícitamente que no podemos concluir que la
braquiterapia sea mejor para preservar la función sexual, ya que los hombres que reciben este tratamiento son
generalmente más jóvenes y están en mejor forma que los hombres que reciben el otro tratamiento. El propósito del
estudio fue simplemente documentar el grado de efectos secundarios sexuales en todos los tipos de tratamiento.
Una fuente relacionada de sesgo, conocida como sesgo de autoselección, surgirá siempre que
Machine Translated by Google
los individuos se ofrecen como voluntarios para estar en un grupo de tratamiento. Por ejemplo,
los presos que se ofrecen como voluntarios para un grupo de tratamiento de drogas se diferencian
de otros presos porque se han ofrecido como voluntarios para estar en un programa de
tratamiento de drogas. Si los participantes en este programa tienen más probabilidades de
permanecer fuera de prisión después de su liberación que otros prisioneros, eso es genial, pero
no nos dice absolutamente nada sobre el valor del programa de tratamiento de drogas. Es posible
que estos ex reclusos hayan cambiado sus vidas porque el programa los ayudó a dejar las
drogas. O pueden haber cambiado sus vidas debido a otros factores que también los hicieron
más propensos a ofrecerse como voluntarios para un programa de tratamiento de drogas (como
tener un deseo realmente fuerte de no volver a prisión). No podemos separar el impacto causal
de uno (el programa de tratamiento de drogas) del otro (ser el tipo de persona que se ofrece
como voluntaria para un programa de tratamiento de drogas).
El sesgo de publicación. Es más probable que se publiquen los hallazgos positivos que los
negativos, lo que puede sesgar los resultados que vemos. Supongamos que acaba de realizar
un estudio longitudinal riguroso en el que concluye de manera concluyente que jugar videojuegos
no previene el cáncer de colon. Ha seguido una muestra representativa de 100.000
estadounidenses durante veinte años; los participantes que pasan horas jugando videojuegos
tienen aproximadamente la misma incidencia de cáncer de colon que los participantes que no
juegan videojuegos en absoluto. Asumiremos que su metodología es impecable. ¿Qué revista
médica de prestigio va a publicar tus resultados?
Ninguno, por dos razones. En primer lugar, no existe una razón científica sólida para creer
que los videojuegos tengan algún impacto en el cáncer de colon, por lo que no es obvio por qué
se estaba realizando este estudio. En segundo lugar, y más relevante aquí, el hecho de que algo
no prevenga el cáncer no es un hallazgo particularmente interesante. Después de todo, la
mayoría de las cosas no previenen el cáncer. Los hallazgos negativos no son especialmente
atractivos, ni en medicina ni en otros ámbitos.
El efecto neto es distorsionar la investigación que vemos o no vemos. Supongamos que uno
de sus compañeros de posgrado ha realizado un estudio longitudinal diferente. Ella encuentra
que las personas que pasan mucho tiempo jugando videojuegos tienen una menor incidencia de
cáncer de colon. ¡Eso sí que es interesante! Ese es exactamente el tipo de hallazgo que llamaría
la atención de una revista médica, la prensa popular, los blogueros y los fabricantes de
videojuegos (que pondrían etiquetas en sus productos exaltando los beneficios para la salud de
sus productos). No pasaría mucho tiempo antes de que las Mamás Tigre de todo el país
“protegieran” a sus hijos del cáncer arrebatándoles libros de las manos y obligándolos a jugar
videojuegos.
Por supuesto, una importante idea recurrente en estadística es que las cosas inusuales
Machine Translated by Google
sucede de vez en cuando, simplemente por una cuestión de casualidad. Si se realizan 100 estudios, es probable
que uno de ellos arroje resultados que son pura tontería, como una asociación estadística entre jugar videojuegos
y una menor incidencia de cáncer de colon. Aquí está el problema: los 99 estudios que no encuentran ningún
vínculo entre los videojuegos y el cáncer de colon no se publicarán porque no son muy interesantes. El único
estudio que encuentre un vínculo estadístico se publicará y recibirá mucha atención posterior. La fuente del sesgo
no surge de los estudios en sí sino de la información sesgada que realmente llega al público. Alguien que lea la
literatura científica sobre los videojuegos y el cáncer encontrará sólo un estudio, y ese único estudio sugerirá que
jugar videojuegos puede prevenir el cáncer. De hecho, 99 de 100 estudios no habrían encontrado tal vínculo.
Sí, mi ejemplo es absurdo, pero el problema es real y grave. Aquí está la primera frase de un artículo del New
York Times sobre el sesgo de publicación que rodea a los medicamentos para tratar la depresión: “Los fabricantes
de antidepresivos como Prozac y Paxil nunca publicaron los resultados de aproximadamente un tercio de los
ensayos de medicamentos que llevaron a cabo para obtener la aprobación del gobierno. engañar a médicos y
consumidores sobre la verdadera eficacia de los medicamentos”. 4 Resulta que el 94 por ciento de los estudios
con resultados positivos sobre la eficacia de estos medicamentos fueron publicados, mientras que sólo el 14 por
ciento de los estudios con resultados no positivos fueron publicados. Para los pacientes que padecen depresión,
esto es un gran problema. Cuando se incluyen todos los estudios, los antidepresivos son mejores que un placebo
sólo por "un margen modesto".
Para combatir este problema, las revistas médicas ahora suelen exigir que cualquier estudio se registre al
comienzo del proyecto para que sea elegible para su publicación más adelante. Esto les da a los editores alguna
evidencia sobre la proporción de hallazgos positivos y no positivos. Si se registran 100 estudios que proponen
examinar el efecto del skate en las enfermedades cardíacas, y finalmente solo uno se envía para publicación con
resultados positivos, los editores pueden inferir que los otros estudios tuvieron resultados no positivos (o al menos
pueden investigar esta posibilidad). .
Sesgo de recuerdo. La memoria es algo fascinante, aunque no siempre es una gran fuente de buenos datos.
Tenemos un impulso humano natural de entender el presente como una consecuencia lógica de cosas que
sucedieron en el pasado: causa y efecto. El problema es que nuestros recuerdos resultan ser "sistemáticamente
frágiles" cuando intentamos explicar algún resultado particularmente bueno o malo en el presente. Considere un
estudio que analiza la relación entre la dieta y el cáncer. En 1993, un investigador de Harvard recopiló un conjunto
de datos que comprendía un grupo de mujeres con cáncer de mama y un grupo de mujeres de la misma edad a
las que no se les había diagnosticado cáncer.
A las mujeres de ambos grupos se les preguntó sobre sus hábitos alimentarios en etapas anteriores de su vida. El
Machine Translated by Google
El estudio arrojó resultados claros: las mujeres con cáncer de mama tenían significativamente más
probabilidades de haber tenido dietas ricas en grasas cuando eran más jóvenes.
Ah, pero en realidad este no fue un estudio sobre cómo la dieta afecta la probabilidad de contraer
cáncer. Este fue un estudio sobre cómo el cáncer afecta la memoria de una mujer sobre su dieta en una
etapa más temprana de su vida. Todas las mujeres del estudio habían completado una encuesta dietética
años antes, antes de que a ninguna de ellas se le diagnosticara cáncer. El hallazgo sorprendente fue que
las mujeres con cáncer de mama recordaban una dieta mucho más rica en grasas que la que realmente
consumían; las mujeres sin cáncer no lo hicieron. El New York Times Magazine describió la naturaleza
insidiosa de este sesgo de retirada:
El diagnóstico de cáncer de mama no sólo había cambiado el presente y el futuro de una mujer;
había alterado su pasado. Las mujeres con cáncer de mama habían decidido (inconscientemente)
que una dieta alta en grasas era una predisposición probable a su enfermedad y (inconscientemente)
recordaron una dieta alta en grasas. Era un patrón conmovedoramente familiar para cualquiera que
conozca la historia de esta enfermedad estigmatizada: estas mujeres, como miles de mujeres antes
que ellas, habían buscado en sus propios recuerdos una causa y luego habían invocado esa causa
en
5 memoria.
El sesgo de recuerdo es una de las razones por las que a menudo se prefieren los estudios longitudinales
a los estudios transversales. En un estudio longitudinal los datos se recogen al mismo tiempo. A los cinco
años, se puede preguntar a un participante sobre sus actitudes hacia la escuela. Luego, trece años
después, podemos volver a visitar a ese mismo participante y determinar si abandonó la escuela
secundaria. En un estudio transversal, en el que todos los datos se recopilan en un momento determinado,
debemos preguntarle a un joven de dieciocho años que abandonó la escuela secundaria cómo se sentía
acerca de la escuela a los cinco años, lo cual es inherentemente menos confiable.
Sesgo de supervivencia. Supongamos que el director de una escuela secundaria informa que los puntajes
de las pruebas de un grupo particular de estudiantes han aumentado constantemente durante cuatro años.
Los puntajes de los estudiantes de segundo año para esta clase fueron mejores que los de los estudiantes
de primer año. Los puntajes del tercer año fueron aún mejores y los del último año fueron los mejores de
todos. Estipularemos que no se hacen trampas, ni siquiera ningún uso creativo de estadísticas descriptivas.
Cada año, a esta cohorte de estudiantes le ha ido mejor que el año anterior, según todas las medidas
posibles: media, mediana, porcentaje de estudiantes al nivel de grado, etc.
¿(a) nominaría a este líder escolar como “director del año” o (b)
¿Exigir más datos?
Yo digo "b". Huelo el sesgo de supervivencia, que ocurre cuando algunos o muchos de los
Machine Translated by Google
las observaciones están cayendo de la muestra, cambiando la composición de las observaciones que
quedan y, por lo tanto, afectando los resultados de cualquier análisis. Supongamos que nuestro director
es realmente horrible. Los estudiantes de su escuela no aprenden nada; cada año la mitad de ellos
abandonan los estudios. Bueno, eso podría hacer cosas muy buenas para los resultados de los exámenes
de la escuela, sin que ningún estudiante individual obtenga mejores resultados. Si hacemos el supuesto
razonable de que los peores estudiantes (con los puntajes más bajos en las pruebas) son los que tienen
más probabilidades de abandonar la escuela, entonces las calificaciones promedio de los estudiantes que
se quedaron atrás aumentarán constantemente a medida que más y más estudiantes abandonen. (Si
tiene una habitación con personas de diferentes alturas, obligar a las personas bajas a irse aumentará la
altura promedio en la habitación, pero no hará que nadie sea más alto).
¿Qué debe hacer una empresa de fondos mutuos tradicional? ¡Datos falsos al rescate!
Así es como pueden “ganarle al mercado” sin ganarle al mercado. Una gran compañía mutua abrirá
muchos fondos nuevos administrados activamente (lo que significa que los expertos eligen las acciones,
a menudo con un enfoque o estrategia particular). A modo de ejemplo, supongamos que una empresa de
fondos mutuos abre veinte nuevos fondos, cada uno de los cuales tiene aproximadamente un 50 por
ciento de posibilidades de superar al S&P 500 en un año determinado. (Esta suposición es consistente
con los datos a largo plazo.) Ahora bien, la probabilidad básica sugiere que sólo diez de los nuevos fondos
de la empresa superarán al S&P 500 el primer año; cinco fondos le superarán dos años seguidos; y dos o
tres lo superarán tres años seguidos.
Machine Translated by Google
Aquí viene la parte inteligente. En ese momento, los nuevos fondos mutuos con rendimientos
poco impresionantes en relación con el S&P 500 se cierran silenciosamente. (Sus activos se
integran en otros fondos existentes). Luego, la empresa puede publicitar intensamente los dos o
tres nuevos fondos que han “superado consistentemente al S&P 500”, incluso si ese desempeño
es el equivalente en la selección de acciones a sacar tres caras seguidas. . Es probable que el
rendimiento posterior de estos fondos vuelva a la media, aunque después de que los inversores
se hayan acumulado. El número de fondos mutuos o gurús de la inversión que han superado
consistentemente al S&P 500 durante un largo período
es sorprendentemente pequeño. *
Sesgo de usuario saludable. Es probable que las personas que toman vitaminas con regularidad
estén sanas , ¡porque son el tipo de personas que toman vitaminas con regularidad! Si las
vitaminas tienen algún impacto es un tema aparte. Considere el siguiente experimento mental.
Supongamos que los funcionarios de salud pública promulgan la teoría de que todos los nuevos
padres deberían acostar a sus hijos sólo con pijamas morados, porque eso ayuda a estimular el
desarrollo del cerebro. Veinte años después, una investigación longitudinal confirma que haber
usado pijamas morados cuando era niño tiene una asociación positiva abrumadoramente grande
con el éxito en la vida. Encontramos, por ejemplo, que el 98 por ciento de los estudiantes de
primer año de Harvard vestían pijamas morados cuando eran niños (y muchos todavía lo hacen),
en comparación con sólo el 3 por ciento de los reclusos en el sistema penitenciario del estado de
Massachusetts.
Eso sí, el pijama morado da igual; pero tener el tipo de padres que ponen a sus hijos en
pijamas morados sí importa. Incluso cuando intentamos controlar factores como la educación de
los padres, todavía nos quedarán diferencias inobservables entre los padres que se obsesionan
con poner a sus hijos un pijama morado y los que no. Como explica Gary Taubes, redactor de
salud del New York Times : “En su forma más simple, el problema es que las personas que se
dedican fielmente a actividades que son buenas para ellos (tomar un medicamento según lo
recetado, por ejemplo, o comer lo que creen que es una dieta saludable) son fundamentalmente
diferentes de aquellos que no lo hacen”. 6 Este efecto puede confundir potencialmente cualquier
estudio que intente evaluar el efecto real de actividades percibidas como saludables, como hacer
ejercicio regularmente o comer col rizada. Creemos que estamos comparando los efectos sobre
la salud de dos dietas: col rizada versus no col rizada. De hecho, si los grupos de tratamiento y
control no se asignan al azar, estamos comparando dos dietas que consumen dos tipos diferentes
de personas. Tenemos un grupo de tratamiento que es diferente del grupo de control en dos
aspectos, en lugar de solo uno.
Si la estadística es un trabajo de detective, entonces los datos son las pistas. Mi esposa pasó un
año enseñando a estudiantes de secundaria en la zona rural de New Hampshire. Uno de sus
alumnos fue arrestado por irrumpir en una ferretería y robar algunas herramientas. La policía
Machine Translated by Google
pudimos resolver la caja porque (1) acababa de nevar y había huellas en la nieve que iban desde
la ferretería hasta la casa del estudiante; y (2) las herramientas robadas se encontraron en el
interior. Las buenas pistas ayudan.
Como buenos datos. Pero primero hay que conseguir buenos datos, y eso es mucho más difícil
de lo que parece.
* En ese momento, la enfermedad tenía una duración media de cuarenta y tres días con una desviación estándar de veinticuatro
días.
* El S&P 500 es un buen ejemplo de lo que puede y debe hacer un índice. El índice se compone de los precios de las acciones
de las 500 empresas líderes de EE. UU., cada una ponderada por su valor de mercado (de modo que las empresas más grandes
tienen más peso en el índice que las más pequeñas). El índice es un indicador simple y preciso de lo que está sucediendo con
los precios de las acciones de las empresas estadounidenses más grandes en un momento dado.
* Para una muy interesante discusión sobre por qué probablemente deberías comprar fondos indexados en lugar de intentar
ganarle al mercado, lee Un paseo aleatorio por Wall Street, de mi ex profesor Burton Malkiel.
Machine Translated by Google
CAPÍTULO 8
A veces, las estadísticas parecen casi mágicas. Podemos sacar conclusiones amplias y poderosas
a partir de relativamente pocos datos. De alguna manera podemos obtener una visión significativa
de una elección presidencial convocando a apenas mil votantes estadounidenses. Podemos
analizar cien pechugas de pollo para detectar salmonella en una planta procesadora de aves y
concluir, solo a partir de esa muestra, que toda la planta es segura o no. ¿De dónde viene este
extraordinario poder de generalizar?
Gran parte proviene del teorema del límite central, que es el Lebron James de la estadística, si
Lebron fuera también una supermodelo, un profesor de Harvard y el ganador del Premio Nobel de
la Paz. El teorema del límite central es la “fuente de energía” de muchas de las actividades
estadísticas que implican el uso de una muestra para hacer inferencias sobre una población
grande (como una encuesta o una prueba de salmonella). Este tipo de inferencias pueden parecer
místicas; de hecho, son sólo una combinación de dos herramientas que ya hemos explorado:
probabilidad y muestreo adecuado. Antes de sumergirnos en la mecánica del teorema del límite
central (que no es tan complicado), he aquí un ejemplo para darle una intuición general.
Suponga que vive en una ciudad que organiza un maratón. Competirán corredores de todo el
mundo, lo que significa que muchos de ellos no hablan inglés. La logística de la carrera requiere
que los corredores se registren la mañana de la carrera, después de lo cual se les asigna
aleatoriamente a autobuses que los llevarán a la línea de salida. Desafortunadamente uno de los
autobuses se pierde camino a la carrera.
(Está bien, tendrás que asumir que nadie tiene un teléfono celular y que el conductor no tiene un
dispositivo de navegación GPS; a menos que quieras hacer muchos cálculos desagradables ahora
mismo, simplemente hazlo). Como líder cívico de esta ciudad, te unes al equipo de búsqueda.
Quiso la suerte que cerca de tu casa te topes con un autobús averiado con un gran grupo de
pasajeros internacionales descontentos, ninguno de los cuales habla inglés. ¡Este debe ser el
autobús perdido! ¡Vas a ser un héroe! Excepto que tienes una duda persistente: los pasajeros de
...
este autobús son, bueno, muy grandes.
Con un vistazo rápido, se calcula que el peso promedio de este grupo de pasajeros debe ser
superior a 220 libras. No hay manera de que un grupo aleatorio
Machine Translated by Google
de los corredores de maratón podrían ser así de pesados. Envía su mensaje por radio al cuartel
general de búsqueda: “Creo que es el autobús equivocado. Seguir mirando."
Un análisis más detallado confirma su impresión inicial. Cuando llega un traductor, descubres que
este autobús averiado se dirigía al Festival Internacional del Embutido, que también se celebra en tu
ciudad ese mismo fin de semana. (En aras de la verosimilitud, es muy posible que los participantes
del festival de las salchichas también usen pantalones deportivos).
Felicidades. Si puedes entender cómo alguien que echa un vistazo rápido a los pesos de los
pasajeros de un autobús puede inferir que probablemente no están en camino a la línea de salida de
un maratón, entonces entiendes la idea básica del teorema del límite central. El resto es simplemente
darle cuerpo a los detalles. Y si comprende el teorema del límite central, la mayoría de las formas de
inferencia estadística le parecerán relativamente intuitivas.
El principio central que subyace al teorema del límite central es que una muestra grande y extraída
correctamente se parecerá a la población de la que se extrae. Obviamente habrá variación de una
muestra a otra (por ejemplo, cada autobús que se dirige al inicio del maratón tendrá una mezcla de
pasajeros ligeramente diferente), pero la probabilidad de que cualquier muestra se desvíe
enormemente de la población subyacente es muy baja. Esta lógica es la que le permitió tomar un
juicio rápido cuando subió al autobús averiado y vio la circunferencia promedio de los pasajeros a
bordo. Mucha gente importante corre maratones; es probable que haya cientos de personas que
pesen más de 200 libras en cualquier carrera determinada. Pero la mayoría de los corredores de
maratón son relativamente delgados. Por lo tanto, la probabilidad de que tantos de los corredores más
grandes fueran asignados aleatoriamente al mismo autobús es muy, muy baja. Se podría concluir con
un grado razonable de confianza que este no era el autobús perdido del maratón. Sí, podrías haberte
equivocado, pero la probabilidad nos dice que la mayoría de las veces habrías estado en lo cierto.
Ésa es la intuición básica detrás del teorema del límite central. Cuando agregamos algunos detalles
estadísticos, podemos cuantificar la probabilidad de que tenga razón o no. Por ejemplo, podríamos calcular que
en un campo de maratón de 10.000 corredores con un peso medio de 155 libras, hay menos de 1 probabilidad
entre 100 de que una muestra aleatoria de 60 de esos corredores (nuestro autobús perdido) tuviera un peso
medio. de 220 libras o más. Por ahora, sigamos con la intuición; Habrá mucho tiempo para hacer cálculos más
adelante. El teorema del límite central nos permite hacer las siguientes inferencias, todas las cuales se explorarán
con mayor profundidad en el próximo capítulo.
población. Por ejemplo, supongamos que el director de una escuela tiene información
detallada sobre los puntajes de las pruebas estandarizadas de todos los estudiantes de
su escuela (media, desviación estándar, etc.). Esa es la población relevante. Ahora
supongamos que un burócrata del distrito escolar llegará la próxima semana para aplicar
una prueba estandarizada similar a 100 estudiantes seleccionados al azar. El desempeño
de esos 100 estudiantes, la muestra, se utilizará para evaluar el desempeño de la escuela
en general.
¿Cuánta confianza puede tener el director en que el desempeño de esos 100
estudiantes elegidos al azar reflejará con precisión cómo se ha desempeñado todo el
alumnado en pruebas estandarizadas similares? Bastante.
Según el teorema del límite central, la puntuación promedio de la prueba para una muestra
aleatoria de 100 estudiantes normalmente no se desviará marcadamente de la puntuación
promedio de la prueba de toda la escuela.
2. Si tenemos información detallada sobre una muestra extraída correctamente (media y
desviación estándar), podemos hacer inferencias sorprendentemente precisas sobre la
población de la que se extrajo esa muestra. Básicamente, esto funciona en la dirección
opuesta al ejemplo anterior, poniéndonos en el lugar del burócrata del distrito escolar que
está evaluando varias escuelas del distrito. A diferencia del director de la escuela, este
burócrata no tiene (o no confía) en los datos de calificaciones de las pruebas estandarizadas
que el director tiene para todos los estudiantes de una escuela en particular, que es la
población relevante. En cambio, administrará una prueba similar a una muestra aleatoria
de 100 estudiantes en cada escuela.
muestra que probablemente se extraerá de esa población. Este es el ejemplo del bus
perdido descrito al principio del capítulo. Conocemos el peso medio (más o menos) de
los participantes en el maratón. Y conocemos el peso medio (más o menos) de los
pasajeros del autobús averiado. El teorema del límite central nos permite calcular la
probabilidad de que una muestra particular (las personas regordetas en el autobús) haya
sido extraída de una población determinada (el campo de maratón). Si esa probabilidad
es baja, entonces podemos concluir con un alto grado de confianza que la muestra no
se tomó de la población en cuestión (por ejemplo, las personas en este autobús
realmente no parecen un grupo de corredores de maratón que se dirigen a la salida).
línea).
4. Por último, si conocemos las características subyacentes de dos muestras, podemos
inferir si ambas muestras probablemente fueron extraídas de la misma población.
Volvamos a nuestro (cada vez más absurdo) ejemplo del autobús. Ahora sabemos que
en la ciudad se está celebrando una maratón, además del Festival Internacional del
Embutido. Supongamos que ambos grupos tienen miles de participantes y que ambos
grupos operan autobuses, todos cargados con muestras aleatorias de corredores de
maratón o entusiastas de las salchichas. Supongamos además que dos autobuses
chocan. (Ya he admitido que el ejemplo es absurdo, así que sigue leyendo). En tu
calidad de líder cívico, llegas al lugar y tienes la tarea de determinar si ambos autobuses
se dirigían o no al mismo evento (festival de las salchichas o maratón). ). Milagrosamente,
nadie en ninguno de los autobuses habla inglés, pero los paramédicos le brindan
información detallada sobre el peso de todos los pasajeros de cada autobús.
Solo a partir de eso, se puede inferir si los dos autobuses probablemente se dirigían
al mismo evento o a eventos diferentes. Nuevamente, piense en esto de manera intuitiva.
Supongamos que el peso promedio de los pasajeros de un autobús es de 157 libras,
con una desviación estándar de 11 libras (lo que significa que una alta proporción de los
pasajeros pesa entre 146 y 168 libras).
Supongamos ahora que los pasajeros del segundo autobús tienen un peso medio de
211 libras con una desviación estándar de 21 libras (lo que significa que una alta
proporción de los pasajeros pesa entre 190 libras y 232 libras).
Olvídese de las fórmulas estadísticas por un momento y utilice simplemente la lógica:
¿parece probable que los pasajeros de esos dos autobuses procedieran aleatoriamente
de la misma población?
No. Parece mucho más probable que un autobús esté lleno de corredores de maratón
y el otro esté lleno de entusiastas de las salchichas. Además de la diferencia en el peso
promedio entre los dos autobuses, también puede ver que la variación de pesos entre
los dos autobuses es muy grande en comparación con la variación de pesos dentro de
cada autobús. Las personas que pesan una desviación estándar por encima
Machine Translated by Google
la media en el autobús “delgado” es 168 libras, que es menos que las personas que están
una desviación estándar por debajo de la media en el “otro” autobús (190 libras). Esta es
una señal reveladora (tanto estadística como lógicamente) de que las dos muestras
probablemente provenían de poblaciones diferentes.
Si todo esto tiene sentido intuitivo, entonces estás en el 93,2 por ciento del camino hacia
comprensión del teorema del límite central. * Necesitamos dar un paso más para poner
algo de peso técnico detrás de la intuición. Obviamente, cuando asomabas la cabeza dentro del
autobús averiado y veías a un grupo de personas grandes con pantalones deportivos, tenías la
“corazonada” de que no eran maratonistas. El teorema del límite central nos permite ir más allá
de esa corazonada y asignar un grado de confianza a nuestra conclusión.
Por ejemplo, algunos cálculos básicos me permitirán concluir que 99 de cada 100 veces el
peso medio de cualquier autobús de maratonistas seleccionado al azar estará dentro de las
nueve libras del peso medio de todo el campo de maratón. Eso es lo que le da peso estadístico
a mi corazonada cuando me tropiezo con el autobús averiado.
Estos pasajeros tienen un peso medio veintiún libras superior al peso medio del maratón, algo
que sólo debería ocurrir por casualidad menos de 1 vez entre 100. Como resultado, puedo
rechazar la hipótesis de que se trata de un peso faltante. autobús maratón con un 99 por ciento
de confianza, lo que significa que debería esperar que mi inferencia sea correcta 99 de cada
100 veces.
Y sí, la probabilidad sugiere que, en promedio, me equivocaré 1 vez entre 100.
Todo este tipo de análisis surge del teorema del límite central, que, desde un punto de vista
estadístico, tiene poder y elegancia similares a los de Lebron James. Según el teorema del
límite central, las medias muestrales de cualquier población se distribuirán aproximadamente
como una distribución normal alrededor de la media poblacional. Espere un momento mientras
analizamos esa declaración.
1. Supongamos que tenemos una población, como nuestro campo de maratón, y estamos
interesados en los pesos de sus miembros. Cualquier muestra de corredores, como cada
autobús de sesenta corredores, tendrá una media.
2. Si tomamos muestras repetidas, como seleccionar grupos aleatorios de sesenta
corredores del campo una y otra vez, entonces cada una de esas muestras tendrá su
propio peso medio. Estos son los medios de muestra.
3. La mayoría de las medias muestrales estarán muy cerca de la media poblacional.
Algunos serán un poco más altos. Algunos serán un poco más bajos. Sólo por cuestión
de azar, muy pocos serán significativamente más altos que la media de la población, y
muy pocos serán significativamente más bajos.
crescendo ...
4. El teorema del límite central nos dice que las medias muestrales se distribuirán aproximadamente
como una distribución normal alrededor de la media poblacional.
La distribución normal, como recordará del Capítulo 2, es la distribución en forma de campana (por ejemplo, la
altura de los hombres adultos) en la que el 68 por ciento de las observaciones se encuentran dentro de una
desviación estándar de la media, el 95 por ciento se encuentra dentro de dos desviaciones estándar y el 95 por
ciento se encuentra dentro de dos desviaciones estándar. pronto.
5. Todo esto será cierto sin importar cuál sea la distribución de la población subyacente. La población
de la que se extraen las muestras no tiene que tener una distribución normal para que las medias
muestrales se distribuyan normalmente.
Pensemos en algunos datos reales, digamos, la distribución del ingreso de los hogares en Estados
Unidos. Los ingresos de los hogares no se distribuyen normalmente en Estados Unidos; en cambio, tiende
a estar sesgado hacia la derecha. Ningún hogar puede ganar menos de $0 en un año determinado, por lo
que ese debe ser el límite inferior de la distribución. Mientras tanto, un pequeño grupo de hogares puede
obtener ingresos anuales asombrosamente elevados: cientos de millones o incluso miles de millones de
dólares en algunos casos. Como resultado, esperaríamos que la distribución de los ingresos de los hogares
tuviera una cola derecha larga, algo como esto:
El ingreso familiar medio en los Estados Unidos es de aproximadamente 51.900 dólares; el ingreso
familiar medio es $70,900. 1 (Personas como Bill Gates desplazan el ingreso
familiar medio hacia la derecha, tal como lo hizo cuando entró al bar en el capítulo 2). Supongamos ahora
que tomamos una muestra aleatoria de 1.000 hogares estadounidenses y recopilamos información sobre el
ingreso familiar anual. Con base en la información anterior y el teorema del límite central, ¿qué podemos
inferir sobre esta muestra?
Resulta que bastante. En primer lugar, nuestra mejor suposición sobre cuál es el significado de cualquier
Machine Translated by Google
Todo eso es sólo lógica básica. El teorema del límite central nos permite ir un paso más allá
al describir la distribución esperada de esas diferentes medias muestrales a medida que se
agrupan alrededor de la media poblacional. Específicamente, las medias muestrales formarán
una distribución normal alrededor de la media poblacional, que en este caso es $70 900.
Recuerde, la forma de la población subyacente no importa. La distribución del ingreso de los
hogares en Estados Unidos está bastante sesgada, pero la distribución de las medias muestrales
no lo estará. Si tomáramos 100 muestras diferentes, cada una con 1.000 hogares, y graficaramos
la frecuencia de nuestros resultados, esperaríamos que esas medias muestrales formaran la
conocida distribución "en forma de campana" alrededor de $70.900.
Utilizando un software estadístico básico, podemos ordenar a la computadora que tome una
muestra aleatoria de 100 personas a partir de los datos de Changing Lives. De hecho, podemos
hacer esto una y otra vez para ver cómo los resultados coinciden con lo que predeciría el
teorema del límite central. Aquí hay un gráfico de la distribución de 100 medias muestrales (redondeadas
Machine Translated by Google
a la libra más cercana) generado aleatoriamente a partir de los datos de Changing Lives.
Cuanto mayor sea el tamaño de la muestra y más muestras se tomen, más se aproximará la
distribución de las medias muestrales a la curva normal. (Como regla general, el tamaño de la
muestra debe ser al menos 30 para que el teorema del límite central sea válido). Esto tiene sentido.
Es menos probable que una muestra más grande se vea afectada por la variación aleatoria. Una
muestra de 2 puede estar muy sesgada por una persona particularmente grande o pequeña. Por el
contrario, una muestra de 500 no se verá excesivamente afectada por unas pocas personas
particularmente grandes o pequeñas.
¡Ahora estamos muy cerca de hacer realidad todos nuestros sueños estadísticos! Las medias
muestrales se distribuyen aproximadamente como una curva normal, como se describe
anteriormente. El poder de una distribución normal se deriva del hecho de que sabemos
aproximadamente qué proporción de observaciones estarán dentro de una desviación estándar por
encima o por debajo de la media (68 por ciento); qué proporción de observaciones estarán dentro
de dos desviaciones estándar por encima o por debajo de la media (95 por ciento); etcétera. Esto
es algo poderoso.
Anteriormente en este capítulo señalé que podíamos inferir intuitivamente que un autobús lleno
de pasajeros con un peso medio veinticinco libras superior al peso medio de todo el maratón
probablemente no era el autobús de corredores perdido. Para cuantificar esa intuición (para poder
decir que esta inferencia será correcta el 95 por ciento de las veces, o el 99 por ciento, o el 99,9
por ciento), necesitamos sólo un concepto técnico más: el error estándar.
El error estándar mide la dispersión de las medias muestrales. ¿Con qué precisión esperamos
que las medias muestrales se agrupen alrededor de la media poblacional? Aquí existe cierta
confusión potencial, ya que ahora hemos introducido dos medidas diferentes de dispersión: la
desviación estándar y el error estándar. Esto es lo que debes recordar para mantenerlos en orden:
Un error estándar grande significa que las medias muestrales están ampliamente distribuidas
alrededor de la media poblacional; un error estándar pequeño significa que están agrupados
relativamente estrechamente. Aquí hay tres ejemplos reales de los datos de Changing Lives.
La segunda distribución, que tiene un tamaño de muestra mayor, está más estrechamente
agrupada alrededor de la media que la primera distribución. El tamaño de muestra más
grande hace que sea menos probable que la media muestral se desvíe marcadamente de la
media poblacional. El conjunto final de medias muestrales se extrae únicamente de un
subconjunto de la población, las mujeres del estudio. Dado que las ponderaciones de las
mujeres en el conjunto de datos son menos difusas que las ponderaciones de todas las
personas de la población, es lógico que las ponderaciones de las muestras extraídas sólo de
las mujeres estén menos dispersas que las muestras extraídas de toda la población de
Cambiando Vidas. (Estas muestras también están agrupadas en torno a una media
poblacional ligeramente diferente, ya que el peso medio de todas las mujeres en el estudio
Cambiando Vidas es diferente del peso medio de toda la población del estudio).
El patrón que viste arriba es válido en general. Las medias muestrales se agruparán más
estrechamente alrededor de la media poblacional a medida que el tamaño de cada muestra
aumenta (por ejemplo, nuestras medias muestrales estaban más agrupadas cuando tomamos
muestras de 100 en lugar de 30). Y las medias muestrales se agruparán menos estrechamente
alrededor de la media poblacional cuando la población subyacente esté más dispersa (por
ejemplo, nuestras medias muestrales para toda la población de Cambiando Vidas estaban
más dispersas que las medias muestrales solo para las mujeres del estudio).
Si has seguido la lógica hasta ahora, entonces la fórmula para el error estándar
sigue naturalmente:
yn donde s es la desviación estándar de la población de la cual se extrae la muestra SE,
es el tamaño de la muestra. ¡Mantén la cabeza sobre ti!
No dejes que la apariencia de las letras arruine la intuición básica. El error estándar será
grande cuando la desviación estándar de la distribución subyacente sea grande.
Es probable que una muestra grande extraída de una población muy dispersa también lo
esté; una muestra grande de una población estrechamente agrupada alrededor de la media
también es probable que esté estrechamente agrupada alrededor de la media. Si todavía
analizamos el peso, esperaríamos que el error estándar de una muestra extraída de toda la
población de Changing Lives fuera mayor que el error estándar de una muestra extraída
únicamente de hombres de veintitantos años. Esta es la razón por la que las desviaciones estándar
Machine Translated by Google
está en el numerador.
De manera similar, esperaríamos que el error estándar se redujera a medida que aumenta el tamaño de
la muestra, ya que las muestras grandes son menos propensas a sufrir distorsión por valores atípicos extremos.
Por eso el tamaño de la muestra (n) está en el denominador. (La razón por la que tomamos la raíz cuadrada
de n se dejará para un texto más avanzado; la relación básica es lo importante aquí).
En el caso de los datos de Changing Lives, en realidad conocemos la desviación estándar de la población;
muchas veces ese no es el caso. Para muestras grandes, podemos suponer que la desviación estándar de la
muestra está razonablemente cerca de la desviación estándar de la población.
*
Finalmente, hemos llegado a la recompensa de todo esto. Debido a que las medias muestrales se
distribuyen normalmente (gracias al teorema del límite central), podemos aprovechar el poder de la curva
normal. Esperamos que aproximadamente el 68 por ciento de todas las medias muestrales se encuentren
dentro de un error estándar de la media poblacional; El 95 por ciento de las medias muestrales estarán dentro
de dos errores estándar de la media poblacional; y el 99,7 por ciento de las medias muestrales estarán dentro
de tres errores estándar de la media poblacional.
Así que volvamos a una variación de nuestro ejemplo del autobús perdido, sólo que ahora podemos
sustituir la intuición por números. (El ejemplo en sí seguirá siendo absurdo; el próximo capítulo tendrá muchos
ejemplos menos absurdos del mundo real.) Supongamos que el estudio Cambiando Vidas ha invitado a todos
los individuos del estudio a reunirse en
Machine Translated by Google
Boston para un fin de semana de recopilación de datos y juerga. Los participantes son cargados
aleatoriamente en autobuses y transportados entre los edificios de las instalaciones de pruebas,
donde son pesados, medidos, pinchados, pinchados, etc. Sorprendentemente, un autobús
desaparece, hecho que se retransmite en las noticias locales. Aproximadamente a esa hora, estás
regresando del Festival de la Salchicha cuando ves un autobús accidentado al costado de la
carretera. Aparentemente el autobús se desvió para evitar a un zorro salvaje que cruzaba la calle, y
todos los pasajeros están inconscientes pero no gravemente heridos. (Necesito que no se
comuniquen para que el ejemplo funcione, pero no quiero que sus lesiones sean demasiado
preocupantes). Los paramédicos en el lugar le informan que el peso medio de los 62 pasajeros en
el autobús es de 194 libras. Además, el zorro que el autobús se desvió para evitar fue cortado
ligeramente y parece tener una pata trasera rota.
Afortunadamente, usted conoce el peso medio y la desviación estándar de toda la población de
Changing Lives, tiene conocimientos prácticos del teorema del límite central y sabe cómo administrar
primeros auxilios a un zorro salvaje. El peso medio de los participantes de Cambiando Vidas es 162;
la desviación estándar es 36.
A partir de esa información, podemos calcular el error estándar para una muestra de 62 personas
(el número de pasajeros inconscientes en el autobús):
La diferencia entre la media de la muestra (194 libras) y la media de la población (162 libras) es
32 libras, o mucho más que tres errores estándar. Sabemos por el teorema del límite central que el
99,7 por ciento de todas las medias muestrales estarán dentro de tres errores estándar de la media
poblacional. Eso hace que sea extremadamente improbable que este autobús represente un grupo
aleatorio de participantes de Cambiando Vidas.
En su deber como líder cívico, llama a los funcionarios del estudio para decirles que probablemente
este no sea el autobús perdido, solo que ahora puede ofrecer evidencia estadística, en lugar de
simplemente “una corazonada”. Le informa a la gente de Cambiando Vidas que puede rechazar la
posibilidad de que este sea el autobús perdido con un nivel de confianza del 99,7 por ciento. Y como
estás hablando con investigadores, ellos realmente entienden de qué estás hablando.
Su análisis se confirma aún más cuando los paramédicos realizan análisis de sangre a los
pasajeros del autobús y descubren que el nivel medio de colesterol para todos los pasajeros del
autobús está cinco errores estándar por encima del nivel medio de colesterol de los participantes
del estudio Cambiando Vidas. Esto sugiere, correctamente como se verá más tarde, que los
pasajeros inconscientes están involucrados en el Festival de la Salchicha.
[Hay un final feliz. Cuando los pasajeros del autobús recuperaron la conciencia, los funcionarios
del estudio Cambiando Vidas les ofrecieron asesoramiento sobre los peligros de una dieta rica en
grasas saturadas, lo que hizo que muchos de ellos adoptaran hábitos alimentarios más saludables
para el corazón. Mientras tanto, el zorro fue cuidado hasta que recuperó la salud en una reserva de
*
vida silvestre local y finalmente fue liberado nuevamente en la naturaleza.]
Machine Translated by Google
He tratado de ceñirme a lo básico en este capítulo. Debe tener en cuenta que para que se aplique el
teorema del límite central, los tamaños de muestra deben ser relativamente grandes (más de 30
como regla general). También necesitamos una muestra relativamente grande si vamos a suponer
que la desviación estándar de la muestra es aproximadamente la misma que la desviación estándar
de la población de la que se extrae. Hay muchas correcciones estadísticas que se pueden aplicar
cuando no se cumplen estas condiciones, pero eso es todo el glaseado del pastel (y tal vez incluso
una pizca del glaseado del pastel).
El “panorama general” aquí es simple y tremendamente poderoso: 1.
Si se extraen muestras aleatorias grandes de cualquier población, las medias de esas muestras
se distribuirán normalmente alrededor de la media poblacional (independientemente de cómo
se vea la distribución de la población subyacente). ).
2. La mayoría de las medias muestrales estarán razonablemente cercanas a la media
poblacional; el error estándar es lo que define "razonablemente cerca".
3. El teorema del límite central nos dice la probabilidad de que una media muestral se encuentre
dentro de una cierta distancia de la media poblacional. Es relativamente improbable que una
media muestral se encuentre a más de dos errores estándar de la media poblacional, y
extremadamente improbable que se encuentre a tres o más errores estándar de la media
poblacional.
4. Cuanto menos probable sea que un resultado haya sido observado por casualidad, más
seguros podremos estar al suponer que hay algún otro factor en juego.
De eso se trata más o menos la inferencia estadística. El teorema del límite central es lo que hace
posible la mayor parte de esto. Y hasta que Lebron James gane tantos campeonatos de la NBA como
Michael Jordan (seis), el teorema del límite central será mucho más impresionante que él.
* Mi colega de la Universidad de Chicago, Jim Sallee, hace una crítica muy importante de los ejemplos de autobuses perdidos.
Señala que muy pocos autobuses se pierden. Entonces, si estamos buscando un autobús perdido, cualquier autobús que
aparezca perdido o chocado probablemente será ese autobús, independientemente del peso de los pasajeros en el autobús. El
tiene razón. (Piénselo: si pierde a su hijo en un supermercado y el gerente de la tienda le dice que hay un niño perdido cerca
de la caja registradora seis, concluiría inmediatamente que probablemente sea su hijo). Por lo tanto, vamos a A estos ejemplos
hay que añadir un elemento más de absurdo y pretender que los autobuses se pierden todo el tiempo.
Machine Translated by Google
CAPÍTULO 9
Inferencia
Por qué mi profesor de estadística
pensó que podría haber hecho trampa
obtenga una puntuación por debajo del promedio en el examen parcial y luego cerca de los mejores de la clase en
el final.
Le expliqué que había terminado mi tesis y que me había tomado en serio la clase (haciendo
cosas como leer los capítulos del libro de texto asignados y hacer la tarea). Parecía contento con
esta explicación y me fui, todavía algo inquieto por la acusación implícita.
Lo creas o no, esta anécdota encarna gran parte de lo que necesitas saber sobre la inferencia
estadística, incluidas tanto sus fortalezas como sus posibles debilidades. Las estadísticas no
pueden demostrar nada con certeza. En cambio, el poder de la inferencia estadística se deriva de
observar algún patrón o resultado y luego utilizar la probabilidad para determinar la explicación más
probable para ese resultado.
Supongamos que un jugador extraño llega a la ciudad y le ofrece una apuesta: gana 1.000 dólares
si saca un seis con un solo dado; ganas $500 si tira cualquier otra cosa, una apuesta bastante
buena desde tu punto de vista. Luego procede a tirar diez seises seguidos, quitándote $10,000.
Una posible explicación es que tuvo suerte. Una explicación alternativa es que hizo trampa de
alguna manera. La probabilidad de sacar diez seises seguidos con un dado justo es aproximadamente
de 1 entre 60 millones. No puedes probar que hizo trampa, pero al menos deberías inspeccionar el
dado.
Por supuesto, la explicación más probable no siempre es la correcta.
Suceden cosas extremadamente raras. Linda Cooper es una mujer de Carolina del Sur que fue
alcanzada por un rayo cuatro veces. 1 (La Administración Federal para el Manejo de
Emergencias estima que la probabilidad de ser alcanzado por un rayo sólo una vez es de 1 entre
600.000.) La compañía de seguros de Linda Cooper no puede negarle cobertura simplemente
porque sus lesiones son estadísticamente improbables. Volviendo a mi examen de estadística de
pregrado, el profesor tenía motivos razonables para sospechar. Vio un patrón que era muy
improbable; Así es exactamente como los investigadores detectan las trampas en los exámenes
estandarizados y cómo la SEC detecta el uso de información privilegiada. Pero un patrón improbable
es simplemente un patrón improbable a menos que sea corroborado por evidencia adicional. Más
adelante en este capítulo analizaremos los errores que pueden surgir cuando la probabilidad nos
desvía.
Por ahora, debemos apreciar que la inferencia estadística utiliza datos para abordar preguntas
importantes. ¿Es un nuevo fármaco eficaz en el tratamiento de enfermedades cardíacas? ¿Los
teléfonos móviles causan cáncer de cerebro? Tenga en cuenta que no estoy afirmando que las
estadísticas puedan responder este tipo de preguntas de manera inequívoca; en cambio, la
inferencia nos dice qué es probable y qué es improbable. Los investigadores no pueden probar que
un nuevo medicamento sea eficaz en el tratamiento de enfermedades cardíacas, incluso cuando
cuentan con datos de un ensayo clínico cuidadosamente controlado. Después de todo, es muy
posible que haya una variación aleatoria en los resultados de los pacientes en los grupos de tratamiento y control q
Machine Translated by Google
Los datos: se elige aleatoriamente un grupo para recibir el nuevo fármaco experimental y un grupo
de control recibe un placebo. Al final de un período de tiempo, el grupo que recibe el fármaco
experimental tiene muchos menos casos de malaria que el grupo de control. Este sería un resultado
extremadamente improbable si el fármaco experimental no tuviera impacto médico. Como resultado,
rechazamos la hipótesis nula de que el nuevo fármaco no tiene ningún impacto (más allá del de un
placebo) y aceptamos la alternativa lógica, que es nuestra hipótesis alternativa: este nuevo fármaco
experimental puede ayudar a prevenir la malaria.
Este enfoque metodológico es tan extraño que deberíamos hacer un ejemplo más. Nuevamente,
observe que la hipótesis nula y la hipótesis alternativa son complementos lógicos. Si uno es cierto, el
otro no lo es. O, si rechazamos una afirmación, debemos aceptar la otra.
Hipótesis nula: el tratamiento por abuso de sustancias para los presos no reduce su
Tasa de nuevas detenciones después de salir de prisión.
Hipótesis alternativa: El tratamiento por abuso de sustancias para los prisioneros hará que sea
menos probable que sean arrestados nuevamente después de su liberación.
Los datos (hipotéticos): los prisioneros fueron asignados aleatoriamente a dos grupos; el grupo de
“tratamiento” recibió tratamiento por abuso de sustancias y el grupo de control no. (¡Esta es una de esas
ocasiones interesantes en las que el grupo de tratamiento realmente recibe tratamiento!) Al cabo de
cinco años, ambos grupos tienen tasas similares de reingresos.
En este caso, no podemos rechazar la hipótesis nula. * Los datos no nos han dado ninguna
razón para descartar nuestra suposición inicial de que el tratamiento por abuso de sustancias no es una
herramienta eficaz para evitar que los ex delincuentes regresen a prisión.
Puede parecer contradictorio, pero los investigadores suelen crear una hipótesis nula con la
esperanza de poder rechazarla. En los dos ejemplos anteriores, un “éxito” de la investigación (encontrar
un nuevo medicamento contra la malaria o reducir la reincidencia) implicó rechazar la hipótesis nula.
Los datos lo hicieron posible sólo en uno de los casos (el
Machine Translated by Google
La nota de mi examen final de estadística no estaba sincronizada con mi nota de mitad de semestre.
Los funcionarios de Atlanta no pudieron probar que se estuvieran haciendo trampas. Sin embargo,
podrían rechazar la hipótesis nula de que los resultados fueran legítimos. Y podían hacerlo con un
"alto grado de confianza", lo que significa que el patrón observado era casi imposible entre los
examinados normales. Por lo tanto, aceptaron explícitamente la hipótesis alternativa, que es que
algo sospechoso estaba pasando. (Sospecho que usaron un lenguaje que parecía más oficial). De
hecho, la investigación posterior descubrió los “borradores humeantes”. Hubo informes de maestros
que cambiaban respuestas, daban respuestas, permitían que los niños con puntajes bajos copiaran
a los niños con puntajes altos e incluso señalaban las respuestas mientras estaban parados frente
a los escritorios de los estudiantes. La trampa más atroz involucró a un grupo de profesores que
celebraron una fiesta de pizza el fin de semana durante la cual revisaron hojas de exámenes y
cambiaron las respuestas de los estudiantes.
En el ejemplo de Atlanta, podríamos rechazar la hipótesis nula de “no hacer trampa” porque el
patrón de resultados de las pruebas era tremendamente improbable en ausencia de juego sucio.
Pero, ¿hasta qué punto tiene que ser inverosímil la hipótesis nula antes de que podamos rechazarla
e invitar a alguna explicación alternativa?
Uno de los umbrales más comunes que utilizan los investigadores para rechazar una hipótesis
nula es el 5 por ciento, que a menudo se escribe en forma decimal: 0,05. Esta probabilidad se
conoce como nivel de significancia y representa el límite superior de la probabilidad de observar
algún patrón de datos si la hipótesis nula fuera cierta. Quédate conmigo por un momento, porque en
realidad no es tan complicado.
Pensemos en un nivel de significancia de .05. Podemos rechazar una hipótesis nula al nivel de
0,05 si hay menos del 5 por ciento de posibilidades de obtener un resultado al menos tan extremo
como el que habríamos observado si la hipótesis nula fuera cierta. Un ejemplo sencillo puede aclarar
esto mucho. Odio hacerte esto, pero asume una vez más que te han asignado tareas de autobús
perdido (en parte debido a tus valientes esfuerzos en el último capítulo). Solo que ahora está
trabajando a tiempo completo para los investigadores del estudio Cambiando Vidas y ellos le han
brindado datos excelentes para ayudarlo a informar su trabajo. Cada autobús operado por los
organizadores del estudio tiene aproximadamente 60 pasajeros, por lo que podemos tratar a los
pasajeros de cualquier autobús como una muestra aleatoria extraída de toda la población de
Changing Lives. Una mañana te despierta la noticia de que un grupo terrorista proobesidad ha
secuestrado un autobús en el área de Boston.
* Su trabajo consiste en dejarse caer desde un
helicóptero hasta el techo del autobús en movimiento, colarse dentro a través de la salida de
emergencia y luego determinar sigilosamente si los pasajeros son participantes de Changing Lives,
basándose únicamente en su peso. (En serio, esto no es más inverosímil que la mayoría de las
tramas de acción y aventuras, y es mucho más educativo).
Cuando el helicóptero despega de la base de comando, te entregan una máquina.
Machine Translated by Google
pistola, varias granadas, un reloj que también funciona como cámara de vídeo de alta resolución y los
datos que calculamos en el último capítulo sobre el peso medio y el error estándar de las muestras
extraídas de los participantes de Cambiando Vidas. Cualquier muestra aleatoria de 60 participantes
tendrá un peso medio esperado de 162 libras y una desviación estándar de 36 libras, ya que esa es
la media y la desviación estándar de todos los participantes en el estudio (la población). Con esos
datos, podemos calcular el error estándar de la media muestral: en el control de la misión, se escanea
la siguiente distribución en el interior de la retina derecha, para que pueda consultarla después de
penetrar en el autobús en movimiento y pesar en secreto a todos los pasajeros. adentro.
Te subes con éxito al autobús en movimiento y pesas en secreto a todos los pasajeros. El
peso medio de esta muestra de 60 personas es 136 libras, lo que está más de dos errores
estándar por debajo de la media. (Otra pista importante es que todos los pasajeros son niños
que visten "Glendale Hockey Camp".
camisetas.)
Según las instrucciones de su misión, puede rechazar la hipótesis nula de que este autobús
contiene una muestra aleatoria de 60 participantes del estudio Cambiando Vidas con un nivel de
significancia de 0,05. Esto significa (1) el peso medio en el autobús cae dentro de un rango que
esperaríamos observar sólo 5 veces de cada 100 si la hipótesis nula fuera cierta y este fuera
realmente un autobús lleno de pasajeros de Cambiando Vidas; (2) se puede rechazar la hipótesis
nula con un nivel de significancia de 0,05; y (3) en promedio, 95 de cada 100 veces habrás
rechazado correctamente la hipótesis nula, y 5 de cada 100 veces te equivocarás, es decir que
habrás concluido que este no es un autobús de participantes de Cambiando Vidas, cuando en
De hecho lo es. Resulta que esta muestra de personas de Changing Lives tiene un peso medio
particularmente alto o bajo en relación con la media de los participantes del estudio en general.
[Esta historia también tiene un final feliz. Una vez que los terroristas proobesidad aprendan
más sobre el Festival Internacional de la Salchicha de su ciudad, aceptarán abandonar la
violencia y trabajar pacíficamente para promover la obesidad expandiendo y promoviendo los
festivales de la salchicha en todo el mundo.]
Si el nivel de significancia de 0,05 parece algo arbitrario, es porque lo es. No existe un umbral
estadístico único estandarizado para rechazar una hipótesis nula. Tanto 0,01 como 0,1 también
son umbrales razonablemente comunes para realizar el tipo de análisis descrito anteriormente.
Obviamente, rechazar la hipótesis nula en el nivel 0,01 (lo que significa que hay menos de 1
probabilidad entre 100 de observar un resultado en este rango si la hipótesis nula fuera cierta)
conlleva más peso estadístico que rechazar la hipótesis nula.
Machine Translated by Google
hipótesis en el nivel .1 (lo que significa que hay menos de 1 probabilidad entre 10 de observar
este resultado si la hipótesis nula fuera cierta). Los pros y los contras de los diferentes niveles
de significancia se discutirán más adelante en este capítulo. Por ahora, el punto importante es
que cuando podemos rechazar una hipótesis nula con algún nivel de significancia razonable, se
dice que los resultados son "estadísticamente significativos".
Esto es lo que eso significa en la vida real. Cuando lees en el periódico que las personas
que comen veinte muffins de salvado al día tienen tasas más bajas de cáncer de colon que las
personas que no comen cantidades prodigiosas de salvado, la investigación académica
subyacente probablemente se parecía a esto: (1) En algunos grandes datos En conjunto, los
investigadores determinaron que las personas que comían al menos veinte muffins de salvado
al día tenían una menor incidencia de cáncer de colon que las personas que no comían mucho
salvado. (2) La hipótesis nula de los investigadores fue que comer muffins de salvado no tiene
ningún impacto sobre el cáncer de colon. (3) La disparidad en los resultados del cáncer de colon
entre quienes comieron muchas magdalenas de salvado y quienes no lo hicieron no podría
explicarse fácilmente sólo por el azar. Más específicamente, si comer muffins de salvado no
tiene una verdadera asociación con el cáncer de colon, la probabilidad de que se produzca una
diferencia tan amplia en la incidencia de cáncer entre los que comen salvado y los que no lo
hacen por casualidad es inferior a algún umbral, como 0,05. (Los investigadores deben
establecer este umbral antes de realizar su análisis estadístico para evitar elegir un umbral
después del hecho que sea conveniente para que los resultados parezcan significativos). (4) El
artículo académico probablemente contenga una conclusión que diga algo parecido a este :
“Encontramos una asociación estadísticamente significativa entre el consumo diario de veinte o
más muffins de salvado y una incidencia reducida de cáncer de colon. Estos resultados son
significativos al nivel de .05”.
Cuando leí posteriormente sobre ese estudio en el Chicago SunTimes mientras desayunaba
huevos con tocino, el titular probablemente sea más directo e interesante: “20 muffins de
salvado al día ayudan a mantener alejado el cáncer de colon”. Sin embargo, ese titular de
periódico, si bien es mucho más interesante de leer que el artículo académico, también puede
estar introduciendo una grave inexactitud. En realidad, el estudio no afirma que comer muffins
de salvado reduzca el riesgo de que una persona contraiga cáncer de colon; simplemente
muestra una correlación negativa entre el consumo de muffins de salvado y la incidencia de
cáncer de colon en un gran conjunto de datos. Esta asociación estadística no es suficiente para
demostrar que las magdalenas de salvado mejoran los resultados de salud. Después de todo,
el tipo de personas que comen muffins de salvado (¡particularmente veinte al día!) pueden hacer
muchas otras cosas que reducen su riesgo de cáncer, como comer menos carne roja, hacer
ejercicio regularmente, hacerse exámenes de detección de cáncer, etc.
(Éste es el “sesgo del usuario saludable” del Capítulo 7.) ¿Son los muffins de salvado los que
actúan aquí, o son otros comportamientos o atributos personales que comparten las personas
que comen muchos muffins de salvado? Esta distinción entre correlación y
Machine Translated by Google
Permítanme hacer una pausa aquí para recordarles por qué todo esto es importante. Un artículo del
Wall Street Journal de mayo de 2011 llevaba el título “Vínculo entre el autismo y el tamaño del cerebro”.
Se trata de un avance importante, ya que las causas del trastorno del espectro autista siguen siendo
difíciles de alcanzar. La primera frase del artículo del Wall Street Journal , que resume un artículo
publicado en Archives of General Psychiatry, informa: “Los niños con autismo tienen cerebros más
grandes que los niños sin el trastorno, y el crecimiento parece ocurrir antes de los 2 años, según un
estudio. Nuevo estudio publicado el lunes”.
4
Basado en imágenes cerebrales realizadas a 59 niños con autismo
Machine Translated by Google
En este estudio, los niños con trastorno del espectro autista tenían un volumen cerebral medio
de 1.310,4 centímetros cúbicos; los niños del grupo de control tenían un volumen cerebral medio
de 1238,8 centímetros cúbicos. Por tanto, la diferencia en el volumen cerebral medio entre los
dos grupos es de 71,6 centímetros cúbicos. ¿Qué probabilidad tendría este resultado si en
realidad no hubiera diferencias en el tamaño promedio del cerebro en la población general entre
los niños que tienen un trastorno del espectro autista y los que no lo tienen?
Quizás recuerdes del último capítulo que podemos crear un error estándar para cada una de
nuestras muestras: donde s es la desviación estándar de la muestra y n es el número de
observaciones. El trabajo de investigación nos da estas cifras. El error estándar para el volumen
cerebral total de los 59 niños de la muestra de trastornos del espectro autista es de 13 centímetros
cúbicos; el error estándar para el volumen cerebral total de los 38 niños del grupo de control es
de 18 centímetros cúbicos. Recordará que el teorema del límite central nos dice que para 95
muestras de 100, la media muestral estará dentro de dos errores estándar de la media poblacional
verdadera, en una dirección u otra.
Como resultado, podemos inferir de nuestra muestra que 95 de cada 100 veces el intervalo
de 1310,4 centímetros cúbicos ± 26 (que son dos errores estándar) contendrá el volumen
cerebral promedio de todos los niños con trastorno del espectro autista. Esta expresión se llama
intervalo de confianza. Podemos decir con un 95 por ciento.
Machine Translated by Google
Confianza en que el rango de 1284,4 a 1336,4 centímetros cúbicos contiene el volumen cerebral
total promedio de los niños de la población general con trastorno del espectro autista.
Utilizando la misma metodología, podemos decir con un 95 por ciento de confianza que el
intervalo de 1238,8 ± 36, o entre 1202,8 y 1274,8 centímetros cúbicos, incluirá el volumen
cerebral promedio de los niños de la población general que no padecen el trastorno del espectro
autista.
Sí, hay muchos números aquí. Quizás acabas de arrojar el libro al otro lado de la habitación.
* Si no, o si luego fue y recuperó el libro, lo que debería notar es que
nuestros intervalos de confianza no se superponen. El límite inferior de nuestro intervalo de
confianza del 95 por ciento para el tamaño promedio del cerebro de los niños con autismo en la
población general (1284,4 centímetros cúbicos) es aún mayor que el límite superior del intervalo
de confianza del 95 por ciento para el tamaño promedio del cerebro de los niños pequeños en la
población general. población sin autismo (1274,8 centímetros cúbicos), como ilustra el siguiente
diagrama.
Esta es la primera pista de que puede haber una diferencia anatómica subyacente en los
cerebros de niños pequeños con trastorno del espectro autista. Aún así, es sólo una pista.
Todas estas inferencias se basan en datos de menos de 100 niños. Quizás solo tengamos
muestras extravagantes.
Un último procedimiento estadístico puede hacer que todo esto se haga realidad. Si las
estadísticas fueran un evento olímpico como el patinaje artístico, este sería el último programa,
después del cual los fanáticos eufóricos arrojan ramos de flores sobre el hielo. Podemos calcular
la probabilidad exacta de observar una diferencia de medias al menos así de grande (1310,4
centímetros cúbicos versus 1238,8 centímetros cúbicos) si realmente no hay diferencia en el
tamaño del cerebro entre los niños con espectro autista y todos los demás niños de la población
general. Podemos encontrar un valor p para la diferencia de medias observada.
Para que no arrojes el libro otra vez por la habitación, he incluido la fórmula en un apéndice.
La intuición es bastante sencilla. Si extraemos dos muestras grandes de la misma población,
esperaríamos que tuvieran medias muy similares. De hecho, nuestra mejor suposición es que
tendrán medios idénticos. Por ejemplo, si tuviera que seleccionar 100 jugadores de la NBA y
tuvieran una altura promedio de 6 pies y 7 pulgadas, entonces esperaría otra muestra aleatoria
de 100 jugadores de la NBA.
Machine Translated by Google
La NBA tendrá una altura media cercana a los 6 pies y 7 pulgadas. Bien, tal vez las dos muestras estén
separadas por una pulgada o dos. Pero es menos probable que las medias de las dos muestras estén
separadas por 4 pulgadas, y aún menos probable que haya una diferencia de 6 u 8 pulgadas. Resulta
que podemos calcular un error estándar para la diferencia entre dos medias muestrales; este error
estándar nos da una medida de la dispersión que podemos esperar, en promedio, cuando restamos una
media muestral de la otra. (Como se señaló anteriormente, la fórmula se encuentra en el apéndice del
capítulo). Lo importante es que podemos usar este error estándar para calcular la probabilidad de que
dos muestras provengan de la misma población. Así es como funciona:
Como se señaló anteriormente, la diferencia en el tamaño medio del cerebro entre la muestra de
niños con trastorno del espectro autista y el grupo de control es de 71,6 centímetros cúbicos. El error
estándar de esa diferencia es 22,7, lo que significa que la diferencia de medias entre las dos muestras
es más de tres errores estándar desde cero; esperaríamos un resultado tan extremo (o más) sólo 2
veces entre 1.000 si estas muestras se extraen de una población idéntica.
En el artículo publicado en Archives of General Psychiatry, los autores informan un valor p de 0,002,
como mencioné anteriormente. ¡Ahora sabes de dónde vino!
A pesar de todas las maravillas de la inferencia estadística, existen algunos inconvenientes importantes.
Se derivan del ejemplo que introducía el capítulo: mi sospechoso profesor de estadística. El poderoso
proceso de inferencia estadística se basa en la probabilidad, no en algún tipo de certeza cósmica. No
queremos enviar gente a la cárcel sólo por hacer el equivalente a sacar dos escaleras reales seguidas;
Puede suceder , incluso si alguien no está haciendo trampa. Como resultado, nos encontramos ante un
dilema fundamental cuando se trata de cualquier tipo de prueba de hipótesis.
Machine Translated by Google
Esta realidad estadística llegó a un punto crítico en 2011, cuando el Journal of Personality and
Social Psychology se preparó para publicar un artículo académico que, en apariencia, parecía
6
miles de otros artículos académicos. Un profesor de Cornell
propuso explícitamente una hipótesis nula, realizó un experimento para probar su hipótesis nula
y luego rechazó la hipótesis nula con una significancia de 0,05 sobre la base de los resultados
experimentales. El resultado fue un gran revuelo, tanto en los círculos científicos como en los
principales medios de comunicación como el New York Times.
Baste decir que los artículos del Journal of Personality and Social Psychology no suelen atraer
grandes titulares. ¿Qué hizo exactamente que este estudio fuera tan controvertido? El investigador
en cuestión estaba probando la capacidad de los humanos para ejercer la percepción
extrasensorial o ESP. La hipótesis nula fue que la PES no existe; la hipótesis alternativa era que
los humanos tienen poderes extrasensoriales. Para estudiar esta cuestión, el investigador reclutó
una gran muestra de participantes para examinar dos “cortinas” colocadas en la pantalla de una
computadora. Un programa de software coloca al azar una foto erótica detrás de una cortina u
otra. En ensayos repetidos, los participantes del estudio pudieron elegir la cortina con la foto
erótica detrás el 53 por ciento de las veces, mientras que la probabilidad dice que acertarían sólo
el 50 por ciento de las veces. Debido al gran tamaño de la muestra, el investigador pudo rechazar
la hipótesis nula de que la percepción extrasensorial no existe y aceptar en su lugar la hipótesis
alternativa de que la percepción extrasensorial puede permitir a los individuos sentir eventos
futuros. La decisión de publicar el artículo fue ampliamente criticada con el argumento de que un
único evento estadísticamente significativo puede ser fácilmente producto del azar, especialmente
cuando no hay otra evidencia que corrobore o incluso explique el hallazgo. El New York Times
resumió las críticas: “Las afirmaciones que desafían casi todas las leyes de la ciencia son por
definición extraordinarias y, por lo tanto, requieren evidencia extraordinaria.
No tener esto en cuenta (como lo hacen los análisis convencionales de las ciencias sociales)
hace que muchos hallazgos parezcan mucho más significativos de lo que realmente son”.
Una respuesta a este tipo de tonterías parecería ser un umbral más riguroso para definir la
*
significación estadística, como 0,001. Pero eso crea sus
propios problemas. Elegir un nivel de significancia apropiado implica una compensación inherente.
Si nuestra carga de prueba para rechazar la hipótesis nula es demasiado baja (por ejemplo,
.1), nos encontraremos periódicamente rechazando la hipótesis nula cuando en realidad es cierta
(como sospecho que fue el caso con el estudio ESP). En lenguaje estadístico, esto se conoce
como error de tipo I. Consideremos el ejemplo de un tribunal estadounidense, donde la hipótesis
nula es que un acusado no es culpable y el umbral para rechazar esa hipótesis nula es “culpable
más allá de toda duda razonable”. Supongamos que nosotros
Machine Translated by Google
Si relajamos ese umbral a algo así como "un fuerte presentimiento de que el tipo lo hizo". Esto
garantizará que más criminales vayan a la cárcel, y también más personas inocentes. En un
contexto estadístico, esto equivale a tener un nivel de significancia relativamente bajo, como 0,1.
¿Qué tipo de error es peor? Eso depende de las circunstancias. El punto más importante es
que reconozca la compensación. No existe un “almuerzo gratis” estadístico. Consideremos estas
situaciones no estadísticas, todas las cuales implican un equilibrio entre errores de tipo I y tipo II.
enviar un mensaje de correo electrónico que en realidad no es spam (un falso positivo). Un
error de tipo II implicaría dejar que el spam pase por el filtro de su bandeja de entrada (un
falso negativo). Dados los costos de perder un correo electrónico importante en comparación
con los costos de recibir un mensaje ocasional sobre vitaminas a base de hierbas, la
mayoría de la gente probablemente se equivocaría al permitir errores de Tipo II. Un filtro de
spam diseñado óptimamente debería requerir un grado relativamente alto de certeza antes
de rechazar la hipótesis nula de que un correo electrónico entrante es legítimo y bloquearlo.
Nuestra hipótesis nula es que las dos medias muestrales son iguales. La fórmula anterior
calcula la diferencia de medias observada en relación con el tamaño del error estándar para la
diferencia de medias. Nuevamente nos apoyamos en gran medida en la distribución normal. Si
las medias poblacionales subyacentes son realmente las mismas, entonces esperaríamos que
la diferencia en las medias muestrales fuera menor que un error estándar alrededor del 68 por
ciento de las veces; menos de dos errores estándar aproximadamente el 95 por ciento de las
veces; etcétera.
En el ejemplo del autismo del capítulo, la diferencia en la media entre las dos muestras fue
de 71,6 centímetros cúbicos con un error estándar de 22,7. La relación de esa diferencia
observada es 3,15, lo que significa que las dos muestras tienen medias que están separadas
por más de 3 errores estándar. Como se señaló en el capítulo, la probabilidad de obtener
muestras con medias tan diferentes si las poblaciones subyacentes tienen la misma media es
muy, muy baja. Específicamente, la probabilidad de observar una diferencia de medias de 3,15
errores estándar o mayor es 0,002.
En ambos casos, supongamos que vamos a hacer una prueba de significancia al nivel
0,05. Rechazaremos nuestra hipótesis nula si observamos una diferencia de alturas entre las
dos muestras que ocurriría 5 veces de cada 100 o menos si todos estos tipos realmente
tuvieran la misma altura. Hasta ahora, todo bien.
Aquí es donde las cosas se vuelven un poco más matizadas. Cuando nuestra hipótesis
alternativa es que los jugadores de baloncesto son más altos que otros hombres, vamos a
hacer una prueba de hipótesis de una cola. Mediremos la diferencia en la altura media entre
nuestra muestra de jugadores de baloncesto masculinos y nuestra muestra de hombres normales.
Sabemos que si nuestra hipótesis nula es cierta, entonces observaremos una diferencia de
1,64 errores estándar o más solo 5 veces de 100. Rechazamos nuestra hipótesis nula si
nuestro resultado cae en este rango, como muestra el siguiente diagrama.
Ahora revisemos la otra hipótesis alternativa: que los jugadores de baloncesto masculinos
podrían ser más altos o más bajos que la población general. Nuestro enfoque general es el
mismo. Nuevamente, rechazaremos nuestra hipótesis nula de que los jugadores de baloncesto
tienen la misma altura que la población general si obtenemos un resultado que ocurriría 5 veces
de cada 100 o menos si realmente no hay diferencia de alturas. La diferencia, sin embargo, es
que ahora debemos considerar la posibilidad de que los jugadores de baloncesto sean más
bajos que la población general. Por lo tanto, rechazaremos nuestra hipótesis nula si nuestra
muestra de jugadores de baloncesto masculinos tiene una altura media significativamente
mayor o menor que la altura media de nuestra muestra de hombres normales. Esto requiere
una prueba de hipótesis de dos colas. Los puntos de corte para rechazar nuestra hipótesis nula
serán diferentes porque ahora debemos tener en cuenta la posibilidad de una gran diferencia
en las medias muestrales en ambas direcciones: positiva o negativa. Más específicamente, el
rango en el que rechazaremos nuestra hipótesis nula se ha dividido entre las dos colas.
Seguiremos rechazando nuestra hipótesis nula si obtenemos un resultado que ocurriría el 5 por
ciento de las veces o menos si los jugadores de baloncesto tienen la misma altura que la
población general; sólo que ahora tenemos dos formas diferentes de acabar rechazando la
hipótesis nula.
Rechazaremos nuestra hipótesis nula si la altura media de la muestra de jugadores de
baloncesto masculinos es mucho mayor que la media de los hombres normales que
observaríamos tal resultado sólo 2,5 veces de cada 100 si los jugadores de baloncesto
realmente tuvieran la misma altura que todos. demás.
Y rechazaremos nuestra hipótesis nula si la altura media de la muestra de jugadores de
baloncesto masculinos es mucho menor que la media de los hombres normales que
observaríamos tal resultado sólo 2,5 veces de cada 100 si los jugadores de baloncesto tuvieran
realmente la misma altura que todos los demás.
Juntas, estas dos contingencias suman el 5 por ciento, como lo ilustra el siguiente diagrama.
Machine Translated by Google
* Por una cuestión de semántica, no hemos demostrado que la hipótesis nula sea cierta (que el tratamiento por abuso de sustancias no
tiene ningún efecto). Puede resultar extremadamente eficaz para otro grupo de presos. O quizás muchos más prisioneros de este grupo
de tratamiento habrían sido arrestados nuevamente si no hubieran recibido el tratamiento. En cualquier caso, sobre la base de los datos
recopilados, simplemente no hemos podido rechazar nuestra hipótesis nula. Existe una distinción similar entre “no rechazar” una
hipótesis nula y aceptarla. Sólo porque un estudio no pudo refutar que el tratamiento por abuso de sustancias no tiene ningún efecto (sí,
un doble negativo) no significa que uno deba aceptar que el tratamiento por abuso de sustancias sea inútil. Aquí hay una distinción
estadística significativa. Dicho esto, la investigación suele estar diseñada para informar las políticas, y los funcionarios penitenciarios,
que tienen que decidir dónde asignar los recursos, podrían aceptar razonablemente la posición de que el tratamiento de sustancias es
ineficaz hasta que se les convenza de lo contrario. Aquí, como en tantas otras áreas de la estadística, el juicio importa.
* Este ejemplo está inspirado en hechos reales. Evidentemente se han cambiado muchos detalles por motivos de seguridad nacional.
No puedo confirmar ni negar mi propia participación.
* Para ser precisos, el 95 por ciento de todas las medias muestrales estarán dentro de 1,96 errores estándar por encima o por debajo
de la media poblacional.
* Hay dos posibles hipótesis alternativas. Una es que los jugadores de baloncesto profesionales masculinos son más altos que la
población masculina en general. La otra es simplemente que los jugadores de baloncesto profesionales masculinos tienen una altura
media diferente a la de la población masculina en general (dejando abierta la posibilidad de que los jugadores de baloncesto masculinos
en realidad sean más bajos que otros hombres). Esta distinción tiene un pequeño impacto cuando se realizan pruebas de significancia y
se calculan los valores p. Se explica en textos más avanzados y no es importante para nuestra discusión general aquí.
* Admito que una vez rompí un libro de estadísticas por la mitad debido a la frustración.
* Otra respuesta es intentar replicar los resultados en estudios adicionales.
Machine Translated by Google
CAPÍTULO 10
Votación
¿Cómo sabemos que el 64 por ciento de
Los estadounidenses apoyan la pena de muerte
(con un error de muestreo de ± 3 por ciento)
A finales de 2011, el New York Times publicó un artículo en primera plana en el que informaba que
1
“un profundo sentimiento de ansiedad y duda sobre el futuro se cierne sobre la nación”. La historia
profundizó en la psique de Estados Unidos y ofreció información sobre la opinión pública sobre
temas que van desde el desempeño de la administración Obama hasta la distribución de la riqueza.
He aquí una instantánea de lo que los estadounidenses dijeron en el otoño de 2011:
Se trata de cifras fascinantes que proporcionaron una visión significativa de las opiniones
estadounidenses un año antes de la carrera presidencial. Aún así, uno podría preguntarse
razonablemente: ¿Cómo sabemos todo esto? ¿Cómo podemos sacar conclusiones tan radicales?
Machine Translated by Google
¿Sobre las actitudes de cientos de millones de adultos? ¿Y cómo sabemos si estas amplias
conclusiones son exactas?
La respuesta, por supuesto, es que realizamos encuestas. O en el ejemplo anterior, el New
York Times y CBS News pueden realizar una encuesta. (El hecho de que dos organizaciones de
noticias en competencia colaboren en un proyecto como este es la primera pista de que realizar
una encuesta nacional metodológicamente sólida no es barato). No tengo ninguna duda de que
usted está familiarizado con los resultados de las encuestas. Puede que sea menos obvio que la
metodología de las encuestas sea sólo una forma más de inferencia estadística. Una encuesta (o
encuesta) es una inferencia sobre las opiniones de una población que se basa en las opiniones
expresadas por alguna muestra extraída de esa población.
El poder del sondeo surge de la misma fuente que nuestros ejemplos de muestreo anteriores:
el teorema del límite central. Si tomamos una muestra grande y representativa de votantes
estadounidenses (o de cualquier otro grupo), podemos suponer razonablemente que nuestra
muestra se parecerá mucho a la población de la que se extrae. Si exactamente la mitad de los
adultos estadounidenses desaprueba el matrimonio homosexual, entonces nuestra mejor
suposición sobre las actitudes de una muestra representativa de 1.000 estadounidenses es que
aproximadamente la mitad de ellos desaprobará el matrimonio homosexual.
Por el contrario, y lo que es más importante desde el punto de vista de las encuestas, si
tenemos una muestra representativa de 1.000 estadounidenses que se sienten de cierta manera,
como el 46 por ciento que desaprueba el desempeño laboral del presidente Obama, entonces
podemos inferir de esa muestra que la población general Es probable que sienta lo mismo.
De hecho, podemos calcular la probabilidad de que los resultados de nuestra muestra se desvíen
enormemente de las verdaderas actitudes de la población. Cuando leemos que una encuesta tiene
un “margen de error” de ± 3 por ciento, en realidad se trata del mismo tipo de intervalo de confianza
del 95 por ciento que calculamos en el capítulo anterior. Nuestra “confianza del 95 por ciento”
significa que si realizáramos 100 encuestas diferentes en muestras extraídas de la misma
población, esperaríamos que las respuestas que obtengamos de nuestra muestra en 95 de esas
encuestas estuvieran dentro de 3 puntos porcentuales en una dirección u otra de el verdadero
sentimiento de la población. En el contexto de la pregunta sobre aprobación del trabajo en la
encuesta del New York Times/CBS , podemos tener una confianza del 95 por ciento en que la
verdadera proporción de todos los estadounidenses que desaprueban la calificación del trabajo del
presidente Obama se encuentra en el rango del 46 por ciento ± 3 por ciento, o entre 43 por ciento
y 49 por ciento. Si lees la letra pequeña de la encuesta del New York Times/CBS (como te insto a
que hagas), eso es más o menos lo que dice: “En teoría, en 19 de 20 casos, los resultados
generales basados en dichas muestras diferirán por no más de 3 puntos porcentuales en cualquier
dirección de lo que se habría obtenido al intentar entrevistar a todos los adultos estadounidenses”.
Una diferencia fundamental entre una encuesta y otras formas de muestreo es que
Machine Translated by Google
la estadística muestral que nos interesa no será una media (p. ej., 187 libras) sino más bien un
porcentaje o proporción (p. ej., 47 por ciento de los votantes, o 0,47). En otros aspectos, el proceso
es idéntico. Cuando tenemos una muestra grande y representativa (la encuesta), esperaríamos
que la proporción de encuestados que se sienten de cierta manera en la muestra (por ejemplo, el
9 por ciento que piensa que el Congreso está haciendo un buen trabajo) sea aproximadamente
igual a la proporción de todos los estadounidenses que se sienten así. Esto no es diferente de
suponer que el peso medio de una muestra de 1.000 hombres estadounidenses debería ser
aproximadamente igual al peso medio de todos los hombres estadounidenses. Aun así, esperamos
cierta variación en el porcentaje que aprueba el Congreso de una muestra a otra, del mismo modo
que esperaríamos alguna variación en el peso medio al tomar diferentes muestras aleatorias de
1.000 hombres. Si el New York Times y la CBS hubieran realizado una segunda encuesta
(haciendo las mismas preguntas a una nueva muestra de 1.000 adultos estadounidenses) es muy
poco probable que los resultados de la segunda encuesta hubieran sido idénticos a los resultados
de la primera. Por otro lado, no debemos esperar que las respuestas de nuestra segunda muestra
difieran mucho de las respuestas dadas por la primera. (Para volver a la metáfora utilizada
anteriormente, si pruebas una cucharada de sopa, revuelves la olla y luego vuelves a probar, las
dos cucharadas tendrán un sabor similar).
El error estándar es lo que nos dice cuánta dispersión podemos esperar en nuestros resultados
de una muestra a otra, lo que en este caso significa encuesta a encuesta.
La fórmula para calcular un error estándar para un porcentaje o proporción es ligeramente
diferente de la fórmula presentada anteriormente; la intuición es exactamente la misma. Para
cualquier muestra aleatoria correctamente extraída, el error estándar es igual a donde p es la
proporción de encuestados que expresan una opinión particular, (1 – p) es la proporción
de encuestados que expresan una opinión diferente y n es el número total de encuestados en la
muestra. muestra. Debería ver que el error estándar disminuirá a medida que el tamaño de la
muestra aumente, ya que n está en el denominador. El error estándar también tiende a ser menor
cuando p y (1 – p) están muy separados. Por ejemplo, el error estándar será menor en una
encuesta en la que el 95 por ciento de los encuestados expresa una determinada opinión que en
una encuesta en la que las opiniones tienden a dividirse 5050. Esto es sólo matemática, ya que
(0,05)(0,95) = 0,047, mientras que (0,5)(0,5) = 0,25; un número menor en el numerador de la
fórmula conduce a un error estándar menor.
Como ejemplo, supongamos que una simple “encuesta a pie de urna” entre 500 votantes
representativos el día de las elecciones revela que el 53 por ciento votó por el candidato
republicano; El 45 por ciento de los votantes votó por el demócrata; y el 2 por ciento apoyó a un
candidato de un tercer partido. Si utilizamos al candidato republicano como nuestra proporción de
interés, la encuesta
error para
estándar sería este salida haría
Para simplificar, redondearemos el error estándar de esta encuesta a pie de urna a 0,02. Hasta
ahora, eso es sólo un número. Analicemos por qué ese número es importante. asumir el
Machine Translated by Google
Las urnas acaban de cerrarse y usted trabaja para una cadena de televisión que desea declarar un
ganador en la carrera antes de que estén disponibles los resultados completos. Ahora usted es el
analizador oficial de datos de la cadena (después de haber leído dos tercios de este libro) y su
productor quiere saber si es posible “convocar la carrera” sobre la base de esta encuesta a boca de
urna.
Usted explica que la respuesta depende de la confianza que la gente de la red quisiera tener en
el anuncio o, más específicamente, del riesgo que estén dispuestos a correr de equivocarse.
Recuerde, el error estándar nos da una idea de con qué frecuencia podemos esperar que nuestra
proporción muestral (la encuesta a pie de urna) se encuentre razonablemente cerca de la verdadera
proporción poblacional (el resultado electoral). Sabemos que aproximadamente el 68 por ciento de
las veces podemos esperar que la proporción de la muestra (el 53 por ciento de los votantes que
dijeron que votaron por el republicano en este caso) esté dentro de un error estándar del verdadero
recuento final. Como resultado, usted le dice a su productor “con un 68 por ciento de confianza” que
su muestra, que muestra que el republicano obtuvo el 53 por ciento de los votos ± 2 por ciento, o
entre el 51 y el 55 por ciento, ha capturado el verdadero recuento del candidato republicano. Mientras
tanto, la misma encuesta a pie de urna muestra que el candidato demócrata ha recibido el 45 por
ciento de los votos. Si asumimos que el recuento de votos para el candidato demócrata tiene el
mismo error estándar (una simplificación que explicaré en un minuto), podemos decir con un 68 por
ciento de confianza que la muestra de la encuesta a pie de urna, que muestra al demócrata con un
45 por ciento de el voto ± 2 por ciento, o entre 43 y 47 por ciento, contiene el verdadero recuento del
demócrata. Según este cálculo, el republicano es el ganador.
El departamento de gráficos se apresura a crear una elegante imagen tridimensional que puede
mostrar en la pantalla a sus espectadores: Republicano
Aún así habrá convocado las elecciones correctamente. O (2) existe una probabilidad
razonablemente alta de que el candidato demócrata haya recibido muchos más votos de los
que su encuesta ha reportado, en cuyo caso su elegante gráfico giratorio multicolor en 3D
habrá reportado al ganador equivocado.
Su productor arroja una taza de café al otro lado de la habitación y usa varias frases que
violan su libertad condicional. Ella grita: "¿Cómo podemos estar [eliminados] seguros de que
tenemos el resultado [eliminado] correcto?"
Siempre gurú de las estadísticas, señala que no puede estar seguro de ningún resultado
hasta que se cuenten todos los votos. Sin embargo, puede ofrecer un intervalo de confianza del
95 por ciento. En este caso, su gráfico giratorio, tridimensional y multicolor será incorrecto, en
promedio, sólo 5 de cada 100 veces.
Su productor enciende un cigarrillo y parece relajarse. Decide no mencionar la prohibición
de fumar en el lugar de trabajo, ya que la última vez resultó desastrosa.
Sin embargo, comparte algunas malas noticias. La única forma en que la emisora puede tener
más confianza en los resultados de sus encuestas es ampliando el “margen de error”. Y cuando
se hace eso, ya no hay un ganador claro en las elecciones. Le muestras a tu jefe el nuevo
gráfico elegante:
Republicano 53%
Demócrata 45%
Independiente 2%
(Margen de error 4%)
Sabemos por el teorema del límite central que aproximadamente el 95 por ciento de las
proporciones de la muestra estarán dentro de dos errores estándar de la verdadera proporción
de la población (que es del 4 por ciento en este caso). Por lo tanto, si queremos tener más
confianza en los resultados de nuestras encuestas, tenemos que ser menos ambiciosos en lo
que predecimos. Como ilustra el gráfico anterior (sin el 3D ni el color), con un nivel de confianza
del 95 por ciento, la estación de televisión puede anunciar que el candidato republicano ha
obtenido el 53 por ciento de los votos ± 4 por ciento, o entre el 49 y el 57 por ciento de los
votos. votos emitidos. Mientras tanto, el candidato demócrata obtuvo el 45 por ciento ± 4 por
ciento, o entre el 41 y el 49 por ciento de los votos emitidos.
Y sí, ahora tienes un nuevo problema. Con un nivel de confianza del 95 por ciento, no se
puede rechazar la posibilidad de que los dos candidatos estén empatados con el 49 por ciento
de los votos cada uno. Esta es una compensación inevitable; La única manera de estar más
seguro de que los resultados de sus encuestas serán consistentes con el resultado de las
elecciones sin nuevos datos es volverse más tímido en sus predicciones. Piense en un contexto
no estadístico. Suponga que le dice a un amigo que está “bastante seguro” de que Thomas
Jefferson fue el tercer o cuarto presidente. ¿Cómo puede tener más confianza en su
conocimiento histórico? Al ser menos específico. Eres
Machine Translated by Google
Es “absolutamente positivo” que Thomas Jefferson haya sido uno de los primeros cinco presidentes.
Tu productor te dice que pidas una pizza y te prepares para quedarte en el trabajo toda la noche. En ese
momento, la buena suerte estadística brilla sobre ti. Los resultados de una segunda encuesta a pie de urna
llegan a su escritorio con una muestra de 2.000 votantes. Estos resultados muestran lo siguiente:
Republicano (52 por ciento); Demócrata (45 por ciento); Independiente (3 por ciento). Su productor está
ahora completamente exasperado, ya que esta encuesta sugiere que la brecha entre los candidatos se ha
reducido, lo que hace aún más difícil para usted convocar la carrera a tiempo. ¡Pero espera! Usted señala
(heroicamente) que el tamaño de la muestra (2000) es cuatro veces mayor que la muestra de la primera
encuesta. Como resultado, el error estándar se reducirá significativamente. El nuevo error estándar para el
candidato republicano es 0,01.
Si su productor todavía se siente cómodo con un nivel de confianza del 95 por ciento, puede declarar
ganador al candidato republicano. Con su nuevo error estándar de .01, los intervalos de confianza del 95
por ciento para los candidatos son los siguientes: Republicano: 52 ± 2, o entre 50 y 54 por ciento de los
votos emitidos; Demócrata: 45 ± 2, o entre el 43 y el 47 por ciento de los votos emitidos. Ya no hay
superposición entre los dos intervalos de confianza. Se puede predecir al aire que el candidato republicano
será el ganador; más de 95 de cada 100 veces serás
correcto. *
Pero este caso es incluso mejor que eso. El teorema del límite central nos dice que el 99,7 por ciento de
las veces una proporción muestral estará dentro de tres errores estándar de la verdadera proporción
poblacional. En este ejemplo electoral, nuestros intervalos de confianza del 99,7 por ciento para los dos
candidatos son los siguientes: republicano, 52 ± 3 por ciento, o entre 49 y 55 por ciento; Demócrata, 45 ± 3
por ciento, o entre 42 y 48 por ciento. Si informa que el candidato republicano ha ganado, existe una
pequeña posibilidad de que usted y su productor sean despedidos, gracias a su nueva muestra de 2.000
votantes.
Debería ver que una muestra más grande genera un error estándar cada vez menor, que es la forma en
que las encuestas nacionales de gran tamaño pueden terminar con resultados sorprendentemente precisos.
Por otro lado, muestras más pequeñas obviamente generan errores estándar más grandes y, por lo tanto,
un intervalo de confianza más grande (o “margen de error de muestreo”, para usar la jerga de las encuestas).
La letra pequeña de la encuesta del New York Times/CBS señala que el margen de error de las preguntas
sobre las primarias republicanas es de 5 puntos porcentuales, en comparación con los 3 puntos porcentuales
de otras preguntas de la encuesta. Sólo se hicieron estas preguntas a los votantes autodenominados
republicanos de las primarias y del caucus, por lo que el tamaño de la muestra para este subgrupo de
preguntas se redujo a 455 (en comparación con 1.650 adultos para el resto de la encuesta).
Como siempre, he simplificado muchas cosas en este capítulo. Es posible que usted tenga
Machine Translated by Google
Muchas encuestas nacionales que plantean múltiples preguntas irán un paso más allá. En
el caso de la encuesta del New York Times/CBS , el error estándar debería ser técnicamente
diferente para cada pregunta, dependiendo de la respuesta. Por ejemplo, el error estándar para
encontrar que el 9 por ciento del público aprueba la forma en que el Congreso está manejando
su trabajo debería ser menor que el error estándar para la pregunta que encuentra que el 46
por ciento del público aprueba la forma en que el presidente Obama ha manejado su trabajo.
trabajo, ya que .09 × (.91) es menor que .46 × (.54) —0819 versus .2484. (La intuición detrás
de esta fórmula se explica en el apéndice de un capítulo).
Dado que sería confuso e inconveniente tener un error estándar diferente para cada
pregunta, las encuestas de esta naturaleza generalmente asumirán que la proporción muestral
para cada pregunta es 0,5 (o 50 por ciento), generando el error estándar más grande posible
para cualquier pregunta dada. tamaño de la muestra y luego adoptar ese error estándar para
calcular el margen de error de muestreo para toda la encuesta. *
Cuando se hacen correctamente, las encuestas son instrumentos asombrosos. Según Frank
Newport, editor en jefe de la Organización Gallup, una encuesta entre 1.000 personas puede
ofrecer información significativa y precisa sobre las actitudes de todo el país.
Estadísticamente hablando, tiene razón. Pero para obtener esos resultados significativos y
precisos, tenemos que realizar una encuesta adecuada y luego interpretar los resultados
correctamente, lo cual es mucho más fácil de decir que de hacer. Los malos resultados de las
encuestas no suelen deberse a malas matemáticas al calcular los errores estándar. Los malos
resultados de las encuestas suelen deberse a una muestra sesgada, a malas preguntas o a
ambas cosas. El mantra “basura entra, basura sale” se aplica con creces cuando se trata de
muestrear la opinión pública. A continuación se presentan las preguntas metodológicas clave
que uno debería plantearse al realizar una encuesta o al revisar el trabajo de otros.
¿Es esta una muestra precisa de la población cuyas opiniones estamos tratando de medir? En
el Capítulo 7 se analizaron muchos desafíos comunes relacionados con los datos.
No obstante, señalaré una vez más el peligro del sesgo de selección, particularmente
Machine Translated by Google
obteniendo una muestra imparcial. Obviamente, sería más barato y más fácil hacer llamadas
aleatorias a diferentes números hasta que una muestra suficientemente grande de adultos
haya cogido el teléfono y respondido las preguntas pertinentes. Sin embargo, una muestra de
este tipo estaría sesgada hacia las personas que probablemente estén en casa y contesten el
teléfono: los desempleados, los ancianos, etc. Eso está bien siempre y cuando esté dispuesto
a calificar los resultados de su encuesta de la siguiente manera: el índice de aprobación del
presidente Obama es del 46 por ciento entre los desempleados, los ancianos y otros que
están ansiosos por contestar llamadas telefónicas al azar.
Un indicador de la validez de una encuesta es la tasa de respuesta: ¿Qué proporción de
encuestados que fueron elegidos para ser contactados finalmente completaron la encuesta?
Una tasa de respuesta baja puede ser una señal de advertencia de un posible sesgo de muestreo.
Cuantas más personas opten por no responder la encuesta, o que simplemente no puedan
ser contactadas, mayor será la posibilidad de que este gran grupo sea diferente de alguna
manera material de aquellos que sí respondieron las preguntas. Los encuestadores pueden
comprobar el “sesgo de falta de respuesta” analizando los datos disponibles sobre los
encuestados con quienes no pudieron contactar. ¿Viven en una zona en particular? ¿Se
niegan a responder por algún motivo en particular? ¿Es más probable que sean de un grupo
racial, étnico o de ingresos en particular? Este tipo de análisis puede determinar si una baja
tasa de respuesta afectará o no los resultados de la encuesta.
¿Se han planteado las preguntas de manera que obtengan información precisa sobre el tema
de interés? Solicitar la opinión pública requiere más matices que medir los puntajes de las
pruebas o poner a los encuestados en una balanza para determinar su peso. Los resultados
de la encuesta pueden ser extremadamente sensibles a la forma en que se formula una pregunta.
Tomemos un ejemplo aparentemente simple: ¿Qué proporción de estadounidenses apoya la
pena capital? Como sugiere el título del capítulo, una mayoría sólida y consistente de
estadounidenses aprueba la pena de muerte. Según Gallup, cada año desde 2002, más del
60 por ciento de los estadounidenses han dicho que están a favor de la pena de muerte para
una persona condenada por asesinato. El porcentaje de estadounidenses que apoyan la pena
capital ha fluctuado en un rango relativamente estrecho desde un máximo del 70 por ciento en
2003 a un mínimo del 64 por ciento en varios momentos diferentes. Los datos de las encuestas
son claros: los estadounidenses apoyan la pena de muerte por un amplio margen.
O no. El apoyo estadounidense a la pena de muerte se desploma cuando se ofrece como
alternativa la cadena perpetua sin libertad condicional. Una encuesta de Gallup de 2006
encontró que sólo el 47 por ciento de los estadounidenses consideraba que la pena de muerte
era la pena apropiada para el asesinato, en comparación con el 48 por ciento que prefería la
invitados a una 2 cadena perpetua. Eso no es sólo un dato estadístico para divertir a los
cena en prisión. fiesta; significa que ya no existe un apoyo mayoritario a la pena capital cuando
la cadena perpetua sin libertad condicional es una alternativa creíble. cuando solicitamos
Machine Translated by Google
La opinión pública, la formulación de la pregunta y la elección del lenguaje pueden tener una
enorme importancia.
Los políticos a menudo explotan este fenómeno utilizando encuestas y grupos focales para
probar “palabras que funcionan”. Por ejemplo, los votantes se inclinan más a apoyar la “alivio
fiscal” que los “recortes fiscales”, aunque las dos frases describen lo mismo.
De manera similar, los votantes están menos preocupados por el “cambio climático” que por el
“calentamiento global”, a pesar de que el calentamiento global es una forma de cambio climático.
Obviamente los políticos están tratando de manipular las respuestas de los votantes eligiendo
palabras no neutrales. Si se considera que los encuestadores son intermediarios honestos que
generan resultados legítimos, deben evitar un lenguaje que pueda afectar la exactitud de la
información recopilada. De manera similar, si las respuestas se van a comparar a lo largo del
tiempo (por ejemplo, cómo se sienten los consumidores acerca de la economía hoy en comparación
con cómo se sentían hace un año), entonces las preguntas que suscitan esa información a lo largo
del tiempo deben ser las mismas o muy similares.
Las organizaciones encuestadoras como Gallup suelen realizar “pruebas de muestra dividida”,
en las que se prueban variaciones de una pregunta en diferentes muestras para evaluar cómo los
pequeños cambios en la redacción afectan las respuestas de los encuestados. Para expertos
como Frank Newport de Gallup, las respuestas a cada pregunta presentan datos significativos,
pueden parecer inconsistentes. Las actitudes hacia la pena capitalincluso cuando esas respuestas
cambian dramáticamente cuando se ofrece la cadena perpetua sin libertad condicional como una
opción que nos dice algo importante. El punto clave, dice Newport, es ver cualquier resultado de
encuesta en contexto. Ninguna pregunta o encuesta por sí sola puede captar toda la profundidad
de la opinión pública sobre un tema complejo.
¿Los encuestados dicen la verdad? Las encuestas son como las citas por Internet: hay un pequeño
margen de maniobra en la veracidad de la información proporcionada. Sabemos que la gente
oculta la verdad, especialmente cuando las preguntas que se hacen son embarazosas o delicadas.
Los encuestados pueden exagerar sus ingresos o inflar el número de veces que tienen relaciones
sexuales en un mes típico. Puede que no admitan que no votan. Pueden dudar en expresar
opiniones que sean impopulares o socialmente inaceptables. Por todas estas razones, incluso la
encuesta más cuidadosamente diseñada depende de la integridad de las respuestas de los
encuestados.
Las encuestas electorales dependen crucialmente de separar a los que votarán el día de las
elecciones de los que no. (Si intentamos calibrar el probable ganador de una elección, no nos
importan las opiniones de nadie que no vaya a votar).
Las personas suelen decir que van a votar porque creen que eso es lo que los encuestadores
quieren oír. Los estudios que han comparado el comportamiento electoral autoinformado con los
registros electorales encuentran consistentemente que entre un cuarto y un tercio de los
encuestados dicen que votaron cuando en realidad 4noUna
lo hicieron.
forma de minimizar este potencial
Machine Translated by Google
• Las personas generalmente tienen relaciones sexuales con otras personas como ellos.
El noventa por ciento de las parejas compartían la misma raza, religión, clase social y
grupo de edad general. • El encuestado típico participaba en actividades sexuales
“algunas veces al mes”, aunque había una amplia variación. El número de parejas
sexuales desde los dieciocho años osciló entre cero y más
de 1.000. • Aproximadamente el 5 por ciento de los hombres y el 4 por ciento de las
mujeres informaron alguna actividad
sexual con una pareja del mismo sexo. • El ochenta por ciento de los encuestados tenía una pareja sexu
Machine Translated by Google
Una revisión del Sex Study hizo una crítica simple pero potente: la conclusión de que la
precisión de la encuesta representa las prácticas sexuales de los adultos en los Estados
Unidos “da por sentado que los encuestados de NORC reflejaron la población de la que fueron
extraídos y dieron sus datos”. exacto 8 Esa frase también podría ser la conclusión de todo
respuestas”.este capítulo. A primera vista, lo más sospechoso de las encuestas es que las
opiniones de tan pocos pueden decirnos sobre las opiniones de tantos. Pero esa es la parte
fácil. Uno de los principios estadísticos más básicos es que una muestra adecuada se
parecerá a la población de la que se extrae. El verdadero desafío de las encuestas es doble:
encontrar y llegar a la muestra adecuada; y obtener información de ese grupo representativo
de una manera que refleje con precisión lo que creen sus miembros.
Los estadounidenses en Dakota del Norte son el 10 por ciento, mientras que los no nativos americanos
constituyen el 90 por ciento de la población del estado. Ahora analicemos qué tan mala debería ser la
recopilación de datos para producir una encuesta con un error de muestreo de 10 puntos porcentuales. Esto
podría suceder de dos maneras. Primero, podría encontrar que el 0 por ciento de la población es nativo
americano y el 100 por ciento no es nativo americano. O podría encontrar que el 20 por ciento de la población
es nativo americano y el 80 por ciento no es nativo americano. En un caso se ha pasado por alto a todos los
nativos americanos; y en el otro, se ha encontrado el doble de su incidencia real en la población. Estos son
errores de muestreo realmente graves. En ambos casos, su estimación está equivocada en un 100 por
ciento: ya sea [(0 – 10)/10] o [(20 – 10)/10].
Y si se pasara por alto sólo el 20 por ciento de los nativos americanos (el mismo grado de error que se tuvo
en la encuesta entre republicanos y demócratas), los resultados arrojarían un 8 por ciento de nativos
americanos y un 92 por ciento de no nativos americanos, lo que representa sólo 2 puntos porcentuales de
los nativos americanos. la verdadera división de la población.
Cuando p y 1 – p están cerca del 50 por ciento, los errores de muestreo relativamente pequeños se
magnifican hasta convertirse en grandes errores absolutos en el resultado de la encuesta.
Cuando p o 1 – p están más cerca de cero, ocurre lo contrario. Incluso relativamente
grandes errores de muestreo producen pequeños errores absolutos en el resultado de la encuesta.
El mismo error de muestreo del 20 por ciento distorsionó el resultado de la encuesta entre demócratas y
republicanos en 10 puntos porcentuales, mientras que distorsionó la encuesta de nativos americanos en sólo
2 puntos porcentuales. Dado que el error estándar en una encuesta se mide en términos absolutos (por
ejemplo, ± 5 por ciento), la fórmula reconoce que es probable que este error sea mayor cuando p y 1 – p
están cerca del 50 por ciento.
* Según su sitio web, “Occupy Wall Street es un movimiento impulsado por las personas que comenzó el 17 de
septiembre de 2011 en Liberty Square en el distrito financiero de Manhattan y se ha extendido a más de 100 ciudades
en los Estados Unidos y acciones en más de 1,500 ciudades en todo el mundo. . Occupy Wall Street está luchando
contra el poder corrosivo de los grandes bancos y las corporaciones multinacionales sobre el proceso democrático, y el
papel de Wall Street en la creación de un colapso económico que ha causado la mayor recesión en generaciones. El
movimiento está inspirado en los levantamientos populares en Egipto y Túnez, y tiene como objetivo exponer cómo el
1% más rico de la gente está escribiendo las reglas de una economía global injusta que está cerrando nuestro futuro”.
* Esperamos que el verdadero recuento de votos del candidato republicano esté fuera del intervalo de confianza de la
encuesta aproximadamente el 5 por ciento de las veces. En esos casos, su verdadero recuento de votos sería inferior
al 50 por ciento o superior al 54 por ciento. Sin embargo, si obtiene más del 54 por ciento de los votos, su estación no
ha cometido un error al declararlo ganador. (Solo ha subestimado el margen de su victoria.) Como resultado, la
probabilidad de que su encuesta le lleve a declarar erróneamente ganador al candidato republicano es sólo del 2,5 por ciento.
* La fórmula para calcular el error estándar de una encuesta que he presentado aquí supone que la encuesta se realiza
sobre una muestra aleatoria de la población. Las organizaciones encuestadoras sofisticadas pueden desviarse de este
método de muestreo, en cuyo caso la fórmula para calcular el error estándar también cambiará ligeramente. Sin
embargo, la metodología básica sigue siendo la misma.
Machine Translated by Google
CAPÍTULO 11
Análisis de regresión
El elixir milagroso
¿Puede el estrés en el trabajo matarte? Sí. Hay pruebas convincentes de que los rigores en el
trabajo pueden provocar una muerte prematura, especialmente por enfermedades cardíacas. Pero
no es el tipo de estrés que probablemente esté imaginando. Los directores ejecutivos, que
rutinariamente deben tomar decisiones de enorme importancia que determinan el destino de sus
empresas, corren un riesgo significativamente menor que sus secretarias, quienes diligentemente
contestan el teléfono y realizan otras tareas según las instrucciones. ¿Cómo puede eso tener
sentido? Resulta que el tipo más peligroso de estrés laboral surge de tener “bajo control” sobre las
propias responsabilidades. Varios estudios de miles de funcionarios británicos (los estudios de
Whitehall) han descubierto que los trabajadores que tienen poco control sobre sus puestos de
trabajo (lo que significa que tienen una voz mínima sobre qué tareas se realizan o cómo se llevan
a cabo) tienen una tasa de mortalidad significativamente más alta que otros trabajadores de la
administración pública con mayor autoridad para tomar decisiones. Según esta investigación, no
es el estrés asociado con las responsabilidades importantes lo que te matará; es el estrés asociado
con que te digan qué hacer y tener poco que decir sobre cómo o cuándo hacerlo.
Una simple asociación no es suficiente para concluir que ciertos tipos de trabajos son malos
para la salud. Si simplemente observamos que los trabajadores de bajo rango en la jerarquía de la
administración pública británica tienen tasas más altas de enfermedades cardíacas, nuestros
resultados se verían confusos por otros factores. Por ejemplo, esperaríamos que los trabajadores
de bajo nivel tuvieran menos educación que los altos funcionarios de la burocracia. Pueden ser
Machine Translated by Google
más probabilidades de fumar (quizás debido a su frustración laboral). Es posible que hayan
tenido una infancia menos saludable, lo que disminuyó sus perspectivas laborales. O su salario
más bajo puede limitar su acceso a la atención médica. Etcétera. La cuestión es que cualquier
estudio que simplemente compare los resultados de salud de un grupo grande de trabajadores
británicos (o de cualquier otro grupo grande) en realidad no nos dirá mucho. Es probable que
otras fuentes de variación en los datos oscurezcan la relación que nos importa. ¿El “bajo control
laboral” realmente está causando enfermedades cardíacas? ¿O es alguna combinación de
otros factores que comparten personas con bajo control laboral, en cuyo caso es posible que
estemos pasando por alto por completo la verdadera amenaza para la salud pública?
El análisis de regresión es la herramienta estadística que nos ayuda a afrontar este desafío.
Específicamente, el análisis de regresión nos permite cuantificar la relación entre una variable
particular y un resultado que nos interesa mientras controlamos otros factores. En otras
palabras, podemos aislar el efecto de una variable, como tener cierto tipo de trabajo, mientras
mantenemos constantes los efectos de otras variables. Los estudios de Whitehall utilizaron
análisis de regresión para medir los impactos en la salud del bajo control laboral entre personas
que son similares en otros aspectos, como el comportamiento de fumar. (De hecho, los
trabajadores de bajo nivel fuman más que sus superiores; esto explica una cantidad
relativamente pequeña de la variación en las enfermedades cardíacas en la jerarquía de
Whitehall).
La mayoría de los estudios sobre los que lee en el periódico se basan en análisis de
regresión. Cuando los investigadores concluyen que los niños que pasan mucho tiempo en la
guardería son más propensos a tener problemas de conducta en la escuela primaria que los
niños que pasan ese tiempo en casa, el estudio no asignó aleatoriamente a miles de bebés a
la guardería o al cuidado en el hogar con un padre. El estudio tampoco se ha limitado a
comparar el comportamiento en la escuela primaria de niños que tuvieron diferentes experiencias
en la primera infancia sin reconocer que es probable que estas poblaciones sean diferentes en
otros aspectos fundamentales. Diferentes familias toman decisiones diferentes sobre el cuidado
infantil porque son diferentes. En algunos hogares hay dos padres presentes; algunos no lo
hacen. Algunos tienen dos padres que trabajan; algunos no lo hacen.
Algunos hogares son más ricos o tienen más educación que otros. Todas estas cosas afectan
las decisiones sobre el cuidado infantil y afectan el desempeño de los niños de esas familias
en la escuela primaria. Cuando se hace correctamente, el análisis de regresión puede ayudarnos
a estimar los efectos de las guarderías aparte de otras cosas que afectan a los niños pequeños:
ingresos familiares, estructura familiar, educación de los padres, etc.
Ahora bien, hay dos frases clave en esa última frase. La primera es "cuando se hace
correctamente". Con datos adecuados y acceso a una computadora personal, un niño de seis
años podría usar un programa de estadística básico para generar resultados de regresión. La
informática personal ha hecho que la mecánica del análisis de regresión sea casi sencilla. El
problema es que la mecánica del análisis de regresión no es la parte difícil; el
Machine Translated by Google
Lo difícil es determinar qué variables deben considerarse en el análisis y cómo hacerlo mejor. El
análisis de regresión es como una de esas sofisticadas herramientas poderosas. Es relativamente
fácil de usar, pero difícil de usar bien y potencialmente peligroso si se usa incorrectamente.
La segunda frase importante anterior es "ayúdanos a estimar". Nuestro estudio sobre el cuidado
infantil no nos da una respuesta “correcta” sobre la relación entre el cuidado diurno y el desempeño
escolar posterior. En cambio, cuantifica la relación observada para un grupo particular de niños
durante un período de tiempo particular. ¿Podemos sacar conclusiones que podrían aplicarse a la
población en general? Sí, pero tendremos las mismas limitaciones y salvedades que con cualquier
otro tipo de inferencia. Primero, nuestra muestra tiene que ser representativa de la población que
nos importa. Un estudio de 2.000 niños pequeños en Suecia no nos dirá mucho sobre las mejores
políticas para la educación infantil en las zonas rurales de México. Y en segundo lugar, habrá
variaciones de una muestra a otra. Si realizamos múltiples estudios sobre los niños y el cuidado
infantil, cada estudio producirá hallazgos ligeramente diferentes, incluso si las metodologías son
todas sólidas y similares.
El análisis de regresión es similar a las encuestas. La buena noticia es que si tenemos una
muestra representativa grande y una metodología sólida, no es probable que la relación que
observamos para los datos de nuestra muestra se desvíe mucho de la relación verdadera para
toda la población. Si 10.000 personas que hacen ejercicio tres o más veces por semana tienen
tasas mucho más bajas de enfermedad cardiovascular que 10.000 personas que no hacen ejercicio
(pero son similares en todos los demás aspectos importantes), entonces hay muchas posibilidades
de que veamos una asociación similar. entre el ejercicio y la salud cardiovascular para la población
en general. Por eso hacemos estos estudios.
(El punto no es decirles a aquellos que no hacen ejercicio y que están enfermos al final del estudio
que deberían haber hecho ejercicio).
La mala noticia es que no estamos demostrando de manera definitiva que el ejercicio prevenga
las enfermedades cardíacas. En cambio, estamos rechazando la hipótesis nula de que el ejercicio
no tiene asociación con la enfermedad cardíaca, sobre la base de algún umbral estadístico que se
eligió antes de realizar el estudio. Específicamente, los autores del estudio informarían que si el
ejercicio no está relacionado con la salud cardiovascular, la probabilidad de observar una diferencia
tan marcada en enfermedades cardíacas entre los deportistas y los no deportistas en esta gran
muestra sería inferior a 5 entre 100, o por debajo de algún otro umbral de significación estadística.
Hagamos una pausa por un momento y ondeemos nuestra primera bandera amarilla gigante.
Supongamos que este estudio en particular comparó un grupo grande de individuos que juegan
squash regularmente con aquellos de un grupo de igual tamaño que no hacen ningún ejercicio.
Jugar al squash proporciona un buen ejercicio cardiovascular. Sin embargo, también sabemos que
los jugadores de squash tienden a ser lo suficientemente ricos como para pertenecer a clubes de squash.
Machine Translated by Google
tribunales. Las personas ricas pueden tener un gran acceso a la atención médica, que
también puede mejorar la salud cardiovascular. Si nuestro análisis es descuidado, podemos
atribuir beneficios para la salud a jugar squash cuando en realidad el beneficio real proviene
de ser lo suficientemente rico como para jugar squash (en cuyo caso jugar polo también
estaría asociado con una mejor salud cardíaca, incluso aunque el caballo esté haciendo más
ejercicio). del trabajo).
O tal vez la causalidad va en la otra dirección. ¿Tener un corazón sano podría “provocar”
ejercicio? Sí. A las personas enfermas, especialmente aquellas que padecen alguna forma
incipiente de enfermedad cardíaca, les resultará mucho más difícil hacer ejercicio.
Seguramente será menos probable que jueguen al squash con regularidad. Nuevamente, si
el análisis es descuidado o demasiado simplificado, la afirmación de que el ejercicio es bueno
para la salud puede simplemente reflejar el hecho de que a las personas que comienzan con
mala salud les resulta difícil hacer ejercicio. En este caso, jugar al squash no hace que nadie
esté más sano; simplemente separa lo sano de lo no saludable.
Hay tantos peligros potenciales en la regresión que he dedicado el siguiente capítulo a los
errores más atroces. Por ahora, nos centraremos en lo que puede salir bien.
El análisis de regresión tiene la asombrosa capacidad de aislar una relación estadística que
nos interesa, como la que existe entre el control del trabajo y las enfermedades cardíacas, y
al mismo tiempo tiene en cuenta otros factores que podrían confundir la relación.
¿Cómo funciona esto exactamente? Si sabemos que los funcionarios británicos de bajo
nivel fuman más que sus superiores, ¿cómo podemos discernir qué parte de su mala salud
cardiovascular se debe a sus trabajos de bajo nivel y qué parte se debe al tabaquismo? Estos
dos factores parecen inextricablemente entrelazados.
El análisis de regresión (¡realizado correctamente!) puede desenredarlos. Para explicar la
intuición, necesito comenzar con la idea básica que subyace a todas las formas de análisis de
regresión, desde las relaciones estadísticas más simples hasta los modelos complejos
improvisados por los ganadores del Premio Nobel. En esencia, el análisis de regresión busca
encontrar el “mejor ajuste” para una relación lineal entre dos variables. Un ejemplo sencillo es
la relación entre altura y peso. Las personas más altas tienden a pesar más, aunque
obviamente no siempre es así. Si tuviéramos que trazar las alturas y los pesos de un grupo
de estudiantes de posgrado, quizás recuerdes cómo se veían en el Capítulo 4:
Si le pidieran que describiera el patrón, podría decir algo como “El peso parece aumentar con la
altura”. Esta no es una declaración terriblemente reveladora o específica. El análisis de regresión nos
permite ir un paso más allá y “ajustar una línea” que describa mejor una relación lineal entre las dos
variables.
Muchas líneas posibles coinciden en términos generales con los datos de altura y peso.
Pero ¿cómo sabemos cuál es la mejor línea para estos datos? De hecho, ¿cómo definiríamos
exactamente “mejor”? El análisis de regresión suele utilizar una metodología llamada mínimos cuadrados
ordinarios u OLS. Los detalles técnicos, incluyendo por qué OLS produce el mejor ajuste, deberán
dejarse para un libro más avanzado. El punto clave reside en la parte de “mínimos cuadrados” del
nombre; MCO se ajusta a la línea que minimiza la suma de los residuos al cuadrado. Eso no es tan
complicado como parece.
Cada observación en nuestro conjunto de datos de altura y peso tiene un residual, que es su distancia
vertical desde la línea de regresión, excepto aquellas observaciones que se encuentran directamente
sobre la línea, para las cuales el residual es igual a cero. (En el siguiente diagrama, el residuo está
marcado para una persona hipotética A.) Debería ser intuitivo que cuanto mayor sea la suma de los
residuos en general, peor será el ajuste de la línea. El único giro no intuitivo de MCO es que la fórmula
toma el cuadrado de cada residuo antes de sumarlos todos (lo que aumenta el peso otorgado a las
observaciones que se encuentran particularmente lejos de la línea de regresión, o los “valores atípicos”).
Los mínimos cuadrados ordinarios "se ajustan" a la línea que minimiza la suma de los residuos al
cuadrado, como se ilustra a continuación.
Si los detalles técnicos le han causado dolor de cabeza, se le puede perdonar que se
limite a comprender la conclusión: los mínimos cuadrados ordinarios nos dan la mejor
descripción de una relación lineal entre dos variables. El resultado no es sólo una línea
sino, como recordarás de la geometría de la escuela secundaria, una ecuación que
describe esa línea. Esto se conoce como ecuación de regresión y toma la siguiente forma:
y = a + bx, donde y es el peso en libras; a es la intersección y de la línea (el valor de y
cuando x = 0); b es la pendiente de la recta; y x es la altura en pulgadas. La pendiente de
la línea que hemos ajustado, b, describe la "mejor" relación lineal entre altura y peso para
esta muestra, definida por mínimos cuadrados ordinarios.
La línea de regresión ciertamente no describe perfectamente todas las observaciones
del conjunto de datos. Pero es la mejor descripción que podemos encontrar de lo que
claramente es una relación significativa entre altura y peso. También significa que cada
observación puede explicarse como PESO = a + b(ALTURA) + e, donde e es un “residual”
que capta la variación en el peso de cada individuo que no se explica por la altura.
Finalmente, significa que nuestra mejor estimación para el peso de cualquier persona en
el conjunto de datos sería a + b(ALTURA). Aunque la mayoría de las observaciones no se
encuentran exactamente en la línea de regresión, el residual todavía tiene un valor
esperado de cero, ya que cualquier persona en nuestra muestra tiene la misma probabilidad
de pesar más de lo que predice la ecuación de regresión que de pesar menos.
¡Basta de jerga teórica! Veamos algunos datos reales de altura y peso del estudio
Cambiando Vidas, aunque primero debo aclarar cierta terminología básica. La variable
que se explica (el peso en este caso) se conoce como variable dependiente (porque
depende de otros factores). Las variables que utilizamos para explicar nuestra variable
dependiente se conocen como variables explicativas ya que explican el resultado que nos
importa. (Para hacer las cosas más difíciles, las variables explicativas a veces también se
denominan variables independientes o variables de control). Comencemos usando la
altura para explicar
Machine Translated by Google
peso entre los participantes de Cambiando Vidas; Más adelante agregaremos otros potenciales.
factores explicativos. * Hay 3.537 adultos participantes en el estudio Cambiando Vidas. Este es
nuestro número de observaciones, o n. (A veces, un trabajo de investigación puede señalar que n =
3537). Cuando ejecutamos una regresión simple en los datos de Changing Lives con el peso como
variable dependiente y la altura como única variable explicativa, obtenemos los siguientes resultados:
a = –135. Esta es la intersección con el eje y, que por sí sola no tiene ningún significado particular.
(Si lo interpretas literalmente, una persona que mide cero pulgadas pesaría menos 135 libras;
obviamente esto es una tontería en varios niveles). Esta cifra también se conoce como constante,
porque es el punto de partida para calcular el peso de todas las observaciones. en el estudio.
Por lo tanto, si no tuviéramos otra información, nuestra mejor estimación para el peso de una persona
que mide 5 pies y 10 pulgadas (70 pulgadas) en el estudio Cambiando Vidas sería – 135 + 4,5 (70) =
180 libras.
Esta es nuestra recompensa, ya que ahora hemos cuantificado el mejor ajuste para la relación
lineal entre altura y peso para los participantes de Changing Lives. Las mismas herramientas básicas
pueden utilizarse para explorar relaciones más complejas y cuestiones socialmente más significativas.
Para cualquier coeficiente de regresión, generalmente le interesarán tres cosas: signo, tamaño y
significancia.
Firmar. El signo (positivo o negativo) del coeficiente de una variable independiente nos indica la
dirección de su asociación con la variable dependiente (el resultado que intentamos explicar). En el
caso simple anterior, el coeficiente de altura es positivo. Las personas más altas tienden a pesar más.
Algunas relaciones funcionarán en la otra dirección. Yo esperaría que la asociación entre el ejercicio
y el peso fuera negativa. Si el estudio Changing Lives incluyera datos sobre algo así como “millas
recorridas por mes”, estoy bastante seguro de que el coeficiente de “millas recorridas” sería negativo.
Correr más se asocia con pesar menos.
Tamaño. ¿Qué tan grande es el efecto observado entre la variable independiente y la variable
dependiente? ¿Es de una magnitud que importa? En este caso, cada pulgada de altura se asocia con
4,5 libras, que es un porcentaje considerable de una
Machine Translated by Google
peso corporal típico de una persona. Para explicar por qué algunas personas pesan más que
otras, la altura es claramente un factor importante. En otros estudios, podemos encontrar una
variable explicativa que tiene un impacto estadísticamente significativo en nuestro resultado de
interés (lo que significa que el efecto observado probablemente no sea producto del azar), pero
ese efecto puede ser tan pequeño que resulte trivial o socialmente. insignificante.
Por ejemplo, supongamos que estamos examinando los determinantes del ingreso. ¿Por qué
algunas personas ganan más dinero que otras? Es probable que las variables explicativas sean
aspectos como la educación, los años de experiencia laboral, etc. En un gran conjunto de
datos, los investigadores también podrían encontrar que las personas con dientes más blancos
ganan 86 dólares más al año que otros trabajadores, ceteris paribus. (“Ceteris paribus” proviene
del latín y significa “en igualdad de condiciones”). El coeficiente positivo y estadísticamente
significativo de la variable “dientes blancos” supone que los individuos comparados son
similares en otros aspectos: misma educación, misma experiencia laboral, etcétera. (Explicaré
en un momento cómo logramos esta tentadora hazaña). Nuestro análisis estadístico ha
demostrado que los dientes más blancos están asociados con $86 en ingresos anuales
adicionales por año y que este hallazgo no es probable que sea una mera coincidencia. Esto
significa (1) que hemos rechazado la hipótesis nula de que los dientes realmente blancos no
tienen asociación con los ingresos con un alto grado de confianza; y (2) si analizamos otras
muestras de datos, es probable que encontremos una relación similar entre dientes bonitos y
mayores ingresos.
¿Así que lo que? Hemos encontrado un resultado estadísticamente significativo, pero no
uno que sea particularmente significativo. Para empezar, 86 dólares al año no es una suma de
dinero que cambie la vida. Desde el punto de vista de las políticas públicas, 86 dólares
probablemente también sea menos de lo que costaría blanquear los dientes de una persona
cada año, por lo que ni siquiera podemos recomendar que los trabajadores jóvenes hagan tal
inversión. Y, aunque me queda un capítulo por delante, también me preocuparían algunos
problemas metodológicos graves. Por ejemplo, tener una dentadura perfecta puede estar
asociado con otros rasgos de personalidad que explican la ventaja salarial; El efecto ingresos
puede ser causado por el tipo de personas que se preocupan por sus dientes, no por los
dientes en sí. Por ahora, la cuestión es que debemos tomar nota del tamaño de la asociación
que observamos entre la variable explicativa y nuestro resultado de interés.
Significado. ¿Es el resultado observado una aberración basada en una muestra peculiar de
datos, o refleja una asociación significativa que probablemente se observe en la población en
su conjunto? Ésta es la misma pregunta básica que nos hemos estado haciendo en los últimos
capítulos. En el contexto de la altura y el peso, ¿creemos que observaríamos una asociación
positiva similar en otras muestras representativas de la población? Para responder a esta
pregunta, utilizamos las herramientas básicas de inferencia que ya se han introducido. Nuestro
coeficiente de regresión
Machine Translated by Google
se basa en una relación observada entre la altura y el peso para una muestra particular de
datos. Si tuviéramos que probar otra muestra grande de datos, es casi seguro que obtendríamos
una asociación ligeramente diferente entre altura y peso y, por lo tanto, un coeficiente diferente.
Es probable que la relación entre altura y peso observada en los datos de Whitehall (los
funcionarios británicos) sea diferente de la relación observada entre altura y peso para los
participantes en el estudio Changing Lives. Sin embargo, sabemos por el teorema del límite
central que la media de una muestra grande y correctamente extraída normalmente no se
desviará mucho de la media de la población en su conjunto. De manera similar, podemos
suponer que la relación observada entre variables como la altura y el peso normalmente no
variará de forma desenfrenada de una muestra a otra, suponiendo que estas muestras sean
grandes y se hayan extraído adecuadamente de la misma población.
Piense en la intuición: es muy poco probable (aunque aún posible) que encontremos que
cada centímetro de altura esté asociado con 4,5 libras adicionales entre los participantes de
Changing Lives, pero que no haya asociación entre la altura y el peso en una muestra
representativa diferente de 3.000 americanos adultos.
Esto debería darle una primera idea de cómo probaremos si los resultados de nuestra
regresión son estadísticamente significativos o no. Al igual que con las encuestas y otras formas
de inferencia, podemos calcular un error estándar para el coeficiente de regresión. El error
estándar es una medida de la dispersión probable que observaríamos en el coeficiente si
realizáramos el análisis de regresión en muestras repetidas extraídas de la misma población.
Si midiéramos y pesaramos una muestra diferente de 3.000 estadounidenses, podríamos
encontrar en el análisis posterior que cada pulgada de altura está asociada con 4,3 libras. Si lo
volviéramos a hacer con otra muestra de 3.000 estadounidenses, podríamos encontrar que
cada pulgada está asociada con 5,2 libras. Una vez más, la distribución normal es nuestra
amiga. Para muestras grandes de datos, como nuestro conjunto de datos Changing Lives,
podemos suponer que nuestros diversos coeficientes se distribuirán normalmente en torno a la
asociación "verdadera" entre altura y peso en la población adulta estadounidense. Partiendo de
ese supuesto, podemos calcular un error estándar para el coeficiente de regresión que nos da
una idea de cuánta dispersión deberíamos esperar en los coeficientes de una muestra a otra.
No profundizaré aquí en la fórmula para calcular el error estándar, porque nos llevará en una
dirección que implica mucha matemática y porque todos los paquetes estadísticos básicos lo
calcularán por usted.
Sin embargo, debo advertir que cuando trabajamos con una muestra pequeña de datos
(como un grupo de 20 adultos en lugar de las más de 3.000 personas del estudio Cambiando
Vidas) la distribución normal ya no está dispuesta a ser nuestra amiga.
Específicamente, si realizamos repetidamente análisis de regresión en diferentes muestras
pequeñas, ya no podemos asumir que nuestros diversos coeficientes serán
Machine Translated by Google
Siguiendo con muestras grandes por ahora (y la distribución normal), lo más importante
que hay que entender es por qué es importante el error estándar. Al igual que con las
encuestas y otras formas de inferencia, esperamos que más de la mitad de nuestros
coeficientes de regresión observados se encuentren dentro de un error estándar de la
* población
estándar. Etcétera. parámetro.
real. Aproximadamente el 95 por ciento estará dentro de dos errores
Con eso, ya casi estamos en casa, porque ahora podemos hacer una pequeña prueba de
hipótesis. (En serio, ¿pensabas que ya habías terminado con la prueba de hipótesis?) Una
vez que tenemos un coeficiente y un error estándar, podemos probar la hipótesis nula de
que, de hecho, no existe relación entre la variable explicativa y la variable dependiente (lo
que significa que la la verdadera asociación entre las dos variables en la población es cero).
En nuestro ejemplo simple de altura y peso, podemos probar qué tan probable es que
encontremos en nuestra muestra de Cambiando Vidas que cada centímetro de altura está
asociado con 4,5 libras si realmente no existe ninguna asociación entre la altura y el peso en
la población general. Ejecuté la regresión usando un programa de estadística básico; el error
estándar en el coeficiente de altura es 0,13. Esto significa que si tuviéramos que hacer este
análisis repetidamente (digamos con 100 muestras diferentes), entonces esperaríamos que
nuestro coeficiente de regresión observado estuviera dentro de dos errores estándar del
verdadero parámetro poblacional aproximadamente 95 de cada 100 veces.
Por lo tanto, podemos expresar nuestros resultados de dos maneras diferentes pero
relacionadas. Primero, podemos construir un intervalo de confianza del 95 por ciento.
Podemos decir que 95 de cada 100 veces esperamos que nuestro intervalo de confianza,
que es 4,5 ± 0,26, contenga el verdadero parámetro poblacional. Este es el rango entre 4,24
y 4,76. Un paquete de estadísticas básico también calculará este intervalo. En segundo lugar,
podemos ver que nuestro intervalo de confianza del 95 por ciento para la verdadera
asociación entre altura y peso no incluye el cero. Por lo tanto, podemos rechazar la hipótesis
nula de que no existe asociación entre la altura y el peso para la población general con un
nivel de confianza del 95 por ciento. Este resultado también puede expresarse como
estadísticamente significativo al nivel de 0,05; sólo hay un 5 por ciento de posibilidades de
que estemos rechazando erróneamente la hipótesis nula.
Machine Translated by Google
De hecho, nuestros resultados son incluso más extremos que eso. El error estándar (0,13)
es extremadamente bajo en relación con el tamaño del coeficiente (4,5). Una regla general
aproximada es que es probable que el coeficiente sea estadísticamente significativo cuando es
*
al menos el doble del tamaño del error estándar. Un paquete de
estadísticas también calcula un valor p, que es 0,000 en este caso, lo que significa que
esencialmente hay cero posibilidades de obtener un resultado tan extremo como el que hemos
observado (o más) si no existe una verdadera asociación entre la altura y la altura. y peso en la
población general. Recuerde, no hemos demostrado que las personas más altas pesen más en
la población general; simplemente hemos demostrado que nuestros resultados para la muestra
Cambiando Vidas serían altamente anómalos si ese no fuera el caso.
2
Nuestro análisis de regresión básico produce otra estadística notable: la R es una , cual
medida de la cantidad total de variación explicada por la ecuación de regresión. Sabemos que
tenemos una amplia variación en el peso de nuestra muestra Cambiando Vidas. Muchas de las
personas de la muestra pesan más que la media del grupo en general; muchos pesan menos.
2
La R nos dice qué parte de esa variación alrededor de la media está asociada únicamente con
diferencias de altura. La respuesta en nuestro caso es 0,25, o 25 por ciento. El punto más
significativo puede ser que el 75 por ciento de la variación de peso de nuestra muestra sigue
sin explicación. Claramente, existen otros factores además de la altura que podrían ayudarnos
a comprender el peso de los participantes de Changing Lives. Aquí es donde las cosas se
ponen más interesantes.
Admito que comencé este capítulo vendiendo el análisis de regresión como el elixir milagroso
de la investigación en ciencias sociales. Hasta ahora, todo lo que he hecho es utilizar un
paquete de estadísticas y un impresionante conjunto de datos para demostrar que las personas
altas tienden a pesar más que las bajas. Una visita corta a un centro comercial probablemente
le habría convencido de lo mismo. Ahora que comprende los conceptos básicos, podemos
liberar el verdadero poder del análisis de regresión. ¡Es hora de quitarse las ruedas de apoyo!
Como prometí, el análisis de regresión nos permite desentrañar relaciones complejas en las
que múltiples factores afectan algún resultado que nos importa, como los ingresos, las
puntuaciones de los exámenes o las enfermedades cardíacas. Cuando incluimos múltiples
variables en la ecuación de regresión, el análisis nos da una estimación de la asociación lineal
entre cada variable explicativa y la variable dependiente mientras se mantienen constantes
otras variables dependientes, o se “controlan” estos otros factores. Sigamos con el peso por un
tiempo. Hemos encontrado una asociación entre la altura y el peso; Sabemos que hay otros
factores que pueden ayudar a explicar el peso (edad, sexo, dieta, ejercicio, etc.). El análisis de
regresión (a menudo llamado análisis de regresión múltiple cuando interviene más de una
variable explicativa, o análisis de regresión multivariada) nos dará un coeficiente para cada
Machine Translated by Google
ya controlado por altura. Lo que hemos aislado aquí es el efecto de ser mujer. La nueva regresión
se convierte en:
PESO = –118 + 4,3 × (ALTURA EN PULGADAS) + 0,12 (EDAD EN AÑOS) – 4,8 (SI EL SEXO
ES FEMENINO)
Nuestra mejor estimación del peso de una mujer de cincuenta y tres años que mide 5 pies
5 pulgadas es: –118 + 4,3 (65) + 0,12 (53) – 4,8 = 163 libras.
Y nuestra mejor suposición para un hombre de treinta y cinco años que mide 6 pies y 3
pulgadas es: 118 + 4,3 (75) + 0,12 (35) = 209 libras. Saltamos el último término de nuestro
resultado de regresión (–4,8) ya que esta persona no es mujer.
Ahora podemos empezar a probar cosas que son más interesantes y menos predecibles.
¿Qué pasa con la educación? ¿Cómo podría eso afectar el peso? Yo plantearía la hipótesis de
que las personas mejor educadas son más conscientes de su salud y, por lo tanto, pesarán
menos, ceteris paribus. Tampoco hemos probado ninguna medida de ejercicio; Supongo que,
manteniendo constantes los demás factores, las personas de la muestra que hacen más ejercicio
pesarán menos.
¿Qué pasa con la pobreza? ¿Ser de bajos ingresos en Estados Unidos tiene efectos que se
manifiestan en el peso? El estudio Changing Lives pregunta si los participantes reciben cupones
de alimentos, que es una buena medida de la pobreza en Estados Unidos. Finalmente, estoy
interesado en la raza. Sabemos que las personas de color tienen diferentes experiencias de vida
en los Estados Unidos debido a su raza. Hay factores culturales y residenciales asociados con
la raza en Estados Unidos que tienen implicaciones para el peso. Muchas ciudades todavía se
caracterizan por un alto grado de segregación racial; Los afroamericanos podrían tener más
probabilidades que otros residentes de vivir en “desiertos alimentarios”, que son áreas con
acceso limitado a tiendas de comestibles que venden frutas, verduras y otros productos frescos.
Podemos utilizar el análisis de regresión para separar el efecto independiente de cada uno
de los posibles factores explicativos descritos anteriormente. Por ejemplo, podemos aislar la
asociación entre raza y peso, manteniendo constantes otros factores socioeconómicos como el
nivel educativo y la pobreza. Entre las personas que se graduaron de la escuela secundaria y
son elegibles para recibir cupones de alimentos, ¿cuál es la asociación estadística entre el peso
y ser negro?
En este punto, nuestra ecuación de regresión es tan larga que sería engorroso imprimir aquí
los resultados en su totalidad. Los artículos académicos suelen incluir tablas grandes que
resumen los resultados de varias ecuaciones de regresión. He incluido una tabla con los
resultados completos de esta ecuación de regresión en el apéndice de este capítulo. Mientras
tanto, aquí están los aspectos más destacados de lo que sucede cuando sumamos la educación,
el ejercicio, la pobreza (medida mediante la recepción de cupones de alimentos) y
Machine Translated by Google
La educación resulta estar asociada negativamente con el peso, como había planteado la
hipótesis. Entre los participantes en el estudio Cambiando Vidas, cada año de educación se asocia
con 1,3 libras.
No es sorprendente que el ejercicio también esté asociado negativamente con el peso. El
estudio Changing Lives incluye un índice que evalúa a cada participante en el estudio según su
nivel de actividad física. Los individuos que se encuentran en el quintil inferior de actividad física
pesan, en promedio, 4,5 libras más que otros adultos de la muestra, ceteris paribus. Aquellos en el
quintil inferior de actividad física pesan, en promedio, casi 9 libras más que los adultos en el quintil
superior de actividad física.
Las personas que reciben cupones de alimentos (el indicador de pobreza en esta regresión)
tienen más peso que otros adultos. Los beneficiarios de cupones para alimentos pesan un promedio
de 5,6 libras más que otros participantes de Changing Lives, ceteris paribus.
La variable racial resulta particularmente interesante. Incluso después de controlar todas las
demás variables descritas hasta este punto, la raza sigue siendo muy importante cuando se trata
de explicar el peso. Los adultos negros no hispanos de la muestra de Changing Lives pesan, en
promedio, aproximadamente 10 libras más que los demás adultos de la muestra. Diez libras es
mucho peso, tanto en términos absolutos como en comparación con los efectos de las otras
variables explicativas en la ecuación de regresión. Esto no es una peculiaridad de los datos. El
valor p de la variable ficticia para los negros no hispanos es 0,000 y el intervalo de confianza del
95 por ciento se extiende desde 7,7 libras hasta 16,1 libras.
¿Qué está pasando? La respuesta honesta es que no tengo idea. Permítanme reiterar un punto
que quedó enterrado anteriormente en una nota a pie de página: aquí sólo estoy jugando con datos
para ilustrar cómo funciona el análisis de regresión. Los análisis presentados aquí son, para una
verdadera investigación académica, lo que el hockey callejero es para la NHL. Si este fuera un
proyecto de investigación real, habría semanas o meses de análisis de seguimiento para probar
este hallazgo. Lo que puedo decir es que he demostrado por qué el análisis de regresión múltiple
es la mejor herramienta que tenemos para encontrar patrones significativos en grandes cantidades.
Machine Translated by Google
salarios iniciales promedio muy similares: 130.000 dólares para los hombres y 115.000 dólares
para las mujeres. Sin embargo, después de diez años en el mercado laboral, se ha abierto una
enorme brecha; En promedio, las mujeres ganan un sorprendente 45 por ciento menos que sus
compañeros de clase masculinos: 243.000 dólares frente a 442.000 dólares. En una muestra
más amplia de más de 18.000 graduados de MBA que ingresaron a la fuerza laboral entre 1990
y 2006, ser mujer se asocia con ingresos un 29 por ciento más bajos. ¿Qué les sucede a las
mujeres una vez que ingresan a la fuerza laboral?
Según los autores del estudio (Marianne Bertrand de la Booth School of Business y Claudia
Goldin y Lawrence Katz de Harvard), la discriminación no es una explicación probable para la
mayor parte de la brecha. La brecha salarial de género se desvanece a medida que los autores
añaden más variables explicativas al análisis. Por ejemplo, los hombres
Machine Translated by Google
tomar más clases de finanzas en el programa MBA y graduarse con promedios de calificaciones
más altos. Cuando estos datos se incluyen como variables de control en la ecuación de regresión,
la parte no explicada de la brecha entre los ingresos de hombres y mujeres cae al 19 por ciento.
Cuando se agregan variables a la ecuación para tener en cuenta la experiencia laboral posterior a
un MBA, particularmente fuera de la fuerza laboral, la porción inexplicable de la brecha salarial
entre hombres y mujeres cae al 9 por ciento. Y cuando se agregan variables explicativas para otras
características laborales, como el tipo de empleador y las horas trabajadas, la porción no explicada
de la brecha salarial de género cae a menos del 4 por ciento.
Para los trabajadores que han estado en la fuerza laboral más de diez años, los autores pueden
en última instancia explicar todo menos el 1 por ciento de la brecha salarial de género con factores
no relacionados con la discriminación en el trabajo. * Concluyen: “Identificamos tres razones
inmediatas para la gran y creciente brecha de género en los ingresos: diferencias en la formación
previa a la graduación del MBA; diferencias en las interrupciones de carrera; y diferencias en las
horas semanales. Estos tres determinantes pueden explicar la mayor parte de las diferencias de
género a lo largo de los años posteriores a la finalización del MBA”.
Espero haberlo convencido del valor del análisis de regresión múltiple, particularmente de los
conocimientos de investigación que surgen de poder aislar el efecto de una variable explicativa
mientras se controlan otros factores de confusión. Todavía no he proporcionado una explicación
intuitiva de cómo funciona este “elixir milagroso” estadístico. Cuando utilizamos el análisis de
regresión para evaluar la relación entre educación y peso, ceteris paribus, ¿cómo controla un
paquete estadístico factores como la altura, el sexo, la edad y los ingresos cuando sabemos que
nuestros participantes de Changing Lives no son idénticos en estos otros aspectos?
Para comprender cómo podemos aislar el efecto sobre el peso de una sola variable, digamos la
educación, imagine la siguiente situación. Supongamos que todos los participantes de Cambiando
Vidas están reunidos en un solo lugar, digamos, Framingham, Massachusetts. Ahora supongamos
que los hombres y las mujeres están separados. Y luego supongamos que tanto los hombres como
las mujeres están divididos por altura. Habrá una sala de hombres de seis pies de altura. Al lado
habrá una sala para hombres de 6 pies y 1 pulgada, y así sucesivamente para ambos sexos. Si
tenemos suficientes participantes en nuestro estudio, podemos subdividir aún más cada una de
esas habitaciones por ingresos. Con el tiempo tendremos muchas habitaciones, cada una de las
cuales contiene individuos que son idénticos en todos los aspectos excepto en educación y peso,
que son las dos variables que nos importan. Habría una sala de hombres de cuarenta y cinco años
de 5 pies y 5 pulgadas de altura que ganarían entre 30.000 y 40.000 dólares al año. Al lado estarían
todas las mujeres de cuarenta y cinco años de 5 pies y 5 pulgadas de altura que ganan entre 30.000
y 40.000 dólares al año. Y así sucesivamente (y así sucesivamente).
Todavía habrá alguna variación de peso en cada habitación; personas que son el
Machine Translated by Google
Las personas del mismo sexo y altura y con los mismos ingresos pesarán cantidades diferentes,
aunque presumiblemente habrá mucha menos variación en el peso en cada habitación que en la
muestra general. Nuestro objetivo ahora es ver qué parte de la variación restante en el peso en
cada habitación puede explicarse por la educación. En otras palabras, ¿cuál es la mejor relación
lineal entre educación y peso en cada habitación?
El desafío final, sin embargo, es que no queremos coeficientes diferentes en cada “sala”. El
objetivo de este ejercicio es calcular un coeficiente único que exprese mejor la relación entre
educación y peso para toda la muestra, manteniendo constantes los demás factores. Lo que nos
gustaría calcular es el coeficiente único de educación que podemos usar en cada habitación para
minimizar la suma de los residuos al cuadrado de todas las habitaciones combinadas. ¿Qué
coeficiente de educación minimiza el cuadrado del peso inexplicable de cada individuo en todas las
habitaciones? Éste se convierte en nuestro coeficiente de regresión porque es la mejor explicación
de la relación lineal entre educación y peso para esta muestra cuando mantenemos constantes el
sexo, la altura y el ingreso.
Además, puedes ver por qué los grandes conjuntos de datos son tan útiles. Nos permiten
controlar muchos factores y al mismo tiempo tener muchas observaciones en cada “habitación”.
Obviamente, una computadora puede hacer todo esto en una fracción de segundo sin tener que
reunir a miles de personas en diferentes habitaciones.
Terminemos el capítulo donde empezamos, con la conexión entre el estrés laboral y la enfermedad
coronaria. Los estudios de Whitehall sobre funcionarios británicos intentaron medir la asociación
entre el grado de empleo y la muerte por enfermedad coronaria en los años siguientes. Uno de los
primeros estudios siguió a 17.530 funcionarios públicos durante siete años y medio.
2 Los autores
concluyeron: “Los hombres en los grados laborales más bajos eran más bajos, más pesados para
su altura, tenían presión arterial más alta, glucosa plasmática más alta, fumaban más y reportaban
menos actividad física en su tiempo libre que los hombres en los grados superiores. Sin embargo,
cuando se tuvo en cuenta la influencia sobre la mortalidad de todos estos factores más el colesterol
plasmático, la asociación inversa entre el grado de empleo y la mortalidad [por enfermedad
coronaria] seguía siendo fuerte”. La “asignación” a la que se refieren para estos otros factores de
riesgo conocidos se realiza mediante análisis de regresión.
*
El estudio demuestra que, manteniendo constantes otros factores de salud (incluida la
altura, que es un indicador decente de la salud y la nutrición de la primera infancia), trabajar en un
empleo de “baja categoría” puede literalmente matarte.
El escepticismo es siempre una buena primera respuesta. Al principio del capítulo escribí que los
trabajos de “bajo control” son malos para la salud. Eso puede o no ser sinónimo de estar en un lugar
bajo en el tótem administrativo. Un estudio de seguimiento
Machine Translated by Google
Utilizando una segunda muestra de 10.308 funcionarios británicos se intentó profundizar en esta
distinción. 3 Una vez más, los trabajadores fueron divididos en grados administrativos (alto,
intermedio y bajo), solo que esta vez a los participantes también se les entregó un cuestionario de
quince ítems que evaluaba su nivel de “latitud de decisión o control”. Estas incluían preguntas como
"¿Tienes la opción de decidir cómo haces tu trabajo?" y respuestas categóricas (que van desde
"nunca" hasta "a menudo") a afirmaciones como "Puedo decidir cuándo tomar un descanso". Los
investigadores encontraron que los trabajadores de "bajo control" tenían un riesgo significativamente
mayor de desarrollar enfermedad coronaria durante el transcurso del estudio que los trabajadores
de "alto control". Sin embargo, los investigadores también encontraron que los trabajadores con
exigencias laborales rigurosas no tenían mayor riesgo de desarrollar enfermedades cardíacas, ni
tampoco los trabajadores que reportaban bajos niveles de apoyo social en el trabajo. La falta de
control parece ser la causa de la muerte, literalmente.
Los estudios de Whitehall tienen dos características típicamente asociadas con una investigación
sólida. En primer lugar, los resultados se han replicado en otros lugares. En la literatura sobre salud
pública, la idea de “bajo control” evolucionó hasta convertirse en un término conocido como “tensión
laboral”, que caracteriza trabajos con “altas exigencias de carga de trabajo psicológica” y “baja
libertad de decisión”. Entre 1981 y 1993 se publicaron treinta y seis estudios sobre el tema; la
mayoría encontró una asociación positiva significativa entre la tensión laboral y las enfermedades
cardíacas. 4
En segundo lugar, los investigadores buscaron y encontraron evidencia biológica que corroborara
el mecanismo por el cual este tipo particular de estrés en el trabajo causa mala salud. Las
condiciones laborales que implican exigencias rigurosas pero poco control pueden provocar
respuestas fisiológicas (como la liberación de hormonas relacionadas con el estrés) que aumentan
el riesgo de enfermedad cardíaca a largo plazo. Incluso la investigación con animales desempeña
un papel; Los monos y babuinos de bajo estatus (que guardan cierto parecido con los funcionarios
públicos que se encuentran en la parte inferior de la cadena de autoridad) tienen diferencias
fisiológicas con respecto a sus pares de alto estatus que los exponen a un mayor riesgo cardiovascular. 5
En igualdad de condiciones, es mejor no ser un babuino de bajo estatus, que es un punto que
trato de transmitirles a mis hijos con la mayor frecuencia posible, particularmente a mi hijo. El
mensaje más amplio aquí es que el análisis de regresión es posiblemente la herramienta más
importante que tienen los investigadores para encontrar patrones significativos en grandes conjuntos
de datos. Por lo general, no podemos realizar experimentos controlados para aprender sobre la
discriminación laboral o los factores que causan enfermedades cardíacas. Nuestras ideas sobre
estos temas socialmente significativos y muchos otros provienen de las herramientas estadísticas
cubiertas en este capítulo. De hecho, no sería exagerado decir que una alta proporción de todas las
investigaciones importantes realizadas en ciencias sociales durante el último medio siglo
(particularmente desde la llegada de la potencia informática barata) se basa en análisis de regresión.
Machine Translated by Google
La vida se vuelve un poco más complicada cuando hacemos nuestro análisis de regresión (u otras
formas de inferencia estadística) con una pequeña muestra de datos. Supongamos que estuviéramos
analizando la relación entre peso y altura sobre la base de una muestra de sólo 25 adultos, en lugar
de utilizar un conjunto de datos enorme como el estudio Changing Lives.
La lógica sugiere que deberíamos tener menos confianza en generalizar nuestros resultados a toda
la población adulta a partir de una muestra de 25 que de una muestra de 3.000.
Uno de los temas a lo largo del libro ha sido que las muestras más pequeñas tienden a generar
una mayor dispersión en los resultados. Nuestra muestra de 25 seguirá brindándonos información
significativa, al igual que una muestra de 5 o 10, pero ¿hasta qué punto es significativa?
La distribución t responde a esa pregunta. Si analizamos la asociación entre altura y peso para
muestras repetidas de 25 adultos, ya no podemos suponer que los diversos coeficientes que
obtenemos para la altura se distribuirán normalmente alrededor del coeficiente "verdadero" para la
altura en la población adulta. Seguirán estando distribuidos alrededor del coeficiente verdadero
para toda la población, pero la forma de esa distribución no será nuestra conocida curva normal en
forma de campana.
En lugar de ello, tenemos que suponer que muestras repetidas de sólo 25 producirán una mayor
dispersión en torno al verdadero coeficiente de población y, por tanto, una distribución con “colas
más anchas”. Y muestras repetidas de 10 producirán una dispersión aún mayor que esa y, por lo
tanto, colas aún más gruesas. La distribución t es en realidad una serie o “familia” de funciones de
densidad de probabilidad que varían según el tamaño de nuestra muestra. Específicamente,
cuantos más datos tengamos en nuestra muestra, más “grados de libertad” tendremos al determinar
la distribución adecuada con la cual evaluar nuestros resultados. En una clase más avanzada,
aprenderá exactamente cómo calcular grados de libertad; para nuestros propósitos, son
aproximadamente iguales al número de observaciones en nuestra muestra. Por ejemplo, un análisis
de regresión básico con una muestra de 10 y una única variable explicativa tiene 9 grados de
libertad. Cuantos más grados de libertad tengamos, más seguros podremos estar de que nuestra
muestra representa la población real y más “estricta” será nuestra distribución, como lo ilustra el
siguiente diagrama.
Machine Translated by Google
Por ejemplo, supongamos que estamos ejecutando una ecuación de regresión y la hipótesis
nula es que el coeficiente de una variable particular es cero. Una vez que obtengamos los
resultados de la regresión, calcularíamos un estadístico t, que es la relación entre el coeficiente
observado y el error estándar de ese coeficiente. luego se evalúa contra * Este estadístico t es
cualquier distribución t que sea apropiada para el tamaño de la muestra de datos (ya que esto
es en gran medida lo que determina el número de grados de libertad). Cuando el estadístico t es
suficientemente grande, lo que significa que nuestro coeficiente observado está lejos de lo que
predeciría la hipótesis nula, podemos rechazar la hipótesis nula en algún nivel de significancia
estadística. Nuevamente, este es el mismo proceso básico de inferencia estadística que hemos
estado empleando a lo largo del libro.
Cuantos menos grados de libertad (y por lo tanto más “gruesas” sean las colas de la
Machine Translated by Google
distribución t relevante), mayor tendrá que ser el estadístico t para que podamos rechazar
la hipótesis nula en algún nivel de significancia dado. En el ejemplo de regresión
hipotética descrito anteriormente, si tuviéramos cuatro grados de libertad, necesitaríamos
un estadístico t de al menos 2,13 para rechazar la hipótesis nula al nivel de 0,05 (en una
prueba de una cola).
Sin embargo, si tenemos 20.000 grados de libertad (lo que esencialmente nos permite
usar la distribución normal), necesitaríamos sólo un estadístico t de 1,65 para rechazar
la hipótesis nula en el nivel de 0,05 en la misma prueba de una cola.
* Debería considerar este ejercicio como “diversión con los datos” en lugar de una exploración autorizada de cualquiera de las
relaciones descritas en las ecuaciones de regresión siguientes. El propósito aquí es proporcionar un ejemplo intuitivo de cómo
funciona el análisis de regresión, no realizar una investigación significativa sobre el peso de los estadounidenses.
* “Parámetro” es un término elegante para cualquier estadística que describa una característica de alguna población; el peso medio
de todos los hombres adultos es un parámetro de esa población. También lo es la desviación estándar. En el ejemplo aquí, la
verdadera asociación entre altura y peso para la población es un parámetro de esa población.
* Cuando la hipótesis nula es que un coeficiente de regresión es cero (como suele ser el caso), la relación entre el coeficiente de
regresión observado y el error estándar se conoce como estadístico t. Esto también se explicará en el apéndice del capítulo.
* Fuerzas discriminatorias más amplias en la sociedad pueden afectar las carreras que eligen las mujeres o el hecho de que son
más propensas que los hombres a interrumpir sus carreras para cuidar a sus hijos. Sin embargo, estas importantes cuestiones son
distintas de la cuestión más específica de si a las mujeres se les paga menos que a los hombres por hacer los mismos trabajos.
* Estos estudios difieren ligeramente de las ecuaciones de regresión presentadas anteriormente en este capítulo. El resultado de
interés, o variable dependiente, es binario en estos estudios. Un participante tiene algún tipo de problema de salud relacionado
con el corazón durante el período de estudio o no lo tiene. Como resultado, los investigadores utilizan una herramienta llamada
regresión logística multivariada. La idea básica es la misma que la de los modelos de mínimos cuadrados ordinarios descritos en
este capítulo. Cada coeficiente expresa el efecto de una variable explicativa particular sobre la variable dependiente mientras se
mantienen constantes los efectos de otras variables en el modelo. La diferencia clave es que todas las variables de la ecuación
afectan la probabilidad de que ocurra algún evento, como sufrir un ataque cardíaco durante el período de estudio. En este estudio,
por ejemplo, los trabajadores del grupo de bajo control tienen 1,99 veces más probabilidades de sufrir “cualquier evento coronario”
durante el período de estudio que los trabajadores del grupo de alto control después de controlar otros factores de riesgo coronario.
donde lo observado es eficiente , boh es entonces la hipótesis nula para ese coeficiente, andsebisthestandard
error para el coeficiente observado b.
Machine Translated by Google
CAPITULO 12
Ésta es una de las cosas más importantes que debe recordar al realizar una investigación que implique
análisis de regresión: trate de no matar a nadie. Incluso puedes poner una pequeña nota adhesiva en el
monitor de tu computadora: “No mates gente con tu investigación”.
Porque algunas personas muy inteligentes han violado esa regla sin darse cuenta.
A partir de la década de 1990, el establishment médico se unió en torno a la idea de que las mujeres
mayores deberían tomar suplementos de estrógeno para protegerse contra enfermedades cardíacas,
1
osteoporosis y otras afecciones asociadas con la menopausia. En
2001, a unos 15 millones de mujeres se les recetaba estrógeno con la creencia de que las haría más
saludables. ¿Por qué? Porque la investigación de la época (utilizando la metodología básica expuesta en el
último capítulo) sugirió que se trataba de una estrategia médica sensata. En particular, un estudio longitudinal
de 122.000 mujeres (el Estudio de Salud de las Enfermeras) encontró una asociación negativa entre los
suplementos de estrógeno y los ataques cardíacos. Las mujeres que tomaban estrógeno sufrieron un tercio
de ataques cardíacos que las mujeres que no tomaban estrógeno. No se trataba de un par de adolescentes
que usaban la computadora de papá para ver pornografía y ejecutar ecuaciones de regresión. El Estudio de
Salud de las Enfermeras está dirigido por la Facultad de Medicina de Harvard y la Escuela de Salud Pública
de Harvard.
Mientras tanto, los científicos y médicos ofrecieron una teoría médica de por qué los suplementos hormonales podrían ser beneficiosos
para la salud femenina. Los ovarios de una mujer producen menos estrógeno a medida que envejece; Si el estrógeno es importante para
el cuerpo, compensar este déficit en la vejez podría proteger la salud de la mujer a largo plazo. De ahí el nombre del tratamiento: terapia
de reemplazo hormonal. Algunos investigadores incluso comenzaron a sugerir que los hombres mayores deberían recibir un refuerzo de
estrógeno 2 .
Y luego, mientras a millones de mujeres se les recetaba terapia de reemplazo hormonal, el estrógeno
fue sometido a la forma más rigurosa de escrutinio científico: los ensayos clínicos. En lugar de buscar en un
gran conjunto de datos, como el Estudio de salud de las enfermeras, asociaciones estadísticas que pueden
ser causales o no, un ensayo clínico consiste en un experimento controlado. A una muestra se le administra
un tratamiento, como un reemplazo hormonal; a otra muestra se le administra un placebo.
Los ensayos clínicos demostraron que las mujeres que tomaban estrógenos tenían una mayor incidencia de
Machine Translated by Google
El análisis de regresión es la bomba de hidrógeno del arsenal estadístico. Cualquier persona con un ordenador
personal y un gran conjunto de datos puede ser investigador en su propia casa o cubículo. ¿Qué podría salir
mal? Toda clase de cosas.
El análisis de regresión proporciona respuestas precisas a preguntas complicadas. Estas respuestas pueden
ser precisas o no. En las manos equivocadas, el análisis de regresión producirá resultados engañosos o
simplemente erróneos. Y, como ilustra el ejemplo del estrógeno, incluso en las manos adecuadas esta poderosa
herramienta estadística puede llevarnos a acelerar peligrosamente en la dirección equivocada. El resto de este
capítulo explicará los “errores” de regresión más comunes. Pongo “errores” entre comillas porque, como ocurre
con todos los demás tipos de análisis estadístico, las personas inteligentes pueden explotar conscientemente
estos puntos metodológicos con fines nefastos.
Aquí hay una lista de los "siete principales" de los abusos más comunes de una persona que de otra manera
herramienta extraordinaria.
Usar la regresión para analizar una relación no lineal. * ¿Alguna vez ha leído la etiqueta
de advertencia de un secador de pelo, la parte que advierte: No utilizar en la bañera? Y piensas: "¿Qué clase
de idiota usa un secador de pelo en la bañera?" Es un aparato eléctrico; No utilices aparatos eléctricos cerca
del agua. No están diseñados para eso. Si el análisis de regresión tuviera una etiqueta de advertencia similar,
diría: No utilizar cuando no exista una asociación lineal entre las variables que está analizando. Recuerde, un
coeficiente de regresión describe la pendiente de la “línea de mejor ajuste” de los datos; una línea que no es
recta tendrá diferente pendiente en diferentes lugares. Como ejemplo, consideremos la siguiente relación
hipotética entre el número de lecciones de golf que tomo durante un mes (una variable explicativa) y mi
puntuación promedio en una ronda de dieciocho hoyos durante ese mes (la variable dependiente). Como puede
verse en el diagrama de dispersión, no existe una relación lineal consistente .
Hay un patrón, pero no se puede describir fácilmente con una sola línea recta.
Las primeras lecciones de golf parecen hacer que mi puntuación baje rápidamente. Existe una
asociación negativa entre las lecciones y mis puntuaciones en este tramo; la pendiente es
negativa. Más lecciones producen puntuaciones más bajas (lo cual es bueno en golf).
Pero luego, cuando llego al punto en el que gasto entre $200 y $300 al mes en lecciones, las
lecciones no parecen tener mucho efecto. No existe una asociación clara en este tramo entre la
instrucción adicional y mis puntajes de golf; la pendiente es cero.
Y finalmente, las lecciones parecen volverse contraproducentes. Una vez que gasto $300 al
mes en instrucción, las lecciones incrementales se asocian con puntajes más altos; la pendiente
es positiva en este tramo. (Más adelante en este capítulo analizaré la clara posibilidad de que el
mal golf pueda estar causando las lecciones, y no al revés).
El punto más importante aquí es que no podemos resumir con precisión la relación entre
lecciones y puntuaciones con un único coeficiente. La mejor interpretación del patrón descrito
anteriormente es que las lecciones de golf tienen varias relaciones lineales diferentes con mis
puntuaciones. Puedes ver eso; un paquete de estadísticas no lo hará. Si introduces estos datos
en una ecuación de regresión, la computadora te dará un coeficiente único. Ese coeficiente no
reflejará con precisión la verdadera relación entre las variables de interés. Los resultados que
obtenga serán el equivalente estadístico a usar un secador de pelo en la bañera.
El análisis de regresión está destinado a utilizarse cuando la relación entre variables es lineal.
Un libro de texto o un curso avanzado de estadística lo guiará a través de los otros supuestos
centrales que subyacen al análisis de regresión. Como ocurre con cualquier otra herramienta,
cuanto más se desvíe uno de su uso previsto, menos eficaz o incluso potencialmente peligrosa
será.
una asociación entre dos variables. Como mencioné antes, no podemos probar únicamente
con estadísticas que un cambio en una variable esté provocando un cambio en la otra. De
hecho, una ecuación de regresión descuidada puede producir una asociación grande y
estadísticamente significativa entre dos variables que no tienen nada que ver entre sí.
Supongamos que estuviéramos buscando causas potenciales para la creciente tasa de
autismo en los Estados Unidos durante las últimas dos décadas. Nuestra variable
dependiente (el resultado que intentamos explicar) sería alguna medida de la incidencia del
autismo por año, como el número de casos diagnosticados por cada 1.000 niños de una
determinada edad. Si incluyéramos el ingreso anual per cápita en China como variable
explicativa, casi con seguridad encontraríamos una asociación positiva y estadísticamente
significativa entre el aumento de los ingresos en China y el aumento de las tasas de autismo
en Estados Unidos durante los últimos veinte años.
¿Por qué? Porque ambos han aumentado considerablemente durante el mismo período.
Sin embargo, dudo mucho que una fuerte recesión en China reduzca la tasa de autismo en
Estados Unidos. (Para ser justos, si observara una fuerte relación entre el rápido crecimiento
económico en China y las tasas de autismo solo en China, podría comenzar a buscar algún
factor ambiental relacionado con el crecimiento económico, como la contaminación industrial,
que podría explicar la asociación).
El tipo de asociación falsa entre dos variables que acabo de ilustrar es sólo un ejemplo
de un fenómeno más general conocido como causalidad espuria.
Hay varias otras formas en las que se puede interpretar erróneamente una asociación entre
A y B.
pasa a correr. Las inversiones en educación K12 podrían generar crecimiento económico.
Por otro lado, los estados que tienen economías fuertes pueden darse el lujo de gastar más en
educación K12, por lo que la economía fuerte podría estar causando el gasto en educación. O bien,
el gasto en educación podría impulsar el crecimiento económico, lo que haría posible un gasto
adicional en educación; la causalidad podría ser en ambos sentidos.
La cuestión es que no deberíamos utilizar variables explicativas que puedan verse afectadas
por el resultado que intentamos explicar, o de lo contrario los resultados quedarán
irremediablemente enredados. Por ejemplo, sería inapropiado utilizar la tasa de desempleo en
una ecuación de regresión que explique el crecimiento del PIB, ya que el desempleo se ve
claramente afectado por la tasa de crecimiento del PIB. O, para verlo de otra manera, un
análisis de regresión que encuentre que reducir el desempleo impulsará el crecimiento del PIB
es un hallazgo tonto y sin sentido, ya que normalmente es necesario impulsar el crecimiento
del PIB para reducir el desempleo.
Deberíamos tener razones para creer que nuestras variables explicativas afectan la
variable dependiente y no al revés.
Sesgo de variable omitida. Debería ser escéptico la próxima vez que vea un gran titular que
proclame: "¡Los golfistas son más propensos a sufrir enfermedades cardíacas, cáncer y
artritis!". No me sorprendería que los golfistas tuvieran una mayor incidencia de todas esas
enfermedades que los no golfistas; También sospecho que el golf probablemente sea bueno
para la salud porque proporciona socialización y ejercicio moderado. ¿Cómo puedo conciliar
esas dos declaraciones? Muy facilmente. Cualquier estudio que intente medir los efectos de la
práctica del golf sobre la salud debe controlar adecuadamente la edad. En general, la gente
juega más golf cuando envejece, especialmente cuando se jubila. Cualquier análisis que deje
de lado la edad como variable explicativa pasará por alto el hecho de que los golfistas, en
promedio, serán mayores que los no golfistas. El golf no mata gente; La vejez está matando a
la gente, y resulta que ellos disfrutan jugando al golf mientras lo hace. Sospecho que cuando
se inserta la edad en el análisis de regresión como variable de control, obtendremos un
resultado diferente. Entre personas de la misma edad, el golf puede ser levemente preventivo
de enfermedades graves. Esa es una diferencia bastante grande.
En este ejemplo, la edad es una “variable omitida” importante. Cuando dejamos la edad
fuera de una ecuación de regresión que explica las enfermedades cardíacas o algún otro
resultado adverso para la salud, la variable “jugar al golf” asume dos roles explicativos en lugar
de solo uno. Nos dice el efecto de jugar golf sobre las enfermedades cardíacas y nos dice el
efecto de la edad avanzada sobre las enfermedades cardíacas (ya que los golfistas tienden a
ser mayores que el resto de la población). En la jerga estadística, diríamos que la variable golf
está “captando” el efecto de la edad. El problema es que estos dos efectos están mezclados.
En el mejor de los casos, nuestros resultados son un lío confuso. En el peor de los casos, equivocadamente
Machine Translated by Google
asumir que el golf es malo para la salud, cuando en realidad es probable que sea lo contrario
verdadero.
Recuerdo que un profesor universitario señaló que los puntajes del SAT están altamente
correlacionados con la cantidad de automóviles que posee una familia. Insinuó que, por tanto, el
SAT era una herramienta injusta e inapropiada para la admisión a la universidad. El SAT tiene sus
fallos pero la correlación entre puntuaciones y coches familiares no es la que más me preocupa.
No me preocupa mucho que las familias ricas puedan llevar a sus hijos a la universidad comprando
tres automóviles más. La cantidad de automóviles en el garaje de una familia es un indicador de
sus ingresos, educación y otras medidas de estatus socioeconómico. El hecho de que los niños
ricos obtengan mejores resultados en el SAT que los niños pobres no es ninguna novedad. (Como
se señaló anteriormente, el puntaje promedio de lectura crítica del SAT para estudiantes de familias
con ingresos familiares superiores a $200,000 es 134 puntos más alto que el puntaje promedio
para estudiantes de hogares con ingresos inferiores a $20,000).
4
La mayor preocupación debería ser si el SAT es “entrenable” o no.
¿Cuánto pueden mejorar los estudiantes sus puntajes al tomar clases privadas de preparación para
el SAT? Las familias ricas claramente están en mejores condiciones de enviar a sus hijos a clases
de preparación para exámenes. Cualquier mejora causal entre estas clases y los puntajes del SAT
Machine Translated by Google
favorecería a los estudiantes de familias ricas en relación con los estudiantes más desfavorecidos
con iguales capacidades (que presumiblemente también podrían haber mejorado sus puntajes con
una clase preparatoria pero nunca tuvieron esa oportunidad).
la educación de la madre o del padre, entonces es más probable que poner ambas variables en la
ecuación confunda la cuestión que la aclare. La correlación entre los logros educativos de un marido y su
esposa es tan alta que no podemos depender del análisis de regresión para obtener coeficientes que
aíslen significativamente el efecto de la educación de cualquiera de los padres (del mismo modo que es
difícil separar el impacto del consumo de cocaína del impacto de consumo de heroína).
Extrapolando más allá de los datos. El análisis de regresión, como todas las formas de inferencia
estadística, está diseñado para ofrecernos información sobre el mundo que nos rodea. Buscamos patrones
que sean válidos para la población en general. Sin embargo, nuestros resultados son válidos sólo para
una población similar a la muestra en la que se realizó el análisis. En el último capítulo, creé una ecuación
de regresión para predecir 2 del peso final de mi modelo en función de una serie de variables
0,29, lo que significa que hizo un trabajo decente al explicar la variación de independientes. El R fue
peso para una muestra grande de individuos, todos los cuales eran adultos.
Entonces, ¿qué sucede si utilizamos nuestra ecuación de regresión para predecir el peso probable de
un recién nacido? Vamos a intentarlo. Mi hija medía 21 pulgadas cuando nació. Diremos que su edad al
nacer era cero; no tenía educación y no hacía ejercicio. Ella era blanca y femenina. La ecuación de
regresión basada en los datos de Changing Lives predice que su peso al nacer debería haber sido
negativo de 19,6 libras.
(Pesaba 8½ libras).
Los autores de uno de los estudios de Whitehall mencionados en el último capítulo fueron
sorprendentemente explícitos al llegar a su estrecha conclusión: “El bajo control en el entorno laboral se
asocia con un mayor riesgo de futuras enfermedades coronarias entre hombres y mujeres empleados en
oficinas gubernamentales”. 5 (cursiva agregada).
Para aclarar este punto, a menudo hago el mismo ejercicio de lanzamiento de moneda que expliqué
durante la discusión sobre probabilidades. En una clase de unos cuarenta estudiantes, haré que cada
estudiante lance una moneda. Cualquier estudiante que dé vuelta cruz es eliminado; el resto se voltea nuevamente.
En la segunda ronda, aquellos que dan vuelta cruz quedan nuevamente eliminados. Continúo las rondas
de voltear hasta que un estudiante haya volteado cinco o seis cabezas seguidas.
Quizás recuerdes algunas de las preguntas tontas de seguimiento: “¿Cuál es tu secreto? ¿Está en la
muñeca? ¿Puedes enseñarnos a voltear cabezas todo el tiempo? Tal vez sea esa sudadera de Harvard
que llevas puesta.
Obviamente la serie de cabezas es sólo suerte; Todos los estudiantes han visto lo que sucedió. Sin
embargo, no es necesariamente así como se podría interpretar o se interpretaría el resultado en un contexto
científico. La probabilidad de sacar cinco caras seguidas es 1/32, o 0,03. Esto está cómodamente por
debajo del umbral de 0,05 que normalmente utilizamos para rechazar una hipótesis nula. Nuestra hipótesis
nula en este caso es que el estudiante no tiene talento especial para hacer girar cabezas; la serie de caras
de la suerte (que seguramente le sucederá al menos a un estudiante cuando comienzo con un grupo
grande) nos permite rechazar la hipótesis nula y adoptar la hipótesis alternativa: este estudiante tiene una
habilidad especial para voltear caras. Una vez que haya logrado esta impresionante hazaña, podemos
estudiarlo en busca de pistas sobre su éxito en el lanzamiento: su forma de lanzar, su entrenamiento
atlético, su extraordinaria concentración mientras la moneda está en el aire, etc.
Incluso los resultados de los ensayos clínicos, que suelen ser experimentos aleatorios y, por tanto, el
estándar de oro de la investigación médica, deberían verse con cierto escepticismo. En 2011, el Wall Street
Journal publicó en primera plana un artículo sobre lo que describió como uno de los “pequeños secretos
sucios” de la investigación médica: “La mayoría de los resultados, incluidos los que aparecen en revistas
de primer nivel revisadas por pares, no pueden ser reproducido.”
7 (Una revista revisada por pares es una publicación en la que otros expertos en el mismo
campo revisan estudios y artículos para determinar su solidez metodológica antes de aprobarlos para su
publicación; dichas publicaciones se consideran los guardianes de la investigación académica). Una razón
para esto “ pequeño y sucio
Machine Translated by Google
El análisis de regresión sigue siendo una herramienta estadística increíble. (Está bien, tal vez mi
descripción como “elixir milagroso” en el último capítulo fue un poco hiperbólica).
El análisis de regresión nos permite encontrar patrones clave en grandes conjuntos de datos, y
esos patrones suelen ser la clave para investigaciones importantes en medicina y ciencias
sociales. Las estadísticas nos brindan estándares objetivos para evaluar estos patrones.
Cuando se utiliza correctamente, el análisis de regresión es una parte importante del método
científico. Considere este capítulo como la etiqueta de advertencia obligatoria.
Todas las diversas advertencias específicas de esa etiqueta se pueden resumir en dos
lecciones clave. En primer lugar, diseñar una buena ecuación de regresión (descubrir qué
variables deben examinarse y de dónde deben provenir los datos) es más importante que los
cálculos estadísticos subyacentes. Este proceso se conoce como estimación de la ecuación o
especificación de una buena ecuación de regresión. Los mejores investigadores son los que
pueden pensar lógicamente sobre qué variables deberían incluirse en una ecuación de regresión,
qué podría faltar y cómo pueden y deben interpretarse los resultados finales.
* Existen métodos más sofisticados que se pueden utilizar para adaptar el análisis de regresión para su uso con datos no
lineales. Sin embargo, antes de utilizar esas herramientas, es necesario comprender por qué utilizar el método estándar de
mínimos cuadrados ordinarios con datos no lineales le dará un resultado sin sentido.
Machine Translated by Google
CAPITULO 13
Evaluación del
programa ¿Ir a Harvard cambiará tu vida?
Los investigadores brillantes en ciencias sociales no lo son porque puedan hacer cálculos
complejos mentalmente o porque ganen más dinero en Jeopardy que los investigadores
menos brillantes (aunque ambas hazañas pueden ser ciertas).
Los investigadores brillantes (aquellos que cambian apreciablemente nuestro conocimiento
del mundo) suelen ser individuos o equipos que encuentran formas creativas de realizar
experimentos "controlados". Para medir el efecto de cualquier tratamiento o intervención,
necesitamos algo con qué compararlo. ¿Cómo afectaría tu vida ir a Harvard?
Bueno, para responder a esa pregunta, tenemos que saber qué te sucede después de ir a
Harvard y qué te sucede después de no ir a Harvard. Obviamente no podemos tener datos
sobre ambos. Sin embargo, investigadores inteligentes encuentran formas de comparar
algunos tratamientos (por ejemplo, ir a Harvard) con el contrafactual, que es lo que habría
sucedido en ausencia de ese tratamiento.
Para ilustrar este punto, reflexionemos sobre una pregunta aparentemente simple: ¿poner
más agentes de policía en las calles disuade el crimen? Esta es una cuestión socialmente
importante, ya que el crimen impone enormes costos a la sociedad. Si una mayor presencia
policial reduce la delincuencia, ya sea mediante la disuasión o capturando y encarcelando a
los malos, entonces las inversiones en agentes de policía adicionales podrían generar
grandes beneficios. Por otra parte, los agentes de policía son relativamente caros; si tienen
poco o ningún impacto en la reducción del crimen, entonces la sociedad podría hacer un
mejor uso de sus recursos en otros lugares (quizás con inversiones en tecnología para
combatir el crimen, como cámaras de vigilancia).
El desafío es que nuestra pregunta aparentemente simple –¿cuál es el efecto causal de
más agentes de policía sobre el crimen?– resulta muy difícil de responder. A estas alturas del
libro, debería reconocer que no podemos responder a esta pregunta simplemente examinando
si las jurisdicciones con un alto número de agentes de policía per cápita tienen tasas de
criminalidad más bajas. Zurich no es Los Ángeles. Incluso una comparación de las grandes
ciudades estadounidenses será profundamente defectuosa; Los Ángeles, Nueva York,
Houston, Miami, Detroit y Chicago son lugares diferentes con diferentes desafíos demográficos
y criminales.
Nuestro enfoque habitual sería intentar especificar una ecuación de regresión que controle
estas diferencias. Por desgracia, ni siquiera el análisis de regresión múltiple es
Machine Translated by Google
vamos a salvarnos aquí. Si intentamos explicar las tasas de criminalidad (nuestra variable
dependiente) utilizando agentes de policía per cápita como variable explicativa (junto con otros
controles), tendremos un grave problema de causalidad inversa. Tenemos una sólida razón
teórica para creer que poner más agentes de policía en las calles reducirá el crimen, pero
también es posible que el crimen pueda "causar" agentes de policía, en el sentido de que las
ciudades que experimentan oleadas de criminalidad contratarán más agentes de policía.
Fácilmente podríamos encontrar una asociación positiva pero engañosa entre el crimen y la
policía: los lugares con más agentes de policía tienen los peores problemas de criminalidad.
Por supuesto, los lugares con muchos médicos también suelen tener la mayor concentración
de enfermos. Estos médicos no enferman a la gente; están ubicados en los lugares donde más
se necesitan (y al mismo tiempo los enfermos se trasladan a lugares donde pueden recibir
atención médica adecuada). Sospecho que hay un número desproporcionado de oncólogos y
cardiólogos en Florida; desterrarlos del estado no hará que la población de jubilados sea más
saludable.
Bienvenidos a la evaluación de programas, que es el proceso mediante el cual buscamos
medir el efecto causal de alguna intervención, desde un nuevo medicamento contra el cáncer
hasta un programa de colocación laboral para quienes abandonaron la escuela secundaria. O
poner más policías en la calle. La intervención que nos interesa suele denominarse “tratamiento”,
aunque esa palabra se usa de manera más amplia en un contexto estadístico que en el lenguaje
normal. Un tratamiento puede ser un tratamiento literal, como algún tipo de intervención médica,
o puede ser algo como asistir a la universidad o recibir capacitación laboral al salir de prisión.
La cuestión es que buscamos aislar el efecto de ese único factor; Lo ideal sería saber cómo le
va al grupo que recibe ese tratamiento en comparación con algún otro grupo cuyos miembros
son idénticos en todos los demás aspectos excepto en el tratamiento.
La evaluación del programa ofrece un conjunto de herramientas para aislar el efecto del
tratamiento cuando la causa y el efecto son difíciles de alcanzar. Así es como Jonathan Klick y
Alexander Tabarrok, investigadores de la Universidad de Pensilvania y la Universidad George
Mason, respectivamente, estudiaron cómo el hecho de poner más agentes de policía en las
calles afecta la tasa de criminalidad. Su estrategia de investigación hizo uso del sistema de
alerta terrorista. Específicamente, Washington, DC responde a los días de “alerta máxima” por
terrorismo poniendo más agentes en ciertas áreas de la ciudad, ya que la capital es un objetivo
natural del terrorismo. Podemos suponer que no existe una relación entre la delincuencia
callejera y la amenaza terrorista, por lo que este aumento de la presencia policial en DC no
está relacionado con la tasa de criminalidad convencional, o es “exógeno”. La idea más valiosa
de los investigadores fue reconocer el experimento natural aquí: ¿Qué sucede con la
delincuencia común en los días de “alerta máxima” por terrorismo?
La respuesta: el número de delitos cometidos cuando la amenaza terrorista era Naranja
(alerta máxima y más policía) fue aproximadamente un 7 por ciento menor que cuando el
Machine Translated by Google
El nivel de amenaza terrorista era Amarillo (alerta elevada pero sin precauciones policiales
adicionales). Los autores también encontraron que la disminución de la delincuencia fue más
pronunciada en el distrito policial que recibe la mayor atención policial en los días de alerta
máxima (porque incluye la Casa Blanca, el Capitolio y el National Mall). Lo importante es que
podemos responder preguntas difíciles pero socialmente significativas; sólo tenemos que ser
inteligentes al respecto. Éstos son algunos de los enfoques más comunes para aislar el
efecto de un tratamiento.
grupos similares.
Los ensayos médicos normalmente aspiran a realizar experimentos controlados y aleatorios.
Idealmente, estos ensayos clínicos son doble ciego, lo que significa que ni el paciente ni el
médico saben quién recibe el tratamiento y quién recibe un placebo.
Obviamente, esto es imposible con tratamientos como los procedimientos quirúrgicos (es de
esperar que el cirujano cardíaco sepa qué pacientes se someterán a una cirugía de bypass).
Sin embargo, incluso con procedimientos quirúrgicos, aún es posible evitar que los pacientes
sepan si están en el grupo de tratamiento o de control. Uno de mis estudios favoritos involucró
la evaluación de cierto tipo de cirugía de rodilla para aliviar el dolor. El grupo de tratamiento
recibió la cirugía. Al grupo de control se le realizó una cirugía "simulada" en la que el cirujano
hizo tres pequeñas incisiones en la rodilla y "fingió operar".
*
Resultó que la cirugía real no fue más efectiva que la
cirugía simulada para aliviar el dolor de rodilla. 1
Se pueden utilizar ensayos aleatorios para probar algunos fenómenos interesantes. Por
ejemplo, ¿las oraciones ofrecidas por extraños mejoran los resultados posquirúrgicos?
Las personas razonables tienen opiniones muy diversas sobre la religión, pero un estudio
publicado en el American Heart Journal realizó un estudio controlado que examinó si los
pacientes que se recuperaban de una cirugía de bypass cardíaco tendrían menos complicaciones
postoperatorias si un grupo grande de extraños orara por su recuperación rápida y segura.
2 En el estudio participaron 1.800 pacientes y miembros de tres
congregaciones religiosas de todo el país. Los pacientes, todos los cuales recibieron cirugía de
bypass coronario, se dividieron en tres grupos: en un grupo no se oró por él; se oró por un
grupo y así se lo dijeron; Se oró por el tercer grupo, pero a los participantes de ese grupo se
les dijo que podrían o no recibir oraciones (controlando así el efecto placebo de la oración).
Mientras tanto, a los miembros de las congregaciones religiosas se les pidió que ofrecieran
oraciones por pacientes específicos por el nombre y la primera inicial de su apellido (por
ejemplo, Charlie W.).
A los feligreses se les dio libertad para orar, siempre y cuando la oración incluyera la frase “por
una cirugía exitosa con una recuperación rápida, saludable y sin complicaciones”.
¿Y? ¿Será la oración la solución rentable a los desafíos de la atención médica en Estados
Unidos? Probablemente no. Los investigadores no encontraron ninguna diferencia en la tasa
de complicaciones dentro de los treinta días posteriores a la cirugía entre aquellos a quienes
se les ofrecieron oraciones en comparación con aquellos a quienes no se les ofrecieron
oraciones. Los críticos del estudio señalaron una posible variable omitida: las oraciones
provenientes de otras fuentes. Como resumió el New York Times : “Los expertos dijeron que el
estudio no pudo superar quizás el mayor obstáculo para el estudio de la oración: la cantidad
desconocida de oración que cada persona recibió de amigos, familiares y congregaciones de todo el mundo qu
Machine Translated by Google
Experimentar con humanos puede hacer que te arresten o quizás te lleven a comparecer ante
algún tribunal penal internacional. Deberías ser consciente de esto.
Sin embargo, todavía hay espacio en las ciencias sociales para experimentos aleatorios y
controlados con “sujetos humanos”. Un experimento famoso e influyente es el experimento del
Proyecto STAR de Tennessee, que probó el efecto de clases más pequeñas en el aprendizaje
de los estudiantes. La relación entre el tamaño de la clase y el aprendizaje es enormemente
importante. Las naciones de todo el mundo están luchando por mejorar los resultados educativos.
Si las clases más pequeñas promueven un aprendizaje más eficaz, ceteris paribus, entonces la
sociedad debería invertir en contratar más profesores para reducir el tamaño de las clases. Al
mismo tiempo, contratar profesores es caro; Si a los estudiantes de clases más pequeñas les
va mejor por razones no relacionadas con el tamaño de la clase, entonces podríamos terminar
desperdiciando una enorme cantidad de dinero.
La relación entre el tamaño de la clase y el rendimiento de los estudiantes es
sorprendentemente difícil de estudiar. Las escuelas con clases pequeñas generalmente tienen
mayores recursos, lo que significa que es probable que tanto los estudiantes como los profesores
sean diferentes de los estudiantes y profesores de las escuelas con clases más grandes. Y
dentro de las escuelas, las clases más pequeñas tienden a ser más pequeñas por una razón.
Un director puede asignar estudiantes difíciles a una clase pequeña, en cuyo caso podríamos
encontrar una asociación negativa espuria entre las clases más pequeñas y el rendimiento de
los estudiantes. O los profesores veteranos pueden optar por impartir clases pequeñas, en cuyo
caso el beneficio de las clases pequeñas puede provenir de los profesores que eligen impartirlas
y no de la menor proporción alumnosmaestro.
A partir de 1985, el Proyecto STAR de Tennessee realizó un experimento controlado para
probar los efectos de clases más pequeñas. 3 (Lamar Alexander era gobernador de Tennessee
en ese momento; luego pasó a ser secretario de educación durante la presidencia de George
HW Bush.) En el jardín de infantes, los estudiantes de setenta y nueve escuelas diferentes
fueron asignados al azar a una clase pequeña (de 13 a 17 años). estudiantes), una clase regular
(22 a 25 estudiantes) o una clase regular con un maestro regular y un asistente de maestro. Los
profesores también fueron asignados aleatoriamente a las diferentes aulas. Los estudiantes
permanecieron en el tipo de clase al que fueron asignados aleatoriamente hasta el tercer grado.
Diversas realidades de la vida erosionaron la aleatorización. Algunos estudiantes ingresaron al
sistema en medio del experimento; otros se fueron. Algunos estudiantes fueron trasladados de
una clase a otra por motivos disciplinarios; algunos padres presionaron con éxito para que los
estudiantes fueran trasladados a clases más pequeñas. Etcétera.
Aún así, el Proyecto STAR sigue siendo la única prueba aleatoria de los efectos de las clases
más pequeñas. Los resultados resultaron ser estadística y socialmente significativos. En general,
los estudiantes de las clases pequeñas obtuvieron 0,15 desviaciones estándar mejores en
Machine Translated by Google
exámenes estandarizados que los estudiantes en las clases de tamaño regular; los estudiantes negros
en clases pequeñas obtuvieron ganancias que fueron el doble. Ahora las malas noticias. El experimento
del Proyecto STAR costó aproximadamente 12 millones de dólares. El estudio sobre el efecto de la
oración en las complicaciones posquirúrgicas costó 2,4 millones de dólares. Los mejores estudios son
como cualquier otra cosa: cuestan mucho dinero.
Experimento natural. No todo el mundo dispone de millones de dólares para crear un ensayo aleatorio
de gran tamaño. Una alternativa más económica es explotar un experimento natural, que ocurre
cuando circunstancias aleatorias de alguna manera crean algo parecido a un experimento aleatorio y
controlado. Este fue el caso de nuestro ejemplo de la policía de Washington, DC, al comienzo del
capítulo.
A veces la vida crea un grupo de tratamiento y control por accidente; cuando eso ocurre, los
investigadores están ansiosos por aprovechar los resultados. Consideremos el sorprendente pero
complicado vínculo entre educación y longevidad. Las personas que reciben más educación tienden a
vivir más tiempo, incluso después de controlar aspectos como los ingresos y el acceso a la atención
médica. Como ha señalado el New York Times : “El único factor social que los investigadores coinciden
en que está constantemente vinculado con vidas más largas en todos los países donde se ha estudiado
es la educación. Es más importante que la raza; borra cualquier efecto de los ingresos”.
4
Pero hasta ahora, eso es sólo una correlación. ¿Más
educación, ceteris paribus, produce mejor salud? Si piensa en la educación en sí misma como el
“tratamiento”, ¿obtener más educación le hará vivir más tiempo?
Ésta parecería una cuestión casi imposible de estudiar, ya que las personas que eligen recibir más
educación son diferentes de las que no lo hacen. La diferencia entre los graduados de la escuela
secundaria y los graduados universitarios no es sólo cuatro años de escolarización. Fácilmente podría
haber algunas características no observables compartidas por las personas que siguen una educación
que también expliquen su mayor esperanza de vida. Si ese es el caso, ofrecer más educación a
quienes habrían elegido menos educación en realidad no mejorará su salud. La mejora de la salud no
sería función de la educación incremental; sería una función del tipo de personas que persiguen esa
educación incremental.
No podemos realizar un experimento aleatorio para resolver este enigma, porque eso implicaría
que algunos participantes abandonaran la escuela antes de lo que les gustaría. (Intenta explicarle a
alguien que no puede ir a la universidad, nunca, porque está en el grupo de control.) La única prueba
posible del efecto causal de la educación sobre la longevidad sería algún tipo de experimento que
obligara a un gran segmento de que la población permanezca en la escuela más tiempo del que sus
miembros elegirían. Esto es al menos moralmente aceptable, ya que esperamos un efecto positivo del
tratamiento. Aún así, no podemos obligar a los niños a permanecer en la escuela; ese no es el
Machine Translated by Google
Al estilo americano.
Ah, pero lo es. Cada estado tiene algún tipo de ley de escolarización mínima y en diferentes
momentos de la historia esas leyes han cambiado. Ese tipo de cambio exógeno en el nivel
educativo (lo que significa que no es causado por los individuos estudiados) es exactamente el
tipo de cosa que hace que los investigadores se desmayen de emoción. Adriana LlerasMuney,
estudiante de posgrado en Columbia, vio el potencial de la investigación en el hecho de que
diferentes estados han cambiado sus leyes de escolaridad mínima en diferentes momentos.
Retrocedió en la historia y estudió la relación entre el momento en que los estados cambiaron
sus leyes de escolarización mínima y los cambios posteriores en la esperanza de vida en esos
estados (revisando muchísimos datos del censo). Todavía tenía un desafío metodológico; Si los
residentes de un estado viven más después de que el estado eleva su ley de escolarización
mínima, no podemos atribuir la longevidad a la escolarización adicional. La esperanza de vida
generalmente aumenta con el tiempo. La gente vivía más en 1900 que en 1850, sin importar lo
que hicieran los estados.
Sin embargo, LlerasMuney tenía un control natural: estados que no cambiaron sus leyes de escolaridad
mínima. Su trabajo se aproxima a un gigantesco experimento de laboratorio en el que los residentes de
Illinois se ven obligados a permanecer en la escuela durante siete años, mientras que sus vecinos de
Indiana pueden abandonar la escuela después de seis años. La diferencia es que este experimento
controlado fue posible gracias a un accidente histórico, de ahí el término "experimento natural".
¿Qué pasó? La esperanza de vida de los adultos que alcanzaron los treinta y cinco años se amplió en
un año y medio adicional simplemente por asistir un año más a la escuela. 5 Los resultados de Lleras
Muney se han replicado en otros países donde las variaciones en las leyes de escolarización obligatoria
han creado experimentos naturales similares. Es necesario cierto escepticismo. Todavía no entendemos
el mecanismo por el cual una escolarización adicional conduce a vidas más largas.
Control no equivalente. A veces, la mejor opción disponible para estudiar el efecto de un tratamiento es
crear grupos de tratamiento y control no aleatorios. Nuestra esperanza/expectativa es que los dos grupos
sean ampliamente similares a pesar de que las circunstancias no nos han permitido el lujo estadístico de
la aleatorización. La buena noticia es que tenemos un grupo de tratamiento y un grupo de control. La
mala noticia es que cualquier asignación no aleatoria crea al menos la posibilidad de sesgo. Puede haber
diferencias no observadas entre los grupos de tratamiento y control relacionadas con cómo se asigna a
los participantes a un grupo u otro. De ahí el nombre de “control no equivalente”.
Un grupo de control no equivalente todavía puede ser una herramienta muy útil. Reflexionemos sobre
la pregunta planteada en el título de este capítulo: ¿Existe una ventaja significativa en la vida para
Machine Translated by Google
Dale y Krueger estudiaron datos longitudinales sobre los ingresos de ambos grupos.
Esta no es una comparación perfecta de manzanas con manzanas, y los ingresos claramente no
son el único resultado de vida que importa, pero sus hallazgos deberían aliviar las ansiedades de
los estudiantes de secundaria sobrecargados y de sus padres. Los estudiantes que asistieron a
universidades más selectivas obtuvieron aproximadamente lo mismo que los estudiantes de
habilidades aparentemente similares que asistieron a escuelas menos selectivas. La única
excepción fueron los estudiantes de familias de bajos ingresos, que ganaban más si asistían a un
colegio o universidad selectiva. El enfoque de Dale y Krueger es una forma elegante de resolver los problemas
Machine Translated by Google
efecto del tratamiento (pasar cuatro años en una institución de élite) del efecto de selección
(los estudiantes más talentosos son admitidos en esas instituciones). En un resumen de la
investigación para el New York Times, Alan Krueger respondió indirectamente a la pregunta
planteada en el título de este capítulo: “Reconoce que tu propia motivación, ambición y
talentos determinarán tu éxito más que el nombre de la universidad en tu diploma. "
8
Diferencia en diferencias. Una de las mejores formas de observar causa y efecto es hacer
algo y luego ver qué sucede. Después de todo, así es como los bebés y los niños pequeños
(y a veces los adultos) aprenden sobre el mundo. Mis hijos aprendieron muy rápidamente
que si arrojaban trozos de comida por la cocina (causa), el perro corría ansioso tras ellos
(efecto). Presumiblemente, el mismo poder de observación puede ayudar a informar el
resto de la vida. Si recortamos los impuestos y la economía mejora, entonces los recortes
de impuestos deben haber sido responsables.
Tal vez. El enorme peligro potencial de este enfoque es que la vida tiende a ser más
compleja que tirar nuggets de pollo por la cocina. Sí, es posible que hayamos recortado
los impuestos en un momento específico, pero hubo otras “intervenciones” que se
desarrollaron aproximadamente durante el mismo período: más mujeres iban a la
universidad, Internet y otras innovaciones tecnológicas estaban elevando la productividad
de los trabajadores estadounidenses, la La moneda china estaba subvaluada, los
Cachorros de Chicago despidieron a su gerente general, y así sucesivamente. Lo que
ocurrió después del recorte de impuestos no puede atribuirse únicamente al recorte de
impuestos. El desafío de cualquier tipo de análisis de “antes y después” es que el hecho
de que una cosa siga a otra no significa que exista una relación causal entre las dos.
Un enfoque de “diferencia en diferencias” puede ayudarnos a identificar los efectos de
alguna intervención haciendo dos cosas. Primero, examinamos los datos de “antes” y
“después” de cualquier grupo o jurisdicción que haya recibido el tratamiento, como las
cifras de desempleo de un condado que ha implementado un programa de capacitación laboral.
En segundo lugar, comparamos esos datos con las cifras de desempleo durante el mismo
período para un condado similar que no implementó ningún programa de este tipo.
La suposición importante es que los dos grupos utilizados para el análisis son en gran
medida comparables excepto por el tratamiento; como resultado, cualquier diferencia
significativa en los resultados entre los dos grupos puede atribuirse al programa o política
que se está evaluando. Por ejemplo, supongamos que un condado de Illinois implementa
un programa de capacitación laboral para combatir el alto desempleo. Durante los dos
años siguientes, la tasa de desempleo sigue aumentando. ¿Eso hace que el programa
sea un fracaso? ¿Quién sabe?
Es posible que estén en juego otras fuerzas económicas amplias, incluida la posibilidad de
una crisis económica prolongada. Un enfoque de diferencias en diferencias compararía el
cambio en la tasa de desempleo a lo largo del tiempo en el condado que estamos evaluando
con la tasa de desempleo de un condado vecino sin programa de capacitación laboral; los dos
condados deben ser similares en todos los demás aspectos importantes: combinación de
industrias, demografía, etc. ¿Cómo cambia con el tiempo la tasa de desempleo en el condado
con el nuevo programa de capacitación laboral en relación con el condado que no implementó
dicho programa? Podemos inferir razonablemente el efecto del tratamiento del programa
comparando los cambios en los dos condados durante el período de estudio: la "diferencia en
diferencias". El otro condado en este estudio actúa efectivamente como grupo de control, lo
que nos permite aprovechar los datos recopilados antes y después de la intervención. Si el
grupo de control es bueno, estará expuesto a las mismas fuerzas más amplias que nuestro
grupo de tratamiento. El enfoque de diferencias en diferencias puede ser particularmente
esclarecedor cuando el tratamiento inicialmente parece ineficaz (el desempleo es mayor
después de que se implementa el programa que antes), sin embargo, el grupo de control nos
muestra que la tendencia habría sido aún peor en ausencia de la intervención. .
Supongamos que un distrito escolar exige clases de verano para los estudiantes con
dificultades. Al distrito le gustaría saber si el programa de verano tiene algún valor académico a
largo plazo. Como siempre, una simple comparación entre los estudiantes que asisten a la
escuela de verano y los que no, sería peor que inútil. Los estudiantes que asisten a la escuela
de verano están allí porque tienen dificultades. Incluso si el programa de escuela de verano es
muy eficaz, a los estudiantes participantes probablemente les irá peor a largo plazo que a los
estudiantes a los que no se les exigió asistir a la escuela de verano. Lo que queremos saber es
cómo se desempeñan los estudiantes con dificultades después de asistir a la escuela de verano
en comparación con cómo les habría ido si no hubieran asistido a la escuela de verano. Sí,
podríamos hacer algún tipo de experimento controlado en el que los estudiantes con dificultades
sean seleccionados al azar para asistir a la escuela de verano o no, pero eso implicaría negarle
al grupo de control el acceso a un programa que creemos que sería útil.
que obtienen un 59 por ciento (una calificación reprobatoria) no son apreciablemente diferentes de
aquellos estudiantes que obtienen un 60 por ciento (una calificación aprobatoria). Si aquellos que
no aprueban el examen parcial están inscritos en algún tratamiento, como tutoría obligatoria para
el examen final, entonces tendríamos un grupo de tratamiento y control razonable si comparamos
las puntuaciones del examen final de aquellos que apenas reprobaron el examen parcial (y
recibieron tutoría). con las puntuaciones de aquellos que apenas aprobaron el examen parcial (y
no recibieron tutoría).
Este enfoque se utilizó para determinar la eficacia del encarcelamiento de delincuentes juveniles
como elemento disuasivo de delitos futuros. Obviamente, este tipo de análisis no puede
simplemente comparar las tasas de reincidencia de los delincuentes juveniles que están
encarcelados con las tasas de reincidencia de los delincuentes juveniles que recibieron sentencias
más leves. Los delincuentes juveniles que son enviados a prisión suelen cometer delitos más
graves que los delincuentes juveniles que reciben sentencias más leves; por eso van a prisión.
Tampoco podemos crear un grupo de tratamiento y control distribuyendo las penas de prisión al
azar (a menos que quieras arriesgarte a veinticinco años en la casa grande la próxima vez que
hagas un giro ilegal a la derecha en rojo). Randi Hjalmarsson, ahora investigador de la Universidad
de Londres, aprovechó las rígidas pautas de sentencia para delincuentes juveniles en el estado de
Washington para comprender mejor el efecto causal de una sentencia de prisión en el
comportamiento criminal futuro.
Específicamente, comparó la tasa de reincidencia de aquellos delincuentes juveniles que “apenas”
fueron sentenciados a prisión con la tasa de reincidencia de aquellos jóvenes que “apenas”
obtuvieron un pase (que generalmente implicaba una multa o libertad condicional).
9
El sistema de justicia penal de Washington crea una cuadrícula para cada delincuente
condenado que se utiliza para administrar una sentencia. El eje x mide los delitos adjudicados
anteriormente al delincuente. Por ejemplo, cada delito grave anterior cuenta como un punto; cada
delito menor anterior cuenta como un cuarto de punto. El total de puntos se redondea a la baja a
un número entero (lo cual será importante en un momento). Mientras tanto, el eje y mide la
gravedad del delito actual en una escala que va desde E (menos grave) hasta A+ (más grave). La
sentencia de un menor condenado se calcula literalmente encontrando la casilla correspondiente
en la cuadrícula: un delincuente con dos puntos de delitos anteriores que comete un delito grave
de Clase B recibirá de quince a treinta y seis meses en una cárcel juvenil. Un delincuente
condenado con solo un punto por delitos anteriores que cometa el mismo delito no será enviado a
prisión. Esa discontinuidad es lo que motivó la estrategia de investigación. Hjalmarsson comparó
los resultados de los delincuentes condenados que se encontraban justo por encima y por debajo
del umbral para una sentencia de cárcel. Como explica en el artículo, “si hay dos individuos con
una clase de delito actual de C+ y puntuaciones de adjudicación [anteriores] de 2¾ y 3, entonces
sólo el último individuo será sentenciado a prisión estatal”.
Machine Translated by Google
Para fines de investigación, esos dos individuos son esencialmente iguales, hasta que uno de
ellos va a la cárcel. Y en ese punto, su comportamiento parece divergir marcadamente. Los
delincuentes juveniles que van a la cárcel tienen muchas menos probabilidades de ser
condenados por otro delito (después de salir de la cárcel).
Nos preocupamos por lo que funciona. Esto es cierto en la medicina, en la economía, en los
negocios, en la justicia penal... en todo. Sin embargo, la causalidad es un hueso duro de roer,
incluso en los casos en los que la causa y el efecto parecen sorprendentemente obvios. Para
comprender el verdadero impacto de un tratamiento, necesitamos conocer el “contrafactual”, que
es lo que habría sucedido en ausencia de ese tratamiento o intervención. A menudo el
contrafactual es difícil o imposible de observar. Consideremos un ejemplo no estadístico: ¿la
invasión estadounidense de Irak hizo que Estados Unidos fuera más seguro?
Sólo hay una respuesta intelectualmente honesta: nunca lo sabremos. La razón por la que
nunca lo sabremos es que no sabemos –y no podemos saber– qué habría pasado si Estados
Unidos no hubiera invadido Irak. Es cierto que Estados Unidos no encontró armas de destrucción
masiva. Pero es posible que el día después de que Estados Unidos no invadiera Irak, Saddam
Hussein se hubiera metido en la ducha y se hubiera dicho: “Realmente me vendría bien una
bomba de hidrógeno. ¿Me pregunto si los norcoreanos me venderán uno? Después de eso,
¿quién sabe?
Por supuesto, también es posible que Saddam Hussein se hubiera metido en esa misma
ducha el día después de que Estados Unidos no invadió Irak y se dijera a sí mismo: "Realmente
me vendría bien...", momento en el que se resbaló en una pastilla de jabón. se golpeó la cabeza
con un adorno de mármol y murió. En ese caso, el mundo se habría librado de Saddam Hussein
sin los enormes costos asociados con la invasión estadounidense. ¿Quién sabe qué hubiera
pasado?
El propósito de cualquier evaluación de programa es proporcionar algún tipo de contrafactual
contra el cual se pueda medir un tratamiento o intervención. En el caso de un experimento
controlado y aleatorio, el grupo de control es el contrafactual. En los casos en que un experimento
controlado sea poco práctico o inmoral, necesitamos encontrar alguna otra forma de aproximarnos
al contrafactual. Nuestra comprensión del mundo depende de encontrar formas inteligentes de
hacerlo.
* Los participantes sabían que estaban participando en un ensayo clínico y que podrían recibir la cirugía simulada.
* A los investigadores les encanta usar la palabra "explotar". Tiene un significado específico en términos de aprovechar alguna
oportunidad relacionada con los datos. Por ejemplo, cuando los investigadores encuentran algún experimento natural que
crea un grupo de tratamiento y control, describirán cómo planean "explotar la variación en los datos". † Aquí existe
potencial de sesgo. Ambos grupos de estudiantes tienen el talento suficiente para ingresar a una escuela altamente selectiva.
Sin embargo, un grupo de estudiantes optó por ir a dicha escuela y el otro grupo no. El grupo de estudiantes que eligió asistir
a una escuela menos selectiva puede estar menos motivado, ser menos trabajador o diferente en otros aspectos que no
podemos observar. Si Dale y Krueger hubieran descubierto que los estudiantes que asisten a una escuela altamente selectiva
tenían mayores ingresos a lo largo de su vida que los estudiantes que fueron aceptados en dicha escuela pero
Machine Translated by Google
En cambio, fuimos a una universidad menos selectiva, todavía no podíamos estar seguros de si la diferencia se debía a la
escuela selectiva o al tipo de estudiante que optó por asistir a dicha escuela cuando se le dio la opción. Sin embargo, este
posible sesgo resulta poco importante en el estudio de Dale y Krueger debido a su dirección.
Dale y Krueger encuentran que los estudiantes que asistieron a escuelas altamente selectivas no ganaron significativamente
más en la vida que los estudiantes que fueron aceptados pero fueron a otra parte a pesar de que los estudiantes que
rechazaron asistir a una escuela altamente selectiva pueden haber tenido atributos que les llevaron a ganar dinero. menos
en la vida aparte de su educación. En todo caso, el sesgo aquí hace que los hallazgos exageren los beneficios pecuniarios
de asistir a una universidad altamente selectiva, que de todos modos resultan ser insustanciales.
Machine Translated by Google
Conclusión
Cinco preguntas que las estadísticas
pueden ayudar a responder
No hace mucho tiempo, era mucho más difícil reunir información y mucho más
caro de analizar. Imagínese estudiar la información de un millón de transacciones con tarjetas
de crédito en la época (hace sólo unas décadas) en la que sólo existían recibos en papel y no
había computadoras personales para analizar los datos acumulados.
Durante la Gran Depresión, no hubo estadísticas oficiales con las que medir la profundidad de
los problemas económicos. El gobierno no recopiló información oficial ni sobre el producto interno
bruto (PIB) ni sobre el desempleo, lo que significa que los políticos intentaban hacer el equivalente
económico de navegar a través de un bosque sin brújula. Herbert Hoover declaró que la Gran
Depresión había terminado en 1930, basándose en los datos inexactos y obsoletos disponibles.
En su discurso sobre el Estado de la Unión le dijo al país que dos millones y medio de
estadounidenses estaban sin trabajo. De hecho, cinco millones de estadounidenses estaban
desempleados y el desempleo aumentaba en cien mil personas cada semana. Como observó
recientemente James Surowiecki en The New Yorker, “Washington estaba formulando políticas
a oscuras”.
1
Ahora estamos inundados de datos. En su mayor parte, eso es algo bueno. Las herramientas
estadísticas presentadas en este libro pueden utilizarse para abordar algunos de nuestros
desafíos sociales más importantes. En ese sentido, pensé que sería apropiado terminar el libro
con preguntas, no con respuestas. Mientras intentamos digerir y analizar cantidades asombrosas
de información, he aquí cinco preguntas importantes (y ciertamente aleatorias) cuyas respuestas
socialmente significativas implicarán muchas de las herramientas presentadas en este libro.
En 2009, Malcolm Gladwell planteó una pregunta en un artículo del New Yorker que al principio
me pareció innecesariamente sensacionalista y provocativa: ¿Qué tan diferentes son las peleas
de perros y el fútbol? 2 La conexión entre las dos actividades surgió del hecho de que el mariscal
de campo Michael Vick, que había cumplido condena en prisión por su
Machine Translated by Google
participación en una red de peleas de perros, había sido reincorporado a la Liga Nacional de Fútbol
justo cuando comenzaba a surgir información de que los traumatismos craneales relacionados con el
fútbol pueden estar asociados con depresión, pérdida de memoria, demencia y otros problemas
neurológicos más adelante en la vida. La premisa central de Gladwell era que tanto el fútbol profesional
como las peleas de perros son inherentemente devastadores para los participantes. Al final del
artículo, estaba convencido de que había planteado un punto intrigante.
Esto es lo que sabemos. Cada vez hay más pruebas de que las conmociones cerebrales y otras
lesiones cerebrales asociadas con el fútbol pueden causar daños neurológicos graves y permanentes.
(Se han observado fenómenos similares en boxeadores y jugadores de hockey). Muchos exjugadores
destacados de la NFL han compartido públicamente sus batallas posteriores al fútbol contra la
depresión, la pérdida de memoria y la demencia. Quizás el más conmovedor fue Dave Duerson, ex
safety y ganador del Super Bowl de los Chicago Bears, quien se suicidó pegándose un tiro en el
pecho; Dejó instrucciones explícitas a su familia para que estudiaran su cerebro después de su muerte.
En una encuesta telefónica realizada a mil exjugadores de la NFL seleccionados al azar que
habían jugado al menos tres años en la liga, el 6,1 por ciento de los exjugadores mayores de cincuenta
años informaron que habían recibido un diagnóstico de “demencia, enfermedad de Alzheimer u otras
enfermedades relacionadas con la memoria”. enfermedad." Eso es cinco veces el promedio nacional
para ese grupo de edad. Para los jugadores más jóvenes, la tasa de diagnóstico fue diecinueve veces
mayor que el promedio nacional. Cientos de exjugadores de la NFL han demandado tanto a la liga
como a los fabricantes de cascos de fútbol americano por supuestamente ocultar información sobre
3
los peligros de los traumatismos craneales.
Uno de los investigadores que estudia los impactos del trauma cerebral es Ann McKee, que dirige
el laboratorio de neuropatología del Hospital de Veteranos de Bedford, Massachusetts. (Casualmente,
McKee también realiza el trabajo de neuropatología para el Framingham Heart Study). El Dr. McKee
ha documentado la acumulación de proteínas anormales llamadas tau en el cerebro de atletas que
han sufrido traumatismos cerebrales, como boxeadores y jugadores de fútbol. Esto conduce a una
afección conocida como encefalopatía traumática crónica o CTE, que es un trastorno neurológico
progresivo que tiene muchas de las mismas manifestaciones que el Alzheimer.
Mientras tanto, otros investigadores han estado documentando la conexión entre el fútbol y el
trauma cerebral. Kevin Guskiewicz, que dirige el Programa de Investigación de Concusiones
Deportivas de la Universidad de Carolina del Norte, ha instalado sensores en el interior de los cascos
de los jugadores de fútbol de Carolina del Norte para registrar la fuerza y la naturaleza de los golpes
en la cabeza. Según sus datos, los jugadores reciben habitualmente golpes en la cabeza con una
fuerza equivalente a golpear el parabrisas en un accidente automovilístico a veinticinco millas por hora.
Esto es lo que no sabemos. ¿Se han descubierto hasta ahora pruebas de lesiones cerebrales?
Machine Translated by Google
¿Representativo de los riesgos neurológicos a largo plazo que enfrentan todos los jugadores de
fútbol profesionales? ¿O podría tratarse simplemente de un “grupo” de resultados adversos que
constituye una aberración estadística? Incluso si resulta que los jugadores de fútbol enfrentan
riesgos significativamente mayores de sufrir trastornos neurológicos en el futuro, aún tendríamos
que investigar la causalidad. ¿Podría el tipo de hombres que juegan al fútbol (y al boxeo y al hockey)
ser propensos a sufrir este tipo de problemas? ¿Es posible que otros factores, como el uso de
esteroides, contribuyan a los problemas neurológicos en el futuro?
Si la evidencia acumulada sugiere un vínculo causal claro entre jugar fútbol americano y una
lesión cerebral a largo plazo, los jugadores (y los padres de los jugadores más jóvenes), los
entrenadores, los abogados, los funcionarios de la NFL y quizás incluso los padres de los jugadores
más jóvenes tendrán que abordar una pregunta primordial. Reguladores gubernamentales: ¿Existe
alguna forma de jugar fútbol que reduzca la mayor parte o la totalidad del riesgo de traumatismo
craneoencefálico? Si no, ¿entonces qué? Este es el punto detrás de la comparación que hace
Malcolm Gladwell entre el fútbol y las peleas de perros. Explica que las peleas de perros son
aborrecibles para el público porque el dueño del perro voluntariamente somete a su perro a una
competencia que culmina en sufrimiento y destrucción. "¿Y por qué?" él pide. “Para el entretenimiento
de una audiencia y la posibilidad de ganar un día de pago. En el siglo XIX, las peleas de perros
eran ampliamente aceptadas por el público estadounidense. Pero ya no consideramos que ese tipo
de transacción sea moralmente aceptable en un deporte”.
Casi todos los tipos de análisis estadístico descritos en este libro se utilizan actualmente para
determinar si el fútbol profesional tal como lo conocemos ahora tiene futuro.
En 2012, los Centros para el Control de Enfermedades informaron que 1 de cada 88 niños
estadounidenses había sido diagnosticado con un trastorno del espectro autista (según datos de
4
2008). La tasa de diagnóstico había aumentado de 1 entre 110 en 2006 y 1 entre 150 en
2002, o casi el doble en menos de una década. Los trastornos del espectro autista (TEA) son un
grupo de discapacidades del desarrollo caracterizadas por un desarrollo atípico en la socialización,
la comunicación y el comportamiento. El "espectro" indica que el autismo abarca una amplia gama
de condiciones definidas conductualmente. 5 Los niños tienen cinco veces más probabilidades de
ser diagnosticados con un TEA que las niñas (lo que significa que la incidencia en los niños es
incluso mayor que 1 en 88).
La primera pregunta estadística intrigante es si estamos experimentando una epidemia de autismo, una “epidemia de diagnóstico”
o alguna combinación de ambas. 6 En décadas anteriores, los niños con un trastorno del espectro autista tenían dos. síntomas que
podría haberse descrito de manera más general como una “dificultad de aprendizaje”. Los médicos, padres
y profesores son ahora mucho más conscientes de los síntomas de los TEA, lo que naturalmente conduce
a más diagnósticos independientemente de si la incidencia del autismo está aumentando o no.
En cualquier caso, la incidencia sorprendentemente alta de los TEA representa un serio desafío para las
familias, las escuelas y el resto de la sociedad. El coste medio de por vida del tratamiento de un trastorno
del espectro autista para un solo individuo es de 3,5 millones de dólares.
7
A pesar de lo que es claramente una epidemia, sabemos sorprendentemente poco
sobre las causas de esta afección. Thomas Insel, director del Instituto Nacional de Salud Mental, ha dicho:
“¿Son los teléfonos móviles? ¿Ultrasonido? ¿Refrescos dietéticos? Cada padre tiene una teoría. En este
punto, simplemente no lo sabemos”. 8 ¿Qué es diferente o único en las
vidas y los antecedentes de los niños con TEA? ¿Cuáles son las diferencias fisiológicas más significativas
entre niños con y sin TEA? ¿La incidencia de los TEA es diferente entre países?
Si es así, ¿por qué? El trabajo tradicional de detective estadístico está encontrando pistas.
Un estudio reciente realizado por investigadores de la Universidad de California en Davis identificó diez
lugares en California con tasas de autismo que duplican las tasas de las áreas circundantes; Cada uno de
los grupos de autismo es un vecindario con una concentración de padres blancos y con un alto nivel
9
educativo. ¿Es eso una pista o una coincidencia?
¿O podría reflejar que las familias relativamente privilegiadas tienen más probabilidades de que se les
diagnostique un trastorno del espectro autista? Los mismos investigadores también están realizando un
estudio en el que recolectarán muestras de polvo de los hogares de 1.300 familias con un niño autista para
realizar pruebas de sustancias químicas u otros contaminantes ambientales que puedan desempeñar un
papel causal.
Mientras tanto, otros investigadores han identificado lo que parece ser una herencia genética.
10
componente del autismo mediante el estudio de los TEA entre gemelos idénticos y fraternos.
La probabilidad de que dos niños de la misma familia tengan un TEA es mayor entre gemelos idénticos (que
comparten la misma composición genética) que entre gemelos fraternos (cuya similitud genética es la misma
que la de los hermanos normales). Este hallazgo no descarta factores ambientales importantes, o quizás la
interacción entre factores ambientales y genéticos. Después de todo, la enfermedad cardíaca tiene un
componente genético importante, pero claramente el tabaquismo, la dieta, el ejercicio y muchos otros
factores ambientales y de comportamiento también importan.
Una de las contribuciones más importantes del análisis estadístico hasta ahora ha sido desacreditar
causas falsas, muchas de las cuales han surgido debido a una confusión entre correlación y causalidad. Un
trastorno del espectro autista suele aparecer repentinamente entre el primer y segundo cumpleaños de un
niño. Esto ha llevado a una creencia generalizada de que las vacunas infantiles, en particular la vacuna
triple para
Machine Translated by Google
El sarampión, las paperas y la rubéola (MMR) están provocando la creciente incidencia del autismo.
Dan Burton, miembro del Congreso de Indiana, dijo al New York Times: “Mi nieto recibió nueve inyecciones en un día, siete de las cuales
contenían timerosal, que, como usted sabe, tiene un 50 por ciento de mercurio, y poco tiempo después se volvió autista. .”
Los científicos han refutado rotundamente la falsa asociación entre el timerosal y los TEA. Las tasas
de autismo no disminuyeron cuando se eliminó el timerosal de la vacuna MMR, ni las tasas de autismo
son más bajas en países que nunca usaron esta vacuna. Sin embargo, persiste la falsa conexión, que
ha provocado que algunos padres se nieguen a vacunar a sus hijos. Irónicamente, esto no ofrece
protección contra el autismo y al mismo tiempo pone a los niños en riesgo de contraer otras enfermedades
graves (y contribuye a la propagación de esas enfermedades entre la población).
El autismo plantea uno de los mayores desafíos médicos y sociales de nuestros días. Entendemos
muy poco sobre el trastorno en relación con su enorme (y posiblemente creciente) impacto en nuestro
bienestar colectivo. Los investigadores están utilizando todas las herramientas de este libro (y muchas
más) para cambiar eso.
Necesitamos buenas escuelas. Y necesitamos buenos profesores para tener buenas escuelas. Por lo
tanto, se deduce lógicamente que debemos recompensar a los buenos profesores y a las buenas
escuelas, mientras que despedimos a los malos profesores y cerramos las malas escuelas.
¿Cómo exactamente hacemos eso?
Los resultados de los exámenes nos dan una medida objetiva del desempeño de los estudiantes. Sin
embargo, sabemos que a algunos estudiantes les irá mucho mejor en las pruebas estandarizadas que a
otros por razones que no tienen nada que ver con lo que sucede dentro de un aula o de una escuela. La
solución aparentemente sencilla es evaluar a las escuelas y a los profesores sobre la base del progreso
que logran sus estudiantes durante un período de tiempo. ¿Qué sabían los estudiantes cuando
comenzaron en un aula determinada con un maestro en particular?
¿Qué sabían un año después? La diferencia es el “valor agregado” en esa aula.
Incluso podemos usar estadísticas para tener una idea más refinada de este valor agregado al tomar
en cuenta las características demográficas de los estudiantes en un aula determinada, como la raza, los
ingresos y el desempeño en otras pruebas (que pueden ser una medida de aptitud). . Si un profesor
logra avances significativos con estudiantes que normalmente han tenido dificultades en el pasado,
entonces se le puede considerar muy eficaz.
¡Voilá! Ahora podemos evaluar la calidad de los docentes con precisión estadística. Y el
Las buenas escuelas, por supuesto, son sólo aquellas que están llenas de profesores eficaces.
Machine Translated by Google
¿Cómo funcionan en la práctica estas prácticas evaluaciones estadísticas? En 2012, la ciudad de Nueva
York dio el paso y publicó calificaciones de los 18.000 docentes de escuelas públicas sobre la base de una
“evaluación de valor agregado” que midió los avances en su desempeño.
12
los puntajes de las pruebas de los estudiantes teniendo en cuenta diversas características de los estudiantes.
Los Angeles Times publicó un conjunto similar de clasificaciones para los docentes de Los Ángeles en 2010.
Tanto en Nueva York como en Los Ángeles, la reacción ha sido ruidosa y mixta. Arne Duncan, el secretario de
Educación de Estados Unidos, en general ha apoyado este tipo de evaluaciones de valor agregado. Proporcionan
información donde antes no existía. Después de que se publicaron los datos de Los Ángeles, el secretario Duncan
dijo al New York Times: “El silencio no es una opción”. La administración Obama ha proporcionado incentivos
financieros para que los estados desarrollen indicadores de valor agregado para pagar y promover a los docentes.
Los defensores de estas medidas de evaluación señalan con razón que representan una enorme mejora potencial
con respecto a los sistemas en los que a todos los docentes se les paga de acuerdo con un plan salarial uniforme
que no da importancia a ninguna medida del desempeño en el aula.
Por otro lado, muchos expertos han advertido que este tipo de datos de evaluación docente tienen grandes
márgenes de error y pueden arrojar resultados engañosos.
El sindicato que representa a los docentes de la ciudad de Nueva York gastó más de 100.000 dólares en una
campaña publicitaria en un periódico basada en el titular “Esta no es manera de calificar a un docente”. 13 Los
opositores argumentan que las evaluaciones de valor agregado crean una precisión falsa que será abusada por
los padres y funcionarios públicos que no comprenden las limitaciones de este tipo de evaluación.
Este parece ser un caso en el que todo el mundo tiene razón, hasta cierto punto. Doug Staiger, economista
del Dartmouth College que trabaja extensamente con datos de valor agregado para docentes, advierte que
estos datos son inherentemente “ruidosos”. Los resultados de un profesor determinado a menudo se basan en
una única prueba realizada en un solo día por un solo grupo de estudiantes. Todo tipo de factores pueden
conducir a fluctuaciones aleatorias: cualquier cosa, desde un grupo de estudiantes particularmente difícil hasta
una unidad de aire acondicionado averiada que hace ruido en el aula el día del examen. La correlación en el
desempeño de un año a otro para un solo maestro que utiliza estos indicadores es sólo de aproximadamente
0,35. (Curiosamente, la correlación en el rendimiento año tras año de los jugadores de béisbol de las Grandes
Ligas también es de alrededor de 0,35, medida por el promedio de bateo de los bateadores y el promedio de
rendimiento acumulado de los lanzadores).
14
Los datos sobre la eficacia docente son útiles, afirma Staiger, pero son sólo una herramienta en el proceso
de evaluación del desempeño docente. Los datos se vuelven “menos ruidosos” cuando las autoridades tienen
más años de datos para un maestro en particular con diferentes
Machine Translated by Google
aulas de estudiantes (del mismo modo que podemos saber más sobre un atleta cuando tenemos
datos de más juegos y más temporadas). En el caso de las calificaciones de los docentes de la
ciudad de Nueva York, los directores del sistema habían sido preparados sobre el uso apropiado de
los datos de valor agregado y las limitaciones inherentes. El público no recibió esa información. Como
resultado, con demasiada frecuencia las evaluaciones de los docentes se consideran una guía
definitiva para distinguir entre los “buenos” y los “malos” docentes. Nos gustan las clasificaciones
(basta pensar en las clasificaciones universitarias de US News & World Report ), incluso cuando los
datos no respaldan tal precisión.
Staiger ofrece una advertencia final de otro tipo: será mejor que estemos seguros de que los
resultados que estamos midiendo, como los resultados de una determinada prueba estandarizada,
realmente corresponden a lo que nos importa a largo plazo. Algunos datos únicos de la Academia de
la Fuerza Aérea sugieren, como era de esperar, que los puntajes de las pruebas que brillan ahora
pueden no ser dorados en el futuro. La Academia de la Fuerza Aérea, al igual que otras academias
militares, asigna aleatoriamente a sus cadetes a diferentes secciones de cursos básicos
estandarizados, como la introducción al cálculo. Esta aleatorización elimina cualquier potencial efecto
de selección al comparar la efectividad de los profesores; Con el tiempo, podemos suponer que todos
los profesores obtienen estudiantes con aptitudes similares (a diferencia de la mayoría de las
universidades, donde estudiantes con diferentes habilidades pueden seleccionar dentro o fuera de
diferentes cursos). La Academia de la Fuerza Aérea también utiliza el mismo plan de estudios y
exámenes en cada sección de un curso en particular. Scott Carrell y James West, profesores de la
Universidad de California en Davis y de la Academia de la Fuerza Aérea, aprovecharon este elegante
arreglo para responder una de las preguntas más importantes en la educación superior: ¿qué
profesores son más eficaces? 15 La respuesta: los profesores con menos experiencia y menos
títulos de universidades elegantes. Estos profesores tienen estudiantes que generalmente obtienen
mejores resultados en los exámenes estandarizados de los cursos introductorios. También obtienen
mejores evaluaciones de los estudiantes para sus cursos. Es evidente que estos profesores jóvenes
y motivados están más comprometidos con su enseñanza que los viejos y malhumorados profesores
con doctorados de lugares como Harvard. Los viejos deben estar usando las mismas notas didácticas
amarillentas que usaron en 1978; probablemente piensen que PowerPoint es una bebida energética,
excepto que tampoco saben qué es una bebida energética. Obviamente los datos nos dicen que
deberíamos despedir a estos viejos, o al menos dejarlos retirarse con dignidad.
Pero espera. No despidamos a nadie todavía. El estudio de la Academia de la Fuerza Aérea arrojó
otro hallazgo relevante: el desempeño de los estudiantes en un horizonte más amplio.
Carrell y West descubrieron que en matemáticas y ciencias los estudiantes que tenían instructores
más experimentados (y con más credenciales) en los cursos introductorios obtuvieron mejores
resultados en sus cursos obligatorios de seguimiento que los estudiantes que tenían profesores
menos experimentados en los cursos introductorios. Una interpretación lógica es que es más probable
que los instructores menos experimentados “enseñen al
Machine Translated by Google
prueba” en el curso introductorio. Esto produce puntajes impresionantes en los exámenes y estudiantes felices
cuando se trata de completar la evaluación del instructor.
Mientras tanto, los viejos y malhumorados profesores (a quienes casi despedimos hace apenas un párrafo)
se centran menos en el examen y más en los conceptos importantes, que son lo más importante en los cursos
posteriores y en la vida después de la Academia de la Fuerza Aérea.
Es evidente que necesitamos evaluar a los profesores y profesores. Sólo tenemos que asegurarnos de
hacerlo bien. El desafío político a largo plazo, arraigado en las estadísticas, es desarrollar un sistema que
recompense el valor agregado real de un docente en el aula.
Sabemos sorprendentemente poco sobre cómo hacer que los países pobres sean menos pobres. Es cierto que
entendemos las cosas que distinguen a los países ricos de los pobres, como sus niveles educativos y la calidad
de sus gobiernos. Y también es cierto que hemos visto a países como India y China transformarse
económicamente en las últimas décadas. Pero incluso con este conocimiento, no es obvio qué medidas podemos
tomar para que lugares como Mali o Burkina Faso sean menos pobres. ¿Por dónde deberíamos empezar?
La economista francesa Esther Duflo está transformando nuestro conocimiento sobre la pobreza global
adaptando una vieja herramienta a nuevos propósitos: el experimento aleatorio y controlado. Duflo, que enseña
en el MIT, literalmente conduce experimentos sobre diferentes intervenciones para mejorar las vidas de los
pobres en los países en desarrollo.
Por ejemplo, uno de los problemas de larga data de las escuelas en la India es el ausentismo entre los docentes,
particularmente en las escuelas rurales pequeñas con un solo docente. Duflo y su coautora Rema Hanna
probaron una solución inteligente basada en tecnología en una muestra aleatoria de 60 escuelas de un solo
maestro en el estado indio. A 16 maestros de estas 60 escuelas experimentales se les ofreció una bonificación
cámaras con de Rajasthan. por buena asistencia. Aquí está la parte creativa: los profesores recibieron
sellos de fecha y hora a prueba de manipulaciones. Demostraron que habían aparecido todos los días tomándose
una fotografía con sus alumnos.
17
El ausentismo se redujo a la mitad entre los docentes de las escuelas experimentales en comparación con
los docentes de un grupo de control seleccionado al azar de 60 escuelas.
Los puntajes de los exámenes de los estudiantes aumentaron y más estudiantes se graduaron al siguiente nivel
de educación. (¡Apuesto a que las fotos también son adorables!)
Uno de los experimentos de Duflo en Kenia implicó otorgar a un grupo de agricultores seleccionados al azar
un pequeño subsidio para comprar fertilizante inmediatamente después de la cosecha. La evidencia anterior
sugirió que los fertilizantes aumentan apreciablemente el rendimiento de los cultivos. Los agricultores eran
conscientes de este beneficio, pero cuando llegó el momento de sembrar un nuevo cultivo,
Machine Translated by Google
a menudo no les quedaba suficiente dinero de la última cosecha para comprar fertilizantes.
Esto perpetúa lo que se conoce como “trampa de la pobreza”, ya que los agricultores de
subsistencia son demasiado pobres para ser menos pobres. Duflo y sus coautores descubrieron
que un pequeño subsidio (la entrega gratuita de fertilizantes) ofrecido a los agricultores cuando
todavía tenían efectivo después de la cosecha aumentaba el uso de fertilizantes entre 10 y 20
puntos porcentuales en comparación con el uso en un grupo de control.
18
Esther Duflo incluso se ha metido en la guerra de género. ¿Quién es más responsable a la
hora de manejar las finanzas de la familia, los hombres o las mujeres? En los países ricos,
este es el tipo de cosas por las que las parejas pueden discutir en el asesoramiento matrimonial.
En los países pobres, esto puede literalmente determinar si los niños comen lo suficiente. La
evidencia anecdótica que se remonta a los albores de la civilización sugiere que las mujeres
dan una alta prioridad a la salud y el bienestar de sus hijos, mientras que los hombres son más
propensos a beber hasta su salario en el pub local (o lo que sea que fuera el equivalente
cavernícola). En el peor de los casos, esta evidencia anecdótica simplemente refuerza viejos
estereotipos. En el mejor de los casos, es algo difícil de demostrar, porque las finanzas de una
familia están mezcladas hasta cierto punto. ¿Cómo podemos separar cómo los maridos y las
esposas eligen gastar los recursos comunitarios?
Duflo no rehuyó esta delicada cuestión. 19 Al contrario, encontró
un experimento natural fascinante. En Costa de Marfil, las mujeres y los hombres de una
familia suelen compartir la responsabilidad de algunos cultivos. Por razones culturales de larga
data, hombres y mujeres también cultivan sus propios cultivos comerciales. (Los hombres
cultivan cacao, café y algunas otras cosas; las mujeres cultivan plátanos, cocos y algunos
otros cultivos). La belleza de este arreglo desde el punto de vista de la investigación es que
los cultivos de los hombres y los de las mujeres responden a los patrones de lluvia de
diferentes maneras. . En los años en los que al cacao y al café les va bien, los hombres tienen
más ingresos disponibles para gastar. En los años en los que a los plátanos y los cocos les va
bien, las mujeres tienen más dinero extra.
Ahora sólo necesitamos abordar una cuestión delicada: ¿Están mejor los niños de estas
familias en los años en que las cosechas de los hombres van bien o en los años en que las
mujeres obtienen una cosecha particularmente abundante?
La respuesta: cuando a las mujeres les va bien, gastan parte de su dinero extra en
Más comida para la familia. Los hombres no. Lo siento chicos.
En 2010, Duflo recibió la medalla John Bates Clark. Este premio lo entrega la Asociación
Económica Estadounidense al mejor economista menor de cuarenta años.
* Entre los economistas expertos, este premio se considera más prestigioso
que el Premio Nobel de Economía porque históricamente se concedía sólo cada dos años. (A
partir del premio de Duflo en 2010, la medalla ahora se entrega anualmente). En cualquier
caso, la Medalla Clark es la MVP.
Machine Translated by Google
El verano pasado contratamos a una nueva niñera. Cuando llegó a la casa, comencé a explicarle
nuestros antecedentes familiares: “Soy profesor, mi esposa es maestra. . .”
“Oh, lo sé”, dijo la niñera con un gesto de la mano. "Te busqué en Google".
Me sentí al mismo tiempo aliviado de no tener que terminar mi perorata y ligeramente alarmado
por la cantidad de parte de mi vida que podría reconstruirse a partir de una breve búsqueda en
Internet. Nuestra capacidad para recopilar y analizar enormes cantidades de datos (la combinación
de información digital con potencia informática barata e Internet) es única en la historia de la
humanidad. Vamos a necesitar algunas reglas nuevas para esta nueva era.
Pongamos en perspectiva el poder de los datos con solo un ejemplo del minorista Target.
Como la mayoría de las empresas, Target se esfuerza por aumentar las ganancias comprendiendo
a sus clientes. Para ello, la empresa contrata a estadísticos para que realicen el tipo de “análisis
predictivo” descrito anteriormente en el libro; utilizan datos de ventas combinados con otra
información sobre los consumidores para determinar quién compra qué y por qué. Nada de esto
es intrínsecamente malo, porque significa que es probable que el objetivo cercano a usted tenga
exactamente lo que usted desea.
Pero analicemos por un momento sólo un ejemplo del tipo de cosas que los estadísticos que
trabajan en el sótano sin ventanas de la sede corporativa pueden descifrar. Target ha aprendido
que el embarazo es un momento particularmente importante en términos del desarrollo de
patrones de compras. Las mujeres embarazadas desarrollan “relaciones minoristas” que pueden
durar décadas. Como resultado, Target quiere identificar a las mujeres embarazadas,
particularmente aquellas en su segundo trimestre, y llevarlas a sus tiendas con más frecuencia.
Un escritor de la revista New York Times siguió al equipo de análisis predictivo de Target en su
intento de encontrar y atraer
20
compradoras embarazadas.
La primera parte es fácil. Target tiene un registro de baby shower en el que las mujeres
embarazadas se registran para recibir regalos para bebés antes del nacimiento de sus hijos.
Estas mujeres ya son compradoras de Target y efectivamente le han dicho a la tienda que están
embarazadas. Pero aquí está el giro estadístico: Target descubrió que otras mujeres que
demuestran los mismos patrones de compra probablemente también estén embarazadas.
Por ejemplo, las mujeres embarazadas suelen cambiar a lociones sin perfume. ellos comienzan a
Machine Translated by Google
lugares públicos, algunos de los cuales pronto contarán con tecnología de reconocimiento facial. Las autoridades
encargadas de hacer cumplir la ley pueden seguir cualquier automóvil a cualquier lugar al que vaya (y mantener
registros extensos de dónde ha estado) conectando un dispositivo de posicionamiento global al vehículo y luego
rastreándolo por satélite. ¿Es esta una manera barata y eficiente de monitorear posibles actividades criminales?
¿O es que el gobierno está utilizando la tecnología para pisotear nuestra libertad personal? En 2012, la Corte
Suprema de Estados Unidos decidió por unanimidad que era lo último, dictaminando que los funcionarios
encargados de hacer cumplir la ley ya no pueden colocar dispositivos de rastreo en vehículos privados sin una
*
orden judicial.
Mientras tanto, los gobiernos de todo el mundo mantienen enormes bases de datos de ADN que son una
poderosa herramienta para resolver crímenes. ¿El ADN de quién debería estar en la base de datos?
¿El de todos los delincuentes condenados? ¿La de cada persona arrestada (condenada o no finalmente)? ¿O
una muestra de cada uno de nosotros?
Recién estamos comenzando a luchar con los problemas que se encuentran en la intersección de la tecnología
y los datos personales, ninguno de los cuales era terriblemente relevante cuando la información gubernamental
se almacenaba en polvorientos archivadores de sótanos en lugar de en bases de datos digitales en las que
cualquier persona puede realizar búsquedas desde cualquier lugar.
Las estadísticas son más importantes que nunca porque tenemos oportunidades más significativas para hacer
uso de los datos. Sin embargo, las fórmulas no nos dirán qué usos de los datos son apropiados y cuáles no. Las
matemáticas no pueden suplantar el juicio.
En ese sentido, terminemos el libro con alguna asociación de palabras: fuego, cuchillos, automóviles, crema
depilatoria. Cada una de estas cosas tiene un propósito importante. Cada uno mejora nuestras vidas. Y cada uno
de ellos puede causar serios problemas cuando se abusa de ellos.
Ahora puedes agregar estadísticas a esa lista. ¡Continúe y utilice los datos de forma inteligente y adecuada!
* No pude optar al premio de 2010 por tener más de cuarenta años. Además, no había hecho nada para merecerlo.
* Estados Unidos contra Jones.
Machine Translated by Google
Apéndice
software estadístico
Sospecho que no harás tu análisis estadístico con lápiz, papel y calculadora. A continuación
se ofrece un recorrido rápido por los paquetes de software más utilizados para los tipos de
tareas descritas en este libro.
Microsoft Excel
Microsoft Excel es probablemente el programa más utilizado para calcular estadísticas simples
como la media y la desviación estándar. Excel también puede realizar análisis de regresión
básicos. La mayoría de las computadoras vienen equipadas con Microsoft Office, por lo que
probablemente Excel esté en su escritorio en este momento. Excel es fácil de usar en
comparación con paquetes de software estadístico más sofisticados. Los cálculos estadísticos
básicos se pueden realizar mediante la barra de fórmulas.
Excel no puede realizar algunas de las tareas avanzadas que pueden realizar los programas
más especializados. Sin embargo, existen extensiones de Excel que puedes comprar (y algunas
que puedes descargar gratis) que ampliarán las capacidades estadísticas del programa. Una
gran ventaja de Excel es que ofrece formas sencillas de mostrar datos bidimensionales con
gráficos visualmente atractivos. Estos gráficos se pueden colocar fácilmente en Microsoft
PowerPoint y Microsoft Word.
*
Era
Stata es un paquete estadístico utilizado en todo el mundo por profesionales de la investigación;
su interfaz tiene una sensación seria y académica. Stata tiene una amplia gama de capacidades
para realizar tareas básicas, como crear tablas de datos y calcular estadísticas descriptivas. Por
supuesto, esa no es la razón por la que los profesores universitarios y otros investigadores
serios eligen Stata. El software está diseñado para manejar pruebas estadísticas sofisticadas y
modelado de datos que van mucho más allá de los tipos de cosas descritas en este libro.
Stata es ideal para aquellos que tienen un conocimiento sólido de las estadísticas (un
conocimiento básico de programación también ayuda) y aquellos que no necesitan un formato
sofisticado, solo las respuestas a sus consultas estadísticas. Stata no es la mejor opción si su
objetivo es producir gráficos rápidos a partir de los datos. Usuarios expertos
Machine Translated by Google
Decir que Stata puede producir buenos gráficos pero que Excel es más fácil de usar para ese propósito.
Stata ofrece varios paquetes de software independientes diferentes. Puede licenciar el producto
por un año (después de un año, el software ya no funciona en su computadora) o licenciarlo para
siempre. Una de las opciones más baratas es Stata/IC, que está diseñada para "estudiantes e
investigadores con conjuntos de datos de tamaño moderado". Existe un descuento para usuarios que
estén en el sector educativo. Incluso entonces, una licencia anual para un solo usuario para Stata/IC
cuesta $295 y una licencia perpetua cuesta $595. Si planea lanzar un satélite a Marte y necesita hacer
algunos cálculos numéricos realmente serios, puede buscar paquetes Stata más avanzados, que
pueden costar miles de dólares.
SAS †
SAS tiene un gran atractivo no sólo para los investigadores profesionales sino también para
los analistas e ingenieros de negocios debido a su amplia gama de capacidades analíticas.
SAS vende dos paquetes estadísticos diferentes. El primero se llama SAS Analytics Pro,
que puede leer datos en prácticamente cualquier formato y realizar análisis de datos avanzados.
El software también cuenta con buenas herramientas de visualización de datos, como capacidades
cartográficas avanzadas. No es barato. Incluso para aquellos en los sectores educativo y
gubernamental, una única licencia comercial o individual para este paquete cuesta $8,500, más una
tarifa de licencia anual.
El segundo paquete estadístico de SAS es SAS Visual Data Discovery. Tiene una interfaz fácil de
usar que no requiere conocimientos de codificación o programación y, al mismo tiempo, proporciona
capacidades avanzadas de análisis de datos. Como sugiere su nombre, este paquete está destinado
a permitir al usuario explorar datos fácilmente con visualización interactiva. También puede exportar
las animaciones de datos a presentaciones, páginas web y otros documentos. Éste tampoco es barato.
Una única licencia comercial o individual para este paquete cuesta $9,810, más una tarifa de licencia
anual.
SAS vende algunas herramientas de gestión especializadas, como un producto que utiliza
estadísticas para detectar fraudes y delitos financieros.
Esto puede parecer un personaje de una película de James Bond. De hecho, R es un paquete
estadístico popular, gratuito o de “código abierto”. Se puede descargar e instalar fácilmente en su
computadora en cuestión de minutos. También existe una "comunidad R" activa que comparte código
y puede ofrecer ayuda y orientación cuando sea necesario.
R no sólo es la opción más barata, sino que también es uno de los paquetes más maleables de
todos los que se describen aquí. Dependiendo de su perspectiva, esto
Machine Translated by Google
*
IBMSPSS
IBM SPSS tiene algo para todos, desde expertos en estadística hasta analistas de
negocios menos expertos en estadística. IBM SPSS es bueno para principiantes porque
ofrece una interfaz basada en menús. IBM SPSS también ofrece una gama de herramientas
o “módulos” diseñados para realizar funciones específicas, como IBM SPSS Forecasting,
IBM SPSS Advanced Statistics, IBM SPSS Visualization Designer e IBM SPSS Regression.
Los módulos se pueden comprar individualmente o combinar en paquetes.
El paquete más básico que se ofrece es IBM SPSS Statistics Standard Edition, que le
permite calcular estadísticas simples y realizar análisis de datos básicos, como identificar
tendencias y crear modelos predictivos. Una licencia comercial única de plazo fijo cuesta
$2250. El paquete premium, que incluye la mayoría de los módulos, cuesta $6,750. Hay
descuentos disponibles para quienes trabajan en la educación.
sector.
* Ver http://www.stata.com/. †
Consulte http://www.sas.com/technologies/analytics/statistics/.
* Consulte http://www01.ibm.com/software/analytics/spss/products/statistics/.
Machine Translated by Google
Notas
4 BaseballReference.com, http://www.baseball
reference.com/players/m/mantlmi01.shtml.
5 Trip Gabriel, “Los trucos encuentran un adversario en la tecnología”, New York
Times, 28 de diciembre de 2010.
6 Eyder Peralta, “Hombre de Atlanta gana la lotería por segunda vez en tres años”,
NPR News (blog), 29 de noviembre de 2011.
7 Alan B. Krueger, Qué hace a un terrorista: la economía y las raíces del terrorismo
(Princeton: Princeton University Press, 2008).
Machine Translated by Google
9 Marc Santora, "Los cardiólogos dicen que las clasificaciones influyen en las decisiones quirúrgicas",
New York Times, 11 de enero de 2005.
10 Entrevista con la Radio Pública Nacional, 20 de agosto de 2006, http://
www.npr.org/templates/story/story.php?storyId=5678463.
11 Véase http://www.usnews.com/education/articles/2010/08/17/frequencyaskedquestions
collegerankings#4.
12 Gladwell, "Orden de las cosas".
13 Entrevista con la Radio Pública Nacional, 22 de febrero de 2007, http://
www.npr.org/templates/story/story.php?storyId=7383744.
Machine Translated by Google
Capítulo 4: Correlación
1 College Board, Preguntas
frecuentes, http://www.collegeboard.com/prod_downloads/about/news_info/cbsenior/yr2010/correlof
predictorswithfirstyearcollegegradepointaverage.pdf.
2 College Board, Informe del perfil total del grupo de personas mayores con destino a la
universidad de 2011, http://professionals.collegeboard.com/profdownload/cbs2011_total_group_report.pdf.
3 Consulte http://www.netflixprize.com/rules.
Machine Translated by Google
6 Garrick Blalock, Vrinda Kadiyali y Daniel Simon, “Driving Fatalities after 9/11: A Hidden Cost of
Terrorism” (manuscrito inédito, 5 de diciembre de 2005).
7 La información general sobre pruebas genéticas proviene de Human Genome Project Forensics,
Información, ADN
http://www.ornl.gov/sci/techresources/Human_Genome/elsi/forensics.shtml.
8 Jason Felch y Maura Dolan, “El FBI se resiste al escrutinio de 'partidos'”, Los
10 Roger Lowenstein, “La guerra contra el uso de información privilegiada: cuidado con los
vencedores del mercado”, New York Times Magazine, 22 de septiembre de 2011.
11 Erica Goode, “Enviar a la policía antes de que haya un crimen”, New York Times, 15 de agosto
de 2011.
12 Los datos de riesgo de seguros provienen de todos los siguientes: “Conductores adolescentes”,
Instituto de Información de Seguros, marzo de 2012; “Leyes de mensajes de texto y frecuencias
de reclamos por colisiones”, Instituto de Seguros para la Seguridad en las Carreteras, septiembre
de 2010; “Hot Wheels”, Oficina Nacional de Delitos contra Seguros, 2 de agosto de 2011.
13 Charles Duhigg, “¿Qué sabe sobre usted su compañía de tarjeta de crédito?” Revista del New
York Times, 12 de mayo de 2009.
2 Robert E. Hall, “The Long Slump”, American Economic Review 101, no.
2 (abril de 2011): 431–69.
3 Alan Greenspan, Testimonio ante el Comité de Supervisión y Reforma Gubernamental de la
Cámara de Representantes, 23 de octubre de 2008.
4 Hank Paulson, Discurso en Dartmouth College, Hanover, NH, 11 de agosto de 2011.
Capítulo 9: Inferencia
1 John Friedman, De la nada: una historia de los rayos: ciencia, superstición e historias
asombrosas de supervivencia (Nueva York: Delacorte Press, 2008).
1 Jeff Zeleny y Megan TheeBrenan, “New Poll Finds a Deep Distrust of Government”, New
York Times, 26 de octubre de 2011.
2 Lydia Saad, “Los estadounidenses se mantienen firmes en su apoyo a la pena de muerte”,
Gallup.com, 17 de noviembre de 2008.
3 Entrevista telefónica con Frank Newport, 30 de noviembre de 2011.
4 Stanley Presser, “Sexo, muestras y errores de respuesta”, Sociología contemporánea 24,
no. 4 (julio de 1995): 296–98.
5 Los resultados se publicaron en dos formatos diferentes, uno más académico que el otro.
Edward O. Lauman, La organización social de la sexualidad: prácticas sexuales en los
Estados Unidos (Chicago: University of Chicago Press, 1994); Robert T. Michael, John H.
Gagnon, Edward O. Laumann y Gina Kolata, Sex in America: A Definitive Survey (Nueva
York: Grand Central Publishing, 1995).
6 Kaye Wellings, reseña del libro en British Medical Journal 310, no. 6978 (25 de febrero de
1995): 540.
7 John DeLamater, “The NORC Sex Survey”, Science 270, no. 5235 (20 de octubre de
1995): 501.
8 Presser, “Sexo, muestras y errores de respuesta”.
Machine Translated by Google
4 Peter L. Schnall, Paul A. Landesbergis y Dean Baker, “Job Strain and Cardiovascular
Disease”, Annual Review of Public Health 15 (1994): 381–411.
1 Gina Kolata, “La cirugía de artritis en rodillas enfermas se cita como una farsa”, New York Times,
11 de julio de 2002.
2 Benedict Carey, “Un estudio médico largamente esperado cuestiona el poder de la oración”, New
York Times, 31 de marzo de 2006.
3 Diane Whitmore Schanzenbach, “¿Qué han aprendido los investigadores del Proyecto STAR?”
Documento de trabajo de Harris School, agosto de 2006.
4 Gina Kolata, “Un secreto sorprendente para una vida larga: permanecer en la escuela”, New York
Times, 3 de enero de 2007.
5 Adriana LlerasMuney, “La relación entre educación y mortalidad de adultos en los Estados Unidos”,
Review of Economic Studies 72, no. 1 (2005): 189–221.
6 Kurt Badenhausen, “Las mejores universidades para hacerse rico”, Forbes.com, 30 de julio
de 2008.
7 Stacy Berg Dale y Alan Krueger, “Estimación del beneficio de asistir a una universidad más
selectiva: una aplicación de la selección de observables y no observables”, Quarterly Journal of
Economics 117, no. 4 (noviembre de 2002): 1491–527.
8 Alan B. Krueger, “Los niños lo suficientemente inteligentes como para ingresar a escuelas de élite
tal vez no necesiten molestarse”, New York Times, 27 de abril de 2000.
9 Randi Hjalmarsson, “Cárceles de menores: ¿un camino hacia lo recto y estrecho o hacia una
criminalidad más endurecida?” Revista de Derecho y Economía 52, núm. 4 (noviembre de 2009):
779–809.
Conclusión
1 James Surowiecki, “A Billion Prices Now”, The New Yorker, 30 de mayo de 2011.
8 Gardiner Harris y Anahad O'Connor, “Sobre la causa del autismo, son los padres versus la
investigación”, New York Times, 25 de junio de 2005.
9 Julie Steenhuysen, "Un estudio revela 10 grupos de autismo en California",
Yahoo! Noticias, 5 de enero de 2012.
10 Joachim Hallmayer et al., “Heredabilidad genética y factores ambientales compartidos entre
pares de gemelos con autismo”, Archives of General Psychiatry 68, no. 11 (noviembre de 2011):
1095–102.
11 Gardiner Harris y Anahad O'Connor, “Sobre la causa del autismo, son los padres versus la
investigación”, New York Times, 25 de junio de 2005.
12 Fernanda Santos y Robert Gebeloff, “Teacher Quality Widely Diffused, Ratings Indicate”, New
York Times, 24 de febrero de 2012.
13 Winnie Hu, “Con las calificaciones de los docentes a punto de publicarse, el sindicato abre
una campaña para desacreditarlos”, New York Times, 23 de febrero de 2012.
14 T. Schall y G. Smith, "¿Los jugadores de béisbol regresan a la media?"
Estadístico estadounidense 54 (2000): 231–35.
15 Scott E. Carrell y James E. West, “¿Importa la calidad del profesor?
Evidence from Random Assignment of Students to Professors”, documento de trabajo 14081 de
la Oficina Nacional de Investigación Económica, junio de 2008.
16 Esther Duflo y Rema Hanna, “Monitoring Works: Getting Teachers to Come to School”,
documento de trabajo 11880 de la Oficina Nacional de Investigación Económica, diciembre de
2005.
17 Christopher Udry, “Esther Duflo: Medallista John Bates Clark 2010”,
Revista de Perspectivas Económicas 25, no. 3 (verano de 2011): 197–216.
18 Esther Duflo, Michael Kremer y Jonathan Robinson, “Empujar a los agricultores a utilizar
fertilizantes: teoría y evidencia experimental de Kenia”,
Documento de trabajo 15131 de la Oficina Nacional de Investigación Económica, julio de 2009.
19 Esther Duflo y Christopher Udry, “Intrahousehold Resource Allocation in CÔte d'Ivoire: Social
Norms, Separated Accounts and Consumption Choices”, documento de trabajo, 21 de diciembre
de 2004.
20 Charles Duhigg, “Cómo las empresas aprenden sus secretos”, New York Times Magazine, 16
de febrero de 2012.
21 Somini Sengupta y Evelyn M. Rusley, “¿El valor de los datos personales?
Facebook listo para descubrirlo”, New York Times, 1 de febrero de 2012.
Machine Translated by Google
Expresiones de gratitud
Este libro fue concebido como un homenaje a un clásico anterior de WW Norton, Cómo
Mentir con estadísticas de Darrell Huff, escrito en la década de 1950 y que ha vendido
más de un millón de copias. Ese libro, como éste, fue escrito para desmitificar las
estadísticas y persuadir a los lectores comunes de que lo que no entienden sobre las
cifras detrás de los titulares puede perjudicarlos. Espero haber hecho justicia al clásico
del Sr. Huff. En cualquier caso, ¡me encantaría haber vendido un millón de copias dentro
de cincuenta años!
Estoy continuamente agradecido a WW Norton, y a Drake McFeely en particular, por
permitirme escribir libros que abordan temas importantes de una manera comprensible para
los lectores no especializados. Drake ha sido un gran amigo y partidario desde hace más de
una década.
Jeff Shreve es el tipo de WW Norton que hizo realidad este libro.
Al conocer a Jeff, uno podría pensar que es demasiado amable para imponer los
múltiples plazos que implica la producción de un libro como este. No es verdad. Sí,
realmente es así de amable, pero de alguna manera su suave empujón parece hacer el trabajo.
(Por ejemplo, estos agradecimientos vencen mañana por la mañana). Aprecio tener un
capataz amable que haga avanzar las cosas.
Mi mayor deuda de gratitud es con los muchos hombres y mujeres que realizan la
importante investigación y análisis descritos en este libro. No soy estadístico ni
investigador. Soy simplemente un traductor del trabajo interesante y significativo de
otras personas. Espero haber transmitido a lo largo de este libro lo importantes que son
una buena investigación y un análisis sólido para hacernos más saludables, más ricos,
más seguros y mejor informados.
En particular, me gustaría reconocer el amplio trabajo del economista de Princeton
Alan Krueger, quien ha realizado contribuciones de investigación inteligentes y
significativas sobre temas que van desde las raíces del terrorismo hasta los beneficios
económicos de la educación superior. (Sus hallazgos sobre ambos temas son
agradablemente contradictorios). Lo más importante (para mí) es que Alan fue uno de
mis profesores de estadística en la escuela de posgrado; Siempre me ha impresionado
su capacidad para equilibrar con éxito la investigación, la enseñanza y el servicio público.
Machine Translated by Google
Jim Sallee, Jeff Grogger, Patty Anderson y Arthur Minetz leyeron borradores anteriores del
manuscrito e hicieron numerosas sugerencias útiles. ¡Gracias por salvarme de mí mismo! Frank
Newport de Gallup y Mike Kagay del New York Times tuvieron la amabilidad de dedicar tiempo a
explicarme los matices metodológicos de las encuestas. A pesar de todos sus esfuerzos, los
errores que persisten son míos.
Katie Wade fue una asistente de investigación infatigable. (Siempre quise usar la palabra
“infatigable” y, finalmente, este es el contexto perfecto). Katie es la fuente de muchas de las
anécdotas y ejemplos que iluminan conceptos a lo largo del libro. No Katie, no hay ejemplos
divertidos.
He querido escribir libros desde que estaba en la escuela primaria. La persona que me permite
hacer eso y ganarme la vida con ello es mi agente, Tina Bennett.
Tina encarna lo mejor del negocio editorial. Le encanta hacer realidad un trabajo significativo y al
mismo tiempo promover incansablemente los intereses de sus clientes.
Y por último, mi familia merece crédito por tolerarme mientras escribía este libro.
(Las fechas límite de los capítulos estaban publicadas en el refrigerador). Hay evidencia de que
me vuelvo un 31 por ciento más irritable y un 23 por ciento más agotado cuando me acerco (o
incumplo) las fechas límite de los libros importantes. Mi esposa, Leah, es la primera, la mejor y la
más importante editora de todo lo que escribo. Gracias por eso y por ser un socio tan inteligente,
solidario y divertido en todos los demás esfuerzos.
El libro está dedicado a mi hija mayor, Katrina. Es difícil creer que el niño que estaba en una
cuna cuando escribí Naked Economics ahora pueda leer capítulos y brindar comentarios
significativos. Katrina, eres el sueño de cualquier padre, al igual que Sophie y CJ, quienes pronto
también leerán capítulos y manuscritos.
Machine Translated by Google
Índice
Austria, 65
autismo, 4, 221, 244–46
tamaño del cerebro y, 155–60, 165
Avatar (película), 47, 48
promedio, ver ingreso
promedio promedio, 16–17, 18–19, 27, 55 yardas
promedio por intento de pase, 1
babuinos, 207
bancos, 170n
Colegio Bardo, 57
Baseball Info Solutions, 16, 31–32 jugadores
de béisbol, 5, 248 los mejores
de todos los tiempos, 13, 15, 30,
31–32 baloncesto, rachas, 103
promedios de bateo, xii, 1, 4, 5, 15–16 curva
de campana, 20, 25–26, 26, 133, 134, 136, 208, 209
Juicio Bernoulli, 70
Bertrand, Marianne, 203
Bhutto, Benazir, 58, 64
Bhutto (película), 58–60, 64
sesgos,
113 variables binarias, 200
experimento binomial, 70
Cisne negro, El: El impacto de lo altamente improbable (Taleb), 98–99
Blalock, Garrick, 72–73
pruebas de sabor a ciegas, 68–71, 79, 79, 80, 97, 99
presión arterial, 115, 116 algas
verdiazules, 116–17
Celtas de Boston, 103
Maratón de Boston, 23–24, 25
Botstein, León, 57
puntuaciones de bolos,
4 boxeadores, 242,
243 cáncer de
cerebro, 145 tamaño del cerebro, autismo y,
155–60, 165 muffins de salvado, 11, 153–54
Brasil, 3
cáncer de mama, 122, 163
Machine Translated by Google
Brunei, 31
Budweiser, 68, 69
Buffett, Warren, 19, 81–82, 84 Oficina
de Estadísticas Laborales, EE. UU., 46 Burton,
Dan, 246 Bush, George
HW, 230 Bush, George W., 43,
53 Businessweek, 107
Directores ejecutivos, 19
variables dependientes, 192, 193–94, 197, 198, 199, 206n, 216, 217, 226 depresión, 121, 242
estadísticas descriptivas, 15–
35 tendencia central descubierta en,
18–22 dispersión medida en, 23–25 temas
enmarcados por, 33 salud económica de
la clase media medida por,
16–17 en Stata, 258 como resumen, 15–16, 30
Disraeli, Benjamin, 36
desconfianza, 169
bases de datos de ADN, 254
Pruebas de ADN, xi, 10
pruebas criminales de, 74–75, 105 loci in, 73–75
Machine Translated by Google
Facebook, 254
falsos negativos (errores de tipo II), 84, 162–64
falsos positivos (errores de tipo I), 84–85, 162–64
estructura familiar, 115
colas gordas, 208, 209–
10 FBI, 74–
75 Emergencia federal Administración de gestión, 144 películas,
mayor recaudación, 47–48 crisis
financiera de 2008, 7–8, 38, 95–100, 109 industria
financiera, 7–8, 38, 95–100, 109 incendios, 8
Niebla
de guerra ( película), 59
Administración de Alimentos y Medicamentos,
EE. UU., 83 desiertos
alimentarios, 201 cupones
de alimentos,
200, 201 fútbol, 51 punto extra versus conversión de dos
puntos en, 71, 77–78 traumatismo
craneal en, 114, 242–44
pasador calificación en, 1–
2, 3, 56 inversión
extranjera, 41 “informe 4:15”, 96, 97 Framingham
Heart Study,
115–16, 136, 243 fraude, 86, 107 Freakonomics
(Levitt y Dubner), 72 distribución de
frecuencia , 20, 20, 25 tasa de
retención de estudiantes de primer año, 56–57 moscas de la fruta, 110–11, 113, 114
Machine Translated by Google
IBMSPSS, 260
Illinois, 29, 41, 87, 236 lotería,
78–79, 81 encarcelamiento,
239–40 incentivos, 53 ingresos,
32, 114, 194, 198,
204, 205 educación y 235 per cápita, 16–17, 18 –
19, 27, 55, 216 inclinación
a la derecha, 133–34, 133 desigualdad de ingresos,
2–3, 41–42 impuesto sobre la renta,
29, 114 verificación de ingresos, 87
eventos independientes:
falacia del jugador y, 106–7
malentendido de, 102–3
probabilidad de que sucedan ambos, 75–
76, 100 probabilidad de que cualquiera
de los dos suceda, 76–77 variables independientes, ver
variables explicativas
Tiburón (película), 47
Machine Translated by Google
motores a reacción,
100 Jeter, Derek, 15,
19 programa de colocación laboral,
226 capacitación laboral, 113, 227, 236–37, 236,
237 Medalla John Bates Clark, 251
Journal of Personality and Social Psychology, 160–61 Journal of
the American Asociación Médica, 223 JP Morgan, 96
sentencias, 57
delincuentes
juveniles, 239–40 Kadiyali,
Vrinda, 72–73 Kael, Pauline,
118 Katmandú, Nepal,
116–17 Katz, Lawrence, 203
Kenia, 250 Kinney,
Delma, 9
Klick , Jonathan, 227
Knight, Ted, 44–45
Krueger, Alan, 12–13,
32, 234–35 Kuwait, 31
en coeficiente de correlación,
67 fórmula para,
66 de altura de estadounidenses,
25, 26 de
ingresos, 134 mediana
vs., 18, 19, 44 en Microsoft
Excel, 257 posible engaño de, 42–
43 error estándar para la diferencia de,
164– 65 sarampión, paperas y rubéola (MMR),
245–46
mediana, 21 media
vs., 18, 19, 44
valores atípicos y 43 posible engaño
de, 42–44 “La mediana no es el mensaje” (Gould) ,
44 pérdida de
memoria, 242 hombres, manejo de
dinero por, 250–51
Michelob, 68–71, 80 Corte
Suprema de Michigan, 56
Microsoft Excel, 61, 67, 257 clase
media, 13, 15, 16–17, 32
según lo
medido por mediana, 19
Miller, 68, 69 salario mínimo,
46–47 Minority Report
(película), 86 concurso
de Miss América, 30 Mlodinow,
Leonard, 92
modelos, financiero, 7–8, 38, 95–100
monos, 207
Problema de Monty Hall ,
xi–xii, 90–94
motocicletas, 72 Moyer,
Steve, 16, 31–32
exploraciones por resonancia magnética, 163
multicolinealidad, 219–20 multinacionales,
170n análisis de regresión múltiple, 199–204, 226 regresión logística multivariada, 206n fondos mutuos,
NASA, 72
Machine Translated by Google
Qatar, 31
cuántos, 95, 99
quarterbacks, 1–2
cuartiles, 22
R (programa de computadora),
259 r (coeficiente de correlación), 60–
61 cálculo de, 65–67 raza,
114, 200–201 programa
de llamadas de radio, 178
Rajasthan, India, 250
error aleatorio, 106
aleatorización, 114–15
experimentos controlados aleatorios, 227–29 grupo de
control como contrafactual en, 240 sobre curar
la pobreza, 250–52 ética y, 227–
28, 240 sobre oración y
cirugía, 229 –30 sobre el tamaño de
la escuela, 230–31
Paseo aleatorio por Wall Street, A (Malkiel), ranking 125n, 30–
31, 56, 248
Más bien, Dan, 53
discriminación racional, 108
Reagan, Ronald, 49, 50
cifras reales, 46
sesgo de recuerdo,
122–23 análisis de regresión, 10–12, 185–
211 dificultad de, 187
Machine Translated by Google
en el estudio del
autismo, 156
agrupación de, 138
dispersión de, 136
valores atípicos y, 138 muestreo,
6–7, 111–
13, 134 malo, 113 teorema del límite
central y, 127–
30 de personas sin hogar, 6 tamaño
de, 113, 172, 175, 196, 220
Santa Cruz,
California, 86–87 SAS, 258–59
puntajes en el SAT, 55, 60, 62–63, 220
televisores domésticos y 63–64
ingresos y 63–64, 218–
19 en matemáticas prueba, 25, 224 media y
desviación
estándar en, 25, 26 satélites, 72 Cerveza
Schlitz, 68–71, 79, 79,
80, 97, 99 escuelas,
187, 246–49
calidad de, 51–52
tamaño de, 230 –31
Ciencia, 110–11 cuadros de mando, 54–55 Comisión
de Bolsa y Seguridad, 86, 145
sesgo de selección, 118–19, 178
comportamiento de
voto autoinformado, 181, 182 autoselección, 178 11 de
septiembre de 2001,
ataques terroristas
de , 72–73, 74 “Sex Study”, 181–83
comportamiento sexual: de las
moscas de la fruta, 110–
11, 113, 114 autoinforme de, 6, 7,
181–83
Shrek 2 (película), 47, 48
sigma , ver
signo de desviación estándar, 193 significancia, 193, 195–96
tamaño vs., 154 nivel de significancia, 149–50, 152, 153, 157n, 166, 199 Simon, Daniel, 73
Machine Translated by Google
Túnez, 170n
Tversky, Amós, 103
Twain, Mark, 36
estudios de gemelos,
245 conversiones de dos puntos, 71, 77–78
prueba de hipótesis de “dos colas”, 151, 166–68
Machine Translated by Google
incertidumbre, 71, 74
desempleo, 217, 236–37, 236, 241 sindicatos,
47, 247 Índice de
Desarrollo Humano de las Naciones Unidas, 31, 55 Estados
Unidos, 65 Índice de
Gini de, 3
manufactura en, 39–40, 39 media
de altura en, 25, 26 clase
media en, 13, 15, 16–17, 32 producción
económica per cápita de, 31 unidad de
análisis, 40–42 US News &
World Report, 55–57, 248
vacunas, 245–46
Vallone, Robert, 103
evaluaciones de valor agregado, 247–48
valor en riesgo, 38, 95–97, 98–100
variables, 224
dependientes, 192, 193–94, 197, 198, 199, 206n, 216, 217, 226 explicativo
(independiente), 192, 193–94, 197, 198, 199, 203, 217 altamente correlacionado,
219–20
Varian, Hal, 4
varianza, 24
fórmula para, 34–35
valores atípicos en, 34
Verizon, 42 años
Vermont, 41
viviendas para veteranos, 45–46
Vick, Michael, 242
vitaminas, 125
votaciones, comportamiento de autoinforme, 181, 182
Machine Translated by Google
Derechos de autor
Para obtener información sobre el permiso para reproducir selecciones de este libro, escriba a Permissions, WW
Norton & Company, Inc., 500
Quinta Avenida