Repaso Estadistica
Repaso Estadistica
Repaso Estadistica
Martin Trombetta
Universidad Argentina de la Empresa
2019
1. Introducción
Esta nota consiste en un repaso de contenidos de cursos introductorios de estadı́stica que es necesario
dominar para abordar un curso introductorio de econometrı́a a nivel de grado. La experiencia muestra que
estadı́stica es un área desafiante donde no todos los conceptos son del todo dominados en una primera apro-
ximación, por ese motivo es conveniente realizar una revisión de aquellos que son centrales en econometrı́a.
Los cursos introductorios de estadı́stica tı́picamente se dividen en tres grandes secciones: estadı́stica
descriptiva, teorı́a de probabilidad e inferencia estadı́stica. En esta nota, asumiremos que el lector se encuentra
familiarizado con nociones de estadı́stica descriptiva y con el concepto de probabilidad. Abordaremos aquı́
algunos lineamientos generales de la teorı́a de variables aleatorias y de inferencia estadı́stica y concluiremos
con algunos ejemplos relevantes.
Todos los conceptos aquı́ discutidos pueden ser consultados en bibliografı́a estándar de cursos de es-
tadı́stica. En particular, podemos recomendar el texto clásico de George Canavos, Probabilidad y Estadı́stica
(1988), o el más moderno de Newbold y Carlson, Statistics for business and economics (2013) . En el espı́ritu
de proveer a un curso moderno y conectado a los grandes repositorios actuales de conocimiento, corresponde
señalar que Wikipedia puede ser una fuente de consulta excelente para tópicos simples como estos.
2. Variables aleatorias
2.1. Notación y definiciones
Una variable aleatoria es aquella que otorga valores numéricos a los posibles resultados de un expe-
rimento. Por lo tanto, es razonable formular afirmaciones del tipo “la variable X adopta tales valores con
tanta probabilidad ”, afirmación que no tendrı́a sentido en el contexto determinı́stico tradicional. Utilizaremos
mayúsculas (X, Y, Z) para referirnos a variables aleatorias y minúsculas (x, y, z) para referirnos a valores que
estas pueden adoptar.
Las variables aleatorias se clasifican en discretas o continuas dependiendo de su recorrido, es decir,
del conjunto de valores que pueden adoptar. Cuando este conjunto es numerable, la variable es discreta;
en cambio, cuando este conjunto es no numerable, la variable es continua. Recordemos que un conjunto
numerable es aquel en el cual es posible establecer una función biyectiva entre los elementos de N y los
elementos del conjunto. En otras palabras, los elementos de un conjunto numerable “se pueden contar”, aun
1
si son infinitos. En cambio, los elementos de un conjunto no numerable no se pueden contar. Un ejemplo
simple de un conjunto numerable es N, mientras que un ejemplo simple de un conjunto no numerable es R1 .
Una variable aleatoria discreta se caracteriza a través de su función de probabilidad. Para una variable
aleatoria X, llamaremos a esta función pX (x). Dado que el subı́ndice X refiere a la variable aleatoria y esto
es obvio cuando hay una sola variable en uso, podemos omitirlo en esos casos (pero no cuando haya más de
una variable en el problema). La función de probabilidad responde a la siguiente expresión:
pX (x) = P (X = x) (1)
La ecuación (1) es simple una vez que se domina la notación involucrada: la función pX (x) simplemente
indica la probabilidad de que la variable aleatoria X adopte el valor puntual x (donde x puede ser cualquier
número real).
Si bien la función de probabilidad puede ser definida para variables aleatorias continuas, esto no tiene
mucho sentido ya que, por definición, todos los valores tienen probabilidad puntual 0 en una variable aleatoria
continua. Por eso es necesario recurrir a un concepto más complejo: la función de densidad, fX (x). Esta es
una función continua que mide la importancia relativa de cada elemento en el recorrido de la variable pero
no puede ser interpretada directamente como una probabilidad. En cambio, para calcular probabilidades en
una variable aleatoria continua debemos recurrir a la siguiente regla:
Z b
P (a ≤ X ≤ b) = fX (x)dx (2)
a
VA GRÁFICO DE DENSIDAD
En palabras, se debe integrar la densidad en un cierto intervalo para obtener la probabilidad de que la
variable se encuentre en ese intervalo. Finalmente, un concepto común a todas las variables aleatorias es la
función de distribución:
FX (x) = P (X ≤ x) (3)
La ecuación (3) puede calcularse para cualquier variable aleatoria y siempre arrojará un valor entre 0 y 1.
Por este motivo, a la hora de describir una variable aleatoria, es común usar esta función y, coloquialmente,
referirse a la variable como “una distribución”. Por último, es importante notar que siempre vale que P (a ≤
X ≤ b) = FX (b) − FX (a), una igualdad que utilizaremos a menudo en el trabajo aplicado en el curso.
mk (X) =E X k
(4)
h i
k
µk (X) =E (X − E(X)) (5)
Tanto (4) como (5) pueden calcularse para todos los valores naturales de k, dando lugar a medidas con
1 Quizás no sea muy intuitivo, pero se puede probar que Q es numerable.
2
diversos usos. Vamos a explorar los dos momentos más importantes de una variable aleatoria, su esperanza
y su varianza.
Formalmente, la esperanza de una variable aleatoria es su momento natural de orden 1 y puede calcularse
de acuerdo a una expresión que varı́a de acuerdo a si la variable aleatoria del problema es discreta o continua:
P x · p (x) si X es discreta
X
E(X) = m1 (X) = R ∞x (6)
−∞
x · fX (x) · dx si X es continua
La esperanza de una variable aleatoria es una medida de tendencia central de su distribución. Indica cuál
es la media teórica, también conocida como “centro de gravedad”, de la distribución de valores que la variable
puede adoptar. Para los fines de este curso es muy importante conocer las propiedades de la esperanza como
operación matemática. Sean X, Y variables aleatorias (discretas o continuas) y sea c una constante (es decir,
un número real no aleatorio), entonces se cumplen las siguientes propiedades:
1. E(c) = c
2. E(c · X) = c · E(X)
La última igualdad sigue de combinar las propiedades de la esperanza con la fórmula tradicional de
cuadrado de un binomio. Para computar esta fórmula en la práctica, es preciso tener en cuenta que la
expresión (6) puede aplicarse para cualquier función de X, incluido el cuadrado, de modo tal que:
P x2 · p (x) si X es discreta
X
E(X ) = R ∞x
2
(8)
2
−∞
x · fX (x) · dx si X es continua
La varianza es una medida de dispersión de la distribución. Para tener una idea de qué tan dispersos
se encuentran los valores, restamos a cada uno la esperanza. Sin embargo, esto crea un problema: para
los valores inferiores a la esperanza este valor será negativo mientras que los mayores será positivo. Si
procediéramos a sumarlos, incurrirı́amos en una compensación de signos y el resultado no serı́a informativo.
Por eso es necesario una transformación que elimine el signo de cada cantidad y la varianza utiliza para eso
la función cuadrática. Por eso la varianza es, finalmente, la media teórica de los desvı́os cuadráticos respecto
de la esperanza. Al igual que la esperanza, la varianza de una variable aleatoria tiene algunas propiedades
importantes:
1. V (c) = 0
3
2. V (c · X) = c2 · V (X)
Sin embargo, la transformación cuadrática genera un problema al alterar las unidades del problema. La
varianza está expresada en unidades cuadráticas, lo que vuelve a su valor numérico difı́cil de interpretar. Es
por eso que, para poder obtener una medida de variabilidad sencilla de interpretar, se estila trabajar con la
raı́z cuadrada de la varianza, lo que se conoce como el desvı́o estándar:
p
SD(X) = V (X) (9)
Esta función produce probabilidades conjuntas, es decir, la probabilidad de que X adopte el valor x y, al
mismo tiempo, Y adopte el valor y. En cambio, si se trata de variables continuas, debemos recurrir, como
hicimos en el caso de una única variable, a una función de densidad, que también llamaremos conjunta.
Formalmente, sean X e Y dos variables aleatorias continuas con funciones de densidad (marginales) fX (x)
y fY (y), la función de densidad conjunta se denota fXY (x, y) y puede usarse para calcular probabilidades
recurriendo a una integral doble:
Z b Z d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = fXY (x, y) · dy · dx (11)
a c
Tenemos entonces que la relación entre dos variables aleatorias se representa mediante su distribución
conjunta. Un concepto importante asociado es el de distribución condicional. Supongamos que sabemos que
Y adopta un cierto valor y, ¿cómo afecta esto a la distribución marginal de X? Si se trata de variables
discretas, podemos definir la función de probabilidad condicional de X del siguiente modo:
pXY (x, y)
pX|Y (x|y) = P (X = x|Y = y) = (12)
pY (y)
Si, en cambio, se trata de variables continuas, utilizamos la función de densidad condicional de X, que
viene dada por fX|Y (x|y) = fXY (x, y)/fY (y) y se utiliza para calcular probabilidades de manera intuitiva:
Z b
P (a ≤ X ≤ b, Y = y) = fX|Y (x|y) · dx (13)
a
4
Finalmente, es importante introducir el concepto de independencia estadı́stica. X e Y son estadı́stica-
mente (o estocásticamente) independientes si se verifica la siguiente condición:
p
XY (x, y) = pX (x) · pY (y) si X e Y son discretas
X ⊥ Y ⇐⇒ (14)
f
XY (x, y) = fX (x) · fY (y) si X e Y son conjuntas
Intuitivamente, que dos variables aleatorias sean independientes quiere decir que no están relacionadas
de ninguna forma, por lo tanto conocer el valor que adopta una no otorga información alguna sobre el valor
que pueda adoptar la otra. Es sencillo ver que, en este caso, las distribuciones marginales son iguales a las
condicionales.
La covarianza es un momento fundamental en una distribución conjunta, que viene dado por la siguiente
expresión:
Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))] = E(X · Y ) − E(X) · E(Y ) (15)
Nuevamente, la última igualdad sigue de combinar reglas algebraicas habituales con propiedades de la
esperanza. La covarianza (el momento conjunto centrado de primer orden) es una medida de asociación
lineal entre dos variables aleatorias. Esta medida sufre de un problema similar al de la varianza: su unidad
de medida es bastante antiintuitiva (unidades producto). Sin embargo, aun si su valor numérico no puede
ser interpretado de manera directa, su signo sı́ resulta informativo. Una covarianza positiva indica una
asociación lineal directa entre las variables (relación directamente proporcional), mientras que covarianza
negativa indica una asociación lineal inversa entre las variables (relación inversamente proporcional). Por
último, una covarianza nula indica que no existe asociación lineal entre las variables, aunque es importante
notar que esto no es sinónimo de independencia, ya que una covarianza nula no excluye la posibilidad de que
exista alguna relación no lineal entre las variables (aunque este caso es más bien raro en la práctica). Esto
puede resumirse en la siguiente afirmación formal:
X ⊥ Y ⇒ Cov(X, Y ) = 0 (16)
:
También existe una solución para el problema de la unidad de medida de la covarianza. Esta consiste
en recurrir a una nueva medida, conocida como coeficiente de correlación lineal, que responde a la siguiente
expresión:
Cov(X, Y )
ρ(X, Y ) = (17)
SD(X) · SD(Y )
Se puede mostrar que −1 ≤ ρ(X, Y ) ≤ 1. En palabras, se trata de una medida normalizada. La inter-
pretación del signo es idéntica a la explicada para la covarianza pero ahora el valor numérico de la medida
puede ser interpretado en términos de qué tan lejos de 1 (o de -1) se encuentra.
La covarianza también tiene algunas propiedades útiles, a saber:
1. Cov(X, Y ) = Cov(Y, X)
2. Cov(X, c) = 0
5
3. Cov(c · X, Y ) = c · Cov(X, Y )
4. Cov(X, X) = V (X)
Por último, incorporando la covarianza, es posible formular una propiedad importante sobre la varianza:
Esta propiedad tiene varios detalles relevantes. En primer lugar, muestra que la varianza, en general, no
se puede distribuir en una suma o resta de variables aleatorias. Existe una excepción importante: el caso en
que la covarianza entre ellas es cero. Pero aun en ese caso es preciso ser cuidadoso con los signos: la varianza
de una resta es la suma (no la resta) de las varianzas.
1 1 (x−µ)
2
f (x) = √ · e− 2 · σ 2 (19)
2π · σ
VA GRÁFICO DE NORMAL
La normal es una distribución simétrica, lo cual implica que µ es también la mediana de la distribución y
que la probabilidad acumulada a la derecha de un valor positivo a es igual a la acumulada a la izquierda de
su opuesto −a. Como veremos a lo largo del curso, la simetrı́a es una propiedad bastante útil en el cálculo
de probabilidades en distribuciones muestrales. Por otro lado, es interesante notar que los dos parámetros
que caracterizan la distribución normal corresponden a los momentos habituales, algo que no siempre ocurre
en el estudio de distribuciones.
La ecuación (19) no puede ser utilizada de manera directa dado que no es posible integrarla de manera
tradicional. Para calcular probabilidades de una variable aleatoria normal, se debe proceder a estandarizarla,
6
es decir, convertirla en una normal con esperanza 0 y varianza 1. Ası́ se obtiene la distribución conocida
como normal estándar, cuyas probabilidades son calculadas con métodos numéricos y pueden ser consultadas
en tablas habituales. Formalmente, esto puede resumirse de la siguiente manera:
X −µ
X ∼ N (µ, σ 2 ) ⇒ Z = ∼ N (0, 1) ⇒ P (Z ≤ z) = Φ(z) (20)
σ
3.2. Distribución χ2
La distribución χ2 se caracteriza por un solo parámetro llamado “grados de libertad”. Sea Z una variable
aleatoria que sigue distribución normal estándar, entonces decimos que Z 2 sigue distribución χ2 con un
grado de libertad. Análogamente, si Z1 , . . . , Zk es una sucesión de variables aleatorias todas las cuales siguen
distribución normal estándar, entonces X = Z12 + · · · + Zk2 sigue distribución χ2 con k grados de libertad,
denotado X ∼ χ2k .
VA GRÁFICO DE CHI
La distribución χ2 es asimétrica a derecha y tiene recorrido en R+ , es decir que solo puede adoptar
valores positivos y tiene mayor probabilidad de adoptar valores cercanos a cero que de adoptar valores
grandes. Además, se puede mostrar que E(X) = k y V (X) = 2k.
4. Inferencia estadı́stica
Todas las herramientas presentadas en la sección anterior sirven para caracterizar el comportamiento de
variables teóricas. En otras palabras, tenemos instrumentos para describir una distribución abstracta pero
no sabemos todavı́a cómo incorporar datos al problema. La inferencia estadı́stica se ocupa especı́ficamente
de esto último. La primera tarea consiste en definir formalmente a los datos.
7
Llamamos “muestra aleatoria” a una colección de variables aleatorias que son “iid”, es decir, indepen-
dientes e idénticamente distribuidas. En otras palabras, variables aleatorias que siguen la misma distribución
iid
teórica y no están relacionadas entre sı́. Tı́picamente esto se denota (X1 , . . . , Xn ) ∼ f (x, θ), donde n es la
cantidad de variables o, como lo llamaremos a partir de ahora, el tamaño muestral; f (x, θ) es la distribución
poblacional (también llamada “teórica”) y θ es un parámetro (o vector de parámetros) desconocido que ca-
racteriza a la distribución f . Entonces una muestra aleatoria es un conjunto de extracciones independientes
de esa población, cada una de las cuales es puramente aleatoria. Intuitivamente, puede ser útil imaginar un
bolillero del cual se extraen n bolillas. Si el bolillero es infinito, no hay que preocuparse por si las extraccio-
nes se realizan con o sin reposición. En cambio, si el bolillero no fuera infinito, las extracciones deberı́an ser
necesariamente con reposición ya que, de otro modo, estas no serı́an independientes entre sı́.
La idea de que la muestra es aleatoria suele generar confusiones de modo que un ejemplo sencillo podrı́a ser
útil para fijar algunas intuiciones clave. Supongamos la población más sencilla posible, aquella que proviene
de un experimento dicotómico, por ejemplo, tirar una moneda y registrar de qué lado cae. Llamemos a
los lados “C” y “X”, identificados con los valores 1 y 0 respectivamente. Podrı́amos imaginar que tenemos
entonces un bolillero con dos bolillas, una con el valor 1 y otra con el valor 0. El muestreo consistirá en realizar
tres extracciones con reposición (porque el bolillero de este ejemplo es finito). Esto puede dar lugar a ocho
muestras posibles, representadas en el siguiente cuadro, con sus respectivas probabilidades de ocurrencia.
Todas las muestras tienen la misma probabilidad de ocurrencia, sin embargo, cada una es distinta. No
hay forma de saber ex ante qué muestra se obtendrá y dos muestreos realizados por individuos distintos
en general conducirán a resultados distintos (algo que el lector puede fácilmente comprobar probando el
experimento en cuestión). En este sentido decimos que la muestra es aleatoria.
A partir de ahora siempre asumiremos que la inferencia se realiza a partir de una muestra aleatoria.
Es importante resaltar una diferencia fundamental: (X1 , . . . , Xn ) es una muestra aleatoria, mientras que
(x1 , . . . , xn ) representa una realización (una extracción individual) de esa muestra. En otras palabras, Xi es
una variable aleatoria (con distribución f (x, θ)) mientras que xi es un valor puntual de esa distribución y,
por lo tanto, una constante (en sintonı́a con los criterios de notación explicados anteriormente).
El problema de la inferencia estadı́stica consiste en cómo utilizar la información contenida en la muestra
para asignar un valor a θ. Si conociéramos θ, conocerı́amos la forma exacta de la distribución poblacional
y por lo tanto podrı́amos calcular cualquier medida de interés, ya sean momentos o probabilidades. Dado
8
que esto no es posible, el objetivo será estimar θ de una forma “confiable”. A continuación desarrollamos
las herramientas necesarias para ello y presentamos dos ejemplos clásicos y de cabal importancia para este
curso.
θ̂ = g(X1 , . . . , Xn ) (21)
Lo que la expresión (21) indica es que el estimador θ̂ debe poder calcularse solo a partir de la información
contenida en la muestra. Sabemos que la muestra es aleatoria, por lo tanto θ̂ es, por construcción, una
variable aleatoria. Indagar en su distribución será clave en lo que sigue.
La pregunta que debemos plantearnos es cómo se elige el estimador “indicado” para θ, dicho de otro
modo, cuál es la “mejor” función g posible. Y para poder responder esa pregunta, debemos primero definir
criterios que hacen bueno a un estimador. A continuación, enunciamos tres propiedades fundamentales de
los estimadores, cuyo cumplimiento define la optimalidad de un estimador particular.
1. Insesgadez: θ̂ es insesgado si se cumple que E(θ̂) = θ. Esta propiedad sencilla e intuitiva indica que la
esperanza del estimador debe ser el parámetro que se desee estimar. En otras palabras, el estimador
no debe sufrir “sesgos”, debe acertar el verdadero valor en promedio
Eficiencia relativa: dados dos estimadores θ̂1 y θ̂2 , decimos que θ̂1 es más eficiente que θ̂2 si se
cumple que V (θ̂1 ) ≤ V (θ̂2 ). En palabras, si un estimador tiene menor dispersión esto lo hace
preferible ya que el error esperado que se cometerá utilizándolo es menor
Eficiencia absoluta: θ̂ es absolutamente eficiente si se puede probar que V (θ̂) es la mı́nima varianza
para un estimador insesgado de θ. Probar esto puede ser factible dado que se puede probar que
existe una cota inferior a esa varianza (la llamada “cota de Cramer-Rao”), de modo que si se
puede mostrar que la varianza de un estimador iguala esa cota, es posible afirmar que ningún
otro estimador lo superará en eficiencia. Lamentablemente, no siempre es posible encontrar un
estimador cuya varianza alcance la cota. En cambio, sı́ es posible, en ciertos contextos, probar que
la varianza de un estimador es la mı́nima para cierto subconjunto relevante de estimadores
Intuitivamente, lo que esta condición quiere decir es que la distribución de θ̂ “colapsa” en θ a medida
que el tamaño muestral aumenta, de modo que la probabilidad de cometer errores (no importa qué tan
pequeños sean) tiende a cero a medida que n crece
9
GRÁFICO DE CONSISTENCIA
Probar que un estimador cumple las propiedades 1 y 2 suele ser sencillo recurriendo a las propiedades
vistas anteriormente (al menos mientras nos movamos en el terreno de los estimadores lineales). En cambio,
probar 3 es más complicado, por lo menos en el sentido de que requiere invocar algunos teoremas que
están fuera del alcance de este curso. Por ese motivo en este curso nos concentraremos en las primeras dos
propiedades y la tercera será enunciada en ocasiones pero no probada formalmente.
Por último, resta explicar de dónde vienen los estimadores, es decir, cómo se obtienen candidatos “intere-
santes” para la función g. Nuevamente se trata de un interrogante que excede los objetivos de este curso, pero
es conveniente establecer que existen, grosso modo, tres familias de métodos para encontrar estimadores:
1. Máxima verosimilitud: métodos que consisten en construir una función g que maximice la probabilidad
de obtener la muestra dada
2. Momentos: métodos que consisten en construir una función g tal que los momentos poblacionales se
igualen lo más posible con los muestrales
3. Métodos ad-hoc: métodos que fijan un criterio “arbitrario” para construir una función g
Los métodos de mı́nimos cuadrados, que describiremos profundamente en el curso, se ubican en la tercera
categorı́a.
P (a ≤ θ ≤ b) = 1 − α (23)
Donde α es lo que se conoce como “nivel de significancia”2 y 1 − α es lo que se conoce como “nivel de
confianza”. α es una elección arbitraria del investigador y corresponde a la probabilidad de que θ no esté
incluido en el intervalo construido; en otras palabras, α es una medida del error que se está dispuesto a
cometer en el procedimiento.
Note el lector que, dado que θ no es aleatorio, la única forma de que la ecuación (23) tenga sentido
es que a y b sean funciones de la muestra (ya que, caso contrario no habrı́a nada aleatorio dentro de la
probabilidad y en ese caso esta solo podrı́a ser igual a cero o a uno y nunca a otro valor). Efectivamente,
a y b son estadı́sticos y por eso es que podrı́amos escribirlos a(X1 , . . . , Xn ) y b(X1 , . . . , Xn ). El ejercicio
consiste entonces en utilizar la información disponible sobre la distribución muestral de θ̂ para construir
estos estadı́sticos.
10
provengan de la teorı́a económica o de estudios anteriores). Para eso se utiliza una última herramienta
conocida como tests de hipótesis.
Un test de hipótesis se basa en un enunciado sobre el valor de θ, que llamamos “hipótesis nula” (y
representamos como H0 ). Para los fines de este curso, solo consideraremos hipótesis nulas “simples”, del
tipo θ = θ0 donde θ0 es algún valor conocido (el análisis no cambia sustancialmente si el signo de igual es
reemplazado por uno de mayor o igual o menor o igual). El complemento de la hipótesis nula se conoce como
hipótesis alternativa. Formalmente, escribimos:
H0 : θ = θ0 , H1 : θ 6= θ0 (24)
Nuevamente se debe elegir un nivel de significancia, que seguiremos llamando α pero cuya interpretación
ahora será ligeramente distinta. El objetivo de este procedimiento es construir una regla de rechazo, es decir,
decidir una condición sobre el valor de θ̂ tal que, si esta se cumple, la hipótesis nula puede considerarse
pasible de ser descartada. En este contexto, α será la probabilidad de rechazar la hipótesis nula cuando esta
es cierta, también llamado el “tamaño del test”; rechazar una hipótesis nula verdadera es cometer lo que se
conoce como “error de tipo 1”. La metodologı́a tradicional para diseñar tests de hipótesis (conocida como
el “enfoque Neyman-Pearson”) consiste en elegir un valor fijo de α y luego construir el test de modo tal
que este minimice la probabilidad de cometer lo que se conoce como el “error de tipo 2”: no rechazar una
hipótesis que no es verdadera.
Entonces, utilizando la información disponible sobre la distribución muestral de θ̂, se construye lo que se
conoce como un “estadı́stico de prueba”, es decir, alguna función de θ̂ cuya distribución es conocida, y se
fija en dicha distribución una región de rechazo y una región de no rechazo. Finalmente, se constata en cuál
región se ubica la realización particular de θ̂ con que se cuenta y se concluye el rechazo o no rechazo de H0 .
Varios comentarios sobre lo anterior son pertinentes. En primer lugar, note el lector que en ningún
momento hemos hablado de “aceptar” una hipótesis, sino de rechazarla o no rechazarla. En efecto, el no
rechazo de la hipótesis nula no es equivalente a la afirmación de que esta es cierta. En primer lugar, porque
nunca es posible hacer afirmaciones categóricas sobre el valor de θ, intrı́nsecamente desconocido (aun con
una muestra arbitrariamente grande); en segundo lugar, porque θ = θ0 nunca es la única hipótesis para
la cual el resultado es no rechazo. De hecho, si modificáramos marginalmente el valor de θ0 , obtendrı́amos
el mismo resultado, y ciertamente no podrı́amos afirmar que θ es igual a θ0 y, simultáneamente, a otro
valor marginalmente distinto. En definitiva, el no rechazo debe ser interpretado con cautela y puede resultar
más intuitivo en ciertos contextos que en otros. Ası́ todo, es cierto que los economistas suelen hablar,
informalmente, de “aceptar una hipótesis” a partir de un test, expresión ciertamente incorrecta desde el
punto de vista formal3 .
En segundo lugar, la coincidencia en llamar α al error no es casual. De hecho, construir un intervalo de
confianza y testear una hipótesis son dos procedimientos equivalentes en el fondo: el intervalo de confianza
para θ̂ es exactamente la región de no rechazo en el test, lo que indica que se rechazan todos los valores de
θ0 que se encuentren por fuera del mismo. Sin embargo, a pesar de esta equivalencia matemática, se trata
3 Ser laxo con el lenguaje es un privilegio que se gana con la experiencia. Albert Einstein, un reconocido ateo, es famoso por
escribir la frase “Dios no juega a los dados con el universo”, como una forma de expresar sus dudas respecto de la viabilidad
de la mecánica cuántica en fı́sica. Ninguno de los interlocutores de Einstein lo interpretó como una proclama religiosa. Pero ası́
era Albert Einstein. Quienes no hemos accedido a los niveles de comprensión de gente como Einstein, no tenemos más remedio
que ser prolijos con los términos que utilizamos. Por ese motivo, no “acepten” ninguna hipótesis nula en el examen.
11
de herramientas que se acostumbra utilizar de manera separada.
Por último, el lector podrı́a preguntarse por qué utilizamos una metodologı́a que fija la probabilidad de
cometer error tipo 1 y minimiza la probabilidad de cometer error tipo 2. Por empezar, es preciso establecer
que no es posible minimizar ambas cosas al mismo tiempo. La analogı́a del control de calidad suele ayudar: un
control de calidad estricto cometerı́a muy poco error tipo 1 pero mucho error tipo 2 y lo contrario ocurrirı́a
con un control de calidad laxo. Pero el control de calidad no puede ser estricto y laxo al mismo tiempo.
Cuando se “controla” un error, eso automáticamente “descontrola” el otro. Por ese motivo, tı́picamente se
diseña la hipótesis nula de modo tal que el error tipo 1 sea el más “costoso” y por ende se lo controla fijando
el tamaño α, aceptando como posible consecuencia que esto dé lugar a un error de tipo 2 considerable (lo
que también se conoce como “baja potencia del test”).
(25) y (26) son dos estadı́sticos conocidos e intuitivos: la media muestral y la varianza muestral, respectiva-
mente. El lector quizás esté familiarizado con una versión ligeramente distinta de (26) donde el denominador
es n − 1 en lugar de n; esa diferencia es poco importante aquı́ por lo tanto en lo sucesivo utilizaremos esta
versión4 .
Comencemos por verificar las propiedades de X̄. En primer lugar, veamos que:
n
! n
! n
1X 1 X 1X 1
E(X̄) =E Xi = E Xi = E(Xi ) = nµ = µ (27)
n i=1 n i=1
n i=1 n
Donde lo único que hemos hecho es aplicar las propiedades de la esperanza y el hecho de que la muestra
es iid. Concluimos entonces que X̄ es insesgado. Ahora calculemos su varianza:
4 En realidad, la versión de s2 que divide por n − 1 es preferible porque es insesgada (y de hecho se la conoce, precisamente,
como varianza muestral insesgada), mientras que la que hemos presentado aquı́ no lo es. Sin embargo, en la práctica la dife-
rencia numérica entre ellas suele ser despreciable y en algunos desarrollos el uso de la versión insesgada introduce dificultades
innecesarias.
12
n
! n
! n
1X 1 X 1 X 1 2 σ2
V (X̄) =V Xi = 2V Xi = V (Xi ) = nσ = (28)
n i=1 n i=1
n2 i=1 n2 n
Nuevamente los pasos anteriores surgen de las propiedades previamente discutidas. El resultado es in-
tuitivo: la varianza de X̄ depende positivamente de σ 2 (la varianza de la población) y negativamente de
n, el tamaño muestral. De hecho, cuando n se vuelve arbitrariamente grande, esta varianza tiende a cero.
Es posible mostrar que esta es precisamente la cota inferior de la varianza de un estimador y también que
X̄ es consistente (esto último se puede pensar, intuitivamente, como una consecuencia de lo anterior: con
una muestra arbitrariamente grande, la varianza de X̄ serı́a cero lo que implicarı́a que se obtendrı́a µ con
probabilidad uno).
En definitiva, X̄ es un estimador insesgado, consistente y absolutamente eficiente, un resultado ideal,
lo que justifica su uso generalizado. De hecho, insesgadez y consistencia se mantienen aun si se elimina el
supuesto de normalidad (no necesariamente ası́ eficiencia). Ya contamos entonces con un estimador puntual
idóneo. El siguiente paso es caracterizar su distribución muestral.
X̄ es intrı́nsecamente una combinación lineal de variables aleatorias normales, lo cual implica que sigue
distribución normal. Como ya calculamos sus momentos, podemos afirmar que:
σ2
X̄ − µ
X̄ ∼ N µ, ⇒Z= σ ∼ N (0, 1) (29)
n √
n
El problema con esta expresión es que no sirve de mucho ya que σ es un valor poblacional desconocido.
No queda más remedio que reemplazar σ por su estimador s, pero al hacer eso, la distribución muestral
cambia5 :
X̄ − µ
T = s ∼ tn−1 (30)
√
n
Conociendo la distribución del estadı́stico T , se puede proceder a construir el intervalo de confianza para
µ. El intervalo debe ser simétrico, es decir, estar centrado en la esperanza de T (que es claramente cero), de
modo tal que empezamos por escribir:
P tn−1,α/2 ≤ T ≤ tn−1,1−α/2 = 1 − α (31)
Donde tk,p corresponde al valor de la distribución t de Student con k grados de libertad que acumula
probabilidad p a izquierda (y una notación análoga se empleará para otras distribuciones muestrales de aquı́
en más). Reemplazando T por su definición y realizando algunos pasos algebraicos, se llega al siguiente
resultado:
s s
P X̄ − tn−1,1−α/2 √ ≤ µ ≤ X̄ − tn−1,α/2 √ =1−α (32)
n n
Finalmente la simetrı́a de la distribución t establece que tn−1,1−α/2 = −tn−1,α/2 , de modo que el intervalo
5 Esto es consecuencia de dos resultados previos. En primer lugar, del lema de Fisher, que asegura que s2 · n sigue distribución
13
de confianza para µ con nivel de confianza 1 − α responde a la expresión:
s s
X̄ − tn−1,1−α/2 √ ; X̄ + tn−1,1−α/2 √ (33)
n n
Si α = 0,05 (que es el nivel de significancia más utilizado en economı́a) y n es grande (digamos, mayor
a 50), entonces tn−1,1−α/2 ≈ 2 y por eso la regla anterior a veces es coloquialmente resumida como “media
más/menos 2 errores estándar”.
Por último, supongamos que se desea testear una hipótesis genérica sobre el valor de µ:
H0 : µ = µ0 , H1 : µ 6= µ0 (34)
Nuevamente partimos de la ecuación (30), pero ahora asumimos la hipótesis nula como cierta, es decir,
asumimos que µ = µ0 . Bajo ese supuesto, la distribución de X̄ para a ser completamente conocida y por
ende podemos recurrir al siguiente estadı́stico de prueba:
X̄ − µ0
Te = s ∼ tn−1 (35)
√
n
Entonces, fijamos la región de rechazo en los extremos de la distribución de T e , asegurando que su tamaño
total sea α. La regla de rechazo entonces establece que se rechaza H0 si |T e | ≥ tn−1,1−α/2 .
VA GRAFICO DE TEST
Esta aplicación, presentada habitualmente al final de los cursos introductorios de estadı́stica, constituye
una introducción a la econometrı́a. Por el momento no discutiremos las implicancias conceptuales del ejercicio
(que serán exhaustivamente abordadas en el curso) y nos limitaremos a desarrollar el problema de estimación
puntual que este implica.
Supongamos que contamos con una muestra de dos variables aleatorias X e Y , ((X1 , Y1 ), . . . , (Xn , Yn ))
y el interés está puesto en modelizar la relación existente entre las dos. Para eso elegimos la especificación
lineal:
Yi = β0 + β1 Xi + ui i = 1, . . . , n (36)
Donde u es una variable aleatoria cuya función es dar cuenta del hecho de que Y en general no será
una función lineal exacta de X y en ese sentido corresponde a lo que llamamos un “término de error”. El
problema de estimación consiste entonces en encontrar valores para β0 y β1 . Si bien este problema puede ser
abordado por cualquiera de los métodos discutidos en la sección 4.1, resulta de interés desarrollar el método
que usaremos en este curso: el de Mı́nimos Cuadrados Ordinarios (MCO).
Supongamos que contamos con estimadores β̂0 y β̂1 . Con eso podemos calcular valores estimados para
ui , que llamaremos “residuos” del modelo. Dado que estos residuos son una medida del error cometido por el
modelo, es deseable que sean tan pequeños como sea posible. Por lo tanto, una buena elección de estimadores
serı́a aquella que minimice los valores de los residuos. Lamentablemente, no es posible minimizar todos los
valores de ûi al mismo tiempo, por ende debemos minimizar alguna función de ellos. La suma no funcionarı́a
14
por el problema de compensación de signos (ya que invariablemente algunos residuos serán positivos mientras
que otros serán negativos), por ende debemos aplicar una transformación que elimine signos y, como hemos
hecho antes, elegiremos la función cuadrática. En conclusión, el problema de MCO consiste en encontrar
estimadores de los parámetros que minimizan lo que llamaremos la Suma de Cuadrados Residual (SCR):
n
X n
X 2
SCR = û2i = Yi − β̂0 − β̂1 Xi (37)
i=1 i=1
Se trata de un problema de optimización libre, que se resuelve de la forma habitual, tomando derivadas
parciales e igualándolas a cero y resolviendo el sistema de ecuaciones lineales que esto genera:
n
∂SCR X
= Yi − β̂0 − β̂1 Xi (−1) = 0 (38)
∂ β̂0 i=1
n
∂SCR X
= Yi − β̂0 − β̂1 Xi (−Xi ) = 0 (39)
∂ β̂1 i=1
Es difı́cil proveer una interpretación de la ecuación (41), pero no ası́ la (42), que de hecho puede ser
llevada a una forma muy simple aplicando algo de álgebra:
sXY
β̂1 = (43)
s2X
Donde sXY es la covarianza muestral entre X e Y y s2X es la varianza muestral de X. Esta fórmula (que
será de gran utilidad en el curso) es poderosamente intuitiva: el estimador de MCO de la pendiente en un
modelo lineal univariado es igual a la covarianza (porque esta mide la asociación lineal entre las variables)
escalada por la varianza de la variable independiente (para resolver el problema de la unidad de medida de
la covarianza).
15