Repaso Estadistica

Repaso estadı́stico
Martin Trombetta
Universidad Argentina de la Empresa
2019
1. Introducción
Esta nota consiste en un repaso de contenidos de cursos introductorios de estadı́stica que es necesario
dominar para abordar un curso introductorio de econometrı́a a nivel de grado. La experiencia muestra que
estadı́stica es un área desafiante donde no todos los conceptos son del todo dominados en una primera apro-
ximación, por ese motivo es conveniente realizar una revisión de aquellos que son centrales en econometrı́a.
Los cursos introductorios de estadı́stica tı́picamente se dividen en tres grandes secciones: estadı́stica
descriptiva, teorı́a de probabilidad e inferencia estadı́stica. En esta nota, asumiremos que el lector se encuentra
familiarizado con nociones de estadı́stica descriptiva y con el concepto de probabilidad. Abordaremos aquı́
algunos lineamientos generales de la teorı́a de variables aleatorias y de inferencia estadı́stica y concluiremos
con algunos ejemplos relevantes.
Todos los conceptos aquı́ discutidos pueden ser consultados en bibliografı́a estándar de cursos de es-
tadı́stica. En particular, podemos recomendar el texto clásico de George Canavos, Probabilidad y Estadı́stica
(1988), o el más moderno de Newbold y Carlson, Statistics for business and economics (2013) . En el espı́ritu
de proveer a un curso moderno y conectado a los grandes repositorios actuales de conocimiento, corresponde
señalar que Wikipedia puede ser una fuente de consulta excelente para tópicos simples como estos.
2. Variables aleatorias
2.1. Notación y definiciones
Una variable aleatoria es aquella que otorga valores numéricos a los posibles resultados de un expe-
rimento. Por lo tanto, es razonable formular afirmaciones del tipo “la variable X adopta tales valores con
tanta probabilidad ”, afirmación que no tendrı́a sentido en el contexto determinı́stico tradicional. Utilizaremos
mayúsculas (X, Y, Z) para referirnos a variables aleatorias y minúsculas (x, y, z) para referirnos a valores que
estas pueden adoptar.
Las variables aleatorias se clasifican en discretas o continuas dependiendo de su recorrido, es decir,
del conjunto de valores que pueden adoptar. Cuando este conjunto es numerable, la variable es discreta;
en cambio, cuando este conjunto es no numerable, la variable es continua. Recordemos que un conjunto
numerable es aquel en el cual es posible establecer una función biyectiva entre los elementos de N y los
elementos del conjunto. En otras palabras, los elementos de un conjunto numerable “se pueden contar”, aun
1
si son infinitos. En cambio, los elementos de un conjunto no numerable no se pueden contar. Un ejemplo
simple de un conjunto numerable es N, mientras que un ejemplo simple de un conjunto no numerable es R1 .
Una variable aleatoria discreta se caracteriza a través de su función de probabilidad. Para una variable
aleatoria X, llamaremos a esta función pX (x). Dado que el subı́ndice X refiere a la variable aleatoria y esto
es obvio cuando hay una sola variable en uso, podemos omitirlo en esos casos (pero no cuando haya más de
una variable en el problema). La función de probabilidad responde a la siguiente expresión:
pX (x) = P (X = x) (1)
La ecuación (1) es simple una vez que se domina la notación involucrada: la función pX (x) simplemente
indica la probabilidad de que la variable aleatoria X adopte el valor puntual x (donde x puede ser cualquier
número real).
Si bien la función de probabilidad puede ser definida para variables aleatorias continuas, esto no tiene
mucho sentido ya que, por definición, todos los valores tienen probabilidad puntual 0 en una variable aleatoria
continua. Por eso es necesario recurrir a un concepto más complejo: la función de densidad, fX (x). Esta es
una función continua que mide la importancia relativa de cada elemento en el recorrido de la variable pero
no puede ser interpretada directamente como una probabilidad. En cambio, para calcular probabilidades en
una variable aleatoria continua debemos recurrir a la siguiente regla:
Z b
P (a ≤ X ≤ b) = fX (x)dx (2)
a
VA GRÁFICO DE DENSIDAD
En palabras, se debe integrar la densidad en un cierto intervalo para obtener la probabilidad de que la
variable se encuentre en ese intervalo. Finalmente, un concepto común a todas las variables aleatorias es la
función de distribución:
FX (x) = P (X ≤ x) (3)
La ecuación (3) puede calcularse para cualquier variable aleatoria y siempre arrojará un valor entre 0 y 1.
Por este motivo, a la hora de describir una variable aleatoria, es común usar esta función y, coloquialmente,
referirse a la variable como “una distribución”. Por último, es importante notar que siempre vale que P (a ≤
X ≤ b) = FX (b) − FX (a), una igualdad que utilizaremos a menudo en el trabajo aplicado en el curso.
2.2. Momentos de una variable aleatoria

Los momentos de una variable aleatoria son importantes para caracterizar su distribución. Existen dos
tipos de momentos distintos: naturales y centrados. Las ecuaciones a continuación definen ambos conceptos:
mk (X) =E X k

(4)
h i
k
µk (X) =E (X − E(X)) (5)
Tanto (4) como (5) pueden calcularse para todos los valores naturales de k, dando lugar a medidas con
1 Quizás no sea muy intuitivo, pero se puede probar que Q es numerable.
2
diversos usos. Vamos a explorar los dos momentos más importantes de una variable aleatoria, su esperanza
y su varianza.
2.2.1. Esperanza de una variable aleatoria
Formalmente, la esperanza de una variable aleatoria es su momento natural de orden 1 y puede calcularse
de acuerdo a una expresión que varı́a de acuerdo a si la variable aleatoria del problema es discreta o continua:

P x · p (x) si X es discreta
X
E(X) = m1 (X) = R ∞x (6)

−∞
x · fX (x) · dx si X es continua
La esperanza de una variable aleatoria es una medida de tendencia central de su distribución. Indica cuál
es la media teórica, también conocida como “centro de gravedad”, de la distribución de valores que la variable
puede adoptar. Para los fines de este curso es muy importante conocer las propiedades de la esperanza como
operación matemática. Sean X, Y variables aleatorias (discretas o continuas) y sea c una constante (es decir,
un número real no aleatorio), entonces se cumplen las siguientes propiedades:
1. E(c) = c
2. E(c · X) = c · E(X)
3. E(X ± Y ) = E(X) ± E(Y )
2.2.2. Varianza de una variable aleatoria
La varianza de una variable aleatoria es su momento centrado de orden 2 y responde a la siguiente

expresión: h i
2
V (X) = µ2 (X) = E (X − E(X)) = E(X 2 ) − E(X)2 (7)
La última igualdad sigue de combinar las propiedades de la esperanza con la fórmula tradicional de
cuadrado de un binomio. Para computar esta fórmula en la práctica, es preciso tener en cuenta que la
expresión (6) puede aplicarse para cualquier función de X, incluido el cuadrado, de modo tal que:

P x2 · p (x) si X es discreta
X
E(X ) = R ∞x
2
(8)
2

−∞
x · fX (x) · dx si X es continua
La varianza es una medida de dispersión de la distribución. Para tener una idea de qué tan dispersos
se encuentran los valores, restamos a cada uno la esperanza. Sin embargo, esto crea un problema: para
los valores inferiores a la esperanza este valor será negativo mientras que los mayores será positivo. Si
procediéramos a sumarlos, incurrirı́amos en una compensación de signos y el resultado no serı́a informativo.
Por eso es necesario una transformación que elimine el signo de cada cantidad y la varianza utiliza para eso
la función cuadrática. Por eso la varianza es, finalmente, la media teórica de los desvı́os cuadráticos respecto
de la esperanza. Al igual que la esperanza, la varianza de una variable aleatoria tiene algunas propiedades
importantes:
1. V (c) = 0
3
2. V (c · X) = c2 · V (X)
Sin embargo, la transformación cuadrática genera un problema al alterar las unidades del problema. La
varianza está expresada en unidades cuadráticas, lo que vuelve a su valor numérico difı́cil de interpretar. Es
por eso que, para poder obtener una medida de variabilidad sencilla de interpretar, se estila trabajar con la
raı́z cuadrada de la varianza, lo que se conoce como el desvı́o estándar:
p
SD(X) = V (X) (9)
2.3. Distribuciones conjuntas

Cuando se desea analizar la relación entre dos variables aleatorias, es preciso modelizar su aleatoriedad de
manera conjunta. En otras palabras, necesitamos una forma de calcular la probabilidad de que una variable
X adopte ciertos valores y al mismo tiempo otra variable Y adopte otros. Para eso necesitamos introducir
un nuevo objeto, las distribuciones conjuntas. Nuevamente, esto puede definirse sobre variables discretas o
continuas.
Formalmente, sean X e Y dos variables aleatorias discretas con funciones de probabilidad pX (x) y pY (y)
respectivamente. A partir de ahora, estas funciones de probabilidad serán llamadas “marginales”. En cambio,
la función de probabilidad conjunta responde a la siguiente expresión:
pXY (x, y) = P (X = x, Y = y) (10)
Esta función produce probabilidades conjuntas, es decir, la probabilidad de que X adopte el valor x y, al
mismo tiempo, Y adopte el valor y. En cambio, si se trata de variables continuas, debemos recurrir, como
hicimos en el caso de una única variable, a una función de densidad, que también llamaremos conjunta.
Formalmente, sean X e Y dos variables aleatorias continuas con funciones de densidad (marginales) fX (x)
y fY (y), la función de densidad conjunta se denota fXY (x, y) y puede usarse para calcular probabilidades
recurriendo a una integral doble:
Z b Z d
P (a ≤ X ≤ b, c ≤ Y ≤ d) = fXY (x, y) · dy · dx (11)
a c
Tenemos entonces que la relación entre dos variables aleatorias se representa mediante su distribución
conjunta. Un concepto importante asociado es el de distribución condicional. Supongamos que sabemos que
Y adopta un cierto valor y, ¿cómo afecta esto a la distribución marginal de X? Si se trata de variables
discretas, podemos definir la función de probabilidad condicional de X del siguiente modo:
pXY (x, y)
pX|Y (x|y) = P (X = x|Y = y) = (12)
pY (y)
Si, en cambio, se trata de variables continuas, utilizamos la función de densidad condicional de X, que
viene dada por fX|Y (x|y) = fXY (x, y)/fY (y) y se utiliza para calcular probabilidades de manera intuitiva:
Z b
P (a ≤ X ≤ b, Y = y) = fX|Y (x|y) · dx (13)
a
4
Finalmente, es importante introducir el concepto de independencia estadı́stica. X e Y son estadı́stica-
mente (o estocásticamente) independientes si se verifica la siguiente condición:

p
XY (x, y) = pX (x) · pY (y) si X e Y son discretas
X ⊥ Y ⇐⇒ (14)
f
XY (x, y) = fX (x) · fY (y) si X e Y son conjuntas
Intuitivamente, que dos variables aleatorias sean independientes quiere decir que no están relacionadas
de ninguna forma, por lo tanto conocer el valor que adopta una no otorga información alguna sobre el valor
que pueda adoptar la otra. Es sencillo ver que, en este caso, las distribuciones marginales son iguales a las
condicionales.
2.3.1. Covarianza de dos variables aleatorias
La covarianza es un momento fundamental en una distribución conjunta, que viene dado por la siguiente
expresión:
Cov(X, Y ) = E [(X − E(X)) (Y − E(Y ))] = E(X · Y ) − E(X) · E(Y ) (15)
Nuevamente, la última igualdad sigue de combinar reglas algebraicas habituales con propiedades de la
esperanza. La covarianza (el momento conjunto centrado de primer orden) es una medida de asociación
lineal entre dos variables aleatorias. Esta medida sufre de un problema similar al de la varianza: su unidad
de medida es bastante antiintuitiva (unidades producto). Sin embargo, aun si su valor numérico no puede
ser interpretado de manera directa, su signo sı́ resulta informativo. Una covarianza positiva indica una
asociación lineal directa entre las variables (relación directamente proporcional), mientras que covarianza
negativa indica una asociación lineal inversa entre las variables (relación inversamente proporcional). Por
último, una covarianza nula indica que no existe asociación lineal entre las variables, aunque es importante
notar que esto no es sinónimo de independencia, ya que una covarianza nula no excluye la posibilidad de que
exista alguna relación no lineal entre las variables (aunque este caso es más bien raro en la práctica). Esto
puede resumirse en la siguiente afirmación formal:
X ⊥ Y ⇒ Cov(X, Y ) = 0 (16)
:
También existe una solución para el problema de la unidad de medida de la covarianza. Esta consiste
en recurrir a una nueva medida, conocida como coeficiente de correlación lineal, que responde a la siguiente
expresión:
Cov(X, Y )
ρ(X, Y ) = (17)
SD(X) · SD(Y )
Se puede mostrar que −1 ≤ ρ(X, Y ) ≤ 1. En palabras, se trata de una medida normalizada. La inter-
pretación del signo es idéntica a la explicada para la covarianza pero ahora el valor numérico de la medida
puede ser interpretado en términos de qué tan lejos de 1 (o de -1) se encuentra.
La covarianza también tiene algunas propiedades útiles, a saber:
1. Cov(X, Y ) = Cov(Y, X)
2. Cov(X, c) = 0
5
3. Cov(c · X, Y ) = c · Cov(X, Y )
4. Cov(X, X) = V (X)
5. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
Por último, incorporando la covarianza, es posible formular una propiedad importante sobre la varianza:
V (X ± Y ) = V (X) + V (Y ) ± 2Cov(X, Y ) (18)
Esta propiedad tiene varios detalles relevantes. En primer lugar, muestra que la varianza, en general, no
se puede distribuir en una suma o resta de variables aleatorias. Existe una excepción importante: el caso en
que la covarianza entre ellas es cero. Pero aun en ese caso es preciso ser cuidadoso con los signos: la varianza
de una resta es la suma (no la resta) de las varianzas.
3. Algunas distribuciones importantes

En este curso trabajaremos habitualmente con ciertas distribuciones conocidas como distribuciones mues-
trales, ya que caracterizan a estadı́sticos obtenidos a partir de muestras aleatorias (concepto que desarrolla-
remos en la siguiente sección). Por el momento, es conveniente conocer las propiedades elementales de estas
distribuciones.
3.1. Distribución normal

La distribución normal es claramente la más importante de todas y la más utilizada en estadı́stica. Una
de las razones (aunque ciertamente no la única) es el conocido Teorema Central del Lı́mite, que establece
que una suma de muchas variables aleatorias que provengan de la misma distribución tiene una distribución
aproximadamente normal. Recordemos las propiedades fundamentales de esta distribución. Formalmente,
sea X ∼ N (µ, σ 2 ), lo que se lee “X sigue distribución normal con esperanza µ y varianza σ 2 ”. En palabras,
estos son los dos parámetros que caracterizan la distribución. El recorrido de la distribución es R (es decir,
X puede adoptar cualquier valor real) y su función de densidad viene dada por:
1 1 (x−µ)
2
f (x) = √ · e− 2 · σ 2 (19)
2π · σ
VA GRÁFICO DE NORMAL
La normal es una distribución simétrica, lo cual implica que µ es también la mediana de la distribución y
que la probabilidad acumulada a la derecha de un valor positivo a es igual a la acumulada a la izquierda de
su opuesto −a. Como veremos a lo largo del curso, la simetrı́a es una propiedad bastante útil en el cálculo
de probabilidades en distribuciones muestrales. Por otro lado, es interesante notar que los dos parámetros
que caracterizan la distribución normal corresponden a los momentos habituales, algo que no siempre ocurre
en el estudio de distribuciones.
La ecuación (19) no puede ser utilizada de manera directa dado que no es posible integrarla de manera
tradicional. Para calcular probabilidades de una variable aleatoria normal, se debe proceder a estandarizarla,
6
es decir, convertirla en una normal con esperanza 0 y varianza 1. Ası́ se obtiene la distribución conocida
como normal estándar, cuyas probabilidades son calculadas con métodos numéricos y pueden ser consultadas
en tablas habituales. Formalmente, esto puede resumirse de la siguiente manera:
X −µ
X ∼ N (µ, σ 2 ) ⇒ Z = ∼ N (0, 1) ⇒ P (Z ≤ z) = Φ(z) (20)
σ
Donde la función Φ es la que habitualmente se encuentra en las conocidas “tablas de normal”.
3.2. Distribución χ2
La distribución χ2 se caracteriza por un solo parámetro llamado “grados de libertad”. Sea Z una variable
aleatoria que sigue distribución normal estándar, entonces decimos que Z 2 sigue distribución χ2 con un
grado de libertad. Análogamente, si Z1 , . . . , Zk es una sucesión de variables aleatorias todas las cuales siguen
distribución normal estándar, entonces X = Z12 + · · · + Zk2 sigue distribución χ2 con k grados de libertad,
denotado X ∼ χ2k .
VA GRÁFICO DE CHI
La distribución χ2 es asimétrica a derecha y tiene recorrido en R+ , es decir que solo puede adoptar
valores positivos y tiene mayor probabilidad de adoptar valores cercanos a cero que de adoptar valores
grandes. Además, se puede mostrar que E(X) = k y V (X) = 2k.
3.3. Distribución t de Student

La distribución t de Student también se caracteriza por un único parámetro llamado grados de libertad.
Sea Z una normal estándar y sea X una χ2 con k grados de libertad, entonces T = √ Z ∼ tk .
X/k
VA GRÁFICO DE T
La distribución t de Student es similar en forma a la normal, aunque es platicúrtica (informalmente, es
k
más “chata”). También es una distribución simétrica y se puede mostrar que E(T ) = 0 y V (T ) = k−2 .
3.4. Distribución F de Fisher

La distribución F de Fisher (también conocida como F de Snedecor) se caracteriza por dos parámetros
conocidos como “grados de libertad del numerador” y “grados de libertad del denominador”. Sea X1 ∼ χ2k1
X1 /k1
y X2 ∼ χ2k2 , entonces F = X2 /k2 ∼ Fk1 ,k2 . La forma exacta de esta distribución depende de los valores de
k1 y k2 , pero su recorrido siempre es R+ y en general es asimétrica a derecha.
VA GRÁFICO DE F
4. Inferencia estadı́stica
Todas las herramientas presentadas en la sección anterior sirven para caracterizar el comportamiento de
variables teóricas. En otras palabras, tenemos instrumentos para describir una distribución abstracta pero
no sabemos todavı́a cómo incorporar datos al problema. La inferencia estadı́stica se ocupa especı́ficamente
de esto último. La primera tarea consiste en definir formalmente a los datos.
7
Llamamos “muestra aleatoria” a una colección de variables aleatorias que son “iid”, es decir, indepen-
dientes e idénticamente distribuidas. En otras palabras, variables aleatorias que siguen la misma distribución
iid
teórica y no están relacionadas entre sı́. Tı́picamente esto se denota (X1 , . . . , Xn ) ∼ f (x, θ), donde n es la
cantidad de variables o, como lo llamaremos a partir de ahora, el tamaño muestral; f (x, θ) es la distribución
poblacional (también llamada “teórica”) y θ es un parámetro (o vector de parámetros) desconocido que ca-
racteriza a la distribución f . Entonces una muestra aleatoria es un conjunto de extracciones independientes
de esa población, cada una de las cuales es puramente aleatoria. Intuitivamente, puede ser útil imaginar un
bolillero del cual se extraen n bolillas. Si el bolillero es infinito, no hay que preocuparse por si las extraccio-
nes se realizan con o sin reposición. En cambio, si el bolillero no fuera infinito, las extracciones deberı́an ser
necesariamente con reposición ya que, de otro modo, estas no serı́an independientes entre sı́.
La idea de que la muestra es aleatoria suele generar confusiones de modo que un ejemplo sencillo podrı́a ser
útil para fijar algunas intuiciones clave. Supongamos la población más sencilla posible, aquella que proviene
de un experimento dicotómico, por ejemplo, tirar una moneda y registrar de qué lado cae. Llamemos a
los lados “C” y “X”, identificados con los valores 1 y 0 respectivamente. Podrı́amos imaginar que tenemos
entonces un bolillero con dos bolillas, una con el valor 1 y otra con el valor 0. El muestreo consistirá en realizar
tres extracciones con reposición (porque el bolillero de este ejemplo es finito). Esto puede dar lugar a ocho
muestras posibles, representadas en el siguiente cuadro, con sus respectivas probabilidades de ocurrencia.
Cuadro 1: Distribución muestral de tres lanzamientos de moneda

Muestra Probabilidad de ocurrencia
(0, 0, 0) 0,125
(1, 0, 0) 0,125
(0, 1, 0) 0,125
(0, 0, 1) 0,125
(1, 1, 0) 0,125
(1, 0, 1) 0,125
(0, 1, 1) 0,125
(1, 1, 1) 0,125
Todas las muestras tienen la misma probabilidad de ocurrencia, sin embargo, cada una es distinta. No
hay forma de saber ex ante qué muestra se obtendrá y dos muestreos realizados por individuos distintos
en general conducirán a resultados distintos (algo que el lector puede fácilmente comprobar probando el
experimento en cuestión). En este sentido decimos que la muestra es aleatoria.
A partir de ahora siempre asumiremos que la inferencia se realiza a partir de una muestra aleatoria.
Es importante resaltar una diferencia fundamental: (X1 , . . . , Xn ) es una muestra aleatoria, mientras que
(x1 , . . . , xn ) representa una realización (una extracción individual) de esa muestra. En otras palabras, Xi es
una variable aleatoria (con distribución f (x, θ)) mientras que xi es un valor puntual de esa distribución y,
por lo tanto, una constante (en sintonı́a con los criterios de notación explicados anteriormente).
El problema de la inferencia estadı́stica consiste en cómo utilizar la información contenida en la muestra
para asignar un valor a θ. Si conociéramos θ, conocerı́amos la forma exacta de la distribución poblacional
y por lo tanto podrı́amos calcular cualquier medida de interés, ya sean momentos o probabilidades. Dado
8
que esto no es posible, el objetivo será estimar θ de una forma “confiable”. A continuación desarrollamos
las herramientas necesarias para ello y presentamos dos ejemplos clásicos y de cabal importancia para este
curso.
4.1. Estimación puntual

El primer paso consiste en encontrar un estimador para θ. Un estimador (o estadı́stico) es alguna función
de la muestra, que podemos escribir del siguiente modo:
θ̂ = g(X1 , . . . , Xn ) (21)
Lo que la expresión (21) indica es que el estimador θ̂ debe poder calcularse solo a partir de la información
contenida en la muestra. Sabemos que la muestra es aleatoria, por lo tanto θ̂ es, por construcción, una
variable aleatoria. Indagar en su distribución será clave en lo que sigue.
La pregunta que debemos plantearnos es cómo se elige el estimador “indicado” para θ, dicho de otro
modo, cuál es la “mejor” función g posible. Y para poder responder esa pregunta, debemos primero definir
criterios que hacen bueno a un estimador. A continuación, enunciamos tres propiedades fundamentales de
los estimadores, cuyo cumplimiento define la optimalidad de un estimador particular.
1. Insesgadez: θ̂ es insesgado si se cumple que E(θ̂) = θ. Esta propiedad sencilla e intuitiva indica que la
esperanza del estimador debe ser el parámetro que se desee estimar. En otras palabras, el estimador
no debe sufrir “sesgos”, debe acertar el verdadero valor en promedio
2. Eficiencia: hay dos formas de formular esta propiedad, a saber:
Eficiencia relativa: dados dos estimadores θ̂1 y θ̂2 , decimos que θ̂1 es más eficiente que θ̂2 si se
cumple que V (θ̂1 ) ≤ V (θ̂2 ). En palabras, si un estimador tiene menor dispersión esto lo hace
preferible ya que el error esperado que se cometerá utilizándolo es menor
Eficiencia absoluta: θ̂ es absolutamente eficiente si se puede probar que V (θ̂) es la mı́nima varianza
para un estimador insesgado de θ. Probar esto puede ser factible dado que se puede probar que
existe una cota inferior a esa varianza (la llamada “cota de Cramer-Rao”), de modo que si se
puede mostrar que la varianza de un estimador iguala esa cota, es posible afirmar que ningún
otro estimador lo superará en eficiencia. Lamentablemente, no siempre es posible encontrar un
estimador cuya varianza alcance la cota. En cambio, sı́ es posible, en ciertos contextos, probar que
la varianza de un estimador es la mı́nima para cierto subconjunto relevante de estimadores
3. Consistencia: θ̂ es consistente si cumple la siguiente condición:

lim P |θ̂ − θ| > ε = 0 ∀ε > 0 (22)
n→∞
Intuitivamente, lo que esta condición quiere decir es que la distribución de θ̂ “colapsa” en θ a medida
que el tamaño muestral aumenta, de modo que la probabilidad de cometer errores (no importa qué tan
pequeños sean) tiende a cero a medida que n crece
9
GRÁFICO DE CONSISTENCIA
Probar que un estimador cumple las propiedades 1 y 2 suele ser sencillo recurriendo a las propiedades
vistas anteriormente (al menos mientras nos movamos en el terreno de los estimadores lineales). En cambio,
probar 3 es más complicado, por lo menos en el sentido de que requiere invocar algunos teoremas que
están fuera del alcance de este curso. Por ese motivo en este curso nos concentraremos en las primeras dos
propiedades y la tercera será enunciada en ocasiones pero no probada formalmente.
Por último, resta explicar de dónde vienen los estimadores, es decir, cómo se obtienen candidatos “intere-
santes” para la función g. Nuevamente se trata de un interrogante que excede los objetivos de este curso, pero
es conveniente establecer que existen, grosso modo, tres familias de métodos para encontrar estimadores:
1. Máxima verosimilitud: métodos que consisten en construir una función g que maximice la probabilidad
de obtener la muestra dada
2. Momentos: métodos que consisten en construir una función g tal que los momentos poblacionales se
igualen lo más posible con los muestrales
3. Métodos ad-hoc: métodos que fijan un criterio “arbitrario” para construir una función g
Los métodos de mı́nimos cuadrados, que describiremos profundamente en el curso, se ubican en la tercera
categorı́a.
4.2. Intervalos de confianza

Una estimación puntual otorga cierta información pero es limitada, en la medida en que no provee una
idea sobre cuál es el “margen de error” existente en ella. Para determinar esto último es que recurrimos a
los intervalos de confianza. Un intervalo de confianza es un intervalo [a, b] tal que se verifica:
P (a ≤ θ ≤ b) = 1 − α (23)
Donde α es lo que se conoce como “nivel de significancia”2 y 1 − α es lo que se conoce como “nivel de
confianza”. α es una elección arbitraria del investigador y corresponde a la probabilidad de que θ no esté
incluido en el intervalo construido; en otras palabras, α es una medida del error que se está dispuesto a
cometer en el procedimiento.
Note el lector que, dado que θ no es aleatorio, la única forma de que la ecuación (23) tenga sentido
es que a y b sean funciones de la muestra (ya que, caso contrario no habrı́a nada aleatorio dentro de la
probabilidad y en ese caso esta solo podrı́a ser igual a cero o a uno y nunca a otro valor). Efectivamente,
a y b son estadı́sticos y por eso es que podrı́amos escribirlos a(X1 , . . . , Xn ) y b(X1 , . . . , Xn ). El ejercicio
consiste entonces en utilizar la información disponible sobre la distribución muestral de θ̂ para construir
estos estadı́sticos.
4.3. Tests de hipótesis

Por último, suele ser de interés utilizar la información contenida en la muestra para someter a prueba
ciertas ideas previas que el investigador pueda tener respecto del valor de θ (principalmente ideas que
2 “Significancia” y “significación” son horribles traducciones del término inglés “signifcance” que deben ser evitadas tanto
como sea posible
10
provengan de la teorı́a económica o de estudios anteriores). Para eso se utiliza una última herramienta
conocida como tests de hipótesis.
Un test de hipótesis se basa en un enunciado sobre el valor de θ, que llamamos “hipótesis nula” (y
representamos como H0 ). Para los fines de este curso, solo consideraremos hipótesis nulas “simples”, del
tipo θ = θ0 donde θ0 es algún valor conocido (el análisis no cambia sustancialmente si el signo de igual es
reemplazado por uno de mayor o igual o menor o igual). El complemento de la hipótesis nula se conoce como
hipótesis alternativa. Formalmente, escribimos:
H0 : θ = θ0 , H1 : θ 6= θ0 (24)
Nuevamente se debe elegir un nivel de significancia, que seguiremos llamando α pero cuya interpretación
ahora será ligeramente distinta. El objetivo de este procedimiento es construir una regla de rechazo, es decir,
decidir una condición sobre el valor de θ̂ tal que, si esta se cumple, la hipótesis nula puede considerarse
pasible de ser descartada. En este contexto, α será la probabilidad de rechazar la hipótesis nula cuando esta
es cierta, también llamado el “tamaño del test”; rechazar una hipótesis nula verdadera es cometer lo que se
conoce como “error de tipo 1”. La metodologı́a tradicional para diseñar tests de hipótesis (conocida como
el “enfoque Neyman-Pearson”) consiste en elegir un valor fijo de α y luego construir el test de modo tal
que este minimice la probabilidad de cometer lo que se conoce como el “error de tipo 2”: no rechazar una
hipótesis que no es verdadera.
Entonces, utilizando la información disponible sobre la distribución muestral de θ̂, se construye lo que se
conoce como un “estadı́stico de prueba”, es decir, alguna función de θ̂ cuya distribución es conocida, y se
fija en dicha distribución una región de rechazo y una región de no rechazo. Finalmente, se constata en cuál
región se ubica la realización particular de θ̂ con que se cuenta y se concluye el rechazo o no rechazo de H0 .
Varios comentarios sobre lo anterior son pertinentes. En primer lugar, note el lector que en ningún
momento hemos hablado de “aceptar” una hipótesis, sino de rechazarla o no rechazarla. En efecto, el no
rechazo de la hipótesis nula no es equivalente a la afirmación de que esta es cierta. En primer lugar, porque
nunca es posible hacer afirmaciones categóricas sobre el valor de θ, intrı́nsecamente desconocido (aun con
una muestra arbitrariamente grande); en segundo lugar, porque θ = θ0 nunca es la única hipótesis para
la cual el resultado es no rechazo. De hecho, si modificáramos marginalmente el valor de θ0 , obtendrı́amos
el mismo resultado, y ciertamente no podrı́amos afirmar que θ es igual a θ0 y, simultáneamente, a otro
valor marginalmente distinto. En definitiva, el no rechazo debe ser interpretado con cautela y puede resultar
más intuitivo en ciertos contextos que en otros. Ası́ todo, es cierto que los economistas suelen hablar,
informalmente, de “aceptar una hipótesis” a partir de un test, expresión ciertamente incorrecta desde el
punto de vista formal3 .
En segundo lugar, la coincidencia en llamar α al error no es casual. De hecho, construir un intervalo de
confianza y testear una hipótesis son dos procedimientos equivalentes en el fondo: el intervalo de confianza
para θ̂ es exactamente la región de no rechazo en el test, lo que indica que se rechazan todos los valores de
θ0 que se encuentren por fuera del mismo. Sin embargo, a pesar de esta equivalencia matemática, se trata
3 Ser laxo con el lenguaje es un privilegio que se gana con la experiencia. Albert Einstein, un reconocido ateo, es famoso por
escribir la frase “Dios no juega a los dados con el universo”, como una forma de expresar sus dudas respecto de la viabilidad
de la mecánica cuántica en fı́sica. Ninguno de los interlocutores de Einstein lo interpretó como una proclama religiosa. Pero ası́
era Albert Einstein. Quienes no hemos accedido a los niveles de comprensión de gente como Einstein, no tenemos más remedio
que ser prolijos con los términos que utilizamos. Por ese motivo, no “acepten” ninguna hipótesis nula en el examen.
11
de herramientas que se acostumbra utilizar de manera separada.
Por último, el lector podrı́a preguntarse por qué utilizamos una metodologı́a que fija la probabilidad de
cometer error tipo 1 y minimiza la probabilidad de cometer error tipo 2. Por empezar, es preciso establecer
que no es posible minimizar ambas cosas al mismo tiempo. La analogı́a del control de calidad suele ayudar: un
control de calidad estricto cometerı́a muy poco error tipo 1 pero mucho error tipo 2 y lo contrario ocurrirı́a
con un control de calidad laxo. Pero el control de calidad no puede ser estricto y laxo al mismo tiempo.
Cuando se “controla” un error, eso automáticamente “descontrola” el otro. Por ese motivo, tı́picamente se
diseña la hipótesis nula de modo tal que el error tipo 1 sea el más “costoso” y por ende se lo controla fijando
el tamaño α, aceptando como posible consecuencia que esto dé lugar a un error de tipo 2 considerable (lo
que también se conoce como “baja potencia del test”).
4.4. Dos ejemplos importantes

Para concluir este repaso, desarrollamos dos problemas de inferencia clásicos. En el primero, realizaremos
un análisis exhaustivo, mientras que en el segundo nos limitaremos al problema de estimación. Ambos son
fundamentales para los fines de este curso.
4.4.1. Inferencia sobre la media de una normal con varianza desconocida

iid
Sea (X1 , . . . , Xn ) ∼ N (µ, σ 2 ). Vamos a realizar el proceso de inferencia sobre µ sin hacer ningún supuesto
sobre el valor de σ 2 (ya que el desarrollo cambia un poco si se hace un supuesto de ese tipo). Lo primero que
necesitamos es estimadores puntuales de estos parámetros. Afortunadamente, estos son conocidos:
n
1X
µ̂ =X̄ = Xi (25)
n i=1
n
2 21X 2
σ̂ =s = Xi − X̄ (26)
n i=1
(25) y (26) son dos estadı́sticos conocidos e intuitivos: la media muestral y la varianza muestral, respectiva-
mente. El lector quizás esté familiarizado con una versión ligeramente distinta de (26) donde el denominador
es n − 1 en lugar de n; esa diferencia es poco importante aquı́ por lo tanto en lo sucesivo utilizaremos esta
versión4 .
Comencemos por verificar las propiedades de X̄. En primer lugar, veamos que:
n
! n
! n
1X 1 X 1X 1
E(X̄) =E Xi = E Xi = E(Xi ) = nµ = µ (27)
n i=1 n i=1
n i=1 n
Donde lo único que hemos hecho es aplicar las propiedades de la esperanza y el hecho de que la muestra
es iid. Concluimos entonces que X̄ es insesgado. Ahora calculemos su varianza:
4 En realidad, la versión de s2 que divide por n − 1 es preferible porque es insesgada (y de hecho se la conoce, precisamente,
como varianza muestral insesgada), mientras que la que hemos presentado aquı́ no lo es. Sin embargo, en la práctica la dife-
rencia numérica entre ellas suele ser despreciable y en algunos desarrollos el uso de la versión insesgada introduce dificultades
innecesarias.
12
n
! n
! n
1X 1 X 1 X 1 2 σ2
V (X̄) =V Xi = 2V Xi = V (Xi ) = nσ = (28)
n i=1 n i=1
n2 i=1 n2 n
Nuevamente los pasos anteriores surgen de las propiedades previamente discutidas. El resultado es in-
tuitivo: la varianza de X̄ depende positivamente de σ 2 (la varianza de la población) y negativamente de
n, el tamaño muestral. De hecho, cuando n se vuelve arbitrariamente grande, esta varianza tiende a cero.
Es posible mostrar que esta es precisamente la cota inferior de la varianza de un estimador y también que
X̄ es consistente (esto último se puede pensar, intuitivamente, como una consecuencia de lo anterior: con
una muestra arbitrariamente grande, la varianza de X̄ serı́a cero lo que implicarı́a que se obtendrı́a µ con
probabilidad uno).
En definitiva, X̄ es un estimador insesgado, consistente y absolutamente eficiente, un resultado ideal,
lo que justifica su uso generalizado. De hecho, insesgadez y consistencia se mantienen aun si se elimina el
supuesto de normalidad (no necesariamente ası́ eficiencia). Ya contamos entonces con un estimador puntual
idóneo. El siguiente paso es caracterizar su distribución muestral.
X̄ es intrı́nsecamente una combinación lineal de variables aleatorias normales, lo cual implica que sigue
distribución normal. Como ya calculamos sus momentos, podemos afirmar que:
σ2

X̄ − µ
X̄ ∼ N µ, ⇒Z= σ ∼ N (0, 1) (29)
n √
n
El problema con esta expresión es que no sirve de mucho ya que σ es un valor poblacional desconocido.
No queda más remedio que reemplazar σ por su estimador s, pero al hacer eso, la distribución muestral
cambia5 :
X̄ − µ
T = s ∼ tn−1 (30)
√
n
Conociendo la distribución del estadı́stico T , se puede proceder a construir el intervalo de confianza para
µ. El intervalo debe ser simétrico, es decir, estar centrado en la esperanza de T (que es claramente cero), de
modo tal que empezamos por escribir:

P tn−1,α/2 ≤ T ≤ tn−1,1−α/2 = 1 − α (31)
Donde tk,p corresponde al valor de la distribución t de Student con k grados de libertad que acumula
probabilidad p a izquierda (y una notación análoga se empleará para otras distribuciones muestrales de aquı́
en más). Reemplazando T por su definición y realizando algunos pasos algebraicos, se llega al siguiente
resultado:
s s
P X̄ − tn−1,1−α/2 √ ≤ µ ≤ X̄ − tn−1,α/2 √ =1−α (32)
n n
Finalmente la simetrı́a de la distribución t establece que tn−1,1−α/2 = −tn−1,α/2 , de modo que el intervalo
5 Esto es consecuencia de dos resultados previos. En primer lugar, del lema de Fisher, que asegura que s2 · n sigue distribución
χ2n−1 . En segundo lugar, de la definición de la distribución t de Student.
13
de confianza para µ con nivel de confianza 1 − α responde a la expresión:

s s
X̄ − tn−1,1−α/2 √ ; X̄ + tn−1,1−α/2 √ (33)
n n
Si α = 0,05 (que es el nivel de significancia más utilizado en economı́a) y n es grande (digamos, mayor
a 50), entonces tn−1,1−α/2 ≈ 2 y por eso la regla anterior a veces es coloquialmente resumida como “media
más/menos 2 errores estándar”.
Por último, supongamos que se desea testear una hipótesis genérica sobre el valor de µ:
H0 : µ = µ0 , H1 : µ 6= µ0 (34)
Nuevamente partimos de la ecuación (30), pero ahora asumimos la hipótesis nula como cierta, es decir,
asumimos que µ = µ0 . Bajo ese supuesto, la distribución de X̄ para a ser completamente conocida y por
ende podemos recurrir al siguiente estadı́stico de prueba:
X̄ − µ0
Te = s ∼ tn−1 (35)
√
n
Entonces, fijamos la región de rechazo en los extremos de la distribución de T e , asegurando que su tamaño
total sea α. La regla de rechazo entonces establece que se rechaza H0 si |T e | ≥ tn−1,1−α/2 .
VA GRAFICO DE TEST
4.4.2. Modelo de regresión lineal univariado
Esta aplicación, presentada habitualmente al final de los cursos introductorios de estadı́stica, constituye
una introducción a la econometrı́a. Por el momento no discutiremos las implicancias conceptuales del ejercicio
(que serán exhaustivamente abordadas en el curso) y nos limitaremos a desarrollar el problema de estimación
puntual que este implica.
Supongamos que contamos con una muestra de dos variables aleatorias X e Y , ((X1 , Y1 ), . . . , (Xn , Yn ))
y el interés está puesto en modelizar la relación existente entre las dos. Para eso elegimos la especificación
lineal:
Yi = β0 + β1 Xi + ui i = 1, . . . , n (36)
Donde u es una variable aleatoria cuya función es dar cuenta del hecho de que Y en general no será
una función lineal exacta de X y en ese sentido corresponde a lo que llamamos un “término de error”. El
problema de estimación consiste entonces en encontrar valores para β0 y β1 . Si bien este problema puede ser
abordado por cualquiera de los métodos discutidos en la sección 4.1, resulta de interés desarrollar el método
que usaremos en este curso: el de Mı́nimos Cuadrados Ordinarios (MCO).
Supongamos que contamos con estimadores β̂0 y β̂1 . Con eso podemos calcular valores estimados para
ui , que llamaremos “residuos” del modelo. Dado que estos residuos son una medida del error cometido por el
modelo, es deseable que sean tan pequeños como sea posible. Por lo tanto, una buena elección de estimadores
serı́a aquella que minimice los valores de los residuos. Lamentablemente, no es posible minimizar todos los
valores de ûi al mismo tiempo, por ende debemos minimizar alguna función de ellos. La suma no funcionarı́a
14
por el problema de compensación de signos (ya que invariablemente algunos residuos serán positivos mientras
que otros serán negativos), por ende debemos aplicar una transformación que elimine signos y, como hemos
hecho antes, elegiremos la función cuadrática. En conclusión, el problema de MCO consiste en encontrar
estimadores de los parámetros que minimizan lo que llamaremos la Suma de Cuadrados Residual (SCR):
n
X n
X 2
SCR = û2i = Yi − β̂0 − β̂1 Xi (37)
i=1 i=1
Se trata de un problema de optimización libre, que se resuelve de la forma habitual, tomando derivadas
parciales e igualándolas a cero y resolviendo el sistema de ecuaciones lineales que esto genera:
n
∂SCR X
= Yi − β̂0 − β̂1 Xi (−1) = 0 (38)
∂ β̂0 i=1
n
∂SCR X
= Yi − β̂0 − β̂1 Xi (−Xi ) = 0 (39)
∂ β̂1 i=1
Trabajando algebraicamente estas condiciones de primer orden y expresando el sistema de ecuaciones en

forma matricial se llega a: " #" # " P #
Pn n
n i=1 Xi β̂0 i=1 Yi
Pn Pn = Pn (40)
i=1 Xi i=1 Xi2 β̂1 i=1 Xi Yi
Este sistema puede ser resuelto por cualquiera de las vı́as tradicionales. Por ejemplo, se puede aplicar la
regla de Cramer, que conduce a los siguientes resultados:
Pn Pn Pn Pn
Yi i=1 Xi2 − i=1 Xi i=1 Xi Yi
i=1
β̂0 = Pn Pn Pn (41)
n i=1 Xi2 − i=1 Xi i=1 Xi
Pn Pn Pn
n Xi Yi − i=1 Xi i=1 Yi
β̂1 = Pi=1
n n n (42)
n i=1 Xi2 − i=1 Xi i=1 Xi
P P
Es difı́cil proveer una interpretación de la ecuación (41), pero no ası́ la (42), que de hecho puede ser
llevada a una forma muy simple aplicando algo de álgebra:
sXY
β̂1 = (43)
s2X
Donde sXY es la covarianza muestral entre X e Y y s2X es la varianza muestral de X. Esta fórmula (que
será de gran utilidad en el curso) es poderosamente intuitiva: el estimador de MCO de la pendiente en un
modelo lineal univariado es igual a la covarianza (porque esta mide la asociación lineal entre las variables)
escalada por la varianza de la variable independiente (para resolver el problema de la unidad de medida de
la covarianza).
15

Repaso Estadistica

Cargado por

Copyright:

Formatos disponibles

Repaso Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Repaso Estadistica

Cargado por

Copyright:

Formatos disponibles

Repaso estadı́stico

2.2. Momentos de una variable aleatoria

2.2.1. Esperanza de una variable aleatoria

3. E(X ± Y ) = E(X) ± E(Y )

2.2.2. Varianza de una variable aleatoria

La varianza de una variable aleatoria es su momento centrado de orden 2 y responde a la siguiente

2.3. Distribuciones conjuntas

pXY (x, y) = P (X = x, Y = y) (10)

2.3.1. Covarianza de dos variables aleatorias

5. Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

V (X ± Y ) = V (X) + V (Y ) ± 2Cov(X, Y ) (18)

3. Algunas distribuciones importantes

3.1. Distribución normal

Donde la función Φ es la que habitualmente se encuentra en las conocidas “tablas de normal”.

3.3. Distribución t de Student

3.4. Distribución F de Fisher

Cuadro 1: Distribución muestral de tres lanzamientos de moneda

4.1. Estimación puntual

2. Eficiencia: hay dos formas de formular esta propiedad, a saber:

3. Consistencia: θ̂ es consistente si cumple la siguiente condición:

4.2. Intervalos de confianza

4.3. Tests de hipótesis

como sea posible

4.4. Dos ejemplos importantes

4.4.1. Inferencia sobre la media de una normal con varianza desconocida

χ2n−1 . En segundo lugar, de la definición de la distribución t de Student.

4.4.2. Modelo de regresión lineal univariado

Trabajando algebraicamente estas condiciones de primer orden y expresando el sistema de ecuaciones en

También podría gustarte