Manual STATA 11 PDF
Manual STATA 11 PDF
Manual STATA 11 PDF
MANUAL DE STATA
Curso: Econometra I
1
Cap. 1 Introduccin
2
1.2 La Barra de Herramientas
La barra de herramientas nos permite realizar operaciones rutinarias como abrir,
guardar, imprimir algn archivo, adems de otras particularidades.
Icono Signicado
Nos permite guardar una base de datos que est siendo utilizada.
Nos permite abrir la ventana del Stata Editor que esta oculta.
3
Nos permite abrir la ventana del Stata Browser que esta oculta.
[pre x :] command [varlist] [if expr ] [in] [weight] [using lename] [; options]
Donde:
pref ix : Permite repetir las ejecuciones de un determinado comando
o modicar el input y/o output de la base de datos.
command : Indica el comando del STATA.
varlist : Indica la lista de nombres de variables.
weight : Indica la variable de ponderacin.
if : Indica una expresin lgica condicional .
exp : Indica la expresin matemtica utilizada para la condicional.
in : Seala el rango de observaciones que queremos analizar.
f ilename : Seala el nombre del archivo.
options : Seala una o ms opciones que aplica el comando.
4
1.5 Expresiones Lgicas del STATA
Las siguientes expresiones nos servirn para la programacin en STATA.
5
1.7 Recursos del STATA
STATA cuenta con una documentacin extensa la cual puede encontrarse en el
mismo software as como tambin en la web.
http://www.stata.com/support/
http://www.ats.ucla.edu/STAT/stata
a). help : Es muy til si se conoce el nombre comando para la cual se necesita
ayuda.
b). search : Busca una palabra clave "keyword" en los archivos ociales de
ayuda, FAQs, examples, the SJ y el STB, pero no del internet.
6
Example 4 ndit weak inst
e). hsearch : Busca el keyword en todos los archivos de ayuda (con extensin
.sthlp o .hlp). El inconveniente es que se necesita el keyword completo.
7
Cap.2 Gestin de Base de
Datos
Aprenderemos en qu consiste una sesin de trabajo en STATA y exploraremos
algunos comandos que nos permitan realizar un anlisis de base de datos ha-
ciendo uso del Do-le. Para dicho n, explicaremos el funcionamiento de esta
herramienta del STATA.
2.1 El Do-File
STATA cuenta con una ventana que nos permite trabajar con una serie de
comandos y almacenarlas. Estos archivos son muy importantes por los siguientes
motivos:
Con respecto a las formas de poder ejecutar los comandos, se puede hacer
8
2.1.1 Realizando Comentarios en el Do-File
El Do-le puede incluir comentarios incrementando el entendimiento de un pro-
grama o archivo de trabajo. Existen diferentes formas de incluir un comentario:
Example :
*********************************************
**USANDO COMENTARIOS EN EL DO-FILE**
*********************************************
/*
este es
un comentario
con lneas mltiples
*/
sysuse ///
auto.dta
9
2.1.2 Iniciando la Estrucutra de un Do-le
Como se explic en el esquema usual de un do-le, esta empieza con el comando
clear. Este comando nos permite limpiar por inercia una base de datos y
etiquetas existentes en la memoria del STATA. Es importante saber que este
comando presenta algunas opciones que se mostrarn a continuacin:
Example :
clear
clear all
1 MATA es un lenguaje de programacin matricial que puede ser usado por quienes desean
10
Generalmente se suele trabajar con una capacidad de memoria de 20m
(megabyte), para realizar esta operacin escribimos lo siguiente2 :
Example :
pwd
C:nArchivos de programanStata11
2 Para saber cules son las diversas opciones que presenta el STATA para trabajar con
diferentes tamaos de base de datos recurra al comando help set eligiendo la opcin memory
o simplemente escriba help memory.
11
Supongamos que en el disco "D:n" se crea una carpeta con el nombre "Econometra
I" la cual nos va a servir para guardar nuestros trabajos, entonces, el nuevo di-
rectorio se encontrara en la ruta : "D:nEconometria I ". Ahora utilizamos el
comando cd para cambiarnos al nuevo directorio indicando la nueva ruta entre
comillas de la siguiente manera:
Example :
cd "D:nEconometria I "
D:nEconometria I
STATA tambin cuenta con otros comandos para el manejo con directorios,
como son:
mkdir sesion_1
El comando dir nos permite observar el listado de todos los archivos que
se encuentran en nuestra carpeta de trabajo.
dir
El STATA por defecto crear una bitcora con formato *.scml y se visu-
alizar en el directorio que estamos trabajando.
Example :
log o
3 Recurra al comando help log para ver todas las opciones que presenta.
12
Para volver a registrar los resultados usamos:
log on
Para cerrar la bitcora usamos:
log close
Para volver a reanudar la bitcora:
log using primera_bitacora,append
Para sobreescribir en la bitcora:
log using primera_bitacora,replace
Para observar una bitcora ya elaborada en el Result View usamos:
type primera_bitacora.scml
13
Si deseamos llamar una base de datos a travs del Do-le, basta con guardar
dicha base en el directorio actual que se est trabajando y llamarlo usando el
comando use.
use enaho01-2009-100.dta
En la parte inferior izquierda del entorno del STATA se apreciar las vari-
ables que contiene la base de datos enaho01-2009-100.dta.
Adems, STATA cuenta con base de datos dentro de sus sistema como ejem-
plos aplicativos, para invocarlos se utiliza el comando sysuse.
sysuse auto.dta
14
Debemos armar la base de datos de la siguiente forma:
15
Finalmente utilizamos el comando insheet para importar la base de datos
como se indica a continuacin:
16
Para acceder a este software basta con hacerle clic y posteriormente nos
saldr una ventana de dialogo solicitndonos la siguiente informacin:
Example :
17
inferir izquierda) por default se muestra SPSS Data File (*.SAV). En
el cuadro "Carpetas" hacemos clic en las carpetas segn como se seala
la ruta del archivo de origen d:n > david > database. Finalmente
hacemos clic en el archivo original llamado Enaho01A-2009-400.sav.
18
este caso Enaho01A-2009-400.dta.
19
2.4 Guardar una Base de Datos
Una vez trabajado y modicado la base de datos es posible guardarlo con el
comando save.
Example :
save archivo1_modicado.dta
Example :
20
sysuse auto.dta,clear
list make price mpg // listado de los valores de make price mpg weight
l make price mpg in 25/60 // listado de valores entre la observacin 25 y 60
21
El comando generate nos permite generar variables haciendo uso de ex-
presiones matemticas, lgicas, numricas. Si bien es cierto que STATA
solamente reconoce los comandos con letras minsculas, tambin es im-
portante decir que tambin hace una diferenciacin de los nombres de las
variables entre si son minsculas o maysculas. Por ejemplo, generar una
variable llamada EsTaDo es diferente a que si lo denominamos estado o
ESTADO.
El comando egen es una extensin del anterior, que permite utilizar expre-
siones que incluyan funciones ms complejas del STATA como es el caso
de medias, mximos, mnimos, desviacin estndar, promedios mviles,
variables estandarizadas, etc.
Example :
22
// skew_price igual al valor de la simetra del precio
egen kurt_price=kurt(price) //generamos una variable llamada
// kurt_price igual al valor de la curtosis del precio
En caso que se quiera cambiar los valores de una variable una vez creadas o
de las ya existentes, podemos hacer uso de los comandos replace y recode.
Example :
summ mpg,detail
23
// 41 hasta el 100% de los datos.
gen cat2_mpg=0
recode cat2_mpg (min/18=1) (18/20=2) (20/25=3) (25/max=4)
Example :
rename id ident_obs
ren T ident_total
Example :
24
//De las ltimas variables creadas etiquetamos a las siguientes:
Example :
formato oat.
25
Tipo Byte Descripcin
str1 1 Hasta 1 carcter
str2 2 Hasta 2 caracteres
.. .. ..
. . .
str20 20 Hasta 20 caracteres
Formato Numrico:
Formato String:
26
Esquema Smbolo Descripcin
Primero % indica el comienzo del formato
luego (opcional) - si se quiere alinear el resultado a la izquierda
si se quiere alinear el resultado al centro
luego # una cifra para el nmero de caracteres
luego s se coloca s para indicar formato string
Example :
*Formatos Numricos
describe price
list price
describe price
list price
save auto_modicada.dta,replace
Example :
27
*Para este ejemplo generamos una variable string numrica
*llamada "origen" en base a la variable "foreign", la cual le
*asignamos el cdigo 0 si es Domestic y 1 si es Foreign.
gen origen2=real(origen)
//Como vemos la variable "origen2" tiene formato numrico
//oat
Example :
28
label list make_la
Example :
29
Example :
save auto_modicada.dta
keep in 1/50
br // observar la nueva base
use auto_modicada.dta,clear
30
//Imaginemos que eliminemos una parte de la muestra
//la cual cumple con la condicin de que el peso sea
// menor de 4000 libras.
drop in 1/15
br // observar la nueva base
Example :
*Ordenar observaciones
use auto_modicada.dta,clear
sort weight
br weight
gsort -weight
br weight
31
sort foreign price
br foreign price
Example :
*Ordenar variables
Estos comandos son importantes al usar el prejo by(), que nos permite
realizar algunas operaciones por grupo de observaciones.
Example :
sort foreign
by foreign : sum price mpg weight
32
2.11.2 Preservar y Restaurar Base de Datos
En algunos casos, es necesario realizar cambios a una base de datos, desarrollar
algunos clculos y entonces retornar a la base original. El comando preserve
nos permite retener la base de datos y el comando restore nos permite regresar
a la base de datos original. El comando restore se usa inmediatamente despus
del comando preserve.
Example :
33
Forma Long Forma Wide
Example :
use long_wide.dta,clear
//en este base nuestro identicador de inidividuos (i) es la
//variable "id" y el de momentos (j) es "year", adems,
//vamos a transformar la data en base a la variable
//"salary" (x)
34
Example :
*Forma Colapsada
El comando merge se utiliza para aadir variables, es decir, une dos bases
de manera horizontal. Los cheros de datos deben de tener una variable
de identicacin y adems deben de estar ordenados por dicha variable.
Este comando requiere de dos bases de datos, uno se va a denominar base
master al cual se le van aadir las variables y una base using la cual
contiene las variable que se van a aadir a la base master. Al realizar
el merge crea una variable "_merge" de manera automtica que toma
valores dependiendo si el registro de los datos est presente en una de las
bases o en ambos. Cuando el valor de la variable "_merge" es 1 quiere
decir que el dato solo aparece en la base master, 2 cuando aparece en la
base using y 3 cuando aparece en ambos.
El comando append se utiliza para aadir observaciones, es decir, une a
dos bases de manera vertical. Aqu tambin ser necesario una base master
y una base using, adems la base originada tendr una forma long.
El comando joinby forma todo los pares de combinaciones dentro de cada
grupo a partir de dos bases de datos, una master y otra using. La base
master contiene variables para cada individuo clasicado por grupos y
la base using contiene variables a nivel de grupos, entonces, el comando
joinby colocar los valores de las variables segn al grupo que pertenece
cada individuo.
35
Example :
use database1.dta,clear
br
append using database2.dta
br
save database12.dta,replace
use database3.dta,clear
br
append using database4.dta
br
save database34.dta,replace
use database3.dta,clear
br
rename Sexo sexo
br
save database03.dta,replace
use database03.dta,clear
br
append using database4.dta
br
save database034.dta,replace
36
// que creamos anteriormente "database12.dta" y
// "database034.dta". Para realizar esto, debemos
//ordenar la variable (o variables) en comn en
//ambas bases. En este caso, las variables en comn
//son la variable hogar y el nombre.
use database12.dta,clear
br
sort hogar nombre
br
save database12m.dta,replace
use database034.dta,clear
br
sort hogar nombre
br
save database034m.dta,replace
use database12m.dta,clear
merge hogar nombre using database034m.dta
br
save databasemerge.dta,replace
use databasemerge.dta,clear
br
sort hogar
br
save databasemergeb.dta,replace
use database5.dta,clear
br
sort hogar
br
save database5b.dta,replace
37
use databasemergeb.dta.dta,clear
joinby hogar using database5b.dta
br
save databasejoinby.dta,replace
2.14.1 Tabulate
El comando tabulate muestra una tabla la cual seala una lista de los distintos
valores que tiene una variable con su frecuencia absoluta, porcentual y acumu-
lada. Es recomendable usar este comando para aquellas variables con pocos
valores diversos. Tambin es til para crear variables dummy con ayuda del
comando generate y adems tabular por tipo de individuo con el prejo by. El
comando tabulate puede mostrarnos tablas tanto de un solo sentido como de
doble sentido
2.14.2 Table
El comando table nos permite crear tablas de doble y triple sentido, mostrando
las frecuencias absolutas o porcentuales visto de forma horizontal o vertical.
2.14.3 Tabstat
El comando tabstat provee un resumen estadsticos que permite ms exibili-
dad que el summarize.
Example :
*Tabulaciones y Tablas
use auto_modicada.dta,clear
*Comando tabulate
38
tabulate foreign if price<14000
*Comando table
*Comando tabstat
39
Cap.3 Grcos en STATA
histogram : Histogramas
3.2.1 Histograma
La funcin de densidad de una variable puede ser estimada usando un his-
tograma a travs del comando histogram. Para ilustrar la funcin de este
comando, utilizaremos la base states.dta, la cual contiene informacin sobre los
ambientes seleccionados y la educacin para 50 estados de USA ms el distrito
de Columbia (datos que provienen de League of Conservation Voters 1991, 1993;
World Resources Institute 1993).
40
Example :
*Histograma
use states.dta,clear
describe
Figura 3.1
20
15
Frequency
10
5
0
10 15 20 25 30
% over 25 w/bachelor's degree +
Figura 3.1
La gura 3.2 contiene una versin con mayores mejoras (basado en algunos
experimentos para encontrar los valores correctos):
41
Example :
Figura 3.2
12
10 8
Frequency
6 4
2
0
12 14 16 18 20 22 24 26 28 30 32 34
% over 25 w/bachelor's degree +
Figura 3.2
La gura 3.2 nos ayuda a describir la distribucin con mayor detalle. Por
ejemplo, podemos ver que en 13 estados los porcentajes de colegas con grado
superior se encuentran entre los valores de 16 y 18.
42
norm : Sobrepone una curva normal sobre el histograma, basado
sobre la media muestral y desviacin estndar.
kdensity : Sobrepone un estimador de densidad de kernel sobre el
histograma6 .
p
El nmero de intervalos por default es min( N ; 10 ln N= ln 10). Con los
histogramas tambin podemos especicar nuestro propios ttulos en el eje de las
abscisas con xtitle() y en el eje de la ordenada con ytitle().
Example :
13
Figura 3.3
12
10
9
8
Frequency
6
6
4 4 4
4
3
2
1
0
12 14 16 18 20 22 24 26 28 30 32 34
% over 25 w/bachelor's degree +
Figura 3.3
43
Example :
10 20 30 40
Percent
0
10 15 20 25 30 10 15 20 25 30
% over 25 w/bachelor's degree +
Graphs by Geographical region
Figura 3.4
La siguiente gura 3.5 contiene un grco similar con las 4 regiones, pero
esta vez incluye un quinto elemento que seala la distribucin para todas las
regiones combinadas.
Example :
10 15 20 25 30
10 15 20 25 30 10 15 20 25 30
% over 25 w/bachelor's degree +
Graphs by Geographical region
Figura 3.5
44
3.2.2 Graph Twoway
3.2.2.1 Scatterplot
Los diagramas de dispersin de puntos (scatterplot) se accede a travs del co-
mando graph twoway scatter, cuya sintaxis general es:
Example :
Figura 3.6
45
msymbol() Abreviacin Descripcin
circle O circulo slido
diamond D diamante slido
triangle T triangulo slido
square S cuadrado slido
plus + signo "+"
x X letra "x"
smcircle o pequeo crculo slido
smdiamond d pequeo diamante slido
smsquare s pequeo cuadrado slido
smtriangle t pequeo diamante slido
smplus smplus pequeo signo "+"
smx x pequea pequeo
circle_hollow Oh circulo con vacio
diamond Dh diamante con vacio
triangle_hollow Th triangulo con vacio
square_hollow Sh cuadrado con vacio
smcircle_hollow oh pequeo crculo con vacio
smdiamond_hollow dh pequeo diamante con vacio
smsquare_hollow sh pequeo cuadrado con vacio
smtriangle_hollow th pequeo diamante con vacio
point p punto pequeo
none i invisible
La opcin mcolor() controla los colores de los marcadores7 . Por ejemplo po-
dramos producir un scatterplot con grandes cuadrados morados: graph twoway
scatter waste metro, msymbol(S) mcolor(purple)
Una uso interesante de este tipo de grco es hacer que el tamao de los
simbolos sean proporcionales a una tercera variable. De este modo, los ploteos
se diferenciarn visualmente por medio de un ponderador "weight". Si modi-
camos el scatterplot entre la variable waste y metro, haciendo que el tamao de
los smbolos se pondere por la densidad poblacional de cada estado (pop), obten-
dremos la gura 3.7. Para esto usaremos el ponderador de frecuencia fweight[
] y la opcin de crculos vacios, msymbol(Oh)8 .
Example :
46
1.50
Per capita solid waste, tons
1.000.50
Figura 3.7
El ejemplo de la gura 3.8 incluye una regresin lineal simple derivado del co-
mando twoway lt que ha sido aadido al graco 3.6 especicando el siguiente
smbolo ( jj ) .
Example :
Figura 3.8
47
Los marcadores de un scatterplot pueden identicarse con etiquetas. Por
ejemplo, podemos desear observar los nombres de los estados en la gura 3.6,
dado que son 50 nombres de estados, puede causar mucha confusin y desor-
den, as que nos concentraremos en una regin tal como West que parece ms
prometedor. A travs del uso de una condicional if se produce los siguientes
resultados en la gura 3.9.
Example :
California
1.40
1.20
Oregon Hawaii
Washington
1.00
New Mexico
Alaska
Idaho
0.80
Nevada
Arizona
Montana
Colorado
Wyoming Utah
0.60
Figura 3.9
La gura 3.10 muestra un scatterplot entre waste y metro para cada regin
de manera separada. La relacin entre estas dos variables aparecen pendientes
notables en la regin South y Midwest. La opcin xlabel() e ylabel() en este
ejemplo da las etiquetas para los ejes x e y de tres dgitos como mximo sin
decimales, hacindo fcil de leer para pequeos sub-ploteos.
Example :
48
West N. East
California
2 Hawaii
Oregon
New York
Rhode Island
Massachusetts
Washington
1
Per capita solid waste, tons
South Midwest
2
Illinois
Michigan
South Carolina
Delaware
Alabama South Dakota
TennesseeTexas Maryland Indiana
Minnesota
1
West Virginia
KentuckyOklahoma Kansas
North Carolina
Arkansas Louisiana Iowa
Nebraska
Georgia Wisconsin
North Dakota
Mississippi
1
20 40 60 80 100 20 40 60 80 100
Metropolitan area population, %
Graphs by Geographical region
Figura 3.10
Example :
*Multiples Scatterplots
49
Per
capita
miles
driven/year
100.0
Metropolitan
50.0 area
population,
%
0.0
50000
40000 Median
household
30000 income
20000
1.50
Per
capita
1.00 solid
waste,
tons
0.50
6000 8000 10000 120000.0 50.0 100.0
20000 30000 40000 50000
Figura 3.11
Example :
*Line Plot
50
800
600
400
200
0
Figura 3.12
En la gura 3.12, STATA automticamente elige una lnea slida azul para la
primera variable, code, y una lnea slida roja para la segunda variable, canada.
Adems de una legenda en la parte inferior que muestra el signicado de las
variables. Podemos mejorar este grco a travs de un arreglo en la legenda y
suprimiendo el ttulo redundante en el eje x, como se ilustra en la gura 3.13.
Example :
twoway line cod canada year, legend(label(1 "Todas las Naciones") ///
label (2 "Canada") position(2) ring(0) rows(2)) xtitle("")
800
Figura 3.13
51
Se tiene sub-opciones para la opcin legend() la cual se colocan dentro de
los parntesis y se sealan como sigue:
label (1 "Todas las Naciones") La etiqueta para la primera variable del eje y
label (2 "Canada") La etiqueta para la segunda variable del eje y
position(2) Establecer la legenda a las 2 de la hora del
reloj (superior derecha)
ring(0) Establecer la legenda entre los espacio del ploteo
rows(2) Dice que la legenda tenga dos las
La gura 3.12 y 3.13 conecta de una manera simple cada punto de la data
con un segmento de recta. Otras estilos de conexiones son posibles, usando
la opcin connect(). Por ejemplo, connect(stairstep) o equivalentemente
connect(J) generara puntos para ser conectados en forma de escalera. La
gura 3.14 ilustra el ploteo en forma de escalera para la variable TAC (pesca
total disponible establecido por el gobierno).
Example :
Figura 3.14
9 Puede acceder a la ayuda del STATA a travs de help legend_option para ver una lista
de sub-opciones disponibles.
52
Otras formas de conexin se muestran en la siguiente lista. Por defecto, el
segmento de lnea recta corresponde a connect(direct) o connect(l)10 .
La gura 3.15 repite este ploteo escalonado de TAC, pero con algunas modi-
caciones de las etiquetas de los ejes y ttulos. La opcin xtitle("") no presenta
ningn ttulo en el eje x. Aadimos marcadores en un intervalo de cada dos
aos en el eje x, etiquetamos el rango de valores en el eje y con intervalos de
100 unidades, adems incluimos lneas verticales de fondo en intervalos de 100
unidades.
Example :
800
700
600
Miles de Toneladas
500
400
300
200
100
0
1960 1970 1980 1990 2000
Figura 3.15
53
clpattern() Descripcin
solid lnea slida
dash guiones
dot puntos
dot_dash puntos y guiones
shortdash_dot guiones pequeos con puntos
longdash guiones grandes
longdash_dot guiones grandes con puntos
blank linea invisible
formula por ejemplo: clpattern(-.); clpattern(-..)
Para la siguiente gura 3.16 usamos tres variables discutidos en esta seccin
para crear una grca singular que muestre la tragedia del Northern Cod. Note
que las opciones connect(), clpattern() y legend() son utilizados en este ejemplo.
Example :
600
Miles de Toneladas
500
400
300
200
100
0
1960 1970 1980 1990 2000
Figura 3.16
54
connected crea ploteo una conexin de puntos en la cual los datos son marcados
por smbolos del scatterplot. Las opciones de los smbolos de marcadores son
los mismos para scatterplot y ploteo con lneas. La gura 3.17 nos muestra un
ejemplo de un ploteo de lneas conectadas a travs del tiempo de la variable de
la biomasa de bacalao (bio) de la data cod.dta.
Example :
Figura 3.17
La base de datos solamente contiene valores desde 1978 hasta 1997, generando
muchos espacios vacios en la gura 3.17. La condicional if nos permite restringir
el rango de los aos. La gura 3.18 realiza esta operacin, adems de acomodar
la imagen mostrando un control de los marcadores de smbolos, patrn de lneas,
ejes y legenda. Vemos que las biomasas comienzan su gran cada a nes de los
1980, aos anteriores las crisis eran reconocidos.
Example :
graph twoway connected bio cod year if year >1977 & year<1999, ///
msymbol(T oh) clpattern(dash solid) xlabel(1978(2)1996) ///
xtick(1979(2)1997) ytitle("Miles de Tonelada") xtitle("") ///
55
ylabel(0(500)2500, angle(horizontal)) ///
legend(label(1 "Biomasas Estimadas") label(2 "Total de Desembarco") ///
position(2) rows(2) ring(0))
Biomasas Estimadas
2500
Total de Desembarco
2000
Miles de Tonelada
1500
1000
500
0
1978 1980 1982 1984 1986 1988 1990 1992 1994 1996
Figura 3.18
Example :
help twoway.
56
800
600
400
200
0
Figura 3.19
El color de las reas pueden ser controlados por la opcin bcolor12 . Por
ejemplo, el gris oscuro (gs0) es actualmente el color negro. Por ejemplo, la
escala en grises se encuentra entre el valor 0 y 16.El color gris ms ligero (gs16)
es blanco. En la gura 3.20 muestra un ligero gris para este grco.
Example :
Figura 3.20
1 2 Tipear help colorstyle para ver la lista de colores.
57
Inusualmente las condiciones de frio en el ocano y atmsfera causan un rol
secundario en el desastre de la pesca en Newfoundland. Por ejemplo, la especie
de pescado clave en los vecinos de Gulf of St. Lawrence declinaron durante este
periodo la data gulf.dta describe el desarrollo y las desembarcaciones de bacalao
en Newfoundland, donde la mxima cobertura del hielo abarca los 173,017 km2
durante estos aos.
La gura 3.21 usa esta media (173 mil) como la base de un ploteo de lneas
punteadas (spike), en la cual sobresalen lneas hacia arriba y hacia abajo a partir
de esta media referencial. La opcin yline(173) traza una lnea horizontal en
173.
Example :
use gulf.dta,clear
sum maxarea
graph twoway spike maxarea winter if winter>1963, ///
base(173) yline(173) ylabel(40(20)220, angle(horizontal)) ///
xlabel(1965(5)2000)
220
200
Maximum ice area, 1000 km^2
180
160
140
120
100
80
60
40
1965 1970 1975 1980 1985 1990 1995 2000
Winter
Figura 3.21
58
lowess. La opcin de ancho de banda, bwidth(.4), especica una curva basada
en el suavizamiento de los datos que son derivamos de la regresin ponderador
entre una banda que cubre el 40% de la muestra. El ancho de la banda pequeo
se tal como bwidth(.2) , o 20% de la data, debera darnos un mayor ajuste.
Una curva suavizada que sea ms semejante a la data original. Altos anchos de
bandas como bwidth(.8), por defecto tendra un suavizamiento ms radical.
Example :
220
200
180
lowess maxarea winter
160
140
120
100
80
60
40
1965 1970 1975 1980 1985 1990 1995 2000
Winter
Figura 3.22
Example :
59
220
200
180
Area con Hielo, 1000 km^2
160
140
120
100
80
60
40
Figura 3.23
graph box x
graph box x y z
Example :
use states.dta,clear
60
30
% over 25 w/bachelor's degree +
15 2010 25
Figura 3.24
Las cajas en estos grcos se extienden desde el primer hasta el tercer cuar-
til, una distancia denominada rango intercuartil (IQR). Esta adems contiene
aproximadamente la mitad, el 50 %, de la data. Los outliers, denidos como
observaciones mayores a 1.5 IQR del primer o tercer cuartil, la cual se plotean
separadamente de la caja. La caja y bogote en STATA dene los cuartiles de la
misma manera que el comando summarize, detail.
61
Example :
N. East
Midwest
West
South
Figura 3.25
62
comunidades: ciudades de 10 000 personas o ms; ciudades de 1 000 a 10 000;
y villas con menos de 1 000 personas.
Example :
use akethnic.dta,clear
Aleuts
Indians 8.072%
Eskimos
Non-Natives
Figura 3.26
63
opcin, emerge nuevos detalles mostrados en la gura 3.27. La opcin angle0()
especica el ngulo del primer slide del pie. Estableciendo este primer slide
un ngulo en cero (horizontal), orienta los slides de tal forma que las etiquetas
son ms fciles de leer. La gura muestra que mientras los nativos son sola
la pequea fraccin de la poblacin en la ciudad de Alaska, ellos constituyen
la mayora entre aquellos que viven en las villas. En particular, los Eskimos
conforman una gran fraccin de los que viven en las villas, el 35% en total. Esto
hace que las villas en Alaska tengan una caracterstica distinta a comparacin
de la ciudad.
Example :
villages towns
34.67% 8.141%
cities
2.332%
Figura 3.27
64
Para barras horizontales mostrando la media de y frente a las categoras de
x1 , por cada una de las categoras de x2 , tipeamos:
Example :
*Grco en barras
65
use statehealth.dta,clear
graph bar (median) inactive, over(region) blabel(bar) ///
bar(1,bcolor(gs10))
40
30 36.05
29.1
28.3
p 50 of inactive
20.9
20 10
0
Figura 3.28
Example :
66
40
36.05
31.3 31.2
29.1
30
27.6 28.3
27.1
20.9
20
10
0
Figura 3.29
Example :
67
Low income
West
High income
Low income
N. East
High income
Low income
South
High income
Low income
Midwest
High income
0 5 10 15 20 25
Promedio de vehculos a motor relacionado a Fatalidades/100000
Figura 3.30
Las barras tambin pueden estar montadas entre s, como se muestra en la
gura 3.31. Este ploteo, basado sobre la data de etnicidad en Alaska, emplea
todas las opciones por default para gracar la composicin tnica por tipo de
comunidad (village, town o city).
Example :
use akethnic.dta,clear
Figura 3.31
68
La gura 3.32 regraca este ltimo ploteo con una mejor leyenda y etiqueta
los ejes. La opcin over() ahora incluye subopciones que reetiquetan los tipos
de comunidad en el eje de la abscisa para dar mayor informacin. La opcin
legenda especica cuatro las en el mismo orden vertical que se muestra en las
barras. Tambin se mejora la etiqueta de las legendas con ytitle y ylabel como
opciones del formato del eje vertical.
Example :
Eskimo
Indian
300000
Aleut
Nonnative
200000
Population
100000
0
Figura 3.32
69
3.2.6 Grco de Puntos (Dot Plot)
Los ploteos con puntos son igual de tiles que las grcas con barras: compara-
ndo visualmente resumenes estadsticos de una o ms variables. Las opciones
que usa el STATA para ambos grcos son ampliamente similares, incluyendo
la eleccin de los estadsticos. Para ver este diagrama comparando las medianas
de las variables x; y; w y z, debemos tipear:
graph dot (median) x y w z
Y para ver la comparacin de promedios de la variable y segn las categoras
de x, escribimos:
graph dot (mean) y , over(x)
La gura 3.33 muestra un ploteo de puntos de la tasa de fuma entre hombre
y mujeres por regiones, usando la data stateheath.dta. La opcin over() incluye
buena subopcin, sort(smokeM), la cual ordena la media de smokeM para
cada una de las regiones, esto es desde la ms baja hasta la ms alta tasa de
fumar. Tambin podemos especicar un triangulo slido como marcador de
smbolo para smokeM y crculos con un centro vacio para smokeF.
Example :
*Dot Plot
West
N. East
South
Midwest
0 10 20 30
Figura 3.33
70
Adems, la gura 3.33 calcula solo 8 promedios, esto hace que sea fcil las
comparaciones. Vemos que las tasas de fumar son ms altas en las mujeres, y
con respecto a ambos sexos la tasa ms alta se encuentra en South y Midwest,
y esas variaciones son sustancialmente muy altos en el caso de las mujeres.
La grca en barras podra darnos la misma informacin, pero una ventaja
de estos grcos es la formar de compactar los datos. Los ploteos de puntos
(particularmente cuando se quiere ordenar por estadsticos de inters) es fcil
de entender incluso con varias las.
Example :
*Texto en Grcos
use statehealth.dta,clear
71
Es es un Ttulo
Este es un Subttulo
Este es el Eje X 2
Este es el Porcentaje de adultos fumadores 10 15 20 25 30 35
35
35
30
30
Este es el Eje Y 2
25
25
20
20
15
15
10 15 20 25 30 35
Porcentaje de adultos con Grado Superior
Esta es una Nota
Este es un caption
Figura 3.34
El ttulo aade el texto fuera del espacio de ploteo. Tambin podemos aadir
cajas de texto en coordinadas especcas en el espacio de ploteo. Diversos out-
liers se observan en este ploteo, la cual bajo inspeccin estos outliers resultan
ser Washington DC (el valor ms alto de college), Utah (valor ms pequeo de
smokeT ) y Nevada (el valor ms alto de smokeT en la parte superior izquierda).
Los cuadros de texto son de instrumentos para identicar dichas observaciones
en nuestro grco, como se seala en la gura 3.43. La opcin text(15.5 22.5
"Utah") establece la palabra Utah en la posicin x=15.5 e y=22.5 del scat-
terplot, directamente por encima del punto que indica el estado de Utah. De
una forma similar podemos establecer la palabra "Nevada"en x=33.5 e y=15 y
ubicarlo en un cuadro pequeo (con pequeos mrgenes17 ) alrededor del nombre
del estado. Las tres lneas de textos justicados hacia la izquierda son coloca-
dos al lado de Washignton DC (cada lnea se especica separadamente entre
comillas). Algunos cuadros de texto o ttulos pueden tener mltiples lneas,
as que podemos escribir una parte del ttulo en lneas diferentes escribindolo
entre comillas diferentes, para luego denir el tipo de justicacin. El cuadro
"nevada" utiliza un formato de fondo por default, mientras que el cuadro de
"Washigton DC" elegimos un color de fondo blanco18 .
Example :
72
title("Es es un Ttulo") subtitle("Este es un Subttulo") ///
caption("Este es un caption") note("Esta es una Nota") ///
ytitle("Este es el Porcentaje de adultos fumadores") ///
ytitle("Este es el Eje Y 2", axis(2)) ///
xtitle("Porcentaje de adultos con Grado Superior") ///
xtitle("Este es el Eje X 2", axis(2)) ///
text(15.5 22.5 "Utah") ///
text(33.5 15 "Nevada", box margin(small)) ///
text(23.5 32 "Washington DC" "no es actualmente" "un estado", ///
box justicacion(left) box margin(small) bfcolor(white))
Es es un Ttulo
Este es un Subttulo
Este es el Eje X 2
Este es el Porcentaje de adultos fumadores
10 15 20 25 30 35
35
35
Nevada
30
30
Este es el Eje Y 2
25
25
Washington DC
no es actualmente
un estado
20
20
Utah
15
10 15 20 25 30 35 15
Porcentaje de adultos con Grado Superior
Esta es una Nota
Este es un caption
Figura 3.35
Example :
*Ploteos Multiples
73
use statehealth.dta,clear
30
25
20
15
10 15 20 25 30 35
% adults college degree, 1990
Figura 3.36
Example :
10 15 20 25 30 35
% adults college degree, 1990
Figura 3.37
74
El segundo ploteo (scatterplot) se coloca encima del primer ploteo en la gura
3.45. Este orden tiene consecuencia para el estilo de lnea usado por defecto
(solid, dashed,etc) y tambin para el marcado de smbolos (square, circle,etc)
usado por cada subploteo. Los ms importante es tratar que los ploteos sean
los ms visibles posibles.
Example :
32
Regresin Lineal
95% c.i
29
Porcentaje de Adultos que fuman
26
23
20
17
14
12 14 16 18 20 22 24 26 28 30 32 34
Porcentajes de Adultos con Grados Superior
Datos del CDC andn US Census
Figura 3.38
75
Ambos scatterplot (ltci y scatter ) en la gura 3.46 presentan la misma es-
cala de los ejes x e y, pero cuando ambas variables de inters tienen distintas
escalas, nosotros necesitaramos escalas independientes. La gura 3.47 ilustra
este caso juntando dos ploteos con lneas basado sobre la data del Gulf of St.
Lawrence, gulf.dta. Estas guras combinan series de tiempo de los promedios
mnimos de temperatura para el agua en Gulf (cil ), en grados celsius, y la mx-
ima rea cubierta de hielo (maxarea), en miles de kilmetros cuadrados. El
ploteo de line hace uso de la opcin yaxis(1), lo cual por defecto es el lado
izquierdo. El ploteo de la mxima rea usa el yaxis(2), la cual por defecto
es el lado derecho. Los diversos opciones de ylabel, ytitle, yline e yscale
se incluyen con la subopcin axis(1) o axis(2), declarando cual de los ejes
y se reeren. Espacios extras entre las comillas para ytitle provee una rp-
ida forma de colocar las palabras de esos ttulos donde nosotros deseamos. El
cuadro de texto contiene ""Decada y Colapso de los pescadores de Northern
Gulf" especicando un margen de tamao medio alrededor del texto. La opcin
yscale(range()) da a ambos ejes un rango ancho para los datos, los valores es-
pecicados se eligieron despus de experimentar y encontrar la mejor separacin
vertical entre ambas series.
Example :
76
Mnima temperatura
200
Mxima rea de hielo
150
1000s de km^2
1.5 100
Grados Celsius
Decaida y Colapso
1 de los pescadores
de Northern Gulf 50
.5
-.5
-1
1950 1960 1970 1980 1990 2000
Fuente: Hamilton, Haedrich and Duncan (2003); dtata de DFO (2003)
Figura 3.39
line cil winter; plotea una lnea entre la variable cil y winter, usando
yaxis(2) y rangos de escala entre -4 hasta 3, con las etiquetas por defecto.
Example :
77
yaxis(3) yscale(range(-300,220) axis(3)) ///
ylabel(50(50)200, nogrid axis(3)) ///
ytitle("Area de Hielo, 1000 km^2 ",axis(3) placement(nw)) ///
clpattern(dash) ///
jj line cil winter, ///
yaxis(2) yscale(range(-4,3) axis(2)) ///
ylabel(, nogrid axis(2)) ///
ytitle(" Temperatura CIL, Grado Celsius",axis(2)) ///
clpattern(solid) ///
jj connected cod winter, ///
yaxis(1) yscale(range(0,200) axis(1)) ///
ylabel(, nogrid axis(1)) ///
ytitle(" Pesca de Bacalao,1000 toneladas",axis(2) placement(sw)) ///
jj if winter>1959, ///
legend(position(7) ring(0) rows(3) ///
label(1 "Mxima rea de hielo") label(2 "Mnima temperatura")) ///
xtitle("") xlabel(1960(5)2000, grid)
Area de Hielo, 1000 km^2
50 100 150 200
-1 -.5 0 .5 1 1.5
N. Gulf cod catch, 1000 tons
Pesca de Bacalao,1000 toneladas
60 80 100 40
Mnima temperatura
N. Gulf cod catch, 1000 tons
0
Figura 3.40
78
en la misma lnea de comando del grco o a travs del comando graph save
despus que el grco haya sido creado. Cuando guardamos en esta ltima
manera, se puede volver a acceder a los grcos para ser manipulados a gusto
personal a travs del Editor de Grcos.
Example :
*I Forma
Example :
40
30
30
Mileage (mpg)
20
20
10
Weight (lbs.)
2,000 3,000 4,000 5,000
Mileage (mpg) Fitted values
Weight (lbs.)
79
Dado que la extensin del graco por default del STATA es *.gph, no es
reconocido por otros programas, tal como procesadores de texto. Para guardar
un grco en otro formato, se debera usar el comando graph export. Var-
ios formatos estn disponibles, incluyendo PostScript (.ps), Encapsulated Post-
Script (.eps), Window Metale (.wmf), PDF (.pdf) y Postable Network Graph-
ics (.png). La mejor seleccin del formato depende en parte de cual procesador
de texto se usa, por eso es necesario una prueba de ensayo y error.
Example :
*Exportar Grcos
80
Cap. 4 Modelo de Regresin
Lineal Clsico
E (yjx) = x0 = 1 x1 + 2 x2 + :::: + k xk
@E (yjx)
= j
@xj
yi = x0i + ui ; i = 1; ::::; N
PNLos estimadores
2
OLS que minimizan la suma de cuadrados de los errores,
i=1 (yi x0i ) .
b 1
= (X0 X) X0 y
1 N
P
N P
= xi x0i xi yi
i=1 i=1
81
0 10 N 1
P
N P
N P
N P
B i=1 x21i x1i x2i x1i xki C B x1i yi C
BN i=1 i=1 C Bi=1 C
BP P
N CBP N C
B x2i x1i x22i C B x2i yi C
b=B
Bi=1 i=1
CB
C Bi=1
C
C
B .. .. .. .. C B .. C
B . . . . C B . C
B CB C
@PN P 2
N A @ P
N A
xki x1i xki xki yi
i=1 i=1 i=1
donde:
P
N
s2 = (N k) 1
b2i
u
i=1
yubi = yi x0i b .
Bajo los supuestos 1,2 y 3, los estimadores son completa-
mente ecientes, es decir, tienen varianza mnima. Si adicionalmente, ui est
distribuido normalmente, entonces los t estad{sticos presentan una distribu-
cin de t student. Cuando los supuestos 2 y 3 no se cumplen, entonces los
estimadores OLS no son ecientes.
82
4.3 Estimacin del Modelo de Regresin
Para este caso analizaremos los gastos mdicos de individuos que tienen 65 aos
y ms quienes se someten al cuidado de salud a travs del programa mdico de
U.S, la cual el seguro mdico no cubre todos los gastos. Cerca de la mitad de
los individuos elegidos por consiguiente compran un seguro suplementario en el
mercado privado que provee un seguro contra varios gastos de medicina cara.
As que vamos a considerar el impacto de este seguro complementario sobre el
total de los gastos mdicos de un individuo, medido en dlares. Una formal
investigacin debera controlar la inuencia de otros factores que determinen
el gasto mdico por individuo, siendo los factores socio demogrco como la
edad, gnero, educacin, ingreso, locacin geogrca y estatus de salud como
la presencia de condiciones limitantes o crnicas. Para dicho n utilizaremos la
base mus03data.dta.
Example :
M atriz de Correlacion
83
Los gastos estn altamente correlacionados con la medida de estatus de salud
phylim, actlim y totchr.
Example :
*Regresin OLS
Re gresion OLS
84
donde el gasto de salud para las mujeres son 8.4% menor que el de los hombre
manteniendo constante los dems factores. El coeciente de income de 0.0025
sugiere un efecto muy pequeo, pero esto es engaoso ya que esta expresado
en miles. La desviacin estndar del ingreso es 0.001, tal que una desviacin
del ingreso conduce a un aumento proporcional de 0.001, o 0.1%, en los gastos
mdicos.
Example :
test phylim=actlim
Dado que p < 0:61 > 0:05, no rechazamos la hiptesis nula al 5% de nivel
de signicancia. No hay signicancia estadstica entre los coecientes de las dos
variables.
85
Example :
Example :
86
quietly reg ltotexp suppins phylim actlim totchr age female income
predict ltotexp_est
El cuadro estadsticos resumido nos muestra que el promedio del valor predi-
cho ltotexp_est es igual a la variable dependiente ltotexp.
Para modelos lineales, el estimador del efecto marginal del j esimo regresor
es b j , as que no sera necesario utilizar el comando mfx. Pero mfx tambin
puede ser usado para calcular elasticidades y semi-elasticidades. Por ejemplo,
la opcin eyex calcula las elasticidades @E (yjx) =@x (x=y), evaluado en la
media muestral, la cual equivaldra a b j (x=y) para modelos lineales.
Example :
*Efectos Marginales
quietly reg ltotexp suppins phylim actlim totchr age female income
mfx
mfx,eyex
87
Ef ectos M arg inales y Elasticidades
88
Presentamos brevemente diagnsticos estadsticos y grcos, antes de dar un
tratamiento prolongado del test de especicacin.
Example :
quietly reg ltotexp suppins phylim actlim totchr age female income
rvfplot
4
2 0
Residuals
-2 -4
-6
7 8 9 10 11
Fitted values
La gura no nos indica algunos outliers extremos, aunque existen tres obser-
vaciones con un valor de residual menores que 5 que podran ser investigados.
89
avplot provee el ploteo de una variable aadida, o un ploteo de una regresin
parcial que es til para la deteccin de outliers19 .
Example
-6 -4 -2 0 2 4
Residuals
S2 (K 3)2
JB = n +
6 24
1 9 Para ms detalle y referencias adicionales, ver help regress postestimation.
90
Para una variable normalmente distribuida, S = 0 y K = 3. Por lo tanto,
la prueba de JB de normalidad constituye una hiptesis nula de que ambos
estadsticos son 0 y 3 respectivamente. En dicho caso, se espera que el valor
del estadstico de JB sea igual a cero. Se demostr que el estadstico JB asin-
tticamente sigue una distribucin chi-cuadrado con 2 grados de libertad. Si el
valor de la probabilidad calculada no sobrepasa el nivel de signicancia de 5%,
entonces se rechaza la hiptesis nula de normalidad.
Example
sum residuo,detail
sktest residuos
91
P
bi
u SCR
AIC = e2k=n = e2k=n
n n
2k SCR
ln(AIC) = + ln( )
n n
P
bi
u SCR
SIC = nk=n = nk=n
n n
k SCR
ln(SIC) = ln(n) + ln( )
n n
donde k es el nmero de regresores incluyendo la interseccin y n es el tamao
de la muestra. Adems, los factores de penalizacin para ambos estadsticos
son 2k k
n y n ln(n) respectivamente. El criterio de decisin consta en elegir aquel
modelo que presenta un menor estadstico de criterio de informacin.
STATA cuenta con ambos estadsticos la cual se sealan con el comando estat
ic. Cabe resaltar que STATA nombre al estadstico SIC como BIS (Criterio de
Informacin Bayesiano). Para utilizar este comando se necesitan dos modelos
que testear, por ende, se necesitan realizar dos regresiones.
*Example:
*Criterios de Informacin
quietly reg ltotexp suppins phylim actlim totchr age female income
estat ic
estat ic
92
Como vemos el primer modelo tiene un menor valor de los criterios de infor-
macin (AIC y BIC), as que el modelo que mejor se preere es incluyendo a la
variable female como un factor inuyente en los gastos mdicos.
yi 1
g (yi ; ) = = x0i + ui
2
donde y son estimados bajo el supuesto que ui N 0; : Esto nos
conduce a tres casos especcos:
1. g (yi ; ) = y 1 s = 1:
2. g (yi ; ) = ln y s = 0:
93
1
3. g (yi ; ) = 1 yy s = 1:
Example :
boxcox totexp suppins phylim actlim totchr age female income ///
if totexp>0
94
4.6.2.3 Test de la Forma Funcional de la Media Condicional
El modelo de especicacin lineal especica que la media condicional de la vari-
able dependiente (ya sea medido en niveles o en logaritmos) equivalente a x0i :
Una prueba estndar para la especicacin correcta es un test de aumento de
variable. Una enfoque es aadir potencias de ybi = x0i b ; los valores predichos de
la variable dependiente como regresores y testear su signicancia estadstica.
Example :
quietly reg ltotexp suppins phylim actlim totchr age female income
estat ovtest
4.6.3 Multicolinealidad
Entre las variables explicativas suele suceder grados de colinealidad, si en caso
una de estas variables es perfectamente colineal con otra variable entonces la
matriz X0X ser singular y no se podr estimar los parmetros. STATA puede
reconocer la colinealidad perfecta pero es muy difcil en el caso de la colinealidad
cercana.
En el primer punto, STATA elimina las variables hasta que la matriz X0X
sea invertible. En el segundo caso, se da cuando existe correlacin parcial alta
entre las variables o existe dependencia lineal cercana en la matriz de vari-
ables explicativas, lo cual provoca que el ajuste del modelo sea bueno pero los
parmetros estimados tengan errores estndar muy altos o con signos incorrec-
tos.
95
Para realizar este diagnstico utilizamos el estadstico Factor Inador de
Varianza (F IV , por sus siglas en ingls) que se dene como:
1
F IV =
1 Rk2
Example :
*Multicolinealidad
quietly reg ltotexp suppins phylim actlim totchr age female income
estat vif
Dado que el F IV para cada uno de los regresores est alrededor de la unidad,
no hay incidencia de algn problema de multicolinealidad.
Existen dos casos posibles cuando ocurre este problema: a). Cuando la vari-
anza condicional de los errores cambian entre observaciones, problema conocido
como heteroscedasticidad ; y b). Cuando los errores estn correlacionados unos
96
con otros lo cual no estn independientemente distribuidos, problema conocido
como Autocorrrelacin.
y =X +u
donde:
E(u) = 0
E(u u0 ) = u
b 1
= XX0 Xy
1
= XX0 X (X + u)
0 1
= + XX Xu
E b =
El estimador OLS es insesgado. Ahora su varianza:
1 1
V ar b = E XX0 Xuu0 X0 (X0 X)
1 1
= XX0 X uX
0
(X0 X)
donde u es la matriz de varianza-covarianza del estimador .
Heteroscedasticidad
0 2
1
1 0 0
B0 2
0 C
B 2 C
u =B . .. .. .. C
@ .. . . . A
2
0 0 n nxn
Autocorrelacin
0 1
1 1 n 1
B 1 1 C
B n 2C
u =B . .. .. .. C
@ .. . . . A
n 1 n 2 1 nxn
97
4.6.4.1 Test de Heteroscedasticidad
Si no existe informacin a priori sobre la naturaleza de la heteroscedasticidad,
es comn realizar un anlisis de los residuos que se generan.
Se inicia con un anlisis grco de los residuos, ui = yi ybi , ya que estos son
importantes para identicar puntos atpicos u outlier. Como sabemos, entre las
propiedades ms importantes de los residuales se encuentran que tienen media
cero y su varianza se aproxima por la expresesin:
P 2
2 SCR b
u
bu = =
n k n k
A continuacin mostramos un grco de dispersin de puntos entre los val-
ores ajustados yb y los residuos al cuadrado u b2 con patrones hipotticos para
identicar la existencia de heteroscedasticidad:
98
STATA tiene implementado dentro de sus rutinas ambos tipos de gracas
para la identicacin de heteroscedasticidad de los residuales. Despus de esti-
mar el modelo de regresin los comandos son rvfplot y rvpplot. El comando
rvfplot muestra el diagrama de dispersin entre los residuales y los valores
ajustados yb: Por su parte, rvpplot elabora el diagrama de dispersin entre los
residuales y cualquiera de las variables predictoras (X), razn por la que se
requiere la variable a considerar.
*Ploteos
quietly reg ltotexp suppins phylim actlim totchr age female income
rvfplot , yline(0)
gen res2=residuos^2
sc res2 ltotexp_est
99
ln ubi 2 = + ln Zi + vi
donde ub2 ser una aproximacin de 2i y Zi sera algunas o todas las vari-
ables explicativas sealadas en la regresin original: Si el estimador resulta
signicativo, entonces existe presencia de heteroscedasticidad en los datos.
Example :
*Prueba de Park
quietly reg ltotexp suppins phylim actlim totchr age female income
gen ln_res=ln(res2)
Pr ueba de P ark
100
jubi j = + ln Zi + vi
En la prctica, la tcnica de Glejser puede usarse para muestras grandes, pero
en muestras pequeas puede usarse estrictamente como herramienta cualitativa
para obtener una nocin de la heteroscedasticidad.
Example :
*Prueba de Glejser
quietly reg ltotexp suppins phylim actlim totchr age female income
gen abs_res=abs(residuos)
Pr ueba de Glejser
p
uj
jb = + Xi + vi
1
uj
jb = + + vi
Xi
1
uj
jb = + p + vi
Xi
101
donde:
n
!
2
X
uei = u2i = b2i =n
u
i=1
nR2 2
p
Example :
*Prueba de Breusch-Pagan-Godfrey
quietly reg ltotexp suppins phylim actlim totchr age female income
estat hettest
hettest
102
El acercamiento consiste en probar la presencia de heteroscedasticidad me-
diante una prueba de igualdad de varianzas de los residuales mediante el es-
tadstico F . El procedimiento para realizar esta prueba es el siguiente:
1. Identicar una variable con que la varianza de los errores est correla-
cionada. En nuestro caso ilustrativo esta variable es income.
2. Ordenar en forma ascendente a las observaciones segn la variable explica-
tiva elegida.
3. Omitir c observaciones centrales, donde c es especicada a priori, dividi-
endo a la muestra restante n c observaciones en dos grupos cada uno con
un total de (n c)=2 observaciones. La determinacin de c es arbitraria,
sin embargo, suele considerar criterios de omitir entre un 20 y un 25% de
la muestra.
4. Estimar dos regresiones separadas correspondientes a los dos grupos. De
estas se obtienen la suma de cuadrados residuales SCR1 y SCR2 respec-
tivamente.
5. Se calcula el estadstico F :
SCR2 =gl2
Fcalculado =
SCR1 =gl1
(n c)
con gl1 = gl2 = 2 k grados de libertad.
donde Fcr{tico = F (n c)
k;
(n c)
k
:
2 2
Example :
*Prueba de Goldfeld-Quandt
sort income
sum income,d
103
//Trabajamos con valores de ingreso positivo y sin incluir
//los missing values de la variable dependiente ltotexp
drop if income<=0
// Se eliminaron solo 88 observaciones, ahora tenemos
//2976 observaciones disponibles.
drop if ltotexp==.
gen id=[_n]
gen m=.
replace m=1 if id<=1078
**Grupo 1
reg ltotexp suppins phylim actlim totchr age female income ///
if m==1
//SCR1= 1657.62507
//gl1=1070
**Grupos 2
104
reg ltotexp suppins phylim actlim totchr age female income ///
if m==2
//SCR2= 1406.72964
//gl2=1070
display "F-calculado="
display ( 1406.72964/1070)/(1657.62507/1070)
//F-calculado=.84864163
*Paso 5. Conclusin
f ) Prueba de White
Esta prueba estima una regresin auxiliar entre los residuales al cuadrado
sobre sus regresos originales, el cuadrado de los regresos y el producto cruzado
de estos. La prueba no requiere un conocimiento de la fuente de la heteroscedas-
ticidad y no depende del supuesto de normalidad de los regresos. Adems la
hiptesis nula se basa en la homocedasticidad de los residuos.
105
La prueba de White se puede realizar va el comando de estat imtest, o
simplemente imtest, white o whitetst. STATA calcula la prueba extendida
de White considerando en la regresin a los residuos al cuadrado contra los
regresores, los productos cruzados y cuadrados de los distintos regresores.
Example :
quietly reg ltotexp suppins phylim actlim totchr age female income
estat imtest
estat imtest,white
imtest
white
whitetst
106
Para ilustrar los temas a continuacin, hacemos uso de la base de datos de
los Determinantes del Precio Interno del Cobre en los Estados Unidos (19851-
1980), presentado en la Tabla 12.7 en el captulo 12 de Damodar Gujarati. Esta
base contiene informacin sobre el precio promedio interno del cobre en centavo
por libre de los ltimos doce meses en USA (C); PBI anual en miles de millones
de dlares (G); ndice promedio de doce meses del cobre en la bolsa de metales
de Londres en libras esterlinas (L); el nmero de construcciones de casas por
ao en miles de unidades (H) y el precio promedio del aluminio de los ltimos
doce meses en cetavos de dlar por libra (A).
Example :
107
describe
tsset time
graph matrix c i l h a
C 50
0
150
100 I
50
1000
L 500
0
2500
2000
H
1500
1000
80
60
A
40
20
0 50 100 0 500 1000 20 40 60 80
bt no son los mismos que las ut , con frecuencia una anlisis visual
Aunque las u
de las primeras nos dan alguna clave de la presencia de autocorrelacin. Hay
distintas formas de examinar grcamente los residuos.
Se puede gracar los residuos con respecto al tiempo, a travs de una graca
de secuencia de tiempo. Alternativamente se pueden gracar los residuos es-
bt entre la desviacin estndar de la regresin b2 :Los
tandarizados, es decir, las u
valores de los residuos estandarizados sern nmeros sin unidad de medida, por
consiguiente, pueden ser comparados con los residuos estandarizados de otros
modelos.
bt con respecto a u
Otra forma es gracar u bt 1 para indicar un esquema au-
toregresivo de orden 1 AR(1), y as observar algunos de los patrones sealados
anteriormente.
Example :
108
*Mtodo Grafcio
reg c i l h a
gen residuo_1=L.resid
109
que se necesita hacer ms pruebas.
10
5
Residuals
0
-5
-10
-10 -5 0 5 10
residuo_1
bt y u
P loteo entre u bt 1
bt y u
Se muestra una relacin positiva entre u bt 1 ;por lo cual puede ocurrir
un proceso AR(1).
Sea:
2N1 N2
M edia : E(R) = +1
N
2 2N1 N2 (2N1 N2 N )
V arianza : R =
N 2 (N 1)
110
Si la hiptesis nula de aleatoriedad es sostenible, es de esperar que:
Example :
*Mtodo de Rachas
*Paso1.
*Paso2.
*Paso 3.
111
//Calculamos la media y varianza de R
display "E(R)="
display (2*17*13/30)+1
//E(R)=15.733333
display "Var(R)="
display 2*17*13*(2*17*13-30)/((30^2)*(30-1))
//Var(R)=6.9771648
*Paso 4
*Paso 5
112
El trmino de error ut est normalmente distribuido.
El modelo de regresin no incluye modelos rezagados de la variable de-
pendiente como una de las variables explicativas.
Donde dL y dU son los valores crticos de esta prueba. Las reglas de decisin
son las siguientes:
113
STATA cuanta con el comando estat dwatson para realizar esta prueba
la cual nos muestra el valor del estadstico de Durbin Watson.
Example :
quietly reg c i l h a
estat dwatson
//Es estadstico d= 1.074914 y
//el valor crtico para n=30 y k=5 sera
//dL=1.071 y dU=1.0833. Por lo tanto,
//existe presencia de autocorrelacin
//positiva.
yt = 0 + 1 X1 + ::: + k Xk +ut
ut = 1 ut 1 + ::: + p ut p +v
donde vt es un trmino de error de ruido con media cero y varianza constante
(ruido blanco). La hiptesis nula a probar es que:
114
H0 : 1 = 2 = ::: = p =0
No existe correlacin serial de ningn orden.
(n p)R2 2
p
STATA tiene implementado esta prueba a travs del comando estat bgod-
frey que resume los pasos anteriores. Por defecto este comando considera un
rezago en el trmino de error, pero puede ser modicado con la opcin lags(#)
donde se puede especicar el nmero (#) de rezagos.
Example :
*Prueba de Breusch-Godlfrey
quietly reg c i l h a
estat bgodfrey
115
Cap 5. Programacin en STATA
Example :
Las macros globales son usadas cuando se jan diferentes regresiones con las
mismas listas de regresores porque ellos aseguran que la lista de regresores son
las mismas en todo instante y hacen que sea fcil cambiar la lista de regresor.
Un cambio sencillo a la macro global hace que cambie los regresores en todo
instante.
Example 1 :
116
local xlist price weight
Tambin podemos usar una macro para denir la variable dependiente. Por
ejemplo:
Example 2 :
local y mpg
regress y xlist
Example :
clear all
117
gen x1var=runiform()
gen x2var=runiform()
gen x3var=runiform()
gen x4var=runiform()
summarize sum
A partir de esto presentamos diferentes formas para usar los bucles para
calcular una suma progresiva de estas variables.
Comencemos por usar una lista de nombre de variables. En este caso la lista
es x1var, x2var, x3var y x4var. Como vimos, la ltima variable creada fue
sum, nosotros necesitaremos eliminar esta variable y crear otra que sea sum=0,
as que reemplazamos los valores de esta variable sum con ceros. Usaremos esta
misma idea para generar la suma de estas cuatro variable usando el comando
foreach.
Example :
*I Forma
replace sum=0
118
replace sum=0
foreach var of varlist x1var-x4var {
replace sum=sum + var
}
Example :
replace sum=0
forvalues i=1/4 {
replace sum= sum + x ivar
}
summarize sum
Example :
119
replace sum=0
local i 1
while i<=4 {
replace sum= sum + xivar
local i= i+ 1
}
summ sum
Example :
scalar a = 2*3
display b a
scalar list
5.3.2 Matrices
STATA provee dos formas distintas para usar matrices, ambas almacenan tanto
nmeros o string en vectores. Una manera es a travs de los comandos de STATA
que tiene el prejo matrix. El otro modo es usando el lenguaje de programacin
que incluye el STATA en esta versin llamada MATA. El siguiente cdigo ilustra
la denicin de una matriz de tamao 2x3 n (con el comando matriz dene), la
lista de la matriz (matfrix list) y la extraccin como un escalar de un elemento
especco del elemento de una matriz.
120
Example :
matrix list A
scalar a= A[2,3]
display a
Example :
sysuse auto.dta
summ mpg
return list
Example :
summ mpg
121
scalar rango= r(max) - r(min)
scalar mpg_media=r(mean)
scalar lsit
Example :
ereturn list
Example :
*Calculando el R-squared
scalar r2=e(mss)/(e(rss)+e(mss))
Example :
122
*Calculando el t-student para la variable price
matrix b_est=e(b)
scalar b_price=b_est[1,1]
matrix V_est=e(V)
scalar V_price=V_est[1,1]
scalar t_price=b_price/sqrt(V_price)
123
Cap 6. Bibliografa
[1]. Cameron A. & Trivedi P, (2009). "Microeconometrics using STATA"
[2]. Csar Alonso Borrego y Roco Snchez Mangas. "STATA Guia de uti-
lizacin".
124