Bio-2009 - Apostila Stata Nugem

Í N D I C E
Introdução ao STATA versão 8.0 – Intercooled. 3
Apresentação das janelas. 3
1. Generalidades. 5
1.1 Sintaxe dos comandos. 5
1.2 Obtendo ajuda. 5
1.3 Tipos de arquivos. 5
1.4 Tipos de variáveis. 6
1.4.1 Variáveis numéricas. 6
1.4.2 Variáveis datas. 7
1.4.3 Variáveis texto(string). 7
1.5 Operadores, expressões lógicas e funções matemáticas. 7
2. Manipulando o banco de dados da Ficha Sócio-comportamental.
Abrir/descrever banco de dados.Comandos open e describe. 8
Tabelas de freqüência simples e cruzada. Comando tabulate . 10
2.1 Transformação de variável string em variável numérica. 10
2.2 Transformação de variável numérica em variável string. 12
2.3 Transformação de variável string em variável data. 13
2.4 Calcular diferença entre datas. 14
2.5 Recodificar, agrupar valores(códigos). 17
2.6 Eliminar/manter registros ou variáveis. 19
2.7 Inserindo rótulos(labels) para variáveis e códigos. 19
2.8 Salvando o arquivo-dta. 20
2.9 Salvando o arquivo-do. 20
1
3. Elaborando gráficos.
3.1 Gráfico de barras. 21
3.2 Gráfico de torta(pie). 23
3.3 Gráfico boxplot. 24
3.4 Gráfico de histograma. 25
3.5 Gráfico de dispersão(scatter). 26
3.6 Salvando gráficos. 26
4. Comandos mais utilizados.
4.1 Abrir/ler um banco de dados. 27
4.2 Abrir/criar/fechar um arquivo log. 27
4.3 Visualizar a descrição/características do banco de dados. 27
4.4 Produzir tabelas de freqüência simples e tabelas cruzadas. 27
4.5 Calcular medidas de tendência central. 28
4.6 Criar/definir novas variáveis. 28
4.7 Eliminar/manter variáveis e observações(registros). 29
4.8 Agrupar/recodificar códigos(valores). 29
4.9 Definir/atribuir rótulos(nomes) para códigos e variáveis. 30
4.10 Arquivo do. 30
4.11 Salvar arquivo-dta. 30
5. Converter arquivo-rec para o arquivo-dta. 31
6. Instalando o programa Stata. 31
7. Tabulando um banco de dados. 31
8. Anexo-1 – arquivo-qes para a ficha Sócio-comportamental. 33
9. Anexo-2 – dicionário das variáveis d a ficha Sócio-comportamental. 37
10. Anexo-3 – Conceitos básicos de estatística. 50
2
Objetivo geral do curso
Esta apostila apresenta comandos básicos para manipulação de bases de dados com a
utilização do aplicativo STATA 8.0 e introduz alguns conceitos básicos de estatística referentes
aos comandos utilizados(Anexo-3).
O leitor interessado em conhecer mais sobre este programa ou aprender teoria estatística mais
detalhada deve procurar referências especializadas.
Introdução ao STATA 8.0
O STATA possui amplo potencial de utilização e trabalha com bases de dados que ficam
armazenadas inteiramente na memória RAM do microcomputador. Por esta razão fornece
processamentos de maneira muito rápida.
Em geral, os comandos do STATA tem a forma:

comando nomevar(s) if....in...., options
O STATA diferencia letras maiúsculas das minúsculas. Use sempre letras minúsculas quando
digitar comandos, e recomendamos que você também use letras minúsculas para os nomes de
suas variáveis. O STATA aceita abreviações para comandos e nomes de variáveis, desde que
estas abreviações não sejam ambíguas.
Iniciando o STATA
O programa STATA, é iniciado clicando duas vezes no ícone localizado no desktop do Windows.
Apresentação das janelas
Quatro janelas são apresentadas quando o STATA é iniciado. São elas:
Review: janela onde são armazenados os comandos
Variables: janela que apresenta a lista das variáveis do banco de dados ativo
Stata Results: janela que mostra os resultados
Stata Command: janela onde os comandos do STATA devem ser digitados
3
Note que cada janela possui uma “caixinha” ao lado. Clicando nesta caixinha o programa oferece algumas
opções – experimente !
1 2 3 4 5 6 7 8 9 10 11 12
caixinha
O menu está disponível na primeira linha e possui os recursos:
File Edit Prefs Data Graphics Statistics Window e Help
Por exemplo, o menu "HELP  SEARCH" é utilizado para procurar ajuda sobre comandos do STATA.
Na segunda linha encontra-se a Barra de Ferramentas com os ícones:
(1) Open (use): Carrega ou abre um banco de dados no formato do STATA (dta).
(2) Save: Salva um arquivo no formato do STATA (dta).
(3) Print Results: Imprime a janela de resultados.
(4) Begin Log: Carrega, abre ou cria um arquivo do tipo ".log" ou ".smcl".
(5) Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano.
(6) Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano.
(7) Bring Graph Window to Front: Exibe a tela com o gráfico em primeiro plano.
(8) Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do").
(9) Data Editor: Edita o arquivo de dados que está sendo utilizado.
(10) Data Browser: Visualiza o arquivo de dados que está sendo utilizado.
(11) Clear: prossegue a execução do comando.
(12) Break: Interrompe a execução de uma tarefa ou comando.
4
1. Generalidades
1.1 Sintaxe dos comandos.
De um modo geral, a sintaxe dos comandos do Stata tem a seguinte forma:
[by varlist]: comando [varlist] [=exp] [if exp] [in range] [, options]
Os “colchetes”, representam opções e varlist , nome das variáveis; exp , expressão algébrica
ou lógica ; range , intervalo de observações ; e options , lista de opções.
Exemplos:
summarize idade peso altura if sexo==”F” in 1/50 , detail

ou
sum idade peso altura if sexo==”F” in 1/50 , detail
O comando acima, irá produzir medidas de tendência central para as variáveis: idade, peso e
altura, para o sexo feminino e registros de 1 a 50. A opção “detail” exibe detalhes para as
medidas de tendência central.
tabulate sexo ou tab sexo produzirá tabela de freqüência simples

para a variável sexo.
tab1 risco sexo escola produzirá tabela de freqüência simples para

as variáveis relacionadas.
tab risco sexo, row col cel chi produzirá tabela cruzada para as variáveis
risco e sexo, exibindo percentagens na linha,
coluna e total e calculará o chi-quadrado.
Nota: O nome dos comandos são escritos em letras-minúsculas.
1.2 Obtendo ajuda.
Para obter ajuda para o comando tabulate, digite : help tabulate na linha de comandos .
Quando desconhecemos o nome do comando, utilize o menu help, opção search para obter
ajuda.
1.3 Tipos de arquivos.
O programa STATA, utiliza os arquivos:

.dta arquivos de dados (bancos de dados)
.ado arquivos programa "do-files"
.dct arquivos ASCII , arquivo dicionário
.do do-file arquivos de comandos
.gph arquivos gráficos
.log ou .smcl arquivos textos com os resultados
.out arquivos para impressão
5
.raw arquivos ASCII arquivos de dados
.sum arquivos controle de rede
Os arquivos mais utilizados são:
.dta  arquivos de dados; os arquivos de dados devem estar armazenados no formato do

STATA para serem acessados. O aplicativo/programa EPIDATA converte os arquivos
para esse formato. Para abrir/ler um arquivo-dta utilize o comando use.
Sintaxe: use filename [, clear nolabel ]
use [varlist] [if exp] [in range] using filename [, clear nolabel ]
Exemplos: use "C:\Bancos de Dados\Ficha_SC\fichasc.dta", clear

use "C:\Bancos de Dados\Ficha_SC\fichasc.dta" if v24=="1",
clear
.log  arquivos de resultados; os resultados e tabelas produzidos pelo STATA, podem ser
armazenados em arquivos “texto” . Esses arquivos poderão manipulados pelo
processador de texto WORD. Para abrir um arquivo-log utilize o comando log .
Sintaxe: log using filename [, append replace [ text | smcl ] ]
log { on | off | close }
Exemplo: log using "C:\Bancos de Dados\Ficha_SC\tabelas.log"
.do  arquivos de comandos; comandos podem ser armazenados e utilizados

posteriormente.
1.4 Tipos de variáveis.
1.4.1 Variáveis numéricas.
As variáveis numéricas assumem os formatos abaixo por definição:
byte %8.0g (g = geral)

int %8.0g
long %12.0g
float %9.0g
double %10.og
Os formatos podem ser alterados com o comando format
Exemplo: variáveis peso e altura nos formatos float ou byte
gen imc = peso/(altura^2) (imc formato 9.0g 5 casas decimais )

format imc %9.3f (imc formato 9.3f 3 casas decimais fixas)
6
1.4.2 Variáveis data,
Armazena as datas como números a partir de 01Jan1960.
Exemplos: variável dtn formato long %d
gen xdtn = dtn (xdtn formato 9.0g numérico)

format xdtn %d (xdtn formato %d dd/mmm/aa)
1.4.3 Variáveis texto (string).
Armazena textos, tamanho máximo 80 caracteres, simbologia str1, str2, str3, ... , str80.
Exemplos : sexo str1 ( “1” ou “2” ; “f” ou “m” ; “F” ou “M” )
sexo str9 ( “feminino” ou “masculino”)
1.5 Operadores , expressões lógicas e funções matemáticas.

Relational
Arithmetic Logical (numeric and string)
-------------------- ------------------ ---------------------
+ addition ~ not > greater than
- subtraction ! not < less than
* multiplication | or >= > or equal
/ division & and <= < or equal
^ power == equal
~= not equal
+ string concatenation != not equal
Note that a double equal sign (==) is used for equality testing.
Sejam as variáveis: v21=idade; v24=sexo; v7=núcleo de pesquisa; V8 = estado
Exemplos: gen x = v21^2 (x = idade ao quadrado)

gen y = v7 + v8 (y = soma de caracteres)
if v24 ==”1” (se, sexo = masculino)
if v24~=”1” & v21 < 30 (se, sexo diferente de 1 e idade < 30)
Funções matemáticas.
int(x) converte em número inteiro(trunca). Ex.: int(5.2) = 5, and int(-5.2) = -5.
ln(x) converte para logaritmo natural , se x>0; função inversa da exponencial.
log(x) converte para logaritmo natural ,se x if x>0.
log10(x) converte para logaritmo base 10 ,se x if x>0.
round(x) arredondamento para número inteiro. round(x) = round(x,1).
sqrt(x) calcula a raíz quadrada, se x >= 0.
Outras funções, utilize menu Help e digite function em search .

7
2. Manipulando banco de dados.
Utilizar o banco de dados fichasc.dta , com informações do questionário Sócio-Comportamental de

Curitiba(armazenado na pasta: C:\Bancos de Dados\Curso\fichasc_c.dta). Utilize o menu File para
abrir o banco de dados ou o botão Open(use).
Digitar o comando describe para exibir informações do banco de dados e suas variáveis.
desc ou describe
Esse comando produz a saída:

Contains data from C:\Bancos de Dados\Ficha_SC\fichasc.dta
obs: 323
vars: 128
size: 68,799 (93.4% of memory free)
------------------------------------------------------------------------
variable storage display value
name type format label variable label
------------------------------------------------------------------------
v1 long %d 1) data da entrevista v1
v1a double %5.2f hora do início da entrevista
nri str12 %12s 2) número registro identificador
v3 str2 %2s 3) tipo de documento v3
v4 str5 %5s 4) iniciais v4
v5 str7 %7s 5) código do projeto v5
v6 str4 %4s 6) unidade de saúde v6
v7 str1 %1s 7) núcleo de pesquisa v7
v8 str2 %2s 8) estado v8
v20 long %d 20) data de nascimento v20
v21 int %3.0f 21) idade v21
v22 str26 %26 22) munícipio de residência v22
v23 str2 %2s 23) estado(residência)v23
v24 str2 %2s 24) sexo v24
v25 str2 %2s 25) gestante v25
v25a byte %2.0f idade gestacional v25a
v26 str2 %2s 26) estado marital v26
v27 str2 %2s 27) etnia v27
v28 byte %2.0g 28) escolaridade v28
v29 str2 %2s 29) renda familiar v29
v30 byte %2.0f 30) número de pessoa
v31 str2 %2s 31) situação profissional v31
v40 str2 %2s 40) vida sexual ativa v40
v40a int %3.0f se sim, há v40a
v40b byte %1.0f v40b
v41 str2 %2s 41) comportamento sexual v41
v42a int %4.0f no último mês v42a
v42b int %4.0f nos últimos 6 meses v42b
v42c int %4.0f na vida toda v42c
v43 byte %2.0f 43) idade da primeira relação sexual
v44 str1 %1s Tipo de exposição (no últ. mês) v44
v44a1 str1 %1s 1.relação sexual v44a1
v44b1 str1 %1s 2.udi v44b1
v44c1 str1 %1s 3.transfusão sanguínea v44c1
v44d1 str1 %1s 4.hemofílico v44d1
v44e1 str1 %1s 5.acidente ocupacional v44e1
v44f1 str1 %1s 6.acidente comunitário v44f1
v44g1 str1 %1s 7.não,nenhum v44g1
v44h1 str1 %1s 15.outro v44h1
v44k str1 %1s Tipo de exposição (nos últ. 6m) v44k
v44l str1 %1s Tipo de exposição (após 6 meses) v44l
8
v45 str1 %1s Características do parceiro(no últ.mês)
v45a1 str1 %1s 1.udi
v45b1 str1 %1s 2.hsh
v45c1 str1 %1s 3.hiv/aids
v45d1 str1 %1s 4.dst
v45e1 str1 %1s 5.profissional do sexo
v45f1 str1 %1s 6.população prisional
v45g1 str1 %1s 7.caminhoneiros
v45h1 str1 %1s 8.mulheres sem estas caract.
v45i1 str1 %1s 9.homens sem estas caract.
v45j1 str1 %1s 10.pessoas desconhecidas
v45k1 str1 %1s 15.outros
v45n str1 %1s Características do parceiro (nos últ.6 m)
v45o str1 %1s Características do parceiro (após 6 m)
v46a int %4.0f Número de rel.sexuais p/semana(no últ.mês) v46a
v46b int %4.0f nos últimos 6 meses v46b
v46c int %4.0f após a 6 meses v46c
v47a str2 %2s Pratica sexual (no último mês) v47a
v47b str2 %2s nos últimos 6 meses v47b
v47c str2 %2s após a 6 meses v47c
v48a str2 %2s Uso de preserv.masc.parc.Fixo (no últ. mês) v48a
v48b str2 %2s nos últimos 6 m) v48b
v49a str2 %2s Uso de preserv.femin.parc.Fixo(no últ.mês) v49a
v50a str2 %2s Uso de preserv.masc.parc.Eventual(últ.mês) v50a
v51a str2 %2s Uso de preserv.femin.parc.Eventual(últ.mês) v51a
v52 str2 %2s 52) exposição a situação de risco c/ estrang. V52
v53a str2 %2s Uso de drogas (no último mês) v53a
v54 str2 %2s 54) outras possibilidades de risco v54
v55c str2 %2s 55) sorologia anti-hiv, anterior? V55c
v55 byte %2.0f quantas? v55
v55a long %d se, sim, positiva, data da primeira v55a
v55b long %d se, sim, negativa, data da última v55b
v56a long %d 56) sorologia anti-hiv, nesta visita v56a
v56b str2 %2s resultado da sorologia v56b
9
v57 str2 %2s 57) aceitaria participar de algum estudo v57
v58 long %d 58) data de retorno v58
v59 str19 %19s 59) entrevistador v59
v60 str18 %18s 60) digitador v60
v61 str1 %1s 61) entrevista realizada pré-aconselhamento v61
v62 double %5.2f hora do término da entrevista v62
Observem o formato das variáveis: v24 (sexo) %2s (2 caracteres) ; v21(idade) %3.0f (3 dígitos);
v20(data de nascimento) %d (dd/mmm/aa) ; e v27(etnia) %2s (2 caracteres)
Produzir tabelas de freqüência para v24(sexo) e v27(etnia). Comando tabulate1 ou tab1.
tab1 v24 v27

-> tabulation of v24
24) sexo |
v24 | Freq. Percent Cum.
------------+-----------------------------------
1 | 199 61.61 61.61
2 | 124 38.39 100.00
------------+-----------------------------------
Total | 323 100.00
-> tabulation of v27
27) etnia |
------------+-----------------------------------
1 | 230 71.21 71.21
2 | 20 6.19 77.40
3 | 66 20.43 97.83
4 | 5 1.55 99.38
5 | 2 0.62 100.00
------------+-----------------------------------
Total | 323 100.00
Produzir tabela cruzada para v24 e v27. Comando tabulate ou tab.
tab v27 v24

27) etnia | 24) sexo v24
v27 | 1 2 | Total
-----------+----------------------+----------
1 | 144 86 | 230
2 | 15 5 | 20
3 | 35 31 | 66
4 | 5 0 | 5
5 | 0 2 | 2
-----------+----------------------+----------
Total | 199 124 | 323
Produzir medidas de tendência central para v21(idade). Comando summarize ou sum.
sum v21
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
v21 | 323 30.48916 10.41271 16 82
2.1 Transformação de variável string em variável numérica.
O comando destring converte variáveis string em variáveis numéricas.

A opção generate(newvarlist) cria nova variável; a opção replace altera a própria
10
variável sem criar outra.
Sintaxe : destring [varlist], {generate(newvarlist) | replace}
Exemplos: destring v24 , replace

destring v27 , generate(x27)
O comando encode converte variáveis string em variáveis numéricas, mas mamtém o

código alfabético da variável.
Sintaxe : encode varname [if exp] [in range], generate(newvar)
Exemplos: tab v44a1

sum v44a1
encode v44a1 , gen(x44a1)
tab x44a1
sum x44a1
encode v44a3 , gen(x44a3)
O comando generate cria uma nova variável. Variáveis string podem ter a aparência de
variáveis numéricas.
Sintaxe : generate [type] newvar[:lblname] = exp [if exp] [in range]
tab v29
29) renda |
familiar |
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 131 40.56 41.49
3 | 96 29.72 71.21
4 | 47 14.55 85.76
5 | 12 3.72 89.47
6 | 27 8.36 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
sum v29
-------------+--------------------------------------------------------
v29 | 0
Os números 1,2,3, ...,98 são códigos “1”, “2”, “3”, ..., “98” (v29 é do tipo string, formato str2).
Ver anexo-2 com a descrição dos códigos da variável v29.
gen x29 = real(v29)

tab x29
x29 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 131 40.56 41.49
3 | 96 29.72 71.21
4 | 47 14.55 85.76
5 | 12 3.72 89.47
6 | 27 8.36 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
11
Total | 323 100.00
sum x29
-------------+--------------------------------------------------------
x29 | 323 5.105263 13.90121 1 98
A variável x29 numérica, formato %9.0g
2.2 Transformação de variável numérica em string.
tab v21
21) idade |
------------+-----------------------------------
16 | 1 0.31 0.31
17 | 3 0.93 1.24
18 | 6 1.86 3.10
19 | 14 4.33 7.43
20 | 11 3.41 10.84
.
.
.
63 | 2 0.62 98.45
64 | 1 0.31 98.76
66 | 2 0.62 99.38
70 | 1 0.31 99.69
82 | 1 0.31 100.00
------------+-----------------------------------
Total | 323 100.00
Utilizar o comando generate criar a variável x21 com formato de string
gen str2 x21 = string(int(v21))
tab x21
------------+-----------------------------------
16 | 1 0.31 0.31
17 | 3 0.93 1.24
18 | 6 1.86 3.10
19 | 14 4.33 7.43
20 | 11 3.41 10.84
.
.
.
64 | 1 0.31 98.76
66 | 2 0.62 99.38
70 | 1 0.31 99.69
82 | 1 0.31 100.00
------------+-----------------------------------
Total | 323 100.00
sum v21 x21

-------------+--------------------------------------------------------
v21 | 323 30.48916 10.41271 16 82
x21 | 0
Observar os resultados do comando summarize para as variáveis v21 e x21.
12
2.3 Transformação de variável string em variável data.
Existem situações em que temos a variável no formato de string contendo datas e

queremos converte-la em formato de data.
Criar a variável dte(data da entrevista no formato de string ); comando generate
Atribuir novos valores para a dte; comando replace
Listar o conteúdo da dte ; comando list
Formatar a nova variável; comando format
Sintaxe dos comandos:
generate [type] newvar[:lblname] = exp [if exp] [in range]
replace oldvar = exp [if exp] [in range] [, nopromote ]
list [varlist] [if exp] [in range] [, options]

format varlist %fmt (fmt = %d para data)
gen dte = "15/07/05" in 1/5

(318 missing values generated)
replace dte = "20/07/05" in 6/10

(5 real changes made)
list dte in 1/10

+----------+
| dte |
|----------|
1. | 15/07/05 |
2. | 15/07/05 |
3. | 15/07/05 |
4. | 15/07/05 |
5. | 15/07/05 |
|----------|
6. | 20/07/05 |
7. | 20/07/05 |
8. | 20/07/05 |
9. | 20/07/05 |
10. | 20/07/05 |
|----------|
replace dte = "30/07/05" in 11/323

(313 real changes made)
list dte in 8/15

+----------+
| dte |
|----------|
8. | 20/07/05 |
9. | 20/07/05 |
10. | 20/07/05 |
|----------|
11. | 30/07/05 |
12. | 30/07/05 |
13. | 30/07/05 |
14. | 30/07/05 |
15. | 30/07/05 |
+----------+
13
list dte in 316/323
+----------+
| dte |
|----------|
|----------|
316. | 30/07/05 |
317. | 30/07/05 |
318. | 30/07/05 |
319. | 30/07/05 |
320. | 30/07/05 |
|----------|
321. | 30/07/05 |
322. | 30/07/05 |
323. | 30/07/05 |
+----------+
gen dte1 = date(dte, "dmy",2040) (criar dte1 = formato numérico)

(323 missing values generated)
format dte1 %d (converter dte1 em formato de data)
list dte dte1 in 1/10

+-----------------------
| dte dte1
|-----------------------
1. | 15/07/05 15jul2005
2. | 15/07/05 15jul2005
3. | 15/07/05 15jul2005
4. | 15/07/05 15jul2005
5. | 15/07/05 15jul2005
|-----------------------
6. | 15/07/05 15jul2005
7. | 15/07/05 15jul2005
8. | 15/07/05 15jul2005
9. | 15/07/05 15jul2005
10. | 15/07/05 15jul2005
|-----------------------
desc dte dte1

storage display value
variable name type format label variable label
-------------------------------------------------------------------
dte str8 %9s
dte1 float %d
2.4 Calcular diferença entre datas.
desc dte1 v1
-------------------------------------------------------------------------------
dte1 float %d
v1 long %d 1) data da entrevista v1
gen t = (dte1 – v1) (t = número de dias ; diferença entre datas )
list dte1 v1 t in 1/10

+-----------------------------+
14
| dte1 v1 t |
|-----------------------------|
1. | 15jul2005 01 Mar 05 136 |
2. | 15jul2005 03 Mar 05 134 |
3. | 15jul2005 03 Mar 05 134 |
4. | 15jul2005 03 Mar 05 134 |
5. | 15jul2005 03 Mar 05 134 |
|-----------------------------|
6. | 15jul2005 04 Mar 05 133 |
7. | 15jul2005 04 Mar 05 133 |
8. | 15jul2005 04 Mar 05 133 |
9. | 15jul2005 04 Mar 05 133 |
10. | 15jul2005 07 Mar 05 130 |
|------------------------------|
A diferença entre datas é calculada em dias.
Calcular variável tempo(t1) em anos:
gen t1 = (dte1 – v1)/365.25
list dte1 v1 t t1 in 1/10

+----------------------------------------+
| dte1 v1 t t1 |
|----------------------------------------|
1. | 15jul2005 01 Mar 05 136 .3723477 |
2. | 15jul2005 03 Mar 05 134 .366872 |
3. | 15jul2005 03 Mar 05 134 .366872 |
4. | 15jul2005 03 Mar 05 134 .366872 |
5. | 15jul2005 03 Mar 05 134 .366872 |
|----------------------------------------|
6. | 20jul2005 04 Mar 05 133 .3778234 |
7. | 20jul2005 04 Mar 05 133 .3778234 |
8. | 20jul2005 04 Mar 05 133 .3778234 |
9. | 20jul2005 04 Mar 05 133 .3778234 |
10. | 20jul2005 07 Mar 05 130 .3696099 |
|----------------------------------------|
format t1 %8.2f
+------------------------------------+
| dte1 v1 t t1 |
|------------------------------------|
1. | 15jul2005 01 Mar 05 136 0.37 |
2. | 15jul2005 03 Mar 05 134 0.37 |
3. | 15jul2005 03 Mar 05 134 0.37 |
4. | 15jul2005 03 Mar 05 134 0.37 |
5. | 15jul2005 03 Mar 05 134 0.37 |
|------------------------------------|
6. | 20jul2005 04 Mar 05 133 0.38 |
7. | 20jul2005 04 Mar 05 133 0.38 |
8. | 20jul2005 04 Mar 05 133 0.38 |
9. | 20jul2005 04 Mar 05 133 0.38 |
10. | 20jul2005 07 Mar 05 130 0.37 |
|------------------------------------|
Calcular variável tempo(t2) em meses:
gen t2 = (dte1 – v1)/30.44

format t2 %8.2f
list dte1 v1 t t1 t2 in 1/10
15
+-------------------------------------------+
| dte1 v1 t t1 t2 |
|-------------------------------------------|
1. | 15jul2005 01 Mar 05 136 0.37 4.47 |
2. | 15jul2005 03 Mar 05 134 0.37 4.40 |
3. | 15jul2005 03 Mar 05 134 0.37 4.40 |
4. | 15jul2005 03 Mar 05 134 0.37 4.40 |
5. | 15jul2005 03 Mar 05 134 0.37 4.40 |
|-------------------------------------------|
6. | 20jul2005 04 Mar 05 133 0.38 4.53 |
7. | 20jul2005 04 Mar 05 133 0.38 4.53 |
8. | 20jul2005 04 Mar 05 133 0.38 4.53 |
9. | 20jul2005 04 Mar 05 133 0.38 4.53 |
10. | 20jul2005 07 Mar 05 130 0.37 4.43 |
|-------------------------------------------|
Calcular diferença entre datas.

No exemplo abaixo ida = idade em anos; v20 = data de nascimento ;
v1 = data da entrevista; e v21 = idade em anos(informada pelo entrevistado)
gen ida = (v1 - v20)/365.25
list v1 v20 ida v21 in 1/10

+----------------------------------------+
| v1 v20 ida v21 |
|----------------------------------------|
1. | 23 Feb 05 17 Jan 84 21.10335 21 |
2. | 01 Mar 05 25 May 84 20.7666 20 |
3. | 03 Mar 05 26 Dec 42 62.18481 63 |
4. | 03 Mar 05 09 Dec 57 47.23066 47 |
5. | 08 Mar 05 30 Jul 83 21.60712 21 |
|----------------------------------------|
6. | 14 Mar 05 13 Jan 88 17.16632 17 |
7. | 15 Mar 05 20 Jan 23 82.14922 82 |
8. | 15 Mar 05 11 Oct 81 23.42505 23 |
9. | 23 Mar 05 22 Feb 81 24.0794 24 |
10. | 30 Mar 05 02 Oct 81 23.49076 23 |
format ida %5.2f (2 dígitos inteiros e dois decimais)
list v1 v20 ida v21 in 1/10

+-------------------------------------+
| v1 v20 ida v21 |
|-------------------------------------|
1. | 23 Feb 05 17 Jan 84 21.10 21 |
2. | 01 Mar 05 25 May 84 20.77 20 |
3. | 03 Mar 05 26 Dec 42 62.18 63 |
4. | 03 Mar 05 09 Dec 57 47.23 47 |
5. | 08 Mar 05 30 Jul 83 21.61 21 |
|-------------------------------------|
6. | 14 Mar 05 13 Jan 88 17.17 17 |
7. | 15 Mar 05 20 Jan 23 82.15 82 |
8. | 15 Mar 05 11 Oct 81 23.43 23 |
9. | 23 Mar 05 22 Feb 81 24.08 24 |
10. | 30 Mar 05 02 Oct 81 23.49 23 |
|-------------------------------------|
Formatando e arredondamento de variável numérica:
gen ida1 = ida

format ida1 %2.0f (2 dígitos inteiros)
list v1 v20 ida v21 ida1 in 1/5
+--------------------------------------------+
16
| v1 v20 ida v21 ida1 |
|--------------------------------------------|
1. | 23 Feb 05 17 Jan 84 21.10 21 21 |
2. | 01 Mar 05 25 May 84 20.77 20 21 |
3. | 03 Mar 05 26 Dec 42 62.18 63 62 |
4. | 03 Mar 05 09 Dec 57 47.23 47 47 |
5. | 08 Mar 05 30 Jul 83 21.61 21 22 |
gen ida2 = round((v1 - v20)/365.25) (round = função de arredondamento)
list v1 v20 ida v21 ida1 ida2 in 1/5

+---------------------------------------------------+
| v1 v20 ida v21 ida1 ida2 |
|---------------------------------------------------|
1. | 23 Feb 05 17 Jan 84 21.10 21 21 21 |
2. | 01 Mar 05 25 May 84 20.77 20 21 21 |
3. | 03 Mar 05 26 Dec 42 62.18 63 62 62 |
4. | 03 Mar 05 09 Dec 57 47.23 47 47 47 |
5. | 08 Mar 05 30 Jul 83 21.61 21 22 22 |
|---------------------------------------------------|
2.5 Recodificar, agrupar valores(códigos).
a) O comando recode agrupa, recodifica valores de variáveis numéricas.
Sintaxe: recode varlist (rule) [(rule) ...] [, generate(newvarlist) ]

+--------------------------------------------------------------------------------+
| rule | Example | Meaning |
|----------------+--------------+-------------------------------------------------|
|#=# |3=1 | 3 recodificado para 1 |
|##=# |2 6=9 | 2 and 6 recodificado para 9 |
| #/# = # | 1/5 = 4 | 1 até 5 recodificado para 4 |
| nonmissing = # | nonmiss = 8 | all other nonmissing to 8 |
| missing = # | miss = 9 | all other missings to 9 |
+--------------------------------------------------------------------------------+
tab v29
29) renda |
familiar |
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 131 40.56 41.49
3 | 96 29.72 71.21
4 | 47 14.55 85.76
5 | 12 3.72 89.47
6 | 27 8.36 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
gen x29 = real(v29) (x29 variável numérica)

desc v29 x29
-------------------------------------------------------------------------------
v29 str2 %2s 29) renda familiar v29
x29 float %9.0g
17
recode x29 1=2 5 6=3
(x29a: 28 changes made)
tab x29
------------+-----------------------------------
2 | 134 41.49 41.49
3 | 135 41.80 83.28
4 | 47 14.55 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
gen x29a = real(v29)

recode x29a 2 98=2 3/6=3, gen(y29)
tab y29
x29a | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 138 42.72 43.65
3 | 182 56.35 100.00
------------+-----------------------------------
Total | 323 100.00
recode x29a 2 98=2 3/6=3 if v24==”1”, gen(yy29) (para sexo = masculino)

tab yy29
RECODE of |
x29a | Freq. Percent Cum.
------------+-----------------------------------
1 | 1 0.50 0.50
2 | 78 39.20 39.70
3 | 120 60.30 100.00
------------+-----------------------------------
Total | 199 100.00
recode v21 min/19=1 20/29=2 30/39=3 40/49=4 50/max=5 , gen(v21a)

desc v21 v21a
-------------------------------------------------------------------------------
v21 byte %8.0g 21) idade v21
v21a byte %9.0g RECODE of v21 (21) idade v21)
tab v21a
RECODE of |
v21 ( |
21) idade |
v21) | Freq. Percent Cum.
------------+-----------------------------------
1 | 24 7.43 7.43
2 | 161 49.85 57.28
3 | 87 26.93 84.21
4 | 31 9.60 93.81
5 | 20 6.19 100.00
------------+-----------------------------------
Total | 323 100.00
2.6 Eliminar/manter registros ou variáveis.
Eliminar variáveis ou observações, comando drop.

18
drop varlist
drop if exp
drop in range [if exp]
Exemplos: drop in 1/20 (elimina da memória os registros especificados)
drop yy29 (elimina da memória a variável especificada)
gen v24a = real(v24) (criar v24a)

drop v24a (eliminar v24a)
gen v24a = real(v24) (criar novamente v24a)
drop if v24==”1” (elimina registros para sexo=masculino)
Manter variáveis ou observações, comando keep.
keep varlist
keep if exp
keep in range [if exp]
Exemplos: keep in 1/20 (mantém sómente os registros especificados)
keep v24 (mantém sómente a variável especificada)
keep if v24==”1” (mantém registros para sexo=masculino)
2.7 Inserindo rótulos(labels) para variáveis e códigos.
2.7.1 Atribuindo rótulos(labels) para as variáveis
Sintaxe: label variable varname ["label"]
Exemplos: label var v1 “data da entrevista”

label var v24 sexo
2.7.2 Atribuindo rótulos(labels) para os códigos
Sintaxe: label define lblname # "label" [# "label" ...] [, add modify nofix]
label values varname [lblname] [, nofix ]
Exemplos:
gen v24a = real(v24)

19
label define sex 1 masculino 2 feminino 3 transgenero 98 “prefere nao
responder” 99 ignorado 15 outro
label val v24a sex
tab v24a
v24a | Freq. Percent Cum.
---------------+-----------------------------------
masculino | 199 61.61 61.61
feminino | 124 38.39 100.00
---------------+-----------------------------------
Total | 323 100.00
label define esc 1 nenhum 2 "1 a 3 anos" 3 "4 a 7 anos" 4 "8 a 11 anos" 5 "12
anos e mais" 6 posgraduacao 98 "prefere nao responder" 99 ignorado 15 outro
label val v28 esc
tab v28
28) escolaridade v28 | Freq. Percent Cum.

----------------------+-----------------------------------
nenhum | 3 0.93 0.93
1 a 3 anos | 5 1.55 2.48
4 a 7 anos | 59 18.32 20.81
8 a 11 anos | 136 42.24 63.04
12 e mais | 110 34.16 97.20
posgraduacao | 9 2.80 100.00
----------------------+-----------------------------------
Total | 322 100.00
2.8 Salvando o arquivo-dta.
Clique no menu File, escolha a opção Save as... para salvar o arquivo-dta.
As novas variáveis serão salvas.
2.9 Salvando o arquivo-do.
Clique na “caixinha” localizada no canto superior esquerdo da janela Review para

salvar os comandos em um arquivo-do.
Para editar o aquivo-do utilize o botão Do-file editor.
20
3. Elaborando gráficos.
3.1 Gráfico de barras.
Sintaxe: graph bar yvars [if exp] [in range]

graph hbar yvars [[if exp] [in range]
tab v24, gen(sexo) (criar variáveis sexo1 e sexo2)
24) sexo |
------------+-----------------------------------
1 | 199 61.61 61.61
2 | 124 38.39 100.00
------------+-----------------------------------
Total | 323 100.00
gr bar sexo1 sexo2, ytitle(Proporção)

.6 .4
Propor��o
.2
0
mean of sexo1 mean of sexo2
tab v28
28) |
escolaridad |
e v28 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 5 1.55 2.48
3 | 59 18.32 20.81
4 | 136 42.24 63.04
5 | 110 34.16 97.20
6 | 9 2.80 100.00
------------+-----------------------------------
Total | 322 100.00
gr bar sexo1 sexo2, ytitle(Proporção) over(v28)

.8
.6
Propor��o
.4.2
0
1 2 3 4 5 6
mean of sexo1 mean of sexo2
21
tab v28 , gen(escola) (criar variáveis escola1 ,escola2, ... escola6)
28) |
escolaridad |
e v28 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 5 1.55 2.48
3 | 59 18.32 20.81
4 | 136 42.24 63.04
5 | 110 34.16 97.20
6 | 9 2.80 100.00
------------+-----------------------------------
Total | 322 100.00
gr bar escola1 escola2 escola3 escola4 escola5 escola6

.4
.3
.2
.1
0
mean of escola1 mean of escola2

gr bar escola1 escola2 escola3 escola4 escola5 escola6, over(v24)

.5
.4
.3
.2
.1
0
1 2
22
gr bar escola1 escola2 escola3 escola4 escola5 escola6, legend(label(1
"Nenhum") lab(2 "1 a 3 a") lab(3 "4 a 7 a" ) lab(4 "8 a 11 a") lab(5 "12 e + a") lab(6
"posgrad")) over(v24a)
.5
.4
.3
.2
.1
0
Masculino Feminino
Nenhum 1a3a
4a7a 8 a 11 a
12 e + a posgrad
3.2 Gráfico de torta(pie).
gr pie escola1 escola2 escola3 escola4 escola5 escola6
v28==nehuma v28==1 a 3 a
v28==4 a 7 a v28==8 a 11 a
v28==12 e + a v28==Posgrad
gr pie escol1 escol2 escol3 escol4 escol5 escol6, by(v24a)
Masculino Feminino
v28==nehuma v28==1 a 3 a
v28==4 a 7 a v28==8 a 11 a
v28==12 e + a v28==Posgrad
Graphs by x24
23
3.3 Gráfico boxplot.
Sintaxe: graph box yvars [if exp] [in range] [, options ]

graph hbox yvars [if exp] [in range] [, options ]
o <- outside values

o
adjacent line --+ - <- upper adjacent value

| |
whiskers | |
-| +---+ <- 75th percentile (upper hinge)
| | |
box | |---| <- median
| | |
-| +---+ <- 25th percentile (lower hinge)
whiskers | |
| |
adjacent line --+ - <- lower adjacent value
o <- outside value
gen v21a=v21
gr box v21a
80
60
40
20
gr box v21a, over(v24a)

80
60
40
20
Masculino Feminino
24
3.4 Gráfico de histograma.
Sintaxe: histogram varname [if exp] [in range]

[, [discrete_options|continuous_options] common_options ]
histogram v21a , normal
.05
.04
.03
Density
.02
.01
0
20 40 60 80
v21a
histogram v21a, normal by(v24a)
1 2
.06
.04
Density
.02
0
20 40 60 80 20 40 60 80
v21a
Density
normal v21a
Graphs by v24a
25
3.5 Gráfico de dispersão(scatter).
Sintaxe: scatter varlist [if exp] [in range] [, by(varlist)]
gen int v21g = v21

desc v21g v42a
-------------------------------------------------------------------------------
v21g int %8.0g
v42c int %8.0g na vida toda v42c
scatter v42c v21g if v42c<9998

1000
800
na vida toda v42c
400 600
200
0
20 40 60 80
v21g
scatter v42c v21g if v42c<9998 , by(v24a)
1 2
1000
na vida toda v42c
500
0
20 40 60 80 20 40 60 80
v21g
Graphs by v 24a
3.6 Salvando gráficos.
Para salvar gráficos em arquivos, posicione o cursor no gráfico, clique no botão direito
do mouse escolha a opção Save Graph ... com o botão esquerdo do mouse e digite um
nome para o arquivo.
26
4. Comandos mais utilizados.
4.1 Abrir/ler um banco de dados. O Stata abre/lê somente arquivos com extensão dta.
Se os dados estão em outro formato deve-se converter para o formato dta.
use filename [, clear nolabel ]
ou clique no botão Open(use) para abrir o banco de dados
Exemplo: use "C:\Bancos de Dados\Curso\fichasc_c.dta", clear
4.2 Abrir/criar/fechar um arquivo log, utilizado para armazenar os resultados.
log using filename [, append replace [ text | smcl ]]
ou clique no botão Begin log para abrir/criar/fechar um

arquivo log.
Exemplo: log using "C:\Bancos de Dados\Ficha_SC\teste10.log"

O arquivo log deverá ser fechado antes de encerrar uma
sessão de trabalho. Utilize o aplicativo Word para
manipular o arquivo log.
4.3 Visualizar a descrição/características do banco de dados.

describe [varlist]
ou clique no menu Data opção Describe data
Exemplo: describe ou desc

desc v21 v24 v28 v29
4.4 Produzir tabelas de freqüência simples e tabelas cruzadas.
freqüência simples:
tabulate varname [if exp] [in range]
tab1 varlist [if exp] [in range]
ou menu statistics, opção summarize tables, & tests
, Tables e One-way tables ou Multiple One-way tables
Exemplos: tab v28

tab v28 if v24==”1”
tab v28 if v24==”1” in 1/100
tab1 v28 v29 v30 v33
tab1 v28 v29 v30 v33 if v21<30
tabelas cruzadas:
tabulate varname1 varname2 [if exp]
[in range] [, all cell chi2 column exact row]
ou menu Statistics, opção Summarize tables, & tests
, Tables e Two-way tables...
onde,
all = todas opções estatísticas ; cell = porcentagem do total
chi2 = chi-quadrado de Pearson ; column = porcentagem da coluna
exact = chi-quadrado de Fisher ; row = porcentagem da linha
27
Exemplos: tab v28 v24
tab v28 v24 if v21 < 30
tab v28 v24 in 1/200
tab v28 v24 if v21<30 in 1/200
tab v28 v24 if v21<30 in 1/200, all
tab v28 v24 , row chi2
tab v28 v24 , row col cel chi2
tab v28 v24 if v21<30 in 1/200, chi2
tab v28 v24 , row col cel exact
tab v28 v24 , col cel chi2
4.5 Calcular medidas de tendência central.

summarize [varlist] [if exp] [in range] [,detail]
ou menu statistics, opção summarize tables, & tests

, Summarize statistics e Summarize statistics
Exemplos: summarize v21 ou sum v21

sum v21,detail ou sum v21, d
sum v21 if v21 < 50
sum v21 if v21 > 29 & v21 < 61
sum v21 v42a
sort v24 (ordenar por sexo)
by v24:sum v21 v42c v43, d
sort v28 (ordenar por escolaridade)
by v28:sum v46c
4.6 Criar/definir novas variáveis.

generate [type] newvar[:lblname] = exp [if exp] [in range]
onde, type pode ser:
byte | int | long | float | double | str | str1 |

str2 | ... | str80
ou menu Data opção Create or change variables ,

Create new variable
replace oldvar = exp [if exp] [in range]
list [varlist] [if exp] [in range]
Exemplos: Variáveis numéricas:

gen int v21a=v21^2
gen float v21b=v21^2
gen int v21c = (21^2)/3
gen float v21d = (v21^2)/3
list v21 v21a v21b v21c v21d in 1/5
format v21d %6.2f
list v21 v21a v21b v21c v21d in 1/5
replace v21a = (v21^2)/5
gen int v21e = (21^2)/3 if v24==”1”
28
Variáveis string (texto):
gen str ide = nri+v5+v7+v8
list ide nri v5 v7 v8 in 1/5
4.7 Eliminar/manter variáveis e observações(registros).
drop elimina as variáveis ou observações da memória.
keep mantém as variáveis ou observações na memória.
drop varlist
drop if exp
drop in range [if exp]
keep varlist
keep if exp
keep in range [if exp]
ou menu Data opção Variable utilities ,

Eliminate variables or observations
Exemplos: drop v21a v21b

drop v21c if v21c < 20
drop in 1/10
keep v21a v21b

keep v21c if v21c < 20
keep in 1/10
4.8 Agrupar/recodificar códigos(valore).
recode varlist (rule)[(rule) ...][, generate(newvarlist)]

+----------------------------------------------------------------------------------+
| rule | Example | Meaning |
|----------------+--------------+-------------------------------------------------|
|#=# |3=1 | 3 recodificado para 1 |
|##=# |2 6=9 | 2 e 6 recodificado para 9 |
| #/# = # | 1/5 = 4 | 1 até 5 recodificado para 4 |
| nonmissing = # | nonmiss = 8 | all other nonmissing to 8 |
| missing = # | miss = 9 | all other missings to 9 |
+--------------------------------------------------------------------------------+
ou menu Data opção Create or change variables, Other

variable transformation ... , Recode categorial variable
Exemplos: recode v21 min/20=1 21/30=2 31/max=3

recode v21 10/20=1 21/40=2 else=3
recode v42a v42b v42c (1/20=1) (21/50=2)(51/9997=3), gen(x42a x42b x42c)
recode x21 (1/29=1 "ate 29 anos")(30/max=2 "30 e + anos"), gen(x21b) label(x)
gen v29a = real(v29)
gen v29b = real(v29)
recode v29a (1 3 =1)(2 4/6=2)(else=9)
recode v29b (1 3 5=1)(else=.)
29
4.9 Definir/atribuir rótulos(nomes) para códigos e variáveis.
Label define lblname # "label" ... [, add modify]

label values varname [lblname]
label variable varname ["label"]
ou menu Labels&notes
Exemplos: label define cod1 1 Masculino 2 Feminino

label define cod2 1 sim 2 não 3 “sem inf.”
gen x24 = real(v24)
label val x24 cod1
gen x44 = real(v44)
gen x44k = real(v44k)
label val x44 cod2
label val x44k cod2
label define x 1 masc 2 fem, modify

label val x24 x
label var x24 Sexo

label var x44 “Tipo de exposição no último mês”
4.10 Arquivo-do.
Os arquivos tipo do, são utilizados para armazenar os comandos para uso posterior.
Numa sessão de trabalho, clique no canto superior esquerdo da janela Review para
salvar os comandos. Clique no botão Do-file editor para acessar os arquivos do.
Exemplo:
Para criar um arquivo do, clique no botão Do-file editor e digite as linhas abaixo.
use "C:\Banco de dados\Curso\fichasc_c.dta", clear

log using "C:\Banco de dados\Curso\teste.log"
tab1 v24 v26 v27 v28 v29 v31
list v21 v24 in 1/10
tab v28 v24, row col
tab v28, gen(esc)
gr bar esc1 esc2 esc3 esc4 esc5 esc6, over(v24)
4.11 Salvar arquivo-dta.
Os arquivos tipo dta(banco de dados) podem ser salvos utilizando o menu File, opção
Save as ... para criar um nome arquivo-dta com as variáveis e registros disponíveis na
memória.
30
5. Converter arquivo-rec para arquivo-dta.
O programa EpiData, cria arquivos no formato rec
O programa Stata abre somente arquivos no formato dta.
Siga os passos abaixo para converte arquivo-rec em arquivo-dta.
1) Acesse o programa EpiData, com duplo clique no ícone do programa.
2) Clique no botão 6.Exportar dados
3) Clique na opção Stata, uma janela será aberta para a escolha do arquivo a ser convertido.
4) Clique no botão Open e uma nova janela será exibida, clique em opções para escolher a
versão do programa Stata.
5) Clique no botão OK para completar a conversão.
6. Instalando o programa Stata.
Coloque na unidade de Cdrom o CD do programa Stata, versão 8 – Intercooled, caso não seja
iniciado o processo automático de instalação, dê um duplo clique no arquivo setup.exe
armazenado no CD. Após a instalação do programa um ícone será criado.
Clique no ícone para acessar o programa. No primeiro acesso serão solicitados os códigos de
resgistro.
7. Roteiro para tabular um banco de dados.
Abaixo está descrito um roteiro para tabular, produzir resultados de um banco de dados com o
programa Stata. O arquivo deverá estar no formato dta(item 5 Converter arquivos do formato
rec, do EpiData para o formato dta, do Stata).
1) Abrir o banco de dados no formato dta;

Comando Use ou botão Open(use)
2) Abrir, criar um arquivo log para armazenar os resultados e tabelas;

Comando Log using ou botão Begin log
3) Elaborar tabelas de freqüências simples para as variáveis;

Comandos tab ou tab1 ou menu Statistics para variáveis categóricas
Utilize o comando sum para produzir média, mediana, desvio-padrão para variáveis
quantitativas(contínuas)
31
4) Observar atentamente as tabelas de freqüências simples para elaborar descrição da
população em estudo;
5) Produzir tabelas cruzadas;

Comandos tab ou menu Statistics para variáveis categóricas
Utilize os comandos sort e by : sum para variáveis quantitativas(contínuas)
6) Produzir gráficos para ilustrar os resultados

Comandos graph bar ou graph pie ou histogram ou ... ou menu Graphics
7) Fechar o arquivo log.

Comando log close ou botão Close/suspend log
8) Salvar o arquivo dta se forão criadas novas variáveis.

Menu File , opção Save as
9) Abrir o arquivo log com o aplicativo Word.
32
8. Anexo-1 – arquivo-qes para a ficha Sócio-comportamental.
33
Área de Vacinas - Unidade de Desenvolvimento Tecnológico
PN de DST/Aids - MS
AVALIAÇÃO SÓCIO-COMPORTAMENTAL
1) Data da entrevista {V1} <dd/mm/yyyy> Hora do início da entrevista {v1a}

##.##
2) {N}úmero {R}egistro {I}dentificador ____________ 3) Tipo de documento {v3} __
4) Iniciais {v4} <A > 5) Código do Projeto {v5} _______
6) Unidade de Saúde {v6} ____ 7) Núcleo de Pesquisa {v7} __ 8) Estado {v8} <A >
20) Data de Nascimento {v20} <dd/mm/yyyy> 21) Idade {v21} ###(anos)
22) Munícipio de Residência {v22} <A > 23) Estado(residência){v23} <A

>
24) Sexo {v24} __ 25) Gestante {v25} __ Idade Gestacional {v25a} ##(mêses)
26) Estado Marital {v26} __ 27) Etnia {v27} __
28) Escolaridade {v28} ##(anos de estudo)
29) Renda Familiar {v29} __ 30) Número de pessoas na família {v30} ##
31) Situação Profissional {v31} __
AVALIAÇÃO
40) Vida sexual ativa {v40} __ Se sim, Há {v40a}### {v40b} # (código)
41) Comportamento sexual {v41} __
42) Número de parceiros sexuais:

no último mês {v42a} #### nos últimos 6 meses {v42b} #### na vida toda {v42c}
####
43) Idade da primeira relação sexual {v43} ## (anos)
44) Tipo de exposição:
no último mês {v44} _

1.Relação sexual {v44a1} <A>
2.UDI {v44b1} <A>
3.Transfusão sanguínea {v44c1} <A>
4.Hemofílico {v44d1} <A>
5.Acidente ocupacional {v44e1} <A>
6.Acidente comunitário {v44f1} <A>
15.Outro {v44h1} <A>
nos últimos 6 meses {v44k} _

2.UDI {v44b2} <A>
após 6 meses {v44l} _

2.UDI {v44b3} <A>
34
45) Características do parceiro(a)
no último mês {v45} _

1.UDI {v45a1} <A>
2.HSH {v45b1} <A>
3.HIV/Aids {v45c1} <A>
4.DST {v45d1} <A>
5.Profissional do sexo {v45e1} <A>
6.População prisional {v45f1} <A>
7.Caminhoneiros {v45g1} <A>
8.Mulheres sem estas caract. {v45h1} <A>
9.Homens sem estas caract. {v45i1} <A>
10.Pessoas desconhecidas {v45j1} <A>
15.Outros {v45k1} <A>
nos últimos 6 meses {v45n} _

1.UDI {v45a2} <A>
2.HSH {v45b2} <A>
4.DST {v45d2} <A>
15.Outros {v45k2} <A>
após 6 meses {v45o} _

1.UDI {v45a3} <A>
2.HSH {v45b3} <A>
4.DST {v45d3} <A>
15.Outros {v45h3} <A>
46) Número de relações sexuais por semana:

no último mês {v46a} #### nos últimos 6 meses {v46b} #### após a 6 meses {v46c}
####
47) Pratica sexual:

no último mês {v47a} __ nos últimos 6 meses {v47b} __ após a 6 meses {v47c}
__
48) Uso de preservativo masculino com parceiro estável/FIXO

__
49) Uso de preservativo feminino com parceiro estável/FIXO

__
50) Uso de preservativo masculino com parceiro EVENTUAL

35
__
51) Uso de preservativo feminino com parceiro EVENTUAL

__
52) Exposição a situação de risco com estrangeiros {v52} __
53) Uso de drogas:

no último mês {v53a} ___ nos últimos 6 meses {v53b} ___ após a 6 meses {v53c} ___
54) Outras possibilidades de risco {v54} __
55) Sorologia anti-HIV, anterior? {v55c} __ Quantas? {v55} ##
Se, sim, Positiva, Data da primeira {v55a} <dd/mm/yyyy>
Se, sim, Negativa, Data da última {v55b} <dd/mm/yyyy>

56) Sorologia anti-HIV, nesta visita/entrevista. Data {v56A} <dd/mm/yyyy> {v56B} __
57) Aceitaria participar de algum estudo ou pesquisa {v57} __
58) Data de Retorno {v58} <dd/mm/yyyy>
59) Entrevistador {v59} <A > 60) Digitador {v60} <A

>
61) Entrevista foi realizada pré-aconselhamento {v61} _
62) Hora do término da entrevista {v62} ##.##
36
9. Anexo-2 – dicionário das variáveis da ficha Sócio-comportamental.
37
Área de Vacinas - Unidade de Desenvolvimento Tecnológico
PN de DST/Aids - MS
AVALIAÇÃO SÓCIO-COMPORTAMENTAL
ARQUIVO DE DADOS: FichaSC.REC
Descrição do campos no arquivo de dados:
Nome Descrição Tipo do campo Largura Códigos/orientações

da variável da variável
-------------------------------------------------------------------------------------------------------
V1 Data da Data (dma) 10
entrevista
V1A Hora do início Numérico 5:2 Exemplos: 9:30 digitar 0930

da entrevista 12:15 digitar 1215
16:05 digitar 1605
NRI 2) Número Texto 12

Registro
Identificador
V3 3) Tipo de Texto 2 0: Número do Serviço

documento 1: RG
2: CPF
3: CARTA DE MOTORISTA
4: CARTEIRA DE TRABALHO
5: TITULO DE ELEITOR
6: DOCUMENTO ESCOLAR
V4 4) Iniciais Texto em 5
caixa alta
V5 5) Código do Texto 7
Projeto
38
-------------------------------------------------------------------------------------------------------
V6 6) Unidade de Texto 4 01 a 05 Partenon - RS

Saúde 06 a 10 PMPoa - RS
11 a 15 Florianópolis – SC
16 a 20 Itajaí - SC
21 a 25 Curitiba – PR
26 a 30 São Paulo - SP
31 a 35 Ribeirão Preto - SP
36 a 40 Recife - PE
41 a 45 Fortaleza - CE
46 a 50 Manaus - AM
51 a 55 Brasília - DF
V7 7) Núcleo de Texto em 1 A Partenon - RS

Pesquisa caixa alta B PMPoa - RS
C Florianópolis - SC
D Itajaí - SC
E Curitiba – PR
F São Paulo - SP
G Ribeirão Preto - SP
H Recife - PE
I Fortaleza - CE
J Manaus - AM
K Brasília - DF
V8 8) Estado Texto em 2
Caixa alta Legal: Sigla dos ESTADOS
V20 20) Data de Data (dma) 10

Nascimento
V21 21) Idade Numérico 3
39
V22 22) Munícipio Texto em 26
de Residência caixa alta
V23 23) Estado Texto em 2 Legal: Sigla dos Estados

(residência) caixa alta
-------------------------------------------------------------------------------------------------------
V24 24) Sexo Texto 2 1: MASCULINO

2: FEMININO
3: TRANSGÊNEROS
98: PREFERE NÃO RESPONDER
99: IGNORADO
15: OUTRO
V25 25) Gestante Texto 2 1: SIM

2: NÃO
3: NÃO SABE
99: IGNORADO
15: OUTRO
V25A 25)Idade Numérico 2
Gestacional
V26 26) Estado Texto 2 1: CASADO/COM-COMPANHEIRO

Marital 2: SOLTEIRO/SEM-COMPANHEIRO
99: IGNORADO
15: OUTRO
27 27) Etnia Texto 2 1: BRANCA

2: NEGRA
3: PARDA/MORENA
4: AMARELA/ORIENTAL
5: INDÍGENA
99: IGNORADO
15: OUTRO
40
V28 28)Escolaridade Numérico 2 1: NENHUM
2: DE 1 A 3
3: DE 4 A 7
4: DE 8 A 11
5: ACIMA DE 12
6: PÓS GRADUAÇÃO
99: IGNORADO
15: OUTRO
-------------------------------------------------------------------------------------------------------
V29 29) Renda Texto 2 1: MENOS DE 1 SM

Familiar 2: DE 1 A 2.9 SM
3: DE 3 A 5.9 SM
4: DE 6 A 10.9 SM
5: MAIS DE 11 SM
6: NÃO HÁ RENDIMENTO
99: IGNORADO
V30 30) Número de Numérico 2
pessoas na
família
V31 31) Situação Texto 2 1: SÓ ESTUDA

Profissional 2: DO LAR
3: ASSALARIADO
4: AUTÔNOMO
5: TRABALHO INFORMAL
6: DESEMPREGADO
7: APOSENTADO/PENSIONISTA
99: IGNORADO
15: OUTRO
V40 40)Vida sexual Texto 2 1: SIM

ativa 2: NÃO, NUNCA TEVE RELAÇÃO
99: IGNORADO
15: OUTRO
41
V40A Se sim, Há Numérico 3
V40B v40b Numérico 1 1: SEMANAS

2: MESES
3: ANOS
V41 41)Comportamento Texto 2 1: HETEROSSEXUAL

sexual 2: HOMOSSEXUAL
3: BISSEXUAL
99: IGNORADO
15: OUTRO

-------------------------------------------------------------------------------------------------------
V42A, 42) Número de parceiros. Numérico 4 9998: Prefere não responder

V42B, No último mês 9999: ignorado
V42C últimos 6 meses
vida toda
V43 43)Idade da Numérico 2

primeira relação
Sexual
V44, 44) Relação sexual. Texto 1 1: sim

V44K, no último mês , 2: não
V44L últimos 6 meses 3: prefere não responder
vida toda
V44A1 Relação Texto em 1 S, N

até sexual caixa alta
V44H3
V45, 45) Características Texto 1 1: sim

V45N, do parceir(o)a. 2: não
V45O no último mês 3: prefere não responder
últimos 6 meses
vida toda
42
V45A1 Carcaterísticas Texto em 1 S, N
até do parceiro(a). caixa alta
V45K3 no último mês
últimos 6 meses
vida toda
V46A, 46) Número de Numérico 4 9998: Prefere não responder

V46B, relações sexuais 9999: ignorado
V46C por semana.
no último mês
últimos 6 meses
vida toda

-------------------------------------------------------------------------------------------------------
V47A, 47)Pratica sexual. Texto 2 1: oral

V47B, no último mês 2: vaginal
V47C últimos 6 meses 3 "anal ativo"
vida toda 4 "anal passivo"
5 “oral+vaginal”
6 "oral+anal ativo"
7 "oral+anal passivo"
8 “oral+vaginal+anal ativo”
9 oral+vaginal+anal passivo”
10 "oral+anal ativo + anal passivo"
11 "oral+vaginal+anal ativo + anal passivo"
12 "vaginal+anal ativo"
13 "vaginal+anal passivo"
14 "vaginal+anal ativo+anal passivo"
15 "anal ativo + anal passivo"
98 "prefere não responder"
99 ignorado
95 outros
V48A 48 a 51) Uso de Texto 2 1: usou sempre, durante toda a relação

até preservativos . 2: usou sempre, apenas para ejaculação
V51C 3: usou, mas nem sempre
no último mês 4: não usou
últimos 6 meses 5: não se aplica
43
vida toda 98: prefere não responder
99: ignorado
15: outro
V52 52) Eposição a Texto 2 1: SIM, CONTINENTE AMERICANO

situação de 2: SIM, CONTINENTE EUROPEU
risco com 3: SIM, CONTINENTE AFRICANO
estrangeiros. 4: SIM, CONTINENTE ASIATICO
5: SIM, OCEANIA
6: SIM, MAS NÃO SABE
7: NÃO SABE
8: NUNCA
99: IGNORADO
15: OUTRO

-------------------------------------------------------------------------------------------------------
V53A, 53) Uso de drogas. Texto 3 1 CRACK

V53B, 2 "COCAINA ASP"
V53C 3 ALCOOL
no último mês 4 ANFETAMINA
últimos 6 meses 5 ECSTASY
vida toda 6 MACONHA
7 CIGARRO
x1 "=========================== "
8 " Crack+ CocaAsp+ "
9 " Crack+ Alcool+ "
10 " Crack+ Anfetam+ "
11 " Crack+ Ecstasy+ "
12 " Crack+ Maconha+ "
13 " Crack+ Cigarro "
14 " Crack+ CocaAsp+Alcool+ "
15 " Crack+ CocaAsp+Anfetam+ "
16 " Crack+ CocaAsp+Ecstasy+ "
17 " Crack+ CocaAsp+Maconha+ "
18 " Crack+ CocaAsp+Cigarro "
19 " Crack+ Alcool+ Anfetam+ "
20 " Crack+ Alcool+ Ecstasy+ "
44
21 " Crack+ Alcool+ Maconha+ "
22 " Crack+ Alcool+ Cigarro "
23 " Crack+ Anfetam+Ecstasy+ "
24 " Crack+ Anfetam+Maconha+ "
25 " Crack+ Anfetam+Cigarro "
26 " Crack+ Ecstasy+Maconha+ "
27 " Crack+ Ecstasy+Cigarro "
28 " Crack+ Maconha+Cigarro "
29 " Crack+ CocaAsp+Alcool+ Anfetam+ "
30 " Crack+ CocaAsp+Alcool+ Ecstasy+ "
31 " Crack+ CocaAsp+Alcool+ Maconha+ "
32 " Crack+ CocaAsp+Alcool+ Cigarro "
33 " Crack+ CocaAsp+Anfetam+Ecstasy+ "
34 " Crack+ CocaAsp+Anfetam+Maconha+ "
35 " Crack+ CocaAsp+Anfetam+Cigarro "
36 " Crack+ CocaAsp+Ecstasy+Maconha+ "
37 " Crack+ CocaAsp+Ecstasy+Cigarro "
38 " Crack+ CocaAsp+Maconha+Cigarro "
39 " Crack+ Alcool+ Anfetam+Ecstasy+ "
40 " Crack+ Alcool+ Anfetam+Maconha+ "
41 " Crack+ Alcool+ Anfetam+Cigarro "
42 " Crack+ Alcool+ Ecstasy+Maconha+ "
43 " Crack+ Alcool+ Ecstasy+Cigarro "
44 " Crack+ Alcool+ Maconha+Cigarro "
45 " Crack+ Anfetam+Ecstasy+Maconha+ "
46 " Crack+ Anfetam+Ecstasy+Cigarro "
47 " Crack+ Anfetam+Maconha+Cigarro "
48 " Crack+ Ecstasy+Maconha+Cigarro "
49 " Crack+ CocaAsp+Alcool+ Anfetam+Ecstasy+ "
50 " Crack+ CocaAsp+Alcool+ Anfetam+Maconha+ "
51 " Crack+ CocaAsp+Alcool+ Anfetam+Cigarro "
52 " Crack+ CocaAsp+Alcool+ Ecstasy+Maconha+ "
53 " Crack+ CocaAsp+Alcool+ Ecstasy+Cigarro "
54 " Crack+ CocaAsp+Alcool+ Maconha+Cigarro "
55 " Crack+ CocaAsp+Anfetam+Ecstasy+Maconha+ "
56 " Crack+ CocaAsp+Anfetam+Ecstasy+Cigarro "
57 " Crack+ CocaAsp+Anfetam+Maconha+Cigarro "
58 " Crack+ CocaAsp+Anfetam+Ecstasy+Maconha+ "
59 " Crack+ CocaAsp+Anfetam+Ecstasy+Cigarro "
60 " Crack+ Alcool+ Anfetam+Ecstasy+Maconha+ "
61 " Crack+ Alcool+ Anfetam+Ecstasy+Cigarro "
62 " Crack+ Alcool+ Anfetam+Maconha+Cigarro "
63 " Crack+ Alcool+ Ecstasy+Maconha+Cigarro "
64 " Crack+ Anfetam+Ecstasy+Maconha+Cigarro "
65 " Crack+ CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+ "
66 " Crack+ CocaAsp+Alcool+ Anfetam+Ecstasy+Cigarro "
67 " Crack+ CocaAsp+Alcool+ Anfetam+Maconha+Cigarro "
68 " Crack+ Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
45
69 " Crack+ CocaAsp+Alcool+ Ecstasy+Maconha+Cigarro "
70 " Crack+ CocaAsp+Anfetam+Ecstasy+Maconha+Cigarro "
71 " Crack+ CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x2 ======================================================
72 " CocaAsp+Alcool+ "
73 " CocaAsp+Anfetam+ "
74 " CocaAsp+Ecstasy+ "
75 " CocaAsp+Maconha+ "
76 " CocaAsp+Cigarro "
77 " CocaAsp+Alcool+ Anfetam+ "
78 " CocaAsp+Alcool+ Ecstasy+ "
79 " CocaAsp+Alcool+ Maconha+ "
80 " CocaAsp+Alcool+ Cigarro "
81 " CocaAsp+Anfetam+Ecstasy+ "
82 " CocaAsp+Anfetam+Maconha+ "
83 " CocaAsp+Anfetam+Cigarro "
84 " CocaAsp+Ecstasy+Maconha+ "
85 " CocaAsp+Ecstasy+Cigarro "
86 " CocaAsp+Maconha+Cigarro "
87 " CocaAsp+Alcool+ Anfetam+Ecstasy+ "
88 " CocaAsp+Alcool+ Anfetam+Maconha+ "
89 " CocaAsp+Alcool+ Anfetam+Cigarro "
90 " CocaAsp+Alcool+ Ecstasy+Maconha+ "
91 " CocaAsp+Alcool+ Ecstasy+Cigarro "
92 " CocaAsp+Alcool+ Maconha+Cigarro "
93 " CocaAsp+Anfetam+Ecstasy+Maconha+ "
94 " CocaAsp+Anfetam+Ecstasy+Cigarro "
95 " CocaAsp+Anfetam+Maconha+Cigarro "
96 " CocaAsp+Ecstasy+Maconha+Cigarro "
97 " CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+ "
98 " CocaAsp+Alcool+ Anfetam+Ecstasy+Cigarro "
99 " CocaAsp+Alcool+ Ecstasy+Maconha+Cigarro "
100 " CocaAsp+Anfetam+Ecstasy+Maconha+Cigarro "
101 " CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x3 ====================================================
102 " Alcool+ Anfetam+ "
103 " Alcool+ Ecstasy+ "
104 " Alcool+ Maconha+ "
105 " Alcool+ Cigarro "
106 " Alcool+ Anfetam+Ecstasy+ "
107 " Alcool+ Anfetam+Maconha+ "
108 " Alcool+ Anfetam+Cigarro "
109 " Alcool+ Ecstasy+Maconha+ "
110 " Alcool+ Ecstasy+Cigarro "
111 " Alcool+ Maconha+Cigarro "
112 " Alcool+ Anfetam+Ecstasy+Maconha+ "
113 " Alcool+ Anfetam+Ecstasy+Cigarro "
114 " Alcool+ Anfetam+Maconha+Cigarro "
46
115 " Alcool+ Ecstasy+Maconha+Cigarro "
116 " Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x4 ================================================
117 " Anfetam+Ecstasy+ "
118 " Anfetam+Maconha+ "
119 " Anfetam+Cigarro "
120 " Anfetam+Ecstasy+Maconha+ "
121 " Anfetam+Ecstasy+Cigarro "
122 " Anfetam+Maconha+Cigarro "
123 " Anfetam+Ecstasy+Maconha+Cigarro "
x5 =========================================
124 " Ecstasy+Maconha+ "
125 " Ecstasy+Cigarro "
126 " Ecstasy+Maconha+Cigarro "
x5 "======================================== "
127 " Maconha+Cigarro "
777 "NUNCA USOU"
998 "prefere não responder"
999 ignorado
995 outro
Nome Descrição Tipo Largura Códigos/orientações

da variável da variável do campo
-------------------------------------------------------------------------------------------------------
V54 54) Outras Texto 3 1: ESTUPRO/VIOLÊNCIA SEXUAL

possibilidades 2: DST
de risco. 3: ROMPIMENTO/DESLIZAMENTO DE PRESERVATIVO
4: COMPARTILHAMENTO DE EQUIP.PARA USO DE DROGAS
5: ESTUPRO/VIOLÊNCIA SEXUAL+DST
6: ESTUPRO/VIOLÊNCIA SEXUAL+ROMPIMENTO ...
7: ESTUPRO/VIOLÊNCIA SEXUAL+COMPARTILHA ...
8: ESTUPRO/VIOLÊNCIA SEXUAL+DST+ROMPIMWNTO ...
9: ESTUPRO/VIOLÊNCIA SEXUAL+DST+COMPARTILHAMENTO ...
10: ESTUPRO/VIOLÊNCIA SEXUAL+DST+ROMP.+COMPART.
11: DST+ROMPIMENTO ...
12: DST+COMPARTILHAMENTO ...
13: DST+ROMPIMENTO...+COMPARTILHAMENTO...
14: ROMPRIMENTO...+COMPARTILHAMENTO ...
47
98: prefere não responder
99: ignorado
15: outro

-------------------------------------------------------------------------------------------------------
V55C 55) Sorologia Texto 2 1: sim, positiva

anti-HIV, anterior? 2: sim, negativa
3: não
4: indeterminada
5: não sabe
98: prefere não responder
99: ignorado
V55 55) Quantas? Numérico 2
V55A 55)Se, sim, Data (dma) 10

Positiva, Data
da primeira
V55B 55)Se, sim, Data (dma) 10

Negativa, Data
da última
V56A 56) Sorologia Data (dma) 10 Anotar posteriormente

anti-HIV, nesta
visita/entrevista
56B 56) Resultado Texto 2 1: sim, positiva

2: sim, negativa
3: não
4: indeterminada
99: ignorado
V57 57) Aceitaria Texto 2 1: SIM

48
participar de 2: NÃO
Estudo ou 15: OUTRO
pesquisa
V58 58) Data de Data (dma) 10

Retorno

-------------------------------------------------------------------------------------------------------
V59 59) Texto em 19

Entrevistador caixa alta
V60 60) Digitador Texto em 18

caixa alta
V61 61) Entrevista Texto 1 1: SIM

foi realizada 2: NÃO
pré-aconselhamento 9: ignorado
V62 62) Hora do Numérico 5:2 Exemplos: 9:30 digitar 0930

término da 12:15 digitar 1215
entrevista 16:05 digitar 1605
49
10. Anexo-3 – Conceitos básicos de estatítsica.
Índice
Análise descritiva. 51
Medidas de tendência central. 51
Testes de hipóteses. 52
Considereções da validade do teste Qui-Quadrado de Pearson. 52
Manipulação de variáveis contínuas. 53
Construção de intervalos de confiança para a média. 53
Comparação entre médias de duas amostras independentes. 54
Considerações a respeito do teste t de Student. 54
Comparação entre médias de duas amostras dependentes. 55
Relação entre duas variáveis contínuas. 56
Correlação linear de Pearson. 56
Regressão linear. 58
Estratificação e regressão logística 61
Controle de variável de confusão. 61
Estratificação. 62
Análise estratificada. 63
Análise Multivariada (modelo de regressão logística). 64
50
Análise descritiva
Após a coleta de dados e a digitação dos mesmos em um banco de dados apropriado, o próximo passo é a
análise descritiva. Esta etapa é fundamental, pois uma análise descritiva detalhada fornece ao pesquisador
toda a informação contida no conjunto de dados. Neste enfoque, procura-se obter a maior quantidade possível
de informação, buscando responder às questões que estão sendo pesquisadas.
As variáveis podem ser classificadas em contínuas ou categóricas. Por variável contínua (ou quantitativa)
entende-se as variáveis que podem assumir todos os valores possíveis dentro de um limite especificado.
Variável categórica (ou qualitativa) é aquela que pode ser classificada em categorias separadas e que não
assumem valores intermediários, como por exemplo, sexo e estado civil.
Em geral, uma análise descritiva dos dados é feita com base em medidas de posição e variabilidade. Para
variáveis contínuas, as medidas comumente utilizadas são as medidas de tendência central, enquanto as
variáveis categóricas são sumarizadas por meio de medidas de freqüência.
Comandos: tabulate1 varname1 varname2 ... para as variáveis categóricas; e
summarize varname1 varname2 ... para as variáveis contínuas
Medidas de tendência central:
média aritmética: é a soma de todas as observações dividida pelo número de observações.
mediana: valor central de uma distribuição. Para se obter a mediana, ordena-se as observações em ordem
crescente. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais
(n/2 e [(n/2)+1], onde n é o número de observações total da amostra. Se o número de observações for ímpar, a
mediana será o valor na posição (n + 1)/2.
moda: é o valor com a maior freqüência entre todas as observações.
freqüência: é o número de vezes em que um valor ocorre.
Comando: summarize varname1 varname2 ...
51
Testes de hipóteses
Testes de hipóteses consistem em testar a significância estatística e quantificar o grau em que a variabilidade
da amostra pode ser responsável pelos resultados observados no estudo. Para isto, define-se uma hipótese nula
(H0) e uma hipótese alternativa (Ha), que podem representar, por exemplo:
H0 : não existe diferença entre exposição e doença
Ha: existe diferença entre exposição e doença.
Comando: tabulate varname1 varname2
Considerações a respeito da validade do teste Qui-quadrado de Pearson
O teste Qui-quadrado de Pearson segue, aproximadamente, um distribuição chamada Qui-quadrado ( 2 ).

Para amostras grandes esta suposição é razoável. No entanto, as seguintes regras podem ser usadas para
garantir a validade do uso do teste:
 para tabelas 2 x 2, o teste 2 pode ser usado :

- se o tamanho total da amostra (N) é maior do que 40,
- se N está entre 20 e 40 e o menor valor esperado é maior ou igual a 5
 para tabelas de dimensões maiores :
- o teste 2 é válido se não mais do que 20% dos valores esperados forem menores do que 5 e nenhum
for menor do que 1.
Caso o teste 2 não seja adequado, uma opção é utilizar o teste exato de Fisher obtido com a opção exact.
Comando: tabulate varname1 varname2, [row col cell] [ chi exact]
52
Manipulação de variáveis contínuas
Construção de intervalos de confiança para a média
A média é uma medida pontual e não fornece nenhuma informação a respeito da variabilidade dos
dados. Este procedimento não permite julgar qual a possível magnitude do erro que estamos
cometendo. Daí surge a idéia de construir o intervalo de confiança, que é definido como o intervalo
dentro do qual se encontra a verdadeira magnitude do efeito com um certo grau de certeza.
Comando: ci varname1 varname2 ...
O exemplo abaixo ilustra a construção do intervalo de confiança (IC) para a média da variável
idade do estudo de Transtornos mentais em motorista e cobradores da Grande São Paulo(Souza,
MFM – 1996).
ci idade
Variable | Obs Mean Std. Err. [95% Conf. Interval]

-------------+-------------------------------------------------------------
idade | 800 37.69 .3721263 36.95954 38.42046
Com base na amostra deste estudo, podemos dizer, com 95% de confiança, que o verdadeiro valor
para a idade média dos motoristas e cobradores está entre 37,0 e 38,4 anos.
Note que, quando não especificamos um determinado nível de confiança, o programa assume
 = 95% para o cálculo do intervalo. No entanto, é possível mudar este valor usando a opção
level.
No exemplo abaixo, o IC foi construído com confiança de 90%.
ci idade, level(90)
Variable | Obs Mean Std. Err. [90% Conf. Interval]

-------------+-------------------------------------------------------------
idade | 800 37.69 .3721263 37.0772 38.3028
O IC também pode ser utilizado para testar se a média de interesse é estatisticamente igual, com
um certo coeficiente de confiança, a um determinado valor de interesse.
De maneira análoga, podemos fazer um teste de hipótese para avaliar a mesma questão: “Será
que a idade média dos motoristas e cobradores é estatisticamente diferente de 35 anos?”
Para isto, podemos usar o teste t de Student :
53
ttest idade = 35
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
idade | 800 37.69 .3721263 10.52532 36.95954 38.42046
------------------------------------------------------------------------------
Degrees of freedom: 799
Ho: mean(idade) = 35
Ha: mean < 35 Ha: mean ~= 35 Ha: mean > 35

t = 7.2287 t = 7.2287 t = 7.2287
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
Comparação entre médias de duas amostras independentes
Suponha agora que você queira avaliar se a idade média difere segundo a função do
trabalhador(Souza,MF – 1996). Neste caso, utilize a opção by(fun):
ttest idade, by(fun)
Two-sample t test with equal variances
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
---------+--------------------------------------------------------------------
diff | 6.482081 .7097834 5.088818 7.875344
------------------------------------------------------------------------------
Degrees of freedom: 798
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0

t = 9.1325 t = 9.1325 t = 9.1325
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
Considerações a respeito da validade do teste t de Student
O teste t assume que a distribuição da variável resposta é aproximadamente normal e o desvio

padrão é o mesmo em cada grupo a ser comparado.
Então, no caso acima, estamos assumindo que o desvio padrão da variável IDADE (variável
resposta) é o mesmo para motoristas e cobradores. Esta suposição precisa ser verificada, o que
pode ser feito com o comando:
sdtest idade, by(fun)
54
Variance ratio test
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
------------------------------------------------------------------------------
Ho: sd(motorist) = sd(cobrador)
F(422,376) observed = F_obs = 0.589

F(422,376) lower tail = F_L = F_obs = 0.589
F(422,376) upper tail = F_U = 1/F_obs = 1.697
Ha: sd(1) < sd(2) Ha: sd(1) ~= sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0000 P > F_obs = 1.0000
Quando o teste acima (teste de homocedasticidade) indicar que as variâncias não são iguais nos
dois grupos, devemos usar um teste que considere esta desigualdade. Isto pode ser feito com o
uso da opção unequal:
ttest idade, by(fun) unequal
Two-sample t test with unequal variances
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
---------+--------------------------------------------------------------------
diff | 6.482081 .7204279 5.06763 7.896533
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 702.063
Ho: mean(motorist) - mean(cobrador) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0

t = 8.9975 t = 8.9975 t = 8.9975
P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000
Comparação entre médias de duas amostras dependentes
Quando as amostras não são independentes dizemos que as observações são correlacionadas e
neste caso, o teste t-pareado é mais indicado pois leva em conta a correlação existente entre as
observações.
Um exemplo de amostras dependentes é o estudo onde dois observadores diferentes fizeram

medições da prega cutânea de 15 indivíduos distintos. As medidas são observadas no mesmo
indivíduo, portanto, dizemos que as amostras dos 2 observadores são dependentes.
Neste arquivo, os valores foram cadastrados de modo que cada indivíduo tem seus dados
representados em uma linha diferente. As variáveis são descritas a seguir:
id = identificação do indivíduo
55
observA = medida da prega cutânea segundo o observador A
observB = medida da prega cutânea segundo o observador B
Para realizar o teste t-pareado basta digitar
ttest observa=observb
Paired t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
observa | 15 23.84667 2.041145 7.905321 19.46885 28.22449
observb | 15 21.56667 1.842221 7.134891 17.6155 25.51784
---------+--------------------------------------------------------------------
diff | 15 2.28 .5819672 2.253949 1.031805 3.528196
------------------------------------------------------------------------------
Ho: mean(observa - observb) = mean(diff) = 0
Ha: mean(diff) < 0 Ha: mean(diff) ~= 0 Ha: mean(diff) > 0

t = 3.9177 t = 3.9177 t = 3.9177
P < t = 0.9992 P > |t| = 0.0015 P > t = 0.0008
Relação entre duas variáveis contínuas
Correlação linear de Pearson
Em muitas situações, é de interesse quantificar a força da relação linear entre duas variáveis contínuas, sem
designar uma como resposta e outra como explicativa.
O grau desta associação pode ser medido com o uso do coeficiente de correlação linear de Pearson (r), que
leva este nome pois foi descrito por Pearson. A correlação entre duas variáveis é positiva se valores mais altos
de uma variável estão associados a valores mais altos da outra, e é negativa se os valores de uma variável
crescem enquanto os da outra diminuem. O coeficiente de correlação próximo do zero significa que não existe
uma relação linear entre as duas variáveis.
O coeficiente de correlação varia de –1 a +1, sendo:
+1: associação positiva perfeita
0: ausência de associação
-1: associação negativa perfeita
Exemplo:
56
Em um estudo obteve-se as informações: volume plasmático e peso dos pacientes.
Verificar se existe uma relação linear entre as variáveis volume plasmático e peso.
A melhor forma de iniciar o estudo da possível relação entre estas duas variáveis contínuas é construir um
gráfico de dispersão, utilizando o comando:
scatter volume peso

3.6
3.4
3.2
volume
3
2.8
2.6
50 60 70 80 90
peso
Observando o gráfico acima, você acha que existe uma correlação linear entre o volume
plasmático e o peso dos pacientes incluídos neste estudo?
Para obter o valor do coeficiente de correlação de Pearson podemos utilizar o comando correlate
(que pode ser abreviado como corr):
corr peso volume
. corr peso volume

(obs=20)
| peso volume
-------------+------------------
peso | 1.0000
volume | 0.7803 1.0000
A saída apresenta o número de pacientes utilizados para o cálculo (obs = 20) e o coeficiente de
correlação linear entre as variáveis peso e volume, isto é, r = 0,78.
57
É possível obter os coeficientes de correlação linear entre muitas variáveis contínuas do mesmo
estudo. Para isto, basta digitar os nomes das variáveis após o comando corr (por exemplo, corr
var1 var2 var3).
Pode ser usado também o comando pwcorr (pairwise correlation), que produz o mesmo resultado
e permite o uso da opção sig que apresenta o nível de significância do coeficiente de correlação
apresentado.
pwcorr volume peso, sig
| volume peso
-------------+------------------
volume | 1.0000
|
|
peso | 0.7803 1.0000
| 0.0000
|
A saída acima apresenta, abaixo do coeficiente de correlação (r = 0,78), o nível de significância (p

= 0,0000).
Regressão linear
A regressão linear apresenta a equação da reta que melhor descreve como a variável y aumenta
(ou diminui) com um aumento na variável x. A escolha de qual será a variável a ser chamada de y
é importante porque, diferentemente da correlação, as duas alternativas não fornecem o mesmo
resultado. A variável y é comumente denominada variável dependente, e x é a variável
independente ou explicativa. A técnica de regressão linear permite:
- estudar a forma da relação entre x e y; e
- obter o valor esperado de y quando conhecemos apenas o valor de x.
A equação da reta de regressão é:
58
y = a + bx
onde a é o intercepto e b é a inclinação da reta.
a (intercepto): é o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0.
b (inclinação): mostra o aumento em y correspondente ao incremento de uma unidade em x.
y
y = a + bx
b
1
0 x
Exemplo:
Em um estudo obteve-se as informações: volume plasmático e peso dos pacientes.
Utilizar a técnica de regressão linear para obter a reta que melhor exprime a relação linear entre o
peso e o volume plasmático dos indivíduos incluídos no banco de dados. Nossa variável
independente (x) será o peso e a variável dependente (ou resposta) será o volume plasmático (y).
Para fazer a regressão linear no STATA utilizaremos o comando regress. Para executarmos este
comando, a variável dependente aparece em primeiro lugar, seguida da variável explicativa:
regress volume peso
Source | SS df MS Number of obs = 20

-------------+------------------------------ F( 1, 18) = 28.03
Model | .967837779 1 .967837779 Prob > F = 0.0000
Residual | .621562203 18 .034531234 R-squared = 0.6089
-------------+------------------------------ Adj R-squared = 0.5872
Total | 1.58939998 19 .083652631 Root MSE = .18583
------------------------------------------------------------------------------
volume | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
peso | .0204617 .003865 5.29 0.000 .0123417 .0285817
_cons | 1.552716 .2858553 5.43 0.000 .9521564 2.153276
------------------------------------------------------------------------------
O resultado deste comando consiste em duas partes. Na primeira há uma tabela que fornece a
quantidade de variação da variável volume explicada pelo modelo de regressão linear.
A segunda parte do resultado mostra os valores estimados para os parâmetros. O valor estimado
para o parâmetro correspondente ao intercepto a é chamado _cons (constante). O valor estimado
59
do parâmetro b é o coeficiente para o peso. Na maioria das vezes este é o parâmetro de maior
interesse e pode ser chamado de coeficiente de regressão do volume plasmático com o peso.
Na saída apresentada acima, o valor estimado de a (_cons) é 1,55 e o valor estimado de b (peso)
é 0,02.
A partir da equação geral y = a + bx, podemos escrever a equação de regressão utilizando as
estimativas obtidas:
volume = 1,55 + 0,02(peso)
Próximo às estimativas dos parâmetros estão os erros padrão (EP) e os correspondentes testes t e
valores de p, que nos ajudam a decidir se cada parâmetro é significantemente diferente de zero. O
teste para o coeficiente de regressão é o teste da hipótese nula, ou seja, de não existir relação
linear. Finalmente, temos os intervalos de confiança (IC95%) dos valores dos parâmetros
estimados.
Observando a saída acima, quais são os EP dos parâmetros estimados e quão forte é a evidência
de que existe uma associação linear entre estas duas variáveis?
Depois de ajustar a reta de regressão, é possível calcular o volume plasmático previsto pelo
modelo, dado o peso de cada indivíduo, utilizando o seguinte comando:
predict Y
O comando acima gera uma nova variável (de nome Y) onde ficam guardados os valores previstos
dos volumes plasmáticos para cada peso observado. Para obter uma lista das 10 primeiras
observações digite:
list Y peso in 1/10
Y peso
1. 2.739494 58
2. 2.985034 70
3. 2.892956 65.5
4. 3.066881 74
5. 2.852033 63.5
6. 2.821341 62
7. 2.995265 70.5
8. 3.005496 71
9. 2.944111 68
10. 3.29196 85
Uma maneira descritiva de estudar a adequação do modelo adotado é desenhar um diagrama de

dispersão dos valores previstos versus os valores observados:
scatter Y volume peso , c(l)
60
3.6 3.4
Fitted values/volume
3 2.8
2.63.2
50 60 70 80 90
peso
Fitted values volume
c(l) significa “conecte os pontos de Y” .
Estratificação e regressão logística
Controle de variável de confusão
O conceito de variável de confusão é central na epidemiologia moderna. De uma maneira

simplificada, podemos dizer que confusão é uma "mistura de efeitos", ocorre quando a estimativa
do efeito do fator de exposição estudado está misturado com o efeito de outro fator.
A variável de confusão está associada com a doença e a exposição em estudo, mas não deve
estar no caminho causal da exposição para o desenvolvimento da doença.
Estratificação
Uma variável de confusão não deve ser identificada apenas através de métodos estatísticos, mas
sim com base nos conhecimentos do pesquisador em relação ao problema estudado. No entanto,
algumas técnicas, como estratificação e análise multivariada, podem auxiliar na identificação de
uma variável de confusão.
É recomendável que a estratificação seja feita em primeiro lugar, pois é mais simples de
compreender do que a análise multivariada.
61
Por exemplo, utilize as informações da pesquisa sobre transtornos mentais comuns – TMC- entre
motoristas e cobradores de ônibus na cidade de São Paulo(Souza,MFM - 1996).
Variável tmc(transtorno mental) : (0 = não) e (1 = sim)
Variável fun(função) : (0=motoristas) e (1=cobradores)
Variável faet(faixa etária) : (1 = 30 anos - +) e (2= menos de 30 anos)
Avalie a associação entre transtorno mental comum(tmc), faixa etária(faet) e função(fun).
Quem tem maior prevalência de TMC:

- motoristas ou cobradores?
- pessoas mais velhas ou mais novas?
Existe efeito de confundimento? O que você acha?
A variável de confusão está associada com a exposição em estudo e com o desfecho?
Para responder estas questões precisamos avaliar a associação entre faixa etária e função, entre faixa etária e
TMC, e ainda, entre TMC e função nas diferentes faixas etárias.
tab faet fun , col row chi
| funcao
faet | motorista cobrador | Total
-----------+----------------------+----------
>29 anos | 387 214 | 601
| 64.39 35.61 | 100.00
| 91.49 56.76 | 75.13
-----------+----------------------+----------
< 30 anos | 36 163 | 199
| 18.09 81.91 | 100.00
| 8.51 43.24 | 24.88
-----------+----------------------+----------
Total | 423 377 | 800
| 52.88 47.13 | 100.00
| 100.00 100.00 | 100.00
Pearson chi2(1) = 128.6292 Pr = 0.000
Para fazer a análise estratificada no STATA utilize o comando mhodds
mhodds (variável dependente) (variável de exposição) (variável de controle)
mhodds tmc faet
Maximum likelihood estimate of the odds ratio

Comparing faet==2 vs. faet==1
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
62
1.985731 13.01 0.0003 1.357883 2.903880
----------------------------------------------------------------
mhodds tmc fun
Maximum likelihood estimate of the odds ratio

Comparing fun==1 vs. fun==0
----------------------------------------------------------------
----------------------------------------------------------------
2.255424 19.98 0.0000 1.563236 3.254105
----------------------------------------------------------------
Análise estratificada
mhodds tmc fun faet
Mantel-Haenszel estimate of the odds ratio

Comparing fun==1 vs. fun==0, controlling for faet
----------------------------------------------------------------
----------------------------------------------------------------
1.910025 11.40 0.0007 1.303355 2.799080
----------------------------------------------------------------
mhodds tmc faet fun

Mantel-Haenszel estimate of the odds ratio
Comparing faet==2 vs. faet==1, controlling for fun
----------------------------------------------------------------
----------------------------------------------------------------
1.461327 3.55 0.0595 0.982582 2.173331
----------------------------------------------------------------
Análise Multivariada (modelo de regressão logística)
É possível examinar associações de diversas exposições com controle simultâneo de confusão
Para fazer uma regressão logística no Stata utilizamos o comando logistic.
logistic (variável dependente) (variável de exposição) (variável de controle)
logistic tmc fun faet

Logit estimates Number of obs = 800
LR chi2(2) = 23.59
63
Prob > chi2 = 0.0000
Log likelihood = -381.49553 Pseudo R2 = 0.0300
------------------------------------------------------------------------------
tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
fun | 1.957635 .3925782 3.35 0.001 1.321401 2.900208
faet | 1.483997 .3112098 1.88 0.060 .9838463 2.238407
------------------------------------------------------------------------------
Quando utilizar o comando xi? Quando a variável independente tem mais de duas categorias.
Em nosso exemplo:
Variável sal(salário) : (0= mais de 6 sm) (1= 3 a 6 sm) (2= menos de 3 sm)
. xi: logistic tmc fun faet i.sal

i.sal _Isal_0-2 (naturally coded; _Isal_0 omitted)
Logit estimates Number of obs = 800

LR chi2(4) = 23.97
Prob > chi2 = 0.0001
Log likelihood = -381.30495 Pseudo R2 = 0.0305
------------------------------------------------------------------------------
tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
fun | 1.875565 .4445464 2.65 0.008 1.178638 2.984584
faet | 1.45576 .3089633 1.77 0.077 .960362 2.206706
_Isal_1 | 1.151009 .2961827 0.55 0.585 .6950947 1.90596
_Isal_2 | 1.161853 .3202408 0.54 0.586 .676916 1.994193
------------------------------------------------------------------------------
64

Bio-2009 - Apostila Stata Nugem

Enviado por

Direitos autorais:

Formatos disponíveis

Bio-2009 - Apostila Stata Nugem

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bio-2009 - Apostila Stata Nugem

Enviado por

Direitos autorais:

Formatos disponíveis

Í N D I C E

Introdução ao STATA versão 8.0 – Intercooled. 3

Apresentação das janelas. 3

1.1 Sintaxe dos comandos. 5

1.2 Obtendo ajuda. 5

1.3 Tipos de arquivos. 5

1.4 Tipos de variáveis. 6

1.4.1 Variáveis numéricas. 6

1.4.2 Variáveis datas. 7

1.4.3 Variáveis texto(string). 7

1.5 Operadores, expressões lógicas e funções matemáticas. 7

2. Manipulando o banco de dados da Ficha Sócio-comportamental.

Abrir/descrever banco de dados.Comandos open e describe. 8

Tabelas de freqüência simples e cruzada. Comando tabulate . 10

2.1 Transformação de variável string em variável numérica. 10

2.2 Transformação de variável numérica em variável string. 12

2.3 Transformação de variável string em variável data. 13

2.4 Calcular diferença entre datas. 14

2.5 Recodificar, agrupar valores(códigos). 17

2.6 Eliminar/manter registros ou variáveis. 19

2.7 Inserindo rótulos(labels) para variáveis e códigos. 19

2.8 Salvando o arquivo-dta. 20

2.9 Salvando o arquivo-do. 20

3.1 Gráfico de barras. 21

3.2 Gráfico de torta(pie). 23

3.3 Gráfico boxplot. 24

3.4 Gráfico de histograma. 25

3.5 Gráfico de dispersão(scatter). 26

3.6 Salvando gráficos. 26

4. Comandos mais utilizados.

4.1 Abrir/ler um banco de dados. 27

4.2 Abrir/criar/fechar um arquivo log. 27

4.3 Visualizar a descrição/características do banco de dados. 27

4.4 Produzir tabelas de freqüência simples e tabelas cruzadas. 27

4.5 Calcular medidas de tendência central. 28

4.6 Criar/definir novas variáveis. 28

4.7 Eliminar/manter variáveis e observações(registros). 29

4.8 Agrupar/recodificar códigos(valores). 29

4.9 Definir/atribuir rótulos(nomes) para códigos e variáveis. 30

4.10 Arquivo do. 30

4.11 Salvar arquivo-dta. 30

5. Converter arquivo-rec para o arquivo-dta. 31

6. Instalando o programa Stata. 31

7. Tabulando um banco de dados. 31

8. Anexo-1 – arquivo-qes para a ficha Sócio-comportamental. 33

9. Anexo-2 – dicionário das variáveis d a ficha Sócio-comportamental. 37

10. Anexo-3 – Conceitos básicos de estatística. 50

Introdução ao STATA 8.0

Em geral, os comandos do STATA tem a forma:

Apresentação das janelas

Quatro janelas são apresentadas quando o STATA é iniciado. São elas:

Review: janela onde são armazenados os comandos

Stata Results: janela que mostra os resultados

Stata Command: janela onde os comandos do STATA devem ser digitados

O menu está disponível na primeira linha e possui os recursos:

File Edit Prefs Data Graphics Statistics Window e Help

Na segunda linha encontra-se a Barra de Ferramentas com os ícones:

1.1 Sintaxe dos comandos.

De um modo geral, a sintaxe dos comandos do Stata tem a seguinte forma: