Bio-2009 - Apostila Stata Nugem
Bio-2009 - Apostila Stata Nugem
Bio-2009 - Apostila Stata Nugem
1. Generalidades. 5
1
3. Elaborando gráficos.
2
Objetivo geral do curso
Esta apostila apresenta comandos básicos para manipulação de bases de dados com a
utilização do aplicativo STATA 8.0 e introduz alguns conceitos básicos de estatística referentes
aos comandos utilizados(Anexo-3).
O leitor interessado em conhecer mais sobre este programa ou aprender teoria estatística mais
detalhada deve procurar referências especializadas.
O STATA possui amplo potencial de utilização e trabalha com bases de dados que ficam
armazenadas inteiramente na memória RAM do microcomputador. Por esta razão fornece
processamentos de maneira muito rápida.
O STATA diferencia letras maiúsculas das minúsculas. Use sempre letras minúsculas quando
digitar comandos, e recomendamos que você também use letras minúsculas para os nomes de
suas variáveis. O STATA aceita abreviações para comandos e nomes de variáveis, desde que
estas abreviações não sejam ambíguas.
Iniciando o STATA
O programa STATA, é iniciado clicando duas vezes no ícone localizado no desktop do Windows.
Variables: janela que apresenta a lista das variáveis do banco de dados ativo
3
Note que cada janela possui uma “caixinha” ao lado. Clicando nesta caixinha o programa oferece algumas
opções – experimente !
1 2 3 4 5 6 7 8 9 10 11 12
caixinha
Por exemplo, o menu "HELP SEARCH" é utilizado para procurar ajuda sobre comandos do STATA.
(1) Open (use): Carrega ou abre um banco de dados no formato do STATA (dta).
(2) Save: Salva um arquivo no formato do STATA (dta).
(3) Print Results: Imprime a janela de resultados.
(4) Begin Log: Carrega, abre ou cria um arquivo do tipo ".log" ou ".smcl".
(5) Start Viewer: Exibe a tela de ajuda (Help) em primeiro plano.
(6) Bring Results Window to Front: Exibe a tela dos resultados em primeiro plano.
(7) Bring Graph Window to Front: Exibe a tela com o gráfico em primeiro plano.
(8) Do-file Editor: Edita um arquivo de comandos (arquivo tipo ".do").
(9) Data Editor: Edita o arquivo de dados que está sendo utilizado.
(10) Data Browser: Visualiza o arquivo de dados que está sendo utilizado.
(11) Clear: prossegue a execução do comando.
(12) Break: Interrompe a execução de uma tarefa ou comando.
4
1. Generalidades
[by varlist]: comando [varlist] [=exp] [if exp] [in range] [, options]
Os “colchetes”, representam opções e varlist , nome das variáveis; exp , expressão algébrica
ou lógica ; range , intervalo de observações ; e options , lista de opções.
Exemplos:
O comando acima, irá produzir medidas de tendência central para as variáveis: idade, peso e
altura, para o sexo feminino e registros de 1 a 50. A opção “detail” exibe detalhes para as
medidas de tendência central.
tab risco sexo, row col cel chi produzirá tabela cruzada para as variáveis
risco e sexo, exibindo percentagens na linha,
coluna e total e calculará o chi-quadrado.
Para obter ajuda para o comando tabulate, digite : help tabulate na linha de comandos .
Quando desconhecemos o nome do comando, utilize o menu help, opção search para obter
ajuda.
5
.raw arquivos ASCII arquivos de dados
.sum arquivos controle de rede
use [varlist] [if exp] [in range] using filename [, clear nolabel ]
.log arquivos de resultados; os resultados e tabelas produzidos pelo STATA, podem ser
armazenados em arquivos “texto” . Esses arquivos poderão manipulados pelo
processador de texto WORD. Para abrir um arquivo-log utilize o comando log .
6
1.4.2 Variáveis data,
Armazena textos, tamanho máximo 80 caracteres, simbologia str1, str2, str3, ... , str80.
Note that a double equal sign (==) is used for equality testing.
Funções matemáticas.
desc ou describe
8
v44a3 str1 %1s 1.relação sexual v44a3
v44b3 str1 %1s 2.udi v44b3
v44c3 str1 %1s 3.transfusão sanguínea v44c3
v44d3 str1 %1s 4.hemofílico v44d3
v44e3 str1 %1s 5.acidente ocupacional v44e3
v44f3 str1 %1s 6.acidente comunitário v44f3
v44g3 str1 %1s 7.não,nenhum v44g3
v44h3 str1 %1s 15.outro v44h3
v45 str1 %1s Características do parceiro(no últ.mês)
v45a1 str1 %1s 1.udi
v45b1 str1 %1s 2.hsh
v45c1 str1 %1s 3.hiv/aids
v45d1 str1 %1s 4.dst
v45e1 str1 %1s 5.profissional do sexo
v45f1 str1 %1s 6.população prisional
v45g1 str1 %1s 7.caminhoneiros
v45h1 str1 %1s 8.mulheres sem estas caract.
v45i1 str1 %1s 9.homens sem estas caract.
v45j1 str1 %1s 10.pessoas desconhecidas
v45k1 str1 %1s 15.outros
v45n str1 %1s Características do parceiro (nos últ.6 m)
v45a2 str1 %1s 1.udi
v45b2 str1 %1s 2.hsh
v45c2 str1 %1s 3.hiv/aids
v45d2 str1 %1s 4.dst
v45e2 str1 %1s 5.profissional do sexo
v45f2 str1 %1s 6.população prisional
v45g2 str1 %1s 7.caminhoneiros
v45h2 str1 %1s 8.mulheres sem estas caract.
v45i2 str1 %1s 9.homens sem estas caract.
v45j2 str1 %1s 10.pessoas desconhecidas
v45k2 str1 %1s 15.outros
v45o str1 %1s Características do parceiro (após 6 m)
v45a3 str1 %1s 1.udi
v45b3 str1 %1s 2.hsh
v45c3 str1 %1s 3.hiv/aids
v45d3 str1 %1s 4.dst
v45e3 str1 %1s 5.profissional do sexo
v45f3 str1 %1s 6.população prisional
v45g3 str1 %1s 7.caminhoneiros
v45h3 str1 %1s 8.mulheres sem estas caract.
v45i3 str1 %1s 9.homens sem estas caract.
v45j3 str1 %1s 10.pessoas desconhecidas
v45k3 str1 %1s 15.outros
v46a int %4.0f Número de rel.sexuais p/semana(no últ.mês) v46a
v46b int %4.0f nos últimos 6 meses v46b
v46c int %4.0f após a 6 meses v46c
v47a str2 %2s Pratica sexual (no último mês) v47a
v47b str2 %2s nos últimos 6 meses v47b
v47c str2 %2s após a 6 meses v47c
v48a str2 %2s Uso de preserv.masc.parc.Fixo (no últ. mês) v48a
v48b str2 %2s nos últimos 6 m) v48b
v48c str2 %2s após a 6 meses v48c
v49a str2 %2s Uso de preserv.femin.parc.Fixo(no últ.mês) v49a
v49b str2 %2s nos últimos 6 meses v49b
v49c str2 %2s após a 6 meses v49c
v50a str2 %2s Uso de preserv.masc.parc.Eventual(últ.mês) v50a
v50b str2 %2s nos últimos 6 meses v50b
v50c str2 %2s após a 6 meses v50c
v51a str2 %2s Uso de preserv.femin.parc.Eventual(últ.mês) v51a
v51b str2 %2s nos últimos 6 meses v51b
v51c str2 %2s após a 6 meses v51c
v52 str2 %2s 52) exposição a situação de risco c/ estrang. V52
v53a str2 %2s Uso de drogas (no último mês) v53a
v53b str2 %2s nos últimos 6 meses v53b
v53c str2 %2s após a 6 meses v53c
v54 str2 %2s 54) outras possibilidades de risco v54
v55c str2 %2s 55) sorologia anti-hiv, anterior? V55c
v55 byte %2.0f quantas? v55
v55a long %d se, sim, positiva, data da primeira v55a
v55b long %d se, sim, negativa, data da última v55b
v56a long %d 56) sorologia anti-hiv, nesta visita v56a
v56b str2 %2s resultado da sorologia v56b
9
v57 str2 %2s 57) aceitaria participar de algum estudo v57
v58 long %d 58) data de retorno v58
v59 str19 %19s 59) entrevistador v59
v60 str18 %18s 60) digitador v60
v61 str1 %1s 61) entrevista realizada pré-aconselhamento v61
v62 double %5.2f hora do término da entrevista v62
Observem o formato das variáveis: v24 (sexo) %2s (2 caracteres) ; v21(idade) %3.0f (3 dígitos);
v20(data de nascimento) %d (dd/mmm/aa) ; e v27(etnia) %2s (2 caracteres)
24) sexo |
v24 | Freq. Percent Cum.
------------+-----------------------------------
1 | 199 61.61 61.61
2 | 124 38.39 100.00
------------+-----------------------------------
Total | 323 100.00
27) etnia |
v27 | Freq. Percent Cum.
------------+-----------------------------------
1 | 230 71.21 71.21
2 | 20 6.19 77.40
3 | 66 20.43 97.83
4 | 5 1.55 99.38
5 | 2 0.62 100.00
------------+-----------------------------------
Total | 323 100.00
sum v21
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
v21 | 323 30.48916 10.41271 16 82
O comando generate cria uma nova variável. Variáveis string podem ter a aparência de
variáveis numéricas.
tab v29
29) renda |
familiar |
v29 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 131 40.56 41.49
3 | 96 29.72 71.21
4 | 47 14.55 85.76
5 | 12 3.72 89.47
6 | 27 8.36 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
sum v29
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
v29 | 0
Os números 1,2,3, ...,98 são códigos “1”, “2”, “3”, ..., “98” (v29 é do tipo string, formato str2).
Ver anexo-2 com a descrição dos códigos da variável v29.
tab v21
21) idade |
v21 | Freq. Percent Cum.
------------+-----------------------------------
16 | 1 0.31 0.31
17 | 3 0.93 1.24
18 | 6 1.86 3.10
19 | 14 4.33 7.43
20 | 11 3.41 10.84
.
.
.
63 | 2 0.62 98.45
64 | 1 0.31 98.76
66 | 2 0.62 99.38
70 | 1 0.31 99.69
82 | 1 0.31 100.00
------------+-----------------------------------
Total | 323 100.00
tab x21
x21 | Freq. Percent Cum.
------------+-----------------------------------
16 | 1 0.31 0.31
17 | 3 0.93 1.24
18 | 6 1.86 3.10
19 | 14 4.33 7.43
20 | 11 3.41 10.84
.
.
.
64 | 1 0.31 98.76
66 | 2 0.62 99.38
70 | 1 0.31 99.69
82 | 1 0.31 100.00
------------+-----------------------------------
Total | 323 100.00
12
2.3 Transformação de variável string em variável data.
13
list dte in 316/323
+----------+
| dte |
|----------|
|----------|
316. | 30/07/05 |
317. | 30/07/05 |
318. | 30/07/05 |
319. | 30/07/05 |
320. | 30/07/05 |
|----------|
321. | 30/07/05 |
322. | 30/07/05 |
323. | 30/07/05 |
+----------+
desc dte1 v1
storage display value
variable name type format label variable label
-------------------------------------------------------------------------------
dte1 float %d
v1 long %d 1) data da entrevista v1
format t1 %8.2f
+------------------------------------+
| dte1 v1 t t1 |
|------------------------------------|
1. | 15jul2005 01 Mar 05 136 0.37 |
2. | 15jul2005 03 Mar 05 134 0.37 |
3. | 15jul2005 03 Mar 05 134 0.37 |
4. | 15jul2005 03 Mar 05 134 0.37 |
5. | 15jul2005 03 Mar 05 134 0.37 |
|------------------------------------|
6. | 20jul2005 04 Mar 05 133 0.38 |
7. | 20jul2005 04 Mar 05 133 0.38 |
8. | 20jul2005 04 Mar 05 133 0.38 |
9. | 20jul2005 04 Mar 05 133 0.38 |
10. | 20jul2005 07 Mar 05 130 0.37 |
|------------------------------------|
15
+-------------------------------------------+
| dte1 v1 t t1 t2 |
|-------------------------------------------|
1. | 15jul2005 01 Mar 05 136 0.37 4.47 |
2. | 15jul2005 03 Mar 05 134 0.37 4.40 |
3. | 15jul2005 03 Mar 05 134 0.37 4.40 |
4. | 15jul2005 03 Mar 05 134 0.37 4.40 |
5. | 15jul2005 03 Mar 05 134 0.37 4.40 |
|-------------------------------------------|
6. | 20jul2005 04 Mar 05 133 0.38 4.53 |
7. | 20jul2005 04 Mar 05 133 0.38 4.53 |
8. | 20jul2005 04 Mar 05 133 0.38 4.53 |
9. | 20jul2005 04 Mar 05 133 0.38 4.53 |
10. | 20jul2005 07 Mar 05 130 0.37 4.43 |
|-------------------------------------------|
16
| v1 v20 ida v21 ida1 |
|--------------------------------------------|
1. | 23 Feb 05 17 Jan 84 21.10 21 21 |
2. | 01 Mar 05 25 May 84 20.77 20 21 |
3. | 03 Mar 05 26 Dec 42 62.18 63 62 |
4. | 03 Mar 05 09 Dec 57 47.23 47 47 |
5. | 08 Mar 05 30 Jul 83 21.61 21 22 |
tab v29
29) renda |
familiar |
v29 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 131 40.56 41.49
3 | 96 29.72 71.21
4 | 47 14.55 85.76
5 | 12 3.72 89.47
6 | 27 8.36 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
17
recode x29 1=2 5 6=3
(x29a: 28 changes made)
tab x29
x29 | Freq. Percent Cum.
------------+-----------------------------------
2 | 134 41.49 41.49
3 | 135 41.80 83.28
4 | 47 14.55 97.83
98 | 7 2.17 100.00
------------+-----------------------------------
Total | 323 100.00
tab v21a
RECODE of |
v21 ( |
21) idade |
v21) | Freq. Percent Cum.
------------+-----------------------------------
1 | 24 7.43 7.43
2 | 161 49.85 57.28
3 | 87 26.93 84.21
4 | 31 9.60 93.81
5 | 20 6.19 100.00
------------+-----------------------------------
Total | 323 100.00
drop if exp
keep varlist
keep if exp
Sintaxe: label define lblname # "label" [# "label" ...] [, add modify nofix]
label values varname [lblname] [, nofix ]
Exemplos:
label define esc 1 nenhum 2 "1 a 3 anos" 3 "4 a 7 anos" 4 "8 a 11 anos" 5 "12
anos e mais" 6 posgraduacao 98 "prefere nao responder" 99 ignorado 15 outro
label val v28 esc
tab v28
Clique no menu File, escolha a opção Save as... para salvar o arquivo-dta.
As novas variáveis serão salvas.
20
3. Elaborando gráficos.
24) sexo |
v24 | Freq. Percent Cum.
------------+-----------------------------------
1 | 199 61.61 61.61
2 | 124 38.39 100.00
------------+-----------------------------------
Total | 323 100.00
tab v28
28) |
escolaridad |
e v28 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 5 1.55 2.48
3 | 59 18.32 20.81
4 | 136 42.24 63.04
5 | 110 34.16 97.20
6 | 9 2.80 100.00
------------+-----------------------------------
Total | 322 100.00
1 2 3 4 5 6
mean of sexo1 mean of sexo2
21
tab v28 , gen(escola) (criar variáveis escola1 ,escola2, ... escola6)
28) |
escolaridad |
e v28 | Freq. Percent Cum.
------------+-----------------------------------
1 | 3 0.93 0.93
2 | 5 1.55 2.48
3 | 59 18.32 20.81
4 | 136 42.24 63.04
5 | 110 34.16 97.20
6 | 9 2.80 100.00
------------+-----------------------------------
Total | 322 100.00
1 2
mean of escola1 mean of escola2
mean of escola3 mean of escola4
mean of escola5 mean of escola6
22
gr bar escola1 escola2 escola3 escola4 escola5 escola6, legend(label(1
"Nenhum") lab(2 "1 a 3 a") lab(3 "4 a 7 a" ) lab(4 "8 a 11 a") lab(5 "12 e + a") lab(6
"posgrad")) over(v24a)
.5
.4
.3
.2
.1
0
Masculino Feminino
Nenhum 1a3a
4a7a 8 a 11 a
12 e + a posgrad
v28==nehuma v28==1 a 3 a
v28==4 a 7 a v28==8 a 11 a
v28==12 e + a v28==Posgrad
Masculino Feminino
v28==nehuma v28==1 a 3 a
v28==4 a 7 a v28==8 a 11 a
v28==12 e + a v28==Posgrad
Graphs by x24
23
3.3 Gráfico boxplot.
gen v21a=v21
gr box v21a
80
60
40
20
Masculino Feminino
24
3.4 Gráfico de histograma.
.05
.04
.03
Density
.02
.01
0
20 40 60 80
v21a
1 2
.06
.04
Density
.02
0
20 40 60 80 20 40 60 80
v21a
Density
normal v21a
Graphs by v24a
25
3.5 Gráfico de dispersão(scatter).
20 40 60 80
v21g
1 2
1000
na vida toda v42c
500
0
20 40 60 80 20 40 60 80
v21g
Graphs by v 24a
Para salvar gráficos em arquivos, posicione o cursor no gráfico, clique no botão direito
do mouse escolha a opção Save Graph ... com o botão esquerdo do mouse e digite um
nome para o arquivo.
26
4. Comandos mais utilizados.
4.1 Abrir/ler um banco de dados. O Stata abre/lê somente arquivos com extensão dta.
Se os dados estão em outro formato deve-se converter para o formato dta.
use filename [, clear nolabel ]
ou clique no botão Open(use) para abrir o banco de dados
freqüência simples:
tabulate varname [if exp] [in range]
tab1 varlist [if exp] [in range]
ou menu statistics, opção summarize tables, & tests
, Tables e One-way tables ou Multiple One-way tables
tabelas cruzadas:
tabulate varname1 varname2 [if exp]
[in range] [, all cell chi2 column exact row]
ou menu Statistics, opção Summarize tables, & tests
, Tables e Two-way tables...
onde,
all = todas opções estatísticas ; cell = porcentagem do total
chi2 = chi-quadrado de Pearson ; column = porcentagem da coluna
exact = chi-quadrado de Fisher ; row = porcentagem da linha
27
Exemplos: tab v28 v24
tab v28 v24 if v21 < 30
tab v28 v24 in 1/200
tab v28 v24 if v21<30 in 1/200
tab v28 v24 if v21<30 in 1/200, all
tab v28 v24 , row chi2
tab v28 v24 , row col cel chi2
tab v28 v24 if v21<30 in 1/200, chi2
tab v28 v24 , row col cel exact
tab v28 v24 , col cel chi2
28
Variáveis string (texto):
gen str ide = nri+v5+v7+v8
list ide nri v5 v7 v8 in 1/5
drop varlist
drop if exp
drop in range [if exp]
keep varlist
keep if exp
keep in range [if exp]
29
4.9 Definir/atribuir rótulos(nomes) para códigos e variáveis.
ou menu Labels¬es
4.10 Arquivo-do.
Os arquivos tipo do, são utilizados para armazenar os comandos para uso posterior.
Numa sessão de trabalho, clique no canto superior esquerdo da janela Review para
salvar os comandos. Clique no botão Do-file editor para acessar os arquivos do.
Exemplo:
Para criar um arquivo do, clique no botão Do-file editor e digite as linhas abaixo.
Os arquivos tipo dta(banco de dados) podem ser salvos utilizando o menu File, opção
Save as ... para criar um nome arquivo-dta com as variáveis e registros disponíveis na
memória.
30
5. Converter arquivo-rec para arquivo-dta.
3) Clique na opção Stata, uma janela será aberta para a escolha do arquivo a ser convertido.
4) Clique no botão Open e uma nova janela será exibida, clique em opções para escolher a
versão do programa Stata.
Coloque na unidade de Cdrom o CD do programa Stata, versão 8 – Intercooled, caso não seja
iniciado o processo automático de instalação, dê um duplo clique no arquivo setup.exe
armazenado no CD. Após a instalação do programa um ícone será criado.
Clique no ícone para acessar o programa. No primeiro acesso serão solicitados os códigos de
resgistro.
Abaixo está descrito um roteiro para tabular, produzir resultados de um banco de dados com o
programa Stata. O arquivo deverá estar no formato dta(item 5 Converter arquivos do formato
rec, do EpiData para o formato dta, do Stata).
31
4) Observar atentamente as tabelas de freqüências simples para elaborar descrição da
população em estudo;
32
8. Anexo-1 – arquivo-qes para a ficha Sócio-comportamental.
33
Área de Vacinas - Unidade de Desenvolvimento Tecnológico
PN de DST/Aids - MS
AVALIAÇÃO SÓCIO-COMPORTAMENTAL
6) Unidade de Saúde {v6} ____ 7) Núcleo de Pesquisa {v7} __ 8) Estado {v8} <A >
24) Sexo {v24} __ 25) Gestante {v25} __ Idade Gestacional {v25a} ##(mêses)
AVALIAÇÃO
36
9. Anexo-2 – dicionário das variáveis da ficha Sócio-comportamental.
37
Área de Vacinas - Unidade de Desenvolvimento Tecnológico
PN de DST/Aids - MS
AVALIAÇÃO SÓCIO-COMPORTAMENTAL
V4 4) Iniciais Texto em 5
caixa alta
V5 5) Código do Texto 7
Projeto
38
Nome Descrição Tipo do campo Largura Códigos/orientações
da variável da variável
-------------------------------------------------------------------------------------------------------
V8 8) Estado Texto em 2
Caixa alta Legal: Sigla dos ESTADOS
39
V22 22) Munícipio Texto em 26
de Residência caixa alta
40
V28 28)Escolaridade Numérico 2 1: NENHUM
2: DE 1 A 3
3: DE 4 A 7
4: DE 8 A 11
5: ACIMA DE 12
6: PÓS GRADUAÇÃO
98: PREFERE NÃO RESPONDER
99: IGNORADO
15: OUTRO
Nome Descrição Tipo do campo Largura Códigos/orientações
da variável da variável
-------------------------------------------------------------------------------------------------------
41
V40A Se sim, Há Numérico 3
43
vida toda 98: prefere não responder
99: ignorado
15: outro
45
69 " Crack+ CocaAsp+Alcool+ Ecstasy+Maconha+Cigarro "
70 " Crack+ CocaAsp+Anfetam+Ecstasy+Maconha+Cigarro "
71 " Crack+ CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x2 ======================================================
72 " CocaAsp+Alcool+ "
73 " CocaAsp+Anfetam+ "
74 " CocaAsp+Ecstasy+ "
75 " CocaAsp+Maconha+ "
76 " CocaAsp+Cigarro "
77 " CocaAsp+Alcool+ Anfetam+ "
78 " CocaAsp+Alcool+ Ecstasy+ "
79 " CocaAsp+Alcool+ Maconha+ "
80 " CocaAsp+Alcool+ Cigarro "
81 " CocaAsp+Anfetam+Ecstasy+ "
82 " CocaAsp+Anfetam+Maconha+ "
83 " CocaAsp+Anfetam+Cigarro "
84 " CocaAsp+Ecstasy+Maconha+ "
85 " CocaAsp+Ecstasy+Cigarro "
86 " CocaAsp+Maconha+Cigarro "
87 " CocaAsp+Alcool+ Anfetam+Ecstasy+ "
88 " CocaAsp+Alcool+ Anfetam+Maconha+ "
89 " CocaAsp+Alcool+ Anfetam+Cigarro "
90 " CocaAsp+Alcool+ Ecstasy+Maconha+ "
91 " CocaAsp+Alcool+ Ecstasy+Cigarro "
92 " CocaAsp+Alcool+ Maconha+Cigarro "
93 " CocaAsp+Anfetam+Ecstasy+Maconha+ "
94 " CocaAsp+Anfetam+Ecstasy+Cigarro "
95 " CocaAsp+Anfetam+Maconha+Cigarro "
96 " CocaAsp+Ecstasy+Maconha+Cigarro "
97 " CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+ "
98 " CocaAsp+Alcool+ Anfetam+Ecstasy+Cigarro "
99 " CocaAsp+Alcool+ Ecstasy+Maconha+Cigarro "
100 " CocaAsp+Anfetam+Ecstasy+Maconha+Cigarro "
101 " CocaAsp+Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x3 ====================================================
102 " Alcool+ Anfetam+ "
103 " Alcool+ Ecstasy+ "
104 " Alcool+ Maconha+ "
105 " Alcool+ Cigarro "
106 " Alcool+ Anfetam+Ecstasy+ "
107 " Alcool+ Anfetam+Maconha+ "
108 " Alcool+ Anfetam+Cigarro "
109 " Alcool+ Ecstasy+Maconha+ "
110 " Alcool+ Ecstasy+Cigarro "
111 " Alcool+ Maconha+Cigarro "
112 " Alcool+ Anfetam+Ecstasy+Maconha+ "
113 " Alcool+ Anfetam+Ecstasy+Cigarro "
114 " Alcool+ Anfetam+Maconha+Cigarro "
46
115 " Alcool+ Ecstasy+Maconha+Cigarro "
116 " Alcool+ Anfetam+Ecstasy+Maconha+Cigarro "
x4 ================================================
117 " Anfetam+Ecstasy+ "
118 " Anfetam+Maconha+ "
119 " Anfetam+Cigarro "
120 " Anfetam+Ecstasy+Maconha+ "
121 " Anfetam+Ecstasy+Cigarro "
122 " Anfetam+Maconha+Cigarro "
123 " Anfetam+Ecstasy+Maconha+Cigarro "
x5 =========================================
124 " Ecstasy+Maconha+ "
125 " Ecstasy+Cigarro "
126 " Ecstasy+Maconha+Cigarro "
x5 "======================================== "
127 " Maconha+Cigarro "
777 "NUNCA USOU"
998 "prefere não responder"
999 ignorado
995 outro
47
98: prefere não responder
99: ignorado
15: outro
49
10. Anexo-3 – Conceitos básicos de estatítsica.
Índice
Análise descritiva. 51
Testes de hipóteses. 52
Regressão linear. 58
Estratificação. 62
Análise estratificada. 63
50
Análise descritiva
Após a coleta de dados e a digitação dos mesmos em um banco de dados apropriado, o próximo passo é a
análise descritiva. Esta etapa é fundamental, pois uma análise descritiva detalhada fornece ao pesquisador
toda a informação contida no conjunto de dados. Neste enfoque, procura-se obter a maior quantidade possível
de informação, buscando responder às questões que estão sendo pesquisadas.
As variáveis podem ser classificadas em contínuas ou categóricas. Por variável contínua (ou quantitativa)
entende-se as variáveis que podem assumir todos os valores possíveis dentro de um limite especificado.
Variável categórica (ou qualitativa) é aquela que pode ser classificada em categorias separadas e que não
assumem valores intermediários, como por exemplo, sexo e estado civil.
Em geral, uma análise descritiva dos dados é feita com base em medidas de posição e variabilidade. Para
variáveis contínuas, as medidas comumente utilizadas são as medidas de tendência central, enquanto as
variáveis categóricas são sumarizadas por meio de medidas de freqüência.
mediana: valor central de uma distribuição. Para se obter a mediana, ordena-se as observações em ordem
crescente. Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais
(n/2 e [(n/2)+1], onde n é o número de observações total da amostra. Se o número de observações for ímpar, a
mediana será o valor na posição (n + 1)/2.
51
Testes de hipóteses
Testes de hipóteses consistem em testar a significância estatística e quantificar o grau em que a variabilidade
da amostra pode ser responsável pelos resultados observados no estudo. Para isto, define-se uma hipótese nula
(H0) e uma hipótese alternativa (Ha), que podem representar, por exemplo:
H0 : não existe diferença entre exposição e doença
Ha: existe diferença entre exposição e doença.
52
Manipulação de variáveis contínuas
A média é uma medida pontual e não fornece nenhuma informação a respeito da variabilidade dos
dados. Este procedimento não permite julgar qual a possível magnitude do erro que estamos
cometendo. Daí surge a idéia de construir o intervalo de confiança, que é definido como o intervalo
dentro do qual se encontra a verdadeira magnitude do efeito com um certo grau de certeza.
O exemplo abaixo ilustra a construção do intervalo de confiança (IC) para a média da variável
idade do estudo de Transtornos mentais em motorista e cobradores da Grande São Paulo(Souza,
MFM – 1996).
ci idade
Com base na amostra deste estudo, podemos dizer, com 95% de confiança, que o verdadeiro valor
para a idade média dos motoristas e cobradores está entre 37,0 e 38,4 anos.
Note que, quando não especificamos um determinado nível de confiança, o programa assume
= 95% para o cálculo do intervalo. No entanto, é possível mudar este valor usando a opção
level.
No exemplo abaixo, o IC foi construído com confiança de 90%.
ci idade, level(90)
O IC também pode ser utilizado para testar se a média de interesse é estatisticamente igual, com
um certo coeficiente de confiança, a um determinado valor de interesse.
De maneira análoga, podemos fazer um teste de hipótese para avaliar a mesma questão: “Será
que a idade média dos motoristas e cobradores é estatisticamente diferente de 35 anos?”
53
ttest idade = 35
One-sample t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
idade | 800 37.69 .3721263 10.52532 36.95954 38.42046
------------------------------------------------------------------------------
Degrees of freedom: 799
Ho: mean(idade) = 35
Suponha agora que você queira avaliar se a idade média difere segundo a função do
trabalhador(Souza,MF – 1996). Neste caso, utilize a opção by(fun):
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
---------+--------------------------------------------------------------------
diff | 6.482081 .7097834 5.088818 7.875344
------------------------------------------------------------------------------
Degrees of freedom: 798
54
Variance ratio test
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
------------------------------------------------------------------------------
Ha: sd(1) < sd(2) Ha: sd(1) ~= sd(2) Ha: sd(1) > sd(2)
P < F_obs = 0.0000 P < F_L + P > F_U = 0.0000 P > F_obs = 1.0000
Quando o teste acima (teste de homocedasticidade) indicar que as variâncias não são iguais nos
dois grupos, devemos usar um teste que considere esta desigualdade. Isto pode ser feito com o
uso da opção unequal:
------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
motorist | 423 40.74468 .4227253 8.694175 39.91377 41.57559
cobrador | 377 34.2626 .5833693 11.32698 33.11552 35.40967
---------+--------------------------------------------------------------------
combined | 800 37.69 .3721263 10.52532 36.95954 38.42046
---------+--------------------------------------------------------------------
diff | 6.482081 .7204279 5.06763 7.896533
------------------------------------------------------------------------------
Satterthwaite's degrees of freedom: 702.063
Quando as amostras não são independentes dizemos que as observações são correlacionadas e
neste caso, o teste t-pareado é mais indicado pois leva em conta a correlação existente entre as
observações.
Neste arquivo, os valores foram cadastrados de modo que cada indivíduo tem seus dados
representados em uma linha diferente. As variáveis são descritas a seguir:
id = identificação do indivíduo
55
observA = medida da prega cutânea segundo o observador A
observB = medida da prega cutânea segundo o observador B
ttest observa=observb
Paired t test
------------------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
observa | 15 23.84667 2.041145 7.905321 19.46885 28.22449
observb | 15 21.56667 1.842221 7.134891 17.6155 25.51784
---------+--------------------------------------------------------------------
diff | 15 2.28 .5819672 2.253949 1.031805 3.528196
------------------------------------------------------------------------------
Em muitas situações, é de interesse quantificar a força da relação linear entre duas variáveis contínuas, sem
designar uma como resposta e outra como explicativa.
O grau desta associação pode ser medido com o uso do coeficiente de correlação linear de Pearson (r), que
leva este nome pois foi descrito por Pearson. A correlação entre duas variáveis é positiva se valores mais altos
de uma variável estão associados a valores mais altos da outra, e é negativa se os valores de uma variável
crescem enquanto os da outra diminuem. O coeficiente de correlação próximo do zero significa que não existe
uma relação linear entre as duas variáveis.
0: ausência de associação
Exemplo:
56
Em um estudo obteve-se as informações: volume plasmático e peso dos pacientes.
Verificar se existe uma relação linear entre as variáveis volume plasmático e peso.
A melhor forma de iniciar o estudo da possível relação entre estas duas variáveis contínuas é construir um
gráfico de dispersão, utilizando o comando:
50 60 70 80 90
peso
Observando o gráfico acima, você acha que existe uma correlação linear entre o volume
plasmático e o peso dos pacientes incluídos neste estudo?
Para obter o valor do coeficiente de correlação de Pearson podemos utilizar o comando correlate
(que pode ser abreviado como corr):
| peso volume
-------------+------------------
peso | 1.0000
volume | 0.7803 1.0000
A saída apresenta o número de pacientes utilizados para o cálculo (obs = 20) e o coeficiente de
correlação linear entre as variáveis peso e volume, isto é, r = 0,78.
57
É possível obter os coeficientes de correlação linear entre muitas variáveis contínuas do mesmo
estudo. Para isto, basta digitar os nomes das variáveis após o comando corr (por exemplo, corr
var1 var2 var3).
Pode ser usado também o comando pwcorr (pairwise correlation), que produz o mesmo resultado
e permite o uso da opção sig que apresenta o nível de significância do coeficiente de correlação
apresentado.
| volume peso
-------------+------------------
volume | 1.0000
|
|
peso | 0.7803 1.0000
| 0.0000
|
Regressão linear
A regressão linear apresenta a equação da reta que melhor descreve como a variável y aumenta
(ou diminui) com um aumento na variável x. A escolha de qual será a variável a ser chamada de y
é importante porque, diferentemente da correlação, as duas alternativas não fornecem o mesmo
resultado. A variável y é comumente denominada variável dependente, e x é a variável
independente ou explicativa. A técnica de regressão linear permite:
58
y = a + bx
a (intercepto): é o ponto onde a reta cruza o eixo y e mostra o valor de y para x=0.
y
y = a + bx
b
1
0 x
Exemplo:
Utilizar a técnica de regressão linear para obter a reta que melhor exprime a relação linear entre o
peso e o volume plasmático dos indivíduos incluídos no banco de dados. Nossa variável
independente (x) será o peso e a variável dependente (ou resposta) será o volume plasmático (y).
Para fazer a regressão linear no STATA utilizaremos o comando regress. Para executarmos este
comando, a variável dependente aparece em primeiro lugar, seguida da variável explicativa:
------------------------------------------------------------------------------
volume | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
peso | .0204617 .003865 5.29 0.000 .0123417 .0285817
_cons | 1.552716 .2858553 5.43 0.000 .9521564 2.153276
------------------------------------------------------------------------------
O resultado deste comando consiste em duas partes. Na primeira há uma tabela que fornece a
quantidade de variação da variável volume explicada pelo modelo de regressão linear.
A segunda parte do resultado mostra os valores estimados para os parâmetros. O valor estimado
para o parâmetro correspondente ao intercepto a é chamado _cons (constante). O valor estimado
59
do parâmetro b é o coeficiente para o peso. Na maioria das vezes este é o parâmetro de maior
interesse e pode ser chamado de coeficiente de regressão do volume plasmático com o peso.
Na saída apresentada acima, o valor estimado de a (_cons) é 1,55 e o valor estimado de b (peso)
é 0,02.
A partir da equação geral y = a + bx, podemos escrever a equação de regressão utilizando as
estimativas obtidas:
volume = 1,55 + 0,02(peso)
Próximo às estimativas dos parâmetros estão os erros padrão (EP) e os correspondentes testes t e
valores de p, que nos ajudam a decidir se cada parâmetro é significantemente diferente de zero. O
teste para o coeficiente de regressão é o teste da hipótese nula, ou seja, de não existir relação
linear. Finalmente, temos os intervalos de confiança (IC95%) dos valores dos parâmetros
estimados.
Observando a saída acima, quais são os EP dos parâmetros estimados e quão forte é a evidência
de que existe uma associação linear entre estas duas variáveis?
Depois de ajustar a reta de regressão, é possível calcular o volume plasmático previsto pelo
modelo, dado o peso de cada indivíduo, utilizando o seguinte comando:
predict Y
O comando acima gera uma nova variável (de nome Y) onde ficam guardados os valores previstos
dos volumes plasmáticos para cada peso observado. Para obter uma lista das 10 primeiras
observações digite:
Y peso
1. 2.739494 58
2. 2.985034 70
3. 2.892956 65.5
4. 3.066881 74
5. 2.852033 63.5
6. 2.821341 62
7. 2.995265 70.5
8. 3.005496 71
9. 2.944111 68
10. 3.29196 85
60
3.6 3.4
Fitted values/volume
3 2.8
2.63.2
50 60 70 80 90
peso
Fitted values volume
A variável de confusão está associada com a doença e a exposição em estudo, mas não deve
estar no caminho causal da exposição para o desenvolvimento da doença.
Estratificação
Uma variável de confusão não deve ser identificada apenas através de métodos estatísticos, mas
sim com base nos conhecimentos do pesquisador em relação ao problema estudado. No entanto,
algumas técnicas, como estratificação e análise multivariada, podem auxiliar na identificação de
uma variável de confusão.
É recomendável que a estratificação seja feita em primeiro lugar, pois é mais simples de
compreender do que a análise multivariada.
61
Por exemplo, utilize as informações da pesquisa sobre transtornos mentais comuns – TMC- entre
motoristas e cobradores de ônibus na cidade de São Paulo(Souza,MFM - 1996).
Variável tmc(transtorno mental) : (0 = não) e (1 = sim)
Variável fun(função) : (0=motoristas) e (1=cobradores)
Variável faet(faixa etária) : (1 = 30 anos - +) e (2= menos de 30 anos)
Para responder estas questões precisamos avaliar a associação entre faixa etária e função, entre faixa etária e
TMC, e ainda, entre TMC e função nas diferentes faixas etárias.
| funcao
faet | motorista cobrador | Total
-----------+----------------------+----------
>29 anos | 387 214 | 601
| 64.39 35.61 | 100.00
| 91.49 56.76 | 75.13
-----------+----------------------+----------
< 30 anos | 36 163 | 199
| 18.09 81.91 | 100.00
| 8.51 43.24 | 24.88
-----------+----------------------+----------
Total | 423 377 | 800
| 52.88 47.13 | 100.00
| 100.00 100.00 | 100.00
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
62
1.985731 13.01 0.0003 1.357883 2.903880
----------------------------------------------------------------
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
2.255424 19.98 0.0000 1.563236 3.254105
----------------------------------------------------------------
Análise estratificada
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
1.910025 11.40 0.0007 1.303355 2.799080
----------------------------------------------------------------
----------------------------------------------------------------
Odds Ratio chi2(1) P>chi2 [95% Conf. Interval]
----------------------------------------------------------------
1.461327 3.55 0.0595 0.982582 2.173331
----------------------------------------------------------------
63
Prob > chi2 = 0.0000
Log likelihood = -381.49553 Pseudo R2 = 0.0300
------------------------------------------------------------------------------
tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
fun | 1.957635 .3925782 3.35 0.001 1.321401 2.900208
faet | 1.483997 .3112098 1.88 0.060 .9838463 2.238407
------------------------------------------------------------------------------
Quando utilizar o comando xi? Quando a variável independente tem mais de duas categorias.
Em nosso exemplo:
Variável sal(salário) : (0= mais de 6 sm) (1= 3 a 6 sm) (2= menos de 3 sm)
------------------------------------------------------------------------------
tmc | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
fun | 1.875565 .4445464 2.65 0.008 1.178638 2.984584
faet | 1.45576 .3089633 1.77 0.077 .960362 2.206706
_Isal_1 | 1.151009 .2961827 0.55 0.585 .6950947 1.90596
_Isal_2 | 1.161853 .3202408 0.54 0.586 .676916 1.994193
------------------------------------------------------------------------------
64