Resumen STATA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Resumen STATA (Comandos)

1. Estadstica Univariante
Las variables cuantitativas se analizan por los siguientes comandos:

tab: construccin de la tabla de frecuencias.


hist: construccin de un histograma.
graph box: construccin de un diagrama de cajas / Turkey.
summarize variable, detail: anlisis de datos descriptivos.

Cuando se hace una tabla de frecuencias con variables cuantitativas continuas la


grfica tiene infinitos valores. Por tanto, para analizar una variable cuantitativa
continua hay que
Las variables cualitativas se analizan por los siguientes comandos:

tab: construccin de la tabla de frecuencias.


Grficos: Bar, Pie, Dot.

2. Estadstica Bivariante
El alumno aprender a realizar un anlisis descriptivo entre 2 variables (entre 2
cuantitativas, entre 2 cualitativas o entre 1 cualitativa y 1 cuantitativa).
a) Cualitativa en base a otra Cualitativa
Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with measures
of association (NO seleccionar Chi Cuadrado. Por el contrario, S seleccionamos
Relative Frequencies. Tambin podemos seleccionar Column/Row Relative
Frequencies si queremos calcular las proporciones marginales).
Grfico de Barras Compuestas (Graphics/ BarChart/ TimestampCountNonMissing/
Categories: seleccionamos ambas variables cualitativas como Group1 y Group2).
b) Cuantitativa en base a Cualitativa
Statistics/ Summaries,TablesandTest/ Summary and DescriptiveStatistics/
Summary Statistics (Main: seleccionamos la variable cuantitativa y
DisplayAdditionalStatistics; despus hacemos click en by/if/in y escribimos la variable
cualitativa). Salen 2 resultados separados segn los grupos de la variable cualitativa
(en este caso, el gnero). A partir de estos datos realizar una tabla en Excel.
Grfico Box-Plot (Graphics/ Main: variable cuantitativa/ Categories: variable
cualitativa).
c) Cuantitativa en base a otra Cuantitativa
Grfico de Dispersin: Graphics/ TwoWayGraph/ Create/ Basic Plots/ Scatter
Para saber la relacin de la intensidad entre ambas variables usamos la Correlacin
Lineal de Pearson (Statistics/ Summaries,Tables and Tests/ Summary and
DescriptiveStatistics/ Correlations and Covariances). El valor -1 indica que hay una
correlacin inversa perfecta; el valor +1 indica que hay una correlacin derecha
perfecta; el valor 0 indica que no hay correlacin entre ambas variables.

Para calcular la Recta de Regresin escribimos: regress + Variable 1 + Variable 2.

3. Inferencia Estadstica
El nivel de confianza del Intervalo es la probabilidad de que un determinado valor se
encuentre en el intervalo de confianza. El nivel de confianza se calcula como 1 ,
siendo el nivel de significacin.

Intervalos de Confianza: Statistics/ Summaries, Tables and Tests/ Summary


and Descriptive Statistics/ Confidence Intervals. Si queremos comparar una
cuantitativa con una cualitativa, escribimos en Main la variable cuantitativa y en
by/if/in la variable cualitativa.
Contraste de Hiptesis: quiero saber si la hiptesis que he formulado es
correcta o falsa. Para ello la voy a contrastar.

Si slo quiero contrastar 1 hiptesis que afecta a 1 variable (sea cualitativa o


cuantitativa), realizo el siguiente comando (One-Sample-Mean-Comparison-Test):
Statistics/ Summaries,TablesandTests/ ClassicalTestofHypothesis/ One-Sample-MeanComparison-Test
Si se tratase de proporciones usaramos: One-Sample-Proportion-Comparison-Test.
Si P rechazamos la hiptesis nula. Por tanto, hay ASOCIACIN entre ambas
variables. Los resultados derivados del contraste son estadsticamente significativos.

4. Contraste de 2+ Poblaciones
a) Test de la T de Student
- Contraste de Hiptesis (Variable Cuantitativa y Variable Cualitativa;
Variable Cuantitativa y Variable Cuantitativa): Statistics/ Summaries,Tables
and
Tests/
ClassicalTest
of
Hypothesis/
TwoGroup-MeanComparisonTest. Seleccionamos Unequal Variances.
- Tambin se denomina como ttest.

b) Chi Cuadrado (para 2 Variables Cualitativas).


Se utiliza para realizar el contraste de hiptesis entre 2 variables cualitativas.
Usaremos:
Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with Measuresof
Association (Pearsons Chi Squared + Expected Frecuencies).

La poblacin objetivo es: recin nacidos en Guipzcoa.


A partir de los datos que tenemos, podemos calcular medidas de localizacin y
dispersin.
La media del peso en recin nacidos es: X.
La desviacin estndar en recin nacidos es: X.
La muestra sobre la que realizamos las observaciones tiene un tamao de 250.

Para las 250 observaciones tenemos una serie de variables.


-

El peso, como variable cuantitativa continua, se mide en escala de razn.


El gnero es una variable cualitativa nominal, y se mide en escala nominal.

mean peso

La media es una estimacin puntual (discreta, de un punto), que se basa en una


muestra de 250 individuos. Pero si la muestra es de un tamao diferente, la media
tambin vara.
Mean estimation

Number of obs

Mean
peso

3301.948

250

Std. Err.

[95% Conf. Interval]

27.31226

3248.156

3355.74

El intervalo de confianza indica que, el verdadero valor de la media en la poblacin


que queremos estudiar pueda encontrarse entre los valores que quedan determinados
por el intervalo de confianza.

ci peso

. ci peso
Variable

Obs

Mean

peso

250

3301.948

Variable

Obs

Mean

peso

250

3301.948

Std. Err.

[95% Conf. Interval]

27.31226

3248.156

Std. Err.

[99% Conf. Interval]

27.31226

3231.053

3355.74

. ci peso, level(99)

3372.843

El intervalo de confianza es ms amplio cuanto mayor sea nuestra intencin de que


quede delimitado en ese intervalo el valor real de la media en esa poblacin.
Para cambiar el valor del intervalo de confianza:

ttest

. ttest peso=2900
One-sample t test
Variable

Obs

Mean

peso

250

3301.948

Std. Err.

Std. Dev.

[95% Conf. Interval]

27.31226

431.8447

3248.156

mean = mean(peso)
Ho: mean = 2900
Ha: mean < 2900
Pr(T < t) = 1.0000

t =
degrees of freedom =
Ha: mean != 2900
Pr(|T| > |t|) = 0.0000

3355.74
14.7168
249

Ha: mean > 2900


Pr(T > t) = 0.0000

Test de 2 colas: sirve para saber si puedes aceptar la hiptesis nula o por el contrario
tienes que coger la hiptesis variable.
Lim sup CI 95%= 3301.948+(27.31226*1.96)
Lim inf CI 95%= 3301.948-(27.31226*1.96)
El error aleatorio se calcula como la constante multiplicada por el error estndar de la
media muestral.

Nos ha salido un valor de media muestral de: 3301.948. Para estandarizar la muestra,
restamos la media muestral menos la media de la hiptesis variable y dividimos todo
entre el error estndar (desviacin estndar dividido entre raz de n). As calculamos la
T de Studen.
Si la hiptesis nula es cierta, en la grfica estandarizada la media sera 0. Si hacemos
los clculos previos con los datos de la muestra, obtenemos un valor t=14.7168.
(3301.948-2900) / 27.31226 = t
La probabilidad de que la distribucin T de Studen tome valores mayores de t es de 0.
Sera cola a la derecha.
La probabilidad de que el mdulo de la T de Studen tome valores mayores que t
(valores mayores que 3301), rechazamos la hiptesis nula. Por tanto, P es menor que
(se rechaza la hiptesis nula: el contraste de hiptesis resulta estadsticamente
significativo). La probabilidad de observar esta media muestral es prcticamente 0.

Test para contrastar si el peso de la poblacin de recin nacidos es de 3260 gramos

. ttest peso == 3260


One-sample t test
Variable

Obs

Mean

peso

250

3301.948

Std. Err.

Std. Dev.

[95% Conf. Interval]

27.31226

431.8447

3248.156

mean = mean(peso)
Ho: mean = 3260
Ha: mean < 3260
Pr(T < t) = 0.9371

t =
degrees of freedom =
Ha: mean != 3260
Pr(|T| > |t|) = 0.1258

3355.74
1.5359
249

Ha: mean > 3260


Pr(T > t) = 0.0629

Ha cambiado la hiptesis (de 2900 a 3260), pero todos los dems valores no han
cambiado porque la muestra sigue siendo la misma.
La probabilidad de observar un valor de 3301.948 siendo la media 3260 es de: 0.0629.
Si he fijado de 0.05, el valor P es mayor que , por lo que no se puede rechazar la
hiptesis nula. El nivel de significacin de los datos es por P. Con este no vamos a
rechazar la hiptesis nula.
Los resultados son estadsticamente NO significativos.

. ttest peso, by(genero)


Two-sample t test with equal variances
Group

Obs

Mean

nia
nio

122
128

combined

250

diff

Std. Err.

Std. Dev.

[95% Conf. Interval]

3247.049
3354.273

36.69049
39.87349

405.2597
451.1171

3174.411
3275.371

3319.688
3433.176

3301.948

27.31226

431.8447

3248.156

3355.74

-107.2243

54.32529

-214.222

-.2264907

diff = mean(nia) - mean(nio)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.0248

t =
degrees of freedom =

Ha: diff != 0
Pr(|T| > |t|) = 0.0495

-1.9737
248

Ha: diff > 0


Pr(T > t) = 0.9752

Test de Hiptesis: sirve para comprobar si existe relacin entre el gnero y el peso.
Usamos el test group-mean porque la variable est agrupada en un mismo grupo, y no
est separada por muestras.

La variable PESO es cuantitativa continua, medida en escala de razn (las escalas


tienen razn entre s, y adems existe un 0 absoluto que indica la ausencia del
atributo).
La variable GNERO identifica 2 grupos: nios y nias. Para contrastar esta variable
con el peso, utilizamos:

El nivel de confianza indica que


ests cogiendo un del 5%
(0,05).

. ttest peso, by(genero)


Two-sample t test with equal variances
Group

Obs

Mean

nia
nio

122
128

combined

250

diff

Std. Err.

Std. Dev.

[95% Conf. Interval]

3247.049
3354.273

36.69049
39.87349

405.2597
451.1171

3174.411
3275.371

3319.688
3433.176

3301.948

27.31226

431.8447

3248.156

3355.74

-107.2243

54.32529

-214.222

-.2264907

diff = mean(nia) - mean(nio)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.0248

t =
degrees of freedom =

Ha: diff != 0
Pr(|T| > |t|) = 0.0495

-1.9737
248

Ha: diff > 0


Pr(T > t) = 0.9752

El error estndar se calcula como la desviacin estndar entre la raz cuadrada del
nmero de observaciones.
La media +,- error estndar multiplicado por 1.96 = da como resultado el intervalo de
confianza.
La estimacin puntual es la media: en la poblacin de nias y en la poblacin de nios,
y por ltimo miras la estimacin puntual combinada. La estimacin combinada para
ambos gneros es de: 3301.948 gramos.
Las estimaciones puntuales entre las que se encuentran se ven en el intervalo de
confianza al 95%.
La media combinada es para toda la poblacin objetivo (muestra), sin que se hagan
diferencias por el gnero.

diff: estima la diferencia entre el peso de las nias (arriba) menos la media de
los nios (debajo). Como la diferencia es negativa (-107.2243), quiere decir que
el valor de la media de los nios es superior. Hay una diferencia de 107.2243
gramos entre nios y nias; as estimas cuanto ms pesan de media los nios
que las nias.
La diferencia de medias puede estar entre los valores que refleja el intervalo de
confianza. Como el intervalo de confianza no pasa por el valor 0 (nulo), quiere
decir que las nias nunca van a tener la misma media de peso que los nios.

Atendiendo a las hiptesis variables que pretender desestimar a la hiptesis nula:

Para la hiptesis de cola a la izquierda y cola a ambos lados, comparamos P y


T con : como es de 0.05 y los valores de P respecto a son menores,
rechazamos la hiptesis nula y aceptamos la hiptesis variable.

Hay una diferencia significativa entre el peso de las nias y los nios porque P es
menor que . El valor 0.0495 es muy prximo a 0.05, por lo que puede haber dudas.
Pero en principio s que podemos rechazar que la media de los pesos sean iguales.

La hiptesis de cola a la derecha tiene un valor P de 0.9752, por lo que es


mayor que (0.05). Como P es mayor que rechazamos la hiptesis variable
y aceptamos la hiptesis nula (la hiptesis formulada en un principio).
Si P : rechazamos la hiptesis variable.
Si P : rechazamos la hiptesis nula.

Cul sera la situacin en Medicina?


Supongamos que se selecciona una muestra aleatoria de 8 mujeres que toman anticonceptivos
orales (AO) en el grupo de edad de 35 a 39 aos, resultando en una media de presin sistlica
de 132.66 mmHg y una desviacin estndar de 15.34 mmHg. Otra muestra aleatoria de 21
mujeres en el mismo grupo de edad, que no toman AO, tienen una media de presin sistlica
de 127.44 mmHg y desviacin estndar de 18.23 mmHg. La toma de AO influye en la presin
sistlica? Estimar la diferencia de media de la presin sistlica en los 2 grupos considerados
mediante un intervalo de confianza al 95%.

Si las medias son iguales dar igual tomar AO o no tomar AO porque no influye en la
presin sistlica.
Tenemos una poblacin A que toma anticonceptivos orales, y una poblacin B que no
toma anticonceptivos orales. El volumen total de la muestra se compone de las 2
poblaciones A + B. Las medias y valor de la desviacin estndar estn expuestos en el
problema.
Como quiero comparar las medias se hace una suposicin de (varianza). As,
supongo que ambas varianzas sean iguales entre s. Si las varianzas son iguales
puedo estimar una varianza conjunta.

La hiptesis nula supone que las medias son iguales, por lo que su resta da un
valor de 0.
La hiptesis alternativa supone que las medias son distintas, por lo que su
resta es distinta de 0.

Para hacer estos clculos con STATA:

Si no sealo Unequal Variances supone que las varianzas son iguales:

. ttesti 8 132.66 15.34 21 127.44 18.23


Two-sample t test with equal variances
Obs

Mean

x
y

8
21

132.66
127.44

5.423509
3.978112

15.34
18.23

119.8354
119.1418

145.4846
135.7382

combined

29

128.88

3.226224

17.37375

122.2714

135.4886

5.22

7.281838

-9.721097

20.1611

diff

diff = mean(x) - mean(y)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.7602

Std. Err.

Std. Dev.

[95% Conf. Interval]

t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796

0.7169
27

Ha: diff > 0


Pr(T > t) = 0.2398

La hiptesis variable de cola a la izquierda y de 2 colas tiene un valor P mayor que .


-

Si las medias entre ambas muestras de poblacin son iguales, la toma de AO


no afecta a la presin sistlica en este grupo de poblacin.

Para variables cuantitativas continuas medidas en escala de razn: vamos a utilizar


una comparacin de medias; si hubiramos estado trabajando con proporciones
tendra que ser para comparacin de proporciones (ms abajo en la misma columna).

. ttesti 8 132.66 15.34 21 127.44 18.23


Two-sample t test with equal variances
Obs

Mean

x
y

8
21

132.66
127.44

5.423509
3.978112

15.34
18.23

119.8354
119.1418

145.4846
135.7382

combined

29

128.88

3.226224

17.37375

122.2714

135.4886

5.22

7.281838

-9.721097

20.1611

diff

Std. Err.

diff = mean(x) - mean(y)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.7602

Std. Dev.

[95% Conf. Interval]

t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796

0.7169
27

Ha: diff > 0


Pr(T > t) = 0.2398

Si considero unequal variances:


. ttesti 8 132.66 15.34 21 127.44 18.23, unequal
Two-sample t test with unequal variances
Obs

Mean

x
y

8
21

132.66
127.44

5.423509
3.978112

15.34
18.23

119.8354
119.1418

145.4846
135.7382

combined

29

128.88

3.226224

17.37375

122.2714

135.4886

5.22

6.726056

-9.113327

19.55333

diff

diff = mean(x) - mean(y)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.7751

Std. Err.

Std. Dev.

[95% Conf. Interval]

t =
Satterthwaite's degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4497

0.7761
15.0352

Ha: diff > 0


Pr(T > t) = 0.2249

El error estndar se calcula segn: la desviacin estndar se divide entre la


raz del nmero de individuos de la muestra.
El intervalo de confianza se calcula segn: calculas primero el error aleatorio
(multiplicando el error estndar por 1.95), y se suma/resta al valor de la media.

El error mximo es la diferencia entre el mximo del intervalo y el mnimo del


intervalo (doble de psilon).

La diferencia que hay entre las medias muestrales de presin sistlica es de 5.22
(comparamos la media de las mujeres que toman AO y las mujeres que no toman AO).
Para la diferencia de medias tambin se puede hacer un intervalo de confianza.
-

La hiptesis NULA dice que las medias son iguales.


Las hiptesis ALTERNATIVAS sugieren 3 posibles alternativas a la hiptesis
nula. El resultado del test de 2 lados (P=0.4497) es mayor que , por lo que no
podemos rechazar la hiptesis nula. El valor P es mayor que para todos los
test (2 lados, cola a la izquierda y cola a la derecha), por lo que NO podemos
rechazar la hiptesis nula.

Los Grados de Libertad se calculan segn: n 1. Si quiero que la media se conserve,


el ltimo valor que me sirve para estimar la media se calcula segn n (tamao de la
muestra) 1 (valor que no puedo desestimar). Los grados de libertad se usan cuando
la muestra responde a un test de varianzas iguales, pero cuando las varianzas son
diferentes utilizo una aproximacin (de Satterhwaites).
Si ahora considero: equal variances
Two-sample t test with equal variances
Obs

Mean

x
y

8
21

132.66
127.44

5.423509
3.978112

15.34
18.23

119.8354
119.1418

145.4846
135.7382

combined

29

128.88

3.226224

17.37375

122.2714

135.4886

5.22

7.281838

-9.721097

20.1611

diff

diff = mean(x) - mean(y)


Ho: diff = 0
Ha: diff < 0
Pr(T < t) = 0.7602

Std. Err.

Std. Dev.

[95% Conf. Interval]

t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796

0.7169
27

Ha: diff > 0


Pr(T > t) = 0.2398

Si comparamos los valores de P con , la conclusin es que P es mayor que por lo


que NO podemos rechazar la hiptesis nula. Los datos que tengo no contienen
suficiente evidencia como para rechazar H0: no hay una asociacin entre la toma de
AO y la presin arterial sistlica (P=0.4796). Hay una relacin entre el intervalo de
confianza y el resultado de ttest de 2 lados: el intervalo de confianza para la diferencia
de medias contiene el valor 0 (es la hiptesis nula: la diferencia de medias es nula).
Cuando el intervalo de confianza para la diferencia de medias contiene el valor de la
hiptesis nula (0) el resultado del test NO ser significativo y por tanto se acepta la
hiptesis nula (la diferencia de medias es igual a 0: H0 = H1 H0 H1 = 0).

Para determinar si un rgimen con grandes dosis de anticido es efectivo en relacin con la
curacin de la lcera duodenal, se realiz un ensayo clnico incluyendo 74 pacientes con lcera
demostrada. A dichos pacientes se les asoci (al azar: para que nada influya en la asignacin
del tratamiento) un tratamiento anticido o un placebo inerte. Al cabo de 28 das, 28 de los 36
pacientes que recibieron el tratamiento anticido estaban completamente curados, comparado
con 17 de los 38 pacientes que recibieron el placebo (p0.005).
Plantear el test que realiza Peterson y calcular el valor P. Estimar la diferencia en el porcentaje
de curaciones con confianza del 99%.

Poblacin A: tratada con anticido. 36 individuos


Poblacin B: tratada con placebo. 38 individuos

Todas las variables son 0-1. Las variables entre ambos grupos de poblacin son
iguales excepto la que est sujeta a control (tratamiento con anticido). Es una
variable binomial. Utilizo la proporcin de curaciones: se han curado 28 de 36 (0.78 se
curan en la muestra que hemos tratado con anticido) y 17 de 38 (0.45 se curan en la
muestra que hemos tratado con placebo y por tanto inerte).

Two-sample test of proportions

Std. Err.

x: Number of obs =
y: Number of obs =
z

Variable

Mean

x
y

.78
.45

.0690411
.0807041

.644682
.2918228

.915318
.6081772

diff

.33
under Ho:

.1062065
.1134126

.121839

.538161

2.91

P>|z|

36
38

[95% Conf. Interval]

0.004

diff = prop(x) - prop(y)


Ho: diff = 0
Ha: diff < 0
Pr(Z < z) = 0.9982

Ha: diff != 0
Pr(|Z| < |z|) = 0.0036

z =

2.9097

Ha: diff > 0


Pr(Z > z) = 0.0018

Como P es menor que rechazamos la hiptesis nula: el mejor tratamiento es cuando


los pacientes reciben anticido en lugar del placebo.

X2: para variables cualitativas (seminario 2 Bioestadstica: Aitana Lertxundi).

Despus marcar: Persons Chi Squared y Expected Frequencies.

recin nacidos con


bajo peso
>=2500
<2500gr

hbito tabquico de
la madre

Total

no_ha_fumado_nunca

100
99.3
0.0

3
3.7
0.1

103
103.0
0.1

fumadora_durante_emba

67
70.4
0.2

6
2.6
4.3

73
73.0
4.5

dejan_de_fumar_antes_

74
71.3
0.1

0
2.7
2.7

74
74.0
2.8

Total

241
241.0
0.3

9
9.0
7.1

250
250.0
7.4

Pearson chi2(2) =

7.3919

Pr = 0.025

Cuando hay en una de las casillas casos esperados menores a 5 individuos no se


puede hacer este contraste. Aunque se observan diferencias, no podemos admitir que
sean significativas porque el tamao muestral es demasiado pequeo.
Como P , son dependientes. Este resultado nos obliga a rechazar la hiptesis nula
y aceptar la hiptesis alternativa. Existe asociacin.
hbito tabquico de
la madre

clase social de la
madre
no_manual
manual

Total

no_ha_fumado_nunca

67
56.4
2.0

36
46.6
2.4

103
103.0
4.4

fumadora_durante_emba

27
40.0
4.2

46
33.0
5.1

73
73.0
9.4

dejan_de_fumar_antes_

43
40.6
0.1

31
33.4
0.2

74
74.0
0.3

Total

137
137.0
6.3

113
113.0
7.7

250
250.0
14.0

Pearson chi2(2) =

14.0467

Pr = 0.001

Cuando son 2 variables cualitativas existe asociacin si P es menor que .

También podría gustarte