Resumen STATA
Resumen STATA
Resumen STATA
1. Estadstica Univariante
Las variables cuantitativas se analizan por los siguientes comandos:
2. Estadstica Bivariante
El alumno aprender a realizar un anlisis descriptivo entre 2 variables (entre 2
cuantitativas, entre 2 cualitativas o entre 1 cualitativa y 1 cuantitativa).
a) Cualitativa en base a otra Cualitativa
Statistics/ Summaries,TablesandTests/ Tables/ Two-Way Tables with measures
of association (NO seleccionar Chi Cuadrado. Por el contrario, S seleccionamos
Relative Frequencies. Tambin podemos seleccionar Column/Row Relative
Frequencies si queremos calcular las proporciones marginales).
Grfico de Barras Compuestas (Graphics/ BarChart/ TimestampCountNonMissing/
Categories: seleccionamos ambas variables cualitativas como Group1 y Group2).
b) Cuantitativa en base a Cualitativa
Statistics/ Summaries,TablesandTest/ Summary and DescriptiveStatistics/
Summary Statistics (Main: seleccionamos la variable cuantitativa y
DisplayAdditionalStatistics; despus hacemos click en by/if/in y escribimos la variable
cualitativa). Salen 2 resultados separados segn los grupos de la variable cualitativa
(en este caso, el gnero). A partir de estos datos realizar una tabla en Excel.
Grfico Box-Plot (Graphics/ Main: variable cuantitativa/ Categories: variable
cualitativa).
c) Cuantitativa en base a otra Cuantitativa
Grfico de Dispersin: Graphics/ TwoWayGraph/ Create/ Basic Plots/ Scatter
Para saber la relacin de la intensidad entre ambas variables usamos la Correlacin
Lineal de Pearson (Statistics/ Summaries,Tables and Tests/ Summary and
DescriptiveStatistics/ Correlations and Covariances). El valor -1 indica que hay una
correlacin inversa perfecta; el valor +1 indica que hay una correlacin derecha
perfecta; el valor 0 indica que no hay correlacin entre ambas variables.
3. Inferencia Estadstica
El nivel de confianza del Intervalo es la probabilidad de que un determinado valor se
encuentre en el intervalo de confianza. El nivel de confianza se calcula como 1 ,
siendo el nivel de significacin.
4. Contraste de 2+ Poblaciones
a) Test de la T de Student
- Contraste de Hiptesis (Variable Cuantitativa y Variable Cualitativa;
Variable Cuantitativa y Variable Cuantitativa): Statistics/ Summaries,Tables
and
Tests/
ClassicalTest
of
Hypothesis/
TwoGroup-MeanComparisonTest. Seleccionamos Unequal Variances.
- Tambin se denomina como ttest.
mean peso
Number of obs
Mean
peso
3301.948
250
Std. Err.
27.31226
3248.156
3355.74
ci peso
. ci peso
Variable
Obs
Mean
peso
250
3301.948
Variable
Obs
Mean
peso
250
3301.948
Std. Err.
27.31226
3248.156
Std. Err.
27.31226
3231.053
3355.74
. ci peso, level(99)
3372.843
ttest
. ttest peso=2900
One-sample t test
Variable
Obs
Mean
peso
250
3301.948
Std. Err.
Std. Dev.
27.31226
431.8447
3248.156
mean = mean(peso)
Ho: mean = 2900
Ha: mean < 2900
Pr(T < t) = 1.0000
t =
degrees of freedom =
Ha: mean != 2900
Pr(|T| > |t|) = 0.0000
3355.74
14.7168
249
Test de 2 colas: sirve para saber si puedes aceptar la hiptesis nula o por el contrario
tienes que coger la hiptesis variable.
Lim sup CI 95%= 3301.948+(27.31226*1.96)
Lim inf CI 95%= 3301.948-(27.31226*1.96)
El error aleatorio se calcula como la constante multiplicada por el error estndar de la
media muestral.
Nos ha salido un valor de media muestral de: 3301.948. Para estandarizar la muestra,
restamos la media muestral menos la media de la hiptesis variable y dividimos todo
entre el error estndar (desviacin estndar dividido entre raz de n). As calculamos la
T de Studen.
Si la hiptesis nula es cierta, en la grfica estandarizada la media sera 0. Si hacemos
los clculos previos con los datos de la muestra, obtenemos un valor t=14.7168.
(3301.948-2900) / 27.31226 = t
La probabilidad de que la distribucin T de Studen tome valores mayores de t es de 0.
Sera cola a la derecha.
La probabilidad de que el mdulo de la T de Studen tome valores mayores que t
(valores mayores que 3301), rechazamos la hiptesis nula. Por tanto, P es menor que
(se rechaza la hiptesis nula: el contraste de hiptesis resulta estadsticamente
significativo). La probabilidad de observar esta media muestral es prcticamente 0.
Obs
Mean
peso
250
3301.948
Std. Err.
Std. Dev.
27.31226
431.8447
3248.156
mean = mean(peso)
Ho: mean = 3260
Ha: mean < 3260
Pr(T < t) = 0.9371
t =
degrees of freedom =
Ha: mean != 3260
Pr(|T| > |t|) = 0.1258
3355.74
1.5359
249
Ha cambiado la hiptesis (de 2900 a 3260), pero todos los dems valores no han
cambiado porque la muestra sigue siendo la misma.
La probabilidad de observar un valor de 3301.948 siendo la media 3260 es de: 0.0629.
Si he fijado de 0.05, el valor P es mayor que , por lo que no se puede rechazar la
hiptesis nula. El nivel de significacin de los datos es por P. Con este no vamos a
rechazar la hiptesis nula.
Los resultados son estadsticamente NO significativos.
Obs
Mean
nia
nio
122
128
combined
250
diff
Std. Err.
Std. Dev.
3247.049
3354.273
36.69049
39.87349
405.2597
451.1171
3174.411
3275.371
3319.688
3433.176
3301.948
27.31226
431.8447
3248.156
3355.74
-107.2243
54.32529
-214.222
-.2264907
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.0495
-1.9737
248
Test de Hiptesis: sirve para comprobar si existe relacin entre el gnero y el peso.
Usamos el test group-mean porque la variable est agrupada en un mismo grupo, y no
est separada por muestras.
Obs
Mean
nia
nio
122
128
combined
250
diff
Std. Err.
Std. Dev.
3247.049
3354.273
36.69049
39.87349
405.2597
451.1171
3174.411
3275.371
3319.688
3433.176
3301.948
27.31226
431.8447
3248.156
3355.74
-107.2243
54.32529
-214.222
-.2264907
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.0495
-1.9737
248
El error estndar se calcula como la desviacin estndar entre la raz cuadrada del
nmero de observaciones.
La media +,- error estndar multiplicado por 1.96 = da como resultado el intervalo de
confianza.
La estimacin puntual es la media: en la poblacin de nias y en la poblacin de nios,
y por ltimo miras la estimacin puntual combinada. La estimacin combinada para
ambos gneros es de: 3301.948 gramos.
Las estimaciones puntuales entre las que se encuentran se ven en el intervalo de
confianza al 95%.
La media combinada es para toda la poblacin objetivo (muestra), sin que se hagan
diferencias por el gnero.
diff: estima la diferencia entre el peso de las nias (arriba) menos la media de
los nios (debajo). Como la diferencia es negativa (-107.2243), quiere decir que
el valor de la media de los nios es superior. Hay una diferencia de 107.2243
gramos entre nios y nias; as estimas cuanto ms pesan de media los nios
que las nias.
La diferencia de medias puede estar entre los valores que refleja el intervalo de
confianza. Como el intervalo de confianza no pasa por el valor 0 (nulo), quiere
decir que las nias nunca van a tener la misma media de peso que los nios.
Hay una diferencia significativa entre el peso de las nias y los nios porque P es
menor que . El valor 0.0495 es muy prximo a 0.05, por lo que puede haber dudas.
Pero en principio s que podemos rechazar que la media de los pesos sean iguales.
Si las medias son iguales dar igual tomar AO o no tomar AO porque no influye en la
presin sistlica.
Tenemos una poblacin A que toma anticonceptivos orales, y una poblacin B que no
toma anticonceptivos orales. El volumen total de la muestra se compone de las 2
poblaciones A + B. Las medias y valor de la desviacin estndar estn expuestos en el
problema.
Como quiero comparar las medias se hace una suposicin de (varianza). As,
supongo que ambas varianzas sean iguales entre s. Si las varianzas son iguales
puedo estimar una varianza conjunta.
La hiptesis nula supone que las medias son iguales, por lo que su resta da un
valor de 0.
La hiptesis alternativa supone que las medias son distintas, por lo que su
resta es distinta de 0.
Mean
x
y
8
21
132.66
127.44
5.423509
3.978112
15.34
18.23
119.8354
119.1418
145.4846
135.7382
combined
29
128.88
3.226224
17.37375
122.2714
135.4886
5.22
7.281838
-9.721097
20.1611
diff
Std. Err.
Std. Dev.
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796
0.7169
27
Mean
x
y
8
21
132.66
127.44
5.423509
3.978112
15.34
18.23
119.8354
119.1418
145.4846
135.7382
combined
29
128.88
3.226224
17.37375
122.2714
135.4886
5.22
7.281838
-9.721097
20.1611
diff
Std. Err.
Std. Dev.
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796
0.7169
27
Mean
x
y
8
21
132.66
127.44
5.423509
3.978112
15.34
18.23
119.8354
119.1418
145.4846
135.7382
combined
29
128.88
3.226224
17.37375
122.2714
135.4886
5.22
6.726056
-9.113327
19.55333
diff
Std. Err.
Std. Dev.
t =
Satterthwaite's degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4497
0.7761
15.0352
La diferencia que hay entre las medias muestrales de presin sistlica es de 5.22
(comparamos la media de las mujeres que toman AO y las mujeres que no toman AO).
Para la diferencia de medias tambin se puede hacer un intervalo de confianza.
-
Mean
x
y
8
21
132.66
127.44
5.423509
3.978112
15.34
18.23
119.8354
119.1418
145.4846
135.7382
combined
29
128.88
3.226224
17.37375
122.2714
135.4886
5.22
7.281838
-9.721097
20.1611
diff
Std. Err.
Std. Dev.
t =
degrees of freedom =
Ha: diff != 0
Pr(|T| > |t|) = 0.4796
0.7169
27
Para determinar si un rgimen con grandes dosis de anticido es efectivo en relacin con la
curacin de la lcera duodenal, se realiz un ensayo clnico incluyendo 74 pacientes con lcera
demostrada. A dichos pacientes se les asoci (al azar: para que nada influya en la asignacin
del tratamiento) un tratamiento anticido o un placebo inerte. Al cabo de 28 das, 28 de los 36
pacientes que recibieron el tratamiento anticido estaban completamente curados, comparado
con 17 de los 38 pacientes que recibieron el placebo (p0.005).
Plantear el test que realiza Peterson y calcular el valor P. Estimar la diferencia en el porcentaje
de curaciones con confianza del 99%.
Todas las variables son 0-1. Las variables entre ambos grupos de poblacin son
iguales excepto la que est sujeta a control (tratamiento con anticido). Es una
variable binomial. Utilizo la proporcin de curaciones: se han curado 28 de 36 (0.78 se
curan en la muestra que hemos tratado con anticido) y 17 de 38 (0.45 se curan en la
muestra que hemos tratado con placebo y por tanto inerte).
Std. Err.
x: Number of obs =
y: Number of obs =
z
Variable
Mean
x
y
.78
.45
.0690411
.0807041
.644682
.2918228
.915318
.6081772
diff
.33
under Ho:
.1062065
.1134126
.121839
.538161
2.91
P>|z|
36
38
0.004
Ha: diff != 0
Pr(|Z| < |z|) = 0.0036
z =
2.9097
hbito tabquico de
la madre
Total
no_ha_fumado_nunca
100
99.3
0.0
3
3.7
0.1
103
103.0
0.1
fumadora_durante_emba
67
70.4
0.2
6
2.6
4.3
73
73.0
4.5
dejan_de_fumar_antes_
74
71.3
0.1
0
2.7
2.7
74
74.0
2.8
Total
241
241.0
0.3
9
9.0
7.1
250
250.0
7.4
Pearson chi2(2) =
7.3919
Pr = 0.025
clase social de la
madre
no_manual
manual
Total
no_ha_fumado_nunca
67
56.4
2.0
36
46.6
2.4
103
103.0
4.4
fumadora_durante_emba
27
40.0
4.2
46
33.0
5.1
73
73.0
9.4
dejan_de_fumar_antes_
43
40.6
0.1
31
33.4
0.2
74
74.0
0.3
Total
137
137.0
6.3
113
113.0
7.7
250
250.0
14.0
Pearson chi2(2) =
14.0467
Pr = 0.001