Estadistica

Estadística
Matias N. Lugo
MP 229.544
¿Qué es la estadística?
Estadística es la ciencia de:
• Recolectar
• Describir
• Organizar
Datos
• Interpretar
para transformarlos en información, para la
toma mas eficiente de decisiones.
SEGÚN LA INTERVENCIÓN DEL INVESTIGADOR
OBSERVACIONAL
EXPERIMENTAL
No existe intervención del
Siempre son prospectivos,
investigador; los datos reflejan la
analíticos y de nivel investigativo
evolución de la enfermedad,
“explicativo” (causa – efecto);
ajena a la voluntad del
además de ser “controlados”.
investigador.
Tipos de Estudio
Observacionales
Descriptivos Analíticos
• Reporte o Serie de Casos Caso-Control

• Transversales
Cohorte
Reporte de Un caso o Series de
Casos
• Describe las características de un paciente o un grupo de
pacientes con similares características.
• Generalmente describen un nuevo hallazgo.
• Representan casi un tercio de las publicaciones
• Permiten la generación de hipótesis
• Son la interface entre la practica clínica y la epidemiología
Reporte de Un caso o Series de
Casos
LIMITACIONES
• Generación de Hipótesis pero no para testear la validez o
causalidad de una asociación.
• Son las características de un solo o algunos individuos.
• La interpretación de la frecuencia de exposición esta limitada

por la falta de un grupo control.
Estudios Transversales
• Conocidos tambien como Cross- Sectional o Prevalencia.
• Exposición y Evento se evalúan en un mismo periódo de tiempo

• Exámen preocupacional
• Ingreso a la Universidad
• Retiro laboral
-Estudios de cohorte
En este tipo de estudios se define a los

participantes por la presencia o no de la condición
de exposición, y se determina la ocurrencia del
evento en cada grupo. Puede ser prospectivo o
retrospectivo. DEFINEN CAUSALIDAD.
Casos y Controles
Estudio analítico observacional, en el que se selecciona dos
grupos de sujetos de acuerdo a la presencia (casos) o ausencia
del evento (controles) en estudio.
Comparación de grupos respecto a la exposición previa a
factores de riesgo (FR) o protección (FP) para esclarecer su papel
en la etiología de la enfermedad en estudio.
Este diseño representa una estrategia muestral del diseño de
cohorte.
Ventajas
 Útil para estudiar enfermedades raras (de baja
incidencia) o con períodos de latencia prolongados.
 Permiten el estudio simultáneo de varios factores
de riesgo.
 Requieren comparativamente menor número de
sujetos.
 En general son menos costosos y duran menos
tiempo.
Limitaciones
 No se puede medir incidencia directamente.
 Dificultad en la selección de los controles.
 Mayor posibilidad de sesgos: sesgo de memoria,
sesgo de confusión.
 Cuando se estudian enfermedades muy raras, la
elección del grupo de casos no suele ser aleatoria y
se toma lo que existe.
Variables estadísticas
Una variable estadística

es cada una de las
características o cualidades
que poseen los individuos de
una población.
nominal
cualitativa
ordinal
Variable
discreta
cuantitativa
continua
Presenta modalidades no
numéricas que no
admiten un criterio de
nominal orden
Ejemplo: el estado civil:
soltero, casado…
Variable Presenta modalidades no

numéricas, en las que
cualitativa existe un orden.
Por ejemplo:
-La nota en un examen:
suspenso, aprobado,
ordinal notable, sobresaliente.
-Puesto conseguido en una
prueba deportiva: 1º, 2º,
3º.
-Medallas de una prueba
deportiva: oro, plata,
bronce.
Es aquella que toma valores
aislados, es decir no admite
valores intermedios entre
discreta dos valores específicos.
Por ejemplo: El número de
hermanos de 5 amigos:
2, 1, 0, 1, 3
Variable
cuantitativa
Es aquella que puede tomar
valores comprendidos
entre dos números.
continua Por ejemplo: La altura de
los 5 amigos:
1,73; 1,82; 1,77; 1,69; 1,75
La media aritmética es el valor
obtenido al sumar todos los
datos y dividir el resultado entre
el número total de datos.
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78
kg.
Hallar el peso medio.
La moda es el valor que
tiene mayor frecuencia
absoluta.
Se representa por Mo.

Se puede hallar la moda para
variables cualitativas y
cuantitativas.
Ejemplo: la moda de la
distribución:
2, 3, 3, 4, 4, 4, 5, 5  Mo= 4
Mediana
Es el valor que ocupa el lugar central de todos
los datos cuando éstos están ordenados de menor
a mayor.
Se representa por Me.
Se puede hallar sólo para variables cuantitativas.
1- Ordenamos los datos de menor a mayor.

2-Si la serie tiene un número impar de medidas la mediana es la
puntuación central de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6  Me= 5
3-Si la serie tiene un número par de puntuaciones la mediana es la
media entre las dos puntuaciones centrales.
7, 8, 9, 10, 11, 12  Me= 9,5
1. Variación, se refiere a la cantidad en que los
datos u observaciones varían entre si, esta
variación puede medirse.
2. Los datos que están relativamente cercanos

entre si, tienen bajas medidas de
variabilidad, mientras que los que están mas
alejados entre si tienen medidas de variación
mas grandes.
Menor dispersión = más homogéneo
Mayor dispersión = menos homogéneo
MEDIDAS DE DISPERSION
• Una medida de dispersión de un
conjunto de datos, mide cuan
esparcidos se encuentran estos o
que tan heterogéneos son.
MEDIDAS DE DISPERSIÓN
Miden qué tanto se dispersan las observaciones
alrededor de su media.
MEDIDAS DE DISPERSIÓN
En algunos casos existen conjuntos de datos que tienen la misma media y la
misma mediana, pero esto no refleja qué tan dispersos están los elementos
de cada conjunto.
Ejemplo:
Conjunto 1. 80, 90, 100, 110, 120

Conjunto 2. 0, 50, 100, 150, 200
Conjunto 1 80  90  100  110  120
Media   100
5
Conjunto 2 0  50  100  150  200

Media   100
5
Para ambos conjuntos la Mediana es igual a 100. Los datos del conjunto 2 están
más dispersos con respecto a su media que los datos del conjunto 1.
Principales medidas de
dispersión
• El rango
• Rango Intercuartil
• La varianza
• La desviación estándar
RANGO
R = X máx – X min
Ejemplo
• Ante la pregunta sobre número de hijos por familia,
una muestra de 12 hogares, marcó las siguientes
respuestas:
2 1 2 4 1 3
2 3 2 0 5 1
• Calcule el rango de la variable
Solución
• El Rango es R =5 – 0 = 5
VARIANZA
Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatoria de las diferencias al cuadrado entre cada valor y la
media, multiplicadas por el número de veces que se ha repetido cada valor.
La sumatoria obtenida se divide por el tamaño de la muestra.
FÓRMULA n
 i
( x  x ) 2
s2  i 1
n 1
La varianza siempre será mayor que cero. Mientras más se aproxima a
cero, más concentrados están los valores de la serie alrededor de la
media. Por el contrario, mientras mayor sea la varianza, más dispersos
están.
Ejemplo
Varianza para los siguientes datos
2 1 2 4 1 3 2 3 2 0 5 1
21.6672
s2   1.9697
11
DESVIACIÓN ESTÁNDAR
Es una medida de dispersión usada en estadística que nos dice cuánto tienden a
alejarse los valores puntuales del promedio en una distribución.
Específicamente, la desviación estándar es "el promedio de la distancia de cada punto

respecto del promedio". Se suele representar por una S.
Una desviación estándar grande indica que los puntos están lejos de la media, y una
desviación pequeña indica que los datos están agrupados cerca de la media.
 (x i  x )2
s i 1
n 1
Ejemplo
Si retomamos el ejemplo que corresponde a la varianza:

Calcula la desviación estándar para los siguientes datos
2 1 2 4 1 3 2 3 2 0 5 1
Una vez que hemos calculado la media y la varianza, sólo resta calcular la raíz
cuadrada de la varianza.
x  2.16
21.6672
s2   1.9697
11
S  1.9697  1.4034
Tipos de frecuencia
La frecuencia La frecuencia relativa es el
absoluta es el cociente entre la frecuencia
número de veces absoluta de un determinado
que aparece un valor y el número total de
determinado valor datos
en un estudio
estadístico.
La suma de las frecuencias

absolutas es igual al número total
de datos, que se representa por N
Ejemplo:
Durante el mes de julio, en una ciudad se han

registrado las siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30,
32, 31, 31, 30, 30, 29, 29, 30, 30, 31, 30, 31, 34, 33,
33, 29, 29.
xi fi Fi ni Ni
27 1 1 0.032 0.032
28 2 3 0.065 0.097
29 6 9 0.194 0.290
30 7 16 0.226 0.0516
31 8 24 0.258 0.774
32 3 27 0.097 0.871
33 3 30 0.097 0.968
34 1 31 0.032 1
31 1
Polígono de frecuencias
Un polígono de frecuencias se forma uniendo

los extremos de las barras de un diagrama de
barras mediante segmentos.
También se puede realizar trazando los

puntos que representan las frecuencias y
uniéndolos mediante segmentos.
Ejemplo
Las temperaturas en un día invernal de una ciudad
han sufrido las siguientes variaciones:
Temperatura (ºC)
Hora
Histograma
Un histograma es una representación gráfica
de una variable en forma de barras.
Se utilizan para variables continuas o para
variables discretas, con un gran número de datos,
y que se han agrupado en intervalos.
En el eje abscisas se construyen unos
rectángulos que tienen por base la amplitud del
intervalo, y por altura, la frecuencia absoluta de
cada intervalo.
La superficie de cada barra es proporcional a la
frecuencia de los valores representados.
Ejemplo
El peso de 65 personas adultas viene dado
por la siguiente tabla:
Distribución Binomial
Hay muchas situaciones donde se espera que
ocurra o no un evento específico. Éste puede
ser de éxito o fracaso sin dar paso a un punto
medio. Por ejemplo, en la producción de un
artículo, éste puede salir bueno o malo. Casi
bueno no es un resultado de interés. Para
situaciones como éstas se utiliza la distribución
binomial.
38
Distribución binomial
Para construir una distribución binomial es necesario conocer el número de
pruebas que se repiten y la probabilidad de que suceda un éxito en cada una
de ellas.
La fórmula que describe la distribución es la siguiente:
Donde: n es el número de pruebas

x es el número de éxitos
p es la probabilidad de obtener un éxito
q es la probabilidad de obtener un fracaso,
que se calcula q = 1 - p
A.11.2
Distribución Binomial
1. La muestra se compone de un numero fijo de
observaciones (n)
2. Cada observación se puede clasificar en dos categorías:

éxito y fracaso.
3. Si la probabilidad de éxito es p, la probabilidad de

fracaso es 1-p (q)
4. El resultado es independiente del resultado de cualquier

otro evento
40
Distribución Normal
Es la distribución de probabilidad más importante,

que corresponde a una variable continua. También
se la llama distribución gaussiana.
En esta distribución no es posible calcular la

probabilidad de un valor exacto, siempre se trabaja
con rangos.
41
Propiedades de la distribución
normal
Tiene forma de campana (es simétrica)
Sus medidas de tendencia central son idénticas (media,

mediana, moda, rango medio y eje medio
42
Fórmula de la Estandarización
Los elementos base para estandarizar los datos son los parámetros de
la Media Aritmética y la Desviación Estándar.
X 
Z

Al estandarizar los datos de la población, la media se convierte en
0 y la desviación estándar en 1
43
Supongamos que los datos de una muestra van de 30
a 90 (en el plano cartesiano se traza la recta en una
escala de 10 en 10).
En la muestra, la media aritmética es 60 y la desviación

estándar es 10.
Estandarizar cada uno de los datos de la recta del plano

cartesiano; es decir, cuál es el valor de Z de cada dato
desde 30 hasta 90.
44
30  60  30
Para X  30  Z    3
10 10
60  60 0
Para X  60  Z  0
10 10
45
Intervalos de confianza para los principales
parámetros
En este caso, en lugar de indicar simplemente un único valor como estimación
del parámetro, lo que haremos es ofrecer un intervalo de valores que sea
asumible con cierta probabilidad por el parámetro que queremos estimar.
-Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el
parámetro.
-Límites de los intervalos de confianza: Son los dos valores extremos del
intervalo de confianza
Intervalos de confianza para los principales
parámetros
¿Cuán grande habrá de ser el intervalo de confianza?
Si decimos que el intervalo de confianza va de menos infinito a más infinito, seguro que
acertamos. Pero eso no es muy útil.
La idea es crear unos intervalos de confianza de manera que sepamos en qué

porcentaje de casos el parámetro estará dentro del intervalo crítico.
¿Y cómo fijamos tal porcentaje de casos? Se asume un porcentaje del 95%. Al calcular
un intervalo de confianza sobre la media al 95% ello quiere decir que el 95% de las veces
que repitamos el proceso de muestreo (y calculemos la media muestral), la media
poblacional estará dentro de tal intervalo.
Intervalos de confianza para los principales parámetros
Pero, ¿cómo calculamos estos dos límites?
En una distribución normal tipificada, es muy fácil saber qué puntuación típica (z)
deja a la izquierda el 2.5% de los datos (-2 DS) y cuál deja a la izquierda el
97.5% de los datos (+2DS).
Es la frecuencia total de un evento que ocurre en una
poblacion determinada .
Representa la probabilidad real de una enfermedad,
accidente o muerte en un período determinado.
Incidencia y prevalencia
• La tasa de incidencia mide la probabilidad de que una persona sana
desarrolle enfermedad durante un periodo específico de tiempo
• Es decir, representa el número de casos nuevos de enfermedad en
una población durante un periodo de tiempo definido
• La tasa de prevalencia mide el número de personas en una población
que en un momento dado tienen la enfermedad
Incidencia y prevalencia
• Las fórmulas para calcular estas tasas son:
Incidencia = número de casos nuevos en un periodo de tiempo

población en riesgo
Prevalencia = número existente de casos en un punto en el tiempo

población total
Operaciones con
probabilidades
Regla de Suma Para Eventos Mutuamente Excluyentes
P(A o B) = P(A) + P(B)
Ej: Probabilidad de ser hombre o mujer.

Operaciones con
probabilidades
Regla de Suma Para Eventos

Mutuamente No Excluyentes
P(A o B) = P(A) + P(B) – P(A y B)

Ej: Ser hombre o tener grupo A
Operaciones con
probabilidades
Regla de Probabilidad Condicional para dos
Eventos Dependientes
P(A x B) = P(A/B) * P(B)

Ej: Probabilidad de ACV por tener HTA
Operaciones con
probabilidades
Regla de Multiplicación para dos Eventos Independientes
P(A y B) = P(A) * P(B)
Ej: ser hombre y tener grupo A

¿Qué es una
hipótesis? Creo que el porcentaje
de enfermos será el 5%
• Una creencia sobre la población,

principalmente sus parámetros:
• Media
• Varianza
• Proporción/Tasa
57
Contraste de Hipótesis
Hipótesis Nula: (H0) es la que se quiere demostrar.
Hipótesis Alternativa: (H1) es la que contrapone a la

hipótesis nula
Contrastando una hipótesis
Son demasiados...
Creo que la edad

media es 40 años...
¡Gran
diferencia!
Muestra Rechazo la
aleatoria hipótesis
X  20 años
59
• Problema: ¿La osteoporosis está relacionada con el género?
• Solución:
• Traducir a lenguaje estadístico: p  0.5

• Establecer su opuesto: p  0.5
H 0 : p  0.5
60
Riesgos al tomar decisiones
Ejemplo: Se juzga a un individuo por la presunta comisión de un delito
Los datos pueden refutarla
La que se acepta si las pruebas

• H0: Hipótesis nula no indican lo contrario
• Es inocente
Rechazarla por error tiene graves
consecuencias
• H1: Hipótesis alternativa

No debería ser aceptada sin una gran
• Es culpable evidencia a favor.
Rechazarla por error tiene

consecuencias consideradas menos
graves que la anterior
61
Tipos de error al tomar una decisión
Realidad
Inocente Culpable
Inocente
OK Error
Menos grave
Veredicto
Culpable Error OK
Muy grave
62
Tipos de error al contrastar
hipótesis
Realidad
H0 cierta H0 Falsa
No Rechazo H0
Correcto Error de tipo II
El tratamiento no tiene El tratamiento si tiene efecto
efecto y así se decide. pero no lo percibimos.
Probabilidad β
Rechazo H0 Error de tipo I Correcto

El tratamiento no tiene El tratamiento tiene efecto y el
Acepto H1 efecto pero se decide experimento lo confirma.
que sí.
Probabilidad α
Bioestadística. Pruebas de hipótesis 63

SENSIBILIDAD EN PRUEBAS
Sensibilidad. Es la capacidad de una prueba para dar resultados

positivos cuando el animal está verdaderamente enfermo.
Verdaderos positivos
Sensibilidad (Se) =
Verdaderos positivos + falsos negativos (Total de enfermos)
ESPECIFICIDAD EN PRUEBAS
Especificidad. Es la capacidad de la prueba para dar resultados negativos
cuando un animal no está verdaderamente enfermo.
Verdaderos negativos
Especificidad (Es) =
Verdaderos negativos + Falsos positivos (Total sanos)
Valor predictivo negativo
Pacientes que están sanos cuando la prueba da negativa.

Verdaderos negativos
Formula VPN =
Total negativos
Valor predictivo positivo

Pacientes que están enfermos cuando la prueba da positiva.
Verdaderos positivos
Formula VPP =
Total de positivos
Riesgo relativo
Tasa de incidencia en el
grupo de los expuestos
RR =
Tasa de incidencia en el
grupo de los no expuestos
EJEMPLO Enfermedad Coronaria
Enfermos No Totales TI
Enfermos
HABITO Fumador 84 2 916 3 000 28 x
DE FUMAR 1000
No 87 4 913 5 000 17.4
Fumador x
1000
Totales 171 7 829 8 000
RR=28 / 17.4 = 1.61

RR =1 (no existe evidencia de
asociación entre el factor y el daño)
RR >1 (el factor de riesgo aumenta

el riesgo de aparicion del daño)
RR <1 (disminuye el riesgo de

aparición del daño, se trata de un factor
de protección)
Odds ratio
En los estudios de casos y controles o
retrospectivos no se puede calcular el riesgo
relativo ya que no puede calcular las tasas de
incidencia.
EJEMPLO Enfermedad
Presente Ausente Totales
Factor de Presente a b a+b

riesgo
No c d c+d
Presente
Totales a+c b+d a+b+c+d
(a) (d)
OR = (b) (c)
EJEMPLO Cancer de endometrio
Presente Ausente Totales
Uso de Presente 55 19 74
Estrógenos
No 128 164 292
Presente
Totales 183 183 366
55 X 164
OR = = 3.71
19 X 128
Gracias

Estadistica

Cargado por

Copyright:

Formatos disponibles

Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica

Cargado por

Copyright:

Formatos disponibles

Estadística

• Reporte o Serie de Casos Caso-Control

• La interpretación de la frecuencia de exposición esta limitada

• Exposición y Evento se evalúan en un mismo periódo de tiempo

En este tipo de estudios se define a los

Una variable estadística

Variable Presenta modalidades no

Se representa por Mo.

1- Ordenamos los datos de menor a mayor.

2. Los datos que están relativamente cercanos

Conjunto 1. 80, 90, 100, 110, 120

Conjunto 2 0  50  100  150  200

Varianza para los siguientes datos

Específicamente, la desviación estándar es "el promedio de la distancia de cada punto

Si retomamos el ejemplo que corresponde a la varianza:

La suma de las frecuencias

Durante el mes de julio, en una ciudad se han

Un polígono de frecuencias se forma uniendo

También se puede realizar trazando los

La fórmula que describe la distribución es la siguiente:

Donde: n es el número de pruebas

2. Cada observación se puede clasificar en dos categorías:

3. Si la probabilidad de éxito es p, la probabilidad de

4. El resultado es independiente del resultado de cualquier

Es la distribución de probabilidad más importante,

En esta distribución no es posible calcular la

Sus medidas de tendencia central son idénticas (media,

En la muestra, la media aritmética es 60 y la desviación

Estandarizar cada uno de los datos de la recta del plano

La idea es crear unos intervalos de confianza de manera que sepamos en qué

Pero, ¿cómo calculamos estos dos límites?

Incidencia = número de casos nuevos en un periodo de tiempo

Prevalencia = número existente de casos en un punto en el tiempo

Ej: Probabilidad de ser hombre o mujer.

Regla de Suma Para Eventos

Ej: ser hombre y tener grupo A

• Una creencia sobre la población,

Hipótesis Alternativa: (H1) es la que contrapone a la

Creo que la edad

• Traducir a lenguaje estadístico: p  0.5

Los datos pueden refutarla

La que se acepta si las pruebas

• H1: Hipótesis alternativa

Rechazarla por error tiene

Rechazo H0 Error de tipo I Correcto

Bioestadística. Pruebas de hipótesis 63

Sensibilidad. Es la capacidad de una prueba para dar resultados

Pacientes que están sanos cuando la prueba da negativa.

Valor predictivo positivo

RR=28 / 17.4 = 1.61

RR >1 (el factor de riesgo aumenta

RR <1 (disminuye el riesgo de

Presente Ausente Totales

Factor de Presente a b a+b

Totales a+c b+d a+b+c+d

Presente Ausente Totales

Totales 183 183 366

También podría gustarte