2 Curso de Bioestadistica para Enfermería

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 41

1

BIOESTADISTICA PARA ENFERMERA



NDICE


1. INTRODUCCIN A LA BIOESTADSTICA

1.1. Conceptos generales
1.2. Clasificacin de los datos
1.3. Tabulacin y representacin grfica
1.3.1.Tablas de distribucin de frecuencias
1.3.2.Representacin grfica

2. ESTADSTICA DESCRIPTIVA

2.1. Variables cualitativas
2.2. Variables cuantitativas
2.2.1.Medidas de tendencia central
2.2.2.Medidas de dispersin
2.2.3.Medidas de posicin

3. INTRODUCCIN A LAS PROBABILIDADES

3.1. Nociones sobre la Teora de Conjuntos
3.2. Conceptos sobre la teora de probabilidades
3.3. Sucesos mutuamente excluyentes
3.4. Sucesos mutuamente no excluyentes
3.5. Probabilidad condicionada
3.6. Sucesos dependientes e independientes
3.7. Teorema de Bayes

4. DISTRIBUCIONES DE PROBABILIDAD

4.1. Distribucin normal
4.1.1.Simetra y asimetra
4.2. Distribucin binomial
4.3. Distribucin de Poisson

5. ESTADSTICA INFERENCIAL

5.1. Estimacin de parmetros
5.1.1.Estimacin de parmetros en muestras grandes (N>30)
5.1.2.Estimacin de parmetros en muestras pequeas (N > 30)
5.2. Prueba de hiptesis
5.2.1.Hiptesis nula e hiptesis alterna
5.2.2.Error tipo I y error tipo II



2
5.3. Contraste de hiptesis
5.3.1.Estudio de relacin entre variables cualitativas: prueba del chi-cuadrado
5.3.2.Relacin entre una variable cualitativa y otra cuantitativa: prueba t de Student y anlisis de
la varianza
5.3.3Relacin entre dos variables cuantitativas: correlacin y regresin

6. MUESTREO

6.1. Tcnicas de muestreo probabilstico
6.1.1. Muestreo irrestrictamente aleatorio o muestreo aleatorio simple
6.1.2. Muestreo sistemtico
6.1.3. Muestreo estratificado
6.1.4. Muestreo por conglomerados
6.1.5. Muestreo por etapas
6.2. Tcnicas de muestreo no probabilstico
6.2.1.Muestreo consecutivo
6.2.2.Muestreo de conveniencia
6.2.3.Muestreo a criterio
6.3. El tamao muestral

BIBLIOGRAFA


1.Introduccin a la bioestadstica.

1.1 Conceptos generales.

La Estadstica es aquella ciencia que tiene por objeto dar mtodos tanto para la
recopilacin, organizacin y anlisis de los datos que provienen de un grupo de individuos, como
su aplicacin para decidir la aceptacin o rechazo de ciertas afirmaciones o leyes.

La Estadstica busca las caractersticas generales de los colectivos, prescindiendo de las
particularidades que forman dicho colectivo. A este colectivo se le denomina poblacin. Una
poblacin puede ser finita o infinita. Por ejemplo, la poblacin formada por todos los pacientes
con cncer es infinita, mientras que la poblacin constituida por todos los pacientes con cncer
del hospital H es finita. La poblacin sera el conjunto de individuos sobre el que se pretende
sacar conclusiones. Sin embargo, en la mayora de los casos la poblacin est formada por un
nmero tan grande de elementos que nos es materialmente imposible obtener informacin de
todos ellos. Por esta razn, se suele trabajar con una parte de la poblacin a la que
denominamos muestra. Ejemplo de esto sera el estudio del nivel de hemoglobina en un grupo de
donantes de sangre (la muestra), seleccionado de todo el colectivo de donantes de sangre. Dicho
de otra forma, la muestra sera el subconjunto de individuos de la poblacin sobre el que se
realiza el estudio.

Del estudio de las caractersticas de la muestra se ocupa la Estadstica Descriptiva. En este
sentido las tareas de Estadstica Descriptiva seran:
o La organizacin de los datos numricos de la muestra a travs de las tablas y
representaciones grficas.
o El anlisis de los datos obtenidos mediante la obtencin de ndices estadsticos
representativos de la muestra: medidas de tendencia central y de dispersin.


3
Sin embargo, al investigador, no le interesan las caractersticas de la muestra, sino el
conocimiento de las caractersticas de la poblacin. Gracias a la Estadstica Descriptiva
podemos estudiar slo una muestra y, si sta es representativa de la poblacin, podemos
inferir las caractersticas de la poblacin. sta es la tarea de la Estadstica Inferencial.


1.2.Clasificacin de los datos.

Los objetos o individuos manifiestan sus caractersticas segn diversas modalidades. Por
ejemplo, la caracterstica sexo se manifiesta segn dos modalidades: varn o hembra. La
caracterstica color de ojos segn varias modalidades: azul, marrn, verde, negro. La
caracterstica altura segn infinitas modalidades. Cada caracterstica que se desea estudiar en
una muestra de individuos y que se caracteriza por tomar en ellos diferentes valores, recibe el
nombre de variable.

Las variables a su vez se clasifican en:


I. Variables Cualitativas o categricas: cuyos valores se presentan como cualidades o
atributos. En este caso la variable no puede ser medida o bien el mtodo de medida es
imperfecto. Si tan slo son posibles dos categoras se denominan Dicotmicas, el ejemplo tpico
es el sexo, mencionado anteriormente. Si pueden ordenarse segn un criterio creciente o
decreciente hablamos de variables Ordinales, tambin denominadas variables Cuasicuantitativas.
Por ejemplo, podramos hablar de dolor en pacientes oncolgicos clasificndolo como: leve,
moderado, intenso.


II. Variables Cuantitativas: que pueden ser de dos tipos:

a. Variables Cuantitativas Discretas: los distintos valores que presenta la variable pueden
ser contados, y entre dos valores consecutivos de la variable no existen valores intermedios, es
decir, son valores enteros. Por ejemplo: nmero de hijos, de infartos, de partos,. En estos casos
encontraremos, por ejemplo, una mujer con dos partos o con tres, pero no con dos partos y
medio. Se denomina discreta porque los distintos valores que puede tomar la variable estn
separados entre s, es decir, existen vacos o interrupciones entre los distintos valores de la
variable.

b. Variables Cuantitativa Continua: los distintos valores que toma la variable son
susceptibles de ser medidos y entre dos valores consecutivos de la variable existen infinitas
modalidades intermedias: Por ejemplo: temperatura, nivel de hemoglobina en sangre, presin
sangunea,. En estos casos entre un nivel de hemoglobina de 12,4 mg/dl y otro de 12,5 mg/dl,
existen valores como 12,41 mg/dl o 12,465 mg/dl.


III. Constante: valor numrico que no cambia en un contexto determinado. Por ejemplo, el
grado de atraccin de la tierra sobre los objetos de su superficie no vara mientras la presin se
mantiene constante, este valor es, una constante.

Una vez que tenemos agrupadas las variables, obtenemos una escala como resultado.
Existen una gran cantidad de escalas de medida, pero slo algunas de ellas son de utilizacin
frecuente.


4
Clasificacin de las escalas de medida.

Escalas nominales: su nica finalidad es clasificar datos cualitativos. Se emplea cuando
las categoras de una variable son excluyentes entre s. Es la forma ms simple de observacin.
Por ejemplo: grupo sanguneo, color de pelo, sexo.

Escalas ordinales: son aquellas que permiten un enunciado mayor que o menor que.
Las transformaciones admisibles para estas escalas son nicamente aquellas que preservan el
orden. Por ejemplo, estatura: alto, medio, bajo.
Escalas de intervalo lineal: valor numrico obligado. Tienen distancias idnticas entre los
valores consecutivos de la escala, y sta es la diferencia fundamental con las escalas ordinales.
Dicho de otra manera, estas escalas no slo establecen un orden entre los elementos de un
conjunto, sino que tambin lo establecen en las diferencias entre los elementos. No existe el cero
absoluto. El ejemplo tpico sera la temperatura.

Escalas de razn o proporcin: son aquellas que soportan todas las transformaciones
anteriores y adems, la igualdad de razones; por tanto tienen que preservar el orden, el intervalo
y la razn. Esto implica la existencia de un cero absoluto, caracterstica que no tienen las escalas
de intervalo lineal. La longitud es un caso evidente de escala de razn, puesto que se puede
partir de ese cero absoluto, es decir, de la ausencia de la caracterstica que se mide.

1.3.Tabulacin y representacin grfica .

Hay dos formas principales de presentar de manera ordenada los datos estadsticos. stas son
mediante:
o Tablas.
o Representacin grfica.

1.3.1.Tablas de distribucin de frecuencias.

La tabulacin es un mtodo para sintetizar informacin cuantitativa continua, y que
permite representarla grficamente. Se agrupan los datos en intervalos de clase. Cuanto mayor
sea la amplitud de los intervalos de clase, ms informacin se pierde.
Ejemplo: Nmero de sntomas presentes (dolor, insomnio, estreimiento,.) en pacientes
terminales ingresados en una unidad de cuidados paliativos en un estudio realizado sobre 20
pacientes.

Tabla 1. Tabla de distribucin de frecuencias.





5
1.3.2.Representacin grfica.

Es ms fcil captar el significado que los datos estadsticos puedan tener por medio de
las representaciones grficas adecuadas. La ventaja ms importante de las grficas o diagramas
sobre las tablas de datos, estriba en el hecho de que llaman la atencin del lector con mucha
ms fuerza. Por otra parte, su comprensin es mucho ms intuitiva. Ambos factores proporcionan
en conjunto un mayor valor explicativo que las tablas.

Diagrama de barras: Se utiliza para representar variables cualitativas y cuantitativas
discretas. Consiste en un conjunto de barras o rectngulos sobre un eje de coordenadas. La
altura de cada barra est determinada por la frecuencia de la modalidad que representa (Grfico
1).
Al no existir una continuidad entre los valores de las variables, las barras estn
separadas por espacios en blanco y pueden ser colocadas en cualquier orden, excepto cuando
se trata de escalas ordinales (variables cuasicuantitativas), que hay que respetar el orden entre
las distintas modalidades.

Grfico 1. Diagrama de barras


Diagrama de sectores: consiste en representar mediante sectores circulares las
distintas modalidades de una variable. Cada una de las modalidades se presenta
proporcionalmente a los 360 del crculo. Se utilizan para representar variables cualitativas.

Grfico 2. Diagrama de sectores

Pictogramas: se realiza mediante un dibujo, relacionado con la variable que se estudia,
cuyo tamao indica la frecuencia con que se da la clase o categora. Generalmente se emplea
para representar variables cualitativas.

Grfico 3. Pictograma


6
Histograma: se utilizan para representar las distintas frecuencias de variables
cuantitativas continuas. Consiste en un conjunto de rectngulos dibujados sobre un eje de
coordenadas. Cada modalidad se representa por un rectngulo que tiene como base la amplitud
del intervalo y como altura la frecuencia de dicho intervalo.
Como ejemplo veremos la esperanza de vida de un hombre al nacer.

Grfico 4. Histograma

Polgono de frecuencias: se utiliza tambin para representar las distribuciones de
frecuencias de variables cuantitativas continuas. Consiste en una lnea quebrada que une los
puntos determinados medios de cada intervalo y en frecuencia. Empieza y termina en el eje de
abscisas (eje horizontal) en los puntos medios del intervalo anterior y posterior a los del
histograma.

Grfico 5. Polgono de frecuencias

2. Estadstica descriptiva.

2.1. Variables cualitativas.

Frecuencia absoluta: nmero de individuos que tienen una determinada
modalidad. La suma de todas las frecuencias absolutas es igual al nmero total
de observaciones: n
i
m
i .
Frecuencia relativa: proporciones o razones. Relacin entre la frecuencia
absoluta de un intervalo y el total de datos, esto es, y N. Es decir, tanto por 1 de
cada modalidad con respecto al total N.

Porcentaje: representa el tanto por ciento de cada modalidad con respecto al
total N. Se obtiene multiplicando la proporcin por 100.

7

(Vase Tabla 1, apartado tablas de representacin de frecuencias).


2.2. Variables cuantitativas.

2.2.1. Medidas de tendencia central.

Pueden definirse varias medidas de tendencia central. Las ms comunes y ms utilizadas son: la
media, la mediana y la moda. Informan sobre el valor de la variable alrededor del cual se agrupan
el resto de valores.

Media aritmtica: la media de una serie de datos N se representa por X y podemos
definirla como la suma de todos los valores de una variable dividida por el nmero total
de observaciones de la muestra.



Por ejemplo, supongamos que hemos medido los niveles de glucosa en sangre
de seis pacientes, obteniendo los siguientes valores: 95, 98, 112, 117, 123, 105 mg/dl.



La media es muy sensible a la variacin de las puntuaciones. Basta con que vare una
sola puntuacin, para que vare la meda. Es una medida de tendencia central til en
distribuciones simtricas y sin valores extremos. Es el centro de gravedad de la
distribucin.

Mediana: la mediana de una serie de N datos ordenados en orden creciente o
decreciente se representa por Md y es la puntuacin que ocupa el valor central de la
distribucin estadstica. Se calcula una vez ordenados los datos de menor a mayor. Si
hay un nmero impar de datos, la mediana viene dada por el valor central. Si hay un
nmero par de datos la mediana es la media aritmtica de las dos puntuaciones
centrales. Por ejemplo, en la serie de datos: 1,3,7,12,15,21,29 la mediana ser el valor
central: 12.

En cambio, en la serie de datos: 2,4,6,7,8,9 los dos datos centrales son 6 y 7,
y su media aritmtica: 6+7/2 = 6,5 . Md = 6,5

Es ms representativa que la media cuando la distribucin de frecuencias tiene
puntuaciones muy extremas, puesto que la mediana depende de los valores centrales de
la distribucin y no es afectada por los valores extremos. Es til para describir
distribuciones asimtricas.

Moda: la moda de un conjunto de datos N se representa por Mo y corresponde al valor
de la variable que presenta mayor frecuencia. Por ejemplo: Queremos hacer un estudio
entre 20 jvenes con edades comprendidas entre los 25 y los 28 aos. En este caso la
moda corresponde al valor 27, puesto que hay 10 individuos con esa edad.

8
Tabla 2. Ejemplo moda .

edad n
25 2
26 5
27 10
28 3
Las distribuciones de frecuencias con una sola moda se denominan unimodales. Sin
embargo, puede darse el caso de distribuciones con dos modas, denominados
bimodales. Una distribucin que contenga mas de dos modas se denomina multimodal.
La moda corresponde al punto ms alto del poligono de frecuencias.

Media geomtrica: se representa por Xg y se define como la raz ensima
del producto de n puntuaciones, esto es:

Un ejemplo sencillo sera, la media geomtrica de 1, 3 y 9.


Para su aplicacin es necesario que todas las puntuaciones sean mayores que 0, puesto
que si alguna puntuacin fuese 0, el producto quedara anulado, y si algn X
i
fuese
negativo, tampoco podra usarse debido a la inexistencia de races reales de nmeros
negativos. Es muy utilizada en Microbiologa y Serologa, cuyos datos tienen una
marcada asimetra positiva (hacia la derecha).

2.2.2.Medidas de dispersin.

Toda distribucin de frecuencias tiene dos caractersticas principales que la definen:

Un punto central alrededor del cual tienden a agruparse los datos: media,mediana y
moda.
Una variabilidad o dispersin de los datos respecto a ese valor central.

En toda investigacin sobre una muestra de datos de observacin, ambas medidas
descriptivas deben ir parejas para evitar conclusiones errneas.

-Amplitud o rango: Corresponde a la diferencia entre el valor ms alto y el ms bajo de la
variable.
Por ejemplo, las edades de cinco hombres diagnosticados de cncer de prstata son: 44,
56, 61, 52, 62. Donde 44 es el valor ms bajo y 62 y el ms alto. A= 62 44= 18. La amplitud de
la distribucin de las edades de estos hombres es de 18 aos.

-Desviacin media: De acuerdo con la definicin de variabilidad de la muestra, los ndices
que la midan expresarn el grado en que las puntuaciones se dispersan de un punto central. As
pues, todos los ndices de dispersin deben hacer referencia a un ndice de tendencia central. El
ndice ms apropiado para utilizar como referencia en el clculo de medidas de dispersin es la
media. La media aritmtica de los valores absolutos de las puntuaciones de desviacin se
denomina desviacin media.


Expresa la distancia que debe recorrer un individuo para llegar a la media.

9

-Varianza: Se presenta por S
x
2
y se define como la media de los cuadrados de las
diferencias entre cada valor de la variable y la media aritmtica de la distribucin. Esto es, si
sumamos al cuadrado los valores de las puntuaciones de desviacin, y esta suma la dividimos
por el nmero de observaciones, habremos calculado la varianza de la distribucin.


La varianza ser siempre un valor positivo. Puede ser tambin igual a 0, esto ocurre
cuando no existe variabilidad. En general, cuanto mayor sea la S
x
2
menor es la homogeneidad de
la variable y por tanto, mayor es la dispersin.

-Desviacin tpica: la desviacin tpica se representa por S
x
, y es igual a la raz cuadrada
positiva de la varianza o raz cuadrada de la media de los cuadrados de las puntuaciones de
desviacin.


Es la medida de dispersin ms utilizada y de mayor aplicacin en estadstica. Es un
ndice muy sensible a las puntuaciones extremas, al igual que la varianza y la
media, por lo que no debe calcularse cuando la media no sea el ndice de tendencia central ms
apropiado para una distribucin. Es el ndice de dispersin ms fiable, siendo til en las
distribuciones simtricas.

-Coeficiente de variacin: se representa por CV y es igual a la desviacin tpica dividida
por la media.

Habitualmente este coeficiente viene multiplicado por 100 para expresarlo en porcentaje.

La utilidad de este coeficiente estriba en la posibilidad de comparar la dispersin o
variabilidad de dos o ms grupos.

Ejemplo: vamos a estudiar dos variables diferentes, vase peso: X y presin sangunea:
Y. S
x
vendr en unidades de peso: kg. Y S
y
en mm de Hg. Si queremos comparar la variabilidad
de ambas no podemos comparar sus desviaciones tpicas, ya que kilogramos no tiene nada que
ver con mm de Hg., y en consecuencia 65 kg. no es ms ni menos que 150 mm de Hg. En la
siguiente tabla se muestran los datos para un mismo grupo de personas. Deseamos conocer qu
variable presenta mayor dispersin (Tabla 3).

Al tratarse de variables distintas, no podemos comparar sus desviaciones tpicas y
recurrimos a sus respectivos coeficientes de variacin. Para ello calculamos:



10
Como el CV de la variable X es mayor que el de la variable Y, podemos decir que la
variable X presenta mayor dispersin.

nicamente podemos comprar las desviaciones tpicas cuando estudiemos la misma
variable en distintos grupos o muestras de la misma poblacin. En caso contrario, utilizamos el
coeficiente de variacin.

2.2.3. Medidas de posicin.

Una forma de caracterizar una puntuacin dentro de una muestra consiste en decir el
orden que ocupa dentro del total de las puntuaciones. Podemos hacer esto transformando la
escala de puntuaciones directas a una escala de percentiles.

Definimos el percentil como el valor de la variable por debajo del cual se encuentra un
porcentaje determinado de observaciones. Por ejemplo, el percentil 15, simbolizado por P
15
, es el
valor de la variable que deja por debajo de s al 15 por ciento del total de las puntuaciones. Y por
supuesto, al 85 por ciento del total por encima. Esta definicin nos recuerda a un ndice de
tendencia central: la mediana, que es el punto de la escala que deja por debajo el 50 por ciento
de las puntuaciones y por encima el otro 50 por cien. Por tanto, las caractersticas de la mediana
sern aplicables al percentil 50.


Por su parte los cuartiles son los valores de la variable que dejan por debajo de s el 25
por ciento, el 50 por ciento y el 75 por ciento del total de las puntuaciones. Hay por tanto 3
cuartiles que se simbolizan: Q
1
, Q
2
y Q
3,
respectivamente.

Los deciles son los valores de la escala que dividen a la distribucin en 10 partes iguales.
Existen 9, desde D
1
a D
9.

P
50
= MD = Q
2
= D
5

La escala de percentiles es una escala ordinal, esto es, la escala delimita el lugar que
ocupa cada puntuacin individual en porcentajes. La ventaja de las escalas de percentiles es que
permiten la comparacin directa de las puntuaciones entre s, tanto dentro de una misma
caracterizacin como entre caractersticas diferentes, siempre que se trate del mismo grupo de
sujetos. Para ello slo es necesario calcular a qu percentil corresponde una puntuacin
determinada.

Amplitud semiintercuartil: es la media de la diferencia entre el tercer cuartil y el primero o, lo que
es lo mismo, entre el percentil 75 y el percentil 25.

3. Introduccin a las probabilidades

La Probabilidad mide la frecuencia con la que ocurre un resultado en un experi
mento bajo condiciones suficientemente estables.

3.1.Nociones sobre la Teora de Conjuntos.

Un conjunto est formado por entes materiales o abstractos, reunidos en virtud de una o
ms propiedades de las que gozan todos los elementos que lo forman y no las puede gozar
ningn otro elemento que no forme parte de l.

11
Notacin:
Los elementos de un conjunto se representan con letras minsculas (a, b, c), mientras
que los conjuntos lo hacen con maysculas (A, B, C).
Se llama conjunto vaco y se representa por , al conjunto que no contiene ningn
elemento.

El signo e indica pertenencia de un elemento a un conjunto: a e A.
Su negacin indica no pertenencia: a e A.
Los elementos de un conjunto se expresan o simbolizan: A= {a,b,c,.,m}.
El conjunto universal o universo, se define como el conjunto de todos los elementos que
se consideran. Corrientemente se designa por U.
Subconjunto: si todos los elementos de un conjunto A pertenecen a un conjunto E,
decimos que A est incluido en E, o que es subconjunto de E, o tambin que es una parte de E.
= ALE.
Subconjuntos disjuntos: dos conjuntos A y B, de un mismo conjunto E se llaman disjuntos
cuando no tienen elementos comunes y su interseccin es el conjunto vaco.

Grfico 6. Conjunto disjuntos.



Dado un conjunto A, se llama complementario del mismo, y se representa por A
c
, al
conjunto formado por los elementos del universo que no son de A.

Grfico 7. Conjunto complementario.



Se llama interseccin de A y B al subconjunto formado por los elementos de C que
pertenecen a A y B simultneamente: AiB.

A={a,b,c,d} B={c,d,e,h}

AiB= {c,d}

Se denomina unin de los subconjuntos a y B al conjunto formado por los elementos que
pertenecen a A o a B o a los dos a la vez. AUB.

AUB= {a,b,c,d,e,h}



12
3.2.Conceptos sobre la teora de probabilidades.

Decimos que un suceso es aleatorio cuando al cumplirse un conjunto determinado de
condiciones, ste puede ocurrir o dejar de ocurrir.

As pues, podemos decir, que un experimento aleatorio es toda realizacin cuyos
resultados (sucesos), no pueden ser pronosticados con certeza.

Espacio muestral, es el conjunto de todos los resultados posibles del experimento
aleatorio, es decir, el universo de la prueba, o conjunto universal que ya hemos definido.
As por ejemplo, si E={1,2,3,4,5,6}, es decir, el conjunto de los resultados posibles del
experimento aleatorio lanzar un dado, cualquiera de estos resultados o sub-conjuntos de E, ser
un suceso aleatorio S: S
1
= {1} , S
2
= {2}, etc.

Idea intuitiva de Probabilidad:

Nmero entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso. 0 cuando
estamos seguros de que no va a ocurrir y 1 cuando estamos seguros que s va a ocurrir. El
problema es: cmo asignar ese nmero en situaciones de incertidumbre?

a. A veces se estima por la frecuencia relativa. Por ejemplo, una manera de
aproximarnos a la probabilidad de que una intervencin quirrgica arriesgada tenga xito, es
consultar el registro de las intervenciones realizadas sobre pacientes similares. Si de las ltimas
10, han sido un xito 8, la frecuencia relativa es 8/10: 0.8, se parecer a la probabilidad.
b. Hay situaciones en que se puede calcular: si todos los resultados del experimento
son igualmente probables, entonces la Probabilidad se define (definicin clsica o de Laplace)
como el cociente entre el nmero de casos favorables y el nmero de casos posibles.

p = Casos favorables /casos totales o favorables

Por ejemplo, supongamos que tenemos una caja con 8 bolas idnticas: 5 bolas rojas y 3
bolas blancas. Con lo que la posibilidad de sacar al azar una bola roja ser mayor que de sacar
una blanca. Existen ocho posibilidades, cinco favorables de sacar una bola roja y tres de que sea
blanca. De tal forma si llamamos P(A) a la probabilidad de extraer una bola roja:

p(A) = 5/8


Propiedades:

La probabilidad de un suceso cierto es igual a la unidad. En efecto, sea m el nmero de
casos favorables y n el de casos posibles. Si el suceso es cierto, cada suceso elemental
de la prueba es favorable al suceso, en cuyo caso m=n y, por tanto:

p(A) =m/n = 1

La probabilidad de un suceso imposible es igual a cero. Si el suceso es imposible, es
que ninguno de los resultados elementales de la prueba es favorable al suceso, es decir,
que m= 0, con lo que:
p(A) = 0/n= 0


13
La probabilidad de un suceso aleatorio cualquiera es un nmero positivo comprendido
entre 0 y 1. En efecto, 0> m > n, es decir, el nmero de casos favorables oscila entre 0 y
n segn que el suceso sea imposible o cierto, con lo que 0 > m/n > 1 y, por tanto:

0 > P(A) > 1



3.3.Sucesos mutuamente excluyentes.

Los procesos se llaman mutuamente excluyentes si la produccin de uno de ellos
excluye la aparicin de los dems sucesos en un mismo experimento. Es decir, dos sucesos A y
B son mutuamente excluyentes si AiB = .

Ejemplo: Al lanzar una moneda al aire, la posibilidad de que al caer salga cara excluye
absolutamente la posibilidad de que pueda salir cruz al caer.

Se llama suma de dos procesos a A y B (A+B), al suceso compuesto de A, de B o de
ambos: p(A+B)= p(A)+p(B). Y en general, se llama suma de varios sucesos, al suceso compuesto
de la aparicin de al menos uno de ellos ley de la adicin: p(A+B+C+.+D) =
p(A)+p(B)+p(C)+.+p(D).

Por ejemplo: Si lanzamos un dado no trucado, tenemos 6 resultados posibles y
equivalentes, con probabilidad 1/6, y mutuamente excluyentes, ya que la aparicin de uno de
ellos excluye la aparicin de los otros en una tirada. E=11,2,3,4,5,61, la probabilidad de obtener
un nmero par ser:
p(A)= p(2)+p(4)+p(6)
p(A)= 1/6+1/6+1/6= 3/6 = 1/ 2 = 50%

La probabilidad de que dos sucesos mutuamente excluyentes sucedan se obtiene por la
adicin de la probabilidad individual de cada uno.

3.4.Sucesos mutuamente no excluyentes.

Cuando dos sucesos son compatibles, la Probabilidad de que ocurra por lo menos uno
de ellos es igual a la suma de sus probabilidades menos la Probabilidad de que ocurran
simultneamente.
p(AiB) = p(A) + p(B) p(AiB)

En este caso la interseccin no es nula como ocurra en los sucesos mutuamente
excluyentes.
Siguiendo con el ejemplo anterior, la probabilidad de que al lanzar el dado salga un
resultado superior a 2 par, debe tener en cuenta que los resultados 4 y 6 cumplen con las dos
condiciones.
p(> 2 o par) = p(3,4,5,6) + p(2,4,6) p(4,6)

3.5.Probabilidad condicionada.

Si los sucesos A y B son dependientes, se llama probabilidad de A, condicionada al
suceso B, a la probabilidad de A, calculada suponiendo que B ha sucedido ya, y se escribe
p(A/B).


14
La probabilidad condicionada se define como:

Siempre si p (B) = 0, puesto que la probabilidad de algn otro suceso depende del
resultado de algn otro suceso. Cuando ocurre un suceso cambia el espacio muestral, por eso
cambia la probabilidad.

Ejemplo: se sabe que el 50% de la poblacin es sedentaria y que el 10 % es sedentaria y
obesa. Cul es la probabilidad de que una persona sedentaria sea obesa?

A = {ser obeso} B = {ser sedentario} AiB = {ser sedentario y obeso}

p(A/B) = 0.10/0.50 = 0.20.

La probabilidad de que aparezcan simultneamente dos sucesos dependientes es igual
al producto de la probabilidad de uno de ellos, por la probabilidad condicional del otro,
suponiendo que el primero se ha presentado ya:

p(AiB) = p(A) p(B/A)
p(AiB) = p(B) p(A/B)

Ejemplo: Un estudio nos muestra que el 0.1% de la poblacin tiene problemas
vasculares. A su vez, en otro artculo leemos que el 20 % de los pacientes con problemas
vasculares presenta placas de ateroma. Si el 10 % de los individuos con placas de ateroma estn
expuestos a muerte sbita por desprendimiento de trombos, qu probabilidad tiene un individuo
cualquiera de estar expuesto a muerte sbita por desprendimiento de trombos de una placa de
ateroma?
A= {problemas vasculares} B = {placas de ateroma} C = {expuesto a muerte sbita por.}

p(A) = 0.001 ; p(B/A) = 0.20; p(C/AiB) = 0.1

p(AiBiC)= 0.001x 0.20 X 0.1= 0.000002

3.6.Sucesos dependientes e independientes.

Dos sucesos se llaman independientes cuando la probabilidad de que se d uno de ellos
no depende de la aparicin o no del otro. Con lo que p(A/B) = p(A) y p(B/A) = p(B), ya que el
suceso A aparecer independientemente de que se haya presentado
o no el suceso B, y viceversa. As, diremos que dos sucesos son independientes si y slo si:

Ejemplo: Para un hijo de una mujer con enfermedad de Duchenne, el sexo y la
enfermedad son independientes?

El espacio muestral es D = {xX, xY, XX, XY}

Definimos los sucesos A={varn}= {xY, XY } ; B = {enfermo} = { xY}

AiB = {xY}

15

Por lo tanto p(A)= 0.5; p(B)= 0.25 ; p(AiB) = 0.25 = p(A)p(B) * NO son independientes.

3.7.Teorema de Bayes.

Si los sucesos A
i
son una particin y B un suceso tal que P(B) = 0:

Aplicaciones del Teorema de Bayes:

Diagnstico mdico: el diagnstico consiste en establecer la enfermedad de un paciente,
a partir de una serie de sntomas.
Llamemos E
i
al conjunto de enfermedades: E
1
: tuberculosis pulmonar; E
2
: cncer de
pulmn; E
3
: bronquitis obstructiva; etc.
Y S
i
a los sntomas y sndromes asociados con las mismas. S
1
: tos; S
2
: estado febril; S
3
:
hemoptisis; etc.
La informacin accesible en los libros de patologa es del tipo: para E
1:
algunos (digamos
el 20%) tienen hemoptisis; muchos (80%) tienen tos, etc. Y lo mismo para las dems
enfermedades.
En trminos de probabilidad condicionada esta informacin es:p(S
3
/ E
1
) = 0.2 ; p(S
1
/ E
1
)
= 0.8, etc.

Para diagnosticar la tuberculosis se ha de evaluar, para los sntomas que presenta el
paciente p(E
1
/ S
i
) para lo que se puede usar el Teorema de Bayes si las enfermedades forman
una particin (son mutuamente excluyentes y se consideran todas las enfermedades compatibles
con el sntoma) y se conocen sus prevalencias.

Pruebas diagnsticas: el Teorema de Bayes permite hallar los valores predictivos a
posteriori, es decir, una vez conocido el resultado de las pruebas diagnsticas y conociendo la
prevalencia de enfermos en la poblacin.

Supongamos una prueba diagnstica, por ejemplo nivel de glucosa en sangre, en
ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un
nivel por encima de 120 mg/l. Para evaluar la prueba, se somete a la misma a una serie de
individuos diabticos diagnosticados por otro procedimiento y a una serie de individuos no
diabticos. Los resultados se pueden representar en una tabla de doble entrada:

Tabla 3. Teorema de Bayes

patrn de oro


NE E

Prueba
- a b r
+ c d s

t u


Fuente: www.hrc.es/bioest/probabilidad_18.html.

16

Si la prueba fuera perfecta b = c = 0; desgraciadamente nunca ocurre. Se denomina coeficiente
falsopositivo (CFP) al cociente c/t, y es una estimacin de la probabilidad condicionada p(+/NE);
se denomina coeficiente falsonegativo (CFN) al cociente b/u, y es una estimacin de la
probabilidad condicionada p(-/E). Estos dos coeficientes cuantifican los dos errores que la prueba
puede cometer y caracterizan a la misma simtricamente. Los coeficientes que cuantifican los
aciertos son la sensibilidad p(+/E) , y la especificidad p(-/NE).

Cuando la prueba se usa con fines diagnsticos (o de screening) interesa calcular
p(E/+) y/o p(NE/-).

Como E y NE son una particin, usando el Teorema de Bayes:


Y



Ejemplo: una prueba diagnstica para la diabetes tiene una CFP de 4% y un CFN del
5%. Si la prevalencia de la diabetes en la poblacin donde se usa es del 7%, cul es la
probabilidad de que sea diabtico un individuo en el que la prueba d positivo? Y de que no lo
sea uno en el que d negativo?.

p(+/NE)= 0.04 = p(-/NE) = 0,96

p(-/E) = 0.05 = p(+/E) = 0,95

p(E) 0 0.07 = p(NE) = 0,93

p(E/+)





4. Distribuciones de probabilidad

Al estudiar las distribuciones empricas de muchas variables, se han observado
coincidencias o aproximaciones de estas distribuciones empricas a las distribuciones que
resultan de modelos matemticos conocidos, como la distribucin binomial, la de Poisson, la
normal y otras.
Se han considerado ya diversas formas de representacin grafica de datos; una de ellas
el polgono de frecuencias. En este grfico, cada uno de los puntos que une la lnea quebrada
est determinado por el punto medio del intervalo y la frecuencia correspondiente a ese intervalo.
Si aumentamos el nmero de datos (N), y disminuimos el tamao de los intervalos hasta hacerlos

17
mnimos, obtendremos un nmero infinito de puntos. La lnea que une esos puntos (el antiguo
polgono de frecuencias) ya no es una lnea quebrada, sino una lnea curva, sin cortes bruscos.
Esta lnea curva puede adoptar distintas formas, de acuerdo con la funcin que relacione las dos
ordenadas, x (valores de la variable) e y (frecuencias). El rea que contiene la lnea curva es
igual a la suma de las frecuencias, es decir, N.

4.1.Distribucin normal.

La ecuacin que define la distribucin es:

Donde:
Y = ordenada correspondiente a un valor (x - ) en el eje de abscisas.
= 3.1415.
e = 2.718281., base del sistema de logaritmos neperianos o naturales.
o = desviacin tpica de la poblacin.
= media de la poblacin.
x = valor cualquiera en el eje de abscisas.

Para cada par de valores de y o tendremos curvas normales distintas; es decir, infinito
nmero de curvas normales. Sin embargo, todas ellas tienen en comn un conjunto de
propiedades o caractersticas que las definen como tales curvas normales:

o La curva normal tiene forma de campana (campana de Gauss) y es simtrica
respecto al eje vertical que pasa por la media.
o En una curva asinttica: se acerca al eje de abscisas en los dos sentidos pero no
llega a tocarlo nunca.
o El valor mximo de Y corresponde a la puntuacin x = ; es decir, el punto ms
elevado de la curva se da en la media. La curva es montona ascendente hasta
ese punto y montona descendente a partir de l.
o La curva normal tiene dos puntos de inflexin, exactamente a una distancia de
una desviacin tpica desde la media en ambos sentidos; estos dos puntos
corresponden en el eje de abscisas a los valores x = -o y x = + o.

Con independencia de los valores de y o que pueda contener una distribucin normal,
entre dos puntos dados, cuya distancia se mide en unidades de desviacin tpica, puede hallarse
la proporcin de rea bajo la curva normal que contienen.

Para casi todas las aplicaciones de la distribucin normal, es ms conveniente tratar las
puntuaciones como diferencias respecto a la media (puntuaciones de desviacin) en unidades de
desviacin tpica, es decir:

Al efectuar estas transformaciones la forma de la curva no cambia; simplemente se trata
de la transformacin de una distribucin normal a una distribucin normal tipificada, con media y
desviacin tpicas determinadas, siendo = 0 y o = 1. Esta transformacin es muy til para
calcular la proporcin de rea entre dos puntos mediante la tabla de reas bajo la curva normal.
(Anexo 1)



18
Grfico 8. Distribucin normal




El rea total de la curva es la probabilidad de que una variable aleatoria tome
alguno de los posibles valores: es el 100%, o sea 1.
El rea de la curva que delimita el intervalo cuyos extremos son la media ms
una desviacin tpica y la media menos una desviacin tpica, es del 68% del
rea total.
El intervalo X 2 desviaciones tpicas (el valor es 1,96 pero generalmente se
redondea a 2), comprende el 95 % del rea de la curva.
El intervalo X 3 desviaciones tpicas (el valor es 2,98 pero generalmente se
redondea a 3), comprende el 99% del rea de la curva.
4.1.1.Simetra y asimetra

Una distribucin de frecuencias, o un polgono de frecuencias, es simtrico cuando
coinciden en el mismo punto de la distribucin la media, la mediana y la moda. Esto es: X = Md =
Mo. O con otras palabras, cuando el centro de gravedad o punto de equilibrio de la distribucin
cae exactamente en el punto en que se encuentra la media aritmtica. Grficamente, la simetra
se define en relacin a una vertical que pasa por la abscisa correspondiente a la media
aritmtica.
La asimetra o sesgo es la falta de simetra de una distribucin. En este caso, la media
no coincide con la mediana, la moda o con ninguna de las dos, y el punto de equilibrio est
desplazado a un lado o a otro de la media. La asimetra por tanto puede ser positiva o negativa:
una distribucin es asimtrica positiva cuando existe mayor concentracin de valores a la
derecha de la media que a su izquierda. Por el contrario, en una distribucin asimtrica negativa,
existe mayor concentracin de valores a la izquierda de la media que a su derecha.
Grfico 9. Asimetra positiva


19
Grafico 10.Asimetta negativa.




Existen una serie de indicios que nos informan de la simetra o asimetra de la
distribucin. Estos indicios se basan en la relacin existente entre las medidas de tendencia
central: media, mediana y moda. Uno de los ms conocidos y utilizados es el primer coeficiente
de asimetra de Pearson:

Cuando As = 0, la distribucin es simtrica.
Cuando As > 0, la distribucin es asimtrica positiva.
Cuando As < 0, la distribucin es asimtrica negativa.

Las condiciones de aplicacin son:
Que la muestra no sea de un tamao inferior a 50 observaciones.
Que la distribucin de frecuencias tenga forma de campana, es decir, que tenga una sola
moda.

El segundo coeficiente de asimetra de Pearson se basa en la relacin emprica que
existe entre la media, la mediana y la moda, cuando la distribucin es unimodal y
moderadamente asimtrica.


4.1. Distribucin binomial.

La distribucin binomial constituye una familia de distribuciones tericas que sigue la
misma regla para asignar probabilidades particulares. Estas probabilidades son asignadas en
cada caso concreto en funcin de dos parmetros:

n: nmero de ensayos o repeticiones del experimento.
p: probabilidad de xito o de que ocurra un suceso.

Consideremos un experimento que consta de n ensayos o repeticiones, todas ellas
independientes, en el cual la probabilidad de xito, p, se mantiene constante de ensayo a ensayo
y definimos sobre el mismo una variable aleatoria x como nmero de xitos en las n pruebas.
En estas condiciones, denominamos funcin de probabilidad binomial a la funcin que asigna
probabilidades a la variable aleatoria x segn la siguiente expresin:

20

La expresin p
x
q
n-x
= p
x
(1-p)
n-x
, representa la probabilidad de obtener en n ensayos x veces de
xito y n - x
veces
de fracasos, en un orden dado, en una secuencia nica. Pero los xitos pueden
aparecer en diferentes secuencias, ya que en la prctica el orden de presentacin de los x
xitos puede ser cualquiera. Esto no es ms que el nmero de combinaciones de dos tipos de
objetos, cuando x son los objetos de un tipo y (n-x) de otro tipo:

___n!__
x! (n-x)!

De ah que la funcin de probabilidad venga dada por la expresin:


Ejemplo: tenemos una caja con bolas azules y amarillas, en proporcin p(azules)= 70% y
p(amarillas)= (1-p) = 30%. Al extraer 4 bolas azules de un total de 5 extracciones, tendra una
probabilidad de obtener.


4.3. Distribucin de Poisson.

La distribucin de Poisson describe la probabilidad como, un acontecimiento fortuito
ocurrido en un tiempo o intervalo de espacio, bajo las condiciones que la probabilidad de que un
acontecimiento ocurra es muy pequea, pero el nmero de intentos es muy grande, entonces el
evento actual ocurre algunas veces.
Una variable es de Poisson cuando es el nmero de eventos que ocurren en un intervalo
temporal o espacial de tamao dado (s), cumpliendo las siguientes condiciones:

o El nmero de eventos que ocurren en el intervalo es independiente del nmero
de los que ocurren fuera del mismo.
o Existe un intervalo lo suficientemente pequeo, de tamao h, para el que la
probabilidad de que en el mismo ocurra un solo evento es proporcional al tamao
del intervalo, es decir /h, siendo por tanto / (constante) la probabilidad de que
ocurra un evento en un intervalo de tamao unidad.
o La probabilidad de que en cualquier intervalo de tamao h ocurran dos o ms
eventos, es prcticamente 0.

Ejemplo de este tipo de variables, con intervalos temporales, son nmero de llamadas
que recibe una central telefnica en una hora; nmero de accidentes, durante un ao, en un
cruce de carreteras; nmero de mutaciones que perduran en una especie, durante un milenio.
Ejemplos con intervalos espaciales: nmero de clulas en el campo del microscopio; nmero de
bacterias patgenas en un estanque,.
La funcin densidad de probabilidad para una variable de Poisson es:


21
Siendo s el tamao del intervalo. La media y la varianza de esta variable son ambas
iguales a /s. La variable est caracterizada por el parmetro / (probabilidad de ocurrencia en la
unidad de medida) y por el tamao del intervalo s.

5. Estadstica Inferencial

En la estadstica Descriptiva se ha trabajado con muestras, sin embargo, al investigador
no le interesan las caractersticas de la muestra, sino el conocimiento de las caractersticas de la
poblacin. Con frecuencia es imposible estudiar todos los miembros de una poblacin dada. Ya
sea porque la poblacin tiene un nmero infinito de individuos o porque otra razn impide un
estudio exhaustivo. De aqu nace la necesidad de utilizar muestras y por tanto, la necesidad de
inferir. La informacin suministrada por la muestra la utilizamos para inferir con ms o menos
exactitud las caractersticas de la poblacin, que es lo que realmente nos interesa; sta es la
tarea de la Estadstica Inferencial:
Hacer inferencias de las caractersticas de la poblacin a partir del conocimiento
de la muestra.
Para poder hacer inferencias partiendo de la muestra es condicin necesaria que la
muestra sea representativa de la poblacin. Esto se consigue con las adecuadas tcnicas de
muestreo, que se vern en el siguiente captulo. De momento, basta con saber, que la forma ms
simple de conseguir esto, consiste en recabar una muestra simple aleatoria, de tal modo, que
cada individuo de la poblacin tenga la misma oportunidad de haber sido incluido en la muestra.
La estadstica inferencial se ocupa de:

La estimacin de parmetros.
La verificacin de hiptesis.
Los ndices que definen a la poblacin se denominan parmetros. De igual manera que
las muestras quedaban perfectamente definidas mediante los ndices de tendencia central y de
dispersin, con la poblacin ocurrir lo mismo.

Estadsticos: ndices descriptivos (de tendencia central y de dispersin) que definen las
muestras.
Parmetros: ndices descriptivos que definen las poblaciones.
Tabla 4. Estadsticos y parmetros


5.1.Estimacin de parmetros.

Supongamos que se selecciona una muestra de tamao n de una poblacin
determinada. La media

de esa muestra no ser idntica a la media de su poblacin, a
causa de la variabilidad del muestreo. Si obtenemos otra muestra de tamao n y de la misma

22
poblacin, su media

tampoco ser, probablemente, idntica ni a la media de la poblacin
ni a la media

de la primera muestra. Es decir, ninguna de las medias de muestra se puede
considerar como un ndice exacto del valor de la media de la poblacin.

Supongamos ahora que obtenemos gran cantidad de muestras de la misma poblacin y
todas del mismo tamao. Si sumamos todas las medias de muestras y dividimos el total por el
nmero de muestras, el resultado es la media de las medias de muestras de una poblacin. Lo
importante de este proceso es que esta media de medias de muestras es aproximadamente igual
a la media de la poblacin.
Por otro lado, si tenemos una distribucin de medias de muestras y tambin tenemos la
media de esa distribucin, podemos obtener entonces la desviacin tpica de la distribucin de
medias de muestras, a la que llamaremos o
x .
Qu nos dice la o
x
?
Por definicin, nos indica la diferencia entre la media de poblacin y cualquier media
de muestra, es decir, la dispersin. De otra manera, o
x
es el error tpico de la media de una
muestra con respecto a la media de la poblacin.

Partiendo de una sola muestra, pero conociendo tambin o
x ,
se podr calcular la
diferencia que existe entre su media X y la media de la poblacin. Ahora bien, hemos visto que
para conocer la desviacin tpica o error tpico de las medias de muestra" o error estndar se
necesita tener muchas muestras, y hemos partido del supuesto de que slo contamos con una.
Sin embargo, se puede demostrar que el error tpico tambin se puede obtener mediante la
frmula:

Siendo o la desviacin tpica de la poblacin y n el nmero de observaciones dentro de
una muestra. De esta manera, con una sola muestra y conociendo la o de la poblacin, podemos
determinar el error tpico de esa muestra con respecto a la media de la poblacin.
Antes de continuar con la estimacin paramtrica y de ahondar en las posibles
objeciones que surgen a la vista de la ecuacin anterior, vamos a pasar a ver el Teorema del
Lmite Central:

Sea una poblacin en la que una variable x tiene una ley de distribucin cualquiera, de
media y de varianza o
2
. Extraemos de dicha poblacin muestras al azar, formada cada una de
ellas por un conjunto N de observaciones. La distribucin de frecuencias del conjunto de medias
obtenidas en dichas muestras, adopta forma de curva normal con media = y varianza
o
2
/ N.
El Teorema del Lmite Central dice que cuando N aumenta, la distribucin de las medias de
muestras tiende hacia una ley normal de media y varianza o
2
/ N.

Para variables cuantitativas, se acepta que el Teorema del Lmite Central se verifica a
partir de N >30. Cuando el tamao de la muestra es inferior a 30, la distribucin de frecuencias es
la distribucin t de Student.





23
5.1.1.Estimacin de parmetros en muestras grandes (N>30).
La estimacin de un parmetro puede ser puntual o mediante deduccin por intervalos.
La estimacin por puntos consistir en dar a los estadsticos de la muestra como
parmetros de la poblacin. La media de cualquier muestra X , es una buena estimacin
de la media de la poblacin . Sin embargo, no todos los valores de las medias
coinciden con la media de la poblacin, por esta razn resulta conveniente indicar de
alguna manera la precisin de nuestra estimacin por puntos. Una forma de indicar esto
es mediante la desviacin tpica de la distribucin muestral, denominada tambin error
tpico de la muestra: , que nos indica si las medias de las distintas muestras
se distribuyen ms o menos homogneamente alrededor de la media de la poblacin.
Dicho de otra manera, el error tpico nos informa de las diferencias entre las distintas
medias de muestras, por lo que cuando el error tpico es pequeo podemos tener
confianza en que la media calculada de nuestra muestra sea una buena estimacin de la
media real de la poblacin .

Pero atendiendo al razonamiento anterior, haremos una seria objecin a la solucin del
problema. Tenemos una sola muestra y deseamos inferir la media de la poblacin por
medio del error tpico de su media de muestra. El error tpico lo obtenemos mediante la
frmula anteriormente citada, pero para realizar esta ecuacin necesitamos conocer la o
de la poblacin y, conocer la o de la poblacin implica conocer la media , que
precisamente es lo que pretendemos descubrir. El problema sigue planteado sin una
solucin explcita. Los nicos datos con los que contamos son la media X , la desviacin
tpica S
x
y el tamao n de la muestra. Por todo esto recurriremos a otra frmula que
consiste en estimar o
x
(poblacin) a partir de S
x
(muestra):

De esta frmula se deduce que al aumentar el tamao de la muestra n, el error tpico de
la media disminuye, por lo que la distribucin muestral se hace ms homognea y
aumenta nuestra confianza en que la media de nuestra muestra se aproxime ms a la
media de la poblacin . Cuanto menor sea este Error tpico, ms se acerca el valor de
cualquier media al parmetro de la poblacin .
Debido a la imprecisin que acarrea la estimacin por puntos, sta es poco utilizada en
beneficio de la Estimacin por intervalos, que consiste en dar dos valores que definen un
intervalo en el que estimamos que se encontrar el parmetro de la poblacin con una
probabilidad determinada.

Recordando el Teorema del Lmite Central, sabemos que a medida que N aumenta, la
distribucin de las medias de muestra (distribucin muestral) se distribuye de forma
normal con media y desviacin tpica :
No hay tablas para cualquier normal, slo para la normal = 0 y o = 1 (la
llamada z), pero haciendo la transformacin (llamada tipificacin):



24
Grafico 11.Tipificacin.

Una normal de media y desviacin o se transforma en una z. Llamando z
d
al valor de
una variable normal tipificada que deja a su derecha un rea bajo la curva de d , es decir que la
probabilidad que la variable sea mayor que ese valor es d (stos son los valores que ofrece la
tabla de la normal). Podremos construir intervalos de la forma:

para los que la probabilidad es 1 -d.
Grafico 12 Intervalos.


De una manera simple y esquemtica para la construccin del intervalo de confianza
para ; seguiremos los siguientes pasos:

1.Fijar el nivel de confianza.

2.Calcular la z correspondiente a dicho nivel de confianza.

a. N.C. 95% z = 1,96
b. N.C. 99% z = 2,58
3.Calcular la X y la desviacin tpica de la muestra.

4.Calcular el error tpico (estndar) de la media.

5

6.Calcular el error muestral

7.Construir el Intervalo de Confianza, sumando y restando a la media de la muestra el
error muestral (E).


25

Ejemplo:
1.Nivel de confianza: 95%
2.z = 1.96
3.Conocemos la media y la desviacin tpica y el tamao de la muestra:
x
4.Error tpico de la media:

5.Error muestral: E = z . o
x
= 1.96 x 33 = 64,68
6.I. C. : E = 2.529 64,68 = 2.464,32 / 2.593,68 caloras.

La media de la poblacin estar comprendida entre los valores 2.464,32 cal. y 2.593,68
cal.
2.46,32 cal >> 2.593,68 cal.

5.1.2.Estimacin de parmetros en muestras pequeas(N>30).

Se ha establecido en llamar grandes a las muestras con ms de 30 datos ( N>30) y
pequeas a las muestras de menos de 30 datos (N > 30). Hemos visto anteriormente, que la
distribucin muestral de la media para muestras grandes adopta forma de curva normal, y se ha
explicado cmo se realiza la estimacin de la media. Sin embargo, la estimacin de la media en
muestras pequeas, vara con respecto a la anterior por diferencias en la distribucin muestral.

La distribucin muestral de la media en muestras grandes es una curva normal. Cuando
las muestras son pequeas la distribucin muestral es la distribucin t de Student.
sta se caracteriza porque es ms apuntada que la distribucin normal, reuniendo mayor
proporcin de casos en los extremos de la curva que la distribucin normal.
A medida que N aumenta, la distribucin t se va pareciendo ms a la normal, de tal
modo, que cuando N > 30 no existen prcticamente diferencias entre la distribucin normal y la
distribucin t. Sin embargo, cuando N > 30, hay una curva distinta para cada valor de N.

La distribucin t de student es por tanto una familia de distribuciones, una para cada
valor de N; o ms exactamente, un tipo de distribucin segn los grados de libertad que acten.
Las distribuciones t dependen de los grados de libertad.

Grados de libertad: por grados de libertad entendemos el nmero de observaciones que
pueden variar despus de haber determinado cierto nmero de ellas. Por ejemplo, supongamos
que tenemos 30 pacientes y los queremos clasificar segn su tipo de enfermedad en pacientes
de cardiologa, de nefrologa o de digestivo. Si tenemos 9 enfermos de cardiologa y 7 de
digestivo, el nmero de enfermos renales queda determinado automticamente para completar el
grupo de 30 pacientes. En este caso, el nmero de grados de libertad es 2 (g.l. = 2) porque
hemos podido variar a capricho dos de los datos, mientras que el tercero viene automticamente
determinado.
En general, para la distribucin t de Student, se puede decir que el nmero de grados de
libertad es igual al nmero de datos menos uno, es decir, g.l. = N 1.
El intervalo de confianza para la media de la poblacin se calcula de forma similar al
explicado para muestras grandes, utilizando valores t en lugar de los z. El esquema operativo
sera el siguiente:
1. Establecer el nivel de confianza al que queremos trabajar.

26
2. Calcular los grados de libertad correspondientes g. l. = N 1.
3. Calcular el valor de t correspondiente al nivel de confianza fijado y grados de libertad con
ayuda de las tablas t (Anexo 2).
4. Calcular el error tpico de la media:

5. .Determinar el error muestral:
6. Construir el Intervalo de Confianza para la media de la poblacin:

Ejemplo:
En un grupo de 17 adolescentes encontramos que el consumo medio de caloras es X =
2.500 caloras y su desviacin tpica es S
x
= 196 caloras. Calcular el I.C. para la media de la
poblacin con un nivel de confianza del 99% (d = 1%).
1. Nivel de confianza = 99%.
2. g.l. = N -1 = 17 -1 = 16.
3. El valor que toma t = 2,921.
4. Error tpico de la media:
5. Error muestral:
6. Intervalo de Confianza:

Estimamos con un nivel de confianza del 99% que la media de la poblacin se
encontrar entre los valores 2.356,87 y 2.643,13 caloras.

2.356,87 cal. >> 2.643,13 cal.
5.2. Prueba de hiptesis.

Como ya se ha dicho anteriormente, la estadstica inferencial se ocupa tanto de la
estimacin de parmetros como de la verificacin de hiptesis. Esto ltimo consiste en formular
un valor aproximado respecto al valor de la media de la poblacin y luego verificar si dicha
estimacin aproximada es compatible con los datos observados. ste es el mtodo denominado
prueba de hiptesis, que consiste, en definitiva, en un proceso de toma de decisiones.
Normalmente antes de iniciar una investigacin se parte de una hiptesis, lo que implica siempre
la exclusin de otras.



5.2.1.Hiptesis nula e hiptesis alterna.

Lo ms conveniente para el investigador es partir de una hiptesis exacta y determinar la
probabilidad de haber obtenido un resultado experimental bajo el supuesto de dicha hiptesis.
Esta hiptesis, que normalmente est en la base del razonamiento de inferencia estadstica, es la
llamada Hiptesis Nula (H
0
) o hiptesis de no diferencia.
Una H
0
es aquella que afirma que no existe diferencia entre dos poblaciones, es decir, es
una hiptesis de diferencias nulas, y generalmente lo que pretende el investigador es rechazarla.
La H
0
indica que no existen diferencias significativas entre los resultados obtenidos en la prctica
y los resultados tericos, es decir, que no hay relacin real entre las variables y que cualquier
relacin observada es producto del azar o de la casualidad, o debido a las fluctuaciones del
muestreo.

27
Si bajo el supuesto de la H
0
los resultados obtenidos por el investigador tienen una
probabilidad alta, entonces llegar a la conclusin de que probablemente la poblacin hipottica
que postula la H
0
y la poblacin de donde proviene su muestra son las mismas. Sin embargo, si
bajo el supuesto de la H
0
los resultados obtenidos por el investigador tienen una probabilidad
baja, entonces se pueden sacar dos conclusiones:
Que siendo la poblacin hipottica la misma de donde proviene la muestra,
se ha obtenido un resultado muy raro (muy poco probable).
Que se ha obtenido un resultado muy probable de una poblacin distinta a la
que postula la H
0
.
Por definicin, la segunda conclusin es la que tiene ms probabilidad de ser exacta, y
es la que selecciona normalmente el investigador. Normalmente se expresa: H
0
: A = B. La
hiptesis nula indica que la media de la poblacin de A es igual a la de B.

La hiptesis alternativa H
1
o hiptesis de investigacin es la hiptesis que el investigador
pretende demostrar. En consecuencia, y por definicin, la H
1
es la que afirma que la poblacin
hipottica supuesta por la H
0
y la poblacin de donde proviene la muestra son diferentes.
H
1
: A =B.
Si la hiptesis alterna es contraria a la hiptesis nula, entonces el rechazo de esta ltima
implica la afirmacin de la primera. Sin embargo, debe cuidarse mucho la formulacin de la
hiptesis alterna, puesto que con frecuencia el rechazo de la hiptesis nula no implica
directamente la demostracin de la hiptesis alterna. Es decir, el rechazo de una supone la
aceptacin de la otra, pero que esto no garantiza que estemos en lo cierto, ya que aceptar la H
o
no significa que ambos grupos sean iguales, sino que no se ha encontrado la suficiente evidencia
para decir que son diferentes.

En consecuencia, la demostracin de una hiptesis alterna depende del rechazo de la
hiptesis nula y de la exactitud del diseo experimental.

Nivel de significacin (d): cundo tenemos que considerar que la probabilidad
de un resultado es lo suficientemente baja como para poder rechazar la hiptesis nula? No existe
ninguna norma objetiva que seale un lmite exacto; convencionalmente, se considera que un
resultado es raro o improbable cuando tiene una probabilidad no superior a 0,05, es decir,
cuando slo se produce 5 veces en cada 100 experimentos. Cuando se rechaza la hiptesis nula,
porque el resultado tiene una probabilidad de 0,05, se dice que ese resultado es significativo al
nivel de 0,05. Es decir, no se puede asegurar que en ms del 5% de las veces que se realizara el
experimento no dara resultados diferentes.
El nivel de significacin que sealemos como necesario para poder rechazar la hiptesis
nula, debe determinarse antes de realizar la prueba estadstica correspondiente. Esta norma
tiende a evitar que el criterio del investigador se haga ms flexible
una vez obtenida la probabilidad de su resultado.
Es necesario tener claro que el nivel de significacin y grado de probabilidad tienen una
relacin inversa: a mayor significacin, menor grado de probabilidad, y a la inversa. Cul es la
probabilidad que tiene un investigador de equivocarse al rechazar la hiptesis nula? Si su nivel
de significacin es de 0,05, esto significa que en 100 experimentos cometer 5 errores
rechazando la hiptesis nula.

Si d < 0,05 , aceptamos H
1
. Si d> 0,05, rechazamos H
1 .




28
5.2.2.Error tipo I y error tipo II.

Es decir, si bajo la hiptesis nula el resultado tiene una probabilidad de 0,05 y se rechaza
la hiptesis nula, el investigador se concede un margen de error de 5 por cada 100 casos. El
margen de error que se concede un investigador recibe el nombre de error tipo I.

Si el investigador quiere reducir este margen de error que se concede, lo que debe hacer
es disminuir su nivel de significacin. Es decir, en lugar de 0,05, pedir un nivel de significacin
0,01, por ejemplo. Ahora bien, cuanto ms disminuye su nivel de significacin, mayor
probabilidad tendr de aceptar la hiptesis nula siendo falsa.
Esto recibe el nombre de error tipo II.
a. Error tipo I: rechazar la hiptesis nula siendo verdadera.
b. Error tipo II: aceptar la hiptesis nula siendo falsa.
Como los dos tipos de errores tienen una relacin inversa, si intentamos disminuir uno,
aumentamos el otro.

Potencia de una prueba: la potencia de una prueba estadstica se define como la
capacidad de detectar una diferencia que existe en la realidad. Lgicamente, cuanto mayor sea la
potencia menor ser la probabilidad de cometer un error tipo II (la potencia es = 1- error tipo II).
Es decir, es la probabilidad de no cometer error cuando rechazamos la hiptesis nula y
aceptamos la hiptesis alterna.
Si observamos detenidamente esta definicin, veremos que la potencia de una
prueba es exactamente lo contrario al error tipo II. Sabiendo que la probabilidad del error tipo II
es igual a , la probabilidad del suceso contrario ser igual a:
potencia = 1 -.

Es interesante advertir que la manera ms eficaz de aumentar la potencia de una prueba
consiste en aumentar el tamao de la muestra. Por ejemplo, supongamos la H
1
de que existen
ms varones que hembras en una determinada poblacin, y pedimos un nivel de significacin de
0,05; si obtenemos una muestra de slo dos sujetos, en el mejor de los casos obtendremos dos
varones. Sin embargo, bajo la hiptesis nula, ese resultado tiene una probabilidad de 0,25. Es
decir, nunca podremos rechazar la H
0
al nivel de 0,05 con n= 2. Con una muestra de 3 sujetos, el
mismo resultado (todos varones), tendramos una probabilidad de 0,125, y a medida que
aumenta el tamao de la muestra, la probabilidad de obtener todo varones ser menor.

Por ello, resulta evidente que la potencia de una prueba se incrementa con el tamao de
la muestra, sin tener que cambiar el error tipo I.


Tabla 5. Resultados posibles en la toma de decisiones en el contraste de hiptesis





29
5.3.Contraste de hiptesis.

5.3.1. Estudio de relacin entre variables cualitativas: prueba del chi-cuadrado.
La prueba
2
permite determinar si dos variables cualitativas estn o no asociadas. Si al
final del estudio concluimos que las variables no estn relacionadas podremos decir con un
determinado nivel de confianza, previamente fijado, que ambas son independientes. Es necesario
calcular las frecuencias esperadas, y compararlas con las frecuencias observadas en la realidad.
Estos datos se presentan en tablas de contingencia o tablas de doble entrada. La frmula para
calcular
2
es la siguiente:

Donde:
-f
0
denota las frecuencias observadas.
-f
e
denota a las frecuencias esperadas o tericas.
As, el estadstico
2
mide la diferencia entre el valor que debiera resultar si las dos
variables fuesen independientes y el que se ha observado en la realidad. Cuanto mayor sea esta
diferencia (y, por tanto, el valor estadstico), mayor ser la relacin entre ambas variables. El
hecho de que las diferencias entre los valores observados y esperados estn elevados al
cuadrado convierte cualquier diferencia en positiva. El test
2
es as un test no dirigido, que nos
indica si existe o no relacin entre dos factores pero no en qu sentido se produce tal asociacin.

Para obtener los valores esperados f
e
, se calcula el producto de los totales marginales
dividido por el nmero total de casos (n). El caso ms sencillo, es decir, una tabla de 2 x 2, sera:
Tabla 6. Tabla de contingencia

Supongamos que se quiere estudiar la posible asociacin entre el hecho de que una gestante
fume durante el embarazo y que el nio presente bajo peso al nacer. Por lo tanto, se trata de ver
si la probabilidad de tener bajo peso es diferente en gestantes que fumen o en gestantes que no
fumen durante el embarazo. Para responder a esta pregunta se realiza un estudio de
seguimiento sobre una cohorte de 2.000 gestantes, a las que se interroga sobre su hbito
tabquico durante la gestacin y se determina adems el peso del recin nacido.
Los datos de este estudio seran los siguientes:






30
Tabla 7. Ejemplo Chi cuadrado
recin nacidos de Bajo
peso

gestante si no Total
fumadora 43 207 250
no
fumadora
105 1645 1750
Total 148 1852 2000


El valor del estadstico

2
, para este ejemplo, vendra dado entonces como:


A la vista de este resultado, lo que tenemos que hacer ahora es plantear un contraste de
hiptesis entre la hiptesis nula:
H
0
: No hay asociacin entre las variables el bajo peso del nio y el hecho de fumar
durante la gestacin son independientes, no estn asociados.
Y la hiptesis alternativa:
H
1
: s hay asociacin entre las variables el bajo peso y fumar durante la gestacin
estn asociados.
El siguiente paso sera calcular los grados de libertad. Para el caso de una tabla de
contingencia de r filas y k columnas, los g.l. son igual al producto del nmero de filas menos 1 (r
1) por el nmero de columnas menos 1(k 1). As, para aquellos casos en que se estudie la
relacin entre variables dicotmicas (tabla 2x2) los g.l. son 1.

De ser cierta la hiptesis nula, el valor obtenido debera estar dentro del rango de mayor
probabilidad segn la distribucin chi- cuadrado correspondiente. El valor d que, como ya se ha
mencionado anteriormente, suele adquirir un valor de p < 0,05, no es ms que la probabilidad de
obtener los datos observados si fuese cierta la hiptesis de independencia. En el Anexo 3 se
determinan los grados de libertad (en la primera columna) y el valor de d (en la primera fila). El
nmero que determina su interseccin es el valor crtico correspondiente. De este modo, si el
estadstico
2
que se obtiene toma un valor mayor se dir que la diferencia es significativa. As,
para una seguridad del 95 % (d = 0,05) el valor terico de una distribucin chi- cuadrado con un
grado de libertad es 3,84. Para d = 0,01 es de 6,63 y para d = 0,005 es de 7,88. Como quiera que
en el calculo del
2
del ejemplo obtuvimos un valor de 40,04, que supera al valor para d = 0,005,
podremos concluir que las dos variantes no son independientes, sino que estn asociadas (p<
0,005). Por lo tanto, a la vista de los resultados, rechazamos la hiptesis nula (H
0
) y aceptamos la
hiptesis alternativa (H
1
) como probablemente cierta.



5.3.2.Relacin entre una variable cualitativa y otra cuantitativa: prueba t de Student y anlisis de
la varianza.

31
Existen dos posibles casos a la hora de analizar la relacin entre una variable cualitativa
y otra cuantitativa.
a.Comparar una variable cuantitativa con otra cualitativa de dos categoras. Para
realizar la comparacin de 2 medias, la prueba ideal es la t de Student, que se usa para
comprar los datos de dos distribuciones y comprobar si son homogneas o diferentes
(proceden las dos muestras de poblaciones iguales o diferentes).
Datos independientes: si la medicin de las caractersticas se hace en
individuos diferentes. Por ejemplo, comprobar si la Tensin arterial es
igual en hombres y en mujeres. La Tensin arterial sera la variable
cuantitativa, mientras que el sexo (hombre y mujer), corresponde a la
variable cualitativa.
Datos apareados: si la medicin de las caractersticas se hace en los
mismos individuos, en distintas condiciones de medicin. Por ejemplo,
comprobar si es igual la Tensin Arterial en los mismos individuos, antes
y despus de realizar ejercicio fsico. En este caso se evala un mismo
dato, la tensin arterial, ms de una vez en cada sujeto de la muestra,
esto es, antes y despus del ejercicio fsico. En este tipo de anlisis el
inters no se centra en la variabilidad que puede haber entre los
individuos, sino en las diferencias que se observan en un mismo sujeto
entre un momento y otro.

Si el valor hallado por frmula es mayor que el valor tabulado, se acepta
la hiptesis alternativa (las muestras proceden de poblaciones diferentes,
con una probabilidad de equivocarnos igual al valor de p). Si el valor de
la frmula (t) es menor que el tabulado, no podemos rechazar y, por
tanto, nos quedamos con la hiptesis nula (las muestras proceden de
poblaciones iguales o no podemos afirmar que las poblaciones sean
diferentes).
En caso de no poder aplicar esta prueba, se usar la prueba no
paramtrica U de Mann-Whitney, si los datos son independientes, y el
test de Wicolxon, si son apareados.

b. Para relacionar una variable cuantitativa con otra cualitativa de ms de dos
categoras. En este caso el mtodo utilizado es el anlisis de la varianza. El Anlisis de la
Varianza ( o ANOVA: Analysis of variance) es un mtodo necesario porque cuando se
quiere comparar ms de dos medias es incorrecto utilizar el mtodo anterior, t de
Student, por dos causas fundamentales:
Primero: al realizarse simultnea e independientemente varios
contrastes de hiptesis, la probabilidad de encontrar alguno significativo
por azar aumentara.
Segundo: en cada comparacin la hiptesis nula es que las dos
muestras provienen de la misma poblacin, por lo tanto, cuando se
hayan realizado todas las comparaciones, la hiptesis nula es que todas
las muestras provienen de la misma poblacin y, sin embargo, para cada
comparacin, la estimacin de la varianza necesaria para el contraste es
distinta, pues se ha hecho en base a muestras distintas.
El mtodo que resuelve ambos problemas es el anlisis de la varianza, aunque
es algo ms que esto: es un mtodo que permite comparar varias medias en diversas
situaciones; muy ligado, por tanto, al diseo de experimentos, y de alguna manera, es la
base del anlisis multivariante.
Un ejemplo simple de utilizacin del mtodo ANOVA podra ser el siguiente: qu
efecto produce el ruido sobre un grupo de sujetos en su nivel de estrs. Para ello, el

32
grupo 1, no recibe ningn estimulo auditivo; el grupo 2, recibe cierta cantidad de ruido y,
el grupo tres el doble de ruido que el anterior. De esta forma tenemos una variable
cualitativa ruido con tres categoras (nulo, moderado e intenso) y, una variable
cuantitativa, puntuacin de estrs.
En caso de no poder aplicar esta prueba se utilizar la prueba no paramtrica de
Kruskal-Wallis.

5.3.3.Relacin entre dos variables cuantitativas: correlacin y regresin.

Existen varios ndices para medir la correlacin entre variables cuantitativas. Vamos a
ver el ndice de correlacin de Pearson, aunque hay que tener en cuenta que es un ndice que
slo puede aplicarse a variables medidas en escalas de intervalo, ya que esta escala es la nica
en que se pueden obtener puntuaciones tpicas.
El coeficiente de correlacin de Pearson, se valora con el ndice r de Pearson cuyos
valores oscilan entre -1 y +1, y mide el grado de asociacin lineal. Este coeficiente se define
como la media de la suma de los productos cruzados de las puntaciones tpicas de dos series de
puntuaciones:

Es decir, el coeficiente de correlacin es un ndice del grado de relacin entre dos
variables que no est expresado en las unidades de ninguna de las variables y, por tanto, un
ndice que permitir comparaciones entre diferentes conjuntos de variables cuantitativas. Estas
variables tienen un papel simtrico no pudindose diferenciar entre variable independiente y
variable dependiente.
Las puntuaciones obtenidas se interpretan de la siguiente manera:
-1: correlacin perfecta negativa; cuando disminuye una de las variables, aumenta la
otra.
0: correlacin nula, no existe asociacin lineal entre las dos variables.
+1: correlacin positiva perfecta; cuando aumenta una de las variables, aumenta la otra.

Grfico 13.


La relacin entre dos variables cuantitativas correlacionadas, pudiendo predecir una variable
(variable dependiente x) conociendo la otra (variable independiente y), se puede describir con
la ecuacin de Regresin o recta de Regresin (la ecuacin representa a una recta):

33

y = a + bx

y = valor de la variable cuantitativa que podemos predecir.
x = valor de la variable que conocemos.
a = lugar donde la recta corta al eje de coordenadas (ordenada en el origen)
b = unidades que cambia la variable y al aumentar una unidad la variable x (pendiente).

Grafico 14.Recta de regresin.

La ecuacin nos va a permitir conocer el valor de la variable y en funcin de la variable x.

Pero para entender la relacin entre el coeficiente de correlacin de Pearson y la recta
de regresin hemos de hablar de la Covarianza, ndice que nos proporciona caractersticas
interesantes de la asociacin entre dos variables y que puede hacer ms comprensible el ndice
de correlacin. La covarianza es el producto-momento de las puntuaciones de desviacin x e y,
es decir, es la media de la suma de las puntuaciones de desviacin. Se simboliza por V
xy
y puede
ser positiva, negativa o 0.



Nos indica la variabilidad entre dos conjuntos de puntuaciones. Por otro lado, tambin
sirve como criterio para deducir el coeficiente b de la pendiente.



De esta forma, la relacin entre la fuerza de asociacin de 2 variables y la prediccin de
una a partir de la otra, esto es, entre r y b:









34
Tabla 8. Pruebas bivariantes de significacin estadstica



6.Muestreo .

Muestreo probabilstico: Los muestreos probabilsticos son aquellos en los
que se utiliza algn sistema de seleccin aleatoria para garantizar que cada unidad de la
poblacin tenga una probabilidad especfica de ser seleccionada, cumplindose de esta manera
dos requisitos:
Toda unidad tiene una probabilidad de ser elegida.
Esa probabilidad es conocida de antemano.

Es decir, cuando puede calcularse de antemano la probabilidad de obtener cada una de
las muestras que sea posible seleccionar; para lo cual es necesario que la seleccin de la
muestra pueda considerarse como un experimento aleatorio. Es el nico tipo de muestreo que
puede darnos el riesgo que cometemos con la inferencia.

Muestreo no probabilstico: las muestras se seleccionan mediante mtodos
en los que no interviene el azar, de modo que no se puede estimar la probabilidad que tiene cada
elemento de ser incluido en la muestra y no todos los elementos tienen posibilidad de ser
incluidos.

6.1.Tcnicas de muestro probabilstico.

6.1.1.Muestreo irrestrictamente aleatorio o muestreo aleatorio simple.

Es el mtodo ms sencillo de muestreo y la base para el resto de mtodos aleatorios. Se
llama irrestrictamente aleatorio porque es sin reposicin. Consiste en tomar de una poblacin de
tamao N, una muestra de tamao n, de forma aleatoria y sin reposicin, con lo que las nuestras
posibles son:

35
Para llevar a cabo un muestreo de este tipo debemos:
Disponer de una lista con todos los elementos de la poblacin y a continuacin
numerarlos consecutivamente.
Bien con una tabla de nmeros aleatorios, bien con programas informticos,
obtendremos aleatoriamente los n nmeros que componen nuestra muestra en funcin
del tamao deseado.
Del listado previo, donde tenemos numerados cada uno de los elementos de la
poblacin, tomaremos cada uno de los n elementos que se correspondan con los
nmeros obtenidos de forma aleatoria y sern stos los que formen nuestra muestra.
Este mtodo de muestreo es equiprobabilstico, ya que todos los elementos tienen las
mismas posibilidades de ser elegidos, esa probabilidad es conocida a priori y adems es la
misma para todos los elementos:

No obstante, existen una serie de desventajas que hacen que habitualmente se recurra a otros
tipos de muestreo que lo simplifiquen y lo hagan asequible. stas son:
o Es necesario contar con una lista numerada de todos los elementos de la
poblacin.
o Los elementos seleccionados pueden estar muy dispersos, por lo que contactar
con cada uno de ellos puede resultar costoso tanto en tiempo como en dinero.
o Determinados subgrupos de la poblacin, sobre todo aquellos de carcter
ms minoritario, pueden tener escasa o nula representacin en la muestra, sobre
todo si sta es pequea.

6.1.2.Muestreo sistemtico.

Consiste en seleccionar a los individuos segn una regla o proceso peridico. En primer
lugar debe calcularse k (constante de muestreo), siendo k un nmero entero resultado de dividir
el tamao de la poblacin entre el tamao de la muestra:

Si el resultado fuese un decimal, habra que redondear al entero ms prximo. La
primera unidad i ha de ser un nmero comprendido entre 1 y k, es decir: 1> i > k. Los elementos
que integran la muestra son los que ocupan en la poblacin los lugares: i, i + k, i + 2k, ..,i +(n-
1)k.
Por ejemplo, partiendo de una poblacin formada por 100 elementos, N= 100, de la que
escogemos una muestra de 25, n = 25, por medio de muestreo aleatorio sistemtico.
K=100/25=4
El arranque aleatorio i ha de ser un nmero entre 1 y 4. Tomamos la tabla de los
nmeros aleatorios y obtenemos el 2, i = 2. De esta forma, la poblacin estar formada por los
elementos que ocupan en la poblacin los lugares: 2, 6, 10, 14, ..., 98.
Este tipo de muestreo no es aconsejable en las situaciones en que las unidades de
muestreo estn ordenadas por algn criterio peridico y la constante de muestreo puede coincidir
con ello, ya que entonces la muestra puede no ser representativa. En el ejemplo anterior, si la
poblacin que queremos estudiar estuviera formada por familias de cuatro sujetos, padre, madre,
hermano mayor, hermano menor, ordenados siempre as. Sea cual sea el arranque aleatorio que
36
se obtenga, la muestra slo estar formada por un tipo de sujetos, o los padres, o las madres, o
los hermanos mayores o los menores, con lo que la muestra no sera representativa de la
poblacin sino slo de ciertos elementos de ella.

6.1.3. Muestreo estratificado.
Si se sabe que una poblacin puede dividirse en partes o estratos, de forma que en cada
uno de ellos los elementos posean una gran homogeneidad con respecto al carcter que se
estudia, entonces se aumenta la precisin de las estimaciones tomando una muestra en cada
estrato, es decir, actuando separadamente en cada estrato.
Los estratos hay que hacerlos en funcin de las categoras de las variables por las que
se quiere estratificar, que son las variables que pueden influir en los resultados.
Dentro de cada estrato se puede aplicar el muestreo aleatorio simple o el muestreo
aleatorio sistemtico. En ambos casos la seleccin es aleatoria y se tiene el muestreo aleatorio
estratificado. Por ejemplo, en una poblacin de estudiantes universitarios, queremos conocer el
hbito tabquico. Dividiremos por tanto la poblacin en estratos: las distintas carreras
universitarias y haremos un muestreo aleatorio en cada una de ellas, con lo que tendremos
asegurado que todos los estratos son estudiados, mientras que con el muestreo aleatorio simple
o con el sistemtico, algunas de las carreras podran aparecer ms representadas que otras.
Por la forma de obtener el tamao de la muestra podemos distinguir:
Muestreo estratificado con afijacin proporcional: cuando las varianzas en los
estratos no difieren mucho entre s. El tamao de la muestra se toma
proporcionalmente al tamao del estrato. La proporcin de sujetos en la muestra
es similar a lo que ocurre en la poblacin.
Muestreo estratificado con afijacin no proporcional: cuando las varianzas de los
estratos difieren mucho entre s. En tal caso puede tomarse en consideracin tal
varianza, y as en los estratos en que sta sea grande, se tomar una muestra
de mayor tamao relativo para aumentar la precisin. En este caso la proporcin
de individuos con un determinado atributo en la muestra es mayor que lo que
ocurre en la poblacin. A la hora de inferir los resultados a la poblacin tenemos
que ponderar, es decir, otorgarle un peso a cada muestra en funcin de su
proporcin en la poblacin.

Hacer el muestreo proporcional o no proporcional depende ms bien del tamao del
estrato, y consecuentemente, de la muestra. Se utiliza para asegurar que cada uno de los
estratos tiene una muestra suficiente para obtener estimaciones precisas.

6.1.4. Muestreo por conglomerados.

Hasta ahora, los mtodos estudiados, estn diseados para seleccionar a los elementos
de la poblacin directamente, es decir, que las unidades mustrales son elementos de la
poblacin. En el muestreo por conglomerados en cambio, la unidad muestral es un grupo de
elementos de la poblacin, a la que denominamos conglomerados.

Por norma general, estos grupos o conglomerados existen realmente, as, por ejemplo,
las personas se agrupan en familias, las familias viven en casas, las casas se agrupan en
barrios, los barrios en municipios, etc. De esta forma, cualquiera de estos conglomerados puede
utilizarse como unidad de muestreo.
En el muestreo por conglomerados seleccionaremos aleatoriamente un determinado
nmero de conglomerados e investigaremos posteriormente todos los elementos pertenecientes
a ellos. Por ejemplo, si queremos conocer el grado de satisfaccin de los usuarios de Atencin

37
Primaria de la Comunidad de Madrid, podemos seleccionar como unidad de muestreo las
diferentes reas de Salud existentes y elegiremos aleatoriamente 3, el rea 1, el rea 4 y el rea
11 y de aqu tomaremos a todos los usuarios de Atencin Primaria.

Los conglomerados suelen ser frecuentemente reas geogrficas, por ello, el
denominado muestreo por reas no es ms que un caso particular del muestro por
conglomerados.

La ventaja que presenta el muestreo por conglomerados es que no es necesario conocer
todos los elementos de la poblacin para seleccionarlos de manera aleatoria, sino que una vez
dividida la poblacin y determinados los conglomerados, y seleccionados un determinado nmero
de ellos, slo tenemos que conocer a los sujetos pertenecientes a los conglomerados
seleccionados, sin importarnos el resto.

6.1.5.Muestreo por etapas.

Es una generalizacin del muestreo por conglomerados. En la primera etapa
seleccionaremos conglomerados de una clase, las denominadas unidades mustrales primarias,
por ejemplo, siguiendo con el ejemplo anterior, las reas de Salud; en la segunda etapa
seleccionaremos conglomerados ms pequeos, pertenecientes a los anteriores, esto es,
unidades mustrales secundarias, en nuestro ejemplo, para simplificar ya que las reas tienen
una extensin demasiado amplia, podramos reducir y seleccionar segn los distintos centros de
salud pertenecientes a cada rea. Y as sucesivamente, tantas etapas como considerramos
necesario. De esta manera, tan solo se necesita el listado de los elementos sobre los cuales se
ha de aplicar la ltima etapa.El muestreo por etapas, o polietpico, tiene como ventaja aadida
que se puede aplicar el muestreo aleatorio (simple, sistemtico o estratificado) que el
investigador considere ms adecuado al tipo de conglomerados con los que est trabajando.

6.2.Tcnicas de muestreo no probabilstico.

6.2.1. Muestreo consecutivo.

Es el muestreo no probabilstico ms utilizado. Si se lleva a cabo de manera adecuada,
podemos obtener una representatividad de la muestra semejante a la obtenida con un muestreo
probabilstico. Este tipo de muestreo consiste en reclutar a todos los elementos de la poblacin
accesible que cumplan con los criterios de inclusin establecidos durante el perodo de
reclutamiento fijado para el estudio. Este perodo depender del tamao muestral deseado y del
nmero de elementos que podemos captar cada da. Por ejemplo, si deseamos saber los hbitos
de higiene dental de los nios de 4 a 8 aos, podemos realizar un muestreo consecutivo entre
todos los nios comprendidos entre estas edades que acudan a nuestro centro de salud durante
un ao.

6.2.2. Muestreo de conveniencia .

El muestreo de conveniencia o accidental, utiliza una determinada muestra porque es
aquella que tenemos accesible, a veces incluso, pueden ser voluntarios.
Situarnos en una determinada calle y realizar una encuesta sobre x tema a todos
aquellos individuos que pasen por la calle y accedan a respondernos, sera un muestreo de
conveniencia. Muchos estudios clnicos tambin lo son.
Es una de las tcnicas menos slidas, pero en cambio de las ms utilizadas. Tiene un
gran riesgo de sesgos.

38
6.2.3. Muestreo a criterio.

El muestreo a criterio o intencional, es aquel donde el propio investigador selecciona a
los individuos que considera ms apropiados.
Es muy utilizado cuando se desea tomar una muestra de expertos. Por ejemplo, a la hora
de conocer el grado de conocimientos en cuanto a gestin de la calidad dentro de la Enfermera.
Para seleccionar el grupo de expertos participantes se podra realizar mediante un muestreo a
criterio.
6.3.El tamao muestral.
Una vez obtenida la muestra, el siguiente paso a llevar a cabo es cuntos individuos
debe tener dicha muestra, es decir, su tamao. Para ello debemos tener en cuenta varias
consideraciones:

o El tamao muestral estar asociado a la frecuencia del evento que deseamos
medir.
o El tamao tambin ir en funcin del mximo error de muestreo que el
investigador est dispuesto a admitir al estimar un parmetro.
o Por ltimo, la complejidad del diseo tambin influir sobre el tamao de la
muestra, cuanto ms complejo sea dicho diseo mayor deber ser la muestra.
El investigador deber tener en cuenta qu tipo de variables quiere estimar en las
muestras para hacer sus inferencias en la poblacin, es decir, si lo que desea inferir es una
media, hablaremos de una variable cuantitativa, mientras que si se trata de una proporcin,
hablaremos de una variable cualitativa
7. Bibliografa
Abraira Santos V. Contraste de hiptesis: el valor p. SEMERGEN 28: 374-375. 2002.
Abraira Santos V. Inferencia estadstica bayesiana. SEMERGEN 31: 18-20. 2005.
Garca Salinero, J. Anlisis de datos en los estudios epidemiolgicos V. Prueba de Chi
cuadrado y anlisis de la Varianza. Nure Investigacin n 16, junio 2005.
Garca Salinero, J. Anlisis de datos en los estudios epidemiolgicos IV. Estadstica
Inferencial. Nure Investigacin n 19; noviembre-diciembre 2005.
http://www.fisterra.com/mbe/investiga/chi/chi.asp.
http://www.fisterra.com/mbe/investiga/t_student.asp.
http://www.hrc.es/bioest/M_docente.html.
Prez de Vargas A, Abraira Santos V, Bioestadstica. editorial C. De E. Ramn areces.
Madrid, 1996.
Robledo Martn, J. Diseos de muestreo (II). Nure Investigacin n 12, Febrero 2005.
Robledo Martn, J. Diseos de muestreos probabilsticos (I). Nure Investigacin n 11;
diciembre 2004.
Ruiz-Maya Prez L., Martn Pliego F.J., Fundamentos de Inferencia Estadstica 3 ed.;
editorial AC, 2007.
Seoane Rey J, Rechea C, Diges M, Martnez Arias MR, Maci Antn MA. Psicologa
Matemtica I. 7 ed; editorial UNED, 1994.
Tomeo Perucha V., Ua Juarez I., Lecciones de Estadstica Descriptiva; editorial
Thomson, 2003

39
Anexo 1







40

Anexo 2.Tabla de la t de student.
















Anexo 3. Distribucin de chI cuadrado.


































41
Anexo 3.Distribucin de CHI cuadrado.

También podría gustarte