EstadisticaBiologia Pulido 2007
EstadisticaBiologia Pulido 2007
EstadisticaBiologia Pulido 2007
http://www.geocities.com/biologiamar
09
Estadística para la Biología y Ecología 2007
Tabla de contenido
1. INTRODUCCIÓN ........................................................................................................................... 3
1.1. Tipos de datos ..................................................................................................................... 4
1.2. Tipos de variables ................................................................................................................ 5
1.3. Tipos de pruebas estadísticas univariadas .......................................................................... 5
2. ESTADÍSTICA DESCRIPTIVA .......................................................................................................... 6
2.1. Medidas de dispersión y variabilidad .................................................................................. 7
3. MÉTODOS UNIVARIADOS ............................................................................................................ 7
3.1. Distribución normal ............................................................................................................. 7
3.1.1. Planteamiento de hipótesis......................................................................................... 8
3.1.2. Tipos de pruebas estadísticas ......................................................................................... 9
3.1.3. Propiedades de la distribución normal ..................................................................... 10
4. EJECUCIÓN DE LAS PRUEBAS ESTADISTICAS UNIVARIADAS ..................................................... 11
5. MÉTODOS MULTIVARIADOS ..................................................................................................... 19
5.1. Índices de Diversidad ........................................................................................................ 19
5.1.1. Instrucciones del manejo del programa PRIMER v5.0 .............................................. 19
5.1.2. Análisis de matriz de diversidad ................................................................................ 22
5.2. Análisis de clasificación ..................................................................................................... 23
5.2.1. Cluster ....................................................................................................................... 23
5.2.2. MDS ........................................................................................................................... 24
6. BIBLIOGRAFÍA RECOMENDADA ................................................................................................. 25
7. BIBLIOGRAFÍA CITADA ............................................................................................................... 26
1
Andrés Pulido Hernández
1. INTRODUCCIÓN
En ésta guía, se tratan tres tipos básicos de métodos, una es la estadística descriptiva la cual no
dice mucho, pero es muy útil para empezar cualquier proyecto. Los métodos univariados (de un
solo factor> véase abajo la definición) aplicado a análisis de poblaciones, en los cuales se deben
proponer una hipótesis nula y una alterna; es importante notar que no siempre el rechazo de la
hipótesis nula no comprueba la hipótesis alterna. Luego se debe establecer una probabilidad límite
antes de realizar la prueba (para este caso 0,05 > 95% de confianza) y las tablas con las que se
confrontan los resultados se organizan con el valor de probabilidad y el tamaño de la muestra
(Sanjuan, 2006). El tercer método es el multivariado, aplicado a análisis de comunidades, donde
se pueden comparar diferentes estratos definidos según el investigador según sea el caso, por
ejemplo: entre transectos, entre parcelas, entre métodos de captura, entre ecosistemas, etc.
NOTA: La prueba estadística determina la significancia estadística, pero no la biológica la cual debe
ser deducida por el investigador.
La estadística si se usa de un modo adecuado, es muy útil y potente como herramienta para
determinar los grados de certeza y confianza que toman las hipótesis y conclusiones. Es
importante decir que la estadística es una ayuda para la ciencia pero no es una verdad absoluta
(Sarmiento, 2000; Sanjuan, 2006).
Algunas definiciones básicas según Sarmiento (2000), Sanjuan (2006) y Ramírez (2007):
1
Biólogo Marino. Universidad Jorge Tadeo Lozano. Colombia. EMAIL y MSN [email protected]
Variable: Tipo de dato, característica o atributo que se toma, mide o se categoriza y que es
susceptible de cambiar. (P.ej. densidad de cangrejos en una playa, temperatura, pH, etc.).
Observación: es un dato, una medición de una variable. P.ej. Longitud Total (LT) = 25 cm,
Gusanos encontrados = 23, etc.
Unidad de muestreo: es el ejemplar o unidad en que se hace la observación. P.ej.: Pez No.
2., Pez macho No. 45, Gusanos del cultivo 1., etc.
Estadísticos: valor calculado que describe la variable en la muestra, sirve para analizar e
interpretar los datos, de una manera objetiva para llegar a conclusiones veraces de los
datos. P.ej.: Promedio de LT, Número de gusanos promedio por cultivo, etc.
o Nominales: la variable es clasificada por una cualidad propia (atributo) sin una
secuencia lógica. (P.ej. sexo, especie, estaciones del año, etc.).
Cuantitativos: son datos numéricos que se pueden medir, pueden también ser datos de
intervalos. (P.ej. peso (kg), longitud, volumen, velocidades, número de individuos, pH,
etc.).
Continuas: hay cualquier valor concebible entre cada par de datos. (P.ej.: Longitud de un
pez, temperatura, pH, etc.).
Discreta: No se presentan valores intermedios entre cada par de datos. (P.ej.: Número de
individuos, cantidad de escamas, etc.).
Variable dependiente: es aquella cuyos valores dependen de los que asuma otra variable
o factor (variable independiente). (P. ej. Longitud de un renacuajo, número de gusanos
encontrados, densidad de Sphyraena guachancho dependiente de la densidad de
Opisthonema olginum), etc.).
Tipos de pruebas estadísticas según Sarmiento (2000), Sanjuan (2006) y Ramírez (2007):
2. ESTADÍSTICA DESCRIPTIVA
Medidas de tendencia central: estadísticos o parámetros que se sitúan hacia el centro del
conjunto de datos ordenados por magnitud (Ramírez, 2007), algunas de estas medidas son:
Promedio (media aritmética): es una medida única, que es muy buena para un análisis
descriptivo, pero esta se ve afectada por los valores extremos (Sokal y Rolhlf, 1980;
Ramírez, 2007)).
Mediana: punto que divide a la muestra en dos partes iguales (valor de la variable) en una
serie ordenada, es también única y no es afectada por los valores extremos (Sokal y Rolhlf,
1980). Teniendo los valores ordenados de mayor a menor o viceversa, el valor medio (en
caso de una cantidad impar de muestras n) y el promedio de los dos valores medios (en el
caso de una cantidad par de muestras n) es la mediana (Ramírez, 2007).
Gráficas
Las figuras en la estadística descriptiva son un apoyo para interpretar resultados cuantitativos, los
tipos de gráficas están relacionados directamente con los tipos de datos, por lo cual no se pueden
usar a la ligera.
Son estimadores de la dispersión de una variable aleatoria de su media. Una valor grande indica
que los puntos están lejos de la media, y un valor pequeño indica que los datos están agrupados
cerca de la media.
Varianza: Representa la media de las desviaciones. Puesto que están relacionadas con la
desviación estándar, cuando las medias de las poblaciones difieren de forma apreciable,
no es recomendable usar esta medida de dispersión.
3. MÉTODOS UNIVARIADOS
NOTA: Debido a que este documento está basado en la utilización del software
StatGraphics, para la comprobación de hipótesis en dicho programa se deben invertir las
hipótesis para introducirlas en el software, es decir, siempre la igualdad debe ir en la Ha y
la contraria en la H0.
Según Zar (1999) el criterio para aceptar o rechazar una H0 es una probabilidad del 5%
denominada nivel de significancia (α). El valor del test estadístico correspondiente a α se
denomina valor crítico. El α indica cual es la probabilidad de cometer un error tipo I (rechazamos
H0, siendo verdadera) o la probabilidad de cometer un error tipo II (aceptamos H0, siendo falsa) es
representada por β.
La naturaleza de la hipótesis alterna determina si la prueba es de una o dos colas, que nos dice la
región de rechazo que se concentra a un lado de la curva (Figura 1) o si esta región se divide en los
dos lados (Figura 1).
95% 95%
5% 2,5 2,5
% %
a) b)
Dos colas: al investigador NO le interesa si en el muestreo hay una diferencia en una “dirección
específica” entre el parámetro y un valor establecido, o entre las medias de dos o más
poblaciones. H0: µ = 0 ; Ha: µ ≠ 0.
Una cola: al investigador le interesa una diferencia en una “dirección específica”. H0: µ ≤ 0 ; Ha: µ >
0 ó H0: µ ≥ 0 ; Ha: µ < 0.
y
Varias distribuciones de diversos datos biológicos tienden a
tomar forma de campana típica de normalidad (Figura 2).
Los datos tienen una preponderancia a ubicarse alrededor
de la media, disminuyendo progresivamente hacia los
extremos de los rangos de valores. Es importante notar que
no todas las distribuciones en forma de campana se dice
que son normales. La altura (Yi) es la variable dependiente y
µ µ+σ µ+2σ
la independiente es Xi (Zar, 1999; Sanjuan, 2006).
µ-2σ µ-σ
Figura 2. Curva de una distribución
Con la distribución normal se pueden hacer predicciones y
normal típica. Modificado de Sanjuan
(2006).
tests de hipótesis basados en la suposición de la normalidad
y así se puede confirmar o rechazar hipótesis fundamentales
(Zar, 1999; Sanjuan, 2006).
Sin embargo, la distribución se puede separar y generar desviaciones como lo son la asimetría (una
cola está más estirada de la otra llamada también sesgo) y la kurtosis (aplastamiento o
estrechamiento de la curva) (Zar, 1999; Sanjuan, 2006).
a)
b)
En la ventana aparecen una serie de resultados, donde el segundo que se muestra es la Prueba de
Shapiro-Wilks (Test) y nos indica el valor P (P-Value) (Figura 5) que debe ser menor o igual a 0,05
para ajustarse a una distribución normal, si es mayor a 0,05 no se ajustará a la normalidad, pero
queda la opción de hacer una serie de transformaciones a los datos según la naturaleza de estos.
Transformación de datos:
Los datos se pueden transformar según el comportamiento que tengan por el cual no se hayan
ajustado a la distribución normal, donde se encuentran 4 casos según Zar (1999) y Sanjuan (2006):
Si hay platicurtosis (dispersión de los datos a través de todo el eje X) los datos no se
pueden transformar y se debe hacer pruebas no paramétricas.
Si hay ceros dentro de los datos del muestreo, se debe transformar con log (x+1).
Para evaluar si hay sesgo o curtosis (platicurtosis o leptocurtosis) se deben seguir los siguientes
pasos QUE SON LOS MISMOS PARA LA ESTADISTICA DESCRIPTIVA COMO MEDIA, MODA,
MEDIANA, ETC.:
Pasos a seguir: Describir (Describe) > Datos numéricos (Numeric Data) > Análisis multivariado
(Multiple-Variable Analysis)… (Figura 6)
a)
b)
Figura 6. Pasos a seguir en el software StatGraphisc para estadística descriptiva a) Versión XV Centurion b) versión 4.0 y
5.0.
“Opciones de Ventana (Pane Options…)” (Figura 8), sale un cuadro y habilitar la opciones de:
media (average), mediana (median), moda (mode), varianza (variance), desviación estándar (std.
Deviation), mínimo (min), máxima (max), sesgo (std. Skewness) (sesgo), kurtosis (std. Kurtosis) y
coeficiente de variación (Coeff. Of Var.) como se observa en la Figura 9.
a)
a)
b)
b)
Figura 8. Selección de todos los datos de las variables a) Figura 9. Selección de medidas de tendencia central a)
Versión XV Centurion b) versión 4.0 y 5.0. Versión XV Centurion b) versión 4.0 y 5.0.
5. MÉTODOS MULTIVARIADOS
Los métodos estadísticos multivariados son herramientas para hacer inferencias de datos
cuantitativos o algunas veces cualitativos de comunidades biológicas, utilizando instrumentos
como los índices de diversidad (dominio, uniformidad, riqueza, etc.), análisis de clasificación
(clusters, MDS, etc). Estos índices surgieron por la necesidad para descifrar el funcionamiento de
las comunidades y ecosistemas en expresiones matemáticas que reflejaran una relación entre
número de especies y la proporción de sus individuos (Clarke y Gorley, 2001; Ramírez, 2005).
Ya teniendo la matriz, seguidamente se realiza el cálculo de los respectivos índices (Analyse >
Diverse…). La ventana siguiente muestra los diferentes índices a calcular en viñetas en la parte
superior, en casos básicos se seleccionar los siguientes:
Pestaña Otros: Especies totales (S) indica el número total de la suma de especies encontradas,
Individuos totales (N) indica la abundancia total de organismo, Riqueza de Margalef (d),
Uniformidad de Pielou (J’) muestra un valor en porcentaje que es análogo a la equiparabilidad que
determina la diversidad de una muestra (Figura 15).
Pestaña Shannon (Diversidad): hay tres logaritmos con bases diferentes para calcular, en la
actualidad se tiende a manejar en base e, sin embargo, lo importante es que todos los resultados
se calculen con el mismo logaritmo para que sean comparables los datos, y si por ejemplo los
resultados de la investigación se van a comparar con otros trabajos, se debe calcular éste índice
con la base del logaritmo de los demás realizados (Ramírez, 2005) (Figura 16).
Pestaña Simpson (Predominio): indica la posible dominancia de una o varias especies dentro de la
muestra, tiene cuatro alternativas a seleccionar, sigma se utiliza como predominio de Simpson, 1-
sigma es diversidad de Simpson (poco utilizado porque se ve muy marcado dependientemente por
las especies abundantes). La sigma prima se utiliza en el caso de comunidades estadísticamente
finitas, y en la sigma sencilla es para grupos infinitos (Ramírez, 2005).
En estos casos, se recomienda usar sigma o 1-sigma, no al tiempo ya que ambas muestran el
mismo resultado interpretado de forma inversa, es decir, mientras el primero indica “dominio” el
segundo indica “uniformidad” (Figura 17).
Pestaña Hill: se trabajan básicamente los números de Hill 1 y 2, el primero indica la cantidad de
especies abundantes y el segundo la cantidad de especies muy abundantes (Figura 18).
Por último en la misma tabla se recomienda dar click en el cuadro de “Results in worksheet” para
que se puedan apreciar en una forma ordenada dentro de una matriz, la cual seguidamente se
puede copiar y pegar en una tabla de Microsoft Excel para un posterior tratamiento u organización
de datos.
Para comparar varias muestras es necesario observar y analizar de forma conjunta varios índices
para determinar balances entre unos y otros, y así tener conclusiones más certeras basadas en
estas herramientas estadísticas.
En primera instancia, se explica a continuación los valores entre los cuales fluctúa cada índice y su
interpretación individual:
5.2.1. Cluster
5.2.2. MDS
Adicionalmente, otra representación gráfica de dos dimensiones que expresa cualitativamente el
grado de semejanza entre dos o más conjuntos multivariados es el MDS, el cual muestra cercanías
entre entidades a comparar, en matrices tipo Q estaciones y en las de tipo R afinidad de especies.
Para que este diagrama sea representativo el valor de estress debe ser menor a 0,01, en caso
contrario no es muy confiable.
6. BIBLIOGRAFÍA RECOMENDADA
Clarke, K. y R. Gorley. 2001. PRIMER v5. User Manual/Tutorial. PRIMER-E Ltd. United
Kingdom. 91 p.
Cristófoli, M. 2007. Manual de estadística con Microsoft Excel. Omnicrom System. Buenos
Aires. 240 p. 519.5 C865
Horra, J. 1995. Estadística aplicada. Ediciones Días de Santos. Madrid. 179 p. 519.5 H816
Martínez, C. 2005. Estadística y muestreo. Ecoe Ediciones. 12ª edición. Bogotá. 998 p.
519.5 M17EST 2005
Zar J. 1999. Biostatistical Analysis. Prentince Hall. 4ª edición. New Jersey. 663 p. 570.1 Z36
7. BIBLIOGRAFÍA CITADA
Clarke, K. y R. Gorley. 2001. PRIMER v5. User Manual/Tutorial. PRIMER-E Ltd. United
Kingdom. 91 p.
Zar J. 1999. Biostatistical Analysis. Prentince Hall. 4ª edición. New Jersey. 663 p.