NORTE2009b Iraurgi
NORTE2009b Iraurgi
NORTE2009b Iraurgi
net/publication/267779074
CITATIONS READS
23 567
1 author:
Ioseba Iraurgi
University of Deusto
155 PUBLICATIONS 1,476 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Ioseba Iraurgi on 20 November 2014.
Summary: In the biomedical and psychosocial publications, result frequent to find studies guided
to value effects between treatments or interventions that present the p value as the principal
scientific argument on the existence or absence of such effects. This trend to center the statistics
conclusions in the significance value involve a serious problem: to confuse the ‘clinic/scientific
significance or importance’ with the ‘statistical significance’. Initially, on the basis of simulated data,
is presented evidence of the fact that both significances correspond from different processes,
those which have of be considered by and large and not of excluding way. The concepts of
statistical significance, investigation process and statistical inference and, finally, the clinical
significance or clinical importance are reviewed.
Key words: Statistical significance, clinic significance, Hypothesis contrast, Statistical inference.
La cita que sigue al título de este artículo las páginas siguientes: la estadística es un
—una adaptación de la ofrecida por Cantervill medio, no un fin para dar respuesta a las pre-
y recogida en la editorial a este número de la guntas científicas. Es una herramienta útil y váli-
revista Norte de salud mental—, pretende ser un da utilizada en el método científico, pero se
a priori de la idea que se aspira a transmitir en espera que quien la utilice lo haga con rigor y
94
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
no de forma inapropiada, sea de forma inten- ser clínicamente relevante y, además, la signifi-
cionada porque conoce su utilidad y pervierte cación estadística puede no ser causal. Es decir,
su uso, o bien de forma ingenua, por descono- podemos encontrar asociaciones estadística-
cimiento de las normas que la rigen y ante la mente posible y conceptualmente estériles
necesidad de publicar unos resultados. A esto (Silva, 1997).
último ha contribuido enormemente la dispo-
nibilidad de sofisticados programas informáti- Veamos qué queremos decir mediante un
cos que ponen a nuestro alcance todo un aba- ejemplo práctico, aunque para el cálculo se
nico de pruebas y algoritmos estadísticos, hasta hallan utilizado datos simulados. Supongamos
el punto que muchos usuarios de estos pro- que disponemos de dos tratamientos (A y B)
gramas creen ser expertos en estadística. Pero para el manejo de una enfermedad, dolencia o
no basta con cruzar unas variables y observar síntoma (p.ej.: un trastorno del sueño), y dese-
los valores de significación estadística que nos amos conocer cuál de ellos es mejor. Las inter-
dan estos programas para elaborar un adecua- venciones pueden ser tanto farmacológicas,
do informe de investigación, no por tener más como psicoterapéuticas, como de otra índole.
datos y pruebas de contraste complicadas se El tratamiento A, al que llamaremos experi-
ofrece un mejor informe. Hacer investigación mental (Exp), es una modalidad de intervención
no es manejar la estadística; se puede ser un novedosa que se espera tenga más éxito que el
buen investigador sin tener ni idea de estadísti- tratamiento B estándar, al que llamaremos con-
ca. Dominar el método científico es lo que hace trol (Ctrol). Para valorar el éxito del trata-
a uno buen investigador, la estadística sólo es miento se consideran dos criterios: una induc-
una de sus herramientas. Pero, precisamente por ción del sueño en menos de 20 minutos y un
ser una utilidad para la ciencia, es ineludible que mínimo de duración del sueño de 6 horas. Por
un buen investigador conozca qué es lo que sub- otra parte, para considerar mejor un trata-
yace a la estadística y a su interpretación. miento sobre el otro se espera una diferencia
de mejoría de al menos un 10% en el porcen-
En el ámbito clínico, donde muchos profe- taje de enfermos que logran el objetivo. Con
sionales sanitarios muestran interés en los ello, estaríamos definiendo lo que entendemos
avances diagnósticos y terapéuticos y siguen por diferencia clínicamente importante, que en
periódicamente las novedades en los medios nuestro caso es de un 10%. Para llevar a cabo
de divulgación científica, o incluso colaboran en el experimento se diseña un ensayo clínico ale-
ellos, es de especial importancia tener unos atorio con dos grupos de intervención realiza-
conocimientos básicos de lo que nos ofrece la do con condiciones óptimas de ejecución y
estadística. Muy a menudo se malinterpretan control exhaustivo de los sesgos. Este ensayo
los resultados de las pruebas de contraste de es realizado en cuatro contextos diferentes: en
hipótesis para descubrir las diferencias entre un Centro de Salud Mental (CSM) de una loca-
dos tipos de terapias, considerando que un lidad pequeña (Estudio 1), en un CSM de una
resultado estadísticamente significativo implica gran ciudad (Estudio 2), y a través de la colabo-
un resultado clínicamente concluyente. Y resul- ración multicéntrica de 20 CSMs (Estudios 3 y
ta de enorme importancia diferenciar entre lo 4). Los resultados obtenidos se presentan en la
que es estadísticamente significativo de lo que tabla 1 bien a través de una medida basada en
es clínicamente importante o sustantivamente un indicador dicotómico (obtiene o no, mejo-
relevante. Como bien plantean Pita y Pértega ría), por lo que estaríamos comparando una
(2001), desde el punto de vista clínico la signifi- medida basada en proporciones, o a través de
cación estadística no resuelve todos los inte- una escala de medida continua, donde la com-
rrogantes que hay que responder ya que la aso- paración sería de medias.
ciación estadísticamente significativa puede no
95
NORTE DE SALUD MENTAL nº 33 • 2009
96
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
97
NORTE DE SALUD MENTAL nº 33 • 2009
ría de un trastorno, nos encontramos con dos sus efectos tienden, a largo plazo, a anularse
variables: una independiente —la primera— mutuamente.
con al menos dos niveles de variación (ofrecer
un tratamiento experimental —Exp— frente a Los sesgos son controlados usualmente a
otro alternativo o no ofrecer nada, denomina- través del diseño de investigación. Un buen
do usualmente control —Ctrol—), y otra protocolo, una adecuada implementación y un
dependiente —la segunda— que puede ser correcto seguimiento permiten controlar el
medida también a través de dos niveles (éxito efecto de tales sesgos. La experiencia del inves-
vs fracaso, existe o no sintomatología, etc.) o tigador, la evidencia recogida en estudios simi-
mediante una medida de tipo continuo (p.ej.: un lares ya realizados, la supervisión de expertos
inventario de síntomas como la BPRS) —recor- permiten detectar muchos de los sesgos usual-
demos los datos de la Tabla 1—. La tarea del mente comunes. Ahora bien, nunca se tiene
investigador consiste en determinar el grado garantía de que algún sesgo pudiera influir en la
en que los datos de la investigación reflejan una investigación, y en el caso de que actuase afec-
relación entre las variables independiente y taría a la validez de los datos recogidos impi-
dependiente; o dicho de otro modo, el análisis diendo la correcta interpretación de los resul-
estadístico de los datos persigue determinar si tados (Iraurgi, 2000; Argimón y Jiménez, 2004).
dos grupos que difieren en el lugar que ocupan
en la variable independiente (exp vs Ctrol), En cuanto a los errores variables, además
difieren también en la variable dependiente de los esfuerzos que puede hacer el investiga-
(éxito vs fracaso). Pues bien, tanto en la rela- dor para minimizar la varianza de error a tra-
ción entre las variables como la ausencia de vés del diseño de la investigación, una forma de
relación entre las mismas, pueden resultar afrontar dichos errores es mediante la inferen-
enmascaradas por dos clases de errores: 1) los cia estadística. Como hemos comentado más
errores constantes, también llamados sesgos, y arriba, esta expresión se aplica a un conjunto
2) los errores variables o error estocástico o de procedimientos utilizados para determinar
debido al azar. Los sesgos son producidos por el grado en que la relación observada entre dos
variables extrañas que afectan de manera cons- variables puede explicarse como resultado del
tante los resultados de una investigación; por azar o, por el contrario, son producto del
ejemplo afectan siempre de la misma manera la efecto del tratamiento investigado. Para esta
relación (o la falta de relación) entre las dos determinación, históricamente se han venido
variables (independiente y dependiente), o realizando dos tipos de procedimientos (Do-
afectan siempre de la misma manera (favorable ménech, 1998; Argimón y Jiménez, 2004): el
o desfavorablemente) a los grupos de la inves- basado en la prueba de significación estadística
tigación, es decir, a los niveles de la variable o prueba de la hipótesis nula, originaria de
independiente. Ejemplos de sesgos sería ofre- Fisher (1922), y la prueba de contraste de hipó-
cer una atención especial al grupo Exp más tesis de Neyman–Pearson (1928a, 1928b).
allá de lo estipulado en el protocolo, utilizar
instrumentos mal calibrados, que los partici- En el enfoque de Fisher se parte de la espe-
pantes del estudio reciban tratamiento simul- cificación a priori de una hipótesis nula, la cual
táneo en otro servicio sin conocerlo, etc.). plantea la no asociación entre dos variables;
Por su parte, los errores estocásticos son que para el caso de un estudio clínico en el que
producidos por variables extrañas que afectan se comparan dos tratamientos, la hipótesis nula
de manera variable los resultados de la inves- establece que no existen diferencias entre los
tigación; se trata de variables ajenas a la inves- tratamientos evaluados. Del mismo, en la prue-
tigación que actúan aleatoriamente sobre ba de significación estadística, Fisher propone
todos los sujetos, y que por esa misma razón, un valor de ‘p’ como criterio utilizado para eva-
98
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
99
NORTE DE SALUD MENTAL nº 33 • 2009
I, lo cual supondría asumir un falso positivo; y 2) co de la inferencia estadística y del papel que
si la hipótesis para probar (H0) es realmente jugaron estos padres de la estadística es des-
falsa y ésta no se rechaza, es decir, existen dife- crita de forma ejemplar por Rodríguez–Arias
rencias pero se asume que no las hay, se come- (2005) y al cual seguiremos en el apartado
tería un error Tipo II, que implicaría una deci- siguiente al abordar los pasos del ritual de las
sión falsa negativa. El riesgo de cometer el pruebas de significación estadística.
error tipo II se designa con una probabilidad:
llamada probabilidad Beta (β), siendo su com-
plemento (1–β) la llamada ‘potencia’ o poder Pasos del ritual de la prueba
del estudio, el cual se puede definir como la de significación estadística
probabilidad que tiene un estudio para detectar El texto que sigue en este apartado ha sido
diferencias entre tratamientos cuando real- tomado de Rodríguez–Arias (2005) práctica-
mente existen. En otras palabras, la potencia de mente de forma textual, en la convicción de
un estudio es la probabilidad de rechazar la que es una de las mejores descripciones del
hipótesis nula cuando ésta es falsa, o lo que es proceso de inferencia que conozco y que difí-
lo mismo, la probabilidad de aceptar la hipóte- cilmente podría mejorar. Discúlpenme esta
sis alternativa cuando ésta es cierta. Por otro licencia, sin duda abusiva, pero con ello quiero
lado, minimizar los errores no es una cuestión rendir tributo a su autor, al cual se debe citar
sencilla, un tipo suele ser más grave que otro y sin duda cuando se quiera referenciar algo de
los intentos de disminuir uno suelen producir lo que a continuación se detalle.
el aumento del otro. En la Tabla 2 se proponen
algunas recomendaciones para disminuir Rodríguez–Arias, plantea cuatro pasos en el
ambos tipos de errores. ritual de la prueba de significación estadística; a
saber:
Estas serían las bases de ambas posiciones,
enfrentadas por otra parte, y que aún hoy su «1. El investigador formula la hipótesis nula.
debate está sin resolver. Un desarrollo históri- En términos generales, la hipótesis nula afirma
100
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
que no existe ninguna relación real o verdade- decir, descartar el azar como explicación cuan-
ra entre las variables independiente y depen- do los resultados podrían explicarse razonable-
diente de una investigación, y que, por tanto, si mente con base en el mismo. Este es el error
alguna relación es observada entre dichas que comete el investigador que ve más de lo
variables en los datos de la investigación, la que hay en los datos; es decir, el investigador
misma podría explicarse como resultado del concluye que existe una relación real o verda-
azar. Es por eso que a la hipótesis nula se le dera entre las variables independiente y depen-
llama la hipótesis del azar. Dicho de otra mane- diente de la investigación, cuando en realidad la
ra, la hipótesis nula expresa que si se repitiera relación observada se puede explicar razona-
la investigación un número suficiente de veces, blemente como resultado del azar. El llamado
siempre con una muestra distinta extraída ale- error tipo I es el error del investigador que se
atoriamente de la misma población, las diferen- apresura a concluir a favor de su hipótesis de
cias en la variable dependiente entre los grupos investigación. Fisher no habló de ningún otro
de la investigación tenderían a neutralizarse y error, pues la prueba de la hipótesis nula para
terminarían siendo cero. El razonamiento implí- él no era otra cosa que un freno a la tendencia
cito en la hipótesis nula es el siguiente: supo- natural de un investigador a creer que la hipó-
niendo que el resultado de una investigación tesis ha sido confirmada por el simple hecho de
particular constituye una selección al azar de que los resultados de la investigación siguen la
entre una multitud de resultados posibles, el misma dirección de la hipótesis.»
investigador se pregunta cuál sería la probabili-
dad de obtener por azar la diferencia que él ha «En la estrategia de Fisher sólo hay un
encontrado entre los grupos de su investiga- error posible: rechazar una hipótesis nula ver-
ción. Si esa probabilidad es igual o menor que dadera. Una segunda forma de error (se cono-
un nivel de probabilidad convencional previa- ce como el error tipo II), introducida por Egon
mente establecido (p≤0,05), entonces el inves- Pearson y Jerzy Neyman consiste en no recha-
tigador concluye que los resultados por él zar una hipótesis nula falsa, es decir, no descar-
observados no se deben al azar y, por tanto, tar el azar aun cuando éste no constituye una
rechaza la hipótesis nula. Si, en cambio, la pro- explicación razonable de los datos. Este es el
babilidad de que la diferencia observada entre error que comete el investigador que ve menos
los grupos se pueda explicar como resultado que lo que hay en los datos; por miedo a recha-
del azar es superior al nivel de probabilidad zar incorrectamente el azar, el investigador
convencional previamente establecido puede exponerse al riesgo de pasar por alto
(p>0,05), entonces no se puede descartar el una relación real o verdadera entre las varia-
azar, es decir, no se rechaza la hipótesis nula. bles de su investigación. Fueron Pearson y Ney-
Esta formulación es puramente fisheriana.» man los que, al introducir un segundo tipo de
error, bautizaron como error tipo I al error del
«2. Es obvio que la decisión sobre la hipó- que había hablado Fisher.»
tesis nula requiere de que se haya establecido
previamente un nivel de significación estadísti- «En la perspectiva fisheriana el nivel de sig-
ca, es decir, un criterio que sirva de base a la nificación estadística es el punto que separa las
decisión de rechazar o no rechazar la hipótesis probabilidades que nos conducen a rechazar la
nula. Al establecer un criterio de decisión sobre posibilidad de que la relación observada entre
la hipótesis nula, el investigador puede valorar las variables de una investigación se deba com-
los errores que podría cometer en su decisión pletamente a errores variables (errores de azar)
sobre la hipótesis nula. Una primera forma de de aquellas probabilidades que nos conducen a
error (se conoce como el error tipo I) consis- no rechazar esa posibilidad. Según Fisher, el nivel
te en rechazar una hipótesis nula verdadera, es de significación estadística equivale a la magni-
101
NORTE DE SALUD MENTAL nº 33 • 2009
tud del riesgo que está dispuesto a correr el (homoscedasticidad, u homogeneidad de las
investigador de cometer el error de rechazar varianzas); y que la variable dependiente esté
una hipótesis nula verdadera (el llamado error medida en una escala que sea por lo menos de
tipo I). Para la mayoría de los propósitos, el intervalo, aunque este último requisito no es
nivel de significación previamente establecido compartido por todos los estadísticos (McGui-
suele ser de 0,05, aunque en áreas de investiga- gan, 1993; Siegel, 1956). Cuando los datos cum-
ción más rigurosas se trabaja con un nivel de plen con los requisitos indicados, especialmen-
significación de 0,01. Suponiendo que se traba- te con los dos primeros, las pruebas
ja con un nivel de significación de 0,05, se estadísticas paramétricas exhiben su máximo
rechazaría la hipótesis nula siempre que la pro- poder, es decir, su máxima capacidad para
babilidad de explicar los resultados obtenidos detectar una relación real o verdadera entre
en una investigación, como si fueran obra del dos variables, si es que la misma existe. Las
azar, sea igual o menor que 0,05.» pruebas paramétricas más conocidas y usadas
son la prueba t de Student, la prueba F, llamada
«En la perspectiva de Pearson y Neyman, así en honor a Fisher, y el coeficiente de corre-
para establecer el nivel de significación estadís- lación de Pearson, simbolizado por r. Cuando
tica habría que atender al impacto de cada tipo estas pruebas estadísticas se aplican a datos
de error en el objetivo del investigador, y a par- que violan los dos primeros de los requisitos
tir de ahí se decidiría cuál de ellos es preferible señalados, pierden parte de su poder. Las prue-
minimizar. Pearson y Neyman llamaron alfa al bas estadísticas no paramétricas, en cambio, no
error tipo I y beta al error tipo II; a partir de hacen a los datos ninguna de las exigencias que
este último tipo de error, introdujeron el con- les hacen las pruebas estadísticas paramétricas,
cepto de “poder de una prueba estadística”, el por eso se les denomina ‘pruebas estadísticas
cual se refiere a su capacidad para evitar el libres de distribución’. Las más conocidas y usa-
error tipo II, y está definido por 1–beta, y en das de estas pruebas son la Ji cuadrada de Pear-
estrecha relación con éste se ha desarrollado el son, la prueba de la probabilidad exacta de Fis-
concepto de “tamaño del efecto” que algunos her, los coeficientes de contingencia de Pearson
han propuesto como sustituto de los valores p y Cramer, la prueba U de Mann–Whitney, el
en los informes de investigación científica». coeficiente de correlación de rangos de Spear-
(Cohen, 1990, 1994; Kraemer y Thiemann, man, y el coeficiente de asociación ordinal de
1987; Murphy y Myors, 2004). Goodman–Kruskal (coeficiente gamma), (Co-
nover, 1999; Leach, 1979; Siegel, 1956). Todas
«3. El tercer paso del llamado ritual de la estas pruebas poseen menos poder que las
prueba de significación estadística consiste en pruebas paramétricas correspondientes, pero
la elección de la prueba estadística que se utili- han demostrado ser muy útiles como alternati-
zará para someter a prueba la hipótesis nula. vas cuando no se considera apropiado el uso
Hay dos clases de pruebas estadísticas: las para- de pruebas paramétricas.»
métricas y las no paramétricas. Se llama para-
métricas a aquellas pruebas estadísticas que «4. El último paso del ritual de la prueba de
exigen que los datos a los que se aplican cum- significación estadística consiste en comparar
plan con los siguientes requisitos: que los valo- el valor arrojado por la prueba estadística apli-
res de la variable dependiente sigan la distribu- cada a los datos con el valor que, en circuns-
ción de la curva normal, por lo menos en la tancias comparables, puede ocurrir por azar
población a la que pertenezca la muestra en la con una probabilidad de 0,05 ó 0,01, según el
que se hizo la investigación; que las varianzas de valor de la probabilidad que se haya adoptado
los grupos que se comparan en una variable como nivel de significación estadística. Si, al
dependiente sean aproximadamente iguales consultar la tabla de los resultados de la prue-
102
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
ba estadística que pueden ocurrir por azar con dimos de está lógica y tendemos a interpretar
diferentes niveles de probabilidad, se observa directamente los valores–p de las pruebas esta-
que el resultado de la investigación tiene una dísticas haciendo atribuciones muchas veces
probabilidad de ocurrir por azar igual o menor inciertas. En la Tabla 3 se presentan algunos de
que la probabilidad adoptada como nivel de sig- los equívocos más usuales y de las precaucio-
nificación estadística, entonces no se rechaza la nes que debiéramos tener en cuenta cuando
hipótesis nula. Si, en cambio, el resultado de la interpretamos el resultado de una prueba de
investigación tiene una probabilidad de ocurrir significación.
por azar mayor que la probabilidad adoptada
como nivel de significación estadística, enton- De forma sintética, y a sabiendas de que se
ces no se rechaza la hipótesis nula. Esto es todo trata de una simplificación, cabe concluir que
cuanto diría Fisher al terminar la prueba de la las pruebas de significación estadística nos pro-
hipótesis nula. Pearson y Neyman, en cambio, porcionan un valor ‘p’ que nos permiten cono-
incorporaron la idea de simetría entre el recha- cer la probabilidad de que nuestros resultados
zo y la confirmación de la hipótesis nula; es a hayan sido producto del azar, o bien efecto de
partir de ellos que los libros de texto de esta- nuestra intervención. Obtener un valor de ‘p’
dística han incorporado la expresión ‘se acepta pequeño (inferior al nivel de significación elegi-
la hipótesis nula’, pues para Fisher sólo era do; p≤0,05 ó p≤0,01 ó p≤0,001) implica que
posible rechazar o no rechazar la hipótesis existe una probabilidad pequeña —y por tanto
nula». asumible— de que los resultados obtenidos se
deban al azar y en este caso admitimos que las
Esta lógica de decisiones sobre la acepta- diferencias o asociación entre las variables son
ción y/o rechazo de hipótesis o de la significa- reales (recordemos que podemos estar incu-
ción estadística es una de las bases de la infe- rriendo en un error en la decisión). Ahora bien,
rencia estadística que articulan y justifican el que podamos asumir que los resultados encon-
uso de esta herramienta. Usualmente prescin- trados se hayan producido verdaderamente, no
103
NORTE DE SALUD MENTAL nº 33 • 2009
nos dicen nada de la magnitud del efecto logra- ello, el IC a demás de utilizarse como estima-
do ni de su precisión (Porta, elt al, 1988; dor de la magnitud y precisión, también es váli-
Pita–Fernández y Pertega, 2001; Rebasa, 2003). do como medida de significación estadística.
A este respecto, desde hace ya tiempo se Veámoslo con los ejemplos de la Tabla I. En
recomienda, con acierto, acompañar a los valo- el estudio 1 se ha obtenido una diferencia de
res ‘p’ con el uso de los intervalos de confian- proporciones del 20% que arroja un Riesgo
za —e incluso sustituyendo a los propios valo- Relativo (RR) de 1,55 a favor del grupo Exp
res ‘p’—, ya que esta herramienta sí que nos respecto al Ctrol. La prueba de significación
aporta información sobre la magnitud y la pre- estadística a ofrecido una p=0,361 y el IC del
cisión del efecto (Gardner y Altman, 1986; 95% ha resultado de (0,56 a 4,29). Como
Clark, 2004). El Intervalo de Confianza (IC) vemos, este intervalo de confianza contiene el
construido a partir de una muestra, es un rango valor ‘1’, lo cual quiere decir que en alguna de
de valores mínimo y máximo entre los cuales las muestras aleatorias que pudiéramos obte-
esperamos que se encuentre el verdadero ner ambos grupos presentarían la misma pro-
valor del parámetro que tratamos de estimar. porción de éxitos del tratamiento (numerador
En las distribuciones normales los intervalos de y denominador serían iguales). En el estudio 2 se
confianza se construyen sumando y restando al ha observado la misma diferencia de proporcio-
estimador del efecto (la media, la razón de ries- nes (20%) y el mismo RR (1,55), pero en este
gos, etc.) su error estándar [EE=DT/√n] multi- caso el IC del 95% es de (1,13 a 2,14). Como
plicado por el valor de z=1,96 para obtener podemos apreciar, el valor 1 esta fuera del reco-
intervalos de confianza del 95%, o por el valor rrido observado, por lo que podríamos concluir
de z= 2,58 si se pretende obtener un IC del que en el 95% de las muestras aleatorias encon-
99%. Por tanto, la amplitud de los intervalos traríamos RR de la magnitud del encontrado en
dependerá de la variabilidad o desviación nuestro estudio. Observemos como en este caso
estándar (numerador en la fórmula del EE) y de el valor de la prueba de significación es de
los efectivos utilizados en la muestra (denomi- p<0,005.También ha que destacar como el IC del
nador de la fórmula), de forma que si disminu- 95% del Estudio 2 es más estrecho que el del
ye el numerador (menor variabilidad) o se estudio 1, es decir, resulta más preciso: en el Estu-
incrementa el denominador (aumento del dio 1 el verdadero valor de la RR en la población
tamaño de la muestra) se reduce el error de oscilaría entre valores de 0,56 a 4,29, mientras
medida y, por tanto, aumenta la precisión. Un que en el Estudio 2 lo haría entre valores de 1,13
intervalo de confianza del 95% quiere decir que a 2,14. En nuestro ejemplo, esta mayor precisión
si se toman 100 muestras de un mismo tamaño se debe al tamaño de la muestra, 20 casos en el
y se utiliza cada muestra para construir un IC Estudio 1 y 200 en el Estudio 2.
del 95%, se podría esperar que en promedio 95
de los intervalos incluirían el verdadero efecto Los intervalos de confianza, a diferencia de
de la terapia y cinco no lo hicieran. Una de las los valores ‘p’, no reducen los resultados a un
características del IC es que existe una relación simple ‘blanco o negro’, ‘estadísticamente sig-
entre éste y la prueba de hipótesis: cuando el nificativo o no significativo’, sino que nos ofre-
IC del 95% no contiene el valor ‘0’ (en el caso cen un límite inferior y otro superior entre
de diferencias de medias) o el valor ‘1’ (en el los cuales se sitúa el verdadero efecto en la
caso de la razón de riesgos) se presenta una población, es decir, nos ofrece una aproxima-
diferencia estadísticamente significativa ción a la estimación del efecto. En el ámbito
(p<0,05), mientras que si el IC contiene el ‘0’, o clínico, y en el científico en general, es preciso
el ‘1’ según el caso, entonces no existirían efec- conocer si los resultados obtenidos en nues-
tos significativos estadísticamente (p>0,05). Por tra investigación pueden ser extrapolables a la
104
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
105
NORTE DE SALUD MENTAL nº 33 • 2009
Varias ideas afloran en el conjunto de estas ne un juicio de valor que varia en función de la
propuestas. Siguiendo a Greenstein (2003), la situación clínica de cada caso. Médicos, pacien-
importancia clínica de los datos necesita ser tes, investigadores, representantes de la salud
interpretada por el médico antes de tomar las pública, la industria farmacéutica, y otros prota-
decisiones terapéuticas. Sin embargo, no existe gonistas del escenario socio–sanitario (Tabla 4)
una manera precisa de definir la relevancia clíni- pueden interpretar la relevancia clínica de forma
ca ya que es cada situación la que especificará diferente, en tanto que cada uno de ellos pueden
cuán pequeño ha de ser la mejora mínima nece- poner su(s) objetivo(s) de resultado(s) en opcio-
saria. Por consiguiente, teniendo en la cuenta las nes diversas (p.ej.: el tamaño de efecto, el alivio
definiciones anteriores, se podría plantear la de la dolencia, los costes, la duración del trata-
siguiente propuesta sobre lo que comporta un miento, la comodidad de la implementación, el
cambio clínicamente significativo o relevante: “la mantenimiento de la mejora de salud y acepta-
importancia clínica implica la existencia de un ción del tratamiento por el paciente, etc.). De
cambio que puede influir en la decisión de un clí- este modo, un resultado puede ser estadística y
nico sobre cómo tratar a un paciente. Para lle- clínicamente significativo pero tener poca rele-
gar a la conclusión de que un resultado es clíni- vancia médica porque el beneficio no supera el
camente relevante, el hallazgo ha de ser, riesgo o el coste del tratamiento o porque el
simultáneamente, clínicamente y estadísticamen- beneficio sólo se observa en un grupo de
te significativo. No obstante, este criterio supo- pacientes muy pequeño.
106
EVALUACIÓN DE RESULTADOS CLÍNICOS I:
ENTRE LA SIGNIFICACIÓN ESTADÍSTICA Y LA RELEVANCIA CLÍNICA
107
NORTE DE SALUD MENTAL nº 33 • 2009
BIBLIOGRAFÍA
• Argimon JM y Jiménez-Villa J (2004). Métodos de investigación clínica y epidemiológica. Tercera edición. Barcelona: Elsevier. Accesible en:
http://books.google.es/books?id=_BLemLvp9XAC&pg=PA257&lpg=PA257&dq=clinicamente+significativo+relevante&source=web&ots=k6vBs5TQCL&sig=u32Sc
zY0z6CCIRa9zS2CMQJxbn0&hl=es&sa=X&oi=book_result&resnum=9&ct=result#PPP1,M1
• Barrera M. (2008). Diferencias estadísticamente significativas vs relevancia clínica. Rev CES Med; 22 (1): 89-96. Accesible en:
www.ces.edu.co/Descargas/CES%20Diferencias%20estadisticamente%20 significativas%20Vol22N1.pdf
• Cohen J. (1990). Things I have learned (so far). American Psychologist; 45(12): 1304-1312. Traducción: Cohen J. (1992). Cosas que he aprendido (hasta ahora).
Anales de Psicología, 8, 1-2, 3-17. Accesible en: http://www.um.es/analesps/v08/02-08.pdf
• Cohen J. (1994). The earth is round (p<.05). American Psychologist; 49(12): 997-1003.
• Conover WJ. (1999). Practical Nomparametric Statistics (3rd Ed.). New York: John Wiley & Sons, Inc.
• Clark ML. (2004). Los valores de P y los intervalos de confianza. Rev Panam Salud Publica; 15(5): 293-296. Accesible en:
http://www.scielosp.org/pdf/rpsp/v15n5/21999.pdf
• Domènech JM. (1998). Comprobación de hipótesis. Pruebas de significación y pruebas de hipótesis. En Doménech JM. Métodos estadísticos en ciencias de la salud.
Unidad didáctica 6. Barcelona: Signo.
• Fisher RA. (1922). On the mathematical foundations of theoretical statistics. Philosophical transactions of the Royal Society of London; 222A: 309-368.
• Frías MD, Pascual J, García JF. (2002). La hipótesis nula y la significación práctica. Metodología de las Ciencias del Comportamiento; 181-185.
Accesible en: http://www.uv.es/garpe/C_/A_/C_A_0020.pdf
• Gardner MJ, Altman DG. (1986). Confidence intervals rather than P values: estimation rather than hypothesis testing. British Medical Journal; 292: 746-750.
Accesible en: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1339793
• Greenstein G. (2003). Clinical versus statistical significance as they relate to the efficacy of periodontal therapy. JADA; 134: 583-591.
Accesible en: http://jada.ada.org/cgi/content/full/134/5/583
• Guttman L. (1977). What is not what statistics. The Statistician 26, 81-107. Traducido al castellano: Guttman L. (1977). Malos usos en estadística, REIS; 6: 101-117.
Accesible en: www.dialnet.unirioja.es/servler/ fichero_articulo?codigo=665680&orden=80913
• Hollon SD, Flick SN. (1988). On the meaning if clinical significance. Behav Assess; 10: 197-206.
• Iraurgi I. (2000). Cuestiones metodológicas en la evaluación de programas terapéuticos. Trastornos Adictivos; 2(2): 99-113. Accesible en:
http://db2.doyma.es/pdf/182/182v2n2a10017604pdf001.pdf.
• Jacobson NS, Follette WC, Revenstorf D. (1984). Psychotherapy outcome research: Methods for reporting variability and evaluating clinical significance. Journal
of Consulting and Clinical Psychology; 15: 336-352.
• Jacobson NS, Roberts LJ, Berns SB, McGlinchey JB. (1999). Methods for defining and determining the clinical significance of treatment effects: Description,
application and alternatives. Journal of Consulting and Clinical Psychology; 67(3): 300-307.
• Kendall PC, Grove WM. (1988). Normative comparisons in therapy outcome. Behavioral Assessment; 10: 147-158.
• Kendall PC, Flannery-Schroeder EC, Ford JD. (1999).Therapy outcome research methods. En PC Kendall, JN Butcher y GN Holmbeck (eds.). Handbook of
research methods in clinical psychology. New York: Wiley and Sons.
• Killoy WJ. (2002). The clinical significance of local chemotherapies. J Clin Periodontol; Supplement 2: 22-29.
• Kingman A. (1992). Statistical vs clinical significance in product testing: can they be designed to satisfy equivalence?. J Public Health Dent; 52: 353-360.
• Kirk RE. (1996). Practical significance: a concept whose time has come. Educational and Psychological Measurement; 56: 746-759.
• Kraemer HC, Thiesman S. (1987). How Many Subjects? Statistical Power Analysis in Research. Newbury Park, CA: Sage Publications, Inc.
• Leach C. (1979). Introduction to Statistics: A Nomparametric Approach for Social Sciences. New York: John Wile y & Sons, Inc.
• LeFort SM. (1993). The statistical versus clinical significance debate. Image J Nurs Surg; 25: 57-62.
• Levy P. (1967). Substantive significance of significant differences between two groups. Psychological Bulletin, 67, 37-40.
• Lindgren BR, Wielinskyi CL, Finkelstein SM, Warwick WJ. (1993). Contrasting clinical and statistical significance within the research setting. Pediatr Pulmonol;
16: 336-340.
• McGuigan FJ. (1993). Experimental Psychology: Methods of Research (6th Ed.). New York: Prentice-Hall.
• Murphy KR, Myors B. (2004). Statistical Power Analysis. Mahwah, NJ: Lawrence Erlbaum Associates, Publishers.
• Neyman J, Pearson ES. (1928a). On the use and interpretation of certain test criteria for purposes of statistical inference (Part I). Biométrica; 20A: 175-240.
• Neyman J, Pearson ES. (1928b). On the use and interpretation of certain test criteria for purposes of statistical inference (Part II). Biométrica; 20A: 263-294.
• Pita-Fernández S, Pértega S. (2001). Significación estadística y relevancia clínica. Cad Aten Primaria, 8: 191-195.
Accesible en: http://www.fisterra.com/mbe/investiga/signi_estadi/signi_estadi.asp
• Porta M, Plasencia A, Sanz F. (1998). La calidad de la información clínica (y III): ¿estadísticamente significativo o clínicamente importante? Medicina Clínica; 90:
463-468. Accesible en: http://clon.uab.es/recursos/listatipos.asp?tipo=PDF&page=82
• Rebasa P. (2003). Entendiendo la ‘p<0,001’. Cir Esp; 73(6): 361-365. Accesible en: www.aecirujanos.es/ revisiones_cirugia/2003/Junio2.pdf
• Rodríguez-Arias E. (2005). Estadística y psicología: análisis histórico de la inferencia estadística. Perspectivas Psicológicas; 5: 96-102.
Accesible en: www.psicologiacientifica.com/publicaciones/ biblioteca/articulos/ar-rodriguez01.htm
• Shaver, W.D. (1993). Interpreting statistical significance and nonsignificance. Journal of Experimental Education; 61: 383-387.
• Siegel S. (1956). Nomparametric Statistics for the Behavioral Sciences. New York: McGraw-Hill Book Company.
• Silva-AyÇaguer LC (1997). Cultura estadística e investigación científica en el campo de la salud: Una mirada crítica. Madrid: Díaz de Santos. Accesible en:
http://books.google.com/books?id=hi7pxRZGa4C&pg=PA284&lpg=PA284&dq=What+is+not+what+statistics+Guttman+1977&source=web&ots=1x5ZR04H9S
&sig=COVIWprHlpgxr9-NoUHQJStL6Xo&hl=es&sa=X&oi=book_result&resnum= 3&ct=result#PPR11, M1
• Thompson B, Snyder PA. (1997). Statistical significance testing practices in the Journal of Experimental Education. Journal of Experimental Education; 66: 75-83.
108
View publication stats