Capítulo 4
Capítulo 4
Capítulo 4
A sí como en las ciencias físicas la elaboración de instrumentos se deriva de Illa teoría en la que
están inmersos y de una tecnología que permite medir sus objetos de estudio, los instrumentos de
evaluación psicológica responden a una teoría de la medida; como menciona Martínez (1996), los
instrumentos de medición psicológica necesitan demostrar su utilidad y validez científica. En
psicología, la psicometría es la que garantiza que los instrumentos de medición elaborados
cuenten con las garantías científicas para su uso.
En este capítulo estudiaremos cuáles son los fundamentos psicométricos que caracterizan a la
evaluación psicológica; para tal fin, presentaremos la definición de psicometría y una breve reseña
histórica de su nacimiento; abordaremos la teoría clásica de las pruebas; expondremos las
garantías científicas que toda prueba debe poseer: confiabilidad y validez; intentaremos una
clasificación de las pruebas y, finalmente, explicaremos cuáles son los diferentes tipos de
puntuaciones que nos proporcionan las pruebas y su interpretación.
Para Muñiz (2003), el nacimiento de la teoría de las pruebas se origina con los trabajos de
Spearman, en 1904, acerca de su teoría de los dos factores de la inteligencia, y, en 1907, cuando
acuña conjuntamente con Krueger el término coeficiente de confiabilidad, para establecer así los
fundamentos de la teoría de las pruebas. El objetivo central que Spearman perseguía era
encontrar un modelo estadístico que explicase adecuadamente las puntuaciones obtenidas en las
pruebas y permitiera la estimación de los errores de medida implícitos en todo proceso de
medición. También, en 1904, Thorndike publica el libro Introduction to the Theory of Mental and
Social Measurements (Introducción a la teoría de la medición mental y la medición social).
Entendemos así por psicometría el conjunto de modelos formales que establecen las bases para se
lleve a cabo de manera adecuada la medición de variables psicológicas, con el objetivo de
proporcionar los métodos para poder transformar los hechos en datos, mediante la asignación de
valores numéricos tanto a las respuestas dadas por los sujetos como a los estímulos presentes en
la situación de prueba, y poder interpretar esos números en función de la teoría sobre la que la
prueba descansa.
Reconocer que toda medida psicológica, al igual que las medidas de las ciencias físicas, contiene
un término de error, fue un gran avance para la evaluación psicológica, ya que entonces se
empieza a considerar que no basta el juicio humano para determinar los atributos psicológicos, y
que los instrumentos de evaluación psicológica deben intentar, al igual que los instrumentos de las
ciencias físicas, medir con precisión. Al respecto, Martínez (1996) considera que aunque en todas
las ciencias el conocimiento de las propiedades de los instrumentos de medida es fundamental, el
psicólogo debe poner más atención en este sentido, ya que los atributos psicológicos no pueden
medirse directamente, sino que son constructos teóricos que intentan explicar la conducta
humana, por lo que el grado en que un individuo está caracterizado por esos constructos se infiere
a partir de observaciones de su conducta. En este mismo sentido, enfatiza que el diseño de
instrumentos para medir dichos constructos psicológicos portantes problemas como: 1. No existe
una sola aproximación a la medición de un constructo que sea
universalmente aceptada; esto es, siempre existirá la posibilidad de que dos teóricos seleccionen
diferentes tipos de conducta para la definición
operativa del constructo. 2. Las medidas psicológicas se basan en muestras limitadas de conducta;
nunca
que están medidos sus datos. 5. Los constructos psicológicos no pueden definirse aisladamente en
términos de definiciones operacionales únicamente, sino que deben establecer relaciones con
otros constructos y con otros fenómenos observables.
La teoría de las pruebas tiene que ver con el estudio de los problemas anteriores y con la
búsqueda de métodos para su solución. Mientras la evalulógica pone el acento en los contenidos
sustantivos y en la interpretación de las pruebas, la base de la teoría de las pruebas se interesa por
la adaptación de la estadística y el diseño experimental para dar solución a los problemas ya
mencionados.
Como ya vimos, la psicometría es una rama relativamente muy joven de la psicología que tuvo su
origen en 1904, con los primeros trabajos de Spearman (Martinez, 1996; Muñiz, 2003), quien,
influido por Galton y Pearson, buscaba un modelo estadístico que fundamentase las puntuaciones
de las pruebas y permitiera la estimación de los errores asociados a todo proceso de medición, por
lo que presenta así la primera formulación de la teoría de las puntuaciones verdaderas y el error
dentro de un marco correlacional y aplicada a las puntuaciones de las pruebas; a este modelo se le
conoce como Modelo Lineal Clásico de Spearman y es el que se usa en la actualidad en la teoría
clásica de las pruebas. Muñiz (2003) enfatiza que no hay que perder de vista que el objetivo
central de este modelo es la estimación de los errores de medición cuando se utilizan pruebas
para medir variables psicológicas, y que la necesidad de un modelo tal proviene del hecho
elemental de que los errores no son observables directamente. El valor que se obtiene una vez
aplicada la prueba es el valor empírico mezclado con el error cuya cuantía se desea estimar.
A partir de este sencillo modelo lineal y del conjunto de supuestos en que se basa, es posible
construir pruebas y analizar sus elementos, así como determinar su confiabilidad y validez; este
modelo se expresa como:
La puntuación obtenida de un sujeto en una prueba (X) es igual a la puntuación verdadera (V), que
nunca se puede conocer, más el error de medición (e); mientras más confiable sea la prueba y
menor el error, la puntuación empírica se acercará más a la puntuación verdadera. Es razonable
pensar que la puntuación empírica obtenida por un sujeto no coincida con su verdadera
puntuación, ya que cuando se le aplica la prueba, se encuentra afectado por múltiples condiciones
que no se pueden controlar y que influirán en su ejecución (fatiga, hambre, sueño, preocupación,
nerviosismo, etc.).
Este modelo tiene tres supuestos y varias deducciones derivadas de él. Los tres supuestos son
(Muñiz, 2003): 1. La puntuación verdadera de un sujeto (V) es la esperanza matemática de
la empírica (E(X)]: V = E(X) La esperanza matemática sería el valor que se encontraría si se aplicara
infinitas veces el mismo instrumento al mismo sujeto. Este valor sería el promedio aritmético de
las puntuaciones obtenidas en las infinitas aplicaciones, si estimamos que cada aplicación no
afectara a las otras y que
una prueba y sus respectivos errores de medida: plv, e) = 0 Esto significa que los errores, como se
esperaría, son aleatorios y no dependen del valor de la puntuación verdadera, son independientes
de ella y por lo tanto insesgados.
con sus errores de medida en otra prueba distinta: plej, ek) = 0 Si las pruebas se aplican
correctamente, los errores serán aleatorios y no habrá razones para que covaríen
sistemáticamente unos con otros, es decir, las pruebas serán independientes.
Hay varias deducciones del modelo, aquí sólo enunciaremos cuatro de las más sencillas; si el lector
quiere ver las restantes siete, puede consultar el libro de Muñiz (2003)
son errores insesgados. De la deducción anterior, tenemos que: e = X-V La esperanza matemática
del error entonces es: E(e) = E(X) - E(V) Pero como sabemos, por el supuesto 1, que V = E(X) Si
sustituimos en la ecuación anterior, tenemos que:
Ele) = V-E(V) = V-V = 0 3. La media de las puntuaciones empíricas es igual a la media de las puntua
ciones verdaderas. De acuerdo con el modelo de que X = V + e: E(X) = E(V + e) = E(V) + Ele) Pero
como ya vimos E(e) = 0, si sustituimos: E(X) = E(V) + 0 = E(V) Por lo tanto, si E(X) = E(V), entonces:
Mx = uv Las puntuaciones verdaderas no covarían con los errores, por lo tanto, los errores son
insesgados Por definición, la covariación entre V ye es: cov (V,e) = Pyeole Según el supuesto 2 del
modelo: plv, e) = 0 Sustituyendo: cov (V,e) = (0) 0,0 = 0
Los supuestos y las deducciones anteriores significan que, de acuerdo con el modelo lineal de la
teoría clásica de las pruebas, al aplicar un instrumento elaborado bajo este marco esperaríamos
teóricamente que la puntuación obtenida por un sujeto fuera igual a la puntuación verdadera, con
un margen de error aleatorio que tendería a ser cero y que no tendría ninguna relación con la
puntuación obtenida en la prueba, ni con algún otro instrumento aplicado al mismo sujeto.
A nivel empírico, si el instrumento está bien construido, esperaríamos que la puntuación obtenida
por el sujeto reflejara lo mejor posible su puntuación verdadera y el error de medición fuera
cercano a cero; de acuerdo con la teoría clásica de las pruebas, esperamos que en la medición de
atributos psicológicos, la puntuación obtenida por un sujeto en una prueba se acerque lo más
posible a su ejecución real con el mínimo posible de errores, esto es, que el instrumento sea
confiable para medir el atributo que nos interesa. Así, para poder considerar a un instrumento de
evaluación psicológica como adecuado y científico, debe contar, como los instrumentos de todas
las ciencias, con dos requisitos indispensables: la confiabilidad y la validez.
Confiabilidad
La confiabilidad no es un asunto de todo o nada, sino una cuestión de grado: es un continuo que
abarca desde la consistencia mínima de una medición a la casi perfecta repetibilidad de los
resultados; las pruebas psicológicas se encuentran en algún lugar dentro de este continuo (Muñiz,
2003).
Como ya veíamos en el modelo lineal clásico de la teoría de las pruebas (X = V + e), el término e o
error de medición es todo aquello que, como parte de la puntuación obtenida por el sujeto en la
prueba, difiere de la puntuación verdadera; la confiabilidad será más alta mientras más bajo sea
ese término de error, ya que entonces la puntuación obtenida por el sujeto en una prueba se
acercará más a su puntuación verdadera. Pero, ¿qué es lo que hace que el error aumente o
disminuya en una medición?, ¿cuáles son las fuentes de error más comunes cuando se evalúa a
una persona?
Otra fuente de error es la aplicación de la prueba. Los manuales de las pruebas presentan las
condiciones estandarizadas de aplicación de la misma, así como las instrucciones que se les deben
dar a los sujetos. Sin embargo, a veces hay factores que no se pueden controlar: un espacio no
muy bien iluminado, libre de ruidos y distractores, mesa y silla cómodas, etc., así como las
condiciones físicas del que está tomando la prueba: cansancio, falta de motivación, ansiedad,
preocupación, hambre, sueño, sed y, en general, los estados emocionales; no siempre es posible
controlar estos factores y forman parte del error aleatorio de medida.
La calificación de la prueba constituye otra fuente de error. Si bien existen claves o plantillas de
corrección de las pruebas, en algunas de ellas hay reactivos cuya respuesta tiene que valorar y
calificar el evaluador; por ejemplo, en las pruebas de inteligencia, cuando existen preguntas
abiertas como: ¿qué harías si te encontraras una mochila tirada en el patio de tu escuela?, el
evaluador tiene que decidir, de acuerdo con la respuesta dada por el evaluado, si le otorga la
calificación de 0,1 o 2 puntos. Los constructores de las pruebas reducen este tipo de error al
proporcionar en los manuales de las mismas muchos ejemplos de los posibles tipos de respuesta
para que cualquier evaluador tenga más certeza en otorgar alguna puntuación.
A los tipos de errores que hemos mencionado se les conoce como errores aleatorios o errores no
sistemáticos, porque sus efectos son inconsistentes e imposibles de predecir; como su nombre lo
indica, contribuyen de manera aleatoria a la puntuación de los sujetos, a veces lo favorecen y otras
lo perjudican, por lo cual, ya que son aleatorios, al sumarse, tenderían a acercarse a cero
(puntuaciones negativas más positivas) y su efecto sobre la confiabilidad sería no significativo. Sin
embargo, existen otros errores, los sistemáticos, que son los que realmente le preocupan a los
constructores de pruebas, ya que atentan de manera significativa contra la confiabilidad del
instrumento. Un error sistemático surge cuando, por ejemplo, la prueba mide de manera
consistente algo diferente del propósito de la prueba (Gregory, 2001), como cuando un reactivo
está mal planteado, es poco claro o induce la respuesta.
contra: si el final de la mesa cae después de la raya que indica 50 cm, pero antes de 50.5 cm,
diríamos que esta medida podría ser 50.1, 50.2, 50.3 o 50.4 cm, según nuestra apreciación. ¿Cuál
sería la mejor medida? Si en lugar de hacer una sola medición hacemos varias -digamos 10, ya sea
por una sola persona o bien por 10 personas diferentes-, y si el instrumento utilizado es confiable,
observaríamos que estas mediciones son muy cercanas, por ejemplo: 50.3, 50.4, 50.4, 50.2, 50.3,
50.3, 50.3, 50.2, 50.3, 50.3, esto es, la medida es estable a través de las diferentes mediciones, con
un margen de variación muy pequeño (de 0.2 a 0.4 cm); si las mediciones difirieran mucho unas
con otras, entonces el instrumento no sería confiable al no haber consistencia entre las
mediciones.
Ya que en psicología no tenemos instrumentos como los de las ciencias físicas que miden con
tanta precisión, uno de los modos de obtener la confiabilidad de los instrumentos psicológicos es
mediante la estabilidad de la medida: si aplicamos un instrumento a una muestra determinada de
personas y lo volvemos a aplicar después de un tiempo para obtener la confiabilidad, las medidas
obtenidas entre la primera y la segunda aplicación no deben ser tan diferentes para acreditar al
instrumento como confiable. Así, para conseguir este tipo de confiabilidad existen dos técnicas:
obtención de la confiabilidad por los métodos test-retest y formas equivalentes de prueba o
pruebas paralelas. Sin embargo, cuando utilizamos un instrumento para medir un objeto físico
repetidas veces, como en el ejemplo anterior la mesa, el objeto puede medirse en varias ocasiones
sin problemas, ya que la mesa no cambia de longitud con el paso del tiempo, a diferencia de los
atributos psicológicos, donde puede haber inconsistencias atribuidas tanto a la falta de
confiabilidad del instrumento como a cambios inevitables que pudieran ocurrir en el sujeto
evaluado o en la situación de evaluación.
Sin embargo, obtener la confiabilidad de esta forma tiene algunas desventajas; por ejemplo, si se
trata de una prueba de inteligencia y entre las dos aplicaciones hay una diferencia de tiempo corta
(una semana), el efecto de memoria contribuirá a que los sujetos evaluados contesten de igual
forma que la anterior, además de que la primera aplicación les pudo haber servido de práctica y
entonces obtener mejores puntajes; por otro lado, si se deja transcurrir mucho tiempo, los
inconvenientes serían los efectos de maduración y aprendizaje, que podrían elevar las
puntuaciones obtenidas en la primera aplicación. Para evitar estas amenazas que compiten con la
medición de la confiabilidad, se podría disponer de dos pruebas equivalentes o paralelas; sin
embargo, al elaborarlas nunca tendríamos la certeza de que realmente posean el mismo grado de
dificultad para medir el atributo en cuestión, además del alto costo y tiempo que implicaría
elaborar dos pruebas psicológicas. Por ello, los constructores de pruebas le dan prioridad a la
técnica testretest para obtener la confiabilidad de sus instrumentos de medición.
Por otro lado, la consistencia interna se refiere a que los reactivos de un instrumento dado son
consistentes entre sí en la forma en que evalúan el atributo psicológico propuesto: los sujetos
tendrán un puntaje alto en los reactivos que tienden a medir ese atributo y saldrán bajos en los
que no lo miden. Esta forma de obtener la confiabilidad tiene la ventaja de que no es necesario
aplicar la prueba dos veces, sino que con una basta.
Hay dos formas de obtener la confiabilidad desde esta perspectiva: confiabilidad de división por
mitades y consistencia interna de los reactivos individuales. En la primera, se correlacionan los
reactivos de la mitad de la prueba con los de la otra mitad (se utiliza para tal fin la fórmula de
correlación corregida Spearman-Brown, o bien, si la puntuación de los reactivos de la prueba es
dicotomica, la fórmula Kuder-Richardson); se parte del supuesto de que ambas mitades son
equivalentes y es como si se aplicaran dos pruebas cortas equivalentes. Este tipo de confiabilidad
se utiliza en pruebas que miden habilidades intelectuales. Supongamos que los reactivos se
enlistan en la prueba en orden de dificultad creciente y se seleccionan así para correlacionar los
reactivos pares con los reactivos nones, si la correlación medida por medio de lar de Pearson es
alta, se infiere una alta confiabilidad en la prueba; sin embargo, la crítica a la obtención de la
confiabilidad por este método recae en la supuesta equivalencia de ambas mitades de la prueba,
además de que es dudosa su utilización en pruebas que miden constructos del área emocional o
no intelectual. Cronbach (1951, citado
en Gregory, 2001) acotó que para no depender de una sola división, se podría obtener la media de
los coeficientes por mitades de todas las posibles formas de dividir la prueba en dos, lo que dio
paso a la confiabilidad medida por el coeficiente Alfa de Cronbach.
1. ¿El lugar donde estudia es incómodo y con mucho de ruido? 2. ¿Deja sus problemas personales
cuando va a estudiar? 3. ¿A la hora de realizar un trabajo se da cuenta de que no tiene todo a la
mano? 4. ¿Subraya las ideas más importantes del texto? 5. ¿Le da pena preguntar al profesor
cuando no entiende algo en clase? 6. ¿Busca en el diccionario las palabras que no entiende cuando
está leyen
do un texto? 7. ¿Se aprende de memoria lo que no entiende? 8. ¿Sus zapatos actuales son
incómodos?
En este ejemplo, si el sujeto contesta afirmativamente los reactivos 2, 4 y 6 y negativamente los
reactivos 1, 3, 5 y 7, obtendrá la puntuación más alta; a más alta puntuación, mejores hábitos de
estudio. Aquellos sujetos que tienen puntaje alto en la prueba tenderán a responder
afirmativamente a los reactivos 2,4 y 6 y negativamente a los reactivos 1, 3, 5 y 7; mientras que los
que tienen puntaje bajo en general en toda la prueba tenderán a responder afirmativamente a los
reactivos 1, 3, 5 y 7 y negativamente a los reactivos 2, 4 y 6. Sin embargo, al dividir la prueba en
todas las mitades posibles (en este caso, todas las combinaciones posibles de ocho elementos o
reactivos tomados de cuatro en cuatro es igual a 70, por lo que los pares de mitades para
correlacionar serían 35), aquella mitad donde quede ubicado el reactivo 8 (¿sus zapatos actuales
son incómodos?), no correlacionará positivamente alto con la otra mitad, debido a que el reactivo
8 pudiera ser contestado afirmativa o negativamente, tanto por un alumno con buenos hábitos de
estudio como por aquél que no los tiene, esto es, ese reactivo es inconsistente, comparado con los
demás reactivos, para medir el atributo de interés. El coeficiente Alfa de Cronbach nos
proporcionaría, además de un índice de correlación, el conocimiento de qué reactivo es el que se
está comportando de manera inconsistente y por lo tanto produce un valor más bajo de
confiabilidad que el que se esperaría si se eliminara de la prueba.
Aclaramos que éste no es un libro de estadística - por eso no proporcionamos las fórmulas para
encontrar los diferentes coeficientes de confiabilidad - sinopara que el lector comprenda, cuando
tenga en sus manos el manual de una prueba y revise los datos sobre confiabilidad, el tipo de
coeficiente utilizado para conseguirla y cómo la obtuvo el constructor, además de interpretar el
resultado final de dicho coeficiente.
Así, podemos resumir que una prueba es confiable en sentido psicométrico si consistentemente
produce, al ser aplicada en repetidas ocasiones, la misma puntuación o una muy similar, o bien, si
los reactivos que la componen son consistentes entre sí en la forma en que miden el atributo
propuesto por la prueba; veamos ahora el significado de esa medida.
Validez
En un sentido muy general, un instrumento de medición es válido si hace aquello para lo que fue
concebido; la validez de una prueba concierne a lo que ésta mide, su eficacia y lo que podemos
inferir de los puntajes obtenidos en la prueba. Una prueba puede ser confiable sin ser válida, por
ejemplo, podemos utilizar una cinta métrica y medir en una jarra el nivel en donde se encuentra el
agua (p.ej. 10.5 cm); esta medida es confiable, pero no válida: si cambiamos el agua a otro
recipiente la medida será diferente y no podremos generalizar lo medido, no es válido medir
capacidad con un instrumento que mida longitud. Sin embargo, para que una medida sea válida,
necesita primero ser confiable; no tendría sentido hablar de validez de un instrumento de
medición si no mide el atributo de manera confiable.
Validez de constructo En la medida en que alguna variable es abstracta, hablamos de ella como un
constructo. Una variable así es literalmente un constructo, pues es algo que no existe como
dimensión de conducta observable; cada constructo se desarrolla para explicar y organizar
consistencias de respuestas observadas (por ejemplo, inteligencia o personalidad). La validez de
constructo es la extensión en la cual la prueba dice medir un constructo o rasgo teórico y requiere
la acu dual de información de diferentes fuentes; cualquier dato que arroje luz sobre la naturaleza
del constructo bajo consideración y de las condiciones que afectan su desarrollo y sus
manifestaciones representa una evidencia apropiada para este tipo de validación (Martínez, 1996).
La prueba suficiente de la validez de constructo es que las medidas del constructo se comporten
como se espera. Por ejemplo, si se supone que una prueba determinada mide el constructo
“ansiedad”, el sentido común sugiere que los puntajes mayores en esta prueba, que indicarían
mayor ansiedad, se encontrarían en el caso de pacientes clasificados como "neuróticos ansiosos”
con mayor probabilidad que en pacientes no clasificados como tales; en sujetos de un
experimento a quienes se les amenaza con un shock eléctrico y no en el caso de aquellos a quienes
no se les amenaza; en estudiantes de licenciatura antes de tomar un examen final oral de alguna
materia más que a esos mismos estudiantes una vez que han pasado su examen. Otro ejemplo: si
se establece que una determinada prueba mide el constructo "inteligencia", se esperaría que se
correlacionara por lo menos moderadamente con las calificaciones escolares, las consideraciones
acerca de la inteligencia hechas por profesores y con los niveles de realización profesional. Así
sucede con todos los constructos: se esperan ciertas relaciones con otras variables. Para obtener
un indice numérico de la validez de constructo se utiliza también lar de Pearson, que relaciona los
valores obtenidos en la prueba con medidas que se supone teóricamente se correlacionan con el
constructo (como la inteligencia y las calificaciones escolares), o bien, con otra prueba que mida el
mismo constructo y que ya esté validada. En resumen, el propósito de la validez de constructo es
el de validar la teoría subyacente al sistema de evaluación y a la medida misma. Los constructos
son los que determinan qué conductas han de seleccionarse para su observación y la situación en
la que ésta será aplicada. Un instrumento de medida estará ligado sistema de constructos dentro
del que fue construido;este tipo de validez nos indicará el grado en que el instrumento de
evaluación es una medida adecuada del constructo y en qué grado o alcance también las hipótesis
derivadas del mismo pueden confirmarse mediante la utilización del instrumento en cuestión.
Validez referida al criterio La validez referida al criterio o predictiva es aquella que se utiliza para
estimar a futuro una conducta, a la que se llama criterio; una vez determinado el criterio, se
elaboran los reactivos que estarán correlacionados con él. Para obtener el valor de la validez del
criterio, se correlacionan los puntajes de la prueba con los puntajes de la variable criterio.
Toda propiedad psicológica posee un universo teórico de contenido constituido por todo aquello
que se puede afirmar u observar acerca de ella. La validez de contenido está dada por la pregunta:
¿la sustancia o contenido de este instrumento de medición es representativa del contenido o del
universo de contenido de la propiedad que se va a medir? (Martínez, 1996).
Hoste (1981) menciona que no existe un modo aceptable para cuantificar la validez de contenido
y, por lo tanto, no puede ser expresada como un coeficiente de validez, por lo que se determina
por medio de procedimientos racionales en vez de empíricos, con un examen cuidadoso de los
procedimientos de construcción de la prueba. Por lo general, se utiliza la técnica de “jueceo", en
donde jueces competentes en el atributo que se pretende medir y en el objetivo de la prueba,
ponderan el contenido de los reactivos (Kerlinger, 1975).
Al igual que en el rubro de confiabilidad, es preciso aclarar que este texto no pretende que el
lector elabore una prueba y sepa cómo obtener la confiabilidad y la validez, sino que, una vez que
seleccione una prueba para aplicarla a algún paciente, se cerciore de que tiene datos de
confiabilidad y validez, y conozca qué tipo de inferencias podrá obtener de los resultados. A
continuación, esbozaremos de manera breve un intento de clasificación de las pruebas
psicológicas.
No todos los instrumentos de evaluación psicológica son iguales; podemos clasificarlos según su
interpretación, forma de comparación, finalidad, modo de aplicación, forma de aplicación y área
del comportamiento que miden. De acuerdo con la interpretación, las pruebas se dividen en
objetivas y subjetivas. Las pruebas objetivas nos proporcionan tablas y medidas de comparación
de la ejecución de los sujetos y nos permiten interpretar los resultados de una manera clara,
objetiva, sin ambigüedades ni el juicio del evaluador. Así, los resultados de la ejecución de un
sujeto en una prueba serían interpretados de la misma manera por dos evaluadores diferentes, la
interpretación de su ejecución sería igual, independientemente del evaluador (p.ej., Prueba de
Inteligencia WISC-RM, Prueba de Personalidad 16PF, Prueba MMPI, Prueba de percepción viso
espacial de FROSTIG).
Por otro lado, las pruebas subjetivas o proyectivas son aquellas en las que la interpretación de la
ejecución del evaluado descansa en los juicios del evaluador, que a su vez dependen de la teoría
sobre la que la prueba se sustenta. Aunque hay líneas generales de interpretación, los resultados
de un mismo sujeto podrían ser interpretados de diferente manera por distintos evaluadores
(p.ej., Prueba de las Manchas de Tinta de Rorschach, Prueba del Dibujo de la Figura Humana,
Prueba de la Casa, el Árbol y la Persona). Este tipo de pruebas no se construyen de acuerdo con los
principios psicométricos ya revisados, por lo que no muestran datos ni de confiabilidad ni de
validez, y la mayoría de ellas no convierte las respuestas de los sujetos en datos o números, es
decir, no mide, sólo interpreta de manera cualitativa las respuestas de los evaluados (por lo
general, en el área clínica).
Las pruebas objetivas, por la forma de comparación, pueden ser referidas a la norma o al criterio.
En las pruebas referidas a la norma, la ejecución de un sujeto se compara con la ejecución de un
grupo o de una población, es decir, con un grupo normativo. Por ejemplo, si al aplicar una prueba
de inteligencia a un niño de 7 años, éste obtiene un Cl de 85, un percentil de 25 y una edad escalar
de 6:4, significa que, comparado con la población de niños de 7 años, su Cl se encuentra por
debajo de la norma esperada para su edad -que debería estar entre 90 y 110que su ejecución en
esta prueba se encontró por abajo de 75% de los niños de su edad y que su ejecución en este
atributo es comparable a la de un niño de 6 años 4 meses, esto es, 8 meses por debajo de su edad
cronológica.
En las pruebas referidas al criterio, la ejecución de cada individuo se compara con un criterio no
normativo, arbitrario, determinado de antemano, para observar qué tanto se aleja o se acerca del
criterio establecido, criterio que, si bien es arbitrario en el sentido de que no es normativo, se basa
en la experiencia y en cuestiones teóricas. Por ejemplo, un profesor puede determinar que para
acreditar su materia los alumnos deben poseer un mínimo de conocimientos que equivale a siete
de calificación; al trabajar con un niño con síndrome de Down, se puede establecer como criterio
para pasar a un siguiente objetivo de lenguaje que debe obtener 75% de respuestas correctas en
una prueba de lenguaje; al evaluar a un niño con el IDETID-LEA (instrumento para detectar errores
de tipo disléxico), se determinaría qué tipo de errores comete en copia, lectura y dictado, y en qué
universos de generalización se presentan. Así, en la evaluación de estos casos, se determinaría si
alcanzan el criterio señalado, y si no, qué tan lejos se encuentran de él para iniciar o seguir
trabajando en la consecución del objetivo.
Por su finalidad, las pruebas pueden ser utilizadas para la detección, investigación, diagnóstico,
selección, predicción, planeación de un tratamiento, intervención, valoración del cambio, etc.
Independientemente del objetivo de su aplicación, la finalidad última de toda aplicación de
pruebas es la toma de decisiones. El objetivo perseguido en la aplicación de una prueba lo
establece el evaluador, de acuerdo con sus intereses o con los de los clientes que acuden a
solicitar sus servicios.
Por su modo de aplicación, las pruebas pueden ser de lápiz y papel, orales, de manipulación o
ejecución, o mixtas y computarizadas. Por su forma de aplicación, pueden ser individuales,
colectivas y mixtas. Los manuales de las pruebas explican las instrucciones de aplicación, las
cuales, a menos que se indique otra cosa, deben seguirse rigurosamente al pie de la letra para
obtener resultados confiables; asimismo, aclaran si las pruebas se aplican sólo de manera
individual (como en el caso de algunas de inteligencia), si pueden ponerse de manera colectiva y
con qué restricciones, o bien, de ambas formas.
Finalmente, por los atributos que evalúan, pueden ser clasificadas, arbitrariamente, en pruebas
del área educativo-intelectual (inteligencia, rendimiento, aptitudes, percepción, desarrollo
psicológico, aptitudes para el aprendizaje, memoria, lectoescritura, hábitos de estudio, lenguaje);
pruebas del área clínica (personalidad, depresión, motivación, ansiedad, habilidades sociales,
adaptación, trastorno por déficit de atención, autoconcepto, socialización, autocontrol
afrontamiento, asertividad) y pruebas del área de selección y orientación vocacional (aptitudes
vocacionales, preferencias e intereses profesionales y vocacio nales, valores). En el siguiente
volumen de esta obra, se revisarán las prueb psicológicas objetivas que se encuentran
actualmente en el mercado en México, donde se podrán observar las características antes
mencionadas.
Normas de puntuación
Una vez que hemos elegido una prueba o seleccionado una batería de pruebas, de acuerdo con el
objetivo que persigamos con su aplicación, debemos de tener en cuenta el tipo de puntuaciones
que proporciona dicha prueba, y que son las que van a regir la interpretación. Las pruebas
psicológicas referidas a la norma nos pueden proporcionar las siguientes puntuaciones derivadas:
típicas o z, decatipos, eneatipos, percentiles y, en algunos casos, edades escalares, que son las
puntuaciones en las que se transforman las obtenidas directamente de la apli cación de la prueba,
a las que también se les llama puntuaciones naturales, crudas o brutas; en las pruebas referidas al
criterio, se trabaja con las puntuaciones obtenidas directamente o naturales y, a lo más, se les
convierte en porcentajes.
En las pruebas referidas a la norma existen tres conceptos clave relacionados con las puntuaciones
derivadas: normalización, estandarización y baremación. La normalización se presenta cuando, al
aplicar la prueba a la población meta o, más bien, a la muestra seleccionada de la población meta
para obtener las puntuaciones normativas, la distribución de estas puntuaciones sigue una curva
normal; aunque en sentido estricto no sea perfectamente una curva normal, si el error es mínimo,
se ajustan los datos de la distribución obtenida a una curva normal.
La estandarización es el proceso mediante el cual se aplica una prueba a la población meta (en
este caso es una muestra representativa de un país). Para que la muestra sea representativa, debe
ser lo suficientemente grande (de acuerdo con el nivel de confianza determinado) y elegir a los
participantes en forma totalmente aleatoria y por estratos de la población (se considera así que
una prueba está estandarizada en México, en Estados Unidos, en Puerto Rico, etc.).
Llevar a cabo una estandarización es muy costoso. Por ejemplo, si quisiéramos estandarizar una
prueba para niños escolarizados de 6 a 10 años de edad en México, tendríamos primero que saber
cuántos niños de esas edades hay en el país (supongamos que 30 millones); después, elegir con
qué nivel de confianza queremos que nuestra muestra represente a toda la población (por
ejemplo, 65%, que es un nivel bajo si tomamos en cuenta que la población es muy grande, pero un
nivel de confianza más alto aumentaría considerablemente el tamaño de la muestra, lo que a su
vez aumentaría los costos de la estandarización), lo cual nos diría cuántos niños deberán estar
incluidos en la muestra (supongamos que 5 000); a continuación, determinaríamos entonces que
debemos tener 1000 niños por cada grupo de edad (para que sea el mismo número de niños por
edad evaluada), o bien, el número adecuado de los diferentes estratos de la población de esas
edades (6, 7, 8, 9 y 10 años); en seguida, la cuestión está en saber cuántos niños de esas edades se
elegirán en cada uno de los 32 Estados que conforman México, para que sea una muestra
estratificada; una vez hecho lo anterior, tendríamos que contar con un listado de los niños
escolarizados en cada Estado para hacer una selección aleatoria. Supongamos que en el D. F.
deberíamos tener 300 niños por grupo de edad, entonces tendríamos que elegir a esos 300 niños
de manera totalmente aleatoria de todas las delegaciones que conforman el DF y, una vez hecho
esto, localizar a cada niño y aplicarle la prueba que queremos estandarizar, lo cual también
representa un gasto mayor, porque esto mismo tendríamos que hacerlo también en cada uno de
los 31 Estados restantes, además de pagar gastos al personal que va aplicar las pruebas,
entrenarlos, etc. ¿Se da cuenta el lector por qué es tan caro estandarizar una prueb
Debido a que estandarizar una prueba es muy costoso y, por lo tanto, la mayoría de las veces no es
posible realizarla, se habla entonces de un proceso de baremación, en donde las puntuaciones
normativas se obtienen de una muestra lo más representativa posible -según los recursos
disponibles- de una determinada población, que puede ser tan pequeña como un salón de clases,
o tan grande como un país; se habla entonces de que una prueba está baremada en España, en la
Zona Metropolitana de la Ciudad de México, en la UNAM, en la FES Iztacala, en la Escuela Primaria
"Benito Juárez", en el 40. grado “A” de la Escuela “Benito Juárez", etc. Los manuales de las pruebas
baremadas especifican cuántos sujetos conformaron la muestra y cómo fueron seleccionados.
Sin embargo, a pesar de lo valioso de la BAPAE, en la UEPI nos cuestionábamos si los resultados
obtenidos al aplicar la batería en México podrían considerarse confiables, ya que la prueba fue
baremada en España; por este motivo, decidimos obtener las normas de puntuación para la zona
metropolitana de la Ciudad de México. La muestra del estudio la conformaron 1 209 niños: 643
niños (53.2%) y 566 niñas (46.8%), de 6 a 7 años de edad, que estaban cursando el primer año de
educación primaria. La muestra fue seleccionada de 45 escuelas elegidas aleatoriamente de 11 de
las 16 delegaciones políticas del Distrito Federal y de cuatro de los cinco municipios del Estado de
México que conforman la zona metropolitana de la Ciudad de México (estas delegaciones-
municipios también fueron escogidos aleatoriamente). Con base en los registros de la Secretaría
de Educación Pública, tanto del Distrito Federal como del Estado de México, de los listados de
todas las escuelas de cada delegación o municipio, se seleccionaron aleatoriamente tres escuelas:
dos del turno matutino y una del vespertino. En la muestra total, 1 010 niños fueron del turno
matutino y 199 del vespertino.
Una vez que se ha estandarizado o baremado una prueba, las puntuaciones naturales obtenidas
de la muestra de personas que va a constituir el grupo normativo se transforman en puntuaciones
derivadas. Si la distribución de las puntuaciones muestra claros indicios de seguir una distribución
normal, se utilizarán las típicas o z; si siguen una curva normal pero planocúrtica, se utilizarán los
decatipos o eneatipos; si no es cualquiera de los dos casos anteriores, se utilizarán las
puntuaciones percentiles.
Las puntuaciones típicas o z son aquellas derivadas de la curva normal. Si al aplicar una prueba a la
población elegida, la distribución de las puntuaciones obtenida por los sujetos evaluados sigue una
distribución normal, se aprovechan las propiedades de la curva normal para determinar las
puntuaciones. Como el lector recordará, en una distribución normal, la media vale 0 y la
desviación estándar 1; así, mediante una transformación lineal, se iguala la media con una
puntuación de 100 y la desviación estándar queda de 15 o 16. Este tipo de puntuaciones se
encuentran en las pruebas que miden inteligencia, desarrollo psicológico, habilidades
psicolingüísticas y percepción viso espacial.
Los decatipos y eneatipos son también puntuaciones derivadas de una distribución de curva
normal, sólo que, en lugar de tener la forma de campana de Gauss, es una curva normal
planocúrtica, es decir, aplanada, en la que en lugar de dividirse la curva en seis partes (tres a la
derecha y tres a la izquierda de la media, con un tamaño igual cada fracción a una desviación
estándar), se divide en 10 para los decatipos y en nueve para los eneatipos, por lo cual varían los
porcentajes de población que se encuentran dentro de cada porción. En los decatipos 1 y 10 se
encuentra 2.3% de la población, en los decatipos 2 y 9, 4.4%, en los decatipos 3 y 8,9.2%, en los 4 y
7, 15% y en los decatipos centrales 5 y 6, se encuentra 19.1% de la población. La interpretación
toma como norma de comparación los cuatro decatipos centrales, 4, 5, 6 y 7, que constituirían
68.2% de la población, y considera puntuaciones extremas los decatipos 1, 2 y 3 del lado izquierdo
de la curva (que representarían 15.9% de la población con puntuaciones más bajas) y los decatipos
8, 9 y 10 de la derecha (15.9% con las puntuaciones más altas).
Por otro lado, en los eneatipos, la distribución de la población es la siguiente: en los eneatipos 1 y
9 se encuentra 4% de la población; en 2 y 8, 7% de la población; en 3 y 7, 12%; en 4 y 6, 17%, y en
el eneatipo central se encuentra 20% de la población. Para fines normativos, se consideran como
puntuaciones adecuadas
a los tres eneatipos centrales 4,5 y 6, esto es, las que obtienen 54% de la población; a los
eneatipos 1, 2 y 3, como puntuaciones bajas, y a los eneatipos 7, 8 y 9, como puntuaciones altas
(respectivamente, 23% de la población). Una prueba que sigue este tipo de distribución es la de
Hábitos de Estudio de Pozar que, de acuerdo con el eneatipo obtenido, se interpreta como hábitos
de estudio adecuados, deficientes o buenos.
Sin embargo, como no es factible que toda prueba construida se distribuya normalmente al
aplicarla a la población meta, las puntuaciones que se utilizan son los percentiles (o centiles),
puntuaciones derivadas de una distribución de frecuencia acumulada y dividida en 100 partes, con
el mismo número de casos cada una (a diferencia de la curva normal, donde cada parte de la curva
tiene un porcentaje diferente de población). Algunos percentiles importantes son la mediana y los
cuartiles primero y tercero.
La mediana (el percentil 50) es el punto de una distribución de frecuencias acumulada que divide a
la población en dos partes iguales: por arriba y por debajo de la mediana se encuentra 50% de los
casos. Los cuartiles dividen la distribución de frecuencia acumulada en cuatro partes iguales, con
25% de la población cada una; así, por debajo del cuartil uno (percentil 25) se encuentra 25% de la
población que obtuvo las puntuaciones más bajas y por arriba del tercer cuartil (percentil 75), 25%
de la población con las puntuaciones más altas; el 50% de la población restante se encuentra entre
los cuartiles uno y tres.
Q=3
Figura 4-6. Distribución de frecuencia acumulada
De esta manera, si al aplicar una prueba a la población meta sus puntuaciones no se distribuyen
normalmente, entonces es conveniente elaborar una distribución de frecuencias acumuladas y
determinar los diferentes percentiles, tomando en cuenta que los percentiles de comparación
serán el 25 y el 75, ya que entre ellos se encuentra 50% de la población con puntuaciones
intermedias, es decir, la mitad de la población que se halla en medio de la distribución, y con ella
se va a comparar la ejecución de los demás evaluados. Así, si un sujeto al aplicarle una prueba de
inteligencia se encuentra en el percentil 65, quiere decir
se sitúa por arriba de 65% de la población en ese atributo y que a su vez 35% de la población tiene
una ejecución mejor que él; si se encuentra en el percentil 85 su eiecución se encuentra por arriba
de 85% de los chicos de su edad y sól abaio de 15% de la población, pero si su percentil es de 23,
entonces esto indicaría que su ejecución se encuentra por abajo de 77% de la población
normativa. Si evaluamos ansiedad, entonces encontrarse en el percentil 25 o menos no sería un
problema, pero sí encontrarse en el percentil 75 o más arriba, ya que indicaría que el sujeto
evaluado sobrepasa al 75% o más de la población en ansiedad. Las normas aceptadas
universalmente para determinar lo adecuado o no de un atributo medido son el percentil 25 y 75;
si el evaluado obtiene una puntuación percentil entre 26 y 74, se encuentra en la norma, cerca de
la norma alta de 65 a 74 y de la norma baja de 35 a 26; puntuaciones iguales o mayores a 75 serían
consideradas altas e indicarían en qué porcentaje sobrepasa el evaluado a la población en el
atributo evaluado (por ejemplo, inteligencia, que sería muy bueno pero ansiedad o depresión, que
serían problemáticos) y puntuaciones iguales o menores a 25 se considerarían bajas e indicarían al
restarse de 100 el porcentaje por abajo del cual se encuentra el evaluado en el atributo con
respecto a la población de comparación (por ejemplo, inteligencia, que sería muy baja, pero
ansiedad o depresión, que serían muy adecuados).
Por último, las edades escalares, mentales o de desarrollo que establecen algunas pruebas, sobre
todo las infantiles y algunas para adolescentes, proporcionan la edad promedio de ejecución del
evaluado en el atributo medido. Aquí se debe tener cuidado con la interpretación y no declarar
que el evaluado tiene una edad mental de X años, sino especificar que sólo es en el atributo. Por
ejemplo, si al evaluar a un niño de 7 años con una prueba de inteligencia, su Cl fue de 84, su
percentil de 20 y su edad escalar de 5:9, indicaría que se encuentra por debajo de la norma en
cuanto a inteligencia, que su ejecución lo coloca por abajo de 80% de los niños de 7 años y que su
ejecución en la prueba corresponde, en promedio, a la ejecución que tendría un niño de 5 años 9
meses, esto es, tendría un atraso aproximado en inteligencia de un año tres meses; pero de
ninguna manera indicaría que ese niño de 7 años se comporta como un niño de 5 años 9 meses en
todas las demás esferas de su vida, sino que sólo su ejecución en la prueba es la que se equipara
con esa edad.
De esta manera, si tenemos un cliente o un grupo de sujetos a quienes vamos a evaluar, en primer
lugar, después de la entrevista y de conocer el motivo de consulta, determinamos claramente un
objetivo de evaluación, seleccionamos la o las pruebas apropiadas para lograr ese objetivo y las
aplicamos y calificamos de acuerdo con el manual de la prueba. De las puntuaciones directas o
crudas obtenidas al calificar la prueba, encontramos, en las tablas de los manuales de las pruebas
utilizadas, las puntuaciones derivadas que pueden ser típicas, decatipos, eneatipos, percentiles y-o
edades escalares, con lo cual podemos hacer la interpretación de lo que significan esas
puntuaciones, lo que representan para el sujeto en los atributos evaluados y a la luz de la teoría en
la que está inmersa la prueba y el tipo de validez que tiene. El último paso es la entrega de un
reporte de evaluación, en el que plasmemos toda la información que hemos recabado. En el
siguiente capítulo expondremos una cuestión de suma importancia que debe tomarse en cuenta
desde el inicio del proceso: la ética que rige la evaluación psicológica en general y la aplicación de
pruebas en particular.