Capítulo 4

CAPÍTULO 4
FUNDAMENTOS PSICOMÉTRICOS EN LA EVALUACIÓN PSICOLÓGICA
A sí como en las ciencias físicas la elaboración de instrumentos se deriva de Illa teoría en la que
están inmersos y de una tecnología que permite medir sus objetos de estudio, los instrumentos de
evaluación psicológica responden a una teoría de la medida; como menciona Martínez (1996), los
instrumentos de medición psicológica necesitan demostrar su utilidad y validez científica. En
psicología, la psicometría es la que garantiza que los instrumentos de medición elaborados
cuenten con las garantías científicas para su uso.
La psicometría es el conjunto de métodos, técnicas y teorías implicados en la medición de

variables psicológicas; estudia las propiedades métricas exigibles en las mediciones psicológicas y
establece las bases para que éstas se realicen de manera adecuada. El objetivo de la psicometría
es proporcionar modelos para transformar los hechos en datos con la finalidad de asignarles
valores numéricos a los sujetos, sobre la base de sus respuestas (Muñiz, 2003).
En este capítulo estudiaremos cuáles son los fundamentos psicométricos que caracterizan a la
evaluación psicológica; para tal fin, presentaremos la definición de psicometría y una breve reseña
histórica de su nacimiento; abordaremos la teoría clásica de las pruebas; expondremos las
garantías científicas que toda prueba debe poseer: confiabilidad y validez; intentaremos una
clasificación de las pruebas y, finalmente, explicaremos cuáles son los diferentes tipos de
puntuaciones que nos proporcionan las pruebas y su interpretación.
Definición y reseña histórica
En general, la psicometría trata de todo aquello relacionado con la medición psicológica; en

particular, y lo que la hace diferente de otras disciplinas psicológicas, es que se especializa en las
propiedades métricas que dichas mediciones deben poseer, independientemente del campo de
aplicación y de los instrumentos utilizados; su objetivo es proporcionar modelos matemáticos para
poder transformar los hechos en datos, con la finalidad de poderles asignar números a las
respuestas dadas por los sujetos en la evaluación realizada.
Para Muñiz (2003), el nacimiento de la teoría de las pruebas se origina con los trabajos de
Spearman, en 1904, acerca de su teoría de los dos factores de la inteligencia, y, en 1907, cuando
acuña conjuntamente con Krueger el término coeficiente de confiabilidad, para establecer así los
fundamentos de la teoría de las pruebas. El objetivo central que Spearman perseguía era
encontrar un modelo estadístico que explicase adecuadamente las puntuaciones obtenidas en las
pruebas y permitiera la estimación de los errores de medida implícitos en todo proceso de
medición. También, en 1904, Thorndike publica el libro Introduction to the Theory of Mental and
Social Measurements (Introducción a la teoría de la medición mental y la medición social).
A partir de esas publicaciones, se desarrolló una creciente actividad en el campo de la psicometría,

tanto en la teoría como en la construcción y tecnología de las pruebas (Muñiz, 2003): • En 1931,
Thurstone publica su libro “The Realibility and valididy of Tests
(Confiabilidad y validez de las pruebas). En 1936, se funda la Sociedad Psicométrica Americana,

bajo la dirección del mismo Thurstone, quien crea también la revista que publicará a partir de esa
fecha todo lo relacionado con la psicometría: Psychometrika; asimismo, en ese año, Guilford
publica su libro Psychometric Methods (Métodos psicométricos). En 1946, Stevens da a conocer su
trabajo sobre las Escalas de Medición (nominal, ordinal, de intervalo y de razón), sus propiedades
y relaciones, así como sus implicaciones en el uso de las distintas técnicas estadísticas. En 1947,
Thurstone publica su obra Análisis Factorial Múltiple, en donde desarrolla esta técnica estadística
que es utilizada ampliamente en la construcción, análisis y validación de las pruebas. En 1950,
Gulliksen publica un libro en el que expone y sintetiza todo lo realizado hasta entonces sobre la
teoría clásica de los tests: Theory of Mental Tests. En 1954, se editan las primeras
recomendaciones técnicas para el uso de las pruebas: Technical Recomendations for Psychological
Tests and Diag
nostic Techniques. Como observamos, la historia de la psicometría es muy reciente, data de

apenas hace un siglo. La primera publicación sobre las recomendaciones técnicas para el uso de las
pruebas psicológicas tiene poco más de 50 años. A partir de la segunda mitad del siglo xx, la
psicometría continúa su desarrollo y tiene un auge en los años ochenta que continúa hasta
nuestros días. En la actualidad, existen tanto publicaciones traducidas del inglés como textos en
nuestro idioma y cada día se elaboran más pruebas mientras se actualizan y revisan otras.
Entendemos así por psicometría el conjunto de modelos formales que establecen las bases para se
lleve a cabo de manera adecuada la medición de variables psicológicas, con el objetivo de
proporcionar los métodos para poder transformar los hechos en datos, mediante la asignación de
valores numéricos tanto a las respuestas dadas por los sujetos como a los estímulos presentes en
la situación de prueba, y poder interpretar esos números en función de la teoría sobre la que la
prueba descansa.
Teoría clásica de las pruebas
Reconocer que toda medida psicológica, al igual que las medidas de las ciencias físicas, contiene
un término de error, fue un gran avance para la evaluación psicológica, ya que entonces se
empieza a considerar que no basta el juicio humano para determinar los atributos psicológicos, y
que los instrumentos de evaluación psicológica deben intentar, al igual que los instrumentos de las
ciencias físicas, medir con precisión. Al respecto, Martínez (1996) considera que aunque en todas
las ciencias el conocimiento de las propiedades de los instrumentos de medida es fundamental, el
psicólogo debe poner más atención en este sentido, ya que los atributos psicológicos no pueden
medirse directamente, sino que son constructos teóricos que intentan explicar la conducta
humana, por lo que el grado en que un individuo está caracterizado por esos constructos se infiere
a partir de observaciones de su conducta. En este mismo sentido, enfatiza que el diseño de
instrumentos para medir dichos constructos psicológicos portantes problemas como: 1. No existe
una sola aproximación a la medición de un constructo que sea
universalmente aceptada; esto es, siempre existirá la posibilidad de que dos teóricos seleccionen
diferentes tipos de conducta para la definición
operativa del constructo. 2. Las medidas psicológicas se basan en muestras limitadas de conducta;
nunca
se medirá exhaustivamente la conducta, sino sólo una muestra representativa. 3. La medida

obtenida siempre tiene error; una de las principales cuestiones en psicología es estimar ese error.
Falta de escalas con origen y unidades de medida bien definidas. No siempre una puntuación de
cero significa ausencia del atributo medido. Hay problemas al interpretar las medidas de acuerdo
con la escala en la
que están medidos sus datos. 5. Los constructos psicológicos no pueden definirse aisladamente en
términos de definiciones operacionales únicamente, sino que deben establecer relaciones con
otros constructos y con otros fenómenos observables.
La teoría de las pruebas tiene que ver con el estudio de los problemas anteriores y con la
búsqueda de métodos para su solución. Mientras la evalulógica pone el acento en los contenidos
sustantivos y en la interpretación de las pruebas, la base de la teoría de las pruebas se interesa por
la adaptación de la estadística y el diseño experimental para dar solución a los problemas ya
mencionados.
Como ya vimos, la psicometría es una rama relativamente muy joven de la psicología que tuvo su
origen en 1904, con los primeros trabajos de Spearman (Martinez, 1996; Muñiz, 2003), quien,
influido por Galton y Pearson, buscaba un modelo estadístico que fundamentase las puntuaciones
de las pruebas y permitiera la estimación de los errores asociados a todo proceso de medición, por
lo que presenta así la primera formulación de la teoría de las puntuaciones verdaderas y el error
dentro de un marco correlacional y aplicada a las puntuaciones de las pruebas; a este modelo se le
conoce como Modelo Lineal Clásico de Spearman y es el que se usa en la actualidad en la teoría
clásica de las pruebas. Muñiz (2003) enfatiza que no hay que perder de vista que el objetivo
central de este modelo es la estimación de los errores de medición cuando se utilizan pruebas
para medir variables psicológicas, y que la necesidad de un modelo tal proviene del hecho
elemental de que los errores no son observables directamente. El valor que se obtiene una vez
aplicada la prueba es el valor empírico mezclado con el error cuya cuantía se desea estimar.
A partir de este sencillo modelo lineal y del conjunto de supuestos en que se basa, es posible
construir pruebas y analizar sus elementos, así como determinar su confiabilidad y validez; este
modelo se expresa como:
X = V +e En donde: X es la puntuación empírica de un sujeto V es la puntuación verdadera y e es el

término de error
La puntuación obtenida de un sujeto en una prueba (X) es igual a la puntuación verdadera (V), que
nunca se puede conocer, más el error de medición (e); mientras más confiable sea la prueba y
menor el error, la puntuación empírica se acercará más a la puntuación verdadera. Es razonable
pensar que la puntuación empírica obtenida por un sujeto no coincida con su verdadera
puntuación, ya que cuando se le aplica la prueba, se encuentra afectado por múltiples condiciones
que no se pueden controlar y que influirán en su ejecución (fatiga, hambre, sueño, preocupación,
nerviosismo, etc.).
Este modelo tiene tres supuestos y varias deducciones derivadas de él. Los tres supuestos son
(Muñiz, 2003): 1. La puntuación verdadera de un sujeto (V) es la esperanza matemática de
la empírica (E(X)]: V = E(X) La esperanza matemática sería el valor que se encontraría si se aplicara
infinitas veces el mismo instrumento al mismo sujeto. Este valor sería el promedio aritmético de
las puntuaciones obtenidas en las infinitas aplicaciones, si estimamos que cada aplicación no
afectara a las otras y que
el sujeto no cambiara en el curso de las aplicaciones. 2. No existe correlación entre las

puntuaciones verdaderas de los sujetos en
una prueba y sus respectivos errores de medida: plv, e) = 0 Esto significa que los errores, como se
esperaría, son aleatorios y no dependen del valor de la puntuación verdadera, son independientes
de ella y por lo tanto insesgados.
3. Los errores de medida de los sujetos en una prueba no se correlacionan
con sus errores de medida en otra prueba distinta: plej, ek) = 0 Si las pruebas se aplican
correctamente, los errores serán aleatorios y no habrá razones para que covaríen
sistemáticamente unos con otros, es decir, las pruebas serán independientes.
Hay varias deducciones del modelo, aquí sólo enunciaremos cuatro de las más sencillas; si el lector
quiere ver las restantes siete, puede consultar el libro de Muñiz (2003)
Deducciones del modelo: 1. El error de medida es la diferencia entre la puntuación empírica y la
verdadera. El modelo lineal establece que: X = V+e Si despejamos e, tenemos que:
e = X-V 2. La esperanza matemática de los errores de medida es cero, por lo tanto,
son errores insesgados. De la deducción anterior, tenemos que: e = X-V La esperanza matemática
del error entonces es: E(e) = E(X) - E(V) Pero como sabemos, por el supuesto 1, que V = E(X) Si
sustituimos en la ecuación anterior, tenemos que:
Ele) = V-E(V) = V-V = 0 3. La media de las puntuaciones empíricas es igual a la media de las puntua
ciones verdaderas. De acuerdo con el modelo de que X = V + e: E(X) = E(V + e) = E(V) + Ele) Pero
como ya vimos E(e) = 0, si sustituimos: E(X) = E(V) + 0 = E(V) Por lo tanto, si E(X) = E(V), entonces:
Mx = uv Las puntuaciones verdaderas no covarían con los errores, por lo tanto, los errores son
insesgados Por definición, la covariación entre V ye es: cov (V,e) = Pyeole Según el supuesto 2 del
modelo: plv, e) = 0 Sustituyendo: cov (V,e) = (0) 0,0 = 0
Los supuestos y las deducciones anteriores significan que, de acuerdo con el modelo lineal de la
teoría clásica de las pruebas, al aplicar un instrumento elaborado bajo este marco esperaríamos
teóricamente que la puntuación obtenida por un sujeto fuera igual a la puntuación verdadera, con
un margen de error aleatorio que tendería a ser cero y que no tendría ninguna relación con la
puntuación obtenida en la prueba, ni con algún otro instrumento aplicado al mismo sujeto.
A nivel empírico, si el instrumento está bien construido, esperaríamos que la puntuación obtenida
por el sujeto reflejara lo mejor posible su puntuación verdadera y el error de medición fuera
cercano a cero; de acuerdo con la teoría clásica de las pruebas, esperamos que en la medición de
atributos psicológicos, la puntuación obtenida por un sujeto en una prueba se acerque lo más
posible a su ejecución real con el mínimo posible de errores, esto es, que el instrumento sea
confiable para medir el atributo que nos interesa. Así, para poder considerar a un instrumento de
evaluación psicológica como adecuado y científico, debe contar, como los instrumentos de todas
las ciencias, con dos requisitos indispensables: la confiabilidad y la validez.
Confiabilidad
La confiabilidad no es un asunto de todo o nada, sino una cuestión de grado: es un continuo que
abarca desde la consistencia mínima de una medición a la casi perfecta repetibilidad de los
resultados; las pruebas psicológicas se encuentran en algún lugar dentro de este continuo (Muñiz,
2003).
En un sentido amplio, la confiabilidad es la exactitud, la precisión con que un instrumento mide un

objeto; en términos estrictos, la confiabilidad sería la ausencia de errores de medición; sin
embargo, en psicología, es difícil utilizar este término en la medición de atributos psicológicos,
como alternativa se utilizan sinónimos como estabilidad de la medida y consistencia interna, que
explicaremos más adelante
Como ya veíamos en el modelo lineal clásico de la teoría de las pruebas (X = V + e), el término e o
error de medición es todo aquello que, como parte de la puntuación obtenida por el sujeto en la
prueba, difiere de la puntuación verdadera; la confiabilidad será más alta mientras más bajo sea
ese término de error, ya que entonces la puntuación obtenida por el sujeto en una prueba se
acercará más a su puntuación verdadera. Pero, ¿qué es lo que hace que el error aumente o
disminuya en una medición?, ¿cuáles son las fuentes de error más comunes cuando se evalúa a
una persona?
Fuentes de error en la medición en psicología La primera fuente de error en la evaluación

psicológica es la selección de los reactivos. El autor de una prueba, una vez que elabora un
conjunto de reactivos para medir el atributo meta, debe decidirse por seleccionar una muestra de
ellos; ¿cómo elegirlos para que realmente sea representativa, para que sea equitativa en cuanto a
los diferentes rubros que su prueba tiene? Por ejemplo, si una prueba de aritmética tiene más
reactivos de sumas que de restas y un alumno estuvo ejercitándose más en sumas que en restas,
su calificación será más alta que la que hubiera obtenido si se hubiera ejercitado más en restas
que en sumas, o bien, si la prueba tuviera igual número de reactivos de ambas operaciones
aritméticas. Una prueba bien diseñada y construida, debe asegurar que la muestra de reactivos
contenga todos los tipos de contenidos que intenta medir y de manera equitativa.
Otra fuente de error es la aplicación de la prueba. Los manuales de las pruebas presentan las
condiciones estandarizadas de aplicación de la misma, así como las instrucciones que se les deben
dar a los sujetos. Sin embargo, a veces hay factores que no se pueden controlar: un espacio no
muy bien iluminado, libre de ruidos y distractores, mesa y silla cómodas, etc., así como las
condiciones físicas del que está tomando la prueba: cansancio, falta de motivación, ansiedad,
preocupación, hambre, sueño, sed y, en general, los estados emocionales; no siempre es posible
controlar estos factores y forman parte del error aleatorio de medida.
La calificación de la prueba constituye otra fuente de error. Si bien existen claves o plantillas de
corrección de las pruebas, en algunas de ellas hay reactivos cuya respuesta tiene que valorar y
calificar el evaluador; por ejemplo, en las pruebas de inteligencia, cuando existen preguntas
abiertas como: ¿qué harías si te encontraras una mochila tirada en el patio de tu escuela?, el
evaluador tiene que decidir, de acuerdo con la respuesta dada por el evaluado, si le otorga la
calificación de 0,1 o 2 puntos. Los constructores de las pruebas reducen este tipo de error al
proporcionar en los manuales de las mismas muchos ejemplos de los posibles tipos de respuesta
para que cualquier evaluador tenga más certeza en otorgar alguna puntuación.
A los tipos de errores que hemos mencionado se les conoce como errores aleatorios o errores no
sistemáticos, porque sus efectos son inconsistentes e imposibles de predecir; como su nombre lo
indica, contribuyen de manera aleatoria a la puntuación de los sujetos, a veces lo favorecen y otras
lo perjudican, por lo cual, ya que son aleatorios, al sumarse, tenderían a acercarse a cero
(puntuaciones negativas más positivas) y su efecto sobre la confiabilidad sería no significativo. Sin
embargo, existen otros errores, los sistemáticos, que son los que realmente le preocupan a los
constructores de pruebas, ya que atentan de manera significativa contra la confiabilidad del
instrumento. Un error sistemático surge cuando, por ejemplo, la prueba mide de manera
consistente algo diferente del propósito de la prueba (Gregory, 2001), como cuando un reactivo
está mal planteado, es poco claro o induce la respuesta.
La manera de minimizar los errores sistemáticos y, por lo tanto, maximizar la confiabilidad es

seguir las recomendaciones técnicas de los psicómetras para la elaboración de pruebas; no
obstante, por mucho cuidado que se tenga en la elaboración de los reactivos, el único modo de
asegurar que la prueba puede ser utilizada de una manera confiable es, una vez construida,
obtener mediante técnicas estadísticas su coeficiente de confiabilidad. En este punto hay que
agregar que para que una prueba se publique los editores exigen datos sobre su confiabilidad y
validez, de esta manera, podemos estar seguros de que las pruebas que existen en el mercado son
confiables y las podemos aplicar a los sujetos que así lo requieran, no así pruebas que se bajan de
internet o se consiguen en fotocopias. Confiabilidad como estabilidad de la medida Si midiéramos
un objeto físico, por ejemplo una mesa, con un instrumento ad hoc para medir longitudes, como
una cinta métrica graduada en centímetros y con divisiones para milímetros, el error de medición
que podríamos cometer - suponiendo que elimináramos al máximo los errores aleatorios como
colocar la cinta métrica inadecuadamente, ver la medida de lado y no de frente, mover la cinta a la
hora de registrar la medida, etc., es del orden de 0.1 a 0.4 cm a favor o en
contra: si el final de la mesa cae después de la raya que indica 50 cm, pero antes de 50.5 cm,
diríamos que esta medida podría ser 50.1, 50.2, 50.3 o 50.4 cm, según nuestra apreciación. ¿Cuál
sería la mejor medida? Si en lugar de hacer una sola medición hacemos varias -digamos 10, ya sea
por una sola persona o bien por 10 personas diferentes-, y si el instrumento utilizado es confiable,
observaríamos que estas mediciones son muy cercanas, por ejemplo: 50.3, 50.4, 50.4, 50.2, 50.3,
50.3, 50.3, 50.2, 50.3, 50.3, esto es, la medida es estable a través de las diferentes mediciones, con
un margen de variación muy pequeño (de 0.2 a 0.4 cm); si las mediciones difirieran mucho unas
con otras, entonces el instrumento no sería confiable al no haber consistencia entre las
mediciones.
La estabilidad de la medida se refiere a que al medir un atributo psicológico con un determinado

instrumento, éste será confiable si al evaluar a los mismos sujetos con el mismo instrumento o con
uno equivalente, las medidas obtenidas en la segunda aplicación son muy similares a las obtenidas
en la primera, esto es, son estables a través del tiempo, lo cual indicaría que los errores de
medición serían mínimos y, por lo tanto, la confiabilidad sería aceptable; las diferencias
encontradas entre una medición y otra se atribuirían a los errores aleatorios asociados al proceso
de medición y no al instrumento (Muñiz, 2003). Sin embargo, cuando medimos constructos
psicológicos, no esperamos un grado de error tan pequeño como cuando medimos objetos físicos.
Ya que en psicología no tenemos instrumentos como los de las ciencias físicas que miden con
tanta precisión, uno de los modos de obtener la confiabilidad de los instrumentos psicológicos es
mediante la estabilidad de la medida: si aplicamos un instrumento a una muestra determinada de
personas y lo volvemos a aplicar después de un tiempo para obtener la confiabilidad, las medidas
obtenidas entre la primera y la segunda aplicación no deben ser tan diferentes para acreditar al
instrumento como confiable. Así, para conseguir este tipo de confiabilidad existen dos técnicas:
obtención de la confiabilidad por los métodos test-retest y formas equivalentes de prueba o
pruebas paralelas. Sin embargo, cuando utilizamos un instrumento para medir un objeto físico
repetidas veces, como en el ejemplo anterior la mesa, el objeto puede medirse en varias ocasiones
sin problemas, ya que la mesa no cambia de longitud con el paso del tiempo, a diferencia de los
atributos psicológicos, donde puede haber inconsistencias atribuidas tanto a la falta de
confiabilidad del instrumento como a cambios inevitables que pudieran ocurrir en el sujeto
evaluado o en la situación de evaluación.
En la confiabilidad test-retest se aplica la prueba a una muestra y se vuelve a aplicar un tiempo

después, que puede variar entre una semana y varios meses. Teóricamente, si la prueba careciera
totalmente de errores de medición y el paso del tiempo no fuera un factor importante en el
atributo que se medirá, se esperaría que cada sujeto evaluado obtuviera exactamente la misma
puntuación. Si este fuera el caso, al utilizar el coeficiente r de Pearson, obtendríamos una gráfica
como la siguiente:
En donde al puntaje de cada sujeto en la primera aplicación (eje x) le corresponde exactamente la

misma puntuación en la segunda (eje Y). Al obtener el valor de la correlación entre ambos pares
de puntuaciones, alcanzaríamos un valor r=1, que sería la correlación perfecta.
De esta manera, el índice de confiabilidad de un instrumento de evaluación medido como

estabilidad temporal, se calcula por medio del coeficiente de Pearson, cuyos valores oscilan entre
0 -que indicaría total ausencia de confiabilidad hasta 1, que sería la confiabilidad perfecta, la cual
no existe, pero mientras más se acerque el valor de la r de Pearson a 1, más confiable es el
instrumento.
El valor de la confiabilidad indica el porcentaje de varianza en las puntuaciones obtenidas que es

explicado por la variabilidad en las puntuaciones verdaderas y en qué medida se explica por
efectos aleatorios. Por ejemplo, un valor de confiabilidad de 0.85 indicaría que la puntuación del
sujeto se explica en 85% por las puntuaciones verdaderas obtenidas y en 15% por causas no
determinadas, es decir, el instrumento es confiable en 85%.
Sin embargo, obtener la confiabilidad de esta forma tiene algunas desventajas; por ejemplo, si se
trata de una prueba de inteligencia y entre las dos aplicaciones hay una diferencia de tiempo corta
(una semana), el efecto de memoria contribuirá a que los sujetos evaluados contesten de igual
forma que la anterior, además de que la primera aplicación les pudo haber servido de práctica y
entonces obtener mejores puntajes; por otro lado, si se deja transcurrir mucho tiempo, los
inconvenientes serían los efectos de maduración y aprendizaje, que podrían elevar las
puntuaciones obtenidas en la primera aplicación. Para evitar estas amenazas que compiten con la
medición de la confiabilidad, se podría disponer de dos pruebas equivalentes o paralelas; sin
embargo, al elaborarlas nunca tendríamos la certeza de que realmente posean el mismo grado de
dificultad para medir el atributo en cuestión, además del alto costo y tiempo que implicaría
elaborar dos pruebas psicológicas. Por ello, los constructores de pruebas le dan prioridad a la
técnica testretest para obtener la confiabilidad de sus instrumentos de medición.
Confiabilidad como consistencia interna
Por otro lado, la consistencia interna se refiere a que los reactivos de un instrumento dado son
consistentes entre sí en la forma en que evalúan el atributo psicológico propuesto: los sujetos
tendrán un puntaje alto en los reactivos que tienden a medir ese atributo y saldrán bajos en los
que no lo miden. Esta forma de obtener la confiabilidad tiene la ventaja de que no es necesario
aplicar la prueba dos veces, sino que con una basta.
Hay dos formas de obtener la confiabilidad desde esta perspectiva: confiabilidad de división por
mitades y consistencia interna de los reactivos individuales. En la primera, se correlacionan los
reactivos de la mitad de la prueba con los de la otra mitad (se utiliza para tal fin la fórmula de
correlación corregida Spearman-Brown, o bien, si la puntuación de los reactivos de la prueba es
dicotomica, la fórmula Kuder-Richardson); se parte del supuesto de que ambas mitades son
equivalentes y es como si se aplicaran dos pruebas cortas equivalentes. Este tipo de confiabilidad
se utiliza en pruebas que miden habilidades intelectuales. Supongamos que los reactivos se
enlistan en la prueba en orden de dificultad creciente y se seleccionan así para correlacionar los
reactivos pares con los reactivos nones, si la correlación medida por medio de lar de Pearson es
alta, se infiere una alta confiabilidad en la prueba; sin embargo, la crítica a la obtención de la
confiabilidad por este método recae en la supuesta equivalencia de ambas mitades de la prueba,
además de que es dudosa su utilización en pruebas que miden constructos del área emocional o
no intelectual. Cronbach (1951, citado
en Gregory, 2001) acotó que para no depender de una sola división, se podría obtener la media de
los coeficientes por mitades de todas las posibles formas de dividir la prueba en dos, lo que dio
paso a la confiabilidad medida por el coeficiente Alfa de Cronbach.
En la segunda forma de obtener la confiabilidad, se mide la consistencia interna de los reactivos

individuales por medio del coeficiente Alfa de Cronbach, que se considera como la media de todas
las correlaciones que pudieran obtenerse al dividir la prueba en todas las posibles mitades. Para
que quede más claro el concepto de consistencia interna, supongamos que estamos elaborando
una prueba para medir hábitos de estudio, en donde el sujeto tiene que responder sí o no a los
siguientes reactivos:
1. ¿El lugar donde estudia es incómodo y con mucho de ruido? 2. ¿Deja sus problemas personales
cuando va a estudiar? 3. ¿A la hora de realizar un trabajo se da cuenta de que no tiene todo a la
mano? 4. ¿Subraya las ideas más importantes del texto? 5. ¿Le da pena preguntar al profesor
cuando no entiende algo en clase? 6. ¿Busca en el diccionario las palabras que no entiende cuando
está leyen
do un texto? 7. ¿Se aprende de memoria lo que no entiende? 8. ¿Sus zapatos actuales son
incómodos?
En este ejemplo, si el sujeto contesta afirmativamente los reactivos 2, 4 y 6 y negativamente los
reactivos 1, 3, 5 y 7, obtendrá la puntuación más alta; a más alta puntuación, mejores hábitos de
estudio. Aquellos sujetos que tienen puntaje alto en la prueba tenderán a responder
afirmativamente a los reactivos 2,4 y 6 y negativamente a los reactivos 1, 3, 5 y 7; mientras que los
que tienen puntaje bajo en general en toda la prueba tenderán a responder afirmativamente a los
reactivos 1, 3, 5 y 7 y negativamente a los reactivos 2, 4 y 6. Sin embargo, al dividir la prueba en
todas las mitades posibles (en este caso, todas las combinaciones posibles de ocho elementos o
reactivos tomados de cuatro en cuatro es igual a 70, por lo que los pares de mitades para
correlacionar serían 35), aquella mitad donde quede ubicado el reactivo 8 (¿sus zapatos actuales
son incómodos?), no correlacionará positivamente alto con la otra mitad, debido a que el reactivo
8 pudiera ser contestado afirmativa o negativamente, tanto por un alumno con buenos hábitos de
estudio como por aquél que no los tiene, esto es, ese reactivo es inconsistente, comparado con los
demás reactivos, para medir el atributo de interés. El coeficiente Alfa de Cronbach nos
proporcionaría, además de un índice de correlación, el conocimiento de qué reactivo es el que se
está comportando de manera inconsistente y por lo tanto produce un valor más bajo de
confiabilidad que el que se esperaría si se eliminara de la prueba.
Aclaramos que éste no es un libro de estadística - por eso no proporcionamos las fórmulas para
encontrar los diferentes coeficientes de confiabilidad - sinopara que el lector comprenda, cuando
tenga en sus manos el manual de una prueba y revise los datos sobre confiabilidad, el tipo de
coeficiente utilizado para conseguirla y cómo la obtuvo el constructor, además de interpretar el
resultado final de dicho coeficiente.
Así, podemos resumir que una prueba es confiable en sentido psicométrico si consistentemente
produce, al ser aplicada en repetidas ocasiones, la misma puntuación o una muy similar, o bien, si
los reactivos que la componen son consistentes entre sí en la forma en que miden el atributo
propuesto por la prueba; veamos ahora el significado de esa medida.
Validez
En un sentido muy general, un instrumento de medición es válido si hace aquello para lo que fue
concebido; la validez de una prueba concierne a lo que ésta mide, su eficacia y lo que podemos
inferir de los puntajes obtenidos en la prueba. Una prueba puede ser confiable sin ser válida, por
ejemplo, podemos utilizar una cinta métrica y medir en una jarra el nivel en donde se encuentra el
agua (p.ej. 10.5 cm); esta medida es confiable, pero no válida: si cambiamos el agua a otro
recipiente la medida será diferente y no podremos generalizar lo medido, no es válido medir
capacidad con un instrumento que mida longitud. Sin embargo, para que una medida sea válida,
necesita primero ser confiable; no tendría sentido hablar de validez de un instrumento de
medición si no mide el atributo de manera confiable.
El estudio de la validez de un instrumento se refiere básicamente a validar los datos

proporcionados por éste: el grado de adecuación, significación y utilidad de las inferencias
específicas que pueden derivarse a part ciones de las pruebas; como menciona Martínez (1996),
debemos tener siempre presente que lo que se valida no es el instrumento, sino la interpretación
de los datos obtenidos por medio de un procedimiento específico, las inferencias que podemos
deducir de la ejecución de un sujeto en una prueba, es decir, si la conducta mostrada en la
situación de prueba es o no un reflejo de la conducta habitual del sujeto en situaciones naturales.
La validación requiere siempre de investigaciones empíricas y el tipo de datos necesarios para ello
depende de la clase de validez que se desea establecer y del uso que se les dará a los datos
obtenidos con la aplicación de la prueba; al igual que la confiabilidad, la validez no es un asunto de
todo o nada, sino una cuestión de grado. Fundamentalmente, todos los procedimientos para
determinar la validez de una prueba conciernen a las relaciones entre la ejecución y otros hechos
observables de manera independiente acerca de las características de la conducta que se estudia.
Los tipos de validez que los Standards of the American Psychological Association han establecido,
según el tipo de prueba y el uso al que esté destinada, son (Anastasi, 1988): validez de constructo,
validez de criterio y validez de contenido; a continuación, se describen cada una de ellas.
Validez de constructo En la medida en que alguna variable es abstracta, hablamos de ella como un
constructo. Una variable así es literalmente un constructo, pues es algo que no existe como
dimensión de conducta observable; cada constructo se desarrolla para explicar y organizar
consistencias de respuestas observadas (por ejemplo, inteligencia o personalidad). La validez de
constructo es la extensión en la cual la prueba dice medir un constructo o rasgo teórico y requiere
la acu dual de información de diferentes fuentes; cualquier dato que arroje luz sobre la naturaleza
del constructo bajo consideración y de las condiciones que afectan su desarrollo y sus
manifestaciones representa una evidencia apropiada para este tipo de validación (Martínez, 1996).
La validez de constructo se basa en el significado psicológico del puntaje de una prueba y en la

explicación teórica de la ejecución del sujeto. Cuando se indaga la validez de los constructos de las
pruebas psicológicas, se intenta saber qué propiedades psicológicas o de otra índole pueden
explicar la varianza de esas pruebas, es decir, explicar las diferencias individuales observadas en
las puntuaciones del instrumento; así, no se trata sólo de validar la prueba, sino que se valida
también la teoría sobre la cual ésta descansa (Kirsch y Guthrie, 1980). Puesto que la medición de
constructos es una parte vital de la evaluación psicológica, ¿cómo se establecen y validan esas
medidas? En el proceso, hay tres aspectos principales: 1) especificación del dominio de las
conductas observables, terminar hasta qué punto todas o algunas de esas conductas se
correlacionan entre sí y 3) precisar si una, algunas o todas las medidas de tales conductas actúan
como si midieran el constructo (Nunnally, 1973).
La prueba suficiente de la validez de constructo es que las medidas del constructo se comporten
como se espera. Por ejemplo, si se supone que una prueba determinada mide el constructo
“ansiedad”, el sentido común sugiere que los puntajes mayores en esta prueba, que indicarían
mayor ansiedad, se encontrarían en el caso de pacientes clasificados como "neuróticos ansiosos”
con mayor probabilidad que en pacientes no clasificados como tales; en sujetos de un
experimento a quienes se les amenaza con un shock eléctrico y no en el caso de aquellos a quienes
no se les amenaza; en estudiantes de licenciatura antes de tomar un examen final oral de alguna
materia más que a esos mismos estudiantes una vez que han pasado su examen. Otro ejemplo: si
se establece que una determinada prueba mide el constructo "inteligencia", se esperaría que se
correlacionara por lo menos moderadamente con las calificaciones escolares, las consideraciones
acerca de la inteligencia hechas por profesores y con los niveles de realización profesional. Así
sucede con todos los constructos: se esperan ciertas relaciones con otras variables. Para obtener
un indice numérico de la validez de constructo se utiliza también lar de Pearson, que relaciona los
valores obtenidos en la prueba con medidas que se supone teóricamente se correlacionan con el
constructo (como la inteligencia y las calificaciones escolares), o bien, con otra prueba que mida el
mismo constructo y que ya esté validada. En resumen, el propósito de la validez de constructo es
el de validar la teoría subyacente al sistema de evaluación y a la medida misma. Los constructos
son los que determinan qué conductas han de seleccionarse para su observación y la situación en
la que ésta será aplicada. Un instrumento de medida estará ligado sistema de constructos dentro
del que fue construido;este tipo de validez nos indicará el grado en que el instrumento de
evaluación es una medida adecuada del constructo y en qué grado o alcance también las hipótesis
derivadas del mismo pueden confirmarse mediante la utilización del instrumento en cuestión.
Validez referida al criterio La validez referida al criterio o predictiva es aquella que se utiliza para
estimar a futuro una conducta, a la que se llama criterio; una vez determinado el criterio, se
elaboran los reactivos que estarán correlacionados con él. Para obtener el valor de la validez del
criterio, se correlacionan los puntajes de la prueba con los puntajes de la variable criterio.
La validez referida al criterio valora el grado en el que un instrumento de evaluación puede

utilizarse para estimar la conducta de una persona en una situación concurrente con la aplicación
de la prueba (validez de criterio), como asignar un diagnóstico clínico, tal como esquizofrenia,
hipocondriasis, trastorno obsesivo-compulsivo, o bien, estimar su conducta en situaciones futuras
(validez predictiva), como pudieran ser sus aptitudes para el aprendizaje, preferencias
vocacionales, asignación o selección de personal. Así, se compara la ejecución de los sujetos en la
prueba con un criterio, que es una medida directa e independiente de lo que la prueba predice
(Martínez, 1996); se correlacionan los puntajes obtenidos en una prueba (p.ej. Ia Batería de
aptitudes para el aprendizaje escolar, que se aplica al finalizar la educación preescolar y que
predice si el alumno tendrá éxito para aprender a leer y escribir y para la aritmética básica al
finalizar el primer año de primaria) con las puntuaciones a futuro que se obtendrán en otra prueba
o con un hecho a futuro (p. ej., los exámenes finales del curso de primer año o las calificaciones
finales). En este tipo de validez, lo más importante es la capacidad predictiva de la prueba.
En resumen, la validez referida al criterio se caracteriza por la predicción relacionada con un

criterio externo y porque recurre a la comprobación del instrumento de medición, ya sea en el
momento presente o en el futuro, y lo compara con un resultado o medida.
Validez de contenido Para algunos instrumentos, la validez depende primordialmente de la

suficiencia con que se muestrea un dominio específico de contenido; la prueba debe ser una
medida adecuada de lo que evalúa. La validez de contenido es la representatividad o adecuación
muestral del contenido del instrumento de medición, es decir, es una clara descripción del
dominio de conductas de interés (Linehan, 1980).
Toda propiedad psicológica posee un universo teórico de contenido constituido por todo aquello
que se puede afirmar u observar acerca de ella. La validez de contenido está dada por la pregunta:
¿la sustancia o contenido de este instrumento de medición es representativa del contenido o del
universo de contenido de la propiedad que se va a medir? (Martínez, 1996).
La validez de contenido incluye esencialmente el examen sistemático del contenido de la prueba

para determinar si cubre una muestra representativa del dominio de conductas que se medirán; lo
que interesa en este tipo de validez es si las respuestas dadas a los reactivos de estímulo y las
condiciones bajo las cuales la conducta es observada representan a todos aquellos conjuntos de
estímulos, respuestas y condiciones, a los cuales se interesa generalizar. La validez de contenido
tiene como objetivo demostrar que los reactivos de la prueba son una muestra representativa de
un universo y asegurar un muestreo cuidadoso de un dominio de contenido relevante. Al respecto,
Martínez (1996) menciona que existen dos aspectos importantes y complementarios de la validez
de contenido que deben ser tomados en cuenta en la construcción de instrumentos: 1) que el
instrumento no incluya aspectos irrelevantes de la conducta de interés y 2) que el instrumento
contenga todos los aspectos importantes que definen el dominio conductual.
La validez de contenido es el grado en que un conjunto de reactivos representa adecuadamente

un dominio o universo de conductas. El contenido de la prueba es una muestra representativa de
la clase de situaciones o problemas sobre los que se extraerán las conclusiones, lo cual garantiza
que los resultados del sujeto en la prueba se pueden generalizar al universo de contenido que la
prueba representa, por ejemplo, rendimiento escolar, hábitos de estudio, errores de tipo disléxico,
ansiedad, habilidades sociales.
Hoste (1981) menciona que no existe un modo aceptable para cuantificar la validez de contenido
y, por lo tanto, no puede ser expresada como un coeficiente de validez, por lo que se determina
por medio de procedimientos racionales en vez de empíricos, con un examen cuidadoso de los
procedimientos de construcción de la prueba. Por lo general, se utiliza la técnica de “jueceo", en
donde jueces competentes en el atributo que se pretende medir y en el objetivo de la prueba,
ponderan el contenido de los reactivos (Kerlinger, 1975).
Al igual que en el rubro de confiabilidad, es preciso aclarar que este texto no pretende que el
lector elabore una prueba y sepa cómo obtener la confiabilidad y la validez, sino que, una vez que
seleccione una prueba para aplicarla a algún paciente, se cerciore de que tiene datos de
confiabilidad y validez, y conozca qué tipo de inferencias podrá obtener de los resultados. A
continuación, esbozaremos de manera breve un intento de clasificación de las pruebas
psicológicas.
Clasificación de las pruebas psicológicas
No todos los instrumentos de evaluación psicológica son iguales; podemos clasificarlos según su
interpretación, forma de comparación, finalidad, modo de aplicación, forma de aplicación y área
del comportamiento que miden. De acuerdo con la interpretación, las pruebas se dividen en
objetivas y subjetivas. Las pruebas objetivas nos proporcionan tablas y medidas de comparación
de la ejecución de los sujetos y nos permiten interpretar los resultados de una manera clara,
objetiva, sin ambigüedades ni el juicio del evaluador. Así, los resultados de la ejecución de un
sujeto en una prueba serían interpretados de la misma manera por dos evaluadores diferentes, la
interpretación de su ejecución sería igual, independientemente del evaluador (p.ej., Prueba de
Inteligencia WISC-RM, Prueba de Personalidad 16PF, Prueba MMPI, Prueba de percepción viso
espacial de FROSTIG).
Por otro lado, las pruebas subjetivas o proyectivas son aquellas en las que la interpretación de la
ejecución del evaluado descansa en los juicios del evaluador, que a su vez dependen de la teoría
sobre la que la prueba se sustenta. Aunque hay líneas generales de interpretación, los resultados
de un mismo sujeto podrían ser interpretados de diferente manera por distintos evaluadores
(p.ej., Prueba de las Manchas de Tinta de Rorschach, Prueba del Dibujo de la Figura Humana,
Prueba de la Casa, el Árbol y la Persona). Este tipo de pruebas no se construyen de acuerdo con los
principios psicométricos ya revisados, por lo que no muestran datos ni de confiabilidad ni de
validez, y la mayoría de ellas no convierte las respuestas de los sujetos en datos o números, es
decir, no mide, sólo interpreta de manera cualitativa las respuestas de los evaluados (por lo
general, en el área clínica).
Las pruebas objetivas, por la forma de comparación, pueden ser referidas a la norma o al criterio.
En las pruebas referidas a la norma, la ejecución de un sujeto se compara con la ejecución de un
grupo o de una población, es decir, con un grupo normativo. Por ejemplo, si al aplicar una prueba
de inteligencia a un niño de 7 años, éste obtiene un Cl de 85, un percentil de 25 y una edad escalar
de 6:4, significa que, comparado con la población de niños de 7 años, su Cl se encuentra por
debajo de la norma esperada para su edad -que debería estar entre 90 y 110que su ejecución en
esta prueba se encontró por abajo de 75% de los niños de su edad y que su ejecución en este
atributo es comparable a la de un niño de 6 años 4 meses, esto es, 8 meses por debajo de su edad
cronológica.
En las pruebas referidas al criterio, la ejecución de cada individuo se compara con un criterio no
normativo, arbitrario, determinado de antemano, para observar qué tanto se aleja o se acerca del
criterio establecido, criterio que, si bien es arbitrario en el sentido de que no es normativo, se basa
en la experiencia y en cuestiones teóricas. Por ejemplo, un profesor puede determinar que para
acreditar su materia los alumnos deben poseer un mínimo de conocimientos que equivale a siete
de calificación; al trabajar con un niño con síndrome de Down, se puede establecer como criterio
para pasar a un siguiente objetivo de lenguaje que debe obtener 75% de respuestas correctas en
una prueba de lenguaje; al evaluar a un niño con el IDETID-LEA (instrumento para detectar errores
de tipo disléxico), se determinaría qué tipo de errores comete en copia, lectura y dictado, y en qué
universos de generalización se presentan. Así, en la evaluación de estos casos, se determinaría si
alcanzan el criterio señalado, y si no, qué tan lejos se encuentran de él para iniciar o seguir
trabajando en la consecución del objetivo.
Por su finalidad, las pruebas pueden ser utilizadas para la detección, investigación, diagnóstico,
selección, predicción, planeación de un tratamiento, intervención, valoración del cambio, etc.
Independientemente del objetivo de su aplicación, la finalidad última de toda aplicación de
pruebas es la toma de decisiones. El objetivo perseguido en la aplicación de una prueba lo
establece el evaluador, de acuerdo con sus intereses o con los de los clientes que acuden a
solicitar sus servicios.
Por su modo de aplicación, las pruebas pueden ser de lápiz y papel, orales, de manipulación o
ejecución, o mixtas y computarizadas. Por su forma de aplicación, pueden ser individuales,
colectivas y mixtas. Los manuales de las pruebas explican las instrucciones de aplicación, las
cuales, a menos que se indique otra cosa, deben seguirse rigurosamente al pie de la letra para
obtener resultados confiables; asimismo, aclaran si las pruebas se aplican sólo de manera
individual (como en el caso de algunas de inteligencia), si pueden ponerse de manera colectiva y
con qué restricciones, o bien, de ambas formas.
Finalmente, por los atributos que evalúan, pueden ser clasificadas, arbitrariamente, en pruebas
del área educativo-intelectual (inteligencia, rendimiento, aptitudes, percepción, desarrollo
psicológico, aptitudes para el aprendizaje, memoria, lectoescritura, hábitos de estudio, lenguaje);
pruebas del área clínica (personalidad, depresión, motivación, ansiedad, habilidades sociales,
adaptación, trastorno por déficit de atención, autoconcepto, socialización, autocontrol
afrontamiento, asertividad) y pruebas del área de selección y orientación vocacional (aptitudes
vocacionales, preferencias e intereses profesionales y vocacio nales, valores). En el siguiente
volumen de esta obra, se revisarán las prueb psicológicas objetivas que se encuentran
actualmente en el mercado en México, donde se podrán observar las características antes
mencionadas.
Normas de puntuación
Una vez que hemos elegido una prueba o seleccionado una batería de pruebas, de acuerdo con el
objetivo que persigamos con su aplicación, debemos de tener en cuenta el tipo de puntuaciones
que proporciona dicha prueba, y que son las que van a regir la interpretación. Las pruebas
psicológicas referidas a la norma nos pueden proporcionar las siguientes puntuaciones derivadas:
típicas o z, decatipos, eneatipos, percentiles y, en algunos casos, edades escalares, que son las
puntuaciones en las que se transforman las obtenidas directamente de la apli cación de la prueba,
a las que también se les llama puntuaciones naturales, crudas o brutas; en las pruebas referidas al
criterio, se trabaja con las puntuaciones obtenidas directamente o naturales y, a lo más, se les
convierte en porcentajes.
En las pruebas referidas a la norma existen tres conceptos clave relacionados con las puntuaciones
derivadas: normalización, estandarización y baremación. La normalización se presenta cuando, al
aplicar la prueba a la población meta o, más bien, a la muestra seleccionada de la población meta
para obtener las puntuaciones normativas, la distribución de estas puntuaciones sigue una curva
normal; aunque en sentido estricto no sea perfectamente una curva normal, si el error es mínimo,
se ajustan los datos de la distribución obtenida a una curva normal.
La estandarización es el proceso mediante el cual se aplica una prueba a la población meta (en
este caso es una muestra representativa de un país). Para que la muestra sea representativa, debe
ser lo suficientemente grande (de acuerdo con el nivel de confianza determinado) y elegir a los
participantes en forma totalmente aleatoria y por estratos de la población (se considera así que
una prueba está estandarizada en México, en Estados Unidos, en Puerto Rico, etc.).
Llevar a cabo una estandarización es muy costoso. Por ejemplo, si quisiéramos estandarizar una
prueba para niños escolarizados de 6 a 10 años de edad en México, tendríamos primero que saber
cuántos niños de esas edades hay en el país (supongamos que 30 millones); después, elegir con
qué nivel de confianza queremos que nuestra muestra represente a toda la población (por
ejemplo, 65%, que es un nivel bajo si tomamos en cuenta que la población es muy grande, pero un
nivel de confianza más alto aumentaría considerablemente el tamaño de la muestra, lo que a su
vez aumentaría los costos de la estandarización), lo cual nos diría cuántos niños deberán estar
incluidos en la muestra (supongamos que 5 000); a continuación, determinaríamos entonces que
debemos tener 1000 niños por cada grupo de edad (para que sea el mismo número de niños por
edad evaluada), o bien, el número adecuado de los diferentes estratos de la población de esas
edades (6, 7, 8, 9 y 10 años); en seguida, la cuestión está en saber cuántos niños de esas edades se
elegirán en cada uno de los 32 Estados que conforman México, para que sea una muestra
estratificada; una vez hecho lo anterior, tendríamos que contar con un listado de los niños
escolarizados en cada Estado para hacer una selección aleatoria. Supongamos que en el D. F.
deberíamos tener 300 niños por grupo de edad, entonces tendríamos que elegir a esos 300 niños
de manera totalmente aleatoria de todas las delegaciones que conforman el DF y, una vez hecho
esto, localizar a cada niño y aplicarle la prueba que queremos estandarizar, lo cual también
representa un gasto mayor, porque esto mismo tendríamos que hacerlo también en cada uno de
los 31 Estados restantes, además de pagar gastos al personal que va aplicar las pruebas,
entrenarlos, etc. ¿Se da cuenta el lector por qué es tan caro estandarizar una prueb
Debido a que estandarizar una prueba es muy costoso y, por lo tanto, la mayoría de las veces no es
posible realizarla, se habla entonces de un proceso de baremación, en donde las puntuaciones
normativas se obtienen de una muestra lo más representativa posible -según los recursos
disponibles- de una determinada población, que puede ser tan pequeña como un salón de clases,
o tan grande como un país; se habla entonces de que una prueba está baremada en España, en la
Zona Metropolitana de la Ciudad de México, en la UNAM, en la FES Iztacala, en la Escuela Primaria
"Benito Juárez", en el 40. grado “A” de la Escuela “Benito Juárez", etc. Los manuales de las pruebas
baremadas especifican cuántos sujetos conformaron la muestra y cómo fueron seleccionados.
Exponemos a continuación un ejemplo de baremación. En la Unidad de Evaluación Psicológica

Iztacala (UEPI), perteneciente a la Facultad de Estudios Superiores Iztacala, de la Universidad
Nacional Autónoma de México (UNAM), se llevó a cabo la obtención de baremos para la zona
metropolitana de la Ciudad de México, de la Batería de Aptitudes para el Aprendizaje Escolar
(BAPAE) de De la Cruz (2006). Esta prueba proporciona información útil sobre las aptitudes básicas
de los niños que ingresan a la educación primaria, amén de que es de fácil y rápida aplicación y se
aplica a infantes de seis a siete años de edad que cursan el primer grado del ciclo básico, y está
formada por cinco subpruebas: Comprensión verbal (vocabulario), Aptitud numérica (conceptos
cuantitativos y manejo de números), Relaciones espaciales, Constancia de forma y Orientación
espacial (estas tres últimas subpruebas conforman la Aptitud perceptiva y espacial). De la Cruz
parte del supuesto de que las subpruebas de la BAPAE han sido concebidas como un instrumento
que ayuda a detectar a los niños que no alcanzan, en los aspectos evaluados, un nivel básico, y
considera además que las aptitudes que aprecian estas subpruebas tienen un carácter de
adquiridas, lo cual significa que son susceptibles de desarrollo. El objetivo de la prueba es detectar
a los niños que tienen retrasos o problemas en determinados aspectos, para ayudarles a alcanzar
el nivel normal mediante estrategias educativas programadas específicamente para desarrollar
tales aspectos.
Sin embargo, a pesar de lo valioso de la BAPAE, en la UEPI nos cuestionábamos si los resultados
obtenidos al aplicar la batería en México podrían considerarse confiables, ya que la prueba fue
baremada en España; por este motivo, decidimos obtener las normas de puntuación para la zona
metropolitana de la Ciudad de México. La muestra del estudio la conformaron 1 209 niños: 643
niños (53.2%) y 566 niñas (46.8%), de 6 a 7 años de edad, que estaban cursando el primer año de
educación primaria. La muestra fue seleccionada de 45 escuelas elegidas aleatoriamente de 11 de
las 16 delegaciones políticas del Distrito Federal y de cuatro de los cinco municipios del Estado de
México que conforman la zona metropolitana de la Ciudad de México (estas delegaciones-
municipios también fueron escogidos aleatoriamente). Con base en los registros de la Secretaría
de Educación Pública, tanto del Distrito Federal como del Estado de México, de los listados de
todas las escuelas de cada delegación o municipio, se seleccionaron aleatoriamente tres escuelas:
dos del turno matutino y una del vespertino. En la muestra total, 1 010 niños fueron del turno
matutino y 199 del vespertino.
Una vez que se ha estandarizado o baremado una prueba, las puntuaciones naturales obtenidas
de la muestra de personas que va a constituir el grupo normativo se transforman en puntuaciones
derivadas. Si la distribución de las puntuaciones muestra claros indicios de seguir una distribución
normal, se utilizarán las típicas o z; si siguen una curva normal pero planocúrtica, se utilizarán los
decatipos o eneatipos; si no es cualquiera de los dos casos anteriores, se utilizarán las
puntuaciones percentiles.
Las puntuaciones típicas o z son aquellas derivadas de la curva normal. Si al aplicar una prueba a la
población elegida, la distribución de las puntuaciones obtenida por los sujetos evaluados sigue una
distribución normal, se aprovechan las propiedades de la curva normal para determinar las
puntuaciones. Como el lector recordará, en una distribución normal, la media vale 0 y la
desviación estándar 1; así, mediante una transformación lineal, se iguala la media con una
puntuación de 100 y la desviación estándar queda de 15 o 16. Este tipo de puntuaciones se
encuentran en las pruebas que miden inteligencia, desarrollo psicológico, habilidades
psicolingüísticas y percepción viso espacial.
Entre la media y una desviación estándar a la derecha y a la izquierda de la media, se encuentra

68.26% de los casos (34.13% de cada lado), entre la media y dos desviaciones estándares se
encuentra 95.46% de la población evaluada y entre la media y tres desviaciones estándares se
encuentra 99.73% de la población, por lo que 0.085% de la población se encuentra por arriba de
tres desviaciones estándares alrededor de la media y 0.085% por debajo de tres desviaciones
estándares. De esta manera, cuando se aplica una prueba psicológica en la población elegida y
sigue una distribución normal, las puntuaciones normativas para comparar posteriormente a cada
individuo evaluado con su grupo normativo son las comprendidas en el rango que queda
determinado por la puntuación media obtenida y la desviación estándar, esto es, a la puntuación
media se le suma y se le resta el valor de la desviación estándar y este será el rango considerado
como puntuación normativa, lo cual significa que se le compara con la ejecución que realiza
68.26% de la población para determinar lo adecuado o no de su comportamiento. Claro está que,
por ejemplo, si el individuo se encuentra por arriba de ese 68.26%, no sería un problema, por el
contrario, una ventaja, ya que se encontraría por arriba de la media y tendría una ejecución mejor
en inteligencia, desarrollo, lenguaje o percepción que 84% de la población; por otro lado, aquel
individuo que se encontrara por debajo de esa puntuación que obtiene 68.26% de los casos, en
realidad se encontraría por abajo de 84% de la población (abajo de 34.13% más 50% del lado
derecho de la curva normal), lo cual es un fuerte indicador de que hay un problema. Por ejemplo,
si un niño de siete años no resuelve el número de operaciones de aritmética que resuelve 84% de
niños de su edad, nos hace pensar que tiene un problema de aprovechamiento y que quizá a eso
se debe su bajo rendimiento académico.
Los decatipos y eneatipos son también puntuaciones derivadas de una distribución de curva
normal, sólo que, en lugar de tener la forma de campana de Gauss, es una curva normal
planocúrtica, es decir, aplanada, en la que en lugar de dividirse la curva en seis partes (tres a la
derecha y tres a la izquierda de la media, con un tamaño igual cada fracción a una desviación
estándar), se divide en 10 para los decatipos y en nueve para los eneatipos, por lo cual varían los
porcentajes de población que se encuentran dentro de cada porción. En los decatipos 1 y 10 se
encuentra 2.3% de la población, en los decatipos 2 y 9, 4.4%, en los decatipos 3 y 8,9.2%, en los 4 y
7, 15% y en los decatipos centrales 5 y 6, se encuentra 19.1% de la población. La interpretación
toma como norma de comparación los cuatro decatipos centrales, 4, 5, 6 y 7, que constituirían
68.2% de la población, y considera puntuaciones extremas los decatipos 1, 2 y 3 del lado izquierdo
de la curva (que representarían 15.9% de la población con puntuaciones más bajas) y los decatipos
8, 9 y 10 de la derecha (15.9% con las puntuaciones más altas).
Un ejemplo de prueba que se distribuye de esta manera es la de personalidad, elaborada por R. B.

Cattell, que incluye el cuestionario de 16 factores de personalidad o 16PF, el HSPQ, el CPQ y el
ESPQ, que evalúan la personalidad de personas mayores de 16 años, adolescentes de 12 a 16 años,
niños de 8 a 12 años y niños de 6 a 8 años, respectivamente. Al seguir las puntuaciones de esta
prueba una distribución de curva normal de decatipos, Cattell interpreta los decatipos 1, 2 y 3
como el polo negativo del factor o rasgo de personalidad que se evalúa, por ejemplo: reservado,
baja capacidad mental escolar, poca estabilidad emocional, sumisión, poco autocontrol, relajado;
en contraste con el polo positivo, que correspondería a los decatipos 8, 9 y 10: afectuoso, alta
capacidad mental escolar, emocionalmente estable y maduro, dominante, bastante autocontrol,
ansiedad; y sitúa las puntuaciones intermedias: 4, 5, 6 y 7 como poseedoras del rasgo en términos
medios, como lo posee 68.2% de la población y que lo demuestra en mayor o menor grado según
el contexto en el que se encuentre.
Figura 4-5. Distribución de curva normal de decatipos
Por otro lado, en los eneatipos, la distribución de la población es la siguiente: en los eneatipos 1 y
9 se encuentra 4% de la población; en 2 y 8, 7% de la población; en 3 y 7, 12%; en 4 y 6, 17%, y en
el eneatipo central se encuentra 20% de la población. Para fines normativos, se consideran como
puntuaciones adecuadas
a los tres eneatipos centrales 4,5 y 6, esto es, las que obtienen 54% de la población; a los
eneatipos 1, 2 y 3, como puntuaciones bajas, y a los eneatipos 7, 8 y 9, como puntuaciones altas
(respectivamente, 23% de la población). Una prueba que sigue este tipo de distribución es la de
Hábitos de Estudio de Pozar que, de acuerdo con el eneatipo obtenido, se interpreta como hábitos
de estudio adecuados, deficientes o buenos.
Sin embargo, como no es factible que toda prueba construida se distribuya normalmente al
aplicarla a la población meta, las puntuaciones que se utilizan son los percentiles (o centiles),
puntuaciones derivadas de una distribución de frecuencia acumulada y dividida en 100 partes, con
el mismo número de casos cada una (a diferencia de la curva normal, donde cada parte de la curva
tiene un porcentaje diferente de población). Algunos percentiles importantes son la mediana y los
cuartiles primero y tercero.
La mediana (el percentil 50) es el punto de una distribución de frecuencias acumulada que divide a
la población en dos partes iguales: por arriba y por debajo de la mediana se encuentra 50% de los
casos. Los cuartiles dividen la distribución de frecuencia acumulada en cuatro partes iguales, con
25% de la población cada una; así, por debajo del cuartil uno (percentil 25) se encuentra 25% de la
población que obtuvo las puntuaciones más bajas y por arriba del tercer cuartil (percentil 75), 25%
de la población con las puntuaciones más altas; el 50% de la población restante se encuentra entre
los cuartiles uno y tres.
Q=3
Figura 4-6. Distribución de frecuencia acumulada
De esta manera, si al aplicar una prueba a la población meta sus puntuaciones no se distribuyen
normalmente, entonces es conveniente elaborar una distribución de frecuencias acumuladas y
determinar los diferentes percentiles, tomando en cuenta que los percentiles de comparación
serán el 25 y el 75, ya que entre ellos se encuentra 50% de la población con puntuaciones
intermedias, es decir, la mitad de la población que se halla en medio de la distribución, y con ella
se va a comparar la ejecución de los demás evaluados. Así, si un sujeto al aplicarle una prueba de
inteligencia se encuentra en el percentil 65, quiere decir
se sitúa por arriba de 65% de la población en ese atributo y que a su vez 35% de la población tiene
una ejecución mejor que él; si se encuentra en el percentil 85 su eiecución se encuentra por arriba
de 85% de los chicos de su edad y sól abaio de 15% de la población, pero si su percentil es de 23,
entonces esto indicaría que su ejecución se encuentra por abajo de 77% de la población
normativa. Si evaluamos ansiedad, entonces encontrarse en el percentil 25 o menos no sería un
problema, pero sí encontrarse en el percentil 75 o más arriba, ya que indicaría que el sujeto
evaluado sobrepasa al 75% o más de la población en ansiedad. Las normas aceptadas
universalmente para determinar lo adecuado o no de un atributo medido son el percentil 25 y 75;
si el evaluado obtiene una puntuación percentil entre 26 y 74, se encuentra en la norma, cerca de
la norma alta de 65 a 74 y de la norma baja de 35 a 26; puntuaciones iguales o mayores a 75 serían
consideradas altas e indicarían en qué porcentaje sobrepasa el evaluado a la población en el
atributo evaluado (por ejemplo, inteligencia, que sería muy bueno pero ansiedad o depresión, que
serían problemáticos) y puntuaciones iguales o menores a 25 se considerarían bajas e indicarían al
restarse de 100 el porcentaje por abajo del cual se encuentra el evaluado en el atributo con
respecto a la población de comparación (por ejemplo, inteligencia, que sería muy baja, pero
ansiedad o depresión, que serían muy adecuados).
Por último, las edades escalares, mentales o de desarrollo que establecen algunas pruebas, sobre
todo las infantiles y algunas para adolescentes, proporcionan la edad promedio de ejecución del
evaluado en el atributo medido. Aquí se debe tener cuidado con la interpretación y no declarar
que el evaluado tiene una edad mental de X años, sino especificar que sólo es en el atributo. Por
ejemplo, si al evaluar a un niño de 7 años con una prueba de inteligencia, su Cl fue de 84, su
percentil de 20 y su edad escalar de 5:9, indicaría que se encuentra por debajo de la norma en
cuanto a inteligencia, que su ejecución lo coloca por abajo de 80% de los niños de 7 años y que su
ejecución en la prueba corresponde, en promedio, a la ejecución que tendría un niño de 5 años 9
meses, esto es, tendría un atraso aproximado en inteligencia de un año tres meses; pero de
ninguna manera indicaría que ese niño de 7 años se comporta como un niño de 5 años 9 meses en
todas las demás esferas de su vida, sino que sólo su ejecución en la prueba es la que se equipara
con esa edad.
De esta manera, si tenemos un cliente o un grupo de sujetos a quienes vamos a evaluar, en primer
lugar, después de la entrevista y de conocer el motivo de consulta, determinamos claramente un
objetivo de evaluación, seleccionamos la o las pruebas apropiadas para lograr ese objetivo y las
aplicamos y calificamos de acuerdo con el manual de la prueba. De las puntuaciones directas o
crudas obtenidas al calificar la prueba, encontramos, en las tablas de los manuales de las pruebas
utilizadas, las puntuaciones derivadas que pueden ser típicas, decatipos, eneatipos, percentiles y-o
edades escalares, con lo cual podemos hacer la interpretación de lo que significan esas
puntuaciones, lo que representan para el sujeto en los atributos evaluados y a la luz de la teoría en
la que está inmersa la prueba y el tipo de validez que tiene. El último paso es la entrega de un
reporte de evaluación, en el que plasmemos toda la información que hemos recabado. En el
siguiente capítulo expondremos una cuestión de suma importancia que debe tomarse en cuenta
desde el inicio del proceso: la ética que rige la evaluación psicológica en general y la aplicación de
pruebas en particular.

Capítulo 4

Cargado por

Copyright:

Formatos disponibles

Capítulo 4

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capítulo 4

Cargado por

Copyright:

Formatos disponibles

CAPÍTULO 4

FUNDAMENTOS PSICOMÉTRICOS EN LA EVALUACIÓN PSICOLÓGICA

La psicometría es el conjunto de métodos, técnicas y teorías implicados en la medición de

Definición y reseña histórica

En general, la psicometría trata de todo aquello relacionado con la medición psicológica; en

A partir de esas publicaciones, se desarrolló una creciente actividad en el campo de la psicometría,

(Confiabilidad y validez de las pruebas). En 1936, se funda la Sociedad Psicométrica Americana,

nostic Techniques. Como observamos, la historia de la psicometría es muy reciente, data de

Teoría clásica de las pruebas

se medirá exhaustivamente la conducta, sino sólo una muestra representativa. 3. La medida

X = V +e En donde: X es la puntuación empírica de un sujeto V es la puntuación verdadera y e es el

el sujeto no cambiara en el curso de las aplicaciones. 2. No existe correlación entre las

3. Los errores de medida de los sujetos en una prueba no se correlacionan

Deducciones del modelo: 1. El error de medida es la diferencia entre la puntuación empírica y la

verdadera. El modelo lineal establece que: X = V+e Si despejamos e, tenemos que:

e = X-V 2. La esperanza matemática de los errores de medida es cero, por lo tanto,

En un sentido amplio, la confiabilidad es la exactitud, la precisión con que un instrumento mide un

Fuentes de error en la medición en psicología La primera fuente de error en la evaluación

La manera de minimizar los errores sistemáticos y, por lo tanto, maximizar la confiabilidad es

La estabilidad de la medida se refiere a que al medir un atributo psicológico con un determinado

En la confiabilidad test-retest se aplica la prueba a una muestra y se vuelve a aplicar un tiempo

En donde al puntaje de cada sujeto en la primera aplicación (eje x) le corresponde exactamente la

De esta manera, el índice de confiabilidad de un instrumento de evaluación medido como

El valor de la confiabilidad indica el porcentaje de varianza en las puntuaciones obtenidas que es

Confiabilidad como consistencia interna

En la segunda forma de obtener la confiabilidad, se mide la consistencia interna de los reactivos

El estudio de la validez de un instrumento se refiere básicamente a validar los datos

La validez de constructo se basa en el significado psicológico del puntaje de una prueba y en la

La validez referida al criterio valora el grado en el que un instrumento de evaluación puede

En resumen, la validez referida al criterio se caracteriza por la predicción relacionada con un

Validez de contenido Para algunos instrumentos, la validez depende primordialmente de la

La validez de contenido incluye esencialmente el examen sistemático del contenido de la prueba

La validez de contenido es el grado en que un conjunto de reactivos representa adecuadamente

Clasificación de las pruebas psicológicas

Exponemos a continuación un ejemplo de baremación. En la Unidad de Evaluación Psicológica

Entre la media y una desviación estándar a la derecha y a la izquierda de la media, se encuentra

Un ejemplo de prueba que se distribuye de esta manera es la de personalidad, elaborada por R. B.

Figura 4-5. Distribución de curva normal de decatipos

También podría gustarte