Cuestionario Psicometría1
Cuestionario Psicometría1
Cuestionario Psicometría1
La medición es algo difícil por el comportamiento humano y los instrumentos que se utilizan en la
disciplina.
MODELO CLASICO:
Por medición se entiende la observación de propiedades cuantitativas tales como las frecuencias o
concentraciones.
Se postula que, para ser mesurable, esas propiedades deben poseer características de una variable
cuantitativa, y para que sea cuantitativa debe tener características como: distintividad, orden,
aditividad y proporcionalidad.
Las medidas derivadas son aquellas que para ser expresadas necesitan de otras medidas
La mayoría de escalas usadas en psicología son casi siempre derivadas (no poseen un cero absoluto)
Medir significa determinar efectivamente algunos de esos valores numéricos mediante el uso de
una escala. Y, cuando la medición es indirecta debe realizarse utilizando indicadores operacionales
adecuados es decir “propiedades observables legalmente ligadas a otras inobservables:
Kline menciona que los test psicológicos no son instrumentos científicos como los que son usados
en las ciencias naturales debido a que no poseen un cero absoluto, no miden variables cuantitativas.
Medir significa utilizar el sistema numérico para representar relaciones empíricas (asignar números)
aunque no exista isomorfismo entre ambos sistemas.
La escala ordinal incluye tanto la relación de equivalencia como la de orden (mayor que o más
grande que)
*2 y 4
La distancia es la misma
*21 y 23
Existe un cero absoluto con significado empírico (el cero representa la ausencia absoluta de una
propiedad)
Posee todas las características de una escala de intervalo, pero además posee un cero absoluto o
natural en su origen.
Ej: peso
**EN PSICOLOGIA LOS RESULTADOS DE TESTS SON TRATADOS COMO DATOS DE UNA ESCALA DE
INTERVALO, AUNQUE PROVENGAN DE ESCALAS ORDINALES**
Estándar optimo,
MODELO CLÁSICO pero no alcanzable
en la actualidad
Una solución de
MODELO REPRESENTACIONAL compromiso más
factible actualmente
PSICOMETRIA Y TESTS PSICOLOGICOS
**Es la ciencia que se encarga del estudio de la teoría y la técnica de la medición psicológica**
DEFICIENCIA
CRITERIO
CONCEPTUAL Lo que yo quiero medir
CONTAMINACIÓN
RESEÑA HISTORICA
El empleo de los tests psicológicos se inicio en Europa a finales del siglo XIX.
La década de 1950 es considerada como una fase “madura” de la teoría de los tests.
-Dura 12 min
-Para procesos de selección de personal. Se elaboraron baremos (tabla de medición) para distintas
profesiones.
Ubicación o clasificación: para ubicar y clasificar se necesita información para predecir información
de cuanto aprenderá el individuo (medición de aptitudes, intereses o aprovechamiento)
**Existen varios factores como: baja motivación, trastornos emocionales, escolaridad inadecuada,
antecedentes culturales (factores que influyen en una evaluación)
Los hechos reales deben ser tomados en cuenta, así como el sistema de valores.
Los procedimientos de evaluación no toman las decisiones, sino que son las personas quienes lo
hacen. Lo más que pueden hacer los procedimientos de medición es ofrecer información relevante
para tomar la decisión.
La medición también es importante para proveer la información que guíe las decisiones teóricas.
La medición es fundamental para contestar prácticamente todas las preguntas que formula la
ciencia y no sólo las ciencias físicas, sino también las biológicas y las sociales.
El tipo de prueba de habilidad que describe lo que una persona ha aprendido a hacer se lIama prueba
de aprovechamiento.
Las pruebas que conciernen al dominio de habilidades tan definidas se suelen llamar pruebas
referidas al contenido o pruebas referidas al criterio, porque el enfoque se centra exclusivamente
en lograr un estándar de ejecución de una habilidad específica a la que se pretende medir por medio
de los ejercicios de una prueba.
prueba referida a la normal porque la norma para un desempeño aceptable se fija por medio de la
comparación con otro grupo. Una prueba referida a la norma se puede usar apropiadamente para
toma de decisiones en el curriculum de una profesión, en orientación vocacional y en investigación
Algunas decisiones que necesitamos tomar requieren tener información acerca de lo que una
persona puede aprender a hacer
Una prueba que se usa como predictor de alguna ejecución futura recibe el nombre de prueba de
aptitud.
Algunas decisiones requieren la información de lo que a una persona le gusta hacer. En estos casos
tratamos con la evaluación de intereses o de valores.
Finalmente, algunas decisiones, sobre todo aquellas que se relacionan con el entendimiento de la
conducta humana, requieren medidas de estados innatos y de rasgos de los individuos. Éstos son
los constructos, es decir, los atributos de los individuos que construimos expresamente para
ayudamos a explicar o teorizar acerca de su conducta. Expresiones como angustia, introversión,
dependencia de campo, autoritarismos y muchas otras
¿De dónde proviene la evidencia por medio de la cual podemos evaluar las características de una
persona? Las fuentes. se dividen en dos tipos principales:
-A partir de las interacciones formamos impresiones de la persona observada, las cuales suelen ser
burdas y asistemáticas, pero están basadas en un amplio rango de situaciones de la vida diaria
Los inventarios de autorreporte son especialmente importantes para evaluar intereses, actitudes,
valores y características del temperamento y ajuste emocional.
-Las situaciones de "prueba" artificiales no están limitadas a las que se presentan en un folleto de
pruebas en un salón de clases o en un lugar semejante. La prueba puede requerir que los individuos
demuestren poseer alguna habilidad, por ejemplo, mediante una prueba de mecanografía; también
se les puede poner en alguna situación interpersonal con una determinada tarea que se realice en
grupo; o bien se les puede proporcionar herramientas y un televisor descompuesto y pedirles que
localicen y corrijan la falla.
Tienen una función relevante para evaluar las habilidades de ejecución que son importantes tanto
en los aspectos educativos como en la vida misma.
b) Determinación del conjunto de operaciones por medio de las cuales se puede manifestar y
percibir ese atributo.
Comprender cada una de estas etapas y las dificultades que presentan permitirá contar con bases
sólidas para entender los procedimientos y problemas de la medición en la psicología y la educación.
Nunca medimos una cosa o una persona. Las mediciones que hacemos siempre son de las cualidades
o los atributos de las cosas o personas; por ejemplo, medimos la longitud de una mesa, la
temperatura de un horno, la durabilidad de una llanta de automóvil, el sabor de un cigarrillo, la
inteligencia de un niño, la madurez emocional de un adolescente.
El segundo aspecto de la medición es encontrar o crear una serie de operaciones que aíslen el
atributo en el que se está interesado y que así se nos muestre con claridad
La definición de un atributo interactúa con las operaciones que lo provocan. Por un lado, la
definición que hemos fijado determina lo que aceptaremos como operaciones relevantes y
razonables. (definición de un atributo → definición operacional)
*Evaluación referida al criterio: no se compara con un grupo (es cuando alguien se le ocurre
establecer una variable estandarizada arbitraria)
CUALIDADES:
*Un dominio o campo conductual es una agrupación hipotética de todos los reactivos posibles que
cubren un área psicológica particular → se emplean términos de dominio, universo o población
conductual como sinónimos**
*el grado en que una medición se relaciona consistentemente con otras mediciones de acuerdo con
hipótesis y que conciernen a los conceptos.
*se establece la validez comparándolo con algún criterio externo. Criterio estándar con el que se
juzga la validez de un instrumento.
-Fiabilidad → factores que se mantienen constantes (precisión con que el test mide lo que
mide); (test-retest: 2 veces el mismo test, método por mitades emparejadas: 1 sola vez y se califica
por separado ítems pares e impares)
r2→coeficiente de predeterminación: nos dice la proporción de una variable que podemos predecir
en base a otra. (sirve para saber cuánto yo puedo predecir)
**la confiabilidad se expresa a través de: 1) coeficiente de confiabilidad (valores de 0-1) mientras
más cerca de 1, más confiable será la prueba; 2) error estándar de medición (EEM)→ se estima el
intervalo probable de puntajes n el cual se encontrara el puntaje verdadero de un sujeto examinado
con un test psicometrico.**
**Existen 4 métodos básicos para obtener el coeficiente de confiabilidad: Método de las formas
equivalentes: 2 formas equivalentes o paralelas del test al mismo grupo de individuos. Método del
test-retest: aplica 2 veces el mismo test a una misma muestra de individuos. Método de la división
por mitades emparejadas: aplica el test 1 sola vez a una muestra, se califica por separado los ítems
pares e impares. Método de la equivalencia racional: considera que si un test esta formado por un
conjunto de ítems estos pueden ser considerados como un conjunto de tests paralelos.**
A) METODOS INTRAPRUEBAS:
Fuentes de evidencia mas usadas son: validez de contenido, análisis de los procesos
psicológicos empleados al responderla (ej: pidiendo que los sujetos razonen en voz alta sus
respuestas); también mediante el establecimiento de la homogeneidad a través del
coeficiente alfa de Cronbach o coeficientes de Kuder-Richardson (que contribuyen a evaluar
la unidimensionalidad del test)
B) METODOS INTERPRUEBAS:
Utiliza técnicas de análisis factorial, la validez congruente, los estudios de validez
convergente y divergente discriminante (propuestos por Campbell)
C) EL METODO DE LOS ESTUDIOS RELACIONADOS CON LOS CRITERIOS:
Implica la diferenciación de grupos y los coeficientes de validez.
D) EL METODO DE LA MANIPULACION EXPERIMENTAL:
Se manipula experimentalmente una variable y se observa sus efectos sobre los puntajes de
una prueba psicológica o la relacion de esos puntajes con algún criterio.
E) EL METODO DE LOS ESTUDIOS DE LA CAPACIDAD DE LA GENERALIZACION:
F) Analizan sistemáticamente la prueba psicológica en una amplia gama de dimensiones o en
condiciones diferentes de administración.
CLASIFICACIÓN GENERAL DE LOS TESTS DE ACUERDO A ALGUNOS CRITERIOS (MENESES,2014)
-Criterio: es cualquier desempeño que los sujetos tienen en la vida real, por ej: las medidas de
rendimiento académico, laboral, clasificaicones psiquiátricas, etc.
**se refiere al significado que se les da a los puntajes obtenidos por un grupo de sujetos,
estableciendo una clasificación de acuerdo a la conversión de sus puntajes directos en puntajes
percentiles, eneatipos (1-9) o decatipos (1-10)
**es empleado como instrumento auxiliar para una mejor toma de decisiones: en la selección,
clasificación, diagnostico, investigación y evaluación de un determinado grupo de personas.
**Los tests se utilizan para medir atributos o características psicológicas del ser humano.
**primer test psicométrico fue la escala métrica de la inteligencia creada por Binet y Simon en 1905,
con la que se introdujo el concepto de edad mental.
TEST PSICOMETRICOS→ INTELIGENCIA: escala de Wechsler para adultos WAIS y niños WISC,
matrices de Raven; PERSONALIDAD: inventario multifásico de personalidad de Minnesota (MMPI),
16PF de Cattell, inventario de la personalidad de Eysenck.
Llamada también teoría del rasgo latente, es un modelo probabilístico que permite conocer la
información proporcionada por cada ítem, y así crear tests estandarizados, es decir, a medida.
En la medición psicológica y educativa encontramos problemas en relación con las tres etapas que
acabamos de describir. Primero, tenemos problemas para seleccionar y definir claramente los
atributos a los que debemos avocamos.
De las tres etapas que acabamos de considerar para el desarrollo de un procedimiento de medición
se deducen las principales cualidades de éste para ayudar a que la gente tome mejores decisiones:
proporcionar información relacionada con la decisión que se tome y proveer una información
precisa.
La evidencia es que el procedimiento de medición debe ser no sólo pertinente sino también exacto
y representativo.
esta teoría de los tests no está interesada en el sistema de relaciones empíricas, sino que centra su
atención en el análisis de las puntuaciones obtenidas para valorar los errores cometidos en el
proceso de medida indirecta de los fenómenos psicológicos. Es la llamada puntuación empírica (X),
que, de acuerdo con esta teoría, respondería a una relación lineal.
La TRI se propone cambiar el foco desde el tratamiento del test entero al tratamiento individual de
los ítems. Para hacerlo, esta teoría de los tests plantea la existencia de una relación entre las
puntuaciones en la variable latente –recordemos, de acuerdo con el modelo clásico de medida
psicométrica– y la probabilidad de acertar cada ítem introduciendo diferentes funciones
matemáticas para modelar adecuadamente esta relación.
Teoría clásica del test, asumen que las diferencias en las respuestas de los individuos a un test
determinado son debidas, única y exclusivamente, a la variación en la “capacidad” (actitud,
percepción, opinión, disposición, etc.) de aquellos.
teoría clásica define la dificultad de un item como “la proporción de individuos del grupo de interés
que responde correctamente al item”. Es decir, la mayor o menor dificultad de un item depende de
la capacidad de los individuos que están siendo medidos ( grupodependiente ) y, a la inversa, la
capacidad de los individuos depende de si los ítems utilizados en el test son fáciles o difíciles ( test-
dependiente )
Otro inconveniente de la teoría clásica del test es el relacionado con la fiabilidad del test. Según esta
teoría, la fiabilidad de un test hace referencia a la correlación entre los valores del test, cuando éste
es realizado varias veces de formas paralelas.
la teoría clásica del test gira en torno al test en su conjunto, y no en torno a cada item particular que
lo forma. Es decir, el valor alcanzado por el individuo en el test sólo permite valorar su capacidad
global ante dicho test, pero impide descender a un análisis individual de cada item. Por tanto, no es
posible, utilizando la teoría clásica del test, realizar predicciones sobre el comportamiento de los
individuos ante un item concreto o responder a la pregunta de cuál es la probabilidad de que un
individuo responda de forma correcta a un item determinado.
El modelo 1PL anteriormente presentado supone que todos los ítems discriminan de igual forma
entre individuos con distinta capacidad latente. Pero esta hipótesis es poco realista, ya que, en la
práctica, lo habitual es que la discriminación entre los individuos de reducida capacidad latente y
aquellos otros de elevada capacidad difiera de unos ítems a otros, lo que obliga a introducir en el
modelo 1PL un nuevo parámetro, conocido como parámetro de discriminación
- La variabilidad
si se aumenta la variabilidad de los datos, el coeficiente de correlación aumenta. Por esta razón, en
aquellos casos en los que exista una alta variabilidad en las puntuaciones del test, el coeficiente de
fiabilidad será mayor. De esto se desprende que un test no tiene un coeficiente de fiabilidad único
y fijo, sino que depende de las características de la muestra sobre la que se calcula
-Longitud:
Otro de los factores que afectan a la fiabilidad es la longitud del test. Así, la fiabilidad depende del
número de ítems que presente el test. La lógica de esta afirmación subyace en que cuantos más
ítems se utilicen para medir un constructo, mejor podrá ser valorado este y menor será el error de
medida que se cometerá al valorar la puntuación verdadera del sujeto.
- Para poder calcular los valores z, ubicados en la última columna de la tabla, es necesario conocer
la media y la desviación típica de la variable
Para poder utilizar un test como instrumento científico de medición es necesario cubrir una serie de
etapas:
• en la que se evaluaría la calidad psicométrica de cada uno de los ítems de la prueba piloto,
El problema surge cuando se quiere medir una variable psicológica, inobservable de forma
directa, un constructo. Los constructos se manifiestan a través de una serie de conductas, sí
observables de forma directa, y susceptibles de medición. Para que puedan ser consideradas
como manifestaciones del constructo han de ser más o menos uniformes y constantes a lo largo
del tiempo y en una serie de situaciones. Todas las cuestiones que hacen referencia a estas
conductas son las que deben ser reflejadas en los ítems del test.
C) Población a la que va dirigido el test No es lo mismo construir un test para evaluar algún rasgo
o característica en una población infantil que en una población de adultos.
D) Utilización prevista Para qué se va a utilizar, qué decisiones se van a tomar a partir de las
puntuaciones que obtengan los sujetos.
E) Especificación de las características del test Hay cuatro aspectos fundamentales a la hora de
desarrollar las especificaciones del test:
1. Contenido
c. Se ha intentado hacer una categorización jerárquica, más o menos uniforme, de los distintos
procesos implicados.
2. Formato de los ítems: Hay dos grandes categorías: Los ÍTEMS DE ELECCIÓN (de respuesta
cerrada) y los ÍTEMS DE CONSTRUCCIÓN (el sujeto debe elaborar su propia respuesta).
1. DOS ALTERNATIVAS
2. ELECCIÓN MÚLTIPLE
c) una frase truncada o incompleta (en tests educativos) o La forma de redactar las alternativas:
a) aquellos ítems que presentan una única respuesta correcta (cuando no hay ambigüedad),
b) aquellos ítems en los que todas las alternativas son parcialmente correctas (cuando se
evalúan procesos mentales complejos). o Las opciones de respuesta son independientes entre
sí.
3. EMPAREJAMIENTO
o Implica que el sujeto empareje los elementos de dos columnas, de acuerdo a las instrucciones
dadas en el enunciado.
o La tarea de los sujetos consiste en seleccionar la palabra adecuada a cada espacio en blanco.
5. ESCALAS DE CLASIFICACIÓN
o El sujeto debe responder eligiendo la alternativa que mejor refleje su actitud personal.
o Se distingue de los ítems de elección múltiple en que, a diferencia de éstos, las opciones no
son independientes entre sí, sino interdependientes.
o Ventaja: los sujetos expresan su postura de una manera más clara que en los ítems de elección
múltiple.
o Inconveniente: el significado de las distintas opciones no es el mismo para todos los sujetos;
es frecuente que aparezcan sesgos en las respuestas.
o No hay acuerdos generalizados acerca del número de opciones. El tipo de formato más
utilizado es el de 5 alternativas propuesto por LIKERT.
6. LISTADOS
o Los sujetos han de mostrar su opinión respecto a algún hecho. o No se utilizan para variables de
tipo cognitivo.
o Las opciones no están ordenadas, sino que son independientes entre sí. o No hay respuestas
correctas.
o A veces no son más modificaciones de los ítems de elección múltiple (una palabra, una frase).
o Se utiliza para compensar la información parcial que proporcionan los formatos de respuesta
cerrada.
Realmente no hay una respuesta única, ya que son varios los factores tener en cuenta:
• La población a la que va dirigido: no es lo mismo un test para niños que para adultos.
• El tiempo de que se dispone: a no ser que se desee medir la rapidez de respuesta, la longitud del
test debe ser tal que todos tengan tiempo suficiente para intentar resolver o contestar a todos los
ítems.
• Los objetivos del test: Depende si se quiere cubrir un área de conocimientos muy concreta o varias
áreas de contenido.
F) Dificultad de los ítems Un ítem es fácil o difícil para una determinada población, en función de la
probabilidad que los sujetos tengan de responder a él correctamente. Se distinguen tres tipos de
tests:
1. TESTS DE VELOCIDAD:
o Algunos tests para medir variables cognitivas lo son (tests de rapidez de cálculo).
o Como no hay respuestas correctas, no tiene sentido hablar de dificultad de los ítems.
Los principales sesgos de respuestas, que hay que tratar de evitar en lo posible, son provocados por:
• Respuesta Extrema, o tendencia a elegir como respuesta las categorías de los extremos, con
independencia del contenido del ítem.
Antes de dar forma a la prueba piloto, es conveniente que los ítems sean revisados por un grupo de
personas que no hayan intervenido en su elaboración (expertos, evitar la “deformación
profesional”,…) Una vez revisados, y eliminados los no indicados, se puede construir la versión
preliminar del test.
Una vez construida la prueba es necesario hacer un estudio piloto de la misma para su evaluación
psicométrica. Respecto a la forma de administración hay varias posibilidades (Colectiva-Individual,
Oral, Papel y lápiz, Mediante ordenador, Por correo).
La distinción entre evaluación normativa y evaluación criterial la hace Glaser en 1963, autor que
utiliza por primera vez la expresión «evaluación criterial» (Popham, 1983: 31). Estos dos tipos de
estrategias de evaluación hacen referencia explícita al rendimiento del alumno, cada una dando su
propia interpretación del mismo
-Evaluación normativa: tiene como objetivo ver la posición relativa de cada alumno respecto a los
demás y cumple su función cuando con ella se sabe quién es mejor (o peor) que quién. Así, trata de
identificar el talento del alumno, de manera que se puedan establecer comparaciones y luego hacer
una selección entre los alumnos
-Evaluación criterial:
La característica fundamental de esta evaluación es apreciar el logro de los objetivos por parte de
cada alumno sin compararlo con el de sus compañeros.
La evaluación criterial sería una forma de operativizar la evaluación del aprendizaje individual del
alumno respecto a objetivos educativos que actúan como criterio comparativo, y en términos
conductuales, oponiéndose a la comparación de aprendizajes entre alumnos.
La evaluación criterial tiene un amplio uso, no sólo con contenidos conceptuales, sino también con
contenidos procedimentales y, asimismo, en su extensión a ámbitos como la Educación Infantil
«Las pruebas criteriales permiten (...) comprobar el uso y aplicación de los conocimientos
procedimentales en diferentes situaciones particulares, a la vez que ofrecen unas pautas claras para
la observación de la calidad de su ejecución, grado de automatización, generalización a diferentes
contextos, grado de conocimiento sobre el procedimiento y grado de acierto en la elección del
procedimiento para solucionar una tarea»
En este artículo nos centraremos tan sólo en el modelo general más básico de AF: el modelo lineal,
basado en correlaciones, y que analiza medidas obtenidas en un solo grupo de sujetos y en una sola
ocasión.
**El AF es un modelo estadístico que representa las relaciones entre un conjunto de variables.
Plantea que estas relaciones pueden explicarse a partir de una serie de variables no observables
(latentes) denominadas factores, siendo el número de factores substancialmente menor que el de
variables**
En el AF se analiza un conjunto de variables observables (ítems, subtests o tests) cada una de las
cuales puede considerarse como un criterio. Así entendido, el AF consiste en un sistema de
ecuaciones de regresión.
MUESTRA En cualquier estudio factorial, y más aún en aquellos en que se desarrolla o adapta un
test, debe tenerse una idea relativamente clara de la población de interés. Por tanto, el AF debería
basarse una muestra representativa de esta población. Es muy habitual, sin embargo, utilizar
muestras de conveniencia (generalmente estudiantes universitarios).
Las medidas utilizadas habitualmente en psicología: tests y sobre todo ítems, contienen
intrínsecamente mucho error de medida. Habrá que aceptar pues que las comunalidades serán
generalmente bajas y, por tanto, se deberá actuar principalmente sobre los puntos (a) y (b). Con
respecto al punto (b), que se discute con detalle más abajo, la idea de determinación de un factor
refiere al número de variables que tienen pesos elevados en dicho factor.
VARIABLES El AF es un modelo para variables continuas e ilimitadas. Ni las puntuaciones de los ítems
ni las de los test lo son. Por tanto, en la mayor parte de las aplicaciones psicológicas el AF deberá
verse como un modelo aproximado cuya ventaja es la simplicidad. Es importante pues en primer
lugar discutir en qué condiciones la aproximación será lo bastante buena para lo que se requiere en
la práctica. El AF funciona generalmente bien cuando se analizan puntuaciones en tests y subtests.
En cuanto a los ítems, la aproximación suele ser también aceptable cuando se usan escalas de
respuesta graduada (Likert) con 5 o más categorías. Finalmente, los ítems binarios y los ítems con 3
opciones y una categoría central son potencialmente los que pueden presentar más problemas.
Sea cual sea el tipo de respuesta, que el AF funcione bien o no depende sobre todo de la distribución
de las puntuaciones. Las distribuciones simétricas no suelen dar problemas. Por otra parte los
problemas más importantes suceden cuando (a) las distribuciones son marcadamente asimétricas
y (b) las asimetrías van en ambas direcciones. Un ejemplo de esta situación sería el análisis de un
test que contiene ítems muy fáciles e ítems muy difíciles. Las asimetrías de signo contrario dan lugar
a relaciones no lineales y, por tanto, a la inadecuación del modelo AF lineal.
En el caso de tests y subtests el AF resulta casi siempre apropiado. En el caso de ítems de respuesta
graduada, el AF se espera que funcione bien si los coeficientes de asimetría están todos en el
intervalo entre -1 y +1.
Estos ítems se utilizan para evaluar la consistencia de los sujetos o (solapadamente) para
incrementar la consistencia interna del test. La presencia de ítems redundantes provoca siempre
problemas en el AF. En efecto, los errores entre dos ítems redundantes no pueden ser
independientes, ya que, aún después de eliminar los factores comunes, las respuestas siguen
estando relacionadas debido a la semejanza de contenidos. La consecuencia es la necesidad de
extraer factores adicionales definidos principalmente por parejas o tripletes de ítems redundantes.
Estos factores pueden ser difíciles de identificar, sobre todo en soluciones rotadas. Un análisis de
contenido previo puede eliminar redundancias y evitar estos problemas desde el principio.
s los marcadores son, teóricamente, medidas puras de un factor. En forma más aplicada, Cattell
(1988) las define como variables que, en estudios anteriores, han mostrado ser buenas medidas de
los factores que se están evaluando. Su uso tiene principalmente dos funciones: (a) permiten
identificar los factores aumentando su grado de determinación y (b) permiten relacionar los
resultados del estudio con estudios anteriores. Cattell (1988) recomienda utilizar como mínimo dos
marcadores por factor.
En cuanto a la relación entre el número de ítems y de factores, como sabemos, cuantos más ítems
existan que midan con precisión un factor, más determinado estará dicho factor y más estable será
la solución.
**La técnica estadística del análisis factorial nos servirá para el estudio de la contribución de los
diferentes ítems a un solo factor (estructura unidimensional) o a varios factores (estructura
multidimensional). La técnica del análisis factorial nos permitirá determinar k factores subyacentes,
a partir de una serie p de puntuaciones determinadas por los ítems iniciales del test. La idea es la
búsqueda de un modelo parsimonioso (simple) a partir de un conjunto complejo de datos. A partir
de los trabajos de Spearman a principios del siglo XX, y sobre todo de Thurstone en los años
cuarenta, el análisis factorial se evidencia como una buena herramienta en psicología para tratar de
identificar los factores que intervienen en la inteligencia. Thurstone propuso la utilización del
análisis factorial para dar explicación a las correlaciones que observaba entre diferentes ítems de
los tests de inteligencia. Así, el empleo de esta técnica le permitió la identificación y diferenciación
de las capacidades espacial, verbal y numérica, como factores de la inteligencia.**
Análisis preliminares: adecuación de los datos De acuerdo con el planteamiento a doble nivel,
parece lógico que antes de emprender un AF se utilicen indicadores para evaluar si las correlaciones
obtenidas en el primer nivel son adecuadas para ser analizadas factorialmente en el segundo. Estos
indicadores suelen denominarse “medidas de adecuación muestral” y su uso es muy importante
como una etapa previa del AF: indicará si el AF es o no el modelo apropiado para los datos. Sin
embargo, esta es la etapa que más se pasa por alto en investigación aplicada.
Estimación del modelo: Como hemos avanzado antes, esta es la etapa crucial del AF. En ella se
estima una solución inicial y, sobre todo, se determina la dimensionalidad de los datos, es decir el
número de factores más apropiado. La etapa de estimación debe guiarse por el principio de
parsimonia. Se trata de determinar la solución más simple (es decir el menor número de factores)
compatible con residuales suficientemente cercanos a cero.
En esencia, el AF es un modelo basado en el principio de que las variables tienen error de medida,
distingue claramente entre varianza común (comunalidad) y varianza de error, y pretende
reproducir tan sólo la varianza común, que es la que interviene en las correlaciones entre las
variables. El ACP, en cambio, no hace esta distinción, sólo considera la varianza total y es esta
varianza total la que pretende reproducir.
Evaluación del ajuste: Para decidir si un modelo con m factores resulta apropiado, debe evaluarse
el grado de ajuste del modelo a los datos. Existen una variedad de criterios y procedimientos para
llevar a cabo esta evaluación.
TIPOS DE PRUEBAS
llamamos pruebas de ejecución máxima a aquellas que evalúan constructos que sí son escalables, y
que son aquellos en los que tiene sentido hablar de respuestas correctas y erróneas. Un examen,
un test de inteligencia o cualquier instrumento que mida aptitud sería clasificado dentro de este
epígrafe.
Personalmente, preferimos los criterios de Moreno, Martínez y Muñiz (2004). Son menos (doce),
son mucho más claros y más fáciles de aplicar. Como podéis ver en la tabla 1, ahora los aspectos
que hay que valorar son tres: elección del contenido, su expresión y opciones de respuesta.
Ej de test ejecucion
típica
Una vez que sabemos la dificultad de un ítem, planteémonos, ¿cómo deberían ser las dificultades
de todos los ítems de una prueba? Como dice la directriz dos de Moreno, Martínez y Muñiz (2004),
la dificultad de un ítem debe relacionarse con la del concepto que recoge. Esto es, si un contenido
es fácil, el ítem debe ser fácil. Por tanto, una prueba que mide contenidos diversos debería tener
ítems de todas las dificultades, y éstas deberían corresponderse a la dificultad de los conceptos
medidos.
¿Es suficiente saber si un ítem es fácil o difícil para decidir si es adecuado o no? Intuitivamente,
podríamos pensar que sí, pero estaríamos equivocados. De hecho, si tuviéramos que destacar una
propiedad psicométrica de los ítems sobre el resto, esta sería la discriminación. Si un ítem no
discrimina, no es útil para la medición, y ese es el objetivo para el que fue redactado.
**entendemos como discriminación la capacidad de un ítem de distinguir entre las personas que
tienen un buen rendimiento en el test, respecto a las que lo tienen malo.**
CLASIFICACION DE CRONBACH
Test que examinan atributos psicológicos, pero exige al examinado respuestas correctas: Ej→
pruebas de inteligencia, aptitudes y habilidades (la persona tiene que esforzarse para darme una
respuesta correcta) → ESCALA WESCHLER (inteligencia en niños)
¿Qué es un test?
Procedimiento por medio del cual seleccionamos una muestra de comportamiento de un dominio
y después evaluamos esa muestra usando un proceso estandarizado y los puntajes que obtenemos
nos permite hacer una inferencia sobre la magnitud ese constructo psicológico que queremos
evaluar.
CONFIABILIDAD
VALIDEZ VS CONFIABILIDAD
Validez: hace referencia en que medida el test mide lo que dice que mide.
Confiabilidad: hace referencia al concepto de error, en que medida esa puntuacion que obtengo se
encuentra libre o seriamente afectada por factores de error.
Exactitud o precisión de una medida realizada a través de un test, no es una característica del test,
sino una propiedad de sus puntuaciones.
Error: hace referencia a cualquier factor que pueda afectar las puntuaciones de una prueba que no
se deban a un atributo psicológico que quiera medir.
-Factores internos
-cuanto mayor sea el error menos confiable son los resultados obtenidos por la prueba.
-CONFIABILIDAD
Estabilidad:
Evalúa el grado en el que el puntaje de un individuo esta libre de errores de medición causados por
cambios personales aleatorios del examinado, o cambios en las condiciones de
administración→METODO→1. Test-Retest/2.Formas paralelas
Consistencia interna
Evalúa el grado en que distintas partes o ítems del test miden el mismo constructo o dominio. Indica
en qué medida la elección de la muestra de ítems que componen la prueba resulta una fuente de
error de medición→METODO→1.Particion de mitades/2.Covarianza de ítems (0.80 covarian
mucho)→los ítems miden lo mismo.
-VALIDEZ
Estructura interna→para verificar estadísticamente si los ítems se agrupen tal como teóricamente
se había predicho se utiliza el Análisis Factorial.
Evaluar si las relaciones entre los ítems y/o dimensiones confirman la existencia de los constructos
que el test pretende medir.
Análisis factorial→este método multivariado permite agrupar las variables (ítems por ej) que se
correlacionan fuertemente entre sí, y cuyas correlaciones con las variables de otros agrupamientos
(factores) es menor.
Cada uno de estos factores agrupa a los ítems intecorrelacionados que son, al mismo tiempo,
relativamente independientes de los restantes conjuntos (factores) de ítems.
Evidencia externa→interesa predecir de manera precisa un determinado comportamiento o
desempeño a partir de las puntuaciones del test.
Métodos:
*Convergente-discriminante
*Grupos contrastados
¿construir o adaptar una puerta? → tomar en cuenta el contexto sociocultural, los constructos
psicológicos se basan/acentúan en la cultura.
Una medición apropiada del constructo implica contemplar los aspectos éticos y émicos.
-Sesgo de ítem: se genera cuando ciertos grupos culturales obtienen puntajes diferentes en
un ítem, a pesar de obtener un puntaje total similar. (la prueba pierde confiabilidad y validez)
CONSTRUIR:
1. Delimitación del dominio del test (especificar que es ansiedad, cuáles son las dimensiones
de la ansiedad, cual es la diferencia de ese constructo de otros)→modelo teórico
2. Redacción de los ítems→ que reflejen ese dominio
3. Revisión de expertos y prueba piloto
4. Análisis de las propiedades psicométricas (validez, confiabilidad, normas)
5. Elaboración de los materiales definitivos de la prueba (como se aplica, como se puntúa,
como se interpreta, etc.)
ADAPTAR: