Anteproyecto Jose Avilez

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

UNIVERSIDAD DEL BÍO-BÍO

FACULTAD DE CIENCIAS

ANTEPROYECTO DE TESIS

Titulo: método de Condorcet como una alternativa


para calcular la concordancia entre jueces
por
José Miguel Avilez Bozo
Profesor Guı́a: Tarik Faouzi Nadin
Profesor co-Guı́a: Luis Alberto Firinguetti Limone

1. Descripción
En ciencias sociales se trató el tema de la concordancia entre jueces, sin embrago, no
se abordó una metodologı́a para analizar la opinión colectiva de los jueces con respecto al
(los) ı́tem(s). Existe una técnica que permite analizar las opiniones de los jueces, denomi-
nada Regla de Condorcet. Esta técnica permite agrupar los jueces según las respuestas de
estos últimos. Los grupos generados por el método se identifican según las caracterı́sticas
que definen cada juez (Estudio, Lı́nea de investigación, Genero). El método de Condorcet
es un sistema de votación que permite comparar candidatos mediante variables exógenas.
Lo anterior, se traduce a maximizar la función V
n

 X



 V = maxyij (cij yij + c¯ij y¯ij )
i,j

yij ≥ 0 (1)

y − y¯ij = 0

 ij



yij + yjk − yik ≥ 1
donde yij es la opinión colectiva que identifica si el candidato i es semejante al candi-
dato j. cij es la cantidad de veces que el candidato i es semejante al candidato j. note que
c¯ij = n − cij con n es el total de los candidatos.

1
1.1. Antecedentes Generales
En la literatura de investigación se han identificado dos orientaciones para abordar
la validez de contenido: la primera, se relaciona con los métodos basados en el juicio
de expertos y la segunda, en los métodos derivados de la aplicación de instrumentos de
medida (Pedrosa, Suárez-Álvarez & Garcı́a Cueto, 2014; Urrutia, Barrios, Gutiérrez &
Mayorga, 2014). Estos métodos, en diferente medida apuntan a levantar evidencia sobre
dos fuentes de validez de contenido: la definición del dominio (representatividad) y la
adecuación del contenido (relevancia). Ası́, para ofrecer validez sobre el contenido de una
prueba de medida, una de las alternativas utilizadas con frecuencia por investigadores es
la opinión de expertos (Barranzas, 2007).
Según Urrutia, Barrı́os, Gutiérrez y Mayorga (2014), antes de realizar el análisis de
contenido, es importante resolver dos cuestiones importantes: primero, determinar aquello
que puede ser medido y segundo, definir los expertos que validaron el instrumento, en
especı́fico, sus caracterı́sticas y número. Según los autores, el número de participantes
es variable y podrı́a depender de los objetivos del estudio, la actividad laboral, la zona
geográfica entre otros. Sin embargo, la literatura de medición muestra que cuando nos
enfrentamos a la labor de definir un número de expertos para un panel, es importante
prever el tipo de análisis estadı́stico que se realizará, de tal manera que el número de
expertos seleccionado sea igual o mayor al número de sujetos mı́nimo que ha definido
la prueba estadı́stica a utilizar para calcular el Índice de Validez de Contenido (Tristán-
López, 2008). La importancia de definir los parámetros estadı́sticos radica en que no
es suficiente la valoración cualitativa de los ı́tems, sino que, además, se requiere una
valoración cuantitativa que permita determinar el grado de acuerdo (Sireci, 1998).
En la búsqueda de ı́ndices para calcular la concordancia interjueces, los investigadores
del proyecto revisaron diferentes métodos utilizados en Ciencias Sociales para calcular
la validez de contenido. En esta revisión destacaron autores como Lawshe (1975), quien
propuso una estrategia para abordar y cuantificar la validez de contenido.
La propuesta de Lawshe, considera un panel de expertos en la materia que evalúan de
forma individual los ı́temes de un instrumento de medida. En su propuesta, Lawshe sugiere
que bajo principios sociológicos el acuerdo mı́nimo interjueces deberı́a ser de un 50 %. En
el mismo artı́culo, Lawshe propuso dos ı́ndices: la Razón de Validez de Contenido (CVR)
que mide el acuerdo de los panelistas sobre un ı́tem, mientras que el ı́ndice de Validez
de Contenido (CVI) presenta el promedio de los CVR que forman el instrumento final.
Recordamos que,
ne − nne
CV R =
N
donde ne es el número de panelistas en acuerdo y nne el número de panelistas en
desacuerdo.
Un ı́ndice CVR es aceptable dependiendo del nivel de acuerdo de los panelistas sobre
un ı́tem. Lawshe presenta una tabla de los valores crı́ticos del ı́ndice CVR según el número
de panelistas (ie, CV R ≥ 0,75 para 8 panelistas). Polit et al. (2007) sugieren un valor

2
crı́tico de CVR igual a 0.78 para al menos tres panelistas. Tristan-Lopez (2008), criticó
la obra de Lawshe considerando que el método incluye solamente la modalidad ”esencial”
y que no es aplicable para menos de cinco panelistas. Justificando su respuesta, Tristán
generó la tabla del ı́ndice CVR usando el estadı́stico Chi-cuadrado (χ2 (α = 0,1, gl = 1)),
mientras que Lawshe utilizó el valor de α = 0,05 como nivel de significancia sin mencionar
la prueba utilizada. El uso del valor α = 0,1 por Tristán no está justificado, además se
observa que mientras más grande el valor de, más se reduce el número panelistas. Por lo
tanto, y independiente de la prueba que utilizó Lawshe, el valor del nivel de significancia
es decisivo para determinar el número mı́nimo de panelistas, agregando a que la prueba
Chi-cuadrado no es adecuada (Ayre & Scally, 2014). Consecuentemente, la modelización
estadı́stica de Tristán para generar la tabla del CVR crı́tico no fue exacta.
Wilson y Schumsky (2012), propusieron una nueva tabla del CVR crı́tico usando la
aproximación normal a la distribución binomial. Esta aproximación es válida solo para un
tamaño considerable de panelistas (Teorema limite central). Ayre y Scally (2014) por su
parte, propuso una nueva tabla usando Test Binomial Exacto (TBE). A diferencia de la
prueba Chi-cuadrado utilizado por Tristán-López (2008) y Wilson (2012) la aproximación
normal, el TBE es una alternativa apropiada para el modelo propuesto por Lawshe por
las razones que se explican a continuación.
Sea un instrumento compuesto por ”n” de ı́tems evaluados por ”N” panelistas con
una escala dicotómica (”esencial” o ”no esencial”). Se requiere probar el nivel de acuerdo
entre el panelista a través el ı́ndice CVR. Entonces, la prueba más a adecuada es el TBE.
Modelando el problema estadı́sticamente, se considera la hipótesis nula
N
H0 : ne ≤ (2)
2
donde ne es el número de panelista en acuerdo, con un nivel de significancia igual a
0.05. Entonces se rechaza la hipótesis nula si P (ne ≥ ncr ) ≥ 0,95 , donde ncr es el valor
mı́nimo requerido de panelistas que concuerdan con la modalidad ”esencial”.
Ayre y Scally (2014), calculó la tabla usando el programa STATA. En este artı́culo se
procede a realizar una comparación de los tres resultados (Ayre & Scally, 2014; Tristan-
López, 2008; Lawshe, 1975) usando el programa R.

3
Tabla 1. Nivel de significancia α=.05

N(*) CVRbi(**) CVRch(***) Lawshe CVRba(****


)

2 -- -- -- --
3 -- -- -- --
4 -- 1.00 -- 1.00
5 1.00 1.00 .99 1.00
6 1.00 1.00 .99 1.00
7 1.00 1.00 .99 .71
8 .75 .75 .75 .75
9 .78 .78 .78 .78
10 .80 .80 .65 .60
11 .64 .64 .59 .64
12 .67 .67 .56 .50
13 .54 .69 .54 .54
14 .57 .57 .51 .57
15 .60 .60 .49 .47
16 .50 .50 -- .50
17 .53 .53 -- .41
18 .44 .56 -- .44
19 .47 .47 -- .47
20 .50 .50 .42 .40
21 .43 .43 -- .43
22 .45 .45 -- .36
23 .39 .48 -- .39
24 .42 .42 -- .42
25 .44 .44 .37 .36
26 .38 .38 -- .38
27 .41 .41 -- .33
28 .36 .43 -- .36
29 .38 .38 -- .31
30 .33 .40 .33 .33
31 .35 .35 -- .35
32 .38 .38 -- .31
33 .33 .39 -- .33
34 .35 .35 -- .29
35 .31 .37 .31 .31
36 .33 .33 -- .28
37 .30 .35 -- .30
38 .32 .37 -- .32
39 .33 .33 -- .28
40 .30 .35 .29 .30
(*): Numero de panelistas. (**): CVR con la prueba binomial exacta. (***): CVR con la prueba Chi cuadrado, (****): CVR mediante

estadística bayesiana.
Figura 1: Comparación del CVR crı́tico con distintos métodos (Lawshe, 1975; Tristan-
López, 2008 y Ayre & Scally, 2014).

Se observa que para 9 o menos panelistas, los tres métodos coinciden en el valor
calculado para CVR. Para 7 panelistas, el método basado en inferencia bayesiana entrega
un valor mı́nimo con respecto a los demás métodos. mientras que a partir de 10 panelistas
o más, los valores difieren. Considerando que el método basado en la prueba Binomial es
más preciso que la prueba Chi-cuadrado, se concluye que proponer otro ı́ndice alternativo
al ı́ndice CVR no cambiarı́a la toma de decisión bajo el modelo Binomial exacto. Sin
embargo, se puede tomar el modelo de Tristan-López (2008) como alternativa para calcular
el ı́ndice CVR crı́tico solo con cuatro panelistas (ver la tabla 1).
En el año 2017 los autores Baghestani, Ahmadi, Tanha y Meshkat propusieron una
nueva estrategia para calcular CVR basada en la estadı́stica bayesiana. Para esto, reem-
plazaron la hipótesis nula dada en (2) por,

H0 : p ≤ 0,5, vs H1 : p > 0,5,

donde p es la realización de una variable aleatoria X, cuya distribución es desconocida.

5
La desinformación a priori sobre la distribución de X fue estudiada por Jeffrey (1935) y
Berger (2013), quienes consideraron que la distribución a priori de X es beta con paráme-
tros α y β, denotado por X ∼ Beta(α, β). dado lo anterior, la función de densidad a
posteriori de X es definida como

π(X) ∝ f (X) ∗ g(N e|X)


,
donde f (X; α, beta) = dBeta(α, β) es la función de densidad de la variable X y
g(N e|X) = dbinorm(p, N ) es la función de densidad de Ne dado la variable X.

A continuación, la probabilidad a posteriori de la hipótesis H0 es

Z 0,5
P (X < 0,5|N e) = f (p) ∗ g(N e|p)dp
0
Z 0,5
= f (p; N e + α, N − N e + β)dp
0
Z 0,5
= pN e+α (1 − p)N −N e+β dp.
0
(3)

A un nivel de significancia se rechaza la hipótesis nula H0 si


Z 0,5
pN e+α (1 − p)N −N e+β dp < 0,05
0
.
Entonces, el parámetro Ne se determina como el valor mı́nimo para rechazar la hipóte-
sis nula considerando el modelo de Berger, (2013) con α = β = 1.

6
Figura 2: Comparación del CVR crı́tico con distintos métodos (binomial exacta y método
bayesiano).

En la figura anterior se aprecia que con el método desarrollado por Baghestani et al.
(2017), es posible reducir el número de jueces y obtener resultados de CVR crı́tico acepta-
bles. Esto es una ventaja importante dado las dificultades expresadas anteriormente para
conseguir un número amplio de jueces. Sin embargo, esta conclusión solo fue posible luego
de realizar una revisión de los cálculos realizados en el artı́culo de Baghestani et al. (2017).
Tras su revisión, fue posible hallar discordancias en la utilización de la función ?pbinom?
del paquete stats del programa R. Lo anterior, demostrado luego de un nuevo cálculo
donde se mantuvieron los valores de los parámetros obteniendo resultados distintos.
Como se puede apreciar, a pesar del error de cálculo de los autores (Baghestani et al.,
2017), la utilización de la estadı́stica bayesiana para el cálculo de CVR fue de utilidad en
cuanto a la reducción del número de panelistas en comparación con el método binomial
exacto. Además, comparte la ventaja del método basado en Chi-cuadrado (Tristan-López,
2008), donde se puede evaluar un instrumento desde cuatro panelistas.
Por otra parte, y a diferencia del ı́ndice CVR, el valor crı́tico del ı́ndice CVI, que mide
la validez de contenido del instrumento, difiere de un autor a otro. Tilden, Nelson y May
(1990) sugieren un valor mı́nimo de .7, mientras que Davis (1992) propone un valor de
.8. El valor crı́tico del CVI de .5 fue propuesto por Tristán-López (2008). Lawshe (1975),

7
por su parte, aseguró un valor crı́tico de CVI que depende del número de panelistas, y
que estarı́a representado por la siguiente fórmula:
m
X CV Rcr,j
CV Icr = ,
j=0
m

donde m es el número de los ı́tems que sus valores del CVR asociados superan los
valores crı́ticos de CVR y CV Rcr,j , el valor crı́tico del ı́ndice de la Razón de validez
de contenido del ı́tem ”j”, CV Rj . El criterio de Lawshe puede ser considerado como una
exageración, en el sentido que, bajo el modelo de Lawshe, el valor del CVI del instrumento
completo no supera de ningún modo el valor crı́tico CV Icr . Por esta razón, se consideró
la investigación aquı́ reseñada, el valor crı́tico CV Icr de Tilden, et al. (1990).
La pregunta clave es ¿cuál de los dos ı́ndices de Validez de Contenido CVR y CVI es
más considerable? Gilbet y Prion (2016) mencionaron en su artı́culo que la elección de
los ı́ndices CVR y CVI depende de la orientación del estudio.

8
2. Objetivos
El objetivo de nuestro proyecto es proponer una nueva alternativa al ı́ndice de Lawshe
que permita calcular la concordancia Inter jueces.

2.1. Objetivo especifico


1. Proponer el método de Condorcet como una alternativa para calcular la concordan-
cia entre jueces o la opinión colectiva de los jueces con respecto a un ı́tem, dimensión
o a un instrumento.

2. Comparar la eficiencia de los dos métodos.

3. Mejorar el algoritmo del método Condorcet para lograr el uso de un gran volumen
de datos.

4. Fijar la cantidad de grupos en el algoritmo del método de Condorcet.

3. Metodologı́a
Para abordar el punto 1) y 2), se estudian distintas medidas de validez de contenido.
Por ejemplo, Lawshe, Kappa, Kendall. Para entender el fundamento de cada medida y
Proponer el método de Condorcet como una alternativa para calcular la concordancia
entre jueces o la opinión colectiva de los jueces con respecto a un ı́tem, dimensión o a un
instrumento.

Para el punto 3) y 4), Se analizar el código fuente de la función ”pop” del paquete
amap, que está programada en lenguaje Fortran 77. Que no está optimizada para un gran
volumen de datos.

4. Referencias
Ayre, C., & Scally, A. J. (2014). Critical values for Lawshe’s content validity ra-
tio: revisiting the original methods of calculation. Measurement and Evaluation in
Counseling and Development, 47(1), 79-86.

9
Lawshe, C. H. (1975). A quantitative approach to content validity 1. Personnel psy-
chology, 28(4), 563-575.

Tristán-López, A. (2008). Modificación al modelo de Lawshe para el dictamen cuan-


titativo de la validez de contenido de un instrumento objetivo. Avances en medición,
6(1), 37-48.

Baghestani, A. R., Ahmadi, F., Tanha, A., & Meshkat, M. (2019). Bayesian critical
values for Lawshe’s content validity ratio. Measurement and Evaluation in Counse-
ling and Development, 52(1), 69-73.

10

También podría gustarte