Elecci N de Mtodo Cuantitativo
Elecci N de Mtodo Cuantitativo
Elecci N de Mtodo Cuantitativo
Socios Coordinadores
www.eurosocial-ii.eu
Documento de Trabajo nº 6
Serie: Guías y Manuales
Área: Finanzas Públicas
Con la colaboración:
Fundación Internacional y para Iberoamérica
de Administración y Políticas Públicas (FIIAPP)
Edición no venal.
Realización gráfica:
Cyan, Proyectos Editoriales, S.A.
1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Prólogo
“I know thy works, and thy labour, and thy patience.”
The Apocalypse Of Saint John (Revelation), capítulo 2
El protagonismo del sector público tiene su base en la necesidad de los ciudadanos de dar res-
puesta a determinadas necesidades que el sector privado no es capaz de satisfacer por sí solo o
lo hace de una manera que podemos considerar injusta o inequitativa. Como bien sabemos,
desde el siglo pasado, su actividad se ha ido incrementando paulatinamente, proveyendo a la
población de un entramado de servicios que se incorporan en su día a día y que suponen los
cimientos de la gobernabilidad y la estabilidad de las democracias más desarrolladas. Ante la
convicción de que es necesario contar con un Estado de bienestar sostenible y viable que pro-
porcione a la población bienes públicos y preferentes de calidad, garantes de la igualdad de
oportunidades y del bienestar social, se hace imprescindible preguntarnos sobre el papel de las
Administraciones públicas en el desempeño de las funciones propias de la Hacienda Pública
(asignación, distribución y estabilidad económica). La respuesta pasa indiscutiblemente por la
construcción de un sistema eficaz y eficiente en el que los responsables públicos gestionen de
manera responsable y transparente los recursos con los que cuentan.
En este sentido, haríamos bien en prestar atención a la reforma que en los últimos años estamos
desarrollando en las Administraciones públicas. El cambio de modelo nos acerca hacia una acti-
tud que promueve la importancia de la evaluación de las políticas públicas como instrumento
para la consecución de una planificación más racional, transparente y de mayor eficiencia en
términos económicos, convirtiéndola en herramienta clave para la toma de decisiones. A través
de este manual, el autor, Ignacio del Moral, analiza de manera brillante el diseño y metodología
de la función de evaluación. Se trata de una guía metodológica que se ha desarrollado con la
pretensión de determinar el diseño de la evaluación cuantitativa óptima, la cual implica la utili-
zación de métodos objetivos, carentes del sesgo evaluador de quien la desarrolla y que se llevan
a cabo a través de métodos estadísticos.
Consideramos que es acertado apostar por esta nueva tendencia en la que la evaluación y el
seguimiento de las políticas desarrolladas por las Administraciones públicas se muestran como
una herramienta útil. Esta nueva disposición está tomando una posición de innegable impor-
tancia para la provisión de servicios a la sociedad, por lo que la presente guía es un instrumento
de trabajo valioso para controlar la validez y la adecuación de las políticas públicas implantadas
con su diseño inicial y con la satisfacción de las necesidades para las cuales fueron elaboradas.
Como director del Instituto de Estudios Fiscales me congratula poder aportar trabajos como el
presente en el que nos sumamos a las iniciativas de mejora en la gestión pública como funda-
mento para dar respuesta a los desafíos sociales del siglo XXI.
Prólogo
La evaluación es una herramienta de enorme potencial para el perfeccionamiento de la polí-
tica y la gestión públicas. Permite aprender de las políticas, planes o programas analizados;
mejorar los futuros; y rendir cuentas a la ciudadanía. Por lo tanto, conduce al fortalecimiento
democrático a través de la mejora de la acción y la transparencia del sector público.
Sin embargo, el desafío más importante en relación a las evaluaciones sigue siendo la utiliza-
ción adecuada de los resultados de las mismas, para lo que se necesita una buena dosis de
voluntad política y de capacidad técnica. Los resultados de las evaluaciones de impacto nos
permiten identificar y separar las políticas y programas que funcionan y tienen un claro im-
pacto positivo de aquellas que no tienen incidencia en el bienestar de los ciudadanos, con
vistas a que puedan ser corregidas o desestimadas.
En América Latina se constata una creciente exigencia de información, tanto por parte de la
ciudadanía como de las Administraciones públicas, sobre los resultados y la calidad de los
servicios públicos con el fin de conseguir que satisfagan las demandas económicas y socia-
les. La ampliación de las clases medias en la región ha traído consigo un aumento de la capa-
cidad de supervisión de la sociedad respecto a las actuaciones públicas y una mayor presión
para el aumento del refinamiento de las actuaciones del sector público. La instalación defini-
tiva de la evaluación en el ciclo de las políticas públicas puede contribuir a satisfacer esa
necesidad, al coadyuvar a una mejor asignación de los recursos públicos aumentando su
eficiencia y eficacia.
Por todo esto, EUROsociAL-II apoya la mejora del bagaje técnico de los funcionarios latinoa-
mericanos responsables de llevar a cabo evaluaciones y les acompaña en la realización de al-
gunas evaluaciones piloto que puedan servir como germen para, posteriormente, generalizar
el proceso.
De esta forma, el programa busca apoyar la consolidación de una cultura evaluadora en el seno
de las Administraciones latinoamericanas; muchas de ellas en procesos ambiciosos de moderni-
zación. Esto permitirá a los responsables políticos apostar por la toma de decisiones informadas
que mejoren la calidad de los servicios públicos, siendo de especial relevancia para el programa
aquellos que impactan más directamente en la cohesión social.
10
1. Introducción
La palabra “evaluación” puede ser interpretada de manera bastante amplia. Significa cosas dife-
rentes para distintas personas y organizaciones. Los ingenieros o los encargados de calidad en
un proceso de producción, por ejemplo, pueden evaluar o probar la calidad del diseño de un
producto, la durabilidad del material, la eficiencia de un proceso productivo o la seguridad de
un puente. Los críticos evalúan la calidad de un restaurante, película o libro. Un psicólogo de
niños puede evaluar o valorar el proceso de decisión de los niños. Sin embargo, el tipo de eva-
luación en que se enmarca este trabajo es el de la evaluación de una política o intervención
pública. En este sentido y en pocas palabras, la evaluación de un programa está destinada a
responder la pregunta: “¿Cómo está funcionando nuestro programa o política?”. Esto puede te-
ner distintas respuestas dependiendo de quién esté preguntando, y a quién le están hablando.
Por ejemplo, si un organismo internacional (Banco Mundial, BIRD, etc.) que invierte 10 millones
de euros en un programa pregunta al director de dicho programa: “¿Cómo está funcionando
nuestro programa?”. Esta pregunta se puede interpretar como: “¿Has estado malgastando nues-
tro dinero?”, que, sin duda, puede parecer una especie de interrogatorio. Alternativamente, si un
político pregunta a su electorado, “¿Cómo está funcionando nuestro programa?”, podría estar
simplemente preguntando: “¿Está nuestro programa alcanzando sus metas? ¿Cómo podemos
mejorarlo para usted?”. Por ende, la evaluación de programas puede ser asociada con sentimien-
tos positivos o negativos, dependiendo de si su objetivo es el de exigir una rendición de cuentas
o si se trata de un deseo de aprender.
A un nivel muy básico, las evaluaciones de una política pública (ver Wholey, 2010, López-Aceve-
do y Tan, 2010 y NSF, 2002 para más detalles) tratan de contestar a la pregunta clave: ¿fue efec-
tivo el programa?, lo que se considera una “evaluación de impacto”. Además, en el caso de que
el programa estuviera bien pensado en su diseño e implementación, también es posible respon-
der a las siguientes preguntas: ¿cuánto de efectivo fue?, ¿hubo efectos involuntarios?, ¿quién se
benefició más?, ¿quién salió perjudicado?, ¿por qué funcionó o por qué no?, ¿qué aprendizajes
pueden ser aplicados en otros contextos, o si el programa se lleva a mayor escala?, ¿relación
costo-efectividad del programa?, ¿cómo se compara con otros programas diseñados para cum-
plir los mismos objetivos?
Este documento pretende ofrecer una guía metodológica que permita determinar el diseño de
evaluación cuantitativa óptima, en términos de idoneidad, viabilidad y que resulte asequible en
términos presupuestarios, dependiendo de las características del programa implementado por
el gobierno1. Por lo tanto, los dos elementos fundamentales desarrollados en este manual son:
• En primer lugar, identificar criterios para definir si corresponde (o no) hacer una evalua-
ción cuantitativa (y en especial de impacto) en una determinada intervención, estudian-
do qué condiciones se deben cumplir para que esa política sea merecedora (o no) de
una evaluación de este tipo.
• En segundo lugar, después de que se decida realizar una evaluación cuantitativa, definir
etapas y criterios que guíen el diseño de la evaluación de impacto más adecuado para la
intervención a evaluar, para con posterioridad determinar la técnica de análisis específica.
1
Es fundamentalmente un documento técnico para personas que se van a encargar de realizar dichas evaluaciones. Para
más detalles consultar Gertler et al. (2010), Khandker et al. (2010) y Holden y Zimmerman (2009).
11
Para contestar a esta pregunta existe la posibilidad de emplear evaluaciones de tipo cuantitati-
vo o evaluaciones cualitativas.
• La evaluación cuantitativa está orientada hacia los objetivos que se desean estudiar y
aboga por la utilización de métodos cuantitativos, mediante el empleo de métodos es-
tadísticos, para lo que será necesario usar datos “exactos”. Los instrumentos empleados
serán independientes de sesgos del evaluador.
• La evaluación cualitativa se encuentra más libre de objetivos. Es un enfoque no estruc-
turado, con claro componente “subjetivo” en el que todo conocimiento o información
es aceptable. Se encuentra sobre todo orientada a procesos. Desarrolla informes des-
criptivos, interpretativos o estudio de casos, mediante información “real”, “rica” y “pro-
funda”.
Además de esta diferenciación entre tipos de evaluación presentada previamente, existen dife-
rentes posibilidades de describir los distintos tipos de evaluaciones que se pueden realizar para
estudiar una determinada política o intervención pública. Los más habituales son los siguientes:
Los programas y políticas se realizan para tratar de dar respuesta a unas necesidades específicas
que tiene la sociedad. Por ejemplo, podríamos observar que la incidencia de la diarrea en una
comunidad es particularmente alta. Esto puede deberse a comida o agua contaminada, mala
higiene o cualquier otra explicación plausible. Una evaluación de necesidades puede ayudarnos
a identificar la fuente del problema y a aquellos más perjudicados.
12
no resolver el problema. La evaluación de necesidades puede ser llevada a cabo utilizando indi-
cadores sociales, encuestas y censos, entrevistas, etc.
Los programas y políticas se realizan para contestar la existencia de ciertas necesidades. Sin
embargo, encontrar y solucionar esa necesidad, usualmente, necesita de cierto grado de re-
flexión. Para los responsables de políticas públicas requiere la identificación de las razones que
causan esos resultados indeseables, y elegir aquellas estrategias (entre una larga lista de opcio-
nes) para lograr tener distintos resultados.
Una evaluación teórica del programa trata de modelizar la teoría que está detrás del programa,
presentando un plan viable y factible para mejorar la situación de los individuos. Si las metas y
supuestos en los que se basa son irracionales, entonces existen muy pocas posibilidades de que
el programa sea efectivo. La evaluación teórica del programa incluye, primero, articular el pro-
grama teórico y, después, evaluar cómo de bien la teoría responde a las necesidades de la pobla-
ción objetivo. Las metodologías usadas en la evaluación teórica de programas incluyen el Enfo-
que del Marco Lógico o Teoría del Cambio. En la siguiente figura se muestra un ejemplo simple
de un marco lógico:
Recursos
Actividades
finacieros Producto Resultado Impacto
y procesos
y físicos
Antes de ser lanzado, cualquier programa existe a nivel conceptual, pero una vez implementa-
do, el programa se enfrenta a la realidad del terreno, y comienzan las preguntas del tipo: ¿la or-
ganización cuenta con un equipo bien entrenado?, ¿están asignadas las responsabilidades de
forma correcta?, ¿están siendo completadas las tareas de los organismos intermediarios a
tiempo?
13
Las evaluaciones de procesos son usadas a menudo por los administradores como puntos de
referencia para medir el éxito.
Conseguir esta medición de manera correcta es más difícil de lo que parece. Es posible medir la
incidencia de una determinada enfermedad en una población que recibe el programa, pero es
imposible medir directamente cómo hubiera estado esta misma población si no hubiese recibi-
do el programa —así como es imposible medir cuál sería la enfermedad más mortal hoy en día
si no se hubiese descubierto la penicilina, ya que es posible que pequeñas heridas siguieran
siendo causantes de muchas muertes, o alternativamente, algo parecido a la penicilina hubiese
sido descubierto en un laboratorio diferente en otra parte del mundo—.
2
Dentro de la evaluación de impacto, la primera gran diferencia que se establece es entre evaluación ex-post y evaluación
ex-ante. La primera de ellas es la evaluación que se realiza cuando el programa público ya se ha realizado o se está
implementando utilizando datos observados. Sin embargo, la evaluación de impacto ex-ante se centra en estimar el efecto
de la política antes de que esta se realice, realizando previsiones o proyecciones utilizando modelos de microsimulación.
14
Es posible que una determinada ONG pueda abogar por realizar inversiones en infraestructuras
para lograr sanear el agua, mediante un sistema de alcantarillado, tuberías de agua, etc. Otra
ONG podría proponer un sistema de distribución donde los hogares reciban, gratuitamente,
tabletas de cloro para tratar el agua en su propia casa. Si estos dos métodos fuesen igualmente
efectivos —ya que cada uno de ellos es capaz de reducir la diarrea en un 80%—, la pregunta si-
guiente que surge es ¿los responsables políticos estarían igual de contentos implementando
una u otra política? Probablemente no; ya que aunque tienen el mismo grado de efectividad
sería necesario considerar los costes de cada estrategia.
Un análisis costo-beneficio cuantifica los beneficios y costes de una actividad y los pone en la
misma medida métrica (a menudo en una unidad monetaria). Se trata de responder la pregunta:
¿está el programa produciendo suficientes beneficios para compensar los costes? O en otras
palabras, ¿la sociedad será más rica o más pobre después de realizar esta inversión? De todas
formas, tratar de cuantificar el beneficio de la salud de los niños en términos monetarios puede
ser extremadamente difícil y subjetivo. Por lo tanto, cuando el valor exacto del beneficio carece
de un amplio consenso, este tipo de análisis puede producir resultados que son más controver-
tidos que esclarecedores. Este enfoque es más útil cuando hay múltiples tipos de beneficios y se
ha acordado monetizarlos.
15
3.1. Necesidad de mayor transparencia de los impactos, costes y beneficios en las evaluaciones
cuantitativas
Una persona sin conocimientos de economía puede tener dificultades si intenta leer un análisis
de impacto, o de costo-beneficio o costo-eficacia que le permita determinar con rapidez qué
costes y qué beneficios se han incluido en el análisis. Es posible que existan costes o beneficios
realmente importantes, pero que han sido excluidos del análisis cuantitativo. En estas situacio-
nes resulta imprescindible ser prudente a la hora de utilizar estos resultados en la toma de deci-
siones futuras.
Una forma eficaz de comunicar de manera rápida y exacta el tipo de costes y resultados que se
han introducido en el análisis cuantitativo, es mostrar las variables de la intervención mediante
un modelo visual, como son los marcos lógicos. Estos modelos muestran en un formato esque-
mático todos los resultados a largo plazo (es decir, nuestra variable de interés que es el im-
pacto del programa) que se buscan por una intervención pública, así como todos los pasos
(variables) de nivel inferior, ya sean estos resultados a medio y corto plazo, que se consideran
necesarios para alcanzar el objetivo final a largo plazo. Estos modelos se diseñan de acuerdo
con un conjunto de reglas, que garantizan que los resultados de una determinada interven-
ción pública representan con exactitud sus medidas y resultados. Es importante que el mo-
delo de resultados de una intervención represente un panorama completo de lo que se cree
que va a ocurrir en la intervención. Por ejemplo, el marco lógico debe indicar si los resultados
de la variable de interés son cuantificables o no, si están controlados completamente por la
intervención, o si los efectos son buscados o no (externalidades del programa), entre otro
tipo de información.
Sin duda, para evaluar de forma óptima, es necesario incluir un marco lógico en el inicio de cada
análisis de impacto, costo-eficacia o costo-beneficio para que se puedan determinar las varia-
bles que se utilizan en el análisis. Si esto se hace de manera sistemática en todas las evaluaciones
cuantitativas entonces es posible ofrecer a cualquier lector una herramienta útil que permita
16
determinar rápidamente qué variables están (y cuáles no) incluidas en el análisis3. Además,
el uso habitual de estos “modelos de resultados” en los análisis cuantitativos también facilita la
labor a las personas que desean comparar diferentes informes de impactos, costes y beneficios
de una misma intervención pública, ya que se puede comprender rápidamente si las diferencias
en los resultados de los diferentes análisis se deben a incluir o no determinadas variables en el
estudio.
La segunda cuestión en la que los “modelos de resultados” abogan por una mayor transparencia
en el análisis cuantitativo hace referencia a la credibilidad (o valor probatorio) de las estimacio-
nes realizadas sobre los efectos de la política. Desde el punto de vista de la teoría de los resulta-
dos, el efecto de una intervención se define formalmente como la cantidad de cambio en la va-
riable de interés (resultado a largo plazo o impacto) que se puede atribuir completamente al
efecto causal de etapas intermedias (resultados a medio o corto plazo) o un conjunto de pasos
—es decir, una intervención— dentro del mismo modelo de resultados.
3
El intento de comunicar esta información en una forma narrativa es mucho más ineficiente que el uso de un enfoque visual.
17
• Análisis cuando “no” se dispone de información de resultados para realizar una estima-
ción sobre el efecto del impacto, es decir, no se tiene información de nuestra variable de
interés a largo plazo (indicador de impacto), y tampoco de indicadores a corto y medio
plazo (en el mejor de los casos se tiene información de indicadores de productos).
• Análisis cuando se dispone de información empírica para estimar el impacto mediante
el efecto que la política tiene sobre variables de resultados a medio o corto plazo
• Análisis cuando se dispone de información empírica para realizar la estimación del im-
pacto en una variable de resultados a largo plazo (una variable de impacto).
Teniendo presente estas tres opciones, que dependen de la información disponible, la situación
correcta en la que se pueden realizar evaluaciones de impacto es la tercera, ya que las dos con-
diciones clave para realizar un estudio de esta característica es disponer de información de la
variable de interés y que esta variable refleje el comportamiento a largo plazo buscado por la
política que se ha implementado. En el caso de disponer de información de medio y corto plazo
se puede estudiar el efecto inmediato (efecto coyuntural) que tiene una política, pero no se
puede decir nada sobre el largo plazo (efecto estructural), que es precisamente el objetivo. Fi-
nalmente, si no se puede disponer de información de resultados de ningún tipo, resulta inviable
realizar ningún tipo de estudio de impacto de una intervención pública.
4
En la actualidad, el medio empleado para analizar la incertidumbre en las estimaciones es a través de un análisis de
sensibilidad. Un análisis de sensibilidad consiste en realizar un análisis económico una serie de veces variando aquellas
estimaciones clave sobre las que se cree que existen dudas con el fin de ver el efecto que esta modificación puede tener
en el resultado final.
18
Es necesario tener claro que la atribución de los efectos en la variable de resultados a largo plazo
(es decir, el impacto) de una intervención pública es uno de los pilares básicos de todos los sis-
temas basados en resultados, pero es necesario volver a recordar que la evaluación cuantitativa
de una política puede ser cualquier tipo de evaluación, como la evaluación de seguimiento,
gestión del rendimiento o planificación estratégica, que trata de especificar los resultados de un
programa, medirlos, atribuirlos, y responsabilizar a las resultados a corto y medio plazo para dar
cuenta de su consecución. Sin duda, esto es un enfoque mucho más amplio que el dado exclu-
sivamente por las evaluaciones de impacto, y el objetivo de este documento consiste en deter-
minar si realizar una evaluación de impacto es lo más adecuado, si es viable y asequible, cuando
se pretende estudiar la eficacia de una determinada intervención pública.
4.1. El problema de suponer que siempre se puede realizar una evaluación de impacto
No se debe suponer, antes de tiempo, que siempre se debe realizar una evaluación de impacto
de un programa. Es necesario saber, para cada caso, si se va a realizar una evaluación de impacto,
empleando para ello un análisis cuidadoso de la pertinencia, la viabilidad y la factibilidad (eco-
nómica) de la implementación de esta evaluación, siendo estos tres aspectos de vital importan-
cia, ya que la evaluación de impacto puede, o no, ser apropiada, factible y/o económicamente
viable dependiendo de cada tipo de programa o intervención pública que se desea estudiar.
Por desgracia, muchos interesados, a distintos niveles, creen que se puede (y se debe) realizar
evaluaciones de impacto de manera rutinaria a todos los programas. Paradójicamente, esa insis-
tencia en tratar de realizar evaluaciones de impacto de manera sistemática, puede conducir al
resultado no deseado de desperdiciar recursos (que son limitados) por tratar de realizar una
evaluación de este tipo. La insistencia ingenua de que solo los resultados de la evaluación de
impacto se deben utilizar para determinar qué intervenciones deben realizarse, sin tener en
cuenta la conveniencia, viabilidad y asequibilidad económica de dicha evaluación de impacto
puede provocar graves distorsiones de los sistemas de monitoreo, seguimiento y evaluación, ya
que pueden llevar a la situación extrema de que solo se termine haciendo aquello que se puede
evaluar fácilmente. Por el contrario, las decisiones estratégicas no deben basarse solo en hacer
19
aquello que es fácilmente evaluable, sino hacer aquello que tenga la mayor posibilidad de éxito
y que sea lo más eficaz posible.
4.1.1. Creer que siempre se debe hacer una evaluación de impacto genera problemas
Es posible que se crea que para cualquier programa público se debe realizar una evaluación de
impacto. Este enfoque puede provocar la aparición de una serie de problemas. Estos son:
El siguiente proceso sirve para determinar si se debe llevar a cabo una evaluación de impacto.
20
21
Ya se ha comentado que suponer que siempre se debe realizar una evaluación de impacto es un
error, ya que pueden existir otros diseños de evaluación más adecuados. Partiendo de la informa-
ción dada en la sección 2 de este documento, las formas de evaluación de una política pública se
pueden resumir en tres. La primera es la evaluación formativa que pretende ayudar a optimizar la
implementación de la intervención pública, este tipo de evaluación utiliza una serie de técnicas de
evaluación tales como modelos lógicos o consultas con los interesados y análisis de necesidades
para asegurarse de que el programa o intervención tiene las mayores posibilidades de éxito. La se-
gunda es la evaluación de proceso, que tiene como objetivo describir el curso y el contexto de un
programa o intervención, este tipo de evaluación ayuda en la interpretación de los resultados de la
evaluación de impacto, y se puede introducir en la evaluación formativa para mejorar el programa.
También vale para identificar “buenas prácticas”, que se pueden utilizar para mejorar otros progra-
mas en el futuro. El tercer tipo es la evaluación de impacto que trata de atribuir los cambios en la
variable de resultado (previsto, no, positivo y negativo) a un determinado programa o intervención.
Teniendo todo esto en cuenta, a menudo es mucho más estratégico establecer una evaluación que
utilice la evaluación formativa, que permita asegurar que la intervención se lleva a cabo de una
manera óptima, y utilizar una evaluación de procesos para identificar las mejores prácticas, y no
realizar una evaluación de impacto, debido a que esta última evaluación a menudo es costosa, y
asegurarse de que se lleva a cabo de manera correcta puede resultar muy difícil.
4.2.2. El diseño de evaluación de impacto puede ser una decisión técnicamente compleja
En aquellas situaciones en las que se ha decido realizar una evaluación de impacto, el siguiente
paso consiste en decidir qué diseño entre todos los posibles se debe emplear, lo que puede lle-
gar a ser un ejercicio muy técnico. Sin lugar a dudas, para ello, es imprescindible que el planifi-
cador de la evaluación deba estar familiarizado con todos los posibles diseños de evaluación de
impacto existentes. El propósito de lo que queda de documento es proporcionar un marco de
decisiones a los diseñadores de una evaluación, para que puedan trabajar con una base metodo-
lógica sobre diseños de evaluación de impacto y poder justificar por qué se ha tomado una deter-
minada decisión sobre qué técnica de estimación utilizar. En el caso de que la persona que planifi-
ca la evaluación no esté familiarizada con los diseños de evaluación de impacto es recomendable
que se ponga en contacto con personas que tengan más experiencia en este tema. Sin embargo,
si trabajan de forma continuada con información como la dada en este documento, debería per-
mitirles, a través del uso repetido de estas tablas, poder tomar decisiones, dado que poseen un
marco más coherente y sólido sobre posibles diseños de la evaluación de impacto.
22
Aunque las preguntas de causa y efecto son bastante comunes, no es fácil determinar que una
relación entre dos variables sea de causalidad. En el contexto de un programa de formación
profesional, por ejemplo, la simple observación de que el ingreso de un individuo aumenta
después de que él o ella hubieran completado un programa de capacitación no es suficiente
para establecer la causalidad. El ingreso de una persona podría haber aumentado incluso si no
hubiera realizado el curso de capacitación debido a su propio esfuerzo, a las condiciones cam-
biantes del mercado de trabajo, o por otro tipo de factor que puede afectar a los ingresos. Las
evaluaciones de impacto nos ayudan a superar el reto de estudiar la causalidad empíricamen-
te al establecer en qué medida un determinado programa, y solamente ese programa, contri-
buyó al cambio en la variable de resultado. Para establecer la causalidad entre un programa y
un resultado, utilizamos los métodos de evaluación de impacto que nos permiten descartar la
posibilidad de que la variable de interés se viera afectada por otros factores, aparte del progra-
ma de interés.
α = (Y | P = 1) - (Y | P = 0) (1)
Esta fórmula nos indica que el impacto causal de un programa (P) en un resultado (Y), denomi-
nado por α, es la diferencia entre la variable de resultado (Y) cuando el individuo recibe el pro-
grama (en otras palabras, cuando P=1) menos el resultado Y en el caso de no recibir el programa
(es decir, cuando P=0). Por ejemplo, supongamos que P es un programa de capacitación y que-
remos ver su efecto sobre la variable de resultados Y que es el ingreso de esa persona. El impac-
to causal del curso de capacitación (α) es la diferencia entre el ingreso que la persona (Y) tendría
tras realizar el curso (P=1) menos el ingreso (Y) que tendría esa misma persona, y en el mismo
momento de tiempo, en el caso de no haber realizado el curso (P=0).
En otras palabras, el investigador quiere medir el ingreso en el mismo momento de tiempo para
la misma unidad (en este caso una persona) pero en dos estados distintos. Si esto fuera posible,
observaríamos qué ingreso tendría un mismo individuo si hubiera hecho el curso y si no lo hu-
biera cursado, de tal modo que la única explicación sobre la diferencia de ingresos es debida a
la realización del curso. Mediante la comparación de la misma persona consigo misma en el
mismo momento, habríamos logrado eliminar cualquier factor externo con el que también po-
dríamos haber explicado la diferencia en los resultados. Entonces, es posible estar seguros de
que la relación entre el programa de formación profesional y los ingresos es causal.
23
La fórmula de evaluación de impacto presentada en (1) es válida para cualquier política o inter-
vención pública que se desee analizar mediante el estudio de una persona, una familia, una co-
munidad, una empresa, una escuela, un hospital, o cualquier otra unidad de observación que
puede recibir o ser afectado por un programa, así como para cualquier variable de resultado (Y)
que está plausiblemente relacionada con el programa en cuestión. Una vez que medimos los
dos componentes clave de esta fórmula, el resultado (Y), con y sin el programa, entonces es
posible responder a cualquier pregunta sobre el impacto del programa.
5.1. El contrafactual
Como se expresó anteriormente, se puede pensar que el impacto de un programa (α) se obtiene
como la diferencia de la variable de resultados (Y) para el mismo individuo en los casos de reci-
bir y no recibir un programa. Sin embargo, la medición en la misma persona de dos estados
diferentes al mismo tiempo es imposible, ya que un individuo participó o no en el programa,
pero no se dan ambos resultados a la vez, es decir: la persona no puede ser observada simul-
táneamente en dos estados diferentes (en otras palabras, con y sin el programa). Esto se cono-
ce como “el problema contrafactual”: ¿cómo se mide lo que hubiera pasado si la otra circuns-
tancia hubiera prevalecido? Aunque se puede observar la variable de resultado (Y) para los
participantes en el programa (Y|P=1), no hay datos que nos digan cuál hubiera sido el valor de
su variable de resultado en el caso de no haber recibido el programa (Y|P=0), y es precisamen-
te este término (Y|P=0) el que representa al contrafactual. En otras palabras, se puede pensar
que esa cantidad nos está diciendo qué hubiera ocurrido si el participante no hubiera partici-
pado. Es decir, indica el valor de la variable de resultado (Y) en el caso de ausencia de un pro-
grama (P).
Por ejemplo, supongamos un “niño A “ que recibe una vacuna y luego muere cinco días después.
El hecho de que el niño A muera después de recibir una vacuna no puede concluir que la vacuna
causó la muerte. Tal vez el niño estaba muy enfermo cuando recibió la vacuna, y fue la enferme-
dad más que la vacuna la que le causó la muerte. Inferir la causalidad entre vacuna y muerte (o
enfermedad) va a requerir descartar otros posibles factores que puedan afectar al resultado en
cuestión.
En este ejemplo simple de determinar si recibir una vacuna causa la muerte al niño A, un evalua-
dor tendría que establecer qué habría pasado con el niño A en el caso de no haber recibido la
vacuna. Dado que el niño A de hecho recibió la vacuna, no es posible observar directamente lo
que habría pasado si no la hubiera recibido. “¿Qué le hubiera pasado de no haber recibido la
vacuna?” es la situación hipotética, y, a la vez, el principal desafío al que se enfrenta un evalua-
dor, por lo que el elemento clave para realizar la evaluación de impacto consiste en determinar
un estado “contrafactual” lo mejor posible para ver qué valor toma esta variable de resultado.
Por lo tanto, al llevar a cabo una evaluación de impacto, es relativamente fácil obtener el primer
término de la fórmula dada en (1) que es (Y|P=1)-el resultado en tratamiento (es decir, medir el
resultado de interés para la población que participó en el programa). Sin embargo, el segundo
término de la fórmula (Y|P=0) no puede ser observado directamente en los participantes del
programa, de ahí, la necesidad de llenar este elemento faltante de (1) mediante información que
permita obtener una estimación del contrafactual. Para ello, usamos normalmente un grupo de
comparación (a veces llamado “grupo de control”).
24
Para ilustrar aún más la estimación del contrafactual, pasamos a un ejemplo hipotético, que
ayudará a pensar a través de este concepto clave un poco más a fondo. A nivel conceptual, la
solución del problema contrafactual requiere que el evaluador pueda identificar un “clon perfec-
to” (o réplica perfecta) para cada participante en el programa. Por ejemplo, digamos que el señor
B recibe una transferencia del gobierno de 20 euros (política P), y queremos medir el impacto
que esta política tiene en su consumo de manzanas (variable Y). Si se pudiera identificar un clon
perfecto para el señor B, la evaluación sería fácil: solo con comparar el número de manzanas que
comió el señor B (digamos, 6) respecto al número de manzanas que comió su clon (por ejemplo,
4). Por lo tanto, aplicando la ecuación (1) se obtiene:
α = (Y | P = 1) - (Y | P = 0) = 6-4 = 2
En este caso, el impacto de la transferencia de dinero sería la diferencia entre esos dos números:
6-4= 2. Sin embargo, en la práctica sabemos que es imposible identificar réplicas perfectas: in-
cluso entre gemelos genéticamente idénticos, hay diferencias importantes.
Aunque no existe un clon perfecto para una sola persona, se pueden usar herramientas estadís-
ticas que permitan generar dos grupos de individuos que, si sus tamaños muestrales son lo su-
ficientemente grandes, son estadísticamente indistinguibles entre sí, dado que no es posible
observar diferencias significativas entre ambos. En la práctica, un objetivo clave de una evalua-
ción de impacto es identificar un grupo de participantes en el programa (grupo de tratamiento)
y un grupo de no participantes (grupo de control) que son estadísticamente idénticos en ausen-
cia del programa. Si los dos grupos son iguales, con la única excepción de que un grupo partici-
pa en el programa y el otro no, entonces podemos estar seguros de que cualquier diferencia en
los resultados es debido al programa.
Sin lugar a dudas, el elemento clave, entonces, es identificar un grupo de comparación o control
válido que tenga las mismas características que el grupo de tratamiento. En concreto, los grupos
de tratamiento y control deben ser similares al menos en tres elementos:
25
Cuando se cumplen estas tres condiciones, entonces solo la existencia del programa de interés
explicará cualquier diferencia en el resultado (Y) entre los dos grupos una vez que el programa
ha sido implementado. La razón es que la única divergencia entre los grupos de tratamiento y
de control es que los miembros del grupo de tratamiento recibirán el programa, mientras que
los miembros del grupo de comparación no lo harán. Cuando las diferencias en los resultados
pueden atribuirse totalmente al programa, entonces se ha identificado el impacto causal del
mismo. Así que en lugar de ver el impacto de la transferencia de renta de 20 € al señor B, el eva-
luador puede buscar el impacto de un conjunto (muestra) de hombres (que componen el grupo
de tratamiento). Si se pudiera identificar a otro grupo de hombres que son totalmente similares
al grupo de tratamiento, excepto en el hecho de que estos no reciben la transferencia de 20 €, la
estimación del impacto del programa sería la diferencia entre los dos grupos en el consumo
promedio de manzanas. Por lo tanto, si el grupo tratado consume un promedio de 6 manzanas
por persona, mientras que el grupo de comparación solo consume un promedio de 4, entonces,
la fórmula que calcula el impacto del programa es:
Ahora que hemos definido un grupo de comparación válido, es importante considerar lo que
pasaría si decidimos seguir adelante con una evaluación sin identificar correctamente este gru-
po de control, situación que se produce cuando el grupo de control empleado difiere del grupo
de tratamiento de alguna manera que no sea la debida a recibir o no la política. Esas diferencias
adicionales pueden hacer que nuestra estimación de impacto no sea válida o, en términos esta-
dísticos, sea sesgada: no va a estimar el verdadero impacto del programa. Más bien, se va a esti-
mar el efecto del programa mezclado con el efecto de esas otras diferencias.
Es decir, nuestro cálculo de diferencia de la Y entre los dos grupos ya no coincide con el efecto
verdadero de la política, sino que nuestra estimación es igual al impacto verdadero (α) más un
término adicional, que denominamos sesgo de selección y que analizaremos con posterioridad.
Así pues, el gran reto metodológico que plantea la evaluación de impacto es cómo definir a
un grupo de individuos que, además de no participar o beneficiarse del programa o política,
26
constituya un contrafactual creíble, de tal modo que su variable de resultados pueda conside-
rarse equivalente al que habríamos observado para los beneficiarios de la política si esta no les
hubiera sido aplicada. Existen dos grandes aproximaciones en la evaluación de impacto para
definir este grupo de control. Estos dos métodos difieren entre sí en función del procedimiento
utilizado para definir el grupo de individuos que actúan como contrafactual:
• Los diseños experimentales son aquellos en los que, partiendo de una población de po-
tenciales beneficiarios de la política, los individuos acaban participando o no de acuerdo
con un mecanismo de asignación puramente aleatorio; los individuos que no participan,
el denominado grupo de control, constituyen el contrafactual en este tipo de diseño.
• El resto de métodos disponibles, denominados diseños cuasiexperimentales, compar-
ten la característica de que la participación de los individuos en el programa no la define
un procedimiento aleatorio: ya sea porque son los propios individuos los que deciden si
participar o no, o debido a que otro agente toma esa decisión, o por las dos cosas al
mismo tiempo. En los diseños cuasiexperimentales, el contrafactual se define a partir de
los individuos que no participan en el programa, que constituyen lo que se denomina
grupo de comparación.
Para poder estimar correctamente el efecto de una política, el grupo de comparación debe ser
idéntico a los beneficiarios (el grupo de tratamiento) en todos los aspectos excepto en que no
reciben la intervención. Sin embargo, la forma en que se seleccionan los beneficiarios (y los no
participantes) puede reducir el nivel de comparabilidad entre los grupos de tratamiento y de
comparación. A la hora de estudiar los efectos de la política se suele utilizar uno de los dos pro-
cedimientos para la selección de los participantes:
Por lo tanto, los participantes pueden tener características especiales, a menudo (cor)relaciona-
das tanto con la participación o el éxito del proyecto, que los distinguen de los no participantes.
En términos econométricos, este es un problema de endogeneidad que sesga las estimaciones
de impacto.
Vamos a considerar una política que está focalizada en mujeres entre 30 y 40 años. El objetivo de
la política es tratar de aumentar el grado de empleabilidad de este grupo de mujeres y para ello
ofrece realizar un curso de capacitación que incrementará sus capacidades en el mercado labo-
ral. Para aumentar el grado de participación, el gobierno ofrece 200 euros mensuales a aquellas
mujeres que acudan al menos al 80% de las clases. ¿Qué puede ocurrir? Es posible que las muje-
res que componen el grupo de tratamiento y control sean muy distintas. Es más que probable
que la mayoría de participantes sean mujeres sin hijos pequeños, ya que su salario de “reserva”
27
es muy bajo y por lo tanto les resulta interesante participar en el curso de capacitación. Sin embar-
go, mujeres con niños pequeños, creen que esos 200 euros no compensa el beneficio que les ge-
nera cuidar de sus propios hijos y, por lo tanto, rechazarán participar en el programa, así que al final
en el grupo de participación puede haber un 80% de mujeres “sin hijos” mientras que en el de
control solo exista un 15% de este tipo de mujeres. Este es un ejemplo claro en el que una variable
(tener niños pequeños) afecta a la participación en el programa y supone un “sesgo de selección” .
Desde un punto de vista analítico, partiendo de la ecuación que calcula la evaluación de impac-
to de una política:
α = E (Y | P = 1) - E (Y | P = 0)
Sin embargo, existen situaciones en las que las características de selección de los individuos que
afectan tanto a la participación como al resultado de la variable de interés no se pueden observar
—como puede ser la “inteligencia” de un trabajador, el nivel de “emprendedor” y “sensibilidad por
28
Dentro de las técnicas de evaluación cuantitativa existen varios tipos de diseño claramente dife-
renciados que permiten estudiar el efecto en la variable de resultado de largo plazo de un deter-
minado programa. Con todas las posibilidades de evaluaciones, es necesario establecer un pro-
cedimiento que permita ayudar a los usuarios a determinar qué tipo de evaluación cuantitativa
es mejor para un programa o intervención pública, analizando si el diseño de impacto es apro-
piado, factible y si es asequible (en términos de costo). La fortaleza de este enfoque radica en
que se tiene en cuenta una gama muy completa de tipos de evaluación cuantitativa, y si para
cada uno de los programas públicos se examina la conveniencia, viabilidad y asequibilidad de
cada uno de estos tipos de diseño, entonces es posible determinar qué tipo, entre todos ellos, es
el que presenta mejores propiedades para llevar a cabo una evaluación de ese programa en
particular (teniendo en cuenta que esta evaluación sea apropiada, viable y asequible). Los dis-
tintos diseños posibles dentro de la evaluación cuantitativa son:
Como se muestra en la figura de la página siguiente, que establece un diagrama que permite
diferenciar entre los distintos enfoques enumerados previamente, se puede establecer una pri-
mera diferencia entre los diseños de evaluación cuantitativa dependiendo de si se dispone de
contrafactual para realizar el estudio. Por un lado, estarían las aproximaciones (5), (6) y (7), que
no emplean grupo de control, mientras que los diseños del (1) al (3) necesitan disponer de un
grupo de comparación para evaluar el impacto del programa.
Dentro de los diseños de evaluación de impacto, la primera división se establece entre si se trata
de un diseño experimental o no, como ya se vio en la sección anterior. Para cada uno de los di-
seños, y dependiendo del tipo de sesgo que exista, se determina la técnica de estimación de
impacto óptima.
Por el momento estos diseños de evaluación se van a especificar utilizando un lenguaje sencillo
empleado en la evaluación y análisis de políticas, aunque es posible realizar una especificación
en un lenguaje más técnico y matemático mediante la descripción de estos diseños en forma
econométrica o estadística. La tabla 1 muestra los términos técnicos utilizados a la hora de ana-
lizar los distintos diseños en la evaluación cuantitativa.
29
Evaluación
cuantitativa
Regresión en
discontinuidad
Línea de base o medida Cuantificación de la variable de interés antes de que tenga lugar la
preintervención intervención
30
En un diseño experimental puro se dispone de un conjunto de individuos (ya sean estos perso-
nas, organizaciones, regiones u otras unidades), que se asignan de manera aleatoria al grupo de
tratamiento o al grupo de control, para, a continuación, comparar los cambios en la variable de
interés (resultado de largo plazo). Si se observa un efecto en la variable de resultado en el grupo
de tratamiento, en comparación al de control, se supone que esta diferencia ha sido causada por
la intervención, y no por otro factor, ya que la asignación de las unidades al grupo de control y
tratamiento ha sido aleatoria. Existe otra alternativa al diseño experimental puro que es el dise-
ño experimental con lista de espera.
Población
Aleatorización
Muestra
Aleatorización
Una variación en el diseño experimental básico es el diseño con “lista de espera”. En este diseño
las personas (u otras unidades) que desean participar en el experimento y recibir el tratamiento
(es decir, están en lista de espera) son asignados de manera aleatoria a recibir la intervención
inmediata (grupo de tratamiento), o continuar en lista de espera y recibir la intervención con
posterioridad (grupo de control). Sin duda, esta situación no se puede considerar como un dise-
ño experimental puro, situación en la que el grupo de control nunca recibe la intervención. Sin
embargo, este diseño se considera a menudo como más adecuado, porque es más ético ya que
el grupo de control acaba recibiendo el tratamiento, y más factible, porque los participantes y
las partes interesadas son más propensos a aceptarlo, que en el caso de diseños experimentales
puros. Sin embargo, el problema con este tipo de diseño es que es necesario poder medir de
manera efectiva y real el impacto que la intervención va a ejercer a lo largo del tiempo entre el
grupo de tratamiento (que recibe la intervención) y el grupo de control (que la recibirá con pos-
terioridad). Es posible que en el caso de intervenciones en las que sea necesario un tiempo rela-
tivamente largo para mejorar los resultados, como ocurre en las políticas educativas, el diseño
experimental de lista de espera no resulta el más apropiado.
31
Existe gran cantidad de trabajos que emplean este tipo de enfoque, a destacar entre otros los de
Angrist et al. (2002), Banerjee et al. (2002) y Behrman y Hoddinott (2005), Duflo et al. (2008) y
Moffit (2003).
Los supuestos necesarios para que la aplicación de esta metodología presente buenas propie-
dades son:
• La media de la variable resultado para el grupo de control es igual a la que hubiera teni-
do el grupo de tratamiento si no hubiese participado en la intervención.
• La muestra está equilibrada en variables observables y en variables no observadas.
Existen dos situaciones que se producen habitualmente en las que la asignación aleatoria resul-
ta ser un método de evaluación de impacto bastante factible:
Sin duda, este diseño es el ideal entre todos los posibles enfoques. En el caso de poder im
plementar un diseño experimental, se van a generar las estimaciones de impacto óptimas,
32
estadísticamente superiores a cualquier otro tipo de aproximación. Sin embargo, este enfoque
presenta ciertas debilidades, que podemos separar en:
5
Otra posibilidad de variable empleada para realizar el corte entre tratados y no tratados puede ser “la nota obtenida en
matemáticas o lectura de los estudiantes” o las “tasas de delincuencia” en determinados distritos policiales. “Número de
trabajadores” para una política en PYMES, o “edad” de los desempleados en una política de mercado laboral, etc.
6
Esta variable que indica qué individuos son elegibles para la intervención no es la variable de interés. Es una variable
auxiliar.
33
80 80
75
75
Outcome
Outcome
70
70
65
60 65
20 30 40 50 60 70 80 20 30 40 50 60 70 80
Índice Índice
El método tiene que cumplir ciertas condiciones para que sus estimaciones presenten buenas
propiedades en términos estadísticos. Primeramente, la selección debe ser determinada por la
posición respecto al umbral, definido a lo largo de una variable continua, situación que, por
ejemplo, es habitual en las reglas administrativas: variables como el ingreso de hogares y el ta-
maño de las empresas, la nota obtenida en un examen, medidas de duración o tiempo acumu-
lado en un determinado estado, como desempleo, etc.
Otra condición sobre la aplicabilidad de la RD es que los individuos no pueden ser capaces de mani-
pular su situación respecto al umbral para participar en el programa, conociéndose este problema
como la “manipulación de las variables”. Supongamos una política que va destinada a PYMES, enton-
ces el número de trabajadores (15) determina si puedes ser beneficiario del programa. Es posible que
en esta situación existan empresas que quieran manipular su situación respecto a la frontera (es decir,
número de trabajadores que contrata), que claramente afecta a la posibilidad de elegibilidad de la
ayuda en sus decisiones de contratación. La ocurrencia de este suceso se puede contrastar porque a la
hora de ver la frecuencia de distribución del tamaño de la empresa se observaría un pico en ese valor.
La tercera cuestión que hay que tener en cuenta en el diseño de la RD es la posibilidad de que
otro tipo de cambios ocurran en la línea de corte de la variable. Estos cambios pueden afectar a
la variable de interés, y este efecto puede ser atribuido erróneamente al tratamiento. Usando el
ejemplo previo, supongamos que el valor de 15 trabajadores es el límite para poder aplicar una
legislación de protección laboral o para poder ser elegidos para los beneficios de desempleo.
Puede ser que ahora, al calcular el impacto, no se pueda separar qué parte de esa cuantía es
debida a la nueva legislación y qué parte es debida al programa original de pymes.
Como ventaja de este diseño está que permite identificar efectos causales del programa sin
imponer restricciones arbitrarias de exclusión, las hipótesis sobre el proceso de selección, las
34
formas funcionales o supuestos sobre la distribución de los errores. El diseño RD puede ser la
mejor alternativa a los estudios aleatorizados para evaluar la efectividad del programa. El ele-
mento más importante del diseño RD es el uso de la puntuación de un “corte” en una medida
pretest para determinar la asignación a intervención o control. Una característica importante de
esta técnica es que la medida de la selección no tiene por qué ser la misma que la medida de
resultado, maximizando así la capacidad del programa para utilizar las guías de práctica basadas
en la investigación, instrumentos de encuestas y otras herramientas para identificar a las perso-
nas más necesitadas de la intervención del programa. Otras posibles ventajas que merecen ser
destacadas son:
• Nos ofrece una estimación insesgada del efecto del tratamiento en la discontinuidad.
• Muchas veces, si se tiene una regla conocida para determinar qué individuos pertene-
cen al grupo de beneficiarios y cuáles al de control supone una ventaja. Este tipo de re-
glas son comunes en el diseño de la política social (una definición de pobreza es aquella
situación en la que un individuo tiene una renta inferior al 60% de la mediana o media
de la distribución de ingresos de la población de referencia).
Por otro lado, este diseño presenta dos limitaciones notables. En primer lugar, su viabilidad está,
por definición, limitada a aquellos casos en los que la selección se lleva a cabo en una medida
previa a la intervención observable, y no suele ser un hecho que se dé habitualmente. En segun-
do lugar, incluso cuando el diseño es factible, solo identifica el impacto medio en el umbral para
la selección. Lo que en presencia de efectos heterogéneos en los individuos no dice nada rele-
vante sobre el impacto en las unidades de distancia del umbral de selección. En este sentido,
solo se identifica un impacto medio local del tratamiento. Otras desventajas son:
• Estimación local: los efectos del tratamiento alrededor del corte del índice no siempre
son generalizables.
• Potencia: el efecto es estimado en la discontinuidad, así generalmente tenemos me-
nos observaciones que en un experimento aleatorio para un mismo tamaño de
muestra.
• La especificación puede ser sensible a la forma funcional: tenemos que modelar correc-
tamente la relación entre la variable de asignación y la variable de resultado.
- Relaciones no lineales.
- Interacciones.
Un diseño de series temporales utiliza el hecho de poder disponer de una sucesión suficiente-
mente larga y amplia en el tiempo de mediciones de la variable de interés o variable de impacto.
En estos casos, una vez que ha pasado algo de tiempo (es decir, tenemos información previa a la
intervención), se realiza la política pública, y es necesario saber si el programa ha tenido el efec-
to buscado. Si esto es así debemos ser capaces de observar un cambio significativo en el nivel de
la serie temporal de la variable de interés en un determinado momento de tiempo, que es cuan-
do ocurrió la intervención pública.
35
250
200
Efecto del tratamiento
150
100
50
0
1995 1997 1999 2001 2003 2005 2007 2009 2011
Dentro de las técnicas de series temporales se recomienda consultar el libro de Harvey (1990).
La utilización de este diseño con plenas garantías de éxito se basa en los siguientes supuestos:
Se dispone de este tipo de diseño de evaluación cuando es posible encontrar un grupo de indi-
viduos que presentan características similares en muchos aspectos al grupo de tratamiento, sal-
vo por el hecho de que estos individuos no están recibiendo la intervención. Por ejemplo, su-
pongamos que tenemos un programa que se implementa en un(os) distrito(s) de la ciudad. En
esta situación, el grupo de control podría estar compuesto por distritos que son similares a los
distritos sobre los que se realizó la política, pero que no la han recibido. Otra opción seria la uti-
lización de diferentes ciudades o departamentos.
Existe una variación de esta versión de emparejamiento, que emplea la misma lógica subya-
cente, y consiste en realizar estimaciones de lo que ocurre en promedio a las personas
que presentan una determinada probabilidad de recibir un tratamiento, en función de un
36
A continuación pasamos a analizar los supuestos necesarios para cada una de las técnicas de
evaluación asociadas con la construcción de grupos de control para emparejamiento.
Existen multitud de ejemplos en los que la técnica de variables instrumentales se pueden apli-
car: cambios en las reglas administrativas entre jurisdicciones limítrofes, cambios súbitos en la
legislación, debido a modificaciones de reglas políticas, factores geográficos, como un cambio
en la proximidad entre el cliente y el suministrador del servicio, descensos inesperados del pre-
supuesto de un programa, cambios en las “condiciones administrativas”. Todos estos ejemplos
producen experimentos naturales. Estas “fuerzas externas”, en términos econométricos, se de-
nominan “instrumentos”. Más aún, los métodos de VI son aplicables a todas aquellas situaciones
en las que el acceso al programa está sujeto a la aleatorización, pero los agentes afectados
(clientes o suministradores) no están completamente de acuerdo, por lo que se genera una si-
tuación en la que el acceso al programa está determinado tanto por las preferencias de los indi-
viduos como por la aleatorización. Finalmente, se puede considerar una situación en la que la
estimación del impacto de la política se puede obtener mediante un mecanismo: promover que
algunos individuos y no otros han sido seleccionados en dos grupos, de manera aleatoria, a
formar parte del programa.
La siguiente tabla muestra las diferentes situaciones en las que se aplica el método de variables
instrumentales.
37
No existe manipulación
Existe un elemento de manipulación por parte del investigador
deliberada
Utilizar diferencia de
Utilizar método de variables instrumentales
medias
Diferentes trabajos que utilizan este método son los realizados por Abadie et al. (2002), Heck-
man y Vytlacil (2000), Angrist (1990), Blundell y Costas-Dias (2008) y Heckman (1997).
Para la correcta aplicación de este método debe existir una variable auxiliar, también llamada
“instrumento”, y que denominamos “Z” que debe cumplir las siguientes propiedades simultá-
neamente:
• La variable “Z” está altamente relacionada con la variable que desea instrumentar. Ejem-
plo, si creemos que la variable explicativa “ir a la universidad” tiene problemas de endo-
geneidad, un posible instrumento es “si la universidad está cerca o no”.
• La variable “Z” no se encuentra relacionada con el término de error de la ecuación de
regresión que analiza el efecto de la política en la variable de interés.
• La variable “Z” debe afectar a la participación en la política, pero no la variable de interés
“Y”.
La mayor debilidad de este método es que puede ser difícil encontrar un instrumento que sea a
la vez relevante y exógeno. La evaluación de la exogeneidad del instrumento puede ser algo
subjetivo. Aún más, el método de VI resulta difícil de explicar para aquellos que no están familia-
rizados con ella.
38
Como en los experimentos naturales, el instrumento suele explotar un origen exógeno de varia-
ción —creado mediante una asignación explícita aleatoria en estos casos— para estimar el efec-
to de interés. Similarmente, en los ensayos médicos, los doctores pueden intentar aleatoriamen-
te ofrecer, y no imponer, incentivos para el cambio de comportamientos como fumar o tomar un
medicamento.
La idea que se esconde detrás del matching consiste simplemente en seleccionar un grupo de
no beneficiarios con el fin de hacerles lo más parecidos a los beneficiarios en todo, salvo en el
hecho de haber recibido la intervención, si se logra hacer que este grupo sea lo más parecido,
entonces las variables de interés observadas en el grupo emparejado se aproxima al contrafactual,
y el efecto de la intervención se estima como la diferencia entre las medias de las variable de resul-
tado de los dos grupos. Por ejemplo, para estimar el efecto de las ayudas en el incremento del
gasto en I+D, se emparejan empresas ayudadas con un conjunto de empresas no ayudadas que se
parecen en todas las variables explicativas relacionadas con el proceso de participación en el pro-
grama. El efecto de la ayuda en el gasto de I+D es estimado mediante la diferencia entre la media
del gasto de I+D de las empresas ayudadas menos el gasto medio de las no ayudadas empare
jadas. Todo esto bajo la condición de que el emparejamiento genera dos grupos equivalentes.
39
En estas situaciones puede resultar bastante difícil identificar algún individuo para cada una de
las unidades en el grupo de tratamiento. A medida que aumenta el número de características o
dimensiones para hacer coincidir las unidades que participan en el programa, es posible que
aparezca lo que se conoce como “la maldición de la dimensionalidad”.
p (X) = Pr (D =1 | X )
Donde P(x) es la probabilidad de que ocurra el suceso que aparece dentro del paréntesis. Esta
probabilidad se utilizará para calcular en la segunda etapa el efecto de la politica. Trabajos que
emplean esta técnica de evaluacion se encuentran en Bryson et al. (2002), Caliendo y Koepei-
ning (2008), Dehejia (2005), Hahn et al. (2008) y Heckman et al. (1995).
Los dos supuestos fundamentales bajo los cuales este diseño presenta buenas propiedades en
la estimación del efecto de una política son:
40
Por lo tanto, las unidades del grupo de control deben ser semejantes a las del grupo de trata-
miento en las variables observadas que no han sido afectadas por la intervención, así que será
necesario eliminar aquellas observaciones del grupo de control que no permiten garantizar la
correcta comparabilidad de los dos grupos. Del mismo modo, a veces es necesario borrar un
conjunto de datos de aquellas unidades del grupo de tratamiento para el que no se localiza
ningún individuo del grupo de control semejante. Esta situación es bastante complicada ya que
puede generar un sesgo en el efecto del tratamiento, por lo que será necesario interpretar el
sesgo potencial en la estimación de los efectos de tratamiento.
41
El matching tiene dos claras desventajas en relación con el diseño experimental (que utiliza el
contraste de medias para estimar el impacto de la política). La primera es la necesidad de asu-
mir la independencia-condicional, que permite eliminar el sesgo de selección mediante el
control en las variables observables. En el caso de que la asignación aleatoria se realice correc-
tamente, podemos estar seguros de que las poblaciones beneficiarias y no beneficiarias son
similares tanto en las características observables y no observables. En segundo lugar, mien-
tras que la técnica de emparejamiento solo puede estimar los efectos del tratamiento en don-
de existe una superposición entre los beneficiarios y la población, la asignación aleatoria
asegura que existe un soporte común a través de la muestra de no beneficiarios. Estas con
sideraciones hacen que el diseño experimental sea mejor. Sin embargo, las consideraciones
prácticas también son importantes en el diseño y ejecución de las evaluaciones de los progra-
mas y, a menudo, al tener en cuenta estas características empíricas favorecen al matching so-
bre la asignación aleatoria.
La principal ventaja del matching y PSM sobre el diseño experimental es que evita las considera-
ciones éticas que surgen cuando un tratamiento potencialmente beneficioso se niega por razo-
nes de “azar”. El costo también es una consideración práctica importante cuando se realizan las
evaluaciones. En algunos casos, a pesar de que los requisitos de datos del diseño del empareja-
miento es considerable, la generación de datos puede ser menos costoso que en el caso de un
experimento, ya que este último implica una monitorización sustancial para asegurar la asigna-
ción al azar.
Por lo que se refiere a las diferencias entre el matching y las otras técnicas de evaluación no ex-
perimental, la técnica de emparejamiento es mejor que los métodos de regresión estándar por
dos razones. En primer lugar, los estimadores de matching tienen en cuenta el problema de so-
porte común. Cuando no existe una buena superposición entre los beneficiarios y no beneficia-
rios se plantean preguntas sobre la solidez de los métodos tradicionales. En segundo lugar, el
matching no necesita supuestos sobre la forma funcional para la ecuación de resultado. Los
métodos de regresión imponen una forma de relaciones (por lo general, lineal) que puede (o no)
ser exacta y que la técnica de matching evita, lo que es de gran valor ya que estas restricciones
en la forma funcional de la regresión no están justificadas ni por la teoría ni los datos utilizados.
Una crítica típica a la técnica del PSM es que el emparejamiento de individuos del grupo de
control y tratamiento lo realiza como una “caja negra”, sin saber muy bien cómo funciona el pro-
grama.
Desde un punto de vista analítico, el método de diferencias en diferencias consiste en tener in-
formación del grupo de control y tratamiento en dos periodos, antes y después de que se pro-
duzca la intervención pública. El método consistirá exclusivamente en calcular las diferencias en
la evolución temporal de cada grupo (primera diferencia) para con posterioridad ver el diferen-
cial en el crecimiento que se produjo entre el control y tratamiento (segunda diferencia). Desde
un punto de vista gráfico es:
42
Y1 D
Impacto
Y1*
Y0 C
B
Esta técnica se puede estudiar con más detenimiento en Card y Krueger (1994), Bell (1999), Ber-
trand et al. (2004) y Chaudhury y Parajuli (2006),entre otros.
Las condiciones que se deben cumplir para que las estimaciones obtenidas con esta técnica
presenten buenas propiedades son:
La aplicación del método DID necesita que la variable de interés se pueda medir varias veces a
lo largo del tiempo, es decir, es posible tomar mediciones equivalentes en distintos momentos
de tiempo y estas mediciones se pueden hacer independientemente de la existencia de una
determinada acción pública. Incluso existe la posibilidad de replicar el mismo tipo de medición
a lo largo del tiempo sobre las mismas unidades (ventas de empresas, ingresos de hogares, sala-
rios de trabajadores). En esta situación estamos trabajando con datos de panel.
Algunas variables de resultado tienen sentido medirlas solo una vez en cada uno de los indivi-
duos, como la duración del desempleo una vez que se ha perdido el puesto de trabajo, el peso
de un recién nacido... En esta situación, la obtención de resultados creíbles se basa en la obten-
ción de información a nivel más agregado usando cohortes sucesivas de individuos que experi-
mentan el mismo suceso. Por ejemplo, sucesivas generaciones de individuos, que pasan a ser
desempleados, crearán diferentes estimaciones de la duración media de desempleo.
Otra característica relevante a tener en cuenta en la posible aplicación del DID es si los datos
de la variable de interés se recopilan de manera rutinaria por parte de estadísticas oficiales,
como la tasa de empleo o el PIB per cápita, o la posibilidad de que los datos sean coleccionados
43
ad hoc. En este último caso, el gran problema para aplicar la DID es que habitualmente no existe
ningún levantamiento de datos anterior a la realización de la política. Si no hay posibilidad de
datos previos a la intervención, existe la opción de obtener información de manera retrospecti-
va para el periodo antes de la aplicación de la política. El peligro de este tipo de estrategia es la
contaminación entre las mediciones de distintos periodos de tiempo pero tomados en la misma
entrevista.
La aplicación de esta técnica también requiere que la intervención sea de naturaleza discreta, es
necesario que existan ciertos individuos que estén expuestos a la política y otros individuos que
no. Las intervenciones que tienen un carácter continuo no se pueden analizar de forma sencilla
con este tipo de método.
A pesar de ser uno de los métodos más utilizados, el diseño de DID no es la panacea que solu-
ciona todos los problemas que existen en la estimación de la evaluación de impacto. Como
ventajas claras de esta aproximación están el que ya no es necesario tener estructuras de datos
muy complejas, y para evaluar solo son necesarios datos agregados, obtenidos antes y después
de la intervención. Además es capaz de corregir sesgos debidos a variable no observada —co-
rrección que no son capaces de afrontar otros diseños—, siempre y cuando este sesgo sea cons-
tante en el tiempo.
Las limitaciones de esta técnica comienzan cuando se aplica este método en la práctica. El pri-
mero de ellos es la necesidad de datos antes de la aplicación del programa público, que suele ser
un obstáculo bastante complicado de solventar, ya que existen bastantes lagunas en la planifi-
cación de la recolección de datos para evaluar la política. Desde un punto de vista más concep-
tual, la simplicidad del método paga un precio a la hora de los supuestos necesarios para su
aplicabilidad: el supuesto fundamental para la identificación del impacto es que la tendencia
temporal del grupo de control y del grupo de tratamiento es similar. La cuestión es que este
supuesto se puede contrastar solo si se disponen de datos en más años.
El diseño de identificación y eliminación causal exhaustiva funciona en los casos en los que se ha
observado una mejora en la variable de interés (impacto), pero no se tiene claro si esta mejora
se debe a la intervención o por algún otro factor. Cuando se utiliza este diseño, el primer paso
consiste en enumerar todas las posibles explicaciones alternativas (otros factores que afectan a
la variable de interés), para, a continuación, tratar de eliminar cada uno de ellos de manera sis-
temática como causante de la mejora. Si usando esta técnica es posible eliminar todos estos
otros factores, entonces, es razonable creer que el programa es el causante de la mejora en la
variable de resultados.
Si se desea más información, las obras de Weiss (1992) y Hermatti (2002) pueden resultar de gran
interés.
44
X
Política
X
Política
Y Y
Z Var. interés Z Var. interés
W W
En este diseño, se solicita a un experto que realice un juicio sobre si los resultados en la variable
de interés (la de impacto) son atribuibles a una intervención pública. Es de esperar que el exper-
to utilice cualquier tipo de datos e información que haya podido recopilar, así como distintos
métodos de análisis que normalmente utiliza en su área de trabajo, y de este modo poder apro-
vechar todos sus conocimientos previos en casos similares7.
Si se desea conocer más de este método, se recomienda consultar los trabajos de Nadeau M-A.
(1988), Witkin y Altschuld (1995), Callon et al. (1995) y Cozzens (1987).
En este diseño, se pide a los informantes clave de la política (personas que tienen experiencia en
el programa o en aspectos significativos del programa) que realicen un juicio sobre si, en su
opinión, los cambios en la variable de interés son atribuibles a la intervención. Se espera que se
utilice cualquier dato o método de recolección y análisis que normalmente emplearan estas
personas en su día a día de trabajo y aprovechar sus conocimientos previos en casos similares.
Con posterioridad, estos juicios se agregan y resumen para conformar un conjunto de conclu-
siones sobre los resultados del programa.
Información sobre este tipo de técnica se puede encontrar en Bryk (1983), Healely (1998), ODA
(1995) y Weiss (1998).
7 Determinados grupos de interés en algunos casos no aceptan este diseño como una técnica propiamente dicha de
evaluación de impacto por no ser lo suficientemente robusta en términos matemáticos y estadísticos.
45
Para finalizar esta sección se ofrece un árbol de reglas de decisión (figura 9), que indica, en fun-
ción del tipo de información disponible, qué tipo de evaluación de impacto, dentro de aquellas
que utilizan contrafactuales, es la más apropiada.
6.1. Etapa 1. Utilización de una tabla de decisión para determinar el método de evaluación
El método para decidir la mejor técnica de evaluación cuantitativa es en un proceso de dos eta-
pas. En la primera etapa se determina el diseño de evaluación de impacto óptimo en función de
las características más importantes de la intervención pública, como son: si se controla quién
recibe la intervención, si se aplica la medida política a todos los individuos, si existen recursos
limitados para realizar la evaluación, etc. En el caso de que la técnica de evaluación cuantitativa
óptima sea el diseño de la construcción de un grupo de control para emparejamiento, entonces
se produce una segunda etapa. En esta fase, se ofrece un método de selección para determinar
cuál de los cuatro posibles métodos de grupo de control emparejado considerados es más ade-
cuado.
8 En el anexo II se proporcionan una serie de checklists (listas de validación) para cada uno de los posibles diseños de
evaluación de impacto. Estas listas de validación se pueden utilizar para decidir cuál es el mejor diseño de evaluación en
términos de idoneidad, viabilidad y asequibilidad, y también para revisar las características existentes entre distintos dise-
ños de evaluación de impacto que se han propuesto o que se han llevado a cabo.
46
En esta sección se expone la información necesaria para poder analizar el contenido de las ta-
blas, de tal modo que se pueda comprender mejor las opciones contenidas en ellas, y que, por
lo tanto, resulte más sencillo poder tomar decisiones para cualquier usuario.
Tipos de evaluación
La tabla 3 que se mostrará para la toma de decisiones tiene en cuenta los siguientes diseños de
evaluación de impacto, estas son:
• Diseño experimental.
• Diseño de regresión en discontinuidad.
• Diseño de series temporales.
• Diseño de construcción de grupos de control para emparejamiento.
• Diseño de identificación causal y eliminación exhaustiva.
• Diseño de juicio de expertos.
• Diseño de juicio de agentes clave.
Es necesario recordar que no todos estos diseños (especialmente los dos últimos) son habi-
tualmente considerados por todas las partes interesadas en el seguimiento de políticas
públicas como técnicas de evaluación lo suficientemente robustas. Sin embargo, todos
ellos son aceptados en algunas situaciones como apropiados, así como factibles y asequi-
bles, y, por lo tanto, se incluyen en aras de una mayor exhaustividad en el estudio que se
desea realizar.
En la tabla 3, las filas representan las distintas técnicas de evaluación y las columnas, las caracte-
rísticas de la intervención pública. Para usar esta tabla de manera correcta el paso inicial consis-
te en buscar en la parte superior de la tabla (en la primera fila) e identificar aquel(los) elemento(s)
o características que existen en la intervención que se desea evaluar. Cuando se localiza una de
estas características, el siguiente paso consiste en mirar en toda esa columna situada inmediata-
mente debajo de la celda seleccionada, lo que nos indica qué apropiado, viable o costoso resul-
ta cada una de las posibles evaluaciones de impacto aquí planteadas. A continuación, una vez
seleccionada aquella celda que presenta mejores propiedades (es decir, que sea viable, idónea
o asequible), se observa la parte de la izquierda de la tabla (la primera columna) y se ve cuál de
los posibles tipos de evaluación de impacto puede ser el más apropiado en esa situación en
particular. Para ello, vamos a considerar que una intervención puede presentar una o más de las
siguientes características (fila superior de la tabla 3):
47
48
Diseño experimental No apropiada No apropiada No apropiada Alto Puede ser cara Puede ser apropiada Bastante apropiada
Regresión en
No apropiada No apropiada No apropiada Alto Puede ser cara Puede ser apropiada Bastante apropiada
discontinuidad
No se basa en grupo
Series temporales Puede ser apropiada Puede ser apropiada Bajo Puede ser barata Puede ser apropiada Apropiada
de control
Construcción de
grupo de control Puede ser apropiada Apropiada No apropiada Bajo Puede ser barata Puede ser apropiada Bastante apropiada
para emparejamiento
49
Identificación causal
No hay grupo de
y eliminación Puede ser apropiada Puede ser apropiada Bajo Puede ser barata No apropiada Poco apropiada
control formal
exhaustiva
No hay grupo de
Juicio de expertos Puede ser apropiada Puede ser apropiada Bajo Puede ser barata No apropiada Poco apropiada
control formal
07/03/14 15:35
Ignacio Moral-Arce
50
miembros del grupo de control puede ser utilizado para que, mediante técnicas mate-
máticas, se pueda predecir los resultados esperados para alguien que no recibió la inter-
vención pública.
• Se puede construir un grupo de control mediante la localización de otros individuos (o
unidades) que son emparejados de manera exacta con los miembros del grupo de trata-
miento en ciertas características clave. Esta técnica se puede utilizar para asegurar que
los miembros del grupo de tratamiento y del grupo de control son lo suficientemente
parecidos.
¿Se puede realizar un seguimiento tanto Diferencias en Seguimiento tanto del grupo de control como
del grupo de control como de tratamiento diferencias de tratamiento y calcular que la mejoría de la
a lo largo del tiempo? Para un mismo año, variable de resultado en el grupo de
el grupo de control comienza en un valor tratamiento difiere considerablemente de la
de la variable de interés diferente al que experimentada por el grupo de control.
presenta el grupo de tratamiento, pero es
posible seguir las tendencias tanto del
grupo de comparación como las del grupo
de intervención a lo largo del tiempo.
¿Se puede encontrar una característica Variable Comparar los resultados del grupo de
(variable) que, además de no estar instrumental tratamiento con los de un subconjunto de
relacionada con la variable de interés, haga individuos que potencialmente pertenecen al
que las unidades (individuos) quieran grupo de control —solo se tendrá en cuenta
pertenecer al grupo de tratamiento? aquellos que tienen la característica de
Entonces se puede usar esta variable para selección (por ejemplo, no van a la universidad
crear un subconjunto en el grupo de porque viven a bastante distancia) y
control muy semejante a los individuos del suponiendo que no están en el grupo de
grupo de tratamiento, ya que la única razón tratamiento debido (solo) a esta razón (es decir,
por la que no están en el grupo de vivir demasiado lejos)— y que son similares a
tratamiento es debido a esta característica. los del grupo de tratamiento en el resto de las
Por ejemplo, ellos viven muy lejos del lugar otras variables importantes.
donde se realiza la intervención. Por lo
tanto, no pertenecen al grupo de
tratamiento, no por cuestiones de
motivación (que están relacionados con la
var. impacto) sino que se debe solo al costo
de transporte (incorrelada con la var. de
interés).
51
¿Es posible describir tanto al grupo de Propensity score Seleccionar el grupo potencial de control (es
tratamiento como a los posibles miembros matching decir, aquel que no han recibido ningún tipo
del grupo de control de manera muy de intervención) y mediante procedimientos
precisa, lo que permite realizar econométricos y estadísticos, intentar estimar
estimaciones sobre cuál puede ser el los resultados a partir de variables explicativas
resultado más probable que presente un o características de dicho grupo (por ejemplo,
individuo, en el caso de no haber recibido edad, sexo, educación, raza, discapacidad).
la intervención? Este resultado estimado Calcular una ecuación que permita estimar el
(en ausencia de la intervención) se compara resultado de las unidades que presentan
entonces con el resultado real que se ciertas características particulares. Para cada
produjo para el grupo de tratamiento. uno de los miembros del grupo de tratamiento
utilizar esta misma fórmula para estimar el
valor de la variable de resultados que
probablemente habría obtenido en el caso de
no recibir la intervención. Comparar los
resultados reales en la variable de resultado (es
decir, la observada realmente después de
haber recibido la intervención) con los
resultados estimados (es decir, lo que habría
ocurrido si no hubieran recibido la
intervención).
¿Es capaz de formar un grupo de control Emparejamiento Para cada miembro del grupo de tratamiento,
mediante la localización de otros individuos se localiza a individuos que tienen
(o unidades) que “coinciden” exactamente características similares a estos miembros del
con los miembros del grupo de tratamiento grupo de intervención, salvo por el hecho de
en las características clave (variables)? no haber recibido la intervención. Finalmente,
se comparan los resultados de los miembros
del grupo de tratamiento con la variable de
resultado observada en su “emparejado” en el
grupo de control.
52
Diseño experimental
SÍ - Técnica de diferencia
Existe la posibilidad de Diseño
establecer grupo Posible realizar cuasiexperimental
de control SÍ
aleatorización control - Diferencias en
SÍ
tratamiento Variable no diferencias
NO Selección en variables NO
53
observadas invariantes
observables
en el tiempo
Reconsiderar el uso
NO de diseño sin
SÍ
contrafactual
Se ha realizado una
evaluación ex-ante NO
línea de base
Variable afecta
participación y no Variables
resultado instrumentales
Elección del método de evaluación cuantitativa de una política pública
07/03/14 15:35
Ignacio Moral-Arce
54
7. Conclusiones
Este documento propone una guía metodológica que permita determinar la técnica de evalua-
ción cuantitativa óptima, en términos de idoneidad, viabilidad, y que resulte asequible en térmi-
nos presupuestarios, dependiendo de las características del programa implementado por el
gobierno. Por lo tanto, los dos elementos fundamentales desarrollados en este manual son:
• En primer lugar, identificar criterios para definir si corresponde hacer una evaluación
cuantitativa en una determinada intervención, estudiando qué condiciones se deben
cumplir para que esa política sea merecedora de una evaluación de impacto.
• En segundo lugar, si se ha decido realizar una evaluación de impacto, se definen las eta-
pas y criterios que guían el diseño de la evaluación de impacto más adecuado para la
intervención a evaluar (previo a la elección de la técnica de análisis específica).
55
Bibliografía
Abadie, A., Angrist, J. D. e Imbens, G. W. (2002). “Instrumental Variables Estimates of the Effect of
Subsidized Training on the Quantiles of Trainee Earnings”. Econometrica, 70 (1): 91-117.
Angrist, J. (1990). “Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social
Security Administration Records”. American Economic Review, 80 (3): 313-335.
Angrist, J., Bettinger, E., Bloom, E., King, E. y Kremer, M. (2002). “Vouchers for Private Schooling in
Colombia: Evidence from a Randomized Natural Experiment”. American Economic Review, 92
(5): 1535-1558.
Bamberger, M. (1986). “Monitoring and evaluating urban development programs: a handbook
for program managers and researchers”. Washington DC: World Bank.
Banerjee, A., Cole, S., Duflo, E. y Linden, L. (2007). “Remedying Education: Evidence from Two
Randomized Experiments in India”. Quarterly Journal of Economics, 122 (3): 1235-1264.
Behrman, J. y Hoddinott, J. (2005). “Programme Evaluation with Unobserved Heterogeneity and
Selective Implementation: The Mexican ‘PROGRESA’ Impact on Child Nutrition”. Oxford Bul-
letin of Economics and Statistics, 67 (4): 547-569.
Bell, B., Blundell, R. y Reenen, van J. (1999). “Getting the Unemployed Back to Work: An Evalua-
tion of the New Deal Proposals”. International Tax and Public Finance, 6 (3): 339-360.
Bertrand, M., Dufl, E. y Mullainathan, S. (2004). “How Much Should We Trust Differences-in-Differ-
ences Estimates?”. Quarterly Journal of Economics, 119 (1): 249-275.
Blundell, R. y Costa Días, M. (2008). “Alternative Approaches to Evaluation in Empirical Microeco-
nomics”. CeMMAP Working Paper 26/08. London: Centre for Microdata Methods and Prac-
tice, Institute for Fiscal Studies.
Bryk, A. S. (ed.). (1983). Stakeholder-Based Evaluation. San Francisco: Joseey-Bass.
Bryson, A., Dorsett, R. y Purdon, S. (2002). “The Use of Propensity Score Matching in the Evalua-
tion of Active Labour Market Policies”. Working Paper 4. London: Department for Work and
Pensions.
Card, D. y Krueger, A. B. (1994). “Minimum Wages and Employment: A Case Study of the Fast-
Food Industry in New Jersey and Pennsylvania”. The American Economic Review, 84 (4).
Caliendo, M. y Kopeinig, S. (2008). “Some Practical Guidance for the Implementation” of Chen, S.,
Mu, R. y Ravallion, M. (2008). “Are There Lasting Impacts of Aid to Poor Areas? Evidence for
Rural China”. Policy Research Working Paper 4084.Washington, DC: World Bank.
Callon, M., Laredo P. y Mustar, P. (1995). La gestion stratgique de la recherche et de la technologie,
(31-88). Paris: Economica.
Chaudhury, N. y Parajuli, D. (2006). “Conditional Cash Transfers and Female Schooling: The Im-
pact of the Female School Stipend Program on Public School Enrollments in Punjab, Paki-
stan”. Policy Research Working Paper 4102. Washington DC: World Bank.
Chen, H. T. (1990). “Theory-Driven evaluations”. Newbury Park, CA: SAGE.
Cozzens, S. E. (1987). “Expert Review in Evaluating Programs”. Science and Public Policy, 14 (2): 71-81.
Dehejia, R. (2005). “Practical Propensity Score Matching: A Reply to Smith and Todd”. Journal of
Econometrics, 125 (1-2): 355-364.
Duflo, E., Glennerster, R. y Kremer, M. (2008). “Using Randomization in Development Economics
Research: A Toolkit”. In (ed. T. Paul Schultz y J. Strauss), Handbook of Development Economics,
4: 3895-3962. Amsterdam: North-Holland.
Duignan, P. (2009). “Impact/outcome evaluation designs and techniques illustrated with a sim-
ple example”. Outcomes Theory Knowledge Base, nº 237.
56
Galasso, E. y Ravallion, M. (2004). “Social Protection in a Crisis: Argentina’s Plan Jefes y Jefas”, World
Bank Economic Review, 18 (3): 367-400.
Gertler, P., Martínez, S., Premad, P., Rawlings, L. B. y Vermeersch, C. M. J. (2011). “Impact evaluation
in practice”. Washington DC: World Bank.
Gruber, J. (1994). “The Incidence of Mandated Maternity Benefits”. American Economic Review 84
(3): 622-641.
Hahn, J., Todd, P. y Klaauw, van der W. (2001). “Identifi cation of Treatment Effects by Regression
Discontinuity Design”. Econometrica, 69 (1): 201-209.
Hahn, J., Hirano, K. y Karlan, D. (2008). “Adaptive Experimental Design Using the Propensity
Score”. Working Paper 969. New Haven, CT: Economic Growth Center, Yale University.
Harvey, A. C. (1990) (2ª ed.). “The Econometric Analysis of Time Series”, vol. 1. The MIT Press.
Heckman, J. J. (1997). “Instrumental Variables: A Study of Implicit Behavioral Assumptions Used
in Making Program Evaluations”. Journal of Human Resources, 32 (3): 441-462.
Heckman, J. J., Ichimura, H. y Todd, P. (1997). “Matching as an Econometric Evaluation Estimator:
Evidence from Evaluating a Job Training Programme”. Review of Economic Studies, 64 (4):
605-654.
Heckman, J. J. y Vytlacil, E. (2005). “Structural Equations, Treatment Effects, and Econometric
Policy Evaluation”. Econometrica, 73 (3): 669-738.
Healely, P. (1998). “Collaborative Planning in a stakeholder society”. Town Planning Review, 69 (1).
Holden, D. y Zimmerman, M. (2009). “A practical guide to program evaluation planning”. London:
SAGE publications.
Khandker, S., Koolwal, G. B. y Samad, H. A. (2010). “Handbook of impact evaluation: quantitative
methods and practices”. Washington DC: World Bank.
Kusek, J. Z. y Rist, R. C. (2004). A Handbook for Development Practitioners: Ten Steps to a Results-
Based Monitoring and Evaluation System. Washington, DC: World Bank.
Lope-Acevedo, G. y Tan, H. W. (2010). “Impact evaluation of SME programs in Latin America and
Caribbean”. Washington, DC: World Bank.
Nadeau, M. A. (1988). L’évaluation de programme Laval, (349-352). Québec: Presses de l’université
de Laval.
National Science Fundation (2002). “The 2002 user friendly handbook for project evaluation”.
NSF.
ODA (1995). Guidance Note on Indicators for Measuring and Assessing Primary Stakeholder Partici-
pation. ODA Social Development Department, July 1995.
Ravillion, M. (2008). “Evaluating Anti-Poverty Programs”. In (ed. T. Paul Schultz y J. Strauss), Hand-
book of Development Economics, 4: 3787-3846. Amsterdam: North-Holland.
Weiss, C. (1998). Evaluation. New Jersey: Prentice Hall.
Wholey, J., Hatry, H. y Newcomer, K. (2010). “Handbook of practical program evaluation”. San
Francisco: Wiley.
Witkin, B. R. y Altschuld, J. W. (1995). Planning Conducting Needs Assessments, (193-203). Thou-
sand Oaks: Sage Publications.
57
1. Preparación de la evaluación.
a) Decidir qué se quiere evaluar.
b) Objetivos, cuestiones de política pública.
c) Desarrollo de hipótesis, marcos lógicos, cadenas de resultados.
d) Selección de indicadores.
3. Selección de la muestra.
a) Decidir el tamaño de la muestra.
b) Decidir la estrategia de muestreo.
59
A continuación se presenta una tabla para cada una de las técnicas de evaluación analizadas en
este documento que analiza la idoneidad, viabilidad y asequibilidad de cada una de ellas.
‘Checklist’ de viabilidad
60
las evaluaciones negativas (por ejemplo, puede ser que los problemas que existen en la
variable de resultados sean debidos a que la intervención se ha “entregado” de forma
inadecuada).
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés, la
selección de los participantes, el control de procesos de intervención, recolección de
datos, análisis de datos, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta su conclusión.
‘Checklist’ de viabilidad
61
pueda considerar una estimación correcta del efecto de la política es necesario que se
tenga el suficiente control tanto sobre la calidad como sobre la cantidad de la interven-
ción que se realiza.
¿Se realiza la recopilación de información (datos) de forma correcta? Necesidad de tener
suficiente control sobre la metodología y forma en que se recogen los datos para que
estos sean una medición apropiada de la variable de impacto que se desea estudiar.
¿Existe una descripción apropiada del “proceso” de la intervención? Necesidad de descri-
bir el proceso y el contexto del programa de modo que sea posible interpretar resulta-
dos de las evaluaciones negativas (por ejemplo, puede ser que los problemas que exis-
ten en la variable de resultados sean debidos a que la intervención se ha “entregado” de
forma inadecuada)
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés, la
selección de los participantes, el control de procesos de intervención, recolección de
datos, análisis de datos, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta llegar a su conclusión.
‘Checklist’ de viabilidad
62
el suficiente control tanto sobre la calidad como sobre la cantidad de la intervención que
se realiza.
¿Se realiza la recopilación de información (datos) de forma correcta? Necesidad de tener
suficiente control sobre la metodología y forma en que se recogen los datos para que
estos sean una medición apropiada de la variable de impacto que se desea estudiar.
¿Existe una descripción apropiada del “proceso” de la intervención? Necesidad de descri-
bir el proceso y el contexto del programa de modo que sea posible interpretar resulta-
dos de las evaluaciones negativas (por ejemplo, puede ser que los problemas que exis-
ten en la variable de resultados sean debidos a que la intervención se ha “entregado” de
forma inadecuada).
‘Checklist’ de asequibilidad
¿La medición es continua y suficientemente larga a lo largo del tiempo? ¿Se dispone
de suficientes fuentes de información para tener series temporales lo suficientemente
largas?
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés, la
selección de los participantes, el control de procesos de intervención, recolección de
datos, análisis de datos, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta su conclusión.
63
‘Checklist’ de viabilidad
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés, la
selección de los participantes, el control de procesos de intervención, recolección de
datos, análisis de datos, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta su conclusión.
64
‘Checklist’ de viabilidad
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés, la
selección de los participantes, el control de procesos de intervención, recolección de
datos, análisis de datos, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta su conclusión.
65
¿Existen expertos reconocidos en esa área a los que se puede solicitar que realicen una
evaluación?
¿Los expertos pueden realizar juicios del programa? Es un tema en el que los expertos
son capaces de hacer un juicio sobre si el programa ha mejorado los resultados. Esto re-
quiere por un lado que los mecanismos causales estén lo suficientemente claros para los
expertos y que, además, no existan demasiadas alternativas que puedan haber afectado
a los resultados.
¿Los actores clave van a aceptar esto como diseño suficientemente robusto? Las princi-
pales partes interesadas tienen que aceptar que este método de evaluación les propor-
cionará resultados suficientemente robustos comparando el impacto del programa para
los fines para los que quieran utilizar estos resultados y el nivel de recursos que tienen
que gastar en la evaluación.
‘Checklist’ de viabilidad
¿Los expertos están suficientemente libres de prejuicios? ¿Será posible localizar exper-
tos que sean suficientemente libres de sesgo (ya sea a favor o en contra del programa)
de manera que puedan proporcionar un juicio fiable sobre los resultados del programa?
¿Las opiniones de expertos serán aceptadas por las partes interesadas? ¿Se las considera
un juicio fiable sobre los resultados del programa y serán aceptados por un número su-
ficiente de actores clave?
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficientes recur-
sos (para la gestión y administración de la evaluación, los grupos de interés, la selección de los
participantes, contratar expertos, pagar la recopilación de la información que los expertos nece-
sitarán para realizar un juicio, solución de problemas, informes y difusión de resultados) para
continuar con la evaluación hasta su conclusión.
66
para los expertos y que, además, no existan demasiadas alternativas que puedan haber
afectado a los resultados.
¿Los actores clave van a aceptar esto como diseño suficientemente robusto? Las princi-
pales partes interesadas tienen que aceptar que este método de evaluación les propor-
cionará resultados suficientemente robustos comparando el impacto del programa para
los fines para los que quieran utilizar estos resultados y el nivel de recursos que tienen
que gastar en la evaluación.
‘Checklist’ de viabilidad
‘Checklist’ de asequibilidad
¿Es posible financiar hasta el final toda la evaluación? Es necesario que existan suficien-
tes recursos (para la gestión y administración de la evaluación, los grupos de interés,
entrevistar a los informantes claves solución de problemas, informes y difusión de resul-
tados) para continuar con la evaluación hasta llegar a su conclusión.
67
En este anexo se va a realizar una ilustración que muestra un análisis sobre cada una de las dife-
rentes técnicas de evaluación de impacto o de resultados de largo plazo identificadas en este
documento, para estudiar si cada una de ellas se puede utilizar en función de un análisis de la
pertinencia, la viabilidad y la asequibilidad de la evaluación en un programa público. Se examina
cada uno de los diseños de evaluación de impacto identificados en las secciones anteriores, mos-
trando conclusiones en términos de su adecuación, viabilidad y asequibilidad. Como ya se ha
mencionado, hay que tener en cuenta que los dos últimos diseños de evaluación de impacto iden-
tificados en esta teoría de resultados (opinión de los expertos y los diseños de juicios y opiniones
de informantes clave) a menudo son rechazados por algunos grupos, ya que no presentan el sufi-
ciente apoyo empírico y cuantitativo para determinar de manera clara si existe una relación de
causalidad entre programa y resultado. Sin embargo, se ha decido incluirlos debido a que existen
algunos sectores interesados que consideran que pueden ser adecuados para algunas situaciones.
Ejemplo. Creación de una nueva ley a nivel nacional sobre requisitos en la construcción
de vivienda nueva
Se pretende realizar un plan de evaluación para saber el efecto que ha tenido la implementación
de una nueva ley sobre criterios técnicos en la construcción de nueva edificación. Se ha decido
introducir un nueva ley nacional debido al fracaso (se produjeron grietas y fugas de agua) en
bastantes edificios que se habían construido bajo el anterior régimen legal. A continuación se
presenta el análisis de los posibles diseños de evaluación de impacto:
Diseño experimental
No es factible. Este diseño consiste en establecer una comparación entre un grupo que recibe
la intervención y un grupo que no la recibe (idealmente seleccionados al azar). Parece claro que,
por motivos éticos, políticos y jurídicos no es posible aplicar esta nueva ley (llevar a cabo las in-
tervenciones) solo en una o más localidades, utilizando a otras zonas (que sirven como grupo de
control) ya que no se ven afectadas por la nueva reglamentación. Entre otras cosas, la nueva
regulación no puede ser impuesta solo una parte del país. Además, existe un grave problema
del diseño en la práctica, ya que es más que probable que se produzca una reacción en aquellas
regiones en las que no se aplica la nueva ley (sacando otra ley parecida), estableciéndose de este
modo una rivalidad compensatoria que reduciría el efecto final en la variable de resultados en-
tre el grupo de tratamiento y el grupo de control.
No es factible. Este diseño asume que es posible ordenar (y representar) a las localidades de un
país que podrían recibir la intervención en función de una variable continua medible (por ejem-
plo, la calidad de los edificios en la localidad). Entonces, la intervención solo se aplicaría a aque-
llas localidades por debajo de un cierto nivel de corte. Cualquier efecto debe mostrar un despla-
zamiento hacia arriba de la gráfica alrededor del punto de corte. En teoría, es posible clasificar a las
68
ciudades en función de la calidad de su obra nueva y suponiendo que los recursos disponibles para
realizar la intervención fueran limitados entonces resultaría ético intervenir solo en aquellas ciuda-
des con la peor obra nueva, y, por lo tanto, establecer una discontinuidad en el diseño de la regre-
sión. Sin embargo, el compromiso legal así como el diseño de la propia política (como en el diseño
experimental anterior) significa que un diseño de regresión en discontinuidad no es factible.
No es factible. En este diseño se mide un resultado un gran número de veces a lo largo del
tiempo, y luego se examina si se produce un cambio claro en el momento de tiempo donde se
introdujo la intervención. Este diseño sería posible si se dispone de mediciones consecutivas
sobre la calidad de las edificaciones nuevas a lo largo de una serie temporal larga (digamos 20
años). Sin embargo, este diseño tiene el problema de que se produzca un shock en el mismo
momento de tiempo en que entra en vigor la ley —supongamos que este nuevo factor es un
“compromiso de responsabilidad” firmado por todos los constructores del país—. Este com-
promiso surge como consecuencia de que todos los constructores se dan cuenta de que pue-
den ser denunciados por los compradores de pisos debido a fallos en los edificios. Cabe seña-
lar que este “compromiso de responsabilidad” no significa que no se pueda analizar la serie
temporal como un modo de seguimiento del indicador. El único problema es que al realizar
este tipo de análisis de series temporales no somos capaces de estimar si la razón por la que
se produce el cambio es debida a la nueva ley o a ese “compromiso de responsabilidad” pre-
sentado por los constructores.
No es factible. Este diseño consiste en establecer una comparación entre un grupo que recibe
la intervención y un grupo que no la recibe (idealmente seleccionados al azar). Dado que tiene
un carácter universal, no es posible localizar ningún grupo de individuos que pueda ser conside-
rado un buen contrafactual del grupo que recibe el tratamiento.
Viabilidad baja. Este diseño funciona del siguiente modo: primero se identifica que se
haya producido un cambio en la variable de resultados observados y, posteriormente, se lleva
a cabo un análisis detallado de todas las posibles causas (alternativas a la aprobación de la
nueva ley) que han generado el cambio en el resultado, para lograr su posterior elimina-
ción. En algunos casos, se puede elaborar una lista detallada de las posibles causas que
afectan a los resultados observados y luego usar un proceso para identificar cuál de ellos
es más probable que haya causado el efecto observado. Sin duda, este enfoque va mucho
más allá de la acumulación de evidencia para tratar de explicar el resultado observado
debido solo a la intervención y requiere que todas las posibles explicaciones alternativas
que puedan causar el resultado sean eliminadas. Esto puede no ser posible en este caso
debido a la aparición simultánea del “documento de responsabilidad”, que ya se comentó
anteriormente, que se produjo en el mismo marco temporal que la intervención. Es posible
que esta causa se entremezcle con la intervención original, por lo que al calcular el impac-
to de la medida no se sabe qué porcentaje es debido a la nueva ley y cuál al “documento de
responsabilidad”.
69
Viabilidad alta. Este diseño consiste en pedir opinión a un experto en la materia para analizar
una situación y evaluar si, ponderando todos los elementos de los que disponen, aceptan la hi-
pótesis de que la nueva ley pueda haber causado el resultado. Es necesario preguntar a varios
expertos independientes en la regulación de la construcción de edificio, incluso expertos ex-
tranjeros con el fin de garantizar la independencia), y que puedan visitar el país y de este modo
evaluar si los cambios en la calidad de los nuevos edificios son debidos al nuevo régimen regu-
latorio. Estos juicios se basan en su criterio profesional y tendrían en cuenta todos aquellos da-
tos que necesitan para hacer sus afirmaciones. En sus informes se explicaría por qué y de qué
modo se llegó a esta decisión. Este enfoque es muy factible, pero proporciona un nivel significa-
tivamente más bajo de certeza que todos los otros diseños de evaluación de impacto descritos
anteriormente. En el caso de usar este diseño, la pregunta de evaluación que se responde siem-
pre debe estar claramente identificada, como por ejemplo: ¿en la opinión de un experto inde-
pendiente la nueva ley de construcción ha producido una mejora en los resultados de la cons-
trucción nueva? También resulta necesario realizar un estudio de factibilidad para analizar en
detalle las posibilidades de este tipo de diseño.
Viabilidad alta. Este diseño consiste en pedir a ciertos informantes clave (personas que tienen
acceso por razón de su cargo al conocimiento de lo que ha ocurrido con respecto a la interven-
ción) que analicen si creen que la intervención puede haber causado el resultado buscado. Es
necesario realizar una selección de aquellas partes interesadas más importantes y que deseen
actuar como informantes, y que mediante la realización de entrevistas reflejen sus opiniones
con respecto a los resultados que pueden ser atribuidos al nuevo régimen jurídico.
70
Socios Coordinadores
www.eurosocial-ii.eu