Tema 3 El Condicionamiento Operante

DOCENCIA PROGRAMA 13
Tema 3 Aprendizaje conductual: el

condicionamiento operante. Thorndike y la ley del
efecto. Análisis experimental de la conducta.
Skinner y el condicionamiento operante.
Programas de refuerzo. Tipos de condicionamiento
operante. Aplicaciones del condicionamiento
operante.
1
EL CONDICIONAMIENTO OPERANTE.
El condicionamiento operante o condicionamiento instrumental es un tipo de

aprendizaje donde el comportamiento se controla con las consecuencias.
Se basa en la idea de que los comportamientos que se refuerzan tienden a mostrarse en
más ocasiones, mientras que los comportamientos que son castigados se extinguen.
¿Cuál es la diferencia entre el condicionamiento operante y el condicionamiento clásico?

En el condicionamiento operante, una respuesta voluntaria es seguida por un
reforzador. De esta manera, la respuesta voluntaria (por ejemplo, estudiar para un
examen) es más probable que se realice en el futuro. Al contrario, en el
condicionamiento clásico un estímulo activa automáticamente una respuesta
involuntaria.
El condicionamiento operante puede describirse como un proceso que intenta modificar
el comportamiento mediante el uso del refuerzo positivo y negativo. A través del
condicionamiento operante, un individuo hace una asociación entre un
comportamiento particular y una consecuencia. Ejemplos:
Los padres recompensan las buenas calificaciones de un niño con dulces o algún otro
premio.
Un maestro premia a aquellos estudiantes que son tranquilos y educados. Los
estudiantes se dan cuenta que al comportarse así reciben más puntos.
Un alimento se da a un animal cada vez que presiona una palanca.
B.F. Skinner (1938) acuñó el término acondicionamiento operante. Skinner identificó
tres tipos de respuestas o operantes que pueden seguir el comportamiento:
1
Operantes neutrales: respuestas del entorno que no aumentan ni disminuyen la
probabilidad de que se repita un comportamiento.
Reforzadores: respuestas del entorno que incrementan la probabilidad de repetición de
un comportamiento. Los reforzadores pueden ser positivos o negativos.
Castigos: respuestas del entorno que disminuyen la probabilidad de que se repita un
comportamiento. El castigo debilita el comportamiento.
Antecedentes del condicionamiento operante
Thorndike fue el primero en reconocer que este condicionamiento incluye algo más que
una respuesta y un reforzador. La respuesta se da en presencia de unos estímulos
determinados, considerándose tres sucesos: el estímulo, la respuesta y la consecuencia
de la respuesta o reforzador.
Esta estructura facilita el desarrollo de diferentes vinculaciones como sería la asociación
entre el estímulo y la respuesta, la cual fue para Thorndike clave para la formulación de
la ley del efecto. A través de ésta afirmó que las respuestas que vayan seguidas de
consecuencias reforzantes, tendrán mayor probabilidad de ocurrencia cuando el
estímulo vuelva a aparecer.
Por el contrario, aquellas respuestas que son seguidas de consecuencias negativas,
tendrán una menor probabilidad de ocurrencia cuando el estímulo vuelva a aparecer. La
ley del efecto es el antecedente del condicionamiento operante o condicionamiento
instrumental, como era nombrado por Thorndike.
Pero para Skinner, psicólogo del conductismo, el condicionamiento era el
fortalecimiento de las conductas según las consecuencias que anteriormente se
hubieran obtenido.
En esta línea, existen dos formas de condicionamiento:
El clásico o pavloviano: se basa en la asociación de estímulos incondicionados y
condicionados, siendo las respuestas controladas por los estímulos antecedentes.
El condicionamiento operante: los estímulos consecuentes o reforzadores hacen que se
emita una conducta determinada. Skinner explica que si la conducta es seguida de un
reforzador positivo, aumentaría la probabilidad de emisión de dicha conducta en un
futuro. Al contrario, si una respuesta no va seguida de un reforzador o ese reforzador es
negativo, la probabilidad de emitir dicha conducta en un futuro será menor.
Conceptos básicos del condicionamiento operante
2
Refuerzo
Es el responsable de la emisión de respuestas, es decir, de la probabilidad de que
sucedan, sea mayor o menor en un futuro. Es un estímulo reforzante y consecuente, ya
que se da una vez se ha producido la respuesta.
Es imposible saber si un reforzador determinado influye en la conducta hasta que no se
presenta de manera contingente con una respuesta y se comprueba que el
comportamiento cambia a consecuencia del reforzador.
Existen dos tipos de refuerzo: positivo y negativo. Ambos tienen la misma finalidad de
aumentar la probabilidad de que la respuesta se emita en situaciones futuras. Además,
para Skinner los reforzadores se definen por medio de las conductas que son
observables y medibles.
Refuerzo positivo
El refuerzo positivo refuerza un comportamiento proporcionando una consecuencia que
un individuo encuentra gratificante.
Refuerzo negativo
La eliminación de un reforzador desagradable también puede fortalecer un
comportamiento. Esto se conoce como refuerzo negativo porque es la eliminación de
un estímulo adverso que es «gratificante» para el animal o la persona. El refuerzo
negativo refuerza el comportamiento porque detiene o elimina una experiencia
desagradable.
Reforzadores primarios
Serían todos aquellos reforzadores básicos que no necesitan de ninguna historia de
condicionamiento previa para funcionar como tales. Algunos ejemplos serían el agua, la
comida y el sexo.
Reforzadores secundarios
3
Los reforzadores secundarios si estarían basados en historias previas de
condicionamiento gracias a la asociación con estímulos incondicionados. Algunos
ejemplos serían el dinero y las calificaciones.
Contingencia de tres términos
Es el modelo básico del condicionamiento operante y está formado por tres
componentes: el estímulo discriminativo, la respuesta y el estímulo reforzador.
Un estímulo discriminativo sería aquel que va a indicar al sujeto que el reforzador está
disponible, señalando que si lleva a cabo una determinada conducta podrá obtener
dicho reforzador. En contraposición tenemos el estímulo delta o estímulos que indican
que la conducta no va a llevar a la obtención de ningún tipo de reforzador.
La respuesta sería la conducta que realizará el sujeto, cuya ejecución le llevará o no a la
obtención del estímulo reforzador.
Un estímulo reforzador, como se ha mencionado anteriormente, es el responsable de la
emisión de la conducta ya que gracias a su aparición la probabilidad de emisión de una
respuesta aumentará o disminuirá en el futuro.
Conceptos a conocer del condicionamiento operante
Castigo
El castigo también se mide por sus efectos en la conducta del sujeto. En cambio, a
diferencia del refuerzo, lo que se pretende es la disminución o supresión de una
determinada conducta.
Un castigo reduce la probabilidad de emisión de una conducta en situaciones
posteriores. No obstante, no elimina la respuesta ya que si la amenaza de castigo
disminuye, la conducta puede volver a aparecer.
En el castigo también existen dos tipos o procedimientos diferentes, castigo positivo y
castigo negativo.
Castigo positivo
Este implica la presentación de un estímulo aversivo tras la realización de un
determinado comportamiento. Es dado de manera contingente a la respuesta dada por
el sujeto.
Castigo negativo
Consiste en la eliminación de un estímulo como consecuencia de un determinado
comportamiento, es decir, consiste en la retirada de un estímulo positivo tras la
realización de una determinada conducta.
Extinción
En la extinción se deja de emitir una respuesta debido a que el reforzador ya no aparece.
Este proceso se basa en dejar de proporcionar el reforzador correspondiente que se
4
espera conseguir y que ha hecho que ese comportamiento se mantenga a lo largo del
tiempo.
Cuando una respuesta se extingue, el estímulo discriminativo pasa a ser estímulo de
extinción. Este proceso no debe confundirse con el olvido, que es dado cuando la fuerza
de un comportamiento disminuye al no haber sido emitido en un período de tiempo.
Generalización
Ante una situación o estímulo determinado se condiciona una respuesta, que puede
aparecer ante otros estímulos o situaciones parecidas.
Discriminación
Este proceso es el opuesto al de generalización, en él se responde de manera diferente
según el estímulo y el contexto.
Programas de refuerzo
Skinner también estableció gracias a sus investigaciones diversos programas de
refuerzo, entre los que están los programas de reforzamiento continuo y los programas
de reforzamiento intermitente.
Programas de refuerzo continuo
Están basados en el reforzamiento constante de la respuesta cada vez que se presente,
es decir, cada vez que el sujeto ejecute la conducta deseada obtendrá un estímulo
reforzador o positivo.
Programas de refuerzo intermitente
En cambio, aquí el sujeto no siempre obtiene el reforzador al realizar la conducta
deseada. Estos se definen en base al número de respuestas dadas o al intervalo de
tiempo transcurrido entre respuestas, dando lugar a diferentes procedimientos.
Programas de razón fija
En estos programas el reforzador se proporciona cuando el sujeto genera respuestas
fijas y constantes. Por ejemplo, en un programa de razón 10 la persona obtiene el
reforzador tras haber realizado diez respuestas cuando se presenta el estímulo.
Programas de razón variable
Éste se construye igual que el anterior, pero en este caso el número de respuestas que
el sujeto debe dar para obtener el reforzador es variable.
El reforzador seguiría dependiendo del número de respuestas emitidas por el sujeto
pero con una razón variable, gracias a la cual se evita que el sujeto llegue a predecir
cuándo obtendrá el reforzador.
Programas de intervalo fijo
5
En los programas de intervalo la obtención del reforzador no depende del número de
respuestas que el sujeto dé, sino que está determinado por el tiempo transcurrido. En
consecuencia se refuerza la primera respuesta producida después de haber pasado un
periodo de tiempo determinado.
En los programas de intervalo fijo el tiempo entre reforzador y reforzador es siempre el
mismo.
Programas de intervalo variable
En estos programas el reforzador se obtiene después de un tiempo, aunque el tiempo
es distinto para cada reforzador recibido.
Cambio conductual
Aproximaciones sucesivas o moldeamiento
El moldeamiento consiste en el cambio conductual a través del moldeamiento de
conductas o el refuerzo diferencial de aproximaciones sucesivas.
Para moldear una conducta concreta se siguen una serie de pasos. En primer lugar se
identifica cuál es la conducta inicial que se pretende moldear para saber a cuál se quiere
llegar.
Después, se delimitan los posibles reforzadores que se van a emplear y se separa en
pasos o etapas el proceso para llegar a la conducta final, reforzando cada etapa o
aproximación sucesiva hasta llegar a la última.
Con este procedimiento dinámico se van transformando tanto las conductas como sus
consecuencias. En este sentido, se refuerzan las aproximaciones sucesivas hacia una
conducta objetivo.
No obstante, para que se pueda llevar a cabo, es necesario partir de una conducta previa
que ya realice el sujeto, para así ir reforzando poco a poco sus conductas hasta llegar a
la meta.
Encadenamiento
Con él se forma una nueva conducta a partir de la descomposición en pasos o secuencias
más sencillas, reforzando cada respuesta dada en cada uno de los pasos para así llevar
al establecimiento de una respuesta más compleja en el repertorio conductual del
sujeto.
Se pueden llegar a formar cadenas largas de respuestas utilizando reforzadores
condicionados, adoptando una unidad funcional y cuyo establecimiento lleva a la
adquisición y definición de una destreza particular.
THORNDIKE Y LA LEY DEL EFECTO.
6
1. DESCRIPCIÓN DEL EXPERIMENTO DE THORNDIKE: CÓMO CUANTIFICÓ EL
APRENDIZAJE
Uno de los experimentos más conocidos de Thorndike consistía en encerrar a gatos que
habían sido privados de comida en una caja diseñada para tal efecto, depositando la
comida fuera de la caja a la vista del animal. Una vez encerrado en la caja, el gato
realizaba multitud de movimientos desordenados hasta que conseguía desactivar el
cierre de la puerta y acceder a la comida situada en el exterior de la caja.
De los movimientos realizados por el gato durante el encierro, iba eliminando
progresivamente aquellos que le resultaban inútiles para escapar, realizando tan sólo
los que le permitían salir.
El aprendizaje fue cuantificado en función de la disminución del tiempo desde que
el animal era introducido en la caja hasta que se registraba la respuesta eficaz de
accionar el mecanismo y poder escapar. El tiempo que el animal tardaba en salir de la
caja, se denominó técnicamente, latencia de respuesta.
2. QUÉ ES LA CURVA DE APRENDIZAJE EN EL EXPERIMENTO DE THORNDIKE
La curva de aprendizaje en el experimento de Thorndike se refiere a la gráfica que
representa el nivel de éxito alcanzado por el animal durante el aprendizaje. Es decir, a
la disminución de la latencia de respuesta de un ensayo a otro.
3. FORMULACIÓN DE LA LEY DEL EFECTO DE THORNDIKE EN TÉRMINOS EMPÍRICOS

Según Thorndike, de varias respuestas dadas en una misma situación, las que van
acompañadas o seguidas de cerca por la satisfacción del animal quedarán, en igualdad
de condiciones, más sólidamente conectadas con la situación. Por ello, cuando ésta
vuelva a ocurrir, tendrá más probabilidades de volver a producirse. Por otro lado,
cuando la conducta vaya seguida por insatisfacción, el animal tenderá a no emitirla.
4. CIRCULARIDAD DE LA LEY DEL EFECTO
Thorndike señaló que la conducta se define por su efecto sobre las consecuencias y las
consecuencias se definen por su efecto sobre la conducta. Thorndike pensaba que las
acciones tienen efecto sobre el ambiente y que este cambio ambiental actúa de forma
retroactiva sobre la conducta, así, si las consecuencias son negativas, la conducta
tenderá a disminuir mientras que si las consecuencias son positivas, la conducta tenderá
7
a repetirse en un futuro. Esto es a lo que nos referimos cuando hablamos de circularidad
de la ley del efecto.
Para superar los problemas de circularidad, Hull y Skinner propusieron teorías
alternativas basadas en la introducción de variables motivacionales, en el caso de Hull,
y en la selección de conductas operantes, en el de Skinner.
5. PROPUESTA ALTERNATIVA DE HULL: LA TEORÍA DE LA REDUCCIÓN DEL IMPULSO
Clark L. Hull desarrolló propuso, con su teoría de la reducción del impulso, una
alternativa para salvar el problema de la circularidad de la ley del efecto de Thorndike.
Según su teoría, las consecuencias de la conducta no fortalecían la conducta misma sino
que actuaban a través de un mecanismo motivacional interpuesto que denominó la
reducción del impulso.
Así, el impulso o necesidad es el motor de la conducta y la conducta se fortalece sin las
consecuencias son capaces de reducir, al menos en parte, ese estado de necesidad.
Cuanto mayor sea la reducción del impulso o necesidad, mayor será el aprendizaje.
La introducción de variables motivacionales eliminó la naturaleza circular en la

definición de la ley del efecto, pero trasladó la explicación del reforzamiento a
constructos alejados de la relación de la conducta con el reforzador.
6. PROPUESTA DE SKINNER
Skinner defendió la idea de que la circularidad no constituía un problema en la
formulación de leyes del comportamiento, señalando que todas las leyes psicológicas
deberían encerrar algún tipo de circularidad.
En la misma línea que Thorndike, postuló que la conducta operante es una conducta
emitida de forma voluntaria por los organismos y con efectos sobre el ambiente.
Toda conducta operante debe ser modificable por sus consecuencias, por tanto, de no
poder ser modificada, no podría considerarse una conducta operante. Así, las conductas
que no son modificables por sus consecuencias, no pueden considerarse sujetas a la
ley del efecto.
Se trataría, por tanto, de seleccionar aquellas conductas consideradas como
modificables de las que no lo son, no obstante, su análisis no permite hacer esta
distinción.
8
7. LÍMITES PARA APLICAR LA LEY DEL EFECTO: DEFINICIÓN DE UNA OPERANTE
La conducta operante debe ser, por definición, modificable por sus consecuencias. Si
una conducta no lo es, no puede conceptualizarse como una operante y, por tanto,
sujeta a la ley del efecto.
A partir de los años 60, algunos autores estudiaron la posibilidad de saber de antemano
si una conducta es una operante, concluyendo que la explicación debía buscarse en las
relaciones de la conducta con sus consecuencias, no en la intervención de otros procesos
psicológicos.
8. ENFOQUE E-R DE THORNDIKE DE LA LEY DEL EFECTO
Para Thorndike, las consecuencias reforzantes actúan fortaleciendo las conexiones entre
la situación y la respuesta. Concebía la conducta como meramente refleja de la situación
ambiental.
Las respuestas que inicialmente se activarán con mayor intensidad, serán las que
prevalezcan por la filogenia y la especie animal estudiada en un orden jerárquico. Esta
prevalencia puede ser modificada por la experiencia a través de la historia ontogenética
de reforzamiento.
Es la interacción entre filogenia y ontogenia la clave para entender por qué las conductas
pueden ser diferencialmente afectadas por la ley del efecto.
9. ENFOQUE R-CONSECUENCIA DE SKINNER DE LA LEY DEL EFECTO (EXPERIMENTO DE
DEVALUACIÓN DEL REFORZADOR)
Skinner discrepó de Thorndike en sus planteamientos, al considerar que el ambiente no
provoca la respuesta sino que más bien indica la ocasión en la que una conducta llevará
a consecuencias reforzantes. Por tanto, según Skinner, podríamos decir que el
9
mecanismo teórico implicado en la ley del efecto es el aprendizaje de relaciones entre
la conducta y sus consecuencias, es decir, un mecanismo Respuesta- Consecuencia.
Supongamos una situación experimental en la que en presencia de un sonido, las
presiones a una palanca eran reforzadas con comida azucarada. Si posteriormente esta
comida azucarada se empareja con un malestar gástrico inducido por una inyección de
cloruro de litio, encontraremos que los animales dejan de consumir esta comida
azucarada.
Cuando los animales son llevados nuevamente a la situación experimental con el
sonido y la palanca, se producen menos presiones a la palanca que antes del
tratamiento de devaluación del reforzador. Estos resultados no pueden ser explicados
desde la perspectiva teórica de Estímulo-Respuesta, pero sí desde la aportada por
Skinner de Respuesta-Consecuencia.
ANÁLISIS EXPERIMENTAL DE LA CONDUCTA.

A principios del siglo XX, psicólogos formados en los laboratorios de psicología
experimental de Alemania, se integraron a diferentes universidades de los EU y
rápidamente desarrollaron grupos de estudiantes para los cuales la psicología era una
disciplina que nada tenía que ver con la filosofía.
Un personaje emblemático de esta nueva generación de psicólogos fue Watson. Su
manifiesto de 1913 dejaba muy en claro que al menos una parte de la psicología de esos
años rechazaba a la mente metafísica como objeto de estudio legítimo. Se proponía en
cambio a la conducta como el objeto de interés de la psicología (de ahí el nombre del
nuevo enfoque propuesto por Watson, “conductismo”).
Hacer de la conducta el objeto de estudio de la psicología tenía como ventaja adicional
eliminar a la introspección como herramienta de recopilación de datos y sustituirla por
la observación directa (herramienta más objetiva y acorde con el método de la ciencia).
Watson dedicó su vida a popularizar y difundir la corriente conductista en los EU; sus
dotes como divulgador de la ciencia hicieron que el conductismo fuera identificado y
reconocido dentro y fuera del mundo universitario y académico. A pesar de su éxito
como divulgador, su aproximación etológica al comportamiento humano y su fe en el
condicionamiento clásico de Pavlov como modelo de construcción de la conducta
compleja, resultaron insuficientes para desarrollar un entendimiento cabal del
comportamiento humano.
A pesar de su relativo fracaso, Watson sembró una semilla epistemológica que germinó
de formas diversas. Así pues surgieron durante la primera mitad del siglo XX diferentes
conductismos (entre otros el de Hull, Tolman, Lashley, Weiss y Holt); sin embargo, el
conductismo que más adeptos recogió y cuyo desarrollo tecnológico ha resultado más
amplio, fue el Análisis Experimental de la Conducta de B. F. Skinner.
10
En el enfoque de Skinner, el objeto de estudio lo constituyen las consecuencias
medioambientales de la conducta operante; es decir, la conducta de los organismos se
“esculpe y moldea” a partir de las consecuencias que éstas tienen sobre su medio.
Aquellas conductas que favorecen la adaptación y supervivencia del organismo en el
medio ambiente, tienden a aumentar en frecuencia; por el contrario, aquellas que
tienen efectos nocivos para el sujeto tienden a desaparecer. Así pues, desde este punto
de vista, el comportamiento de los organismos se puede entender como un proceso de
selección por consecuencias, análogo al desarrollo de nuevas especies por mecanismos
de selección natural. Los repertorios conductuales adaptativos permanecen y aquéllos
que tienen efectos nocivos sobre el sujeto desaparecen.
Las ideas de Skinner acerca de los orígenes del comportamiento en los organismos, se
acompañaron de desarrollos tecnológicos que permitieron el estudio de las
correlaciones entre el comportamiento y sus consecuencias de forma automatizada.
El sujeto experimental era colocado en una cámara experimental con un manipulandum
cuya operación producía la caída de una plumilla sobre un rollo de papel giratorio (y
adicionalmente la entrega de una bola de alimento). De esta forma Skinner evaluaba sus
hipótesis de selección por consecuencias y adicionalmente medía objetivamente el
comportamiento del sujeto.
Skinner rápidamente aprendió dos cosas a lo largo de sus investigaciones. En primer
lugar se dio cuenta de que la cantidad de variantes que era posible utilizar para estudiar
los efectos de las consecuencias sobre la conducta era virtualmente infinita.
En segundo lugar, descubrió que la ejecución de diferentes especies animales en los
diferentes procedimientos experimentales que empleaba, era muy similar. Por ejemplo,
al comparar la ejecución de ratas y palomas en programas de intervalo fijo, encontró
que en ambas especies, se observa una tasa de respuesta que incrementa de manera
cada vez más acelerada, conforme se aproxima el vencimiento del tiempo de la duración
del intervalo. Skinner denominó al patrón festón; este patrón ha sido replicado por
numerosos autores y en diferentes especies animales.
Algunos de los estudiantes de Skinner emplearon el enfoque del Análisis Experimental
de la Conducta para estudiar la conducta humana. Por ejemplo, Bijou encontró que el
comportamiento de los niños pequeños es enormemente sensible a las manipulaciones
en las consecuencias.
Por su parte, Wolf encontró que niños autistas y/o con retraso mental, pueden aprender
nuevos repertorios conductuales mediante el empleo del reforzamiento positivo. Así
pues, no toda la psicología se ocupa del estudio de la mente metafísica,
complementariamente, no toda la psicología emplea a la introspección y a los estudios
de caso como herramientas de recopilación de datos.
Al menos una parte de la psicología estudia el mundo físico y sus herramientas de
trabajo son la experimentación rigurosa y la medición de la variable dependiente
mediante métodos automatizados. Complementariamente, al menos una parte de la
11
psicología produce resultados sistemáticos, replicables y de gran generalidad entre
especies. A continuación se presentarán algunos arreglos experimentales que han sido
ampliamente explorados por el Análisis Experimental de la Conducta y que pueden
resultar de interés para las neurociencias. Los arreglos experimentales pueden resultar
atractivos para éstas como variables dependientes para sus manipulaciones
experimentales; complementariamente pueden resultar interesantes por sí mismos
como modelos de trabajo para el desarrollo teórico y la evaluación de hipótesis
científicas.
MODELOS EXPERIMENTALES EMPLEADOS
Adquisición con demora
En los párrafos anteriores se presentó el modelo general de trabajo del Análisis
Experimental de la Conducta. En síntesis se trata de cubículos pequeños donde se puede
introducir un animal pequeño (roedor, ave o mono), el cubículo tiene un manipulandum
de metal cuya activación produce la entrega de un reforzador (usualmente alimento).
Durante muchos años, la operación del manipulandum fue moldeada directamente por
el investigador a través de la técnica de aproximaciones sucesivas; sin embargo, en los
años noventas se descubrió que los roedores y las palomas pueden aprender a operar
el manipulandum razonablemente rápido y aun bajo condiciones de reforzamiento
demorado, es decir bajo condiciones en las cuales la respuesta se encuentra separada
temporalmente del reforzador.
Estudios posteriores han mostrado que la adquisición con demora es posible en peces y
en monos. Otros estudios han demostrado que la adquisición de la respuesta de
palanqueo puede ocurrir incluso con demoras de hasta 60 s y aun después de largas
historias de entrega de alimento no contingente.
Inicialmente el hallazgo parecía importante exclusivamente porque llevaba a reevaluar
las capacidades asociativas de aves, roedores y otros animales; sin embargo, el modelo
es interesante porque ofrece a las neurociencias una alternativa a los modelos de
adquisición basados en el empleo de laberintos.
Desde inicios del siglo XX, la adquisición de nuevas conductas ha sido evaluada,
principalmente, a través de laberintos de diferente índole.
El uso de laberintos para estudiar adquisición representa diferentes problemas
relacionados con variables extrañas, ya que generalmente es necesario manipular al
sujeto para iniciar cada ensayo (lo cual puede resultar aversivo tanto al sujeto como al
investigador); de manera complementaria, resulta complicado interpretar los
resultados, ya que los tiempos y ensayos de cada sesión dependen en gran medida de
cuán fácil o difícil fue reiniciar el ensayo en cada caso.
Obviamente el modelo de operante libre aquí propuesto limita considerablemente la
interacción entre el científico y el sujeto; además el inicio de cada ensayo depende
exclusivamente del sujeto experimental y así sus respuestas y los tiempos de sesión no
se ven contaminados por las interacciones entre ensayos. El equipo para llevar a cabo
12
este tipo de investigación puede adquirirse de diferentes proveedores especializados
(desafortunadamente muchos de ellos fuera del país). Sin embargo, para este trabajo se
utilizaron materiales fácilmente asequibles en el país (acrílico, bancos de relevadores,
tarjeta industrial y computadoras 486 descartadas por su obsolescencia).
El modelo de adquisición con demora permitiría a las neurociencias, estudiar procesos
asociativos (respuesta-consecuencia) evitando los problemas ya mencionados de las
preparaciones de laberintos.
La preparación también podría resultar interesante para estudiar procesos mnémicos
(específicamente la capacidad del sujeto para recordar el evento que produjo una
consecuencia particular).
De hecho ya existe al menos un estudio publicado en el cual la preparación ha sido
empleada para evaluar el efecto de sustancias, que se sospecha, tienen efectos que
favorecen el aprendizaje.
Elección bajo
programas concurrentes
Una de las estrategias más empleadas para estudiar la elección en organismos no
humanos consiste en exponer a una paloma a un programa concurrente con dos
alternativas de respuesta.
En un programa concurrente dos o más programas independientes están vigentes
simultáneamente a un organismo. El sujeto puede obtener reforzamiento en una de las
dos opciones o alternar entre las opciones de respuesta; en la investigación sobre
elección es frecuente que el investigador varíe la tasa de reforzamiento que produce
cada opción o el tipo de programa vigente en cada alternativa.
Generalmente el cambio de una opción a otra se logra mediante un manipulandum
(tecla o palanca) que permite al organismo obtener reforzamiento en otra opción de
respuesta. Programar una demora de cambio (DDC) mediante una tecla o una palanca,
evita que alternar entre las opciones pueda ser reforzado supersticiosamente por la
aparición inmediata de un reforzador al cambiar de opción (tómese en cuenta que una
parte importante de la investigación en elección se lleva a cabo utilizando programa de
intervalo variable; así pues, la DDC, evita que se entregue un reforzador inmediatamente
después de que se operó el manipulandum que inicia la DDC.
El hallazgo más frecuente en la investigación con programas concurrentes es que la tasa
relativa de respuesta en cualquiera de las opciones, es igual a la tasa de reforzamiento
en cada una de ellas.
La relación de igualdad entre la tasa relativa de respuesta y la tasa relativa de
reforzamiento, fue descrita originalmente de acuerdo con la ecuación 1:
B1/(B1 + B2) = R1/(R1 +R2)
13
En la ecuación, B1 (behavior) es la tasa relativa de respuesta para la opción B1;
complementariamente, R1 (reinforcement) es la tasa relativa de reforzamiento en la
opción R1. Aunque la ecuación 1 se diseñó originalmente para describir el
comportamiento de palomas en programas concurrentes de IV que producen grano
como reforzador, su generalidad entre especies ha sido ampliamente demostrada (en
humanos, peces, monos, ratas) y tipos de reforzadores (dinero, estimulación cerebral,
cocaína, aceptación verbal).
A pesar de la generalidad de la llamada Ley de igualación, algunos investigadores han
mostrado que la tasa relativa de respuesta puede ser menor a la tasa relativa de
reforzamiento (subigualación) o más elevada que la tasa relativa de reforzamiento
(sobre igualación). Precisamente para describir estas desviaciones de la ley de
igualación, se propuso la llamada Ley de igualación generalizada, que se describe en la
ecuación 2:
32 B1/B2 = b (R1/R2)s
En la ley de igualación generalizada se agregan dos parámetros adicionales a la ecuación
1. El parámetro b tiene que ver con desviaciones relacionadas con el tipo de alternativas
de respuesta que recibe el sujeto (por ejemplo, la alternativa 1 es picoteo y la alternativa
2 es pisar un pedal). Por otro lado, el parámetros refiere la sensibilidad del organismo a
las diferentes frecuencias de reforzamiento. Así pues, valores de s de uno o cercanas a
uno acercan al sujeto a la igualación estricta; de forma complementaria, valores
menores a uno describen comportamiento de subigualación (y valores mayores a uno
describen comportamiento de sobreigualación).
Los programas concurrentes pueden ser de interés para las neurociencias por varios
motivos, uno de estos tiene que ver con la descripción cuantitativa de sus efectos. La
descripción en cuestión facilita evaluar objetivamente los efectos de las manipulaciones
experimentales realizadas; complementariamente permite identificar los parámetros
específicos de la ecuación que se ven afectados por las variables independientes. Los
programas concurrentes también pueden resultar interesantes para las neurociencias,
ya que permiten evaluar un mecanismo adaptativo fundamental para los seres vivos, la
capacidad para discriminar entre fuentes de reforzamiento que difieren en su
frecuencia.
Poder identificar variables anatómicas, farmacológicas, genéticas o ambientales que
modulen el funcionamiento de este mecanismo puede tener implicaciones terapéuticas
y médicas relevantes. De hecho en el ámbito de las manipulaciones ambientales,33
demostraron que las desviaciones de la igualación descritas en la literatura del área (en
especial la subigualación) podrían deberse a la falta de experiencia de los sujetos con los
programas de reforzamiento empleados.
De manera complementaria, un estudio realizado mostró que la igualación en
programas concurrentes se pierde en pacientes que padecen Alzheimer.
“Timing” utilizando programas de intervalo fijo
14
En un programa de intervalo fijo (IF) un organismo puede producir reforzamiento si
emite una respuesta después de que ha transcurrido un intervalo de duración
determinada. Típicamente, una vez que la respuesta ha ocurrido, el organismo recibe
alimento y reinicia el intervalo una vez más. Aunque el organismo puede responder a lo
largo de todo el intervalo, el hallazgo más frecuente es que una vez que se ha entregado
el reforzador, el organismo deja de responder, las respuestas son relativamente
infrecuentes durante la primera parte del intervalo; sin embargo, conforme se acerca
nuevamente el vencimiento del intervalo el animal comienza a responder a una tasa
cada vez más elevada, llegando a un máximo muy cerca del momento en que termina el
IF. Este patrón recibe el nombre de festón y ha sido considerado como evidencia
conductual de que para los organismos el transcurso del tiempo es una propiedad
discriminable del medio ambiente.
De hecho, en organismos que han sido expuestos durante muchos meses a programas
de IF, eventualmente se observa que emiten solamente unas cuantas respuestas, justo
antes de que termine el intervalo, recuperan el reforzador obtenido y no vuelven a
emitir respuestas hasta que el nuevo intervalo está a punto de terminar.
Este tipo de observaciones ha llevado a algunos científicos interesados en el estudio de
la discriminación temporal a diseñar un método de investigación que se conoce como
metodología de cambio. En este método, el organismo es expuesto durante algún
tiempo a un programa IF, posteriormente, el organismo es expuesto a un programa de
tiempo fijo (TF) en el cual el alimento se entrega de manera gratuita de manera periódica
y usualmente empleando la misma duración de tiempo del programa IF. La evidencia de
la discriminación temporal ocurre cuando el organismo sigue alcanzando la cima de su
festón cerca del momento de la entrega del reforzador.
Otro método empleado para estudiar discriminación temporal consiste en utilizar
programas de Reforzamiento Diferencial de tasas Bajas (RDB). En estos programas, la
entrega del reforzamiento ocurre si el organismo responde, respetando un tiempo
mínimo entre respuestas, por ejemplo no responder de nuevo antes de que hayan
transcurrido 5 s. Si el organismo responde antes del tiempo preestablecido, entonces
pierde el reforzador; generalmente la capacidad del organismo para evitar perder
reforzadores, se toma como evidencia de que ha ocurrido la discriminación temporal.
Al igual que con el caso de los fenómenos de elección, dentro del Análisis Experimental
de la Conducta también se han diseñado modelos para explicar la discriminación
temporal; sin embargo, la mayor parte de ellos comparte los siguientes elementos:
• En los organismos existe un sistema de marcapasos que emite pulsos a intervalos más
o menos regulares.
• En los organismos existen capacidades mnémicas que permiten determinar cuántos
pulsos ha emitido el marcapasos.
• Los organismos poseen la capacidad de comparar los valores acumulados en la
memoria con la meta de tiempo planteada.
15
Aunque la mayor parte de los modelos de discriminación temporal comparten estos
elementos, difieren en múltiples detalles, algunos de los cuales probablemente podrían
ser evaluados y matizados desde las neurociencias.
SÍNTESIS ARGUMENTATIVA
En síntesis, el Análisis Experimental de la Conducta puede resultar de interés para las
neurociencias debido a que comparte con ella elementos epistemológicos
fundamentales tales como un interés por el estudio del mundo fáctico y una
metodología objetiva y experimental. Adicionalmente, el Análisis Experimental de la
Conducta ha desarrollado preparaciones experimentales que permiten contestar
preguntas fundamentales para las neurociencias. En este trabajo se presentan tres de
estas preparaciones; la primera presentada aquí permite estudiar los mecanismos
fundamentales del aprendizaje asociativo y la memoria; la segunda permite estudiar la
adaptación de los sujetos a su medio ambiente a través de procesos de elección óptima;
la tercera permite estudiar los procesos de discriminación temporal.
Estos procedimientos experimentales son tan sólo tres ejemplos del extenso legado
científico de B. F. Skinner. Como se mencionó previamente, tanto en EU como en
Europa, ha sido posible para las neurociencias aprovechar los desarrollos del análisis
experimental de la conducta, de formas diversas y fructíferas. Se espera que este trabajo
sirva para interesar a los neurocientíficos mexicanos en el legado de Skinner y que, al
igual que sus contrapartes en otros países, puedan emplearlo para el desarrollo de su
disciplina.
SKINNER Y EL CONDICIONAMIENTO OPERANTE
Nació en 1904 en Susquehanna, Pennsylvania.  Luego de fallar en sus intentos de ser

escritor cambió a la psicología, de lo cual sólo tenía una vaga idea.  Escribió en 1938 el
libro titulado “La Conducta de los Organismos”, en la cual introdujo sus estudios sobre
el condicionamiento operante, luego escribió Walden II en 1948, si intento era describir
la utilización de un diseño para la buena vida en una comunidad regida por los principios
del conocimiento operante.  Entre sus libros más conocidos están: La conducta de los
organismos, Conducta verbal, Más allá de la libertad y la dignidad y Walden dos. Burrhus
Frederic Skinner
Entre los experimentos más célebres de Skinner cabe citar el adiestramiento de unas
palomas para jugar al pimpón, la llamada caja de Skinner, todavía hoy utilizada para el
condicionamiento de animales, o el diseño de un entorno artificial específicamente
pensado para los primeros años de vida de las personas.
Teoría de Skinner  Condicionamiento operante

llamado también instrumental y hoy en día análisis experimental de la conducta (AEC),
se puede definir de la siguiente forma: Es la teoría psicológica del aprendizaje que
16
explica la conducta voluntaria del cuerpo, en su relación con el medio ambiente, basados
en un método experimental.
Es decir, que ante un estímulo, se produce una respuesta voluntaria, la cual, puede ser
reforzada de manera positiva o negativa provocando que la conducta operante se
fortalezca o debilite.
Skinner afirma que cuando los alumnos están dominados por una atmósfera de
depresión, lo que quieren es salir del aprieto y no propiamente aprender o mejorarse.
Se sabe que para que tenga efecto el aprendizaje, los estímulos reforzadores deben
seguir a las respuestas inmediatas.  Como el maestro tiene demasiados alumnos y no
cuenta con el tiempo para ocuparse de las respuestas de ellos, uno a uno tiene que
reforzar la conducta deseada aprovechando grupos de respuestas. Skinner considera
que la finalidad de la psicología es predecir y controlar la conducta de los organismos
individuales. En el condicionamiento operante se considera a los profesores como
modeladores de la conducta de los alumnos. Influencia de la teoría con el aprendizaje
El condicionamiento operante de Skinner
El trabajo de Skinner está basado en la ley del efecto de Thorndike. Skinner introdujo un
nuevo término en la ley del efecto: el refuerzo. La conducta que es reforzada tiende a
repetirse; la conducta que no es reforzada tiende a extinguirse (se debilita). Skinner
acuñó el término “condicionamiento operante”, que implica cambiar una conducta
utilizando refuerzos dados después de la respuesta deseada.  Skinner estudió el
condicionamiento operante conduciendo experimentos con animales, que colocaba en
una “caja de Skinner”, similar a la caja-puzzle de Thorndike.
Todos hemos experimentado ejemplos de conductas que han sido afectadas por
refuerzos y castigos. Cuando éramos niños, por ejemplo, si hablábamos durante una
clase, el profesor nos mandaba callar. Esta respuesta por parte del profesor constituye
un castigo que, al menos supuestamente, debería debilitar la conducta de hablar con el
compañero durante la clase.
Durante la adolescencia, por ejemplo, llevar un determinado estilo o marca de ropa
podría ser reforzado positivamente por los compañeros de misma edad mediante
halagos, aceptación social o simplemente algún gesto amable. Esto refuerza y hace que
sea más probable que se repita la conducta de llevar puesta una ropa de marca
determinada.
Aplicaciones y ejemplos de la teoría
Generalización Es cuando al reforzar una respuesta se produce un incremento en otra
respuesta parecida.
Discriminación Es cuando un organismo se comporta de manera diferente en presencia
de dos estímulos.
Extinción Es un procedimiento en el cual una conducta operante que ha sido deja de ser
reforzada y produce el fin de la respuesta.
17
• Aprendizaje por reforzamiento
• Aprendizaje por evitación
• Aprendizaje supersticioso
• Aprendizaje por castigo
• Olvido Principios del condicionamiento operante
Skinner propone que el administrador solo necesita entender la relación entre las
conductas y sus consecuencias para poder crear condiciones de trabajo que alienten las
conductas deseables y desalientes las indeseables.
El comportamiento se aprende mediante sus consecuencias positivas o negativas. El
reforzamiento en la teoría Tipos de reforzamiento
• Positivo
• Negativo
• Extinción
• Castigo
• Múltiple
• Compuesto
• Concurrente
PROGRAMAS DE REFUERZO
Programas de razón frente a programas de intervalo: funciones de retroalimentación
La forma en que se programan los reforzadores en contingencia con la emisión de una
respuesta operante constituyen los programas de reforzamiento. Cada uno de ellos
especifica una regla que determina las condiciones en las que una respuesta puede ser
reforzada. Hablamos de reforzamiento intermitente o parcial cuando tan sólo se
refuerzan algunas de las respuestas que emite el sujeto y no todas, y es lo que
generalmente mantiene todo comportamiento condicionado de forma operante. El
reforzamiento parcial en comparación con el reforzamiento continuo, produce un
aprendizaje más duradero y más difícil de extinguir.
Se han investigado muchas formas diferentes de programar los reforzadores de manera
intermitente, los principales y más básicos programas de reforzamiento positivo
intermitente se pueden clasificar en dos bloques: programas de razón y programas de
intervalo. Los programas de razón estipulan que se debe emitir un número determinado
de respuestas antes de que la última de ellas sea reforzada. Los programas de intervalo
establecen que debe pasar un determinado tiempo desde la consecución del reforzador
anterior antes de que la respuesta requerida sea de nuevo reforzada. El requisito del
18
número de respuestas en los programas de razón o el tiempo transcurrido en los
programas de intervalo, es a partir de la presencia del reforzador anterior.
Los programas de razón y de intervalo pueden a su vez, clasificarse en programas fijos y
programas variables. De la combinación de estas divisiones surgen cuatro programas
básicos de reforzamiento: razón fija, razón variable, intervalo fijo e intervalo variable.
Cita de Ferster y Skinner: “Un programa de reforzamiento puede definirse sin referencia
a sus efectos sobre la conducta. De esta manera, una respuesta puede ser reforzada en
base al tiempo que ha transcurrido desde que se administró el reforzador precedente,
o en base al número de respuestas que han sido emitidas desde que se administró el
anterior reforzador. Un programa dado puede ser fijo o puede variar, ya sea al azar, ya
sea de acuerdo con un plan. Estas dos posibilidades suministran cuatro programas
básicos: intervalo fijo, intervalo variable, razón fija y razón variable. Pero otras
posibilidades existen, así como muchas combinaciones de tales programas”
En un programa de razón fija el número de respuestas requerido para que se administre
el reforzador es siempre el mismo, siempre se tiene que dar el mismo número de
respuestas para conseguir cada reforzador. Se abrevia RF seguida de un número que
indica el valor del número de respuestas requerida, por ejemplo RF-50. El programa RF-
1 sería lo que antes hemos denominado reforzamiento continuo, puesto que sería
reforzada cada respuesta.
Un programa de razón variable requiere en cambio un número de respuestas que varía
de una ocasión a la siguiente, de manera irregular, alrededor de un número promedio
de respuestas por cada reforzador. Se abrevia RV, de manera que en un programa RV-
100 se conseguirá el reforzador si en promedio se han emitido cien respuestas, en unas
ocasiones más y en otras menos, teniendo 100 como valor medio.
Los programas de intervalo fijo son aquellos que, al mantener constante el tiempo
requerido para el siguiente reforzador, reforzarán la primera respuesta que ocurra una
vez haya transcurrido un tiempo siempre igual desde que se dispensó el último
reforzador. En cambio los de intervalo variable son aquellos donde varía la cantidad de
tiempo a transcurrir entre un reforzador y el siguiente antes de que la respuesta sea
reforzada, dando lugar a un valor promedio de intervalo entre reforzadores.
Estos programas también se abrevian IF e IV seguidos del valor numérico de la cantidad
de tiempo que debe transcurrir.
Cada uno de estos cuatro programas básicos produce una ejecución conductual
característica y diferente, que se puede apreciar solo con ver la forma cómo se
distribuyen las respuestas a lo largo del tiempo. Una forma de registrar las respuestas
en un registrador acumulativo, que es un rollo de papel que va girando a velocidad
constante y sobre el que se apoyan dos plumillas que van dibujando, una cuando el
sujeto da respuestas, indicando también qué respuestas son reforzadas, y otra que
marca cuando se presenta el estímulo discriminativo.
19
Se puede medir así tanto el número de respuestas, como el número de pausas, el tiempo
transcurrido entre ellas (TER: tiempo entre respuestas) o el tiempo total sin responder....
El resultado es una curva acumulativa continua que refleja las tasas de respuesta.
La observación de cómo se distribuyen las respuestas en un registro acumulativo
permite una lectura fácil de la tasa de respuesta y de los cambios asociados a ella que
ocurren en el tiempo. Cómo el papel avanza a una velocidad constante, cuando se
responde rápidamente (tasa alta de respuesta) el registro será muy inclinado. Si la tasa
de respuesta fuera baja, el registro sería más plano, y de la misma forma ante una tasa
de respuesta de valor medio el registro será una pendiente intermedia. Esta técnica de
medida con el registro acumulativo tiene varias ventajas: se pueden medir todas las
respuestas aun cuando ocurran muy rápidamente, y registrar las estructuras de
comportamiento sin perder detalles. Permite hacer una medición no contaminada de
las respuestas de los sujetos experimentales durante periodos prolongados de tiempo.
Los programas de RV (panel b) proporcionan tasas de respuesta muy altas y constantes,
que a veces se aproxíman a los límites de capacidad física de los organismos. Los
programas de IV (panel d) tambien dan tasas constantes de respuesta, aunque
normalmente de un valor inferior a las producidas en un RV. Ambos proporcionan un
índice de perseverancia muy elevado. (vertical: no respuestas, horizontal: segundos).
En cambio la tasa de ejecución en un programa de RF (panel a) se caracteriza

inicialmente por una tasas elevada de respuesta, que se mantienen desde la primera
respuesta después de haber obtenido el reforzador hasta la siguiente respuesta
reforzada. Esta ejecución alta y estable de conducta se desarrolla rápidamente cuando
la razón es relativamente pequeña.
Sin embargo cuando la razón es mayor, como por ejemplo RF-50 (la representada aqui)
se observa una pausa post-reforzamiento que se sigue de una transición casi instantánea
a una tasa alta de respuesta posterior (la carrera de la razón). La duración de la pausa
post-reforzamiento en los programas de RF depende, principalmente, del valor de la
razón. Si el requisito de la razón fuese muy elevado, se puede dejar de responder por
completo, lo que se denomina tensión de la razón.
20
La ejecución en un programa de IF (panel c) se caracteriza por una pausa post-
reforzamiento más o menos prolongada en función de la duración del intervalo, y por
una progresiva aceleración posterior de la tasa de respuesta en cada uno de los
intervalos, de manera que la tasa mayor de respuesta se produce cerca del final del
intervalo. Esta pauta de conducta, como la representada en la gráfica de abajo para un
programa de IF-60 seg, es frecuentemente referida como festoneado, para resaltar así
la existencia de cambios sistemáticos en la tasa de respuesta. En los programas de IF, la
tasa global de respuesta no parece ser el mejor indicador de la ejecución conductual en
estos programas de reforzamiento
Como se ha señalado, la tasa de respuesta aumenta progresivamente en cada uno de
los intervalos a medida que avanza el tiempo, y estos cambios son lo genuinamente
característico de los programas de IF. El patrón de respuestas en un programa de IF
refleja un proceso de discriminación temporal, de manera que los animales responden
cuando «subjetivamente» consideran que es altamente probable la consecución del
reforzador.
La diferencia fundamental entre los programas fijos (RF e IF) y los variables (RV e IV) es
que en los primeros, de forma contraria a los segundos, suele aparecer una pausa tras
cada reforzamiento. La diferencia fundamental entre un programa de RF y uno de IF es
que en la ejecución del primero se pasa de la pausa post-reforzamiento a una tasa alta
y estable de respuesta, mientras que en IF se pasa de la pausa post-reforzamiento a una
21
aceleración gradual en la tasa de respuesta hasta alcanzar una tasa alta al final del
intervalo.
En los programas de intervalo, una vez que la respuesta está disponible, el sujeto puede
recibirla en cualquier momento a partir de entonces (porque ya ha pasado el intervalo
de tiempo estipulado) con tal de que dé la respuesta requerida. En muchas ocasiones
esta disponibilidad del reforzador se limita en el tiempo, estipulando un tiempo límite
para conseguir el reforzador. Esta clase de restricción se llama duración limitada y se
puede aplicar tanto a IF como a IV.
La duración de la pausa post-reforzamiento que ocurre en los programas de RF se
incrementa sistemáticamente a medida que aumenta el requisito de la razón. De la
misma forma, la pausa post- reforzamiento está directamente relacionada con la
longitud del programa de IF, de forma que a mayor duración del intervalo mayor será la
respuesta. En los programas de razón, a medida que se aumenta el requisito del número
de respuestas, se aumenta también el intervalo entre reforzadores, dado que se tarda
más en completar las respuestas necesarias para conseguir el reforzador. Killeen mostró
que la duración de la pausa post-reforzamiento en los programas de RF depende más
de la frecuencia de reforzamiento (que viene determinada por el intervalo temporal
entre los reforzadores) que del propio requisito del programa en cuanto al número de
respuestas a realizar.
En los programas de razón, la duración de la pausa está determinada más por el
programa que se va a completar que por el que ha ocurrido inmediatamente antes. Los
programas se pueden disponer en cuatro series secuenciales distintas en base a la
longitud corta o larga de la razón. Así, las transiciones de uno a otro programa de RF
pueden ser:, larga-larga, corta-larga, corta-corta, larga-corta. Si el programa que va a
ocurrir es el responsable de la longitud de la pausa, se esperan pausas más largas en los
dos primeros casos, en los que el programa que viene después es una RF larga, que en
los dos últimos. Y de forma contraria, si el programa que ya ha ocurrido es el responsable
de la pausa siguiente, las pausas más largas deberían ocurrir cuando el programa
precedente hubiera sido una RF larga, es decir en secuencias larga-larga y larga-corta.
Los resultados parecen indicar que la longitud de la pausa está mejor predicha por el
programa de RF que va a ocurrir que por el que ya ha ocurrido, puede ser debido a que
las RF más largas aumentan la separación entre las respuestas iniciales y el reforzador
que ocurre al final de la serie, de manera que es más contiguo a las últimas respuestas
que a las primeras.
Programas de razón frente a programas de intervalo: funciones de retroalimentación
Cuando se igualan las tasas y patrones de reforzamiento, la tasa de respuesta suele ser
mayor en los programas de razón que en los de intervalo. Esto se ha investigado por un
procedimiento que asigna un valor de intervalo a un programa de reforzamiento en
función de lo que hayan tardado los animales previamente en completar un programa
de razón (midiendo el tiempo que les lleva realizar todas las respuestas). De esta manera
22
los programas de intervalo y de razón se igualan en cuanto al número de reforzadores
obtenidos y la distribución de los mismos.
En la figura se representan registros típicos de programas de RV e IV acoplados de esta

manera (las líneas discontinuas verticales indican el momento de ocurrencia de los
reforzadores, que como se puede ver coinciden en los dos programas) y, como se puede
apreciar, el programa de RV generó una tasa de respuesta mucho más alta que el
programa de IV.
En los programas de intervalo, la tasa de respuesta no influye directamente sobre la
frecuencia de administración de los reforzadores (la tasa de reforzamiento), mientras
que la tasa de reforzamiento varía de manera directa con los cambios en la tasa de
respuesta en los programas de razón (comparar las líneas verticales que interseccionan
con el eje de abscisas en los paneles c y d de la Figura 5.2., con las líneas horizontales
que interseccionan con el eje de ordenadas en los paneles a y b).
Una explicación de estas diferencias es que los programas de intervalo (particularmente
IV) tienden a reforzar TER largos, porque el mero paso del tiempo lleva a un incremento
en la probabilidad de reforzamiento. Dado que en los programas de IV se generan TER
largos, éstos se reforzarán y llegarán a predominar, reduciendo así la tasa de respuesta.
Los programas de razón (particularmente RV) no presentan la tendencia de reforzar
diferencialmente un TER particular y, por tanto, no favorecen la ocurrencia de TER
largos.
Es más, dada la tendencia a responder en ráfagas de respuestas se hace más probable
que el reforzador actúe sobre TER cortos. Baum ha denominado este tipo de explicación
como molecular, porque un acontecimiento que puede ocurrir en un determinado
momento, en este caso el reforzamiento de un TER, es suficiente para producir un
efecto. El mecanismo explicativo implicado sería las variaciones momento a momento
en la contigüidad respuesta-reforzador.
23
Una segunda forma de explicar las diferentes tasas de respuesta entre los programas de
razón y de intervalo parte de que en los programas de RV existe una correlación directa
entre la tasa de respuesta y la tasa de reforzamiento. La tasa de respuesta tenderá a
aumentar para maximizar la tasa de reforzamiento.En los programas de IV, sin embargo,
no existe virtualmente ninguna relación entre la tasa de respuesta y la tasa de
reforzamiento: por mucho que se incremente la primera, no variará la segunda. Baum
ha denominado este tipo de explicación como molar, porque las variables efectivas —la
tasa de reforzamiento y su dependencia de la tasa de respuesta— son fenómenos
temporalmente extensos, haciendo énfasis en la correlación frente a la contigüidad. Las
correlaciones entre la tasa de respuesta y la tasa de reforzamiento han sido
denominadas funciones de retroalimentación
Una función de retroalimentación es una descripción de la forma en que actúa el
ambiente, como la frecuencia de reforzamiento, la magnitud del reforzador, o la demora
al reforzador, en función de algún aspecto de la ejecución conductual. Las funciones de
retroalimentación no asumen que la conducta esté bajo el control de una variable
independiente, simplemente que la conducta afectará a algún aspecto del ambiente. Los
aspectos de la conducta y del reforzamiento son variables dependientes, que se
relacionan por funciones de retroalimentación, pero que no necesariamente tienen por
qué mantener una relación causal. En el condicionamiento operante, la obtención de los
reforzadores programados depende de la emisión de la respuesta criterio, y así la tasa
de reforzamiento obtenida es también una medida de una ejecución eficiente.
La función de retroalimentación de la tasa de reforzamiento para la tasa de respuesta
en un programa de RF que requiera N respuestas por reforzador es R = B/N, donde R es
la tasa de reforzamiento obtenido y B es la tasa de respuesta emitida.
El resultado de esta ecuación aplicada a diferentes programas de RF sería este panel,
dónde la tasa de reforzamiento que obtiene el sujeto es proporcional a la tasa de
respuesta realizada y la proporcionalidad es el requisito de la razón. Cuando más rápido
se responda, mayor tasa de reforzamiento, y el número de respuestas requeridas para
producir incrementos en la tasa de reforzamiento debe aumentar conforme se
incrementa el requisito de la razón. La misma ecuación puede aplicarse para programas
de RV.
24
Las funciones de retroalimentación que relacionan la tasa de respuesta y la tasa de
reforzamiento son más difíciles de calcular para los programas de intervalo. En los
programas de IV (y también en los de IF) la forma de la función es hiperbólica
Los cambios en la tasa de respuesta a tasas bajas de respuesta afectarán mucho a las
tasas de reforzamiento, pero cuando las tasas de respuesta sean altas, los cambios en la
tasa de respuesta tendrán poco efecto sobre la tasa de reforzamiento. Cuanto más corto
es el programa de IV existe un mayor margen para que pequeños incrementos en las
tasas bajas de respuesta produzcan incrementos sustanciales en la tasa de
reforzamiento. Las funciones se aplanan a partir de una tasa de respuesta, porque por
mucho que se responda la tasa máxima de reforzamiento no puede aumentar más que
el valor especificado por el programa de intervalo.
El que en los programas de intervalo existan áreas aplanadas en las funciones de

retroalimentación indica que el control diferencial de la conducta es bastante débil, las
contingencias de reforzamiento no empujan la conducta en ninguna dirección. Esta es
la diferencia fundamental entre los programas de intervalo y los programas de razón.
El ejemplo paradigmático de una función de retroalimentación plana es el experimento
de superstición (Capítulo 4), donde no hay contingencia programada entre la ocurrencia
o no de la respuesta y la presentación del reforzador, ni por supuesto entre la tasa de
respuesta y la tasa de reforzamiento.
Programas de reforzamiento diferencial de tiempos entre respuestas
Para probar que el reforzamiento diferencial de los TER es posible se diseñaron
programas de reforzamiento específicos a tal fin, reforzando específicamente TER cortos
y TER largos. El diseño básico de estos programas es elegir un tiempo determinado y
reforzar únicamente los TER que sean más largos que ese tiempo, lo que viene a definir
los programas de Reforzamiento Diferencial de tasas Bajas de respuesta (RDB), o los TER
más cortos que el tiempo elegido, lo que viene a definir los programas de Reforzamiento
Diferencial de tasas Altas de respuesta (RDA).
25
La diferencia entre RDB y IF, es que en los programas de RBD sólo se refuerza la
respuesta si ha transcurrido un tiempo especificado desde la anterior respuesta (un
TER), mientras que en los programas de IF la respuesta es reforzada si ha transcurrido
un tiempo determinado desde el anterior reforzador. Por tanto en los RDB se añade una
contingencia de castigo para las respuestas que ocurren antes del tiempo especificado
por el programa, ya que cualquier respuesta prematura reinicia el intervalo de tiempo
requerido. La manera de obtener el reforzador es, por tanto, refrenar la respuesta por
un tiempo y emitirla cuando ha transcurrido dicho intervalo temporal. Esta pequeña
modificación da como resultado una ejecución operante muy diferente a la que se
obtiene en un IF, porque la contingencia añadida para las respuestas que ocurren antes
de transcurrir el tiempo especificado, debe ser considerada como un castigo, porque la
consecuencia de la respuesta es la presentación de un tiempo-fuera de reforzamiento
positivo.
El RDA se define porque el reforzador se hace contingente con la respuesta si esta ocurre
antes de que haya transcurrido un tiempo determinado, reforzando especialmente los
TER cortos. En este programa el reforzador se obtiene si se responde antes del tiempo
especificado, y las respuestas que ocurran después de ese intervalo temporal
simplemente reinician el intervalo. Por eso se obtienen tasas altas de respuesta.La
ejecución en los programas RDA es más fácil que en los RDB porque es difícil reforzar
específicamente una respuesta pero que no se haga de forma repetida. La dificultad
puede deberse a la inducción de respuestas por el reforzamiento espaciado y/o a la
degradación del valor del reforzador por encontrarse demorado desde la emisión de la
respuesta criterio.
Teoría del reforzamiento diferencial de los tiempos entre respuestas
La teoría del reforzamiento diferencial de los TER se basa en que los reforzadores no
sólo refuerzan ejecutar una determinada respuesta, sino que también refuerzan el
hacerlo a un determinado ritmo, con un determinado espaciamiento entre respuestas.
Afirma así que en todos los programas de CO se refuerzan específicamente TER de una
duración determinada, concretamente se reforzaría el TER que ocurre antes de la
administración del reforzador.
Los programas RDB y RDA están específicamente diseñados para reforzar,
respectivamente, TER de duración larga y de duración corta. También cambia la
ejecución del sujeto dependiendo de si los reforzadores se dan de acuerdo a programas
de razón o intervalo, y también según si son fijos o variables.
Los programas RV e IV consiguen una tasa de respuesta muy constante, esto es, sin
pausas post- reforzamiento, con lo que la duración de los TER es muy homogénea y es
fácil atribuir su ejecución al reforzamiento diferencial de los TER de una duración
determinada
26
La ejecución en los programas de RF e IF, sin embargo, no es tan homogénea como en
los programas variables y normalmente se obtienen acusadas pausas post-
reforzamiento. De acuerdo con la aplicación estricta de la teoría de reforzamiento
diferencial de los TER, los TER reforzados en los programas de RF e IF deberían ser
siempre muy cortos, puesto que los reforzadores se presentan al final cuando los sujetos
están respondiendo a una tasa alta. No se tendría por qué esperar que los sujetos
dejaran de responder inmediatamente después de haber conseguido el reforzador (la
pausa post-reforzamiento) puesto que este intervalo no es otra cosa que un TER de muy
larga duración. Para solventar esta dificultad se han ideado diferentes alternativas que
lo que hacen es considerar mecanismos adicionales que se combinen con el
reforzamiento diferencial de los TER y así explicar tanto la constancia en los programas
variables como las variaciones en tasas de respuesta observadas en los programas fijos.
Se puede añadir por ejemplo un mecanismo de discriminación temporal para explicar
que las pausas post-reforzamiento en programas de RF e IF son debidos a que los sujetos
experimentales son capaces de discriminar eficazmente el momento de entrega del
reforzador, y saben que después de entregar el último es improbable conseguir uno
nuevo después.
Programas compuestos de reforzamiento
Los programas compuestos resultan de la aplicación de dos o más programas básicos de
reforzamiento y pueden dividirse en dos grandes bloques, aquellos donde la
presentación de los programas componentes es secuencial y aquellos donde los
componentes se presentan de forma simultánea.
Programas alternantes y secuenciales: el control por el estímulo y reforzamiento
condicionado
Los programas secuenciales son cuatro: programa mixto, programa múltiple, programa
tándem y programa encadenado, siendo los dos primeros alternantes y los dos últimos
estrictamente secuenciales.
En un programa mixto se presentan dos o más programas básicos alternándose al azar.

El cambio de uno a otro de los programas es independiente de la conducta del sujeto,
depende de la duración de un tiempo establecido con anterioridad por el
experimentador. Si por ejemplo cada componente dura diez minutos, durante los diez
primeros puede estar en funcionamiento un programa IF-60seg (le damos comida
cuando dé una respuesta después de transcurridos 60 seg desde el anterior reforzador)-
Los siguientes diez minutos va a funcionar el segundo programa, por ejemplo RF-50
(reforzaremos cada vez que emita 50 respuestas consecutivas) y al terminar sus 10
minutos, volverá a empezar el programa IF 60 seg... así sucesivamente hasta un número
de veces determinado también previamente por el experimentador.
27
El programa múltiple es exactamente igual que el mixto con la diferencia de que cada
componente se señala con una clave discriminativa distinta, (luz, sonido, cualquier
estimulación ambiental...) y el sujeto es informado en todo momento en qué parte del
programa múltiple se encuentra. Por ejemplo el encendido de la luz podría marcar la
presencia del programa IF 60-seg y cuando la luz se apaga el programa RF 50. Si un
estímulo discriminativo indica que las respuestas pueden ser reforzadas de acuerdo a
reforzamiento positivo, y un estímulo diferente señala la imposibilidad de conseguir
dicho reforzamiento, nos encontramos ante un programa múltiple donde se establece
una discriminación entre un estímulo discriminativo positivo (E+ o Ed) y un estímulo
discriminativo negativo (E- o EΔ). El aprendizaje consistiría en emitir respuestas en
presencia del E+ y omitirlas en presencia del E-, lo que permite estudiar el grado de
control ejercido por los Eds sobre la respuesta instrumental.
Un programa tándem consta al menos de dos programas simples que se presentan
siempre en el mismo orden. Los sujetos experimentales deben completar el primer
programa para poder iniciar el segundo, al final del cual consiguen la administración del
reforzador. En este programa, al contrario que en los anteriores, solo es posible
conseguir el reforzador si se cumplen en sucesión todo los programas componentes.
Cumplir uno de ellos (y por extensión, sus anteriores) sólo da lugar a la posibilidad de
realizar el siguiente, y el reforzador se conseguirá al terminar de completar todos. Por
ejemplo, un programa tándem IF 60-seg RF-50 se inicia con el programa de IF 60- seg,
de forma que la primera respuesta después de transcurridos 60 segundos da acceso al
programa de RF-50. Al emitir 50 respuestas se obtendrá el reforzador, lo que de nuevo
puede permitir comenzar el primer programa y repetir el tándem durante un número
determinado de veces o un periodo de tiempo establecido con anterioridad.
El programa encadenado es exactamente igual que el tándem, pero en este caso cada
uno de los dos programas simples está señalado de manera diferente, de forma que el
sujeto experimental conoce en qué componente del programa se encuentra en cada
momento. Habitualmente la terminación del primer programa se acompaña del
encendido de una luz o de la presentación de un sonido, que permanece en
funcionamiento durante el segundo programa hasta el momento de la consecución del
reforzador. Ej. en un programa encadenado IF 60-seg RF-50, la primera respuesta una
vez transcurridos 60 segundos inicia el programa de RF-50, al tiempo que provoca el
encendido de una luz de la caja experimental, que permanecerá encendida hasta que se
complete la respuesta número cincuenta y se consiga el reforzador.
Los programas encadenados se han utilizado para estudiar el reforzamiento
condicionado, que se refiere al hecho de que algunos estímulos adquieren capacidades
reforzantes por su asociación con los reforzadores primarios. En los programas
encadenados, el cambio en el ambiente producto de la finalización del primer programa
adquiere propiedades de reforzador por su asociación con el reforzador que se consigue
al finalizar el segundo programa. Las propiedades reforzantes de estos estímulos se
miden por su capacidad para encadenar respuestas, de manera que los sujetos
28
experimentales responden para conseguir dichos cambios en el ambiente. Esta técnica
del encadenamiento ha permitido estudiar en los estímulos capacidades reforzantes de
segundo orden, de tercer orden, e incluso de órdenes superiores
Programas simultáneos: programas concurrentes y programas combinados
Los más importantes y conocidos son los programas concurrentes, que se caracterizan
por disponer simultáneamente de al menos dos programas básicos de reforzamiento.
En los programas concurrentes se puede cambiar de un programa a otro sin que
normalmente haya sido necesario haber completado un tiempo o un número de
respuestas en cada uno de los programas. Los sujetos experimentales, como
consecuencia, deben elegir entre responder a uno u otro de los programas que
componen el programa concurrente. Por ejemplo, en una caja de condicionamiento
podemos disponer de dos palancas de respuesta, una a la derecha asociada a un
programa IV 60-seg y otra a la izquierda asociada a uno IV 30seg.
Se mide el número de respuestas en cada una de las palancas y se calcula la proporción
por la que se distribuyen las respuestas entre una y otra.
Otros programas compuestos simultáneos consisten en combinaciones de un programa
de razón y otro de intervalo, y existen al menos tres combinaciones que deben
distinguirse:
En un programa alternativo se refuerza una respuesta cada vez que se cumple con el
requisito del programa de razón o el del intervalo, existiendo así dos formas de
conseguir el reforzamiento.
En un programa conjuntivo se refuerza una respuesta cada vez que se cumple al mismo
tiempo con el requisito de la razón y del intervalo.
En un programa entrelazado la respuesta que se refuerza viene determinada por dos
programas, pero la disposición de uno de ellos se altera por el desarrollo del otro. otro.
Una posibilidad es que cierta suma de respuestas y de tiempo (ej. 10 respuestas o 6
respuestas en 4 seg, ó 3 respuestas en 7 seg o 10 seg) debe darse antes de que la
respuesta sea reforzada, o bien que algún valor recogido en un programa de razón
determine las características de un programa de intervalo.
TIPOS DE CONDICIONAMIENTO OPERANTE.

Aprendizaje por reforzamiento: es el aprendizaje en el cuál la conducta es nueva para el
organismo aumenta su frecuencia de aparición luego de recibir algún estímulo
reforzante.
Aprendizaje por evitación: es el aprendizaje donde el organismo aprende una conducta
nueva que termina o impide la aplicación de algún estímulo aversivo(desagradable), y
aumenta la frecuencia de aparición de esa conducta para que no regrese.
29
Aprendizaje supersticioso: es el aprendizaje donde alguna consecuencia casualmente
reforzante o aversiva aumenta la frecuencia de aparición de alguna conducta.
Aprendizaje por castigo: es el aprendizaje donde un organismo aumenta la frecuencia
de aparición de las conductas que no fueron seguidas o que no recibieron ningún
estímulo aversivo o desagradable.
Olvido: todas las conductas que no reciben o que dejan de recibir reforzamiento tienden
a disminuir su frecuencia de aparición y a desaparecer.
Primero que todo, el condicionamiento operante, llamado también instrumental y hoy
en día; análisis experimental de la conducta(AEC) desarrollado por el psicólogo
neoconductista B.F Skinner, se puede definir de la siguiente forma: Es la teoría
psicológica del aprendizaje que explica la conducta voluntaria del cuerpo, en su relación
con el medio ambiente, basados en un método experimental. Es decir, que ante un
estimulo, se produce una respuesta voluntaria, la cual, puede ser reforzada de manera
positiva o negativa provocando que la conducta operante se fortalezca o debilite. Es la
operación que incrementa la probabilidad de la respuesta o conducta en relación a un
Estímulo discriminativo y a otro llamado estimulo reforzador:
Es siempre una relación de contingencia. Skinner también considera al aprendizaje por
castigo y por extinción de los refuerzos, como influyentes en la conducta.
APLICACIONES DE CONDICIONAMIENTO OPERANTE.

Los psicólogos han usado técnicas de condicionamiento operante para modificar la
conducta-
Programas de economía de fichas:
La aplicación clásica es la economía de fichas en el primer estudio se trato a mas de 40
pacientes psicóticos recluidos en la sala de un hospital psiquiátrico como si fuera una
gigantesca caja de Skinner. Los resultados eran impresionantes los pacientes se valían
por si mismos, pero los resultados no serían fuera de la institución,-
Programa de modifcación de conducta:
Las técnicas del condicionamiento operante han sido aplicadas a distintas industrias,
estas han disminuido los retrasos, absentismo " el abuso de los permisos por
enfermedad " mejoraron el desempleo " seguridad en el trabajo…
Castigo y reforzamiento negativo:
Casi todas la aplicaciones del condicionamiento operante se usaban como
reforzamiento positivo en lugar de castigo, porque el castigo solo tenia resultados
inmediatos y no a largo plazo, Un reforzamiento negativo no es un castigo, un
reforzamiento negativo es un estímulo aversivo cuya supresión es recompensarte.
30

Tema 3 El Condicionamiento Operante

Cargado por

Copyright:

Formatos disponibles

Tema 3 El Condicionamiento Operante

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 3 El Condicionamiento Operante

Cargado por

Copyright:

Formatos disponibles

DOCENCIA PROGRAMA 13

Tema 3 Aprendizaje conductual: el

El condicionamiento operante o condicionamiento instrumental es un tipo de

¿Cuál es la diferencia entre el condicionamiento operante y el condicionamiento clásico?

THORNDIKE Y LA LEY DEL EFECTO.

3. FORMULACIÓN DE LA LEY DEL EFECTO DE THORNDIKE EN TÉRMINOS EMPÍRICOS

La introducción de variables motivacionales eliminó la naturaleza circular en la

ANÁLISIS EXPERIMENTAL DE LA CONDUCTA.

SKINNER Y EL CONDICIONAMIENTO OPERANTE

Nació en 1904 en Susquehanna, Pennsylvania.  Luego de fallar en sus intentos de ser

Teoría de Skinner  Condicionamiento operante

En cambio la tasa de ejecución en un programa de RF (panel a) se caracteriza

En la figura se representan registros típicos de programas de RV e IV acoplados de esta

El que en los programas de intervalo existan áreas aplanadas en las funciones de

En un programa mixto se presentan dos o más programas básicos alternándose al azar.

TIPOS DE CONDICIONAMIENTO OPERANTE.

APLICACIONES DE CONDICIONAMIENTO OPERANTE.

También podría gustarte