Ta 2 Psicologia Experimental

FACULTAD DE HUMANIDADES
CARRERA PROFESIONAL DE PSICOLOGÍA
TÍTULO
EFECTOS DEL REFUERZO POSITIVO SOBRE LA CONDUCTA OPERANTE EN UN
SUJETO EXPERIMENTAL VIRTUAL USANDO EL PROGRAMA CYBERRAT,
PRESENTADO POR:
CARRILLO ALEJANDRÍA, ERICK
CURSO:
PSICOLOGÍA EXPERIMENTAL
DOCENTE:
GEINER IVAN GUEVARA CORONEL
CHICLAYO, PERÚ
1
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA
1.1 Descripción de la situación problemática
El refuerzo positivo es una técnica utilizada en la modificación de conducta que
implica la presentación de un estímulo agradable tras la emisión de una respuesta deseada,
con el objetivo de incrementar la probabilidad de que dicha respuesta se repita en el futuro
(Skinner, 1938). En el contexto de experimentos conductuales, el refuerzo positivo se ha
aplicado ampliamente para estudiar el aprendizaje y la adquisición de nuevas conductas en
sujetos animales y humanos.
Sin embargo, la aplicación de estas técnicas en sujetos experimentales virtuales, como
agentes basados en inteligencia artificial (IA) o simulaciones computarizadas, representa un
área de investigación emergente. Los sujetos virtuales ofrecen la ventaja de permitir el
control riguroso de variables y la posibilidad de realizar un gran número de ensayos en un
corto periodo de tiempo, lo que puede proporcionar datos significativos sobre los principios
del aprendizaje y la conducta.
Uno de los desafíos clave en este ámbito es determinar la eficacia del refuerzo
positivo en la adquisición de conductas específicas, como el palanqueo, en un entorno virtual.
El palanqueo, una conducta comúnmente estudiada en experimentos con ratas, consiste en la
acción de presionar una palanca para obtener una recompensa (Domjan, 2015). La cuestión
central es si los principios que rigen el aprendizaje y la modificación de conducta en sujetos
biológicos se pueden aplicar de manera efectiva a sujetos virtuales.
La exploración de este problema no solo tiene implicaciones teóricas para la
comprensión del aprendizaje y la conducta, sino también aplicaciones prácticas en el
desarrollo de sistemas de IA y robots autónomos que puedan aprender de manera eficiente a
través del refuerzo positivo (Sutton & Barto, 2018).
2
1.2 Formulación del problema
¿Cuál es el efecto del refuerzo positivo sobre la conducta operante en un sujeto
experimental virtual usando el programa cyberrat?
1.3 Objetivos de la investigación
1.3.1. Objetivo General: Determinar el efecto del refuerzo positivo sobre la conducta
operante en un sujeto experimental virtual usando el programa cyberrat
1.3.2. Objetivos específicos:
- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través
del experimento de la caja de Skinner utilizando el programa de Cyberrat con el
programa de refuerzo continuo.
programa de razón fija.
programa de razón variable.
programa de intervalo fijo.
programa de intervalo variable.
3
1.4 Justificación de la investigación
1.4.1 Justificación a nivel teórico, metodológico y práctico
A nivel teórico, la investigación sobre los efectos del refuerzo positivo en sujetos
experimentales virtuales contribuye significativamente a la teoría del aprendizaje y la
modificación de conducta. Tradicionalmente, los estudios conductuales han sido realizados
con sujetos biológicos, y gran parte de lo que se sabe sobre el refuerzo positivo proviene de
estos estudios (Skinner, 1938). Sin embargo, la incorporación de sujetos virtuales en estos
experimentos permite expandir y profundizar nuestra comprensión teórica del aprendizaje. Al
comparar los resultados obtenidos en sujetos virtuales con los hallazgos previos en sujetos
biológicos, se pueden identificar similitudes y diferencias que ayudan a refinar los principios
teóricos del aprendizaje y la conducta.
En términos metodológicos, la utilización de sujetos experimentales virtuales ofrece
una serie de ventajas metodológicas significativas. Primero, permite un control preciso de las
variables experimentales, lo cual es esencial para obtener resultados fiables y reproducibles.
Segundo, los experimentos con sujetos virtuales pueden ser realizados de manera más
eficiente, con la posibilidad de realizar un gran número de ensayos en un corto periodo de
tiempo y sin los mismos costos asociados a los experimentos con animales o humanos
(Sutton & Barto, 2018). Además, el uso de simulaciones computacionales permite la
implementación de diseños experimentales complejos y la recopilación de datos detallados
que pueden ser analizados con técnicas avanzadas de análisis de datos.
A nivel práctico, en el ámbito práctico, esta investigación tiene importantes
implicaciones para el desarrollo de sistemas de inteligencia artificial y robótica. Los
4
principios del refuerzo positivo pueden ser aplicados para entrenar agentes de IA y robots
autónomos, mejorando su capacidad para aprender tareas complejas de manera eficiente. Esto
es particularmente relevante en áreas como la automatización industrial, la robótica
asistencial y el desarrollo de videojuegos, donde los sistemas inteligentes deben adaptarse y
aprender de manera continua (Domjan, 2015). Al validar la eficacia del refuerzo positivo en
sujetos virtuales, esta investigación abre nuevas posibilidades para la implementación de
técnicas de aprendizaje en una amplia gama de aplicaciones tecnológicas.
5
CAPÍTULO II: MARCO TEÓRICO
2.1. ANTECEDENTES DE INVESTIGACIÓN
Antecedentes Internacionales:
2.2. BASES TEÓRICAS
Condicionamiento Operante:
El condicionamiento operante, también conocido como condicionamiento
instrumental, es un tipo de aprendizaje en el cual la probabilidad de una conducta se modifica
mediante sus consecuencias. Desarrollado y sistematizado por B.F. Skinner, esta teoría se
basa en la idea de que las conductas que son seguidas por consecuencias favorables tienen
más probabilidades de repetirse, mientras que las seguidas por consecuencias desfavorables
tienen menos probabilidades de repetirse. (Skinner, 1938)
Procedimiento del condicionamiento operante
El método del condicionamiento operante implica controlar las consecuencias de una
acción para incrementar o reducir la probabilidad de que dicha acción se repita en el futuro.
Primero, se identifica la acción específica que se busca modificar, como enseñar a un perro a
sentarse. (Domjan, 2003) Luego, se determinan las consecuencias que seguirán a esta acción,
las cuales pueden ser reforzamiento (aumentando la probabilidad de repetición) o castigo
(disminuyendo la probabilidad de repetición).
6
El reforzamiento se desglosa en positivo y negativo: positivo implica agregar algo
agradable después de la acción deseada, como dar una golosina al perro cuando se sienta,
mientras que negativo implica eliminar algo desagradable, como detener un ruido molesto
cuando el perro se sienta. En cuanto al castigo, también se divide en positivo y negativo:
positivo implica aplicar algo desagradable después de la acción no deseada, como regañar al
perro cuando no se sienta, y negativo implica eliminar algo deseable, como quitarle un
juguete al perro cuando no se sienta. Una vez establecidas estas consecuencias, se aplican de
manera coherente cada vez que se observe la acción objetivo, para que el animal o la persona
asocien claramente la acción con sus resultados. Finalmente, se lleva a cabo una supervisión
continua de los cambios en la acción para evaluar la efectividad del proceso, utilizando
observación directa o registros para medir el progreso a lo largo del tiempo.
Refuerzo Positivo
El refuerzo positivo consiste en proporcionar un estímulo agradable o una recompensa
después de que se realice una conducta, con el objetivo de aumentar la probabilidad de que
esa conducta se repita en el futuro (Ferster & Skinner, 1957).
Refuerzo Negativo
El refuerzo negativo consiste en eliminar un estímulo desagradable para aumentar la
probabilidad de que una conducta se repita. Este método implica retirar un elemento aversivo
como consecuencia de una acción, lo cual incrementa la probabilidad de que dicho
comportamiento vuelva a ocurrir (Skinner, 1938).
Castigo positivo
El castigo positivo implica la introducción de un estímulo desagradable después de un
comportamiento no deseado para reducir la probabilidad de que se repita (Skinner, 1938).
Castigo negativo
7
El castigo negativo implica retirar un estímulo agradable para reducir la probabilidad
de que una conducta se repita. Este método consiste en eliminar algo placentero como
consecuencia de una conducta, con el objetivo de disminuir la probabilidad de que vuelva a
ocurrir. Un ejemplo sería quitarle el tiempo de juego a un animal después de mostrar un
comportamiento no deseado (Ferster & Skinner, 1957).
Programas de reforzamiento
Los programas de reforzamiento se utilizan para mantener o aumentar la frecuencia de
una conducta. Este tipo de programas tienen una función importante en la conformación y el
mantenimiento de comportamientos. Principalmente, se clasifican en dos categorías:
continuos e intermitentes.
En el condicionamiento operante, programar refuerzo indica cuándo el
comportamiento será recompensado y cuándo no hay dos tipos principales de programas
de fuerza: programas mentales y programas de fuerza período. (Domjan, 2003). En los
programas proporcionales, la consolidación se produce más tarde proporcionar un cierto
número de respuestas y dentro de este período de tiempo sucedió algún tiempo después de la
última vez la conducta se refuerza y vuelve a suceder.
Ambos tipos de programas pueden ser fijos o variables, lo que demuestra esto el
número de respuestas o la cantidad de tiempo necesario para recibirlas la ganancia
puede ser constante o fluctuar alrededor del valor promedio. También pueden ser continuos o
intermitentes; Esto significa posibles recompensas ocurren cada vez que el sujeto realiza la
conducta objetivo o, a veces, cuando (aunque siempre es consecuencia de la respuesta deseo).
(Ferster & Skinner, 1957). El refuerzo continuo es más beneficioso para moldear la
conducta y periódicamente para fines de mantenimiento. En teoría, el perro aprenderá
más rápido danos una patita si le premiamos cada vez que nos da la patita, pero solo una vez
8
hemos aprendido este comportamiento, será más difícil que deje de hacerlo si se lo damos
refuerzo en una de tres o cinco pruebas.
Moldeamiento
El moldeamiento es una técnica utilizada en el condicionamiento operante que
implica reforzar conductas que se aproximan progresivamente a la conducta deseada
(Skinner, 1957). Este proceso comienza identificando una acción que se parece a la conducta
objetivo y luego aplicando refuerzos cada vez que el sujeto realiza esta acción. A medida que
el sujeto se aproxima más a la conducta deseada, los criterios para recibir el refuerzo se
vuelven más estrictos, recompensando solo aquellas acciones que se asemejan aún más a la
conducta final. De esta manera, se guía al sujeto a través de pequeños pasos, refinando
gradualmente su comportamiento hasta alcanzar la conducta objetivo final.
Programas de razón
Los programas de razón son sistemas de reglas que determinan cuándo y cómo se
otorgan recompensas o castigos en respuesta a las acciones de un individuo en un entorno de
condicionamiento operante (Ferster & Skinner, 1957). Estas reglas dictan la frecuencia y el
momento en que se proporcionan refuerzos o consecuencias punitivas según el
comportamiento exhibido por el sujeto.
Razón fija
En un programa de razón fija (FR), el refuerzo se administra después de un número
determinado y constante de respuestas. (Skinner, 1938).
Razón variable
Por otro lado, en un programa de razón variable (VR), el refuerzo se otorga después
de un número fluctuante de respuestas, manteniendo así un alto nivel de actividad porque el
individuo no puede prever cuándo será recompensado (Skinner, 1938).
9
Programas de intervalo
Los programas de intervalo en el condicionamiento operante establecen cuándo se
proporcionan refuerzos o castigos según el tiempo que pasa desde la última respuesta
(Domjan, 2003). Pueden ser de dos tipos: fijos, donde el tiempo entre recompensas o castigos
es constante, o variables, donde este tiempo varía, pero sigue un promedio constante.
Intervalo fijo
En un programa de intervalo fijo (FI), el refuerzo se entrega por la primera respuesta
que ocurre después de un intervalo de tiempo constante. (Skinner, 1938).
Intervalo variable
Por último, en un programa de intervalo variable (VI), el refuerzo se otorga por la
primera respuesta que ocurre después de un período de tiempo que varía, aunque con un
promedio preestablecido (Skinner, 1938).
2.3. DEFINICIÓN DE VARIABLES:
2.3.1. DEFINICIÓN CONCEPTUAL:
Variable independiente (Refuerzo positivo): El refuerzo positivo se refiere a cualquier
estímulo que, presentado inmediatamente después de una respuesta, aumenta la probabilidad
de que esa respuesta ocurra nuevamente en el futuro. Según Skinner (1953), el refuerzo
positivo fortalece una conducta al seguirla de manera contingente con un estímulo apetitivo.
Esto puede incluir recompensas tangibles como comida o recompensas intangibles como
elogios.
Variable dependiente (Conducta operante): La conducta operante es cualquier
comportamiento que se emite por un organismo y que puede ser modificado por sus
10
consecuencias. Esta conducta es voluntaria y controlada por reforzadores o castigos en el
entorno del individuo. De acuerdo con Thorndike (1911), la ley del efecto establece que las
respuestas seguidas de resultados satisfactorios se fortalecen, mientras que las respuestas
seguidas de resultados insatisfactorios se debilitan.
2.3.2. DEFINICIÓN OPERACIONAL:
Variables Fases Indicadores Instrumento
Independiente (Sujeto A Linea base

experimental) observacional
Dependiente (Refuerzo B Moldeamiento CyberRat
positivo)
Fuente: Elaboración Propia
2.4. FORMULACIÓN DE HIPÓTESIS PRINCIPAL Y DERIVADAS:
2.4.1. Hipótesis principal:
El refuerzo positivo tendrá un efecto significativo en la instauración de la conducta de
palanqueo en el sujeto experimental.
2.4.2. Hipótesis derivadas según los objetivos específicos:
El refuerzo positivo aplicado a través del programa de refuerzo continuo en el
experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la
frecuencia de la conducta de palanqueo en el sujeto experimental.
El refuerzo positivo aplicado a través del programa de razón fija en el experimento de
la caja de Skinner utilizando el programa de Cyberrat mantendrá la conducta de palanqueo en
el sujeto experimental a un nivel estable y predecible.
11
El refuerzo positivo aplicado a través del programa de razón variable en el
experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la
resistencia a la extinción de la conducta de palanqueo en el sujeto experimental.
El refuerzo positivo aplicado a través del programa de intervalo fijo en el experimento
de la caja de Skinner utilizando el programa de Cyberrat mantendrá la conducta de palanqueo
en el sujeto experimental en una tasa predecible y estable.
El refuerzo positivo aplicado a través del programa de intervalo variable en el
experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la tasa de
respuesta de palanqueo y la variabilidad en la conducta del sujeto experimental.
REFERENCIAS BIBLIOGRÁFICAS:
A., R. J., & G., G. S. C. (s/f). Análisis molar del comportamiento en contingencias de
emparejamiento tono- agua en ratas. Redalyc.org. Recuperado el 12 de junio de
2024, de https://www.redalyc.org/journal/2745/274571372002/274571372002.pdf
Chávez C., B., Huamani H., J., Castro C., L., Gonzales T., C., Manco V., S., & Chauca C.,
M. (2023). ESTUDIO DE REPLICABILIDAD DE DOS SUJETOS
EXPERIMENTALES EN UN TRABAJO DE INVESTIGACIÓN DE CONDUCTA
DISCRIMINATORIA. ACTA PSICOLÓGICA PERUANA, 8(2), 173–188.
https://doi.org/10.56891/acpp.v8i2.399
12
Domjan, M. (2015). Principles of Learning and Behavior. Cengage Learning.
https://aulavirtual.ibero.edu.co/recursosel/documentos_para-descarga/Principios
%20de%20aprendizaje%20y%20conducta%20-%20Domjan%209th.pdf
Flores T.M, Gonzales C.A, Tapia O.J, Lopez R.G, Sandoval H.S. (2021). Refuerzo positivo
sobre la conducta de palanqueo en el programa Sniffy.
La Mente es Maravillosa - Revista sobre psicología, filosofía y reflexiones sobre la vida.
(s/f). La Mente es Maravillosa. Recuperado el 12 de junio de 2024, de
https://lamenteesmaravillosa.com/
(S/f-a). Cloudfront.net. Recuperado el 12 de junio de 2024, de
https://d1wqtxts1xzle7.cloudfront.net/
(S/f-b). Unir.net. Recuperado el 12 de junio de 2024, de https://www.unir.net/
Serrano, M. (2023). Sesgo de respuesta y efecto de consecuencias diferenciales en
discriminación condicional con ratas. Acta Comportamentalia: Revista Latina De
Análisis Del Comportamiento, 31(4). Recuperado a partir de
https://revistas.unam.mx/index.php/acom/article/view/87198
Skinner, B. F. (1953). Science and Human Behavior. Macmillan.
https://www.bfskinner.org/newtestsite/wp-content/uploads/2014/02/ScienceHumanBe
havior.pdf
Skinner, B. F. (1938). The Behavior of Organisms: An Experimental Analysis. Appleton-
Century.https://www.researchgate.net/publication/313181463_The_behavior_of_orga
nisms_-_Skinner_BF
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf
13
Thorndike, E. L. (1911). Animal intelligence: Experimental studies. Macmillan
Press. https://doi.org/10.5962/bhl.title.55072
Zimmerman, D. W. (1959). Sustained performance in rats based on secondary
reinforcement. Journal of Comparative and Physiological Psychology, 52(3), 353–
358. https://doi.org/10.1037/h0045807
14

Ta 2 Psicologia Experimental

Cargado por

Información del documentohacer clic para expandir la información del documento

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Ta 2 Psicologia Experimental

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ta 2 Psicologia Experimental

Cargado por

Copyright:

Formatos disponibles

FACULTAD DE HUMANIDADES

CARRERA PROFESIONAL DE PSICOLOGÍA

EFECTOS DEL REFUERZO POSITIVO SOBRE LA CONDUCTA OPERANTE EN UN

SUJETO EXPERIMENTAL VIRTUAL USANDO EL PROGRAMA CYBERRAT,

CARRILLO ALEJANDRÍA, ERICK

GEINER IVAN GUEVARA CORONEL

1.1 Descripción de la situación problemática

El refuerzo positivo es una técnica utilizada en la modificación de conducta que

implica la presentación de un estímulo agradable tras la emisión de una respuesta deseada,

con el objetivo de incrementar la probabilidad de que dicha respuesta se repita en el futuro

(Skinner, 1938). En el contexto de experimentos conductuales, el refuerzo positivo se ha

aplicado ampliamente para estudiar el aprendizaje y la adquisición de nuevas conductas en

sujetos animales y humanos.

Sin embargo, la aplicación de estas técnicas en sujetos experimentales virtuales, como

agentes basados en inteligencia artificial (IA) o simulaciones computarizadas, representa un

área de investigación emergente. Los sujetos virtuales ofrecen la ventaja de permitir el

control riguroso de variables y la posibilidad de realizar un gran número de ensayos en un

del aprendizaje y la conducta.

positivo en la adquisición de conductas específicas, como el palanqueo, en un entorno virtual.

El palanqueo, una conducta comúnmente estudiada en experimentos con ratas, consiste en la

central es si los principios que rigen el aprendizaje y la modificación de conducta en sujetos

biológicos se pueden aplicar de manera efectiva a sujetos virtuales.

La exploración de este problema no solo tiene implicaciones teóricas para la

comprensión del aprendizaje y la conducta, sino también aplicaciones prácticas en el

desarrollo de sistemas de IA y robots autónomos que puedan aprender de manera eficiente a

través del refuerzo positivo (Sutton & Barto, 2018).

¿Cuál es el efecto del refuerzo positivo sobre la conducta operante en un sujeto

experimental virtual usando el programa cyberrat?

1.3 Objetivos de la investigación

operante en un sujeto experimental virtual usando el programa cyberrat

1.3.2. Objetivos específicos:

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de refuerzo continuo.

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de razón fija.

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de razón variable.

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de intervalo fijo.

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de intervalo variable.

1.4.1 Justificación a nivel teórico, metodológico y práctico

experimentales virtuales contribuye significativamente a la teoría del aprendizaje y la

modificación de conducta. Tradicionalmente, los estudios conductuales han sido realizados

experimentos permite expandir y profundizar nuestra comprensión teórica del aprendizaje. Al

teóricos del aprendizaje y la conducta.

En términos metodológicos, la utilización de sujetos experimentales virtuales ofrece

variables experimentales, lo cual es esencial para obtener resultados fiables y reproducibles.

eficiente, con la posibilidad de realizar un gran número de ensayos en un corto periodo de

(Sutton & Barto, 2018). Además, el uso de simulaciones computacionales permite la

implementación de diseños experimentales complejos y la recopilación de datos detallados

que pueden ser analizados con técnicas avanzadas de análisis de datos.

A nivel práctico, en el ámbito práctico, esta investigación tiene importantes

implicaciones para el desarrollo de sistemas de inteligencia artificial y robótica. Los

es particularmente relevante en áreas como la automatización industrial, la robótica

asistencial y el desarrollo de videojuegos, donde los sistemas inteligentes deben adaptarse y

sujetos virtuales, esta investigación abre nuevas posibilidades para la implementación de