Ta 2 Psicologia Experimental

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 14

FACULTAD DE HUMANIDADES

CARRERA PROFESIONAL DE PSICOLOGÍA

TÍTULO

EFECTOS DEL REFUERZO POSITIVO SOBRE LA CONDUCTA OPERANTE EN UN

SUJETO EXPERIMENTAL VIRTUAL USANDO EL PROGRAMA CYBERRAT,

PRESENTADO POR:

CARRILLO ALEJANDRÍA, ERICK

CURSO:

PSICOLOGÍA EXPERIMENTAL

DOCENTE:

GEINER IVAN GUEVARA CORONEL

CHICLAYO, PERÚ

1
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA

1.1 Descripción de la situación problemática

El refuerzo positivo es una técnica utilizada en la modificación de conducta que

implica la presentación de un estímulo agradable tras la emisión de una respuesta deseada,

con el objetivo de incrementar la probabilidad de que dicha respuesta se repita en el futuro

(Skinner, 1938). En el contexto de experimentos conductuales, el refuerzo positivo se ha

aplicado ampliamente para estudiar el aprendizaje y la adquisición de nuevas conductas en

sujetos animales y humanos.

Sin embargo, la aplicación de estas técnicas en sujetos experimentales virtuales, como

agentes basados en inteligencia artificial (IA) o simulaciones computarizadas, representa un

área de investigación emergente. Los sujetos virtuales ofrecen la ventaja de permitir el

control riguroso de variables y la posibilidad de realizar un gran número de ensayos en un

corto periodo de tiempo, lo que puede proporcionar datos significativos sobre los principios

del aprendizaje y la conducta.

Uno de los desafíos clave en este ámbito es determinar la eficacia del refuerzo

positivo en la adquisición de conductas específicas, como el palanqueo, en un entorno virtual.

El palanqueo, una conducta comúnmente estudiada en experimentos con ratas, consiste en la

acción de presionar una palanca para obtener una recompensa (Domjan, 2015). La cuestión

central es si los principios que rigen el aprendizaje y la modificación de conducta en sujetos

biológicos se pueden aplicar de manera efectiva a sujetos virtuales.

La exploración de este problema no solo tiene implicaciones teóricas para la

comprensión del aprendizaje y la conducta, sino también aplicaciones prácticas en el

desarrollo de sistemas de IA y robots autónomos que puedan aprender de manera eficiente a

través del refuerzo positivo (Sutton & Barto, 2018).

2
1.2 Formulación del problema

¿Cuál es el efecto del refuerzo positivo sobre la conducta operante en un sujeto

experimental virtual usando el programa cyberrat?

1.3 Objetivos de la investigación

1.3.1. Objetivo General: Determinar el efecto del refuerzo positivo sobre la conducta

operante en un sujeto experimental virtual usando el programa cyberrat

1.3.2. Objetivos específicos:

- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de refuerzo continuo.

- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de razón fija.

- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de razón variable.

- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de intervalo fijo.

- Determinar cuál es el efecto del refuerzo positivo sobre la conducta operante, a través

del experimento de la caja de Skinner utilizando el programa de Cyberrat con el

programa de intervalo variable.

3
1.4 Justificación de la investigación

1.4.1 Justificación a nivel teórico, metodológico y práctico

A nivel teórico, la investigación sobre los efectos del refuerzo positivo en sujetos

experimentales virtuales contribuye significativamente a la teoría del aprendizaje y la

modificación de conducta. Tradicionalmente, los estudios conductuales han sido realizados

con sujetos biológicos, y gran parte de lo que se sabe sobre el refuerzo positivo proviene de

estos estudios (Skinner, 1938). Sin embargo, la incorporación de sujetos virtuales en estos

experimentos permite expandir y profundizar nuestra comprensión teórica del aprendizaje. Al

comparar los resultados obtenidos en sujetos virtuales con los hallazgos previos en sujetos

biológicos, se pueden identificar similitudes y diferencias que ayudan a refinar los principios

teóricos del aprendizaje y la conducta.

En términos metodológicos, la utilización de sujetos experimentales virtuales ofrece

una serie de ventajas metodológicas significativas. Primero, permite un control preciso de las

variables experimentales, lo cual es esencial para obtener resultados fiables y reproducibles.

Segundo, los experimentos con sujetos virtuales pueden ser realizados de manera más

eficiente, con la posibilidad de realizar un gran número de ensayos en un corto periodo de

tiempo y sin los mismos costos asociados a los experimentos con animales o humanos

(Sutton & Barto, 2018). Además, el uso de simulaciones computacionales permite la

implementación de diseños experimentales complejos y la recopilación de datos detallados

que pueden ser analizados con técnicas avanzadas de análisis de datos.

A nivel práctico, en el ámbito práctico, esta investigación tiene importantes

implicaciones para el desarrollo de sistemas de inteligencia artificial y robótica. Los

4
principios del refuerzo positivo pueden ser aplicados para entrenar agentes de IA y robots

autónomos, mejorando su capacidad para aprender tareas complejas de manera eficiente. Esto

es particularmente relevante en áreas como la automatización industrial, la robótica

asistencial y el desarrollo de videojuegos, donde los sistemas inteligentes deben adaptarse y

aprender de manera continua (Domjan, 2015). Al validar la eficacia del refuerzo positivo en

sujetos virtuales, esta investigación abre nuevas posibilidades para la implementación de

técnicas de aprendizaje en una amplia gama de aplicaciones tecnológicas.

5
CAPÍTULO II: MARCO TEÓRICO

2.1. ANTECEDENTES DE INVESTIGACIÓN

Antecedentes Internacionales:

2.2. BASES TEÓRICAS

Condicionamiento Operante:

El condicionamiento operante, también conocido como condicionamiento

instrumental, es un tipo de aprendizaje en el cual la probabilidad de una conducta se modifica

mediante sus consecuencias. Desarrollado y sistematizado por B.F. Skinner, esta teoría se

basa en la idea de que las conductas que son seguidas por consecuencias favorables tienen

más probabilidades de repetirse, mientras que las seguidas por consecuencias desfavorables

tienen menos probabilidades de repetirse. (Skinner, 1938)

Procedimiento del condicionamiento operante

El método del condicionamiento operante implica controlar las consecuencias de una

acción para incrementar o reducir la probabilidad de que dicha acción se repita en el futuro.

Primero, se identifica la acción específica que se busca modificar, como enseñar a un perro a

sentarse. (Domjan, 2003) Luego, se determinan las consecuencias que seguirán a esta acción,

las cuales pueden ser reforzamiento (aumentando la probabilidad de repetición) o castigo

(disminuyendo la probabilidad de repetición).

6
El reforzamiento se desglosa en positivo y negativo: positivo implica agregar algo

agradable después de la acción deseada, como dar una golosina al perro cuando se sienta,

mientras que negativo implica eliminar algo desagradable, como detener un ruido molesto

cuando el perro se sienta. En cuanto al castigo, también se divide en positivo y negativo:

positivo implica aplicar algo desagradable después de la acción no deseada, como regañar al

perro cuando no se sienta, y negativo implica eliminar algo deseable, como quitarle un

juguete al perro cuando no se sienta. Una vez establecidas estas consecuencias, se aplican de

manera coherente cada vez que se observe la acción objetivo, para que el animal o la persona

asocien claramente la acción con sus resultados. Finalmente, se lleva a cabo una supervisión

continua de los cambios en la acción para evaluar la efectividad del proceso, utilizando

observación directa o registros para medir el progreso a lo largo del tiempo.

Refuerzo Positivo

El refuerzo positivo consiste en proporcionar un estímulo agradable o una recompensa

después de que se realice una conducta, con el objetivo de aumentar la probabilidad de que

esa conducta se repita en el futuro (Ferster & Skinner, 1957).

Refuerzo Negativo

El refuerzo negativo consiste en eliminar un estímulo desagradable para aumentar la

probabilidad de que una conducta se repita. Este método implica retirar un elemento aversivo

como consecuencia de una acción, lo cual incrementa la probabilidad de que dicho

comportamiento vuelva a ocurrir (Skinner, 1938).

Castigo positivo

El castigo positivo implica la introducción de un estímulo desagradable después de un

comportamiento no deseado para reducir la probabilidad de que se repita (Skinner, 1938).

Castigo negativo

7
El castigo negativo implica retirar un estímulo agradable para reducir la probabilidad

de que una conducta se repita. Este método consiste en eliminar algo placentero como

consecuencia de una conducta, con el objetivo de disminuir la probabilidad de que vuelva a

ocurrir. Un ejemplo sería quitarle el tiempo de juego a un animal después de mostrar un

comportamiento no deseado (Ferster & Skinner, 1957).

Programas de reforzamiento

Los programas de reforzamiento se utilizan para mantener o aumentar la frecuencia de

una conducta. Este tipo de programas tienen una función importante en la conformación y el

mantenimiento de comportamientos. Principalmente, se clasifican en dos categorías:

continuos e intermitentes.

En el condicionamiento operante, programar refuerzo indica cuándo el

comportamiento será recompensado y cuándo no hay dos tipos principales de programas

de fuerza: programas mentales y programas de fuerza período. (Domjan, 2003). En los

programas proporcionales, la consolidación se produce más tarde proporcionar un cierto

número de respuestas y dentro de este período de tiempo sucedió algún tiempo después de la

última vez la conducta se refuerza y vuelve a suceder.

Ambos tipos de programas pueden ser fijos o variables, lo que demuestra esto el

número de respuestas o la cantidad de tiempo necesario para recibirlas la ganancia

puede ser constante o fluctuar alrededor del valor promedio. También pueden ser continuos o

intermitentes; Esto significa posibles recompensas ocurren cada vez que el sujeto realiza la

conducta objetivo o, a veces, cuando (aunque siempre es consecuencia de la respuesta deseo).

(Ferster & Skinner, 1957). El refuerzo continuo es más beneficioso para moldear la

conducta y periódicamente para fines de mantenimiento. En teoría, el perro aprenderá

más rápido danos una patita si le premiamos cada vez que nos da la patita, pero solo una vez

8
hemos aprendido este comportamiento, será más difícil que deje de hacerlo si se lo damos

refuerzo en una de tres o cinco pruebas.

Moldeamiento

El moldeamiento es una técnica utilizada en el condicionamiento operante que

implica reforzar conductas que se aproximan progresivamente a la conducta deseada

(Skinner, 1957). Este proceso comienza identificando una acción que se parece a la conducta

objetivo y luego aplicando refuerzos cada vez que el sujeto realiza esta acción. A medida que

el sujeto se aproxima más a la conducta deseada, los criterios para recibir el refuerzo se

vuelven más estrictos, recompensando solo aquellas acciones que se asemejan aún más a la

conducta final. De esta manera, se guía al sujeto a través de pequeños pasos, refinando

gradualmente su comportamiento hasta alcanzar la conducta objetivo final.

Programas de razón

Los programas de razón son sistemas de reglas que determinan cuándo y cómo se

otorgan recompensas o castigos en respuesta a las acciones de un individuo en un entorno de

condicionamiento operante (Ferster & Skinner, 1957). Estas reglas dictan la frecuencia y el

momento en que se proporcionan refuerzos o consecuencias punitivas según el

comportamiento exhibido por el sujeto.

Razón fija

En un programa de razón fija (FR), el refuerzo se administra después de un número

determinado y constante de respuestas. (Skinner, 1938).

Razón variable

Por otro lado, en un programa de razón variable (VR), el refuerzo se otorga después

de un número fluctuante de respuestas, manteniendo así un alto nivel de actividad porque el

individuo no puede prever cuándo será recompensado (Skinner, 1938).

9
Programas de intervalo

Los programas de intervalo en el condicionamiento operante establecen cuándo se

proporcionan refuerzos o castigos según el tiempo que pasa desde la última respuesta

(Domjan, 2003). Pueden ser de dos tipos: fijos, donde el tiempo entre recompensas o castigos

es constante, o variables, donde este tiempo varía, pero sigue un promedio constante.

Intervalo fijo

En un programa de intervalo fijo (FI), el refuerzo se entrega por la primera respuesta

que ocurre después de un intervalo de tiempo constante. (Skinner, 1938).

Intervalo variable

Por último, en un programa de intervalo variable (VI), el refuerzo se otorga por la

primera respuesta que ocurre después de un período de tiempo que varía, aunque con un

promedio preestablecido (Skinner, 1938).

2.3. DEFINICIÓN DE VARIABLES:

2.3.1. DEFINICIÓN CONCEPTUAL:

Variable independiente (Refuerzo positivo): El refuerzo positivo se refiere a cualquier

estímulo que, presentado inmediatamente después de una respuesta, aumenta la probabilidad

de que esa respuesta ocurra nuevamente en el futuro. Según Skinner (1953), el refuerzo

positivo fortalece una conducta al seguirla de manera contingente con un estímulo apetitivo.

Esto puede incluir recompensas tangibles como comida o recompensas intangibles como

elogios.

Variable dependiente (Conducta operante): La conducta operante es cualquier

comportamiento que se emite por un organismo y que puede ser modificado por sus

10
consecuencias. Esta conducta es voluntaria y controlada por reforzadores o castigos en el

entorno del individuo. De acuerdo con Thorndike (1911), la ley del efecto establece que las

respuestas seguidas de resultados satisfactorios se fortalecen, mientras que las respuestas

seguidas de resultados insatisfactorios se debilitan.

2.3.2. DEFINICIÓN OPERACIONAL:

Variables Fases Indicadores Instrumento

Independiente (Sujeto A Linea base


experimental) observacional
Dependiente (Refuerzo B Moldeamiento CyberRat
positivo)
Fuente: Elaboración Propia

2.4. FORMULACIÓN DE HIPÓTESIS PRINCIPAL Y DERIVADAS:

2.4.1. Hipótesis principal:

El refuerzo positivo tendrá un efecto significativo en la instauración de la conducta de

palanqueo en el sujeto experimental.

2.4.2. Hipótesis derivadas según los objetivos específicos:

El refuerzo positivo aplicado a través del programa de refuerzo continuo en el

experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la

frecuencia de la conducta de palanqueo en el sujeto experimental.

El refuerzo positivo aplicado a través del programa de razón fija en el experimento de

la caja de Skinner utilizando el programa de Cyberrat mantendrá la conducta de palanqueo en

el sujeto experimental a un nivel estable y predecible.

11
El refuerzo positivo aplicado a través del programa de razón variable en el

experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la

resistencia a la extinción de la conducta de palanqueo en el sujeto experimental.

El refuerzo positivo aplicado a través del programa de intervalo fijo en el experimento

de la caja de Skinner utilizando el programa de Cyberrat mantendrá la conducta de palanqueo

en el sujeto experimental en una tasa predecible y estable.

El refuerzo positivo aplicado a través del programa de intervalo variable en el

experimento de la caja de Skinner utilizando el programa de Cyberrat aumentará la tasa de

respuesta de palanqueo y la variabilidad en la conducta del sujeto experimental.

REFERENCIAS BIBLIOGRÁFICAS:

A., R. J., & G., G. S. C. (s/f). Análisis molar del comportamiento en contingencias de

emparejamiento tono- agua en ratas. Redalyc.org. Recuperado el 12 de junio de

2024, de https://www.redalyc.org/journal/2745/274571372002/274571372002.pdf

Chávez C., B., Huamani H., J., Castro C., L., Gonzales T., C., Manco V., S., & Chauca C.,

M. (2023). ESTUDIO DE REPLICABILIDAD DE DOS SUJETOS

EXPERIMENTALES EN UN TRABAJO DE INVESTIGACIÓN DE CONDUCTA

DISCRIMINATORIA. ACTA PSICOLÓGICA PERUANA, 8(2), 173–188.

https://doi.org/10.56891/acpp.v8i2.399

12
Domjan, M. (2015). Principles of Learning and Behavior. Cengage Learning.

https://aulavirtual.ibero.edu.co/recursosel/documentos_para-descarga/Principios

%20de%20aprendizaje%20y%20conducta%20-%20Domjan%209th.pdf

Flores T.M, Gonzales C.A, Tapia O.J, Lopez R.G, Sandoval H.S. (2021). Refuerzo positivo

sobre la conducta de palanqueo en el programa Sniffy.

La Mente es Maravillosa - Revista sobre psicología, filosofía y reflexiones sobre la vida.

(s/f). La Mente es Maravillosa. Recuperado el 12 de junio de 2024, de

https://lamenteesmaravillosa.com/

(S/f-a). Cloudfront.net. Recuperado el 12 de junio de 2024, de

https://d1wqtxts1xzle7.cloudfront.net/

(S/f-b). Unir.net. Recuperado el 12 de junio de 2024, de https://www.unir.net/

Serrano, M. (2023). Sesgo de respuesta y efecto de consecuencias diferenciales en

discriminación condicional con ratas. Acta Comportamentalia: Revista Latina De

Análisis Del Comportamiento, 31(4). Recuperado a partir de

https://revistas.unam.mx/index.php/acom/article/view/87198

Skinner, B. F. (1953). Science and Human Behavior. Macmillan.

https://www.bfskinner.org/newtestsite/wp-content/uploads/2014/02/ScienceHumanBe

havior.pdf

Skinner, B. F. (1938). The Behavior of Organisms: An Experimental Analysis. Appleton-

Century.https://www.researchgate.net/publication/313181463_The_behavior_of_orga

nisms_-_Skinner_BF

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.

https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

13
Thorndike, E. L. (1911). Animal intelligence: Experimental studies. Macmillan

Press. https://doi.org/10.5962/bhl.title.55072

Zimmerman, D. W. (1959). Sustained performance in rats based on secondary

reinforcement. Journal of Comparative and Physiological Psychology, 52(3), 353–

358. https://doi.org/10.1037/h0045807

14

También podría gustarte