Programas de Reforzamiento: Conductas, Mecanismos y Estudios

En el mundo real la contingencia perfecta entre la respuesta y el reforzamiento es rara. No siempre que pasemos muchas horas estudiando obtendremos una buena nota.

Para estudiar esta relación tan compleja se crean los programas de reforzamiento:

Programa de reforzamiento: Programa o regla que determina la forma en que se relacionan las presentaciones del reforzador con las ocurrencias de la respuesta instrumental. La entrega del reforzador puede depender de varios factores, número de respuestas, paso del tiempo, etc.

Los programas de reforzamiento se investigan normalmente en cajas de Skinner que permiten una observación continua de la conducta, por lo que pueden observarse y analizarse los cambios en la tasa de respuesta. Proporcionan más información sobre los factores que controlan el mantenimiento de la conducta.

Programas Simples de Reforzamiento Intermitente

Son programas en los que un solo factor determina qué ocurrencia de la respuesta instrumental se refuerza.

Programas de razón

El reforzamiento depende del número de respuestas.

Reforzamiento continuo: Una sóla respuesta provoca la entrega del reforzador.

Reforzamiento parcial o intermitente: La respuesta se refuerza sólo alguna vez.

Razón fija: Entrega del reforzador cada X respuestas, (5, 10 etc). Se representa mediante RF5, RF10, etc.

Otros conceptos importantes

Registro acumulativo de la conducta: Es una forma especial de representar la forma de repetirse una respuesta a lo largo del tiempo. Se utilizaba sobre todo antes de la existencia de los ordenadores. La pendiente de la línea trazada representa la tasa de respuesta.

Pausa posreforzamiento: Es la tasa de respuesta 0 que se observa justo después del reforzamiento.

Carrera de la razón: La tasa de respuesta alta y estable que completa cada requerimiento de la razón.

¿Qué ocurre cuando el requerimiento de la razón se incrementa un poco? Es decir, pasar por ejemplo de RF 120 a RF 150

Con mayores requerimientos de la tasa, tienen a ocurrir pausas posreforzamiento más largas.
Si el incremento es muy grande (de RF120 a RF500), es probable que el animal realice una pausa periódica cada vez que complete la razón requerida. Es lo que se conoce como tensión de razón.

Razón variable: Número de respuestas distinto para la entrega del reforzador. Se representa por RV y en el caso de RV10 quiere decir que su media es 10 (imaginemos que en un primer ensayo se necesitaban 13 respuestas, en un segundo ensayo 7 respuestas y en el ensayo final 10 respuestas. La media total de los 3 ensayos es RV 10.

Las pausas predecibles en la tasa de respuesta son menos probables con los programas de razón variable que con los programas de razón fija. Los organismos suelen responder a una tasa claramente estable en los programas de RV.

Programas de intervalo

Cuando ocurre cierta cantidad de tiempo desde la última entrega del reforzador.

Intervalo fijo (IF): El tiempo no varía de una ocasión a la siguiente.

Festón del intervalo fijo: A medida que el tiempo para la disponibilidad del próximo reforzador se acerca, la tasa de respuesta aumenta. Este aumento en la tasa de respuesta se manifiesta como una aceleración en el registro acumulativo hacia el final del IF. Esto demuestra una habilidad del sujeto para contar el tiempo.

OJO!!! : Un programa de IF no garantiza que el reforzador se proporcionará a en algún momento a lo largo del tiempo, el intervalo determina sólo cuándo el reforzador estará disponible, no cuando se entrega. Es decir, además del paso del tiempo, sigue siendo necesaria algún tipo de respuesta por parte del sujeto para acceder al reforzador. Por ejemplo, cada 4 minutos estará disponible comida para la paloma siempre y cuando haya dado 20 picotazos previamente.

Intervalo variable (IV): El tiempo varía de una ocasión a la siguiente. Se representa por (IV 5), (IV 10), etc. Entendiendo este número como la media de todos los intervalos, de la misma manera que hablábamos más arriba de la razón variable.

Los programas de IV mantienen tasas de respuesta constantes y estables sin pausas regulares. (al igual que los programas de razón variable)

Programas de intervalo y espera limitada: Esto tiene relación con el OJO!! que marcaba antes. En la espera limitada el reforzador está disponible durante un tiempo X, si pasado ese tiempo el sujeto no ha dado el número de respuestas necesario, el reforzador deja de estar disponible. Siguiente el ejemplo anterior, cada 4 minutos estará la comida disponible durante 1 minuto. Si durante ese minuto de disponibilidad de la comida (+ los 4 minutos anteriores de cada intervalo) la paloma no ha llegado a 20 picotazos no podrá acceder a ella y dejará de estar disponible, comenzando a contar de 0.

Comparación de los programas de razón y de intervalo

Similitudes

Razón fija e intervalo fijo:

– Producen una pausa posreforzamiento después de la administración de cada reforzador.

– Producen altas tasas de respuesta antes de la administración del siguiente reforzador.

Razón variable e intervalo variable:

– Mantienen tasas estables de respuesta, sin pausas predecibles.

Diferencias

– Activan diferentes cambios neuroquímicos en el cerebro
– Los programas de intervalo están relacionados con el sentido temporal del organismo.

En un experimento con palomas, una reforzada con RV y la otra con IV, se comprobó que la paloma reforzada con el programa de RV respondió a una tasa mucho más alta que la paloma reforzada con el programa de IV. El programa de RV motivó una conducta instrumental mucho más vigorosa.

Reforzamiento diferencial del tiempo interrespuesta: El intervalo entre una respuesta y la siguiente se denomina tiempo interrespuesta o TIR. Un sujeto que produce TIR cortos responderá a una tasa alta y si produce TIR largos, su tasa será baja.

Un programa de razón favorece los TIR cortos (es la respuesta del sujeto la que determina cuando accederá a la comida, por lo tanto cuanto más rápida se produzca esa respuesta (TIR corto), antes accederá a la comida. Por el contrario, un programa de intervalo favorece los TIR largos.

Programas de reforzamiento de tasas de respuesta

Los programas de tasas de respuesta requieren específicamente que el organismo responda a una tasa particular para obtener el reforzador. Es como una mezcla de los dos anteriores (tiempo y número). Por ejemplo un programa de reforzamiento en el que una respuesta se refuerce sólo si ocurre dentro de los 5 segundos siguientes a la respuesta precedente.

Si el animal realiza una respuesta cada 5 segundos, su tasa de respuesta será de 12 por minuto. Por lo tanto habrá reforzamiento si la tasa de respuesta es de 12 por minuto o mayor. Si la tasa de respuesta es menor, el organismo no será reforzado. Esto recibe el nombre de Reforzamiento diferencial de tasas altas, o RDA.

Reforzamiento diferencial de tasas altas (RDA): Una respuesta se refuerza sólo si ocurre antes de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Estos programas fomentan que los sujetos respondan rápidamente.

Reforzamiento diferencial de tasas bajas (RDB): Una respuesta se refuerza sólo si ocurre después de que haya transcurrido cierta cantidad de tiempo tras la respuesta precedente. Estos programas fomentan que los sujetos respondan lentamente.

Conducta de Elección: Programas Concurrentes

Los experimentos en los que sólo se mide una respuesta (los vistos hasta ahora) no proporcionan una visión completa de la conducta. En la vida real los organismos ocupan si tiempo en muchas actividades y están continuamente estableciendo elecciones entre varias conductas.

Las situaciones de elección pueden ser bastante complicadas y muy diferentes. Por esta razón los psicólogos han desarrollado el estudio de situaciones más simples. La situación de elección más simple consta de dos respuestas alternativas, cada una de estas seguida por un reforzador de acuerdo con su propio programa de reforzamiento.

Históricamente se utilizaban laberintos T para estudiar la conducta de elección. Hoy se utilizan cajas de Skinner equipadas con dos teclas. Responder en cada tecla es reforzado según algún programa de reforzamiento. Los dos programas funcionan concurrentemente, por eso reciben el nombre de programa concurrente.

Programa concurrente. Los picotazos sobre la tecla A siguen un programa IV 60 seg. Los de la tecla B siguen un programa RF 10. El objetivo del experimento es ver cómo la paloma distribuye sus picotazos en las dos teclas y cómo influye el programa de reforzamiento propio de cada tecla en las elecciones del animal.

Medidas de la conducta de elección

Se puede medir de varias formas:

Tasa relativa de respuesta de cada alternativa: La tasa relativa de respuesta en la tecla A se calcula dividiendo la tasa de respuesta en la tecla A por la tasa total de respuesta (suma de la tasa A + la tasa B)

Tasa relativa de respuesta (A) = RA/ (RA+RB)

Si la paloma picotea igualmente en las dos teclas de respuesta, la razón será 0,5.
Si la tasa de respuesta es mayor en A que en B, la razón será mayor que 0,5.
Si la tasa de respuesta es menor en A que en B, la razón será menor que 0,5.

La forma en que un organismo distribuye su conducta entre las dos alternativas de respuesta está muy influida por el programa de reforzamiento que funciona para cada respuesta.

Tasa relativa de reforzamiento: Es la frecuencia con la que el individuo obtiene recompensas en cada lado. Se calcula de igual manera a la tasa relativa de respuesta. (pero con una “r” minúscula)

Tasa relativa de reforzamiento (A) = rA/ (rA+rB)

La ley de igualación (de Herrnstein)

En el punto anterior (medidas de la conducta de elección) en los ejemplos se utilizaba el mismo programa de reforzamiento (IV 60 seg) para las dos teclas. Por lo tanto la tasa relativa de respuesta y la tasa relativa de reforzamiento daba 0,5 ya que los programas eran iguales… ¿Pero qué ocurre si los programas son diferentes?

Experimento en palomas:

Tecla A: IV 6 min = Pulsando siempre a esta tecla obtendría un máximo de 10 reforzadores por hora.
Tecla B: IV 2 min= Pulsando siempre a esta tecla obtendría un máximo de 30 reforzadores por hora.

¿Cómo fue la respuesta de las palomas?

La tasa relativa de respuesta en una alternativa dada estaba siempre muy cercana a igualar la tasa relativa de reforzamiento logrado en esa alternativa. Si las palomas obtenían una proporción mayor de reforzadores en A, picoteaban más en A. Por lo tanto, la tasa relativa de respuesta en una alternativa se iguala con la tasa relativa de reforzamiento en esa alternativa. Esto es la ley de igualación.

RA/ (RA+RB) = rA/ (rA+rB)

Otra forma de escribir esta fórmula es: RA/ RB = rA/rB

Infraigualación, supraigualación y sesgo de respuesta

A pesar de lo que hablábamos de la ley de igualación, las tasas relativas de respuesta no siempre se igualan con exactamente con las tasas relativas de reforzamiento.

Esto lo vamos a estudiar añadiendo dos parámetros “b” y “s” a la ecuación.

RA/ RB = b (rA/rB)s

s= sensibilidad de la conducta de elección a las tasas relativas de reforzamiento para las alternativas de respuesta.

Si s es menor que 1,0 = infraigualación. Sensibilidad reducida a la tasa relativa de reforzamiento.
Si s es mayor que 1,0 = supraigualación. Sensibilidad aumentada a la tasa relativa de reforzamiento.

La infraigualación se encuentra más a menudo que la supraigualación.

b = sesgo de respuesta(bias en inglés, por eso la b)
Los sesgos de respuesta influyen en la elección cuando las alternativas de respuesta son diferentes (picotear y presionar con la pata). El sesgo también adquiere importancia cuando el reforzador es diferente (grano de trigo y semillas).

En ausencia de sesgos, b=1. Dependiendo de la naturaleza del sesgo o de la preferencia, b será mayor o menor que 1.

La ley de la igualación y el valor del reforzador: La tasa relativa de respuesta es una función de la cantidad relativa de cada reforzador, de la demora y de la palatabilidad. Cuanto mayores, más sabrosos y más inmediatos sean los reforzadores, serán de mayor valor.

La ley de la igualación y los programas simples de reforzamiento: Incluso las situaciones de respuesta única pueden involucrar una elección entre realizar la respuesta especificada (picotear o presionar una palanca) u ocuparse de otras actividades (caminar, acicalarse, etc)

Según esto, la ley de la igualación quedaría así:

RA / (RA+RO) = rA / (rA+rO)

Despejando RA: RA =(RA+RO) rA / (rA+rO)

RA= Tasa de respuesta del programa
RO= Tasa de respuesta de las otras actividades rA = Reforzamiento explícito del programa
rO = Reforzamiento de las otras actividades

Si consideramos que (RA+RO) es una constante que no guarda relación con el reforzador, podemos llamarla constante k. La fórmula quedará de la siguiente manera:

RA = krA / (rA+rO)

Esta última ecuación proporciona dos maneras de modificar la tasa de una respuesta:

Mediante el cambio de su tasa de reforzamiento
Mediante el cambio de la tasa de las otras fuentes de reforzamiento

Mecanismos de la ley de la igualación

3 mecanismos:

Maximización molecular
Maximización molar
Mejoramiento

Antes de entrar en detalle con cada uno de ellos. Vamos a explicar un concepto importante para entender el 1 y el 2:

Igualación y maximización de las tasas de reforzamiento: Los organismos distribuyen sus acciones entre las alternativas de respuesta para recibir la máxima cantidad posible de reforzadores en cada situación.

Y ahora sí, pasamos a explicar cada uno de los mecanismos:

1. Maximización molecular: Los organismos siempre eligen cualquier alternativa de respuesta con mejores probabilidades de que sea reforzada en ese momento.
Experimento en palomas con dos teclas (A y B) y programa IV-IV. Cuanto más tiempo permanezca la paloma en la tecla A, más probabilidad habrá de que transcurra el intervalo para la tecla B y que por lo tanto el reforzamiento esté disponible para B.

2. Maximización molar: El organismo distribuye sus respuestas entre las varias alternativas a fin de maximizar la cantidad de reforzamiento que consiguen a la larga. Se utilizó para explicar los programas de razón en los que los organismos rara vez cambian de alternativa, simplemente responden a la alternativa que requiera menor número de respuestas (RF10 frente a RF20)

Sin embargo la maximización molar encuentra problemas a la hora de explicar la conducta de elección en programas de intervalo (IV-IV) y para programas razón-intervalo (RF-IV).

3. Mejoramiento: Los mecanismos de mejoramiento operan a una escala temporal de las teorías molas y molecular. El término “mejoramiento” se refiere a hacer algo mejor que el pasado reciente. No se refiere a elegir la mejor alternativa en ese momento.

Término importante sobre el mejoramiento:

Tasa local de respuesta y reforzamiento: Las tasas locales están calculadas sólo sobre el período de tiempo que un sujeto dedica a una alternativa particular de respuesta. Si la situación incluye dos opciones (A y B), la tasa local de respuesta en A se calcula dividiendo la frecuencia de respuesta en A por el tiempo que el sujeto dedica a responder en A.

Ejemplo numérico (que siempre ayudan)

Un organismo da 75 respuestas en 20 minutos en la alternativa A
La tasa global en A será de 75 respuestas/hora (puede que el resto del tiempo se haya dedicado a responder en B)
Sin embargo la tasa local en A sera de 225 respuestas/hora (75 cada 20 minutos)

La teoría del mejoramiento asume que los organismos cambian de una alternativa de respuesta a otra para mejorar la tasa local de reforzamiento que están recibiendo. El mecanismo de mejoramiento da como resultado la igualación.

Esta teoría sostiene que un organismo cambiará su preferencia en favor de la alternativa de respuesta que arroje la tasa local de reforzamiento más alta.

Elección con Compromiso

En nuestra vida diaria, en ocasiones elegir una alternativa hace que otras no estén disponibles. De igual forma, las elecciones importantes en la vida a menudo implican un beneficio pequeño a corto plazo frente a un beneficio más demorado pero mayor.

Es complicado extrapolar este tipo de decisiones al laboratorio para poder estudiarlas, por ello los científicos han desarrollado el programa concurrente encadenado de reforzamiento.

Programa concurrente encadenado

Este programa involucra al menos dos fases o eslabones:

1ª fase: Eslabón de elección: Se permite al participante elegir entre dos programas alternativos realizando una de dos respuestas.

2ª fase: Eslabón terminal: Una vez que el participante ha elegido uno de los dos eslabones de elección, irá al eslabón terminal que está formado por dos programas de reforzamiento dependiendo de qué opción haya escogido en la 1a fase. (esto es como lo que comentábamos antes de la vida real, en ocasiones elegir una opción hace que otras opciones no estén disponibles)

Los estudios de este tipo han demostrado que los sujetos prefieren la alternativa de razón variable (RV) ya que proporciona reforzamiento por un número relativamente pequeño de respuestas.

El estímulo del eslabón terminal se convierte en un reforzador condicionado. Por lo tanto un programa concurrente se caracteriza en que las respuestas al eslabón inicial se refuerzan por la presentación de un reforzador condicionado. Las diferencias en el valor del reforzador condicionado determinarán entonces la tasa relativa de cada respuesta de elección en el eslabón inicial. (el programa (eslabón terminal) que suscite más valor a la paloma será el que elija al principio en el eslabón de elección)

Estudios de autocontrol

El autocontrol a menudo supone elegir una recompensa grande demorada en lugar de una recompensa pequeña inmediata.

Experimento en palomas:

Utilizando el programa concurrente encadenado. En cada uno de los programas terminales responder era recompensado o bien mediante el acceso a una pequeña cantidad de grano (alternativa A) o el acceso a una mayor cantidad de grano que estaba demorada 4 segundos (alternativa B).

Estudiaron la conducta de elección en dos circunstancias diferentes:

1. Procedimiento de elección directa: No existe eslabón de elección, directamente se accede a la recompensa. En este ejemplo las palomas no mostraban autocontrol y directamente seleccionaban la recompensa pequeña inmediata.

2. Procedimiento concurrente encadenado: En este ejemplo, los componentes terminales estaban demorados después de que las palomas realizaran su elección inicial. Si la demora era suficiente antes de los componentes terminales, las palomas mostraban autocontrol y elegían la recompensa grande demorada.

Conclusiones: Las preferencias cambian a favor de cualquier recompensa grande demorada si se requiere que los participantes esperen más tiempo para recibir cualquier recompensa tras realizar su elección. Si las recompensas se entregan rápidamente tras una respuesta de elección, los sujetos generalmente prefieren una recompensa pequeña inmediata más que una recompensa grande demorada. Sin embargo, si se añade una demora constante a la entrega de ambas recompensas, es más probable que los individuos muestren autocontrol y prefieran la recompensa grande demorada.

Explicaciones del autocontrol:

El valor de un reforzador se reduce en función del tiempo que haya que esperar para obtenerlo. La función matemática que representa esto se llama función descontadora del valor.

V = M / (1+KD) (esta función recibe el nombre de función del decaimiento hiperbólico)

V= valor del reforzador
M= Magnitud de la recompensa
D= Demora de la recompensa
K= Parámetro de la tasa descontadora

Si el reforzador es entregado sin demora (D=0), el valor del reforzador estará directamente relacionado con su magnitud. Cuanto más se demora el reforzador menor es su valor.

La función descontadora del valor explica el problema del autocontrol en el gráfico de la página 186. Me ha costado un poco entenderlo pero es bastante sencillo. Tenemos una línea horizontal que es el tiempo y una vertical que es el valor de la recompensa. También tenemos 2 momentos en el tiempo (T1 y T2). Dependiendo de qué momento escojamos elegiremos una recompensa u otra.

Así por ejemplo en T1 vemos que la línea que lleva a la recompensa pequeña está por encima (tiene más valor) que la línea que lleva a la recompensa grande. Por lo tanto en T1 escogeremos la recompensa pequeña. Por el contrario en T2 la línea que lleva a la recompensa grande está por encima y escogeremos esta opción. La opción T2 es la opción de autocontrol.

Las funciones descontadotas y los problemas de autocontrol en la adicción a la droga:

Cuando más acusada sea la función descontadora de la demora de una persona, más dificultad tendrá para mostrar autocontrol (seleccionando una recompensa mayor demorada) en lugar de impulsividad (seleccionando una recompensa más pequeña pero más rápida).

Experimentos para medir el autocontrol en personas dependientes de la heroína demostró que tenían más impulsividad que el resto de las personas. Para los dependientes de la heroína, el valor del dinero (con el que se realizaba el experimento) disminuyó muy rápido si iban a tardar en dárselo.

¿Puede entrenarse el autocontrol?

La respuesta es sí.

Ejemplo con niños. 3 fases.

Fase 1- Pretest: Se les pregunta a los niños si quieren 2 centimos ahora o 3 centimos al final del día. A los que eligen los 2 céntimos se les dan enseguida, a los que eligen los 3 centimos se les dan al final del día.

Fase 2- Sesión de entrenamiento: Dependiendo de la elección en la fase 1, se hacen 2 grupos y se comienza con la sesión de entrenamiento. Deben resolver problemas sencillos para obtener la recompensa, las respuestas correctas del grupo de los 2 céntimos recibirán el dinero al instante. Las respuestas correctas del grupo de los 3 céntimos recibirán el dinero al final del día.

Fase 3 – Postest: se les vuelve a preguntar a los niños lo mismo que en la fase 1.

El hallazgo fue que había mayor cantidad de niños escogiendo la recompensa más grande demorada (3 céntimos) en el postest. Por lo tanto, siempre y cuando las tareas de entrenamiento (fase 2) impliquen bajo esfuerzo, el entrenamiento con la recompensa demorada incrementará la preferencia por la recompensa más grande demorada.