Condicionamiento Instrumental ¿Qué es y cómo funciona?

Un estudiante estudiará para obtener mejores notas. Este tipo de conducta se utiliza porque ha servido previamente como instrumento para conseguir lo mismo y recibe el nombre de “conducta instrumental”.

Primeras Investigaciones sobre Condicionamiento Instrumental

Comienzan con Thorndike. Su intención original era estudiar la inteligencia animal.
Sus experimentos se basaban en introducir animales hambrientos en cajas con comida en el exterior y a la vista del animal. El animal debía aprender cómo salir de la caja.

Los resultados son obvios, con la repetición el animal cada vez tarda menos tiempo en repetir la acción que abre la caja. Sin embargo hay que hacer una puntualización, Thorndike no explicaba que los animales compredieran el funcionamiento del mecanismo que abría la caja, sino que la abrían como una asociación estímulo-respuesta.

Es decir, un gato por ejemplo daba muchas respuestas al introducirlo en la caja, alguna de estas respuestas (de casualidad) abrían la caja, por lo tanto el animal poco a poco iría aprendiendo esta asociación y comenzaría a dar con mayor frecuencia el tipo de respuestas encaminadas a volver a abrirla. Yo no entiendo cómo se abre la puerta de mi coche con el mando a distancia…pero cada vez que quiero abrirla le doy al botón porque es lo que he aprendido.

Ley del efecto: Si una respuesta en presencia de un estímulo es seguida por un suceso satisfactorio, la asociación entre el estímulo (E) y la respuesta (R) se fortalece. Si la respuesta es seguida por un suceso molesto, la asociación E-R se debilita. La ley del efecto implica un aprendizaje E-R.

Aproximaciones modernas al estudio del condicionamiento instrumental

Procedimientos de ensayo discreto

Normalmente se llevan a cabo en laberintos

W.S. Small (1899-1900) creó laberintos para estudiar la conducta de las ratas. Uno tenía forma de T (para estudiar la conducta de elección )y otro era simplemente alargado con forma de I.

Con los laberintos se puede medir la velocidad de la carrera (desde la salida hasta la meta) y el tiempo de latencia (tiempo que tarda en abandonar la salida e iniciar la carrera).

Procedimientos de operante libre

Skinner (1938). Se permite que el animal repita la respuesta una y otra vez sin restricciones.(a diferencia de los laberintos en T en que el animal era sacado del laberinto al llegar a meta). Skinner quería obtener una respuesta más natural en los experimentos. La observación informal sugiere que la conducta en curso es un continuo, una actividad sigue a la otra. Skinner propuso el concepto de operante como la forma de dividir la conducta en unidades medibles con significado.

Rata hambrienta en una caja de Skinner. Hay una palanca conectada a un dispensador de comida. Cuando la rata aprieta la palanca cae comida.

La respuesta operante (presionar la palanca) se define a partir del efecto que produce en el ambiente. El operante de presión de la palanca se define como una presión hacia abajo suficiente para que cause el cierre del microinterruptor. Da igual si la presión la hace con la pata izquierda, derecha o con la cola, se trata del mismo operante.

Entrenamiento y moldeamiento al comedero Es la primera fase. Se realiza un seguimiento del signo mediante un sonido (condicionamiento clásico) para que el animal se dirija al comedero. (esto es el entrenamiento al comedero). Tras este entrenamiento el animal está preparado para aprender la respuesta instrumental. Si la respuesta NO ES ALGO que el animal ya realiza ocasionalmente NUNCA sucederá por si misma la respuesta que produce el reforzador.

Es decir, para empezar le daremos comida a la rata cada vez que se levanta sobre sus dos patas de forma natural (obviamente si en lugar de una rata fuera una rana, nunca podrá ponerse a dos patas). Cuando hemos conseguido la respuesta de alzamiento entonces daremos un paso más y le daremos la comida SOLO SI realiza la respuesta de alzamiento sobre la palanca. Poco a poco vamos produciendo un moldeamiento hasta conseguir la respuesta buscada.

Esta dos fases que hemos visto del modeamiento son: “reforzamiento de aproximaciones sucesivas” y “no reforzamiento de las formas de respuesta tempranas

Moldeamiento y nueva conducta Toda la nueva unidad conductual de la rata está formada por un conjunto de respuestas preexistentes (alzamiento, presión, etc). Es decir, se le enseña una nueva combinación de respuestas familiares en una nueva actividad.

Es importante señalar que el moldeamiento aprovecha la variabilidad inherente de la conducta. Es decir, se puede variar la conducta en una dirección u otra. El libro habla de un experimento sobre el picoteo en palomas en el que dependiendo del reforzador conseguían que su conducta tendiera a ir cerrando más el pico con el picoteo o lo contrario, ir abriendo más el pico con el picoteo.

Con el mismo experimento se obtenían resultados que explicaban que el moldeamiento puede producir nuevas formas de respuesta nunca antes realizadas por el organismo. Antes de los experimentos las palomas conseguían abrir el pico 10 mm, pero tras el moldeamiento llegaban hasta 20 mm.

La tasa de respuesta como medida de la conducta operante Los experimentos con operante libre permiten una observación continua durante largos periodos (a diferencia del ensayo discreto). Skinner propuso la “tasa de ocurrencia” (frecuencia de la respuesta por minuto) como medida de la probabilidad de una respuesta. Las respuestas más probables ocurren con frecuencia y muestran una tasa alta.

Procedimientos de condicionamiento instrumental

Antes de empezar con los procedimientos (que son 4) vamos a explicar 4 conceptos:

  • –  Estimulo apetitivo: Una consecuencia placentera.
  • –  Estímulo aversivo: Una consecuencia molesta.
  • –  Contingencia positiva: La respuesta instrumental proporciona el estímulo (un chico corta el césped y recibe dinero)
  • –  Contingencia negativa: La respuesta instrumental evita el estímulo (cierro la ventana y no entra lluvia)

Y ahora los 4 procedimientos de los programas de reforzamiento que dan título al apartado

Reforzamiento positivo: Un padre da una galleta a su hija cuando hace los deberes. La respuesta instrumental produce un estímulo apetitivo. Por lo tanto existe contingencia positiva entre la respuesta y el estímulo.

Castigo: Un jefe te critica por llegar tarde a una reunión. La respuesta instrumental produce un estímulo aversivo. Y OJO: Aquí también se produce una contingencia positiva entre la respuesta y el estímulo. (llegar tarde produce que el jefe te riña)

Reforzamiento negativo: Se trata de un procedimiento en el que la respuesta instrumental finaliza o previene la entrega de un estímulo aversivo. Hay dos tipos de reforzamiento negativo:

A)Escape: Se presenta el estímulo aversivo pero puede ser eliminado por la respuesta instrumental. Se puede escapar del sonido molesto de una radio apagándola.

B) Evitación: Implica la programación de un estímulo aversivo para ser presentado en algún momento del futuro. La gente pone a punto su coche para evitar averías.

Entrenamiento de omisión: La respuesta instrumental previene la presentación de un estímulo apetitivo. Se le dice a un niño que se vaya a su habitación cuando ha hecho algo malo no porque la habitación sea algo aversivo sino para evitar estímulos apetitivos como ver la televisión o que lo llamen sus amigos. El entrenamiento de omisión también recibe el nombre de “reforzamiento diferencial de otras conductas” o RDO. El RDO refleja el hecho de que el individuo recibe un estímulo apetitivo periódicamente a condición de que se dedique a realizar otra conducta diferente a la anterior.

Elementos fundamentales del condicionamiento instrumental

El condicionamiento instrumental consta de 3 elementos claves:

  • –  Una respuesta
  • –  Una consecuencia (el reforzador)
  • –  Relación (o contingencia) entre la respuesta y la consecuencia

La respuesta instrumental

Variabilidad conductual versus estereotipia

Los experimentos de Thorndike y Skinner enfatizaron que el reforzamiento incrementa la probabilidad de que la respuesta instrumental se repita en el futuro. Es decir, repeticiones de la misma respuesta. Sin embargo esto no significa que el condicionamiento instrumental no pueda producir también respuestas creativas o variables.

Los organismos pueden aprender a obtener reforzamiento en una situación donde se requiere hacer algo nuevo. Por lo tanto la variabilidad de la respuesta puede ser la base para el reforzamiento instrumental. Y esto se demostró con un experimento en palomas:

Page y Neuringer (1985) – Experimento en Palomas. Las palomas tenían que picotear 2 teclas durante 8 veces para obtener comida. Podían alternar los picoteos como quisieran siempre que fuesen 8 entre dos teclas. Tras 50 ensayos solo recibirían comida si no repetian ninguna de las combinaciones de los 50 ensayos del principio. Paralelamente un grupo de control recibía comida independientemente de si repetía o no. Los resultados demostraron que el grupo que no tenía que repetir las combinaciones daba mucha más variabilidad en su respuesta que el grupo de control, creando combinaciones nuevas.

Por lo tanto:

– La variabilidad de la respuesta puede mantenerse e incrementarse por reforzamiento.

– En ausencia de reforzamiento explícito de la variabilidad, la respuesta llega a ser más estereotipada con un condicionamiento instrumental continuado.

Relevancia o pertinencia en el condicionamiento instrumental

Esto es muy parecido a lo que vimos en el condicionamiento clásico cuando hablábamos de facilidad de aprendizaje cuando el EC era relevante para el EI en temas anteriores.

En el condicionamiento instrumental ocurre algo parecido, Thordike estudió las respuestas de gatos atrapados en cajas. Primeramente condicionó el rascado y el bostezo como respuestas instrumentales para escapar y en otros experimentos condicionó manipular un picaporte o tirar de una anilla.

Demostró que cuando se trataba del picaporte o la anilla, la respuesta era mucho más vigorosa que cuando se trataba del bostezo y el rascado. La evolución natural del gato hace que manipular un picaporte y empujar una anilla son respuestas que están relacionadas de forma natural con escapar de la trampa. Con esto se explica el concepto de pertinencia.

Deriva instintiva: Breland y Breland observaron varias limitaciones y problemas a la hroa de entrenar animales para realizar exhibiciones en circos. Observaron que los animales realizaban conductas relacionadas con su forma de alimentación en lugar de reproducir la conducta buscada por los educadores.

Sistemas de conducta y limitaciones en el condicionamiento instrumental

De acuerdo con la teoría de los sistemas de conducta, cuando un animal está privado de comida y se encuentra en una situación donde podría encontrarla, su sistema de alimentación se activa y se dedica a otras actividades relacionadas con la comida.

De acuerdo con la aproximación de los sistemas de conducta, deberíamos ser capaces de predecir qué respuestas se incrementarán con un reforzamiento de comida mediante el estudio de lo que los animales hacen cuando su sistema de alimentación está activado en ausencia de condicionamiento instrumental. Esto suena un poco lioso pero se entiende con el siguiente ejemplo:

Cuando un hamster tiene comida suficiente se dedica a otras actividades como el autocuidado (lavarse, etc) pero cuando está hambriento su sistema de conducta se centra en otras actividades como rascar o comer. Por lo tanto podemos concluir que el autocuidado no está relacionado con su sistema de conducta de la alimentación y que el reforzamiento de comida podría producir incrementos en actividades como cavar y escarbar pero no en lavarse la cara y rascarse.

El reforzador instrumental

Cantidad y naturaleza del reforzador

Las dos características están muy relacionadas. Tener un reforzador más grande o más sabroso (en el caso de la comida) provocará respuestas más intensas en los sujetos.

Cambios en la naturaleza y cantidad del reforzador

Esto está relacionado con el modelo Rescorla-Wagner visto en el tema anterior.

Si el EI es mayor de lo esperado, producirá condicionamiento excitatorio. Si por el contrario el EI es menor de lo esperado, producirá condicionamiento inhibitorio. Si trabajas por 9 euros/hora durante 6 meses y el septimo mes te siguen pagando lo mismo, será menos emocionante que trabajar 6 meses a 8 euros y luego a partir del septimo mes subirte a 9 euros. Es probable que los trabajadores del segundo grupo sean más productivos.

Contraste positivo: Se refiere a una elevada respuesta por una recompensa favorable resultado de una experiencia anterior con una consecuencia menos atractiva.

Contraste negativo: Se refiere a una respuesta disminuida por una recompensa desfavorable debido a una experiencia anterior con una consecuencia mejor.

Contraste sucesivo (positivo o negativo): Dos condiciones de respuesta en diferentes fases del experimento y sólo un cambio en la magnitud de la recompensa para los grupos de cambio.

Contraste conductual simultáneo: Efectos de contraste conductual (contraste positivo y negativo) que están producidos por frecuentes cambios entre una condición de recompensa favorable y una desfavorable, con cada condición de recompensa asociada a su propio estímulo distintivo.

Todos los efectos de contraste ilustran que la efectividad de un reforzador en una situación está determinada en parte por las experiencias del organismo con reforzadores en otras situaciones.

La relación respuesta-reforzador

En algunos casos hay una fuerte relación entre lo que una persona hace y la consecuencia que sigue, en otros casos no hay ninguna relación y en otros casos la relación puede ser probabilística. Un organismo debe organizar su tiempo para enfrentarse a varios retos y debe hacerlo de manera que lleve a cabo el mejor uso de su tiempo y energía.

2 tipos de relaciones entre una respuesta y un reforzador

a) Relación temporal (o contigüidad temporal): Tiempo que transcurre entre la respuesta y el reforzador. En la “Contigüidad temporal” el reforzador se entrega inmediatamente después de la respuesta.

b) Relación causal: (o contingencia respuesta-reforzador). Se refiere al hecho de que la respuesta instrumental es necesaria y suficiente para la ocurrencia del reforzador.

Efectos de la contigüidad temporal

El reforzamiento inmediato es preferible al demorado. Proporcionar el reforzador inmediatamente después de la ocurrencia de la respuesta instrumental facilita el aprendizaje. Hay varios factores que explican porqué el condicionamiento instrumental es tan sensible a la demora del reforzamiento:

– Una demora larga hace que el sujeto no sepa cual de sus respuestas haya sido la que ha producido el reforzador. Es decir, la rata levanta una palanca pero pasan 30 segundos hasta que se muestra una bolita de comida, durante estos 30 segundos la rata sigue haciendo otras cosas como pueden ser saltar, morder, etc., de repente surge la bolita y la rata ya no asocia la bolita con la palanca inicial ya que después ha seguido dando una serie de respuestas (saltar, morder, etc.) y no sabe cual de ellas ha sido la que ha propiciado la salida de la bolita.

– Para resolver este problema se entrega un reforzador condicionado o secundario inmediatamente después de la respuesta instrumental y que ha sido asociado previamente con el reforzador. Por ejemplo en el adiestramiento verbal de animales se dice “bueno” o “eso es” y cuando acabe la exhibición se le dará la comida.

– Otra manera de resolver el problema es mediante un “procedimiento de marcado” de la respuesta instrumental correcta. Experimento en ratas. Una caja con un brazo negro y otro blanco. El blanco es la respuesta correcta, el grupo de ratas que daba la respuesta correcta se dividió en 2 subgrupos, uno de estos subgrupos era extraido de la caja en el momento de entrar en el brazo blanco y llevado a otra caja a experar la comida.

El otro subgrupo no era extraído de la caja, sino que esperaba a recibir la comida en ella durante 60 segundos. Se demostró que el grupo que era “extraído” (marcado) de la caja, tenía un porcentaje de respuestas correctas superior en experimentos posteriores que el grupo que no había sido extraído. Es decir, hay que hacer algo inmediatamente después de la respuesta instrumental para que el animal se percate de que lo que acaba de hacer es la elección correcta.

La contingencia respuesta-reforzador

Repite lo anterior al principio del apartado pero añade que: Aunque la relación causal sea perfecta, el condicionamiento no ocurrirá si el reforzamiento es demorado durante demasiado tiempo.

El experimento de superstición de Skinner

Muy interesante y gracioso: Metió a 8 palomas en 8 cajas distintas que estaban programadas para dar comida cada 15 segundos independientemente de lo que estuviesen haciendo las palomas. Al rato volvío y comprobó que cada paloma estaba haciendo una cosa, unas daban vueltas otras picoteaban, etc, como si su comportamiento condicionara el hecho de que apareciese o no apareciese comida. Skinner denominó a esto conducta supersticiosa. Seguro que más de uno hacemos cosas parecidas.

Skinner explica esta conducta mediante la idea del reforzamiento accidental o adventicio que se refiere al emparejamiento accidental de una respuesta con la entrega del reforzador. Este experimento sugería que una contingencia positiva respuesta- reforzador no es necesaria para el condicionamiento instrumental.

Reinterpretación del experimento de superstición: Staddon y Simmelhag profundizaron un poco más en el experimento de Skinner y dieron nombre a las conductas de las palomas. Denominaron respuestas terminales a las que se daban al final del intervalo comida- comida y respuestas de interín a las que se daban en medio del intervalo. Las Palomas solían coincidir en el tipo de respuestas terminales y en el tipo de respuestas interín. Por lo tanto hay algo de contingencia entre el tipo de respuestas y el reforzador (al contrario de cómo sugería Skinner)

Explicación de la periodicidad de las respuestas de interín y terminales: Staddon y Simmelhag sugirieron que las respuestas terminales son respuestas típicas de la especie que reflejan la anticipación de comida a medida que el tiempo se encuentra más cerca de la próxima presentación de comida. En contraste, las respuestas interín son una manifestación de otras fuentes de motivación que eran más importantes al comienzo del intervalo entre comidas, cuando la presentación de comida era improbable.

El tipo de respuestas que se dan en el intervalo se agrupan en 3 subgrupos siguiendo el

orden temporal tras la última aparición de comida:

  1. a)  – Búsqueda focalizada poscomida (cerca del cuenco)
  2. b)  – Búsqueda general (lejos del cuenco)
  3. c)  – Búsqueda focalizada (cerca del cuenco otra vez)

Efectos de la controlabilidad de los reforzadores

Con una contingencia fuerte, que el reforzador suceda depende de si ha ocurrido la respuesta instrumental. Un hallazgo importante en experimentos con perros fue que la exposición a una descarga incontrolable dificultaba el aprendizaje posterior. Este efecto recibe el nombre de efecto de indefensión aprendida.

Y ahora 6 puntos que tienen que ver con el efecto de indefensión aprendida:

1. El diseño triádico: (tabla página 153)
Los experimentos de indefensión aprendida se realizan utilizando el diseño triádico. Contiene 2 fases:

a) Exposición

Grupo de ratas E: Expuesto a descargas periódicas de las que pueden escapar.
Grupo de ratas A: Cada sujeto del grupo A es acoplado a cada sujeto del grupo E y recibe las mismas descargas pero no pueden escapar de ellas.
Grupo C: No recibe descargas pero está confinado en el aparato tanto tiempo como los otros.

b) Condicionamiento

Los 3 grupos reciben entrenamiento de escape – evitación

Resultados: La exposición a una descarga incontrolable (Grupo A) produce peores resultados en el aprendizaje escape-evitación que el resto de los grupos. La diferencia en la tasa de aprendizaje entre los grupos muestra que los animales son sensibles a la contingencia respuesta-reforzador.

2. Hipótesis de la indefensión aprendida: Esta hipótesis asume que durante la exposición a descargas incontrolables, los animales aprenden que las descargas son independientes de su conducta, no pueden hacer nada para controlarlas. Esto dificulta el aprendizaje ya que la falta de control sobre la situación hace que descienda la motivación de los sujetos para realizar una respuesta instrumental. No confundir con el efecto de indefensión aprendida que explica el patrón de resultados obtenido con el diseño triádico.

3. Deficit de actividad: Las ratas del Grupo A aprendían a ser inactivas en respuesta a la descarga durante la fase de exposición.

4. Deficit atencional: Una descarga inescapable hace que los animales presten menos atención a sus acciones (ya que han aprendido que van a recibir la descarga hagan lo que hagan). Sin embargo marcar la respuesta instrumental supera el déficit de indefensión aprendida.

5.Relaciones estimulares en el condicionamiento de escape: El rasgo definitorio de la conducta de escape es que la respuesta instrumental tiene como consecuencia la terminación del estímulo aversivo. Además, la respuesta de escape tiene como resultado claves internas de retroalimentación de la respuesta. Hay dos:

– Claves de retroalimentación de la terminación de la descarga. (al comienzo de la respuesta de escape)

– Claves de retroalimentación de la señal de seguridad. (cuando el animal completa la respuesta)

Estas claves contextuales llegan a convertirse en inhibidores condicionados del miedo y limitan el miedo elicitado por las claves contextuales de la cámara experimental. Hay mayor probabilidad que las claves contextuales de la cámara en la que se administran las descargas queden condicionadas para elicitar miedo cuando las descargas son inescapables.

Para finalizar y a modo de conclusión: El diseño triádico ha sido de un valor incalculable para considerar la posible importancia de las contingencias respuesta-reforzador.

Redacción
Portal web especializado en Psicología y Desarrollo Personal formado por más de 200 profesionales.