Condicionamiento Operante: Definición, Tipos, Programas y Autores

Antecedentes del Condicionamiento Operante: Thorndike

Thorndike estableció las bases del condicionamiento operante, aunque Skinner fue su figura principal. Thorndike realizó experimentos con gatos en su “caja problema”. A partir de sus observaciones, formuló algunas leyes del aprendizaje:

1. Ley del efecto: cuando se establece una conexión E-R, esta conexión se fortalece si va seguida de una consecuencia satisfactoria y se debilita si va seguida de una consecuencia desagradable. La idea de que las respuestas que producen consecuencias satisfactorias tenderán a repetirse es la piedra básica del condicionamiento operante. Más adelante, modificó esta ley, pues comprobó que las consecuencias desagradables no siempre debilitan la conexión, y la redujo a su aspecto positivo.

2. Ley del ejercicio: o ley del uso y del desuso, nos dice que las conexiones E-R se fortalecen con el uso y se debilitan con el desuso. Cuando habla de práctica o de ejercicio, entiende una práctica seguida de recompensa.

3. Ley de la disposición: el aprendizaje, en una determinada situación, sólo es eficaz cuando las estructuras nerviosas que intervienen en el establecimiento de las conexiones E-R están dispuestas para establecer dichas conexiones. La ejecución forzada de una respuesta ante un estímulo es perjudicial.

Skinner y el Condicionamiento Operante

Skinner sostiene que los procesos mentales no son necesarios para comprender y explicar la conducta de los sujetos, y que la conducta se adquiere o se aprende mediante conexiones ente estímulos y respuestas.

Distingue dos clases de conducta:

La conducta respondiente es provocada por estímulos conocidos, como la contracción de la pupila ante la luz. Para el CC toda conducta es respondiente.

Por otra parte está la conducta operante, que es emitida por el organismo, sin necesidad de recurrir a ningún estímulo conocido.

Skinner cree que la mayor parte de la conducta es operante: andar escribir… donde no es fácil identificar el estímulo que la produce. Un operante es una parte identificable de la conducta de la que hay que decir no que carezca de estímulo que la elicite, sino que cuando se observa es imposible hallarlo. Lo característico de las respuestas operantes es que son espontáneas y no reactivas.

Sus experimentos básicos consistían en una situación en la que un animal emitía la respuesta deseada y a continuación recibía la recompensa o reforzamiento. Sus trabajos los realizaba en la “caja de Skinner”, un aparato en el que al accionar un dispositivo, caía la comida en un recipiente.

Una vez que se producía la respuesta, recibía una bolita de comida, con lo que se consolidaba la respuesta. Existen semejanzas entre el condicionamiento simple y operante: las leyes de adquisición, extinción, recuperación espontánea, generalización y discriminación obedecen a los mismos principios.

Además, la mayoría de las variables del condicionamiento afectan de una manera semejante a ambos tipos de condicionamiento. Pero también existen diferencias. Kimble señala que la distinción básica entre ambos condicionamientos está en las consecuencias de la RC. En el CC, la consecuencia de los fenómenos es independiente de lo que haga el sujeto.

Pero en el CO, la recompensa es consecuencia de la respuesta. En el reforzamiento, en el CC, el EC se presenta a la vez que el EI y después se produce la respuesta. El reforzamiento, pues, se halla asociado con el estímulo. En el CO, el reforzador sobreviene después, esto es, es contingente con la respuesta.

El reforzamiento: tipos y programas

El reforzador es todo estímulo que sigue inmediatamente a una respuesta y que incrementa la probabilidad de que ésta se repita.

Tipos de Reforzadores

A) Positivos y Negativos

Los estímulos que actúan como reforzadores pueden ser de dos tipos. Los positivos (normalmente placenteros) son los que se añaden a una situación. Ej: la comida tras realizar una conducta. Son negativos (normalmente aversivos o desagradables) los que se suprimen de una situación. Ej: eliminar un ruido fuerte.

Ambos tienen el mismo efecto: aumentar la probabilidad de la respuesta. La diferencia entre el reforzamiento negativo y el castigo es que el primero tiene como finalidad incrementar la probabilidad de que la repuesta se repita, mientras que el castigo persigue suprimir la respuesta. Otra diferencia es que el reforzamiento negativo termina o desaparece cuando se produce la respuesta, mientras que el castigo sobreviene tras la emisión de la respuesta.

b) Primarios y secundarios

Son primarios los reforzadores que tienen un valor reforzante de un modo natural para el sujeto, sin que éste tenga que ser adiestrado para ser reforzado por ellos. Ej: comida.

Los secundarios no poseen ese valor reforzante de un modo natural, sino que lo adquieren por asociación con un reforzador primario. Ej: dinero. Son aprendidos. Dentro de éstos son importantes los reforzadores sociales, que son los que provienen de otras personas, como la aprobación, reconocimiento, afecto, pero no obran por igual en todas las personas y en todas las situaciones.

Programas de Reforzamiento

La efectividad del condicionamiento depende sobre todo del modo de efectuar el reforzamiento. El programa más sencillo de reforzamiento es el reforzamiento continuo, que consiste en aplicar el reforzador cada vez que se produce la respuesta deseada.

Las respuestas operantes se consolidan mejor cuando el reforzador se aplica de manera inmediata cada vez que el sujeto emite la respuesta deseada. Pero una vez que una respuesta operante ha sido condicionada, las respuestas aprendidas se mantienen mejor cuando el reforzador no se aplica de forma continuada, sino de manera intermitente.

Ferster y Skinner describen cuatro programas básicos de reforzamiento intermitente:

a. Programas de razón fija (RF): la recompensa o reforzador se administra tras la realización de un determinado número de respuestas operantes. El más sencillo es aquél en el que la recompensa se presenta alternativamente, esto es, cada dos respuestas. La idoneidad de establecer una tasa u otra depende de la rapidez con que se sucedan respuestas. Los programas RF producen una frecuencia alta de respuestas siempre que la razón no sea muy alta.

b. Programas de razón variable (RV): son semejantes a los anteriores, pero se diferencian en que el número de respuestas entre una recompensa y otra varía aleatoriamente, oscilando en torno a un valor medio, de manera que el sujeto nunca sabe si su respuesta será reforzada.

c. Programas de intervalo fijo (IF): consisten en administrar el reforzador tras un periodo o intervalo fijo de tiempo, independientemente de las respuestas que emita el sujeto.

d. Programas de intervalo variable (IV): coinciden con los anteriores, excepto en que los intervalos de tiempo de un reforzador a otro varían aleatoriamente, oscilando en torno a un valor medio.

Estímulos discriminativos

En el CC el animal aprende a responder en virtud del principio de generalización ante otros estímulos. En ese caso se podía hacer uso de la discriminación: el mejor procedimiento es el método de contraste, que consiste en presentar por un lado, el EC que se quiere consolidar seguido del EI, y por otro, en presentar los estímulos que se quieren neutralizar sin el EI.

En el CO las respuestas son espontáneas, no elicitadas por un estímulo identificable del ambiente. Sin embargo, es posible utilizar estímulos discriminativos, es posible presentar el reforzador sólo en el caso de que un determinado estímulo (estímulo discriminativo) preceda a la respuesta. Las conductas operantes pueden ser puestas bajo el control de estímulos antecedentes, esto se conoce como control del estímulo o control de los antecedentes.

Los estímulos discriminativos se distinguen de los elicitantes en que éstos últimos preceden a la respuesta y la suscitan. Los estímulos discriminativos invitan a la respuesta, pero no la provocan. Sólo indican que la recompensa o reforzamiento está disponible

El moldeamiento

El moldeamiento es una técnica que se utiliza para conseguir, gradualmente, una determinada conducta deseada. Es eficaz para conseguir respuestas que no existen en el repertorio del sujeto.

El procedimiento consiste en aplicar el reforzamiento tras las respuestas que, aun no siendo las que se desean, se aproximan a ellas (procedimiento de las aproximaciones sucesivas) y, a la vez, en ir administrando el reforzador diferencialmente, cada vez con un mayor nivel de exigencia.

Skinner y la enseñanza

Skinner en 1948 escribió Walden Two, una novela en las que se nos presentaba una sociedad donde los niños eran apartados de los padres y educados por expertos que usaban los principios del condicionamiento para establecer las conductas deseables y eliminar las indeseables.

En 1954 escribe un artículo donde realiza un diagnóstico de los males de la enseñanza en la escuela y aporta un conjunto de sugerencias para la enseñanza de los escolares.

El principal problema que advirtió Skinner fue que el número de alumnos por profesor era excesivo para que éste pudiese disponer de las contingencias de reforzamiento.

Las críticas de Skinner a la enseñanza tradicional las centró en cuatro puntos:

1. En el aula la conducta está controlada generalmente por el estímulo aversivo. Los profesores tendían a hacer más uso del castigo que de la recompensa. Los niños trabajan para evitar consecuencias desagradables cuando, según su investigación, la recompensa es más efectiva.

2. Cuando se utilizan las recompensas, el tiempo que transcurre entre la respuesta y el reforzamiento es excesivamente largo, cuando la aplicación inmediata es más eficaz.

3. Ausencia de reforzamientos en serie. Los programas educativos no estaban organizados de una manera sistemática que permitiera avanzar a los estudiantes paso a paso, a través de aproximaciones sucesivas con los reforzamientos correspondientes hasta llegar a la conducta final deseada.

4. Poca frecuencia de reforzamiento. La solución que propone Skinner es la enseñanza programada, procedimiento en el que a cada alumno, de manera individualizada, se le presenta una información o un contenido de aprendizaje breve. El alumno, tras su lectura, debe responder a una pregunta e inmediatamente, recibe información (reforzamiento) acerca de la corrección de su respuesta.

Algunas aplicaciones del condicionamiento operante a la enseñanza en el aula

Los principios del CO influyen en la conducta de los individuos en todas las edades y en todas las situaciones. Skinner piensa que la misma eficacia que se consigue con la aplicación del CO en el aprendizaje animal puede obtenerse en el aprendizaje humano en situaciones escolares.

Los resume en cinco puntos:

1. Control de los reforzadores: si los reforzadores no se controlan, si se dan por azar o por casualidad, los organismos aprenderán a hacer aquello que hacían en el momento en que se aplica el reforzador. Los alumnos adquieren conductas o modos de comportamiento de esta manera, de ahí la importancia de que el profesor conozca lo que está recompensando, que controle adecuadamente la administración de los reforzadores y que el refuerzo sea contingente con la conducta deseada.

2. Utilizar reforzadores secundarios: con los alumnos, muchos reforzadores secundarios, tales como una sonrisa o un gesto de aprobación pueden actuar tan eficazmente o más que un reforzador primario. Ahora bien, estos reforzadores no actúan por igual en todos los alumnos: un mismo estímulo puede ser para un alumno algo valioso y atractivo, mientras que para otro puede ser algo que lo deja insensible o, incluso, algo hacia lo que sienta rechazo.

Esto obliga al profesor a conocer cómo son sus alumnos y cuáles son los reforzadores que más les convienen con objeto de utilizarlos adecuada y rápidamente.

Una fórmula útil para aplicar reforzados es el Principio de Premack, que consiste en utilizar una conducta de alta frecuencia (es decir, una actividad preferida por un determinado alumno) como reforzador de una conducta que se quiere conseguir y que el alumno emite con baja frecuencia.

3. Administrar los reforzadores de manera inmediata: no es conveniente dejar transcurrir mucho tiempo entre la realización de la conducta y la aplicación del reforzador, puesto que se pierde gran parte de su eficacia. Aunque en los humanos, el lenguaje y la memoria hacen que los efectos negativos de la demora sean menos importantes.

4. Utilizar programas de reforzamiento: El reforzamiento es más eficaz cuando en la fase de adquisición de una conducta el reforzador se administra de manera continuada y cuando tras la adquisición de la conducta deseada, se administra de manera intermitente.

5. Controlar las contingencias de reforzamiento: la expresión se refiere a la existencia de ciertas condiciones para que se produzca el reforzamiento. Es muy importante que los reforzadores se administren de forma contingente a la conducta deseada.

El tema del reforzamiento, aunque es central en el conductismo, también se incorporó a la Psicología Cognitiva.

Ausubel señala que las recompensas influyen en el aprendizaje de tres maneras generales:

1) sirviendo de incentivos que ayudan a hacer que un problema sea significativo relacionando una secuencia de actividades de aprendizaje con una meta final,

2) la recepción de recompensas incrementa la fuerza de las motivaciones que estén actuando para impulsar y dirigir la conducta y

3) las recompensas elevan la probabilidad relativa de que una respuesta se repita sensibilizando de manera selectiva a la disminución de los umbrales para la producción de respuestas particulares.

Las orientaciones que sugiere Woolfolk a los profesores para su uso en las aulas son:

1. Asegurarse de que la conducta positiva de los alumnos en clase será reforzada: las normas a seguir por los alumnos deben estar claras desde un principio, y también las consecuencias que se derivarán de su cumplimiento.

2. Asegurarse de que los estímulos utilizados tienen un valor reforzante para el alumno: ya que no todos los reforzadores actúan por igual en todos los alumnos.

3. Cuando se aborden nuevos aprendizajes, reforzar el mayor número posible de respuestas, aunque éstas aún no sean del todo correctas (moldeamiento).

4. Una vez conseguida la respuesta deseada, aplicar el reforzamiento de manera intermitente y no continuada.

5. Hacer uso de estímulos discriminativos para conseguir nuevas respuestas: el profesor debe introducir con frecuencia estímulos que recuerden a los alumnos la conducta que se espera de ellos.