Aprendizaje a través del refuerzo (con diagrama)

Lea este artículo para aprender sobre el significado, los tipos y los programas de refuerzo.

Significado del refuerzo:

El refuerzo juega un papel central en el proceso de aprendizaje. De acuerdo con la ley del efecto, el refuerzo se puede definir como algo que aumenta la fuerza de la respuesta y tiende a inducir repeticiones del comportamiento que precedió al refuerzo. El refuerzo también se define funcionalmente: algo se refuerza solo si refuerza la respuesta que lo precede e induce repeticiones de la respuesta.

El refuerzo es una explicación externa del comportamiento en comparación con la motivación, que es una explicación interna del comportamiento (estar preocupado por las necesidades internas). Aunque, los términos refuerzo y recompensa a veces se usan indistintamente, todavía hay una diferencia técnica en estos términos. Una recompensa es simplemente algo que la persona que presenta lo considera deseable, puede que no siempre lo refuerce.

En palabras muy simples, el refuerzo se refiere a las consecuencias de la conducta. Hay cuatro tipos básicos de refuerzos en las organizaciones. Refuerzo positivo Refuerzo negativo, castigo y extinción. Los dos primeros refuerzan, es decir, los refuerzos positivos y negativos, ambos buscan fomentar el comportamiento deseable mediante diferentes enfoques. Los dos ejecutores restantes, a saber, el castigo y la extinción, buscan desalentar el comportamiento no deseado a través de diferentes enfoques.

Tipos de Refuerzos:

1. Refuerzo positivo:

Un refuerzo positivo es una recompensa por un comportamiento deseado. La recompensa debe ser tal que estimule el comportamiento deseado y fortalezca la probabilidad de repetir dicho comportamiento en el futuro. Los refuerzos positivos pueden ser primarios o secundarios. Los refuerzos que tienen consecuencias beneficiosas directas se conocen como refuerzos primarios, por ejemplo, alimentos, ropa y refugio.

Los refuerzos secundarios también traen beneficios pero tienen diferentes significados para diferentes individuos. El dinero es el refuerzo positivo más poderoso porque se puede usar para comprar refuerzos primarios como alimentos, etc. Algunos otros refuerzos secundarios pueden ser la participación en la toma de decisiones, la promoción, el reconocimiento y la alabanza. Existen algunas condiciones para que el refuerzo positivo sea efectivo.

Estos son los que se explican a continuación:

(i) La recompensa debe coincidir con las necesidades de los empleados, ya que todas las personas tienen diferentes motivaciones para el desempeño. Los gerentes deben desarrollar un sistema de recompensas que sea apropiado para todos los miembros de su organización o adaptar sus premios a cada individuo. Por ejemplo, para un empleado, el dinero sería un ejecutor, mientras que para otro elogio por su desempeño sería un ejecutor más efectivo.

(ii) La recompensa debe estar supeditada al tipo de desempeño. De modo que "Cuanto mayor sea el grado de desempeño del empleado, mayor será la recompensa". O, en otras palabras, la recompensa debe estar directamente relacionada con el comportamiento.

(iii) El momento de la recompensa también es muy importante. Esto se conoce como el principio de refuerzo inmediato. El refuerzo tendrá un efecto más profundo si se administra poco después de que haya ocurrido el comportamiento deseado. Cuanto mayor sea la demora en otorgar la recompensa por el comportamiento deseado, menos efectiva será la recompensa como un reforzador positivo.

2. Refuerzo negativo:

El refuerzo negativo también se conoce como "aprendizaje de evitación" o "condicionamiento de escape". Como queda claro a partir de estos nombres, el refuerzo negativo tiene lugar cuando las personas aprenden a evitar o escapar de circunstancias desagradables. Por lo tanto, el refuerzo negativo fortalece y aumenta el comportamiento por la terminación o el retiro de una consecuencia indeseable.

Al igual que el refuerzo positivo, también es un método para fortalecer el comportamiento deseado. Pero bajo un refuerzo positivo, el empleado trabaja arduamente para obtener premios financieros y de otro tipo, mientras que bajo un refuerzo negativo, el empleado trabaja arduamente para evitar o escapar de consecuencias desagradables como la reprimenda del jefe.

Por ejemplo, al gerente le puede gustar que sus subordinados vengan con ropa formal al lugar de trabajo y puede criticar a las personas que se visten de manera informal o informal. Para evitar críticas, los empleados pueden vestirse bien para mantener contentos al gerente. Por lo tanto, se están involucrando en un comportamiento deseable para evitar una consecuencia desagradable.

Gran parte de la conducta legal en nuestra sociedad se basa en el aprendizaje de evitación. Por ejemplo, estacionamos nuestro vehículo en el espacio de estacionamiento adecuado, incluso si es inconveniente, para evitar obtener un boleto. Por lo tanto, el refuerzo negativo es realmente una forma de chantaje social porque la persona se comportará de cierta manera para no ser reprendida. Sin embargo, el castigo o la amenaza de castigo no está implícito en ninguna de estas acciones. En los lugares de trabajo, la capacitación, la seguridad, las advertencias, las sesiones de orientación y el asesoramiento ayudan a los empleados contra las consecuencias negativas de un comportamiento indeseable. Cuando se combina con un refuerzo positivo para el comportamiento apropiado, el efecto puede ser extremadamente beneficioso.

3. Extinción:

Mientras que el refuerzo positivo y el refuerzo negativo aumentan la frecuencia de comportamiento deseable, la extinción disminuye la frecuencia de comportamiento indeseable, especialmente cuando tales comportamientos fueron recompensados ​​previamente, se refiere a la falta de cumplimiento. La eliminación de cualquier refuerzo que mantenga un comportamiento se llama extinción. En otras palabras, si las recompensas se retiran por comportamientos que se reforzaron previamente, el comportamiento probablemente se volverá menos frecuente y, finalmente, se extinguirá.

El método involucrado es una forma adecuada de castigo en la forma de retener la aplicación positiva o simplemente ignorar el comportamiento indeseable. Por ejemplo, un profesor universitario, que desea disuadir a los estudiantes traviesos de molestar a la clase haciendo preguntas innecesarias, puede eliminar este comportamiento al ignorar a aquellos estudiantes que levantan la mano para hacer preguntas. El levantamiento de manos se extinguirá cuando se encuentre invariablemente con una ausencia de refuerzo.

También desde el punto de vista organizativo, un empleado que, por ejemplo, elige pelear con todos y que, aparentemente, es castigado o reprendido por el supervisor, puede continuar las interrupciones debido a las atenciones que brindan. Al ignorar o aislar al empleado perturbador, se retiene la atención y posiblemente también la motivación para pelear.

Se debe enfatizar que incluso el comportamiento deseable se extinguirá si se detienen las recompensas. Por ejemplo, un empleado, que es muy puntual en el cargo y es alabado por su supervisor (debido a este hábito) con un pretexto u otro, se volverá informal en su comportamiento si el supervisor comienza a ignorar esta cualidad y deja de alabar. Él frente a los otros empleados o no lo recomienda para un aumento de sueldo.

4. Castigo:

El castigo es cualquier cosa que debilita el comportamiento y tiende a disminuir su frecuencia posterior. El castigo es el método más controvertido de modificación de la conducta e implica brindar una consecuencia desagradable que depende de la aparición de una conducta indeseable. Tanto el castigo como la extinción tienen el efecto de disminuir y eliminar el comportamiento indeseable, pero técnicamente, hay una diferencia.

La extinción se utiliza para reducir el comportamiento no deseado que ha sido recompensado anteriormente. El proceso de castigo, por otro lado, consiste en la aplicación de una consecuencia indeseable o la retirada de una consecuencia deseable por un comportamiento indeseable que nunca antes se ha asociado con la recompensa. Algunas formas comunes de castigo son las duras críticas, la retención del salario, la denegación de privilegios, la degradación o la privación de la libertad del empleado para hacer su trabajo a su manera.

El castigo es el método histórico de reducir o eliminar el comportamiento indeseable. Pero a veces, el castigo frustra al castigado y conduce al antagonismo hacia el agente que castiga. Como resultado, la efectividad del agente de publicación se reduce con el tiempo. Por ejemplo, si su empleado reprende a un empleado por tomar descansos de trabajo no autorizados, el comportamiento puede detenerse, pero solo cuando el gerente está presente cuando el gerente no está visible, los descansos pueden volver a ocurrir. En consecuencia, la administración generalmente desalienta la aplicación de cualquier forma de castigo y, por lo general, se prefieren las técnicas de refuerzo positivo.

Sin embargo, hay situaciones en las que el castigo se hace necesario en la modificación de la conducta. Ciertos comportamientos indeseables deben ser castigados, de lo contrario tendrán efectos de largo alcance. Por ejemplo, un empleado que acosa sexualmente a un compañero de trabajo no debe quedar impune. Pero debido a los posibles peligros del castigo, debe administrarse adecuadamente.

Los siguientes puntos se pueden señalar a este respecto:

Las cuatro estrategias de refuerzo se ilustran a continuación:

(i) En primer lugar, se debe seguir una vieja regla general que es "Alabanza en público, castigo en privado", una reprimenda privada puede ser constructiva, mientras que una reprimenda de un empleado frente a otros puede ser muy embarazoso y es probable que Causa efectos emocionales y comportamientos indeseables.

(ii) El castigo debe seguir rápidamente el comportamiento indeseable. Es más efectivo cuando se aplica inmediatamente después de que se produce el comportamiento indeseable. Además, el castigo debe seguir cada ocurrencia del comportamiento indeseable.

(iii) En tercer lugar, el castigo debe centrarse en el comportamiento y no en la persona. El empleado debe ser informado claramente sobre lo que hizo mal y cuál fue el comportamiento alternativo deseado, y el castigo debe ser justo, proporcional, impersonal, coherente con el tiempo e imparcial.

(iv) El castigo es eficaz para modificar el comportamiento si obliga a la persona a seleccionar un comportamiento deseable que se refuerce. Si esto no se hace, el comportamiento indeseable tiende a reaparecer, causando miedo y ansiedad en la persona que está siendo castigada.

(v) El castigo debe administrarse con cuidado para que no se convierta en una recompensa por un comportamiento indeseable.

Horarios de Refuerzo

El refuerzo no sigue siempre una respuesta particular. Un estudiante puede estudiar mucho para los exámenes cada vez, pero a veces obtiene altas calificaciones y otras veces no. Desde el punto de vista de la organización, un empleado que trabaja arduamente y que siempre hace su trabajo a tiempo, a veces recibe elogios y reconocimiento y otras veces puede ser ignorado. En muchos casos, la aparición o ausencia de refuerzo después de una determinada forma de comportamiento parece ser bastante aleatoria. Se rige por reglas definidas. Estas reglas se conocen como programas de refuerzo y ejercen poderosos efectos sobre el comportamiento.

Si bien es necesario saber qué tipo de refuerzo sería más efectivo en una situación particular, es igualmente importante examinar las diversas formas o programas de administración de estas técnicas de refuerzo. El patrón exacto y el tiempo de refuerzo tienen un impacto tremendo en el comportamiento resultante.

O. Aldis prescribió dos tipos de programas de refuerzo:

(i) Horario continuo

(ii) Horario parcial

De manera similar, Ferster y Skinner han descrito cuatro tipos de programas de refuerzo que son más aplicables a los refuerzos parciales.

Estas categorías se explican con más detalle a continuación:

1. Horario continuo:

Un programa de refuerzo continuo refuerza el comportamiento deseado cada vez que se administra y el refuerzo es inmediato. Este tipo de refuerzo aumenta el comportamiento positivo muy rápidamente, pero cuando se retira el refuerzo, el rendimiento disminuye rápidamente. Por ejemplo, un empleado tuvo problemas para llegar al trabajo a tiempo.

Cada vez que no llegaba tarde, su gerente lo felicitaba, intentaba llegar a tiempo, pero cada vez que el gerente dejaba de hacerlo, el empleado volvía a llegar tarde. Debido a que el comportamiento aprendido por la estrategia de refuerzo continuo tiende a no persistir cuando tal refuerzo se aplica con menos frecuencia o se detiene.

Esta estrategia es muy difícil de aplicar en el contexto de la organización porque no solo es posible reforzar el comportamiento en todo momento. Además, la observación continua del desempeño subordinado no conduce a una buena interacción.

2. Horario de Refuerzo Parcial:

En el programa de refuerzo parcial o intermitente, no se refuerza cada instancia del comportamiento deseable, pero el refuerzo se da con la frecuencia suficiente para hacer que el comportamiento merezca la pena repetirlo. Se cree que "el comportamiento tiende a ser persistente cuando se aprende en condiciones de refuerzo parcial y tardío". Aunque esta estrategia conduce a un aprendizaje lento, es más duradera en comparación con el refuerzo continuo. El programa de refuerzo parcial tiene una aplicación mucho más amplia en el comportamiento organizacional. Este factor es extremadamente relevante para la fuerte resistencia observada a los cambios en las actitudes, valores, normas y similares.

Un refuerzo parcial puede ser de una relación o tipo de intervalo. Los horarios de relación dependen de cuántas respuestas haga el sujeto. El individuo se refuerza después de dar un cierto número de tipos específicos de comportamiento. Los horarios de los intervalos dependen de cuánto tiempo ha pasado desde el último refuerzo. Con los horarios de intervalo, el individuo se refuerza en el primer comportamiento apropiado después de que haya transcurrido un tiempo en particular. Un refuerzo también puede ser clasificado como fijo o variable.

Las técnicas de refuerzo parcial se pueden colocar en cuatro categorías como se muestra en la siguiente figura:

a. Horario de intervalo fijo:

En este tipo de programa, debe transcurrir una cantidad de tiempo fija antes de que se administre un refuerzo. La variable crítica es el tiempo y se mantiene constante. Al comienzo de cualquier situación de aprendizaje, se requería un intervalo muy corto. Sin embargo, a medida que el aprendizaje progresa, el intervalo se puede estirar. El ejemplo más común son los salarios o sueldos que se pagan al final de un período de tiempo fijo. A la mayoría de los trabajadores se les paga por hora, semanalmente o mensualmente, por el tiempo dedicado a sus trabajos.

Las limitaciones de este horario son las siguientes:

(i) Los horarios de intervalos fijos producen un patrón de respuestas desigual. La tasa más alta de respuestas ocurre bastante cerca del momento en que ocurre el refuerzo.

(ii) Este método ofrece la menor motivación para el trabajo duro entre los trabajadores porque la paga está vinculada al intervalo de tiempo en lugar del rendimiento real. La ocurrencia de refuerzo depende en gran medida del paso del tiempo.

segundo. Horario de Intervalo Variable:

En el programa de intervalos variables, las recompensas se distribuyen en el tiempo para que los refuerzos sean impredecibles. En otras palabras, el refuerzo se administra en momentos aleatorios que el empleado no puede predecir. Pruebas de sorpresa en el aula son uno de los ejemplos. De manera similar, una serie de visitas no anunciadas programadas al azar por el personal de auditoría de la empresa es otro ejemplo de un programa de intervalos variables.

El calendario es un método ideal para administrar visitas de alabanza, promoción, reconocimiento y supervisión. Dado que el refuerzo se dispensa de forma impredecible, los programas variables generan una mayor tasa de respuestas y un rendimiento más estable y consistente. Por lo tanto, el rendimiento tiende a ser más alto y habría menos fluctuaciones que en el programa de intervalos fijos.

do. Horario de Ratio Fijo:

En un programa de proporción fija, después de dar un número fijo o constante de respuestas, se administra una recompensa o refuerzo. Si la programación es una proporción fija, se especifica el número exacto de respuestas. La recompensa está constantemente vinculada a la salida. Un ejemplo sería el sistema de pago por tarifa por pieza donde las recompensas son proporcionales a la cantidad de artículos producidos.

La administración de recompensas bajo un programa de proporción fija tiende a producir una tasa significativamente mayor de respuestas. La persona pronto determina que el refuerzo se basa en el número de respuestas y realiza las respuestas lo más rápido posible para recibir la recompensa. Además, esta alta tasa de respuesta será vigorosa y constante. El nivel de respuesta de los trabajadores será significativamente más alto que el obtenido en un programa de intervalos.

re. Horario de relación variable:

El programa de relación variable es similar al programa de proporción fija, excepto que la cantidad de respuestas requeridas antes de que se determine un refuerzo, no son fijas, sino que varían de una situación a otra. Sin embargo, el número de respuestas varía alrededor de un promedio predeterminado. Por lo tanto, podemos decir que según el programa, la recompensa varía en relación con el comportamiento de los individuos.

Los vendedores a comisión son ejemplos de individuos en un programa de refuerzo de este tipo. En algunas ocasiones, pueden realizar una venta después de solo dos llamadas a un cliente potencial. En otras ocasiones, es posible que necesiten hacer veinte o más llamadas para asegurar una venta. La recompensa, por lo tanto, es variable en relación con el número de llamadas exitosas que realiza el vendedor.

La evidencia de investigación revela que de todas las variaciones en los procedimientos de programación disponibles, este es el más poderoso para mantener el comportamiento. Este método provoca una rápida tasa de respuesta. El valor de la recompensa y su imprevisibilidad mantienen el comportamiento en un alto nivel de conveniencia. Por lo tanto, los jugadores compulsivos siguen apostando debido a la posibilidad aleatoria de ganar. Sin embargo, este método no debe utilizarse en una situación organizativa como el único plan para la programación de refuerzos.