Site hosted by Angelfire.com: Build your free website today!
Le conditionnement opérant ou l'apprentissage instrumental

"La société peut prédire mon destin,
mais je suis le seul à pouvoir l’influencer!"
Robbin, 1993



Le comportement appris comme celui que nous venons de voir (conditionnement classique) n’amène pas un animal à modifier son environnement.  En effet, le fait qu'un chien salive suite à l'audition d'un son ne change rien à son environnement.  À l'opposé, l'apprentissage instrumental, qui est une autre forme d'apprentissage par association, permet à l'animal d'être plus sensible à la structure causale des événements.  Cette forme d'apprentissage permet également à l'animal ou au sujet d'intervenir sur cette structure causale.  C'est pourquoi Doré (1988) précise que cette forme de conditionnement génère des comportements qui modifient, que ce soit dans l'environnement ou bien dans le laboratoire, certaines réalités du milieu de l'animal.

Comment l'animal participe-t-il à ces modifications?  Et bien, ces comportements sont suivis de l'apparition, du retrait ou de l'élimination de stimuli ou d'événements particuliers.  En d'autres termes, le retrait ou l'apparition de certains phénomènes modifient la probabilité qu'un comportement réapparaisse ou non.

Les phénomènes de base

Contrairement à la situation conditionnelle, dans le conditionnement opérant il n'y a pas à proprement parlé de réponse inconditionnelle (RI), de stimulus inconditionnel (SI) ou de stimulus conditionnel (SC) lorsque celui-ci exécute un comportement particulier (inné ou appris).

Bien qu'il n'y ait pas nécessairement la présence de réponses ou de stimuli tels que dans le conditionnement classique, il reste que l'animal n'est pas totalement isolé.  En effet, dans cette forme de conditionnement ou d'apprentissage, il y a des stimuli qui précèdent l'émission d'une réponse.  Ceux-ci ne déclenchent pas les réponses mais ils indiquent les circonstances dans lesquelles les réponses se produisent.  En d'autres termes, l'animal assiste à l'effet que produit son comportement dans certaines circonstances.  Dans ce cas-ci, nous parlerons de stimulus discriminatif, c'est-à-dire, de stimulus qui provoque une modification de la fréquence d'apparition d'une réponse particulière ou d'un comportement donné.  Ces réponses ou ces comportements instrumentaux ou opérants sont des actions ou des séquences d'actions qui possèdent une forme distincte et qui produisent un effet déterminé sur l'environnement.  En somme, l'intensité initiale ou le niveau opérant peut être nul avant l'apprentissage.  Donc, la probabilité ou la fréquence d'apparition d'une conduite dans un contexte précis peut être nulle à la base.

Il existe deux grandes catégories d'effet qui influencent la probabilité d'apparition ou de disparition d'une conduite: le renforcement et la punition.
 


Le renforcement

Nous assistons à un renforcement lorsque l'accomplissement d'une conduite est suivie de l'apparition ou de la disparition d'un stimulus ou d'un événement (agent de renforcement).  De plus, il y a renforcement lorsque cette situation augmente la probabilité que ce comportement soit répété.

Deux formes de renforcement existent.  La première est le renforcement positif.  Celui-ci consiste à encourager la poursuite d'un comportement ou d'une conduite, c'est-à-dire de faire en sorte que la probabilité qu'un comportement réapparaisse augmente en ajoutant un stimulus dans l'environnement.  La seconde, le renforcement négatif, consiste à l'élimination ou le retrait d'un stimulus suite à l'émission d'un comportement désiré.

- renforcement positif:

L'exemple suivant nous permettra de mieux saisir ce que signifie les deux éléments mentionnés dans la définition du renforcement positif.  Premièrement, puisqu'il s'agit de renforcement, il est impératif que l'on cherche à provoquer une augmentation de la probabilité qu'un comportement soit émis.  Dans ce cas-ci, la façon d'y parvenir sera en faisant apparaître un stimulus dans l'environnement de l'animal si ce dernier produit la conduite attendue.

Imaginons une souris dans un labyrinthe.  Cette souris devra en fin du conditionnement être capable d'atteindre la fin du labyrinthe.  Pour la motiver à avancer vers la fin du parcours, une petite quantité de nourriture l'attendra.  Cette nourriture, source de motivation, est un agent de renforcement positif.

- renforcement négatif

Dans le cas du renforcement négatif, l'objectif premier est le même c'est-à-dire, l'augmentation de la probabilité d'une conduite.  Imaginons, une autre souris que l'on dépose dans un labyrinthe comme celui de la figure 1.  Si celle-ci, n'a pas de source de motivation tel que la découverte de nourriture, elle n'apprendra pas à aller vers la fin (objectif visé) puisque rien ne l'y pousse.

 Dans cette forme de renforcement (négatif), c'est-à-dire d'un renforcement où nous enlevons un stimulus, il serait possible d'électrifier le plancher du labyrinthe de sorte que la souris ressentirait un léger choc électrique tant et aussi longtemps qu'elle n'aurait pas atteint la fin du labyrinthe.  C'est à ce moment qu'elle ne ressentirait plus la douleur.  Ainsi, l'atteinte de l'objectif par la souris enlèverait un stimulus déplaisant de son environnement parce qu'elle aurait exécuté une tâche désirée par l'expérimentateur.  Toutefois, vous conviendrez que la souris n'apprendra pas dès le premier essai où se trouve l'endroit de son nouvel environnement qui lui permet d'éviter le stimulus aversif.  C'est pour cela que nous parlons de l'augmentation de la probabilité d'apparition d'un comportement par la disparition d'un stimulus aversif et non un apprentissage spontané.

Renforcement primaires et secondaires

 Il existe plusieurs formes de renforcement (positif, négatif, primaire et secondaire).  Parmi celles qui nous intéressent nous retrouvons le renforcement primaire. Ce type de renforcement fait appel aux situations dans lesquelles les propriétés de l'agent de renforcement ne sont pas associées à un apprentissage, par exemple, la nourriture, la chaleur, etc.

Dans la deuxième forme, le renforcement secondaire, l'agent de renforcement est associé à un apprentissage quelconque acquis au cours du développement (la mère, les bonbons, etc.).  Il faut toutefois faire attention, le renforcement n'est pas nécessairement lié à un stimulus comme un bonbon mais il peut aussi l'être par une conduite (donner de l'affection, avoir le droit de jouer dans son bain).

Enfin, la conduite opérante ou instrumentale peut s'éteindre tout comme l'association S-R du conditionnement classique si celle-ci n'est pas suivie d'un renforcement.

Paramètres influençant la force du renforcement

Quatre paramètres vont influencer la force du renforcement: la quantité, la qualité, le délai et la dimension motivationnelle.

La quantité
Plus il y en a, plus un animal sera motivé à produire une réponse.  Une étude a démontré que plus il y avait de graines de moulée, dans une expérience où des poules affamées devaient se rendre jusqu'au bout d'un tunnel pour en avoir quelques une, plus elles étaient motivées.  Et ce, même si les morceaux étaient plus petits (coupés en quatre par exemple).  Donc, la quantité est une source de motivation, même si le poids, par exemple, n'est pas plus élevé.

La qualité
Une autre recherche a montré que les animaux sont sensibles à la qualité des aliments.  Plus un aliment est riche (p. ex. en concentration de glucose), plus il sera convoité par l'animal qui s'empressera vers cette source de nourriture.

Le délai
Tout comme nous l'avons vu dans le cas de la contiguïté temporelle, un stimulus conditionnel qui suit de trop loin la présentation du stimulus neutre ou inconditionnel ne donnera pas beaucoup de résultats quant à l'association.  Ici, c'est un peu le même principe.  En effet, plus nous tardons à donner le renforcement moins un animal fera la relation entre le comportement désiré et le renforcement de ce comportement.

La dimension motivationnelle
La dimension motivationnelle peut provenir de deux sources: la tendance ou l'incitation.  La tendance fait référence aux sources primaires de motivation.  Elle est donc non apprise, ce qui signifie que la tendance est l'expression psychologique d'un besoin physiologique.  La tendance n'affecte pas l'apprentissage, elle fournit seulement les conditions nécessaires à l'émission d'une réponse déjà connue.  Par exemple, un rat, dans un labyrinthe, court plus vite vers la nourriture lorsqu'il a très faim.

La dimension incitatrice se réfère aux sources secondaires de motivation de l'agent de renforcement.  Cette dimension fait donc appel à l'expérience passée de l'animal vis-à-vis le renforçateur.  Par conséquent, la quantité, le délai, etc. sont autant de variables qui peuvent modifier la force du renforcement en agissant sur le processus motivationnel.

En résumé:

"la tendance est un paramètre qui, dans une situation de renforcement positif, affecterait l'apprentissage et la performance de l'animal.  Par contre, la quantité et la qualité du renforçateur, ainsi que le délai du renforcement, induiraient des modifications du comportement qui seraient davantage le résultat d'un processus "motivationnel" que d'un processus d'apprentissage" (Doré, 1988, p. 206).
La punition

 Toutes les situations ou les stimuli, qui sont associés à la diminution de la probabilité d'émission d'un comportement, sont des agents de punitions.  Il en existe deux types.  Premièrement, la punition positive qui consiste à ajouter ou faire intervenir un stimulus au moment de l'émission d'une conduite non désirée.  Puis, il y a la punition négative qui consiste à retirer un stimulus déjà présent dans l'environnement afin de réduire la probabilité d'émission d'un comportement non désiré.

 La punition est principalement caractérisée par la relation qu'elle entretient entre la réponse et l'effet produit à court terme.  Malgré tout, la punition est assez efficace lorsqu'elle est associée de façon continue à la réponse pour réduire la probabilité d'émission de celle-ci.  Si elle est trop éloignée de la réponse en terme de nature elle peut toutefois perdre son efficacité et conduire à l'émission de comportements aberrants.

La punition positive
 

 Doré (1988) rapporte une expérience de punition positive qui met bien en lumière ce concept:

" Un rat affamé et préalablement conditionné à appuyer sur le levier est introduit dans la cage de Skinner1 .  Quand il exécute cette réponse, il ne reçoit plus une boulette de nourriture, mais un choc électrique dans les pattes.  Son comportement a donc un effet différent de celui qu'il avait auparavant.  Il ne fait plus apparaître un stimulus appétitif mais provoque l'apparition d'un stimulus aversif.  Dans une telle situation, le chercheur constate que la fréquence des pressions sur le levier diminue rapidement " p.185.


La punition négative
 

 Doré (1988) rapporte un exemple qui met cette fois-ci en plan la punition négative:

" Deux leviers sont mis à la disposition du rat.  Chaque fois que le voyant lumineux est allumé, la pression sur le levier A actionne le distributeur de nourriture, et l'animal reçoit une boulette.  Celui-ci a évidemment tendance à appuyer aussi sur le levier B mais, dans ce cas, la réponse est suivie d'une période de deux minutes au cours de laquelle le voyant est éteint, et la pression sur le levier A ne fournit plus de nourriture.  Le comportement en rapport avec le levier B a donc pour effet de produire la disparition du stimulus appétitif.  Au bout d'un certain temps, la fréquence de pressions sur B diminue et le rat finit par ne plus y toucher" p.185.


Tableau résumé des conditions nécessaires pour produire des renforcement positifs et négatifs de même que des punitions positives et négatives.


Apparition d'un stimulus Retrait d'un stimulus
Augmentation de la probabilité d'émission d'une conduite Renforcement positif Renforcement négatif
Diminution de la probabilité d'émission d'une conduite Punition positive Punition négative

Remise en question de l'efficacité d'utiliser le concept de motivation en se basant sur une grille d'analyse telle que le béhaviorisme

Pourquoi remettre en question l'utilité du béhaviorisme dans un domaine comme la motivation?  D'abord, parce qu'il est difficile de savoir ce que contient exactement la "boîte noire", c'est-à-dire l'organisme (O) de l'équation S-O-R (équation développée par Hull).

Ensuite, l'être humain se distingue de l'animal par le fait qu'il est l'être le plus domestiqué qu'il existe à notre connaissance.  C'est un peu cela qui conduit à l'interrogation implicite lorsque l’on émet la question suivante : si un rat n'arrête pas de boire de "l'eau électrique" pourquoi l'humain réussirait-il à s'auto-conditionner?   D'autant plus que le choix de la douleur (produit causant le diarrhée ou choc électrique) dans le cas du rat influence grandement les résultats obtenus.  Mais chez l'être humain y a-t-il une douleur assez forte ou suffisamment chargée d’une valeur affective pour influencer notre comportement?  Pour des chercheurs ou cliniciens, oui, mais les résultats ne sont guère encourageant.

Commentaires sur l’application aux comportements humains

 Des auteurs comme Anthony Robbins (1993) qui suggèrent d'associer de la douleur à des comportements indésirables s'inspirent du conditionnement classique.  Revenons au concept d'extinction.  Celui-ci renseigne sur le fait que si le couplage entre le stimulus inconditionnel (SI) et le stimulus conditionnel (SC) n'est plus là, l'association disparaîtra, pas totalement certes, mais elle disparaîtra.  Alors que dire des propos suivants:

"quand on associe une grande souffrance à un comportement ou à un modèle émotionnel, on évite ce comportement ou ce modèle à tout prix.  On peut utiliser ce principe pour maîtriser les forces de la souffrance et du plaisir afin de modifier pratiquement tous les aspects de sa vie" (p.65).


Ce qui semble possible de dire dans un premier temps c'est que tout cela semble facile mais avez vous déjà entendu dire qu'un rat se donne des chocs électriques pour se motiver et arriver plus rapidement à la fin de son parcours?  Une pareil utilisation des principes de base de la motivation dans un contexte de conditionnement classique (associer de la douleur à ce que vous voulez changer et du plaisir à ce que vous voulez obtenir) est quelque peu grossière.

D'abord, cet auteur rapporte que :

"chaque fois que nous nous trouvons dans un état affectif intense, que nous éprouvons de violentes sensations de douleur ou de plaisir, tout événement unique simultané créera un lien neurologique dans notre cerveau" (p. 69).
Autrement dit, devant la reproduction d'un événement "unique", comme le mentionne Robbins (1993), nous associons un état affectif particulier.  Pour mettre en valeur ses propos, il nous pose la question suivante: " Quel lien y a-t-il entre Pavlov et Pepsi?" (p. 70).  Et bien, pour répondre à cette question Robbins se penche sur un commercial produit par Pepsi où on y voyait M. Jackson (produisant une sensation agréable!) puis une bouteille de Pepsi (comportement à adopter = boire cette boisson).  Cet exemple semble à première vue être tout à fait logique.

Ensuite, Robbins mentionne que les publicitaires cherchent à produire un état de plaisir chez le consommateur ce qui l'incitera à surmonter ses peurs de la douleur alors qu'il écrit peu après que "la douleur est un puissant motivateur et qu'elle influence le comportement des gens" (p.72).  Avant de poursuivre davantage le commentaire sur le fond, il est possible de constater à travers cet exemple que la forme utilisée consiste à écrire des contradictions de sorte que tout le monde y trouve son compte.

Enfin, l'auteur semble vouloir se racheter en suggérant que c'est nous qui devrions maîtriser nos actes.  Cependant, ses exemples sur la publicité semblent démontrer le contraire.  En outre, Robbins, dit un peu plus loin que: "associez une douleur intense aux comportements que nous voulons abandonner, et nous ne songerons même plus à les adopter [...] Puis associez simplement le plaisir au nouveau comportement que vous désirez adopter" (p. 73).  Que de commandements pour une personne qui suggère que NOUS devrions maîtriser nos actes.

Mais de quel douleur parle-t-il, car c'est très important, du moins chez les rats.  Rappelez-vous l'effet Garcia!  Si un rat n'arrête pas de consommer une eau sucrée associée à un choc électrique quel type de douleur peut nous amener à changer instantanément?  Donc, la douleur est un puissant motivateur mais dans certaines conditions et pas dans d'autres.  De plus, comment expliquer qu'un animal peut confondre un stimulus conditionnel (SC, cloche) et un stimulus inconditionnel (SI, nourriture) à un point tel, qu'il peut ingérer la cloche (SC)?  Enfin, pour quelqu'un qui suggère de devenir maître de nos actes, il ne se gêne pas pour commander (associez) les conduites que les autres doivent adopter.

Certains considèrent que la motivation est un processus qui conduit un organisme à émettre des comportements désirés ou à ne pas émettre des comportements non désirés en renforçant ou en punissant ceux-ci.  Cette vision est le propre du conditionnement opérant.

Retour à la page d'acceuil