Как пользоваться подкреплением — психология

Клуб Здорового Сознания

Подкрепление — обязательное условие любого . Главное правило: «Что подкрепляем — то и получаем».

Как пользоваться подкреплением

Принципы использования подкрепления положительного и отрицательного одинаковы.

  • Моментальность или опережение действия

То есть в идеале подкреплять нужно не действия, а уже момент принятия решения об этих действиях и затем само действие. Так шанс, что нежелательное поведение вообще осуществится предельно мал.

Однако давать подкрепление сильно заранее — тоже не стоит, и так, как предугадать действия не всегда возможно — то лучше подкрепление использовать «здесь и сейчас», то есть в момент, как нужное действие совершилось.

Для этого дрессировщики животных часто используют , который заменяет подкрепление моментальным звуком (щелчком).

  • Чем подкрепление меньше — тем лучше

Подкрепление — всегда маленькое: фраза, слово, взгляд. Большое подкрепление отвлекает от работы, и может быть получено только в честь какого-то выдающегося события. Чем меньше подкрепление — тем лучше.

Опять же, применительно к лошадям. Учимся поднимать ногу вот уже месяц.

И наконец, лошадь поднимает и удерживает ногу на весу в течении 5 секунд! Все, супер! Лошадь получает яблоко и окончание занятия, ее чистят, к ней много внимания, ее все любят — одним словом много положительных подкреплений. Но.

Это только единственный раз, тот самый, когда она поняла, что делать. В следующее занятие в ответ на поднятую ногу лошадь получит обычную похвалу: щелчок кликера или лакомство и «Хорошо!»

  • Чем труднее работа — тем больше подкрепление

Подкрепление разное для каждого действия. Чем труднее действие — тем больше подкрепление. Здесь еще важно осознание самого обучаемого: для кого-то написать статью — это так, фигня, а для кого-то трудная задача. Соответственно соизмерять подкрепление нужно не только со своим представлением о трудности работы, но и с ожиданием обучаемого.'

Для одной лошади — подвиг быть рядом с человеком и не бегать от него, а для другой — это естественная норма. Поощрять таких лошадей стоит по-разному: одну сильно и много, а вторую — слегка и достаточно равнодушно.

  • Сформированный навык — это норма.

А значит ни о каком подкреплении речи уже не идет. Единственное, чтобы поддержать нужный навык иногда полезно поощрять спонтанно за выполненное действие. '

Вернемся к лошадям. Учимся останавливаться по команде человека. Первая остановка — это хорошо, это здорово, это похвала. Через два дня лошадь делает это моментально сама. За это больше не хвалим — это норма. Не бежать впереди человека — норма. Теперь хвалим редко, спонтанно, например 1 раз за занятие, только для того, чтобы поддерживать навык.

Источник: https://psy-space.ru/?page=kak-polzovatsya-podkrepleniem

Что такое подкрепление?

Автор Татьяна в 02/04/2015. Опубликовано Бихевиоризм

Подкрепление — термин, используемый в оперантном обусловливании для обозначения всего, что увеличивает вероятность повторения реакции. Обратите внимание: подкрепление определяется тем, какое воздействие оно имеет на поведение — ​​например, увеличивает или усиливает его отдельные проявления.

Подкрепление может включать в себя похвалу — к примеру, сразу после того, как ребёнок убирает свои игрушки. Подкрепляя желаемое поведение похвалой, мама может добиться того, что ребёнок снова и снова выполнять то же действие.

Виды подкрепления

Подкрепление может включать в себя всё, что увеличивает вероятность повторения поведения — в том числе стимулы, сами события и ситуации. Например, на уроке подкрепление может включать в себя оценку, избавление от нежелательного задания, специальные награды, сладости, дополнительное время для отдыха и весёлые игры.

Существует два основных типа подкрепления:

  • Первичное подкрепление (которое иногда называют ещё безусловным), происходит естественным образом, его применению не нужно учиться. Первичное подкрепление зачастую имеет эволюционную основу и помогает в выживании вида. К примерам первичных подкреплений относят пищу, воздух, сон, воду и секс. Генотип и опыт также могут играть роль в том, как именно подкрепление воздействует на поведение. Один человек может быть чувствительным к определённому типу подкрепления — например, пище, — тогда как на другого человека пища как подкрепление не повлияет вовсе.
  • Вторичное подкрепление (известное также как условное подкрепление) включает в себя стимулы, которые стали подкрепляющими в паре с другими стимулами. Например, при обучении собаки, похвала и ласка могут быть использованы в качестве первичного подкрепления. Звук кликера может связываться с похвалой и лаской до тех пор, пока он сам не начинает работать в качестве вторичного подкрепления.

При оперантном обусловливании существует два вида подкрепления:

  • положительное — подкрепление, включающее в себя появление чего-то, что способно увеличить вероятность повторения поведения (угостив ребёнка конфетой после того, как он уберётся в своей комнате, мама подкрепит желание малыша поддерживать чистоту).
  • отрицательное — подкрепление, которое включает в себя удаление чего-то и увеличивает вероятность проявления определённого поведения (к примеру отмена контрольной в случае, если ученики всю неделю будут выполнять и сдавать домашнюю работу).

Сила реакции

То, как и когда происходит подкрепление, может повлиять на силу реакции. Эта сила представляет собой интенсивность, частоту, продолжительность и точность реакции после подкрепления. В ситуации, когда подкрепление контролируется, — например, в процессе обучения, — сроки предъявления подкрепления можно изменять по своему усмотрению.

На ранних стадиях обучения часто используется непрерывное подкрепление — в этом случае подкрепление предъявляется каждый раз, когда происходит желаемое поведение. Как только поведение было закреплено, можно переходить к частичному подкреплению.

Выделяют четыре основных режима частичного подкрепления:

  • режим подкрепления с фиксированной пропорцией: подкрепление поведения совершается после определённого количества реакций;
  • режим подкрепления с фиксированным интервалом: подкрепление поведения происходит после определённого периода;
  • режим подкрепления с изменяющейся пропорцией: подкрепление поведения происходит после неопределённого числа реакций;
  • режим подкрепления с изменяющимся интервалом: подкрепление поведения предъявляется после неустановленного периода времени.

Источник: http://aboutyourself.ru/behaviorism/chto-takoe-podkreplenie.html

Систематическое использование подкрепления — Популярная Психология

Систематические программы, часто называемые управлением случайностью и заключающиеся в управлении подкреплением с целью подавления нежелательного поведения или проявления и сохранения эффективного поведения, позволяют достигнуть значительного успеха, особенно в лечебных заведениях.

Подавление проблематичного поведения сводится к тому, чтобы убрать положительные стимулы, подкрепляющие его, в тех случаях, когда их удается идентифицировать.

Иногда идентификация не вызывает никаких затруднений, как, например, в приведенном ниже случае.

Иногда она требует чрезвычайно тщательного наблюдения и анализа, которые позволяют терапевту узнать, что именно поддерживает неадаптивное поведение.

Разбор случая: поведенческая терапия для любителя пускать пыль в глаза. Родители привели Билли, 6-летнего первоклассника, в психологическую клинику, потому что он ненавидел школу, а его учительница сказала им, что демонстративное поведение их ребенка разлагает класс и способствует изоляции мальчика.

Наблюдения за Билли и его родителями во время первого интервью ясно показали, что и мать и отец с восхищением и без всякой критики относились ко всему, что делал их сын.

После проведения дальнейшей оценки была предложена программа, включающая в себя три фазы: 1) родителям показали различие между демонстративным и подобающим поведением Билли; 2) им предлагалось выказывать отсутствие внимания и интереса в случае демонстрации их сыном неадаптивного поведения, но одобрять подобающее его поведение, и 3) учительнице Билли посоветовали игнорировать его, насколько это возможно, когда он вел себя демонстративно, и обращать свое внимание на тех детей, которые вели себя подобающим образом.

Несмотря на то что в течение нескольких первых дней осуществления программы демонстративное поведение Билли в классе усилилось, в дальнейшем оно резко пошло на убыль, когда не стало получать подкрепления со стороны родителей и учительницы. По мере ослабления неадаптивного поведения мальчика одноклассники стали лучше относиться к нему, что, в свою очередь, помогло подкрепить его положительные поведенческие паттерны и изменило негативное отношение ребенка к школе.

В случае Билли нежелательное поведение было изменено посредством уничтожения подкрепляющих его стимулов. В других случаях терапия необходима для того, чтобы установить желаемое поведение. При этом чаще всего используются следующие техники: формирование ответа, жетонная система и заключение контрактов о поведении.

Формирование ответа.

При формировании ответа часто используют положительное подкрепление, то есть постепенно приближаются к такой ответной реакции, которая вызывает активное сопротивление или изначально отсутствует в репертуаре поведения индивида. Такая техника широко применяется в работе с проблемным детским поведением. Хорошей ее иллюстрацией может быть следующее классическое исследование.

Разбор случая: формирование поведения у аутичного мальчика. У 3-летнего аутич — ного мальчика отсутствовало нормальное вербальное и социальное поведение.

Он не умел правильно есть, ему были свойственно саморазрушительное поведение и неуправляемые вспышки ярости. Незадолго до этого он перенес операцию по поводу катаракты и должен был носить очки для восстановления нормального зрения.

Однако он отказывался делать это и разбивал одну пару очков за другой.

Для решения проблемы с очками терапевт применил технику формирования поведения. В начале мальчика научили ожидать получения кусочка сластей или фруктов при звуке игрушечного звонка. В дальнейшем перешли к обучению с оправами от очков.

Сначала мальчика поощряли конфетами или фруктами, когда он подбирал оправу, затем, — когда держал ее; и далее — поэтапно: когда носил в руках, подносил к глазам, прикладывал под любым углом к голове.

Благодаря последовательному приближению к заданной цели мальчик, в конце концов, научился носить очки с корректирующими линзами в течение 12 часов в сутки.

Жетонная система. Одобрение и другие неосязаемые положительные стимулы могут оказаться неэффективными, если программы модификации поведения используются при тяжелых неадаптивных поведенческих паттернах.

В таких случаях подобающее поведение может вознаграждаться вещественными положительными стимулами в виде каких-либо символов, которые в дальнейшем можно обменять на желаемый предмет или определенные привилегии.

В ходе работы со стационарными больными, страдающими шизофренией, было, например, установлено, что большинству пациентов посещение больничного магазина, прослушивание музыкальных записей и просмотр кино казались привлекательными занятиями. В результате данные виды деятельности были выбраны терапевтом в качестве положительных стимулов за социально приемлемое поведение.

Чтобы получить разрешение на любое из этих занятий, клиент должен был заработать определенное количество жетонов, демонстрируя в палате соответствующее поведение. В главе 18 мы опишем еще одну программу по «экономике жетонов», оказавшуюся чрезвычайно успешной и используемой при работе с хроническими клиентами, постоянно находящимися в больнице и считавшимися не поддающимися лечению.

Жетонную систему использовали с целью формирования адаптивного поведения, варьирующего от элементарных реакций, например соблюдения основных правил в процессе еды и уборки постели, до ежедневного выполнения ответственной работы в больнице.

В последнем случае экономика жетонов напоминает внешний мир, где человеку платят за сделанную работу жетонами, которые позднее можно обменять на желаемые предметы и занятия.

Использование жетонов в качестве положительных стимулов за надлежащее поведение имеет ряд несомненных преимуществ: 1) количество заработанных жетонов непосредственно зависит от количества проявлений желательного поведения; 2) жетоны, как и деньги во внешнем мире, можно сделать единым общим платежным средством, то есть на них можно что-либо «купить», они не являются предметом потребления, сохраняют свое побуждающее значение; 3) жетоны помогают сократить временной разрыв между надлежащим исполнением и подкреплением; 4) количество заработанных жетонов и способ их «траты» зависят главным образом от самого клиента и 5) жетоны служат своего рода мостом между больничным окружением и требованиями, системой оплаты, существующими во внешнем мире.

Конечной целью «экономики жетонов», как и других программ, использующих внешнее подкрепление, является не только получение желаемых ответных реакций, но и доведение их до того уровня, когда выработанные адаптивные действия будут подкреплять сами себя; таким образом будет обеспечено естественное, а не искусственное вознаграждение за желательное поведение. Так, для того чтобы помочь детям преодолеть трудности чтения, в самом начале можно использовать внешнее подкрепление. В то же время предполагается, что, как только ребенок научится читать, данный навык обеспечит внутреннее подкрепление, поскольку малыш сможет наслаждаться самим процессом чтения.

Читайте также:  Якорь, якорение - психология

Эффективность политики жетонов была наглядно продемонстрирована на примере пациентов, страдающих хронической шизофренией или задержкой умственного развития, а также на детях, однако в последнее время ее применяют не так уж часто.

В некоторой степени это обусловлено сокращением бюджета, выделяемого на обучение медицинского персонала больниц, необходимого для осуществления таких программ. «Экономику жетонов» плохо понимают неспециалисты, которые считают ее негуманной и грубо манипулятивной.

Если эти люди «больны», рассуждают обыватели, то им следует получать медицинскую помощь, а не вознаграждение за «осуществление каких-либо действий». К сожалению, такое мышление превращает хронических больных в социальных инвалидов.

Заключение контракта о поведении. Техника, называемая поведенческим контрактом, используется при некоторых типах психотерапии и поведенческой терапии с целью идентификации поведения, подлежащего изменению, и повышения вероятности того, что эти изменения произойдут и сохранятся в дальнейшем.

Согласно определению, контрактом называется соглашение двух или более сторон, в котором фиксируются взаимные обязанности по отношению друг к другу.

В соглашении, часто в письменной форме, указывается необходимость изменения поведения клиента, равно как и ответственность другой стороны за то, что он получит, например, ощутимую награду, привилегии или внимание терапевта в случае выполнения указанных условий.

Специалисты в области поведенческой терапии на начальном этапе работы с клиентом нередко делают основной упор на заключении такого контракта, что помогает рассматривать лечение как совместное предприятие, за которое обе стороны несут ответственность.

Контракты часто применяют в процессе поведенческой терапии пар, когда официально оговариваются, нередко в письменной форме, принципы, управляющие обменом «подкрепления» между страдающими сторонами. Например, муж может согласиться ходить в новый ресторан раз в месяц в обмен на согласие жены говорить об учебе детей не чаще трех раз в неделю. Исследования показали, что этот метод приводит к желаемому результату.

Заключение поведенческого контракта может способствовать успеху терапии в силу ряда причин: 1) появляется возможность четко структурировать отношения в процессе лечения, дать клиенту ясное понимание роли каждой из сторон; 2) подчеркивается ответственность самого клиента и вводится система вознаграждений за изменение поведения; 3) указаны ограничения, связанные с лечением, то есть продолжительность сессий и то, чему они посвящены; 4) по соглашению сторон, некоторые формы поведения могут быть исключены из сферы внимания терапии, что позволяет определить соответствующее содержание терапевтических сессий; 5) легче определить задачи лечения и 6) в программу можно включить критерии, определяющие степень успешности достижения поставленных целей.

В некоторых случаях возможно заключение контракта между трудным ребенком и учителем. В соответствии с контрактом ребенок сохраняет или получает определенные привилегии до тех пор, пока ведет себя согласно договоренности.

Обычно директор школы также участвует в заключении контракта. Это позволяет проводить определенные действия, выходящие за пределы возможностей учителя, например удалять ребенка из класса за дурное поведение.

Мы не знаем терапевтов, которые верили бы в то, что подобные официальные терапевтические контракты как способ регуляции межличностного поведения характеризовались долгосрочностью.

Скорее, как и в случае аверсивной терапии, с помощью контрактов прерывают на некоторое время самоподдерживающееся дисфункциональное поведение, что позволяет выработать новые ответные реакции, которые могут оказаться более адаптивными и приемлемыми.

Лечение с помощью биологической обратной связи. Долгое время широко бытовало мнение о том, что невозможно произвольно контролировать такие физиологические процессы, как число сердечных сокращений, электрическое сопротивление кожи и показатели артериального давления. Однако в начале 1960-х годов эти взгляды претерпели изменения.

Большое количество исследований, проведенных с помощью чувствительных электронных приборов, позволяющих точно измерять физиологические реакции, показало, что многие процессы, ранее считавшиеся непроизвольными, на самом деле поддаются изменениям посредством опе — рантного научения.

Так, Киммель продемонстрировал, что электрическое сопротивление кожи, отражающее активность потовых желез, регулируется с помощью оперантного научения.

Давно признается значение нервной системы в развитии анормального поведения. Например, ее активация является важным фактором, вызывающим состояние тревоги.

Многие исследователи применяли методы, разработанные в процессе выработки условных рефлексов, для модификации каких-либо состояний, реакций организма, например с целью изменения сердечного ритма пациентов, жалующихся на его нерегулярность, излечения заикания, используя информацию об электрическом потенциале мускулатуры речевого аппарата, и уменьшения боли в пояснице или хронических головных болей.

Метод лечения, заключающийся в том, что человека учат влиять на свои физиологические процессы, называется биологической обратной связью.

Обычно в процессе лечения методом биологической обратной связи выделяют несколько этапов: 1) мониторинг физиологической реакции, которая подлежит модификации; 2) преобразование информации в визуальный или аудиосигнал и 3) обеспечение способа получения информации об обратной связи, который наиболее быстро указывал бы субъекту на то, что желаемое изменение произошло. При наличии обратной связи субъект может попытаться уменьшить свою эмоциональность, точно так же, как в случае понижения температуры кожи. По большей части обратная связь направлена на то, чтобы снизить реактивность какой-либо системы органов, иннервируемой нервной системой, обычным физиологическим компонентом ответной реакции тревоги.

Подавляющее большинство специалистов согласны с тем, что с помощью научения в какой-то степени можно регулировать многие физиологические процессы, однако применение метода обратной связи для изменения аномального поведения дает противоречивые результаты.

Многочисленные, но тщательно контролируемые исследования, демонстрирующие клиническое применение метода обратной связи, зачастую не согласуются с предварительным предположением о значительном улучшении состояния клиента в результате его использования.

Эффект метода биологической обратной связи в целом оказывается незначительным; кроме того, его применение невозможно вне лабораторных условий, где отсутствует необходимая аппаратура. Тем не менее существуют доказательства того, что жертвы тяжелых головных болей иногда хорошо реагируют на применение метода обратной связи.

В одном из исследований Флор и Бирбаумер продемонстрировали впечатляющий эффект электромиографической биологической обратной связи на контроль боли в скелетных мышцах спины и челюсти, который сохранялся и через 24 месяца после эксперимента.

К сожалению, в этом, последнем, исследовании авторы не сравнивали полученные результаты с результатами группы, прошедшей обучение релаксации. В работах, где проводилось такое сравнение, обычно не удавалось продемонстрировать, что биологическая обратная связь более эффективна, чем релаксация.

Это заставляет предположить, что такая связь представляет собой всего лишь более тщательно разработанный и дорогостоящий способ научения клиентов расслаблению.

Обучение релаксации до сих пор остается надежным способом лечения как болезненных физических состояний, так и психических расстройств, существенный компонент которых составляет тревога.

В настоящее время еще рано делать какие-либо окончательные выводы, однако необходимо отметить, что, как и в случае других методов лечения, можно ожидать, что применение биологической обратной связи окажется необычайно эффективным для некоторой части клиентов.

Источник: http://MyPsychologic.ru/sistematicheskoe-ispolzovanie-podkrepleniya/

Типы и режимы подкреплений

Одним из примечательных идей скиннеровской теории обусловливания является понятие подкрепления.

Подкрепление (punishment) — это любое событие (стимул), которое следует за реакцией и увеличивает вероятность ее появления.

Когда голубь, например, тычет клювом в диск, то это поведение является оперантным, и если оно сопровождается подкреплением, таким, как еда, то вероятность клевания диска возрастает.

В соответствии с этим взглядом, подкреплениие усиливает то поведение, за которым следует, и нет необходимости прибегать к биологическим объяснениям, чтобы определить, почему так происходит.

Очень важным является то, что стимулы, которые изначально не являются подкреплениями, могут превратиться в таковые благодаря ассоциированию с другими подкреплениями. Некоторые стимулы, такие, как деньги, становятся генерализованным подкреплением, поскольку они обеспечивают доступ ко множеству других видов подкрепления.

Подкрепление определяется через его воздействие на поведение — а именно через рост вероятности поведенческой реакции. Часто трудно точно определить, что может послужить таким подкреплением, так как оно варьирует от индивида к индивиду, от организма к организму.

Теоретики, занимающиеся научением, признавали два типа подкрепления:. — Первичное подкрепление — это любое событие или объект, сами по себе обладающие подкрепляющими свойствами.

Таким образом, они не требуют предварительной ассоциации с другими подкреплениями, чтобы удовлетворить биологическую потребность. Первичные подкрепляющие стимулы для людей — это пища, вода, физический комфорт и секс.

Их ценностное значение для организма не зависит от научения.

— Вторичное, или усвоеное подкрепление, с другой стороны, -это любое событие или объект, которые приобретают свойство осуществлять подкрепление посредством тесной ассоциации с первичным подкреплением, обусловленным прошлым опытом организма. Примерами общих вторичных подкрепляющих стимулов у людей являются деньги, внимание, привязанности и хорошие оценки.

Генерализация и различение стимулов. Особенностью подкрепления является то, что поведение, усиленное в одной ситуации, весьма вероятно повторится, когда организм столкнется с другими ситуациями, напоминающими ее.

Если бы это было не так, то поведенческий репертуар человека был бы так сильно ограничен и хаотичен, что мы бы, возможно, проснувшись утром, долго размышляли над тем, как реагировать должным образом на каждую новую ситуацию. В теории Скиннера тенденция подкрепленного поведения распространяться на множество подобных положений называется генерализацией стимула.

Например, деньги не могут удовлетворить какое-либо из наших первичных влечений, однако благодаря системе культурного обмена деньги являются мощным и сильным фактором для получения множества удовольствий. Иные виды генерализованных условных подкрепляющих стимулов — это лесть, похвала привязанности и подчинение себе других.

Эти так называемые социальные подкрепляющие стимулы (включающие в себя поведение других людей) часто действуют очень сложно и едва уловимо, но они существенны для нашего поведения в разнообразных ситуациях. Социальное одобрение — это еще более сильный генерализованный условный стимул.

Хотя способность обобщать реакции — важный аспект многих наших повседневных социальных интеракций, все же очевидно, что при адаптивном поведении нужно обладать способностью делать различия в разных ситуациях.

Различение стимула, составная часть обобщения, — это процесс научения реагировать адекватным образом в различных ситуациях окружения.

Способность к различению приобретается через подкрепление реакций в присутствии одних стимулов и неподкрепление их в присутствии других стимулов. Различительные стимулы таким образом дают возможность предвидеть вероятные результаты, связанные с изъявлением особой оперантной реакции в различных социальных ситуациях.

Соответственно, индивидуальные вариации различительной способности зависят от уникального прошлого опыта различных подкреплений.

Скиннер предположил, что здоровое личностное развитие происходит в результате взаимодействия генерализирующей и различительной способностей, с помощью которых мы регулируем наше поведение так, чтобы максимизировать позитивное подкрепление и минимизировать наказание.

Режимы подкрепления

Суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение, неподкрепленное, или наказуемое, имеет тенденцию не повторяться или подавляться. Следовательно, концепция подкрепления играет ключевую роль в теории Скиннера.

Поведение понятно, если его можно контролировать, внося определенные изменения в условия среды. Понять поведение — значит управлять им. Управление поведением осуществляется через выбор типа реакции, которую необходимо подкрепить, и определение степени вероятности ее повторного появления.

Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления — правило, устанавливающее вероятность, с которой подкрепление будет происходить.

Режим подкрепления можно построить, задавая определенный временной интервал или определенный интервал реакций.

Читайте также:  Развитие заботливости - психология

Самым простым правилом является предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию.

Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию.

В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным.

В случае если задается интервал реакций, т.е. определенное соотношение подкреплений и реакций, подкрепления появляются после того, как выполнено определенное число реакций (например, нажатий на рычаг или на ключ). Таким образом, подкрепления не обязательно следуют после каждого ответа, а могут подаваться лишь время от времени.

Более того, подкрепления могут подаваться в регулярном или фиксированном режиме — всегда через определенный интервал времени или после определенного количества реакций, либо их можно подавать в переменном режиме — то через одну минуту, то через две, то после пары реакций, то после серии реакций.

Каждая схема, или режим подкрепления, как правило, стабилизирует поведение по-разному.

Скиннер тщательно изучал, как режим прерывистого, или частичного, подкрепления влияет на оперантное поведение. Еыделяют следующие параметры подачи подкреплений: — подкрепление может иметь место только после того, как истек определенный или случайный временной интервал с момента предыдущего подкрепления (так называемый режим временного подкрепления),

— подкрепление может иметь место только после того, как с момента подкрепления было получено определенное или случайное количество реакций (режим пропорционального подкрепления).

В соответствии с этими двумя параметрами выделяют четыре основных режима подкрепления:
— Режим подкрепления с постоянным соотношением (ПС). В данном режиме организм подкрепляется по наличию заранее определенного или «постоянного» числа соответствующих реакций.

Этот режим является всеобщим в повседневной жизни и ему принадлежит значительная роль в контроле над поведением.

Во многих сферах занятости сотрудникам платят отчасти или даже исключительно в соответствии с количеством единиц, которые они производят или продают. В промышленности эта система известна как плата за единицу продукции.

Режим ПС обычно устанавливает чрезвычайно высокий оперантный уровень, так как чем чаще организм реагирует, тем большее подкрепление он получает.

Режим подкрепления с постоянным интервалом (ПИ). В режиме подкрепления с постоянным интервалом организм подкрепляется после того, как твердо установленный или «постоянный» временной интервал проходит с момента предыдущего подкрепления.

На уровне человека режим ПИ действителен при выплате зарплаты за работу, выполненную за час, неделю или месяц. Подобно этому, еженедельная выдача денег ребенку на карманные расходы образует ПИ форму подкрепления. Университеты обычно работают в соответствии с временным режимом ПИ.

Экзамены устанавливаются на регулярной основе и отчеты об академической успеваемости издаются в установленные сроки. Любопытно, что режим ПИ дает низкую скорость реагирования сразу после того, как получено подкрепление — феномен, названный паузой после подкрепления.

Это показательно для студентов, испытывающих трудности при обучении в середине семестра (предполагается, что они сдали экзамен хорошо), так как следующий экзамен будет еще нескоро. Они буквально делают перерыв в обучении.

Режим подкрепления с вариативным соотношением (ВС). В этом режиме организм подкрепляется на основе какого-то в среднем предопределенного числа реакций.

Возможно, наиболее драматической иллюстрацией поведения человека, находящегося под контролем режима ВС, является захватывающая азартная игра. Рассмотрим действия человека у игрального автомата, где нужно опускать монетку или специальной рукояткой вытягивать приз.

Эти аппараты запрограммированы таким образом, что подкрепление (деньги) распределяется в соответствии с числом попыток, за которые человек платит, чтобы управлять рукояткой.

Однако выигрыш непредсказуем, непостоянен и редко позволяет получать свыше того, что вложил игрок. Это объясняет тот факт, почему владельцы казино получают значительно больше подкреплений, чем их постоянные клиенты.

Далее, угасание поведения, приобретенного в соответствии с режимом ВС, происходит очень медленно, так как организм точно не знает, когда будет следующее подкрепление.

Таким образом, игрок принуждается опускать монеты в прорезь автомата, несмотря на ничтожный выигрыш (или даже проигрыш), в полной уверенности, что в следующий раз он «сорвет куш».

Такая настойчивость типична для поведения, вызванного режимом ВС.

Режим подкрепления с вариативный интервалом (ВИ). В этом режиме организм получает подкрепление после того, как проходит неопределенный временной интервал. Подобно режиму ПИ, подкрепление при этом условии зависит от времени. Однако время между подкреплениями по режиму ВИ варьирует вокруг какой-то средней величины, а не является точно установленным.

Как правило, скорость реагирования при режиме ВИ является прямой функцией примененной длины интервала: короткие интервалы порождают высокую скорость, а длинные интервалы порождают низкую скорость. Также при подкреплении в режиме ВИ организм стремится установить постоянную скорость реагирования, и при отсутствии подкрепления реакции угасают медленно.

В конечном итоге организм не может точно предвидеть, когда будет следующее подкрепление.

В повседневной жизни режим ВИ нечасто встречается, хотя несколько его вариантов можно наблюдать. Родитель, например, может хвалить поведение ребенка довольно произвольно, рассчитывая, что ребенок будет продолжать вести себя соответствующим образом и в неподкрепленные интервалы времени.

Подобно этому, профессора, которые дают «неожиданные» контрольные работы, частота которых варьирует от одной в три дня до одной в три недели, в среднем одна в две недели, используют режим ВИ. При этих условиях от студентов можно ожидать сохранения относительно высокого уровня прилежания, так как они никогда не знают, в какой момент будет следующая контрольная работа.

Как правило, режим ВИ порождает более высокую скорость реагирования и большую сопротивляемость угасанию, чем режим ПИ.

Виды подкрепления

Как отмечалось ранее, под подкреплением понимается какое-либо действие, призванное усилить определенную реакцию.

Хотя оперантное обусловливание опирается в первую очередь на использование подкрепления с положительной валентностью, основанных на приближении организма к, такого, как пища, деньги или похвала, последователи Скиннера подчеркивают также важность подкреплений, основанных на бегстве организма от, или на избегании им отвращающих (неприятных) стимулов. В таких случаях реакции подкрепляются устранением неприятных стимулов или возможностью их избежать, а не появлением приятных стимулов. Во всех этих случаях результатом должно быть сохранение или усиление реакции. В связи с этим различают два вида подкреплений: — Позитивное подкрепление — это приятный стимул, который следуя за желательной реакцией, усиливает ее или поддерживает на том же уровне, т.е. повышает вероятность ее повторения.

— Негативное подкрепление — это неприятный стимул, устранение которого усиливает желательную реакцию.

Вместе с тем существует и множество самих способов подкрепления. К наиболее распространенным относятся поощрение (предъявление приятных стимулов) и наказание (предъявление неприятных стимулов).

Как поощрение, так и наказание могут выполняться двумя способами, это зависит от того, что следует за реакцией: предъявление или устранение приятного или неприятного стимула. Подкрепление усиливает реакцию; наказание — ослабляет ее.

Таким образом, в практике воспитания чаще всего используются четыре разновидности подкрепления: — если вслед за желательной реакцией ребенка следует вызывающий приятные ощущения и переживания подкрепляющий стимул, то результат — положительное поощрение; — если за нежелательной реакцией следует не вызывающий приятных ощущений и переживаний подкрепляющий стимул, то результат — положительное наказание; — если вызывающий неприятные ощущения и переживания подкрепляющий стимул устраняется после получения желательной реакции, то результат — отрицательное поощрение;

— если приятный стимул устраняется после той или иной нежелательной реакции ребенка, то результат — отрицательное наказание.

Источник: https://psyera.ru/tipy-i-rezhimy-podkrepleniy-957.htm

Как правильно применять поощрение в дрессировке

Моя теперешняя собака выполняет то же задание с огоньком в глазах и невероятной для собаки её размеров быстротой.

Поощрение в дрессировке

Методика положительного подкрепления

из книги «О чём думает ваша собака» перевод Л.Войтюк, СПб, Азбука, 1999, 304с, стр.75-84 Джон Фишер

На следующих страницах будет описан метод, который можно применять при дрессировке любых животных, но особенно он подходит для собак. Это система, целиком опирающаяся на побудительный мотив (стимул), и отвергающая физическое воздействие или силу в любых их проявлениях.

Этим методом могут пользоваться даже дети. Он не требует какого-либо природного дара (таланта) дрессировщика. Он не связан с каким-то особым тоном, выбором подходящего времени, не основан на регулярной практике и не опирается на какую-либо из традиционных теорий дрессировки собак.

Все, что требуется,- ваш разум и какой-нибудь лакомый кусочек.

Как научить собаку, чтобы она по команде ложилась в каком-нибудь определённом углу комнаты? Для этого существует два способа.

1. Можно бить собаку плёткой всякий раз, когда она пойдёт в какой-либо другой угол, и вообще бить до тех пор, пока она не усвоит, что указанное вами место — единственное безопасное убежище,

2. Можно дать собаке особенно вкусный кусочек в этом уголке и полностью её игнорировать, когда она пойдёт в какую-то другую часть комнаты.

Я совершенно уверен, что, прочитав эти строки, вы сказали себе: «Ну, это рассуждения на уровне здравого смысла. Что тут такого нового?»

Разумеется, это здравый смысл. Каждый владелец собаки ежедневно поступает подобным образом и дома, и вне его стен, не задумываясь о том, что и как он делает. Хотя почему-то, когда требуется сделать некоторое усилие и чему-нибудь научить свою собаку, мы становимся в позу дрессировщика и вспоминаем стародавний подход: «Ты собака, я хозяин. Я приказываю, ты подчиняешься».

Когда дома вы подзываете собаку, вы обычно намерены покормить её, или взять на поводок и повести на прогулку, или показать, что вы уронили еду на пол в кухне и хотите, чтоб она всё подчистила.

Действительно, дома мы редко зовем собаку просто так, обычно это происходит по какой-то причине, и в большинстве случаев выполнение команды сулит собаке что-то приятное.

В результате, лишь немногие люди жалуются, что собака не идёт на зов дома.

А в ближайшем парке дело обстоит совсем иначе. Вы гуляете, она свободно бегает, играя с другими собаками, охотится за белками, роется в мусорных урнах, в то время как вы погрузились в собственные мысли.

У ворот парка вы зовёте её, чтобы вести домой. И тут она, бросив на вас взгляд, направляется в противоположную сторону. (Такое все мы видим на улице чуть не каждый день.

) В этот момент вы говорите себе: «Я должен, наконец, выдрессировать свою собаку».

. Вы преуспели в том, что научили её не подходить к вам. Как? Очень просто. Собака быстро усвоила: если она не подойдет, то будет вознаграждена более длительной прогулкой. Если же она к вам подойдет, то лишится удовольствия: её отведут домой.

https://www.youtube.com/watch?v=F-iarniau7g

Если бы вы применили ваши «домашние приемы» дрессировки команды «Ко мне!», подзывая пса около ворот, давая лакомство и затем, делая ещё круг по парку, то вскоре, услышав зов, он летел бы к вам пулей.

Подкуп? Я называю это здравым смыслом.

Сколько раз уже мне приходилось прятать улыбку, когда ко мне обращались люди, которые сталкиваются с проблемами нежелательного поведения своих собак, и я в ответ предлагаю им попробовать награждать собаку за хорошее поведение, вместо того чтобы думать, каким образом наказать её за нежелательное поведение. Хозяева недоумевают: «Вы хотите сказать, что я должен его подкупать?»

Читайте также:  Метапсихология - психология

По-моему, это довольно забавно: то, чему ученые, психологи и бихевиористы (специалисты по проблемам поведения) придумали замысловатые названия вроде «модификации поведения», «реабилитационная психотерапия», «психология поведения» и так далее, широкой публикой всё ещё расценивается как подкуп. Впрочем, на самом деле важно другое — при правильном применении положительное подкрепление весьма эффективно: оно изменяет нежелательное поведение.

Существует ряд основополагающих принципов, которые определяют успех применения положительного подкрепления как метода дрессировки.

Но прежде чем начать применять эти принципы, или законы, с помощью специальных обучающих упражнений в процессе дрессировки собак, необходимо рассмотреть отдельно каждую стадию обучения, её цель и ожидаемый результат.

Можно было бы дать научное название каждой стадии, например: контроль раздражителя, угасание реакции на окружающую обстановку (behaviour extinction), вытеснение данной модели поведения другой моделью, последовательная аппроксимация и так далее, — но это слишком скучно, и я не буду этого делать.

Если вы хотите познакомиться с методикой на высоком научном уровне и более подробно, рекомендую посетить в местной библиотеке отдел, посвященный психологии. Нас же интересует только то, как действует положительное подкрепление и как его применяют.

Как действует положительное подкрепление

Прежде всего, мы вообще должны забыть об упражнениях. Всё, что нас интересует для начала, — это первый шаг в нужном направлении. Вспомним уже приводившийся пример с касаткой и представим себе, что мы хотим научить касатку выпрыгивать из воды. Мы даём свисток (команду) и ждём. Затем ждём ещё немного, а зачастую бывает, что ждём ещё и ещё.

Очевидно, сначала касатка не имеет представления о том, что от неё требуется, когда звучит свисток. Поэтому нам приходится ждать, чтобы она зачем-нибудь высунула нос из воды.

Точно в этот миг мы снова свистим в свисток и даём ей рыбу. Когда она проплывает внизу, мы снова свистим и ждём.

Процедура повторяется до тех пор, пока касатка не выйдет на уровень «ага!»: «Ага! Когда я слышу звук свистка, я получаю рыбу».

Этот уровень понимания — уровень «ага!» — не может считаться закрепленным, до тех пор пока вы не добьётесь, чтобы происходило десять из десяти возможных немедленных реакций на свисток. Пока это не достигнуто, не следует переходить к следующему этапу дрессировки.

На первом её этапе кажется, что прогресс не очень заметен, однако для успеха обучения крайне важно, чтобы каждый этап заканчивался достижением уровня полного понимания.

Если вы этого добьётесь, то обнаружите, что, по мере перехода к каждому следующему этапу, превращение первоначальной реакции в распознаваемую цепочку движений идёт очень быстро.

Теперь мы подходим к этапу дрессировки, который называется «формирование». Нам нужно заменить уже сложившуюся цепочку: «свисток — появление носа — обязательная рыбка», новой цепочкой: «свисток — касатка выпрыгивает из воды — рыбка дается иногда». Достигается это следующим образом.

Формирование поведения означает, что мы делаем один маленький шаг в нужном направлении и продвигаемся к конечной цели, подкрепляя каждый сделанный шаг.

Так мы обеспечиваем безусловное выполнение этой части цепочки, прежде чем двигаться дальше.

Здесь наблюдается интересное явление: выполнение определённых действий, надежно затренированное с помощью вознаграждения, можно сделать ещё более чётким, если вознаграждение задерживать.

Предположим, затренирована такая реакция касатки: на десять свистков она десять раз немедленно высовывает нос из воды. На одиннадцатый раз мы говорим: «Недостаточно хорошо, рыбы ты не получишь».

Можно предположить, что теперь касатка подумает: «Но я всегда получаю рыбку. Наверное, кто-то её стащил раньше меня. В следующий раз надо живее пошевеливаться». И на двенадцатый раз вы получите более быструю и энергичную реакцию касатки: она высунет из воды всю голову целиком. За это, безусловно, полагается рыбка, но теперь и в дальнейшем — только за это.

Дальше будем формировать цепочку: «свисток — появление из воды всей головы целиком — при немедленной реакции рыбка в награду в десяти случаях из десяти». Лишь затем можно будет перейти к следующему этапу. Кажется, что обучаемый с каждым этапом всё скорее понимает, что от него требуется, и возникает эффект снежного кома.

Я намеренно воспользовался примером касатки, чтобы подчеркнуть главное: весь процесс обучения может осуществляться без какого-либо физического воздействия. Сначала мы ждём верного шага в нужном направлении и вознаграждаем его, затем закрепляем и придаем законченную форму.

Хозяин: «Какая разница между всем этим и подкупом?»

Я: «Подкуп — это использование награды в качестве соблазна, для того чтобы стимулировать движение. Подкрепление — это вознаграждение, получаемое за добровольное движение».

Хозяин: «Всегда ли давать награду?»

Я: «Прием действует лучше, если вы даете награду не всегда. Когда модель поведения сформирована, только самая быстрая, ярко выраженная и сильная реакция вознаграждается. Иногда ученику придётся выполнить отработанную цепочку шесть или семь раз, прежде чем последует вознаграждение».

Хозяин: «Обязательно ли давать в награду что-то съедобное?»

Я: «Наградой может быть что-то другое, ради чего, с точки зрения ученика, стоит выполнять определённые действия. Было бы бессмысленно пытаться сформировать моё поведение с помощью тарелки капусты. Терпеть не могу капусту!

Как применять положительное подкрепление

В предыдущей главе я рассказал о том, как научил свою первую собаку искать и приносить вещь (соответствует команде «Апорт!»). Теперь я расскажу вам, как я научил выполнять это задание свою нынешнюю собаку.

На обучение моей первой собаки ушло несколько недель, и она так и не научилась выполнять команду по-настоящему хорошо. Это была немецкая овчарка, — порода славится хорошей обучаемостью. Моя теперешняя собака выполняет то же задание с огоньком в глазах и невероятной для собаки её размеров быстротой. Это — японская акита, порода, известная своим упрямством.

Я провел много времени на дрессировочной площадке, в течение ряда недель, обучая мою немецкую овчарку. В течение нескольких дней, затрачивая несколько минут в день, я обучил акита, ни разу даже не встав с кресла.

Используя этот метод, я недавно помог проводнику полицейской собаки достичь того же результата при дрессировке немецкой овчарки. Фактически нам потребовалось меньше обычного времени, чтобы довести совершенно необученную собаку до стандарта министерства внутренних дел, причем полученные результаты были гораздо выше тех, которых добиваются, применяя обычные методы дрессировки.

Кличка моей собаки — Йоко. Поняли? Джон и Йоко. Ей было пятнадцать месяцев, когда я решил научить её искать и приносить брошенный предмет.

Сейчас у меня не остаётся времени, чтобы самому участвовать с моими собаками в соревнованиях, где собаки демонстрируют свои умения, но я всё ещё сужу такие состязания.

И вот однажды один хозяин-участник обронил мимоходом замечание, которое побудило меня учить мою собаку искать и приносить брошенный предмет. Парень сказал: «Вы никогда не научите акита выполнять эту команду как следует». Когда мне бросают вызов, я загораюсь.

Я сидел за письменным столом в своей приемной, рядом на столе я поставил коробочку с лакомством. Протягивая собаке гантель, я говорил: «Возьми!» Йоко нюхала перекладину, а я говорил: «Хорошая девочка!» — и давал ей угощение.

Первое занятие продолжалось около пяти минут, и она получила вознаграждение сразу после быстрой реакции примерно в 60% случаев.

В остальных случаях за правильные реакции иногда тоже давалось вознаграждение, но только после того, как собака нюхала стол, карабкалась на меня, лаяла или делала ещё что-нибудь, стараясь получить вознаграждение.

На следующем занятии в тот же день удалось достичь уровня понимания (уровень «ага!»). Йоко тыкалась носом в гантель всякий раз, когда я давал команду.

На формирование действия и переход к следующей стадии потребовалось несколько больше времени. В течение четырех занятий по пять минут каждое она пробовала делать самые разные вещи, чтобы получить награду. Отношение было: 15%; 25%; 70%; 100%.

Теперь я уже требовал, чтобы она не тыкалась в гантель носом, а лизала её. Не дав ей угощения, когда она в очередной раз лизнула гантель, я попал в точку, что вызвало эффект снежного кома гораздо раньше, чем я сам того ожидал.

Она решительно выхватила гантель у меня из рук и смотрела на меня, как будто говоря: «Смотри, глупыш, я её взяла… Давай еду!»

Никто не может заранее определить модель формирования поведения при выполнении задания. Мы можем запланировать известную структурированную последовательность, но при обучении нам придётся руководствоваться темпом, который установит само животное.

После того как вы вознаградили собаку за определённое движение, оно должно стать единственным движением, за которое дается награда, пока оно не будет затренировано. Йоко сделала больший шаг вперед, чем я ожидал, и, поскольку я её с энтузиазмом наградил, мне пришлось ждать, чтобы она его повторила.

Это отняло меньше времени, чем я ожидал, но надо учесть, что Йоко очень прожорливая собака.

После такого огромного рывка вперёд вся цепочка действий формировалась очень легко. Прошло совсем немного времени, и я уже бросал гантель на кушетку в дальнем конце приемной, а Йоко приносила её по команде, и садилась передо мной, держа её в зубах, гордая.

В первый же раз, когда на свежем воздухе я попробовал дать одно из тех упражнений, что предлагаются на состязаниях, она получила бы у меня за их выполнение все десять баллов из десяти. Но, кажется, я несколько пристрастен.

Возьмем теперь два простых действия: выполнение команд «Сидеть!» и «Лежать!». Попытаемся, используя наш метод и не применяя силу, научить собаку чётко реагировать на данные команды.

Чтобы ускорить процесс, необходимо прибегнуть к подкупу. Иными словами, мы показываем награду, чтобы стимулировать движение. Как только достигается этот уровень понимания, мы обращаемся к команде, и подаем её только голосом, затем ждём, чтобы было сделано верное движение. Тогда мы придаём этому движению законченный вид.

Для отработки команды «Сидеть!» покажите собаке лакомство, даже дотроньтесь им до кончика её носа. Скажите: «Сидеть!» — и медленно переместите лакомство вверх и назад, чуть дальше линии глаз собаки. Сложение у собак такое, что если голова поднимается вверх и назад, то задняя часть туловища непременно опускается.

Для отработки команды «Лежать!» выберите такое препятствие, чтобы для его преодоления собаке нужно было лечь на брюхо. Это будет зависеть от размера собаки. Например, для немецкой овчарки подошёл бы кофейный столик.

Подведите к нему собаку и предложите ей лакомство, держа его в руке под столиком, то есть под препятствием.

Когда собака потянется за лакомством, медленно отодвигайте его под препятствием, побуждая собаку двигаться следом и командуя при этом: «Лежать!» В тот момент, когда её брюхо коснется пола, дайте вознаграждение.

Теперь, когда мы научили свою собаку делать то, чего мы от неё добиваемся, остаётся отучить её делать то, что нам не нравится. Для достижения этой цели используем систему отрицательного подкрепления.

Источник: http://cyber-ek.ru/reading/teaching.html

Ссылка на основную публикацию