Обучение с подкреплением — психология

Обучение с подкреплением для самых маленьких

В данной статье разобран принцип работы метода машинного обучения«Обучение с подкреплением» на примере физической системы. Алгоритм поиска оптимальной стратегии реализован в коде на Python с помощью метода «Q-Learning».

Обучение с подкреплением — это метод машинного обучения, при котором происходит обучение модели, которая не имеет сведений о системе, но имеет возможность производить какие-либо действия в ней. Действия переводят систему в новое состояние и модель получает от системы некоторое вознаграждение.

Рассмотрим работу метода на примере, показанном в видео. В описании к видео находится код для Arduino, который реализуем на Python.

Задача

С помощью метода «обучение с подкреплением» необходимо научить тележку отъезжать от стены на максимальное расстояние. Награда представлена в виде значения изменения расстояния от стены до тележки при движении. Измерение расстояния D от стены производится дальномером.

Движение в данном примере возможно только при определенном смещении «привода», состоящего из двух стрел S1 и S2. Стрелы представляют собой два сервопривода с направляющими, соединенными в виде «колена». Каждый сервопривод в данном примере может поворачиваться на 6 одинаковых углов.

Модель имеет возможность совершить 4 действия, которые представляют собой управление двумя сервоприводами, действие 0 и 1 поворачивают первый сервопривод на определенный угол по часовой и против часовой стрелке, действие 2 и 3 поворачивают второй сервопривод на определенный угол по часовой и против часовой стрелке.

На рисунке 1 показан рабочий прототип тележки.
Рис. 1. Прототип тележки для экспериментов с машинным обучением
На рисунке 2 красным цветом выделена стрела S2, синим цветом – стрела S1, черным цветом – 2 сервопривода.
Рис. 2. Двигатель системы Схема системы показана на рисунке 3.

Расстояние до стены обозначено D, желтым показан дальномер, красным и черным выделен привод системы.
Рис. 3. Схема системы Диапазон возможных положений для S1 и S2 показан на рисунке 4:
Рис. 4.а. Диапазон положений стрелы S1
Рис. 4.б.

Диапазон положений стрелы S2 Пограничные положения привода показаны на рисунке 5: При S1 = S2 = 5 максимальная дальность от земли. При S1 = S2 = 0 минимальная дальность до земли.
Рис. 5. Пограничные положения стрел S1 и S2 У «привода» 4 степени свободы.

Действие (action) изменяет положение стрел S1 и S2 в пространстве по определённому принципу. Виды действий показаны на рисунке 6.
Рис. 6. Виды действий (Action) в системе Действие 0 увеличивает значение S1. Действие 1 уменьшает значение S1. Действие 2 увеличивает значение S2. Действие 3 уменьшает значение S2.

Движение

В нашей задаче тележка приводится в движение всего в 2х случаях: В положении S1 =0, S2 = 1 действие 3 приводит в движение тележку от стены, система получает положительное вознаграждение, равное изменению расстояния до стены. В нашем примере вознаграждение равно 1.
Рис. 7.

Движение системы с положительным вознаграждением В положении S1 = 0, S2 = 0 действие 2 приводит в движение тележку к стене, система получает отрицательное вознаграждение, равное изменению расстояния до стены. В нашем примере вознаграждение равно -1.
Рис. 8.

Движение системы с отрицательным вознаграждением При остальных состояниях и любых действиях «привода» система будет стоять на месте и вознаграждение будет равно 0.

Хочется отметить, что стабильным динамическим состоянием системы будет последовательность действий 0-2-1-3 из состояния S1=S2=0, в котором тележка будет двигаться в положительном направлении при минимальном количестве затраченных действий.

Подняли колено – разогнули колено – опустили колено – согнули колено = тележка сдвинулась вперед, повтор. Таким образом, с помощью метода машинного обучения необходимо найти такое состояние системы, такую определенную последовательность действий, награда за которые будет получена не сразу (действия 0-2-1 – награда за которые равна 0, но которые необходимы для получения 1 за последующее действие 3).

Метод Q-Learning

Основой метода Q-Learning является матрица весов состояния системы. Матрица Q представляет собой совокупность всевозможных состояний системы и весов реакции системы на различные действия. В данной задаче возможных комбинаций параметров системы 36 = 6^2. В каждом из 36 состояний системы возможно произвести 4 различных действия (Action = 0,1,2,3).

На рисунке 9 показано первоначальное состояние матрицы Q. Нулевая колонка содержит индекс строки, первая строка – значение S1, вторая – значение S2, последние 4 колонки равны весам при действиях равных 0, 1, 2 и 3. Каждая строка представляет собой уникальное состояние системы. При инициализации таблицы все значения весов приравняем 10.
Рис. 9.

Инициализация матрицы Q После обучения модели (~15000 итераций) матрица Q имеет вид, показанный на рисунке 10.
Рис. 10. Матрица Q после 15000 итераций обучения Обратите внимание, действия с весами, равными 10, невозможны в системе, поэтому значение весов не изменилось.

Например, в крайнем положении при S1=S2=0 нельзя выполнить действие 1 и 3, так как это ограничение физической среды. Эти пограничные действия запрещены в нашей модели, поэтому 10тки алгоритм не использует.

Рассмотрим результат работы алгоритма: … Iteration: 14991, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0 Iteration: 14992, was: S1=1 S2=0, action= 2, now: S1=1 S2=1, prize: 0 Iteration: 14993, was: S1=1 S2=1, action= 1, now: S1=0 S2=1, prize: 0 Iteration: 14994, was: S1=0 S2=1, action= 3, now: S1=0 S2=0, prize: 1 Iteration: 14995, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0 Iteration: 14996, was: S1=1 S2=0, action= 2, now: S1=1 S2=1, prize: 0 Iteration: 14997, was: S1=1 S2=1, action= 1, now: S1=0 S2=1, prize: 0 Iteration: 14998, was: S1=0 S2=1, action= 3, now: S1=0 S2=0, prize: 1 Iteration: 14999, was: S1=0 S2=0, action= 0, now: S1=1 S2=0, prize: 0 Рассмотрим подробнее: Возьмем итерацию 14991 в качестве текущего состояния. 1. Текущее состояние системы S1=S2=0, этому состоянию соответствует строка с индексом 0. Наибольшим значением является 0.617 (значения равные 10 игнорируем, описано выше), оно соответствует Action = 0. Значит, согласно матрице Q при состоянии системы S1=S2=0 мы производим действие 0. Действие 0 увеличивает значение угла поворота сервопривода S1 (S1 = 1). 2. Следующему состоянию S1=1, S2=0 соответствует строка с индексом 6. Максимальное значение веса соответствует Action = 2. Производим действие 2 – увеличение S2 (S2 = 1). 3. Следующему состоянию S1=1, S2=1 соответствует строка с индексом 7. Максимальное значение веса соответствует Action = 1. Производим действие 1 – уменьшение S1 (S1 = 0). 4. Следующему состоянию S1=0, S2=1 соответствует строка с индексом 1. Максимальное значение веса соответствует Action = 3. Производим действие 3 – уменьшение S2 (S2 = 0). 5. В итоге вернулись в состояние S1=S2=0 и заработали 1 очко вознаграждения. На рисунке 11 показан принцип выбор оптимального действия.
Рис. 11.а. Матрица Q
Рис. 11.б. Матрица Q

Рассмотрим подробнее процесс обучения.

Алгоритм Q-learningminus = 0;
plus = 0;
initializeQ();
for t in range(1,15000): epsilon = math.exp(-float(t)/explorationConst); s01 = s1; s02 = s2 current_action = getAction(); setSPrime(current_action); setPhysicalState(current_action); r = getDeltaDistanceRolled(); lookAheadValue = getLookAhead(); sample = r + gamma*lookAheadValue; if t > 14900: print 'Time: %(0)d, was: %(1)d %(2)d, action: %(3)d, now: %(4)d %(5)d, prize: %(6)d ' % {«0»: t, «1»: s01, «2»: s02, «3»: current_action, «4»: s1, «5»: s2, «6»: r} Q.iloc[s, current_action] = Q.iloc[s, current_action] + alpha*(sample — Q.iloc[s, current_action] ) ; s = sPrime; if deltaDistance == 1: plus += 1; if deltaDistance == -1: minus += 1;
print( minus, plus )

Полный код на GitHub.

Установим начальное положение колена в крайнее верхнее положение:s1=s2=5.Инициализируем матрицу Q, заполнив начальным значением:initializeQ();
Вычислим параметр epsilon. Это вес «случайности» действия алгоритма в нашем расчёте. Чем больше итераций обучения прошло, тем меньше случайных значений действий будут выбраны:epsilon = math.

exp(-float(t)/explorationConst)Для первой итерации:epsilon = 0.996672Сохраним текущее состояние:s01 = s1; s02 = s2Получим «лучшее» значение действия:current_action = getAction();Рассмотрим функцию поподробнее. Функция getAction() выдает значение действия, которому соответствует максимальный вес при текущем состоянии системы.

Берется текущее состояние системы в матрице Q и выбирается действие, которому соответствует максимальный вес. Обратим внимание, что в этой функции реализован механизм выбора случайного действия. С увеличением числа итераций случайный выбор действия уменьшается.

Это сделано, для того, чтобы алгоритм не зацикливался на первых найденных вариантах и мог пойти по другому пути, который может оказаться лучше. В исходном начальном положении стрел возможны только два действия 1 и 3. Алгоритм выбрал действие 1.

Далее определим номер строки в матрице Q для следующего состояние системы, в которое система перейдет после выполнения действия, которое мы получили в предыдущем шаге.

setSPrime(current_action);В реальной физической среде после выполнения действия мы получили бы вознаграждение, если последовало движение, но так как движение тележки моделируется, необходимо ввести вспомогательные функции эмуляции реакции физической среды на действия.

(setPhysicalState и getDeltaDistanceRolled() ) Выполним функции:setPhysicalState(current_action);— моделируем реакцию среды на выбранное нами действие. Изменяем положение сервоприводов, смещаем тележку.r = getDeltaDistanceRolled();— Вычисляем вознаграждение – расстояние, пройденное тележкой.

После выполнения действия нам необходимо обновить коэффициент этого действия в матрице Q для соответствующего состояния системы. Логично, что, если действие привело к положительной награде, то коэффициент, в нашем алгоритме, должен уменьшиться на меньшее значение, чем при отрицательном вознаграждении. Теперь самое интересное – для расчета веса текущего шага заглянем в будущее.

При определении оптимального действия, которое нужно совершить в текущем состоянии, мы выбираем наибольший вес в матрице Q. Так как мы знаем новое состояние системы, в которое мы перешли, то можем найти максимальное значение веса из таблицы Q для этого состояния:lookAheadValue = getLookAhead();В самом начале оно равно 10. И используем значение веса, еще не выполненного действия, для подсчета текущего веса.sample = r + gamma*lookAheadValue;
sample = 7.5
Q.iloc[s, current_action] = Q.iloc[s, current_action] + alpha*(sample — Q.iloc[s, current_action] ) ;
Q.iloc[s, current_action] = 9.75Т.е. мы использовали значение веса следующего шага, для расчета веса шага текущего. Чем больше вес следующего шага, тем меньше мы уменьшим вес текущего (согласно формуле), и тем текущий шаг будет предпочтительнее в следующий раз. Этот простой трюк дает хорошие результаты сходимости алгоритма.

Масштабирование алгоритма

Данный алгоритм можно расширить на большее количество степеней свободы системы (s_features), и большее количество значений, которые принимает степень свободы (s_states), но в небольших пределах. Достаточно быстро матрица Q займет всю оперативную память.

Ниже пример кода построения сводной матрицы состояний и весов модели. При количестве «стрел» s_features = 5 и количестве различных положений стрелы s_states = 10 матрица Q имеет размеры (100000, 9).Увеличение степеней свободы системыimport numpy as np s_features = 5
s_states = 10
numActions = 4 data = np.

empty((s_states**s_features, s_features + numActions), dtype='int')
for h in range(0, s_features): k = 0 N = s_states**(s_features-1-1*h) for q in range(0, s_states**h): for i in range(0, s_states): for j in range(0, N): data[k, h] = i k += 1 for i in range(s_states**s_features): for j in range(numActions): data[i,j+s_features] = 10.0; data.shape # (100000L, 9L)

Вывод

Этот простой метод показывает «чудеса» машинного обучения, когда модель ничего не зная об окружающей среде обучается и находит оптимальное состояние, при котором награда за действия максимальна, причем награда присуждается не сразу, за какое либо действие, а за последовательность действий.

Спасибо за внимание!

Источник: https://habr.com/post/308094/

Обучение с подкреплением (стр. 1 из 7)

Основа этой теории по разным источникам известна как модификация поведения, теория подкрепления, оперантное обусловливание, бихевиоризм, психология поведения и т.д.; это тот раздел психологии, который принес мировую известность Б.Ф.Скиннеру, профессору Гарвардского университета.

Обучение с подкреплением — это вовсе не система наград и наказаний; современные тренеры даже не используют этих терминов. Награды и наказания приходят обычно после того, как действие совершено, часто спустя длительное время, как, например, в уголовном суде.

Они могут повлиять, а могут и не повлиять на будущее поведение, но они, безусловно, не могут воздействовать на уже совершенное действие.

Подкрепление — будь то “положительное”, то, к чему надо стремиться, например, улыбка или ласка, или “отрицательное” — то, чего надо избегать, подобно рывку поводка или нахмуренным бровям — происходит именно во время поведения, на которое надо воздействовать. Подкрепление изменяет поведение только тогда, когда дается в правильно выбранный момент.

Обучающие машины и программированные учебники, разработанные на основе Скиннеровской теории, были первыми попытками разбить обучение на этапы и поощрять обучающегося за правильные ответы.

Эти ранние механизмы были неуклюжими, но именно они были предвестниками компьютерного обучения, которое оказалось не только высокоэффективным, благодаря совершенству выбора времени подкрепления компьютером, но и внесло в процесс обучения веселые нотки в связи с забавным характером подкрепления (фейерверки, танцующие роботы).

Программы подкрепления, использующие жетоны и талоны, которые можно накопить и обменять на конфеты, сигареты или какие-то льготы, были установлены в психиатрических лечебницах и некоторых других учреждениях.

Тренировка с подкреплением не разрешает всех проблем — она не увеличит ваш счет в банке, не спасет от неудачной женитьбы, не поможет в случаях тяжелых заболеваний психики. Некоторые ситуации, например, плач ребенка, не имеет отношения к проблеме тренировки и требуют других методов разрешения.

Некоторые типы поведения человека и животных имеют генетические компоненты, которые трудно или невозможно изменить тренировкой. Ряд проблем просто не стоит того, чтобы тратить время на тренировку.

Но во многих случаях, когда жизнь бросает человеку вызов, ставит задачи и посылает неприятности, правильное использование подкрепления может оказаться полезным.

Что такое положительное подкрепление

Положительное подкрепление — это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия.

Запомните это положение. В нем заложен секрет успешного обучения.

Существуют два вида подкрепления: положительное и отрицательное. Положительное подкрепление — это нечто, желаемое субъектом: пища, ласка или похвала.

Негативное подкрепление — это то, чего субъект хотел бы избежать: шлепок, нахмуривание бровей, неприятный звук (предупреждающий зуммер в машинах, который раздается, если вы забыли пристегнуть ремень безопасности, — это отрицательное подкрепление).

Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления.

Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления. Если вы зовете щенка, и он подходит к вам, а вы его ласкаете, то в дальнейшем подход щенка на зов становится все более и более надежным даже безо всякого другого обучения.

Предположим, что вы хотите, чтобы кто-то позвонил вам — ваш отпрыск, родитель или любимый. Если он или она не звонит, то тогда уж ничего не поделаешь. Самое главное в обучении с подкреплением то, что вы не можете подкрепить поведение, которое не встречается.

С другой стороны, если вы всегда проявляете радость, когда любимые вам звонят, то это значит, что их поведение положительно подкрепляется, вероятность частоты их звонков, очевидно, увеличится. Конечно, если вы примените отрицательное подкрепление — “Почему ты не позвонил, почему я должна тебе звонить, ты мне никогда не звонишь” и т.д.

, замечания, которые вызывают раздражение, — вы создаете ситуацию, при которой звонящий избегает неприятностей тем, что не звонит; фактически вы обучаете их не звонить.

Подкрепление относительно, не абсолютно. Дождь является положительным подкреплением для уток, отрицательным для кошек, довольно безразличен, по крайней мере во влажную погоду, для коров.

Пища не является положительным подкреплением, если вы сыты. Улыбки и похвалы могут быть непригодными в качестве подкрепления, если субъект хочет вывести вас из. себя.

В качестве подкрепления надо выбирать нечто желаемое субъектом.

Положительное подкрепление приносит пользу и при взаимоотношениях между людьми. Оно лежит в основе искусства делать подарки: точно угадать, что будет иметь подкрепляющее действие (правильный выбор является подкреплением и для делающего подарок).

Время подачи подкрепления

Запоздалое подкрепление является наибольшим недочетом начинающего дрессировщика. Собака садится, но к тому времени, когда хозяин говорит: “Хорошая собака”, собака уже снова стоит. За что, думает животное, его хвалят? За то, что оно встает. Если у вас возникают трудности в дрессировке, первый вопрос, который надо себе задать, не запаздывает ли ваше подкрепление.

Мы всегда слишком запаздываем подкрепляя друг друга. “Послушай, дорогая, вчера вечером ты выглядела замечательно”, — звучит совсем не так, как та же фраза, сказанная вовремя. Отсрочка подкрепления может даже оказать вредное воздействие (“А что, разве я сейчас не выгляжу замечательно?”). Мы свято верим, что сила слов перекроет ошибки во времени подкрепления.

Слишком раннее подкрепление тоже неэффективно. Это называется взяточничеством.

Мне кажется, что иногда и детей мы подкрепляем слишком рано, находясь под ложным впечатлением, будто мы их подбадриваем (“Молодец, хорошо, ты уже почти все сделала правильно”). Возможно, при этом мы подкрепляем попытки. Но существует разница между попыткой сделать что-то и выполнением этого.

Причитания типа “я не могу” иногда отражают фактическое положение вещей, но они могут являться и признаками того, что часто подкреплялись просто попытки. Вообще, подкрепление поведения, которое еще не совершилось, — подарками, обещаниями, комплиментами или чем-нибудь в этом роде — ни капельки не подкрепляет это поведение.

Если что-то и подкрепляется, так это поведение, совершающееся в данное время: вероятнее всего — выпрашивание подкрепления.

Величина подкрепления

Не давайте сразу много…

Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы.

Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня.

(Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.)

Большой куш

Одним из наиболее полезных приемов пищевого или какого-либо другого подкрепления для человека и животных является получение куша. Это награда, которая во много, иногда в 10 раз больше обыкновенного подкрепления и являющаяся сюрпризом для субъекта.

В рекламном агентстве, где я когда-то работала, бывали официальные вечера на Рождество, а также неофициальные праздники по поводу окончания большой работы или заполучения нового клиента. Но у председателя правления была еще привычка устраивать в год один-два абсолютно неожиданных вечера.

Внезапно в середине дня он проносился по всем комнатам конторы, крича, чтоб все кончали работу. Коммутаторы выключались, появлялась процессия поставщиков провизии, музыканты, буфетчики, шампанское, копченая семга, и все это только для нас и безо всякой особенной причины.

Это было неожиданным кушем для пятидесяти человек. Я думаю, что это очень способствовало поднятию духа коллектива.

Условное подкрепление

Наша жизнь изобилует условными подкреплениями. Нам нравится слышать, как звонит телефон или видеть набитый почтовый ящик, даже если половина звонков неинтересна и большая часть корреспонденции — утиль, потому что множество случаев научили нас связывать звонок или конверт с хорошим.

Нам нравится рождественская музыка, и мы ненавидим запах зубного кабинета. Мы храним, окружающие нас вещи — картины, посуду, трофеи — не потому, что они красивы или полезны, а потому, что они напоминают нам о временах, когда мы были счастливы, или о людях, которых мы любили.

Они представляют собой условные подкрепления.

Условные подкрепления приобретают чрезвычайную силу. Так как информация “Ты прав” сама по себе представляет Ценность, она не обязательно должна сопровождаться первичным подкреплением.

Фактически использование пищи, ласки или чего-нибудь в этом роде можно практически свести к нулю, а условное подкрепление будет приносить прекрасные результаты.

Я видела, как морские млекопитающие долго работали после насыщения за условные подкрепления, а лошади и собаки работают по часу и более с маленьким или безо всякого безусловного подкрепления.

Люди конечно же тоже могут бесконечно работать за деньги, являющиеся ничем иным как условным подкреплением, обозначением вещей, которые на них можно купить, особенно люди, которые уже заработали гораздо больше денег, чем они когда-либо смогут действительно потратить, и, следовательно, пристрастившиеся к условному подкреплению.

Источник: http://MirZnanii.com/a/205558/obuchenie-s-podkrepleniem

Обучение с подкреплением

страница 1

Эта книга о том, как обучать кого угодно: человека или животное, старого или молодого, самого себя или других – и чему угодно.

Как добиться, чтобы кот спрыгнул с кухонного стола, а бабушка перестала ворчать; как управлять поведением домашних животных, детей, начальства и друзей; как улучшить свои достижения в теннисе, гольфе, математике, развить память? Все это можно достичь, используя принципы обучения с подкреплением.

Эти принципы являются такими же непреложными законами природы, как законы физики. Они лежат в основе всех ситуаций обучения, точно так же, как падение яблока основано на законах гравитации.

При попытке изменить чье-либо поведение, будь то собственное или чужое, мы используем эти законы, независимо от того, знаем мы их или нет. Чаще всего мы их применяем неправильно. Мы запугиваем, спорим, принуждаем, лишаем чего-либо. Мы ругаем окружающих, когда дела идут плохо, и забываем похвалить, когда все хорошо.

Мы грубы и нетерпеливы с детьми, друг с другом, даже сами с собой, и потом сожалеем об этой грубости. Зная лучшие способы управления поведением, мы достигли бы своей цели быстрее, к тому же без нервотрепки, но мы не представляем, как это сделать.

Мы попросту не можем привести в соответствие те приемы, которыми современные дрессировщики достигают успеха, с законами положительного подкрепления. Какой бы ни была наша задача – заставить ли четырехлетнего малыша вести себя тихо при посторонних, отучить ли щенка грызть дома все что попало, тренировать ли спортивную команду, выучить ли стихотворение – она решается быстрее, легче, веселее, если вы знаете, как пользоваться положительным подкреплением.

Законы подкрепления просты: их можно за десять минут записать на школьной доске и за час выучить. Применение их в основном зависит от ситуации, обучение с подкреплением подобно игре, в которой надо быстро соображать. Каждый может быть тренером, но некоторые от природы способны к этому больше, чем другие.

Вам вовсе не обязательно отличаться каким-то особым терпением, быть сильной личностью, не требуется и особого подхода к детям и животным, можно не обладать и тем, что цирковой дрессировщик Франк Бук называет силой человеческого взгляда. Вам надо только знать, что вы делаете.

Всегда были люди с интуитивным пониманием того, как применять законы дрессировки. Мы называем их талантливыми учителями, блестящими военачальниками, выдающимися тренерами, гениальными дрессировщиками.

Мне приходилось наблюдать за некоторыми театральными режиссерами и многими дирижерами симфонических оркестров, которые очень умело использовали в своей работе подкрепление. Эти одаренные воспитатели не нуждаются в книге о том, как использовать законы, управляющие обучением.

Однако для всех нас остальных – простых смертных, – кто вслепую пытается совладать с плохо управляемым питомцем, вступает в конфликт с ребенком или сослуживцем, знание законов подкрепления может сослужить хорошую службу.

Обучение с подкреплением – это вовсе не система наград и наказаний; современные тренеры даже не используют этих терминов. Награды и наказания приходят обычно после того, как действие совершено, часто спустя длительное время, как, например, в уголовном суде.

Подкрепление – будь то «положительное», то, к чему надо стремиться, например, улыбка или ласка, или «отрицательное» – то, чего надо избегать, подобно рывку поводка или нахмуренным бровям – происходит именно во время поведения, на которое надо воздействовать. Подкрепление изменяет поведение только тогда, когда дается в правильно выбранный момент.

Впервые я услышала об обучении с положительным подкреплением на Гавайях, куда в 1963 году я была приглашена старшим тренером дельфинария «Жизнь моря». Раньше я дрессировала собак и лошадей, пользуясь традиционными методами, но дельфины – другое дело; на животное, которое просто уплывает от тебя, не воздействуешь поводком, уздечкой или даже кулаком.

Положительное подкрепление – в основном ведро с рыбой – единственное, чем мы располагаем. Психологи в общих чертах познакомили меня с принципами обучения с подкреплением. Искусство применения этих принципов я постигла при работе с дельфинами.

Имея биологическое образование и всю жизнь интересуясь поведением животных, я оказалась очарованной не столько дельфинами, сколько моим с ними взаимным общением во время дрессировки. То, чему я обучилась, работая с дельфинами, я стала применять и в дрессировке других животных. И я начала замечать, как эта система входит в мою повседневную жизнь.

Например, я перестала кричать на своих детей, потому что заметила, что крик не помогает. Подмечать поведение, которое мне нужно, и сразу подкреплять его – это гораздо более действенно, да к тому же еще и сохраняет мирные отношения в семье.

Тот опыт, который я извлекла из дрессировки дельфинов, имеет солидное теоретическое обоснование.

В этой книге я постаралась держаться подальше от теоретизирования, так как, насколько мне известно, правила по применению этих теорий обычно не описываются наукой и, с моей точки зрения, ученые часто неправильно ими пользуются. Но основные законы уже твердо установлены и должны приниматься во внимание при обучении.

Основа этой теории по разным источникам известна как модификация поведения, теория подкрепления, оперантное обусловливание, бихевиоризм, психология поведения и т.д.; это тот раздел психологии, который принес мировую известность Б.Ф. Скиннеру, профессору Гарвардского университета.

Я не знаю другой современной области науки, которую бы в такой степени поносили, не понимали, переиначивали, неправильно истолковывали и неверно использовали.

Одно только имя Скиннера приводит в ярость тех, кто является поборником «свободной воли» в качестве характеристики, отделяющей человека от животного.

Для тех, кто воспитан в гуманистических традициях, воздействие на поведение человека при помощи своего рода осознанной техники кажется непоправимо безнравственным, несмотря на тот очевидный факт, что все мы пытаемся влиять на поведение друг друга любыми попавшимися под руку средствами.

Пока гуманисты нападали на бихевиоризм и самого Скиннера с таким же жаром, с каким когда-то правоверные обрушивались на еретиков, бихевиоризм превратился в громадный раздел психологии, которым занимаются целые факультеты в университетах, он широко применяется в клинике, бихевиористы издают специальные журналы и созывают международные конгрессы, бихевиоризму обучают на специальных курсах, в нем возникает ряд доктрин и разных течений, ему посвящаются целые горы литературы. Это принесло определенную пользу обществу. Некоторые болезни – например, аутизм – оказались более чувствительны к формированию и подкреплению, чем к любым другим воздействиям. Многие врачи успешно разрешали эмоциональные проблемы своих пациентов, используя приемы бихевиоризма.

Большая эффективность простого изменения поведения по сравнению со скорпулезным копанием в источниках его происхождения – по крайней мере в некоторых обстоятельствах – способствовала возникновению семейной терапии, в которой рассматривается поведение каждого члена семьи, а не только того, чье страдание наиболее очевидно. Обучающие машины и программированные учебники, разработанные на основе Скиннеровской теории, были первыми попытками разбить обучение на этапы и поощрять обучающегося за правильные ответы. Эти ранние механизмы были неуклюжими, но именно они были предвестниками компьютерного обучения, которое оказалось не только высокоэффективным, благодаря совершенству выбора времени подкрепления компьютером, но и внесло в процесс обучения веселые нотки в связи с забавным характером подкрепления (фейерверки, танцующие роботы). Программы подкрепления, использующие жетоны и талоны, которые можно накопить и обменять на конфеты, сигареты или какие-то льготы, были установлены в психиатрических лечебницах и некоторых других учреждениях. Нет недостатка в программах аутотренинга, позволяющих следить за весом и изменением других привычек в нужную сторону, и все они основаны на положительном подкреплении.

Интересным применением подкрепления для тренировки физиологических реакций является биологическая обратная связь. Академические ученые изучили мельчайшие аспекты обуславливания.

Например, одно исследование показывает, что если вы составляете таблицу, чтобы следить за своими успехами в выполнении какой-либо саморазвивающей программы, то вы скорее выработаете новые привычки, если будете ежедневно не ставить в клеточке соответствующей графы крестик, а сплошь ее зачеркивать.

Обрастание деталями преследует конкретные психологические цели, но я не смогла извлечь из них большой пользы для обучения.

Тренинг представляет собой петлю, двустороннюю связь, в которой события на одном конце изменяют события на другом, точно так же, как это происходит в кибернетической системе с обратной связью, хотя многие психологи рассматривают свою работу, как нечто, что они делают по отношению к субъекту, а не совместно с ним.

Для настоящего тренера наиболее интересными и потенциально наиболее плодотворными событиями в процессе обучения являются идиосинкразические и неожиданные ответы, которые может дать каждый испытуемый, хотя почти во всех научных работах стремятся игнорировать и свести к минимуму индивидуальные реакции. Изобретение методов, которые Скиннер назвал «формирование» для последовательного изменения поведения и реализация этих методов – процесс творческий. Несмотря на это, психологическая литература изобилует программами формирования, которые настолько невообразимы, чтобы не сказать неуклюжи, что, с моей точки зрения, представляют собой жестокое и необычное наказание.

Возьмем, например, приводимый в одном из последних научных журналов метод борьбы с ночным самопроизвольным мочеиспусканием, который включает не только установку специальных датчиков влажности в детской постели, но и присутствие врача, проводящего ночь рядом с ребенком! При этом авторы указывают, что этот способ дорого обходится семье.

А какова же его цена для психики ребенка? Такой способ «поведенческого» решения вопроса подобен попытке бить мух лопатой. Прежде чем двигаться дальше, я должна извиниться перед всеми профессиональными бихевиористами, которые обеспокоены моим лихим использованием терминологии теории подкрепления.

Словарь Скиннера имеет несколько элегантных определений, таких, как оперантное обучение, которое подчеркивает, что субъект является оператором, а не только пассивным участником, или последовательное приближение, предполагающее постепенный характер процедуры формирования навыков. Однако, обучая тренингу, я обнаружила, что люди спотыкаются об эту непривычную терминологию.

Чтобы четко изложить предмет, вы должны обучить двум вещам; самой сущности работы и подходящему способу ее обсуждения.

По мере распространения из университета в университет Скиннеровская терминология подверглась некоторой модификации; то, что одни называют условными стимулами, другие предпочитают именовать различительными стимулами, а третьи употребляют жаргонное выражение «S-дельта». Этот специфический словарь все время разрастается.

Поэтому я пожертвовала научной точностью ради такой терминологии, которая, как мне кажется, будет понятной. Шопенгауэр сказал однажды, что каждая оригинальная идея сначала осмеивается, потом на нее яростно нападают, и, наконец, она принимается как нечто само собой разумеющееся. Насколько мне известно, теория подкрепления не является исключением.

Несколько лет назад Скиннера повсюду высмеивали за то, что он продемонстрировал формирование навыка, обучив пару голубей играть в пинг-понг. Теплая, комфортабельная, самоочищающаяся, полная забав комната, которую он оборудовал для своих маленьких дочерей, была высмеяна, как антигуманный, аморальный и еретический «ящик для ребенка», чуть ли не тюремная камера.

До сих пор ходят слухи, что его дочери сошли с ума, хотя на самом деле они выросли прекрасными работниками и очень славными людьми.

И, наконец, сейчас многие образованные люди относятся к теории подкрепления как к некому пустяку, который они понимают и знают вдоль и поперек. Фактически же большинство людей ее не понимает, иначе бы они не вели себя так скверно с окружающими.

В течение многих лет, с тех пор, как я начала заниматься экспериментами по тренировке дельфинов, я читала лекции и писала о правилах подкрепления для научных и профессиональных кругов, а также для широкой публики.

Я обучала этому виду тренинга в высшей школе и в колледжах, я работала с выпускниками университетов, домохозяйками и служителями зоопарков, с членами моей семьи и друзьями. Я наблюдала и изучала работу дрессировщиков всех возможных типов: от ковбоев до спортивных тренеров, – и заметила, что принципы подкрепляемого обучения постепенно проникают повсюду.

Голливудские дрессировщики животных называют использование метода позитивного подкрепления «аффективной тренировкой» и используют эту технику, чтобы вырабатывать такие типы поведения, которых нельзя добиться силой – например, как в рекламном телеролике, где бык спокойно прогуливается по китайской лавке.

Сегодня многие спортивные тренеры используют позитивное подкрепление и формирование, а не полагаются на старинный метод кнута, и при этом результаты их воспитанников значительно улучшаются. Однако нигде я не обнаружила правил теории подкрепления, описанных таким образом, чтобы ими можно было непосредственно пользоваться на практике.

В этой книге я объясняю эти правила так, как я их понимаю, а также поясняю, где я считаю нужным их применять, а где, по-моему мнению, это невозможно и нецелесообразно. Тренировка с подкреплением не разрешает всех проблем – она не увеличит ваш счет в банке, не спасет от неудачной женитьбы, не поможет в случаях тяжелых заболеваний психики.

Некоторые ситуации, например, плач ребенка, не имеет отношения к проблеме тренировки и требуют других методов разрешения. Некоторые типы поведения человека и животных имеют генетические компоненты, которые трудно или невозможно изменить тренировкой. Ряд проблем просто не стоит того, чтобы тратить время на тренировку.

Практическое использование позитивного подкрепления в одной ситуации может побудить вас использовать его и в других.

Как раздраженно сказал один исследователь дельфинов, с которым я работала: «Человеку нельзя разрешать заводить детей, прежде чем он не сумеет обучить цыпленка», подразумевая, что опыт достижения результатов в обучении существа, к которому невозможно применить силу, должен показать вам, что для воспитания ребенка вы так же не нуждаетесь в применении силы.

Я заметила, что у большинства дельфиньих тренеров, использующих навыки позитивного подкрепления в своей ежедневной работе, чрезвычайно милые и приятные дети. Эта книга не обеспечит вам милых детей. И она не обещает дать вам какие-либо специфические результаты или навыки.

Что она даст вам, так это фундаментальные принципы, лежащие в основе любого обучения, и некоторые основные установки творческого применения этих принципов в различных ситуациях. Другими словами она даст вам искусство тренировки. Она может помочь вам преодолеть те неприятности, которые беспокоили вас в течение многих лет, или достичь успехов в трудных для вас делах. Она, конечно, поможет вам, если вы того пожелаете, и обучить цыпленка.

В теории подкрепления, по-видимому, существует естественный порядок, и в книге главы идут в той последовательности, в которой происходят процессы тренировки, от простого к сложному, как при реальном обучении, и это та самая последовательность, при которой наиболее легко овладеть профессией тренера.

Книга построена таким образом, чтобы постепенно складывалось разумное понимание процесса тренировки при помощи позитивного подкрепления.

Однако, так как эта теория широко применяется на практике, то в пяти главах книги в качестве примеров приводятся различные жизненные ситуации, в которых позитивное подкрепление играет положительную роль.

Источник: http://misle.ru/karen-prajor/main.html