Дифференцировочные условные рефлексы


J I пищи с рецепторами полости рта, и эта реакция может стать услов-—15'- норефлекторной. В отличие от этого при выработке инструмен­тального УР пищевое подкрепление изначально никак не связано ни с протягиванием лапы, ни с побежкой в лабиринте. Однако мы мо­жем давать животному пищу сразу после того, как оно сделало такое движение, и вскоре животное будет его совершать, чтобы получить подкрепление.

К категории инструментальных УР относится формирование на­выка нажатия на рычаг (или клевания кнопки, как на рис. 3.6) для получения порции пищи. После работ Б.Скиннера этот УР стал ос­новным в исследованиях бихевиористов (анализ связей «стимул-реак­ция»). К инструментальным УР относится также обучение подопыт­ного животного находить путь к пище или избегать неприятных сти­мулов в лабиринте. Инструментальным УР является иреакция избегания навык переходить в тот отсек экспериментальной каме­ры, где отсутствует болевое подкрепление (рис. 3.7).

Включению тока предшествует включение УС — звука или света. Чтобы избежать болевого воздействия, животное перебегает в другую половину каме-

Рис. 3.5. Рисунок, сделанный по фотографии «исторического» эпизода. Собака К. Л. Моргана научилась открывать задвижку калитки, полу­чая тем самым возможность «обрести свободу». Эта ситуация считает­ся прототипом торндайковского «проблемного ящика».

Рис. 3.6. Камера Б. Скиннерадля обучения голубей.

В верхней части левой стенки камеры размещены 3 диска-«ключа». Они раз­личаются не только по положению, но и по цвету лампочки, которая загора­ется за каждым из них. В кормушку (ниже) подают подкрепление. Клевание ключа (или, например, каждое 5-е клевание) автоматически подает зерно в кормушку.

Рис. 3.7. Челночные камеры для исследования у лабораторных крыс и мышей реакции активного избегания. А — современная установка для изучения условной реакции активного избе­гания, которая обычно состоит из 4 челночных камер с автоматизированным управлением и выводом результатов на экран монитора; Б — отдельная чел­ночная камера.

ры По прошествии небольшого периода времени (как правило, его длину варьируют, чтобы не вырабатывать у животного УР на время) ток включают в той половине камеры, куда оно перед этим перебежало УР считается вы­полненным, если животное перебегает в безопасную половину камеры во время действия УС и до включения тока.

Обширные исследования, выполненные сторонниками идей би­хевиоризма, привели к появлению целого ряда новых терминов и по­нятий и созданию специфического языка для описания закономерно­стей процесса обучения, обнаруженных только благодаря применен­ным ими подходам. Многие термины сначала использовались как чисто технические — для объективного описания данных (знакомство с ними может помочь при чтении научных статей бихевиористов). К таким терминам, в частности, относятся:

• оперантное поведение — спонтанные действия, не вызванные каким-либо очевидным стимулом;

* реактивное поведение — всякое поведение, которое совершается в ответ на определенный стимул;

« режим подкрепления (reinforcement schedule): соотношение числа реак­ций (например, нажатий на рычаг) и вознаграждений (например, кусочков пищи; подробнее см. ниже);

» постоянный (или переменный) интервал (fixed or variable interval) — вознаграждение дается через определенные интервалы времени, в период которых животное может осуществлять двигательные реак­ции (эти интервалы могут быть постоянными или варьировать по длительности), но по истечении этого интервала подкрепляется только первая реакция;

« фиксированное (или переменное) соотношение (fixed ratio or variable ratio) — подкрепление дается животному только после того, как оно

произведет какое-то количество реакции (нажатии или клевании. Можно давать подкрепление только после определенного числа ре­акций (фиксированное соотношение) или это число может каким-то образом варьировать (переменное соотношение);

« смежность (contiguity) — этим термином обозначают постулируемое возникновение связей между стимулами и возникающими на их ос­нове реакциями, а также совпадение УС с реакцией животного или УС с подкреплением, которое необходимо для возникновения УР;

» ключ (cue) — обычно это либо рычаг, на который нажимает крыса, либо освещенный кружок, по которому наносит удар клювом голубь (этот термин, обычный для работ бихевиористов, не следует путать с термином «ключевой стимул», принятым в этологии для обозначе­ния видоспецифических стимулов, вызывающих инстинктивные ре­акции (см. 2.11).

На рис. 3.6 схематически изображена камера для выработки инст­рументальных УР у голубей. Скиннер считал, что любое поведение, относящееся к категории «оперантное», можно модифицировать, если при его выполнении давать животному подкрепление. Именно такой подход он предложил как эффективный способ анализа поведения. Если для выработки классических УР необходимы сочетания услов­ных сигналов и подкрепления, то при методике свободного оперантно-го поведения, предложенной Скиннером, экспериментатор сопровож­дает подкреплением выполнение животным только определенного, намеченного им действия.

Например, крысу можно обучить нажимать на рычаг, если сначала со­провождать подкреплением любые ее действия в той части камеры, где он находится. Постепенно крыса обучается держаться вблизи рычага, и тогда подкрепление дают только, если она касается рычага мордой или лапой (для этого иногда на рычаг даже кладут пищу) Через некоторое время подкрепле­ние дается только после выполнения четких движений — нажатий (одного или нескольких) лапой на рычаг.

Такое постепенное видоизменение поведения животного в ре­зультате вмешательства экспериментатора называется методом после­довательного приближения или формированием (shaping) поведения.

Деление условных рефлексов на классические и инструменталь­ные, удобное методически, не означает, что они имеют совершенно разную природу. В их основе лежат сходные нейрофизиологические механизмы, а любое «чисто» инструментальное действие животного всегда сопровождается реакцией, которая относится к классическим УР. И наоборот, в любом «чисто» классическом УР можно обнаружить Двигательный компонент, который по своим свойствам относится к инструментальным (Борукаев, 1982).

О связи классических и инструментальных УР свидетельствует также «самоформирование» условной реакции (auloshaping). Например, если голодного голубя поместить в камеру Скиннера и в течение 5 с осве­щать ключ для клевания с интервалом в 1 мин, а после прекращения

освещения давать порцию нищи, то голубь сначала не обращает вни­мания на ключ. Однако после нескольких таких сеансов формируется инструментальная реакция, и он быстро начинает клевать ключ не­зависимо от освещения. Постепенно голубь научается клевать ключ только при его освещении, т.е. реакция становится более точной — она самоформируется. В данном случае она очень близка к классичес­кому УР, поскольку голубь клюет ключ как бы вместо зерна, даже в отсутствие подкрепления.

С помощью метода «последовательного приближения» у животных удается сформировать не только клевание ключа при его освещении, но и самые разнообразные, сложные и иногда неожиданные навыки. В опытах Скиннера голуби «играли» в пинг-понг, а крысы могли под­тянуть к себе с помощью бечевки бильярдный шар, взять его в перед­ние лапы и засунуть в трубку, расположенную на 5 см выше пола клетки (описание экспериментов П. Эпштейна, посвященных форми­рованию сложных навыков у голубей, будет дано в гл. 4.8.2).

Метод последовательного приближения составляет основу дрес­сировки цирковых и служебных животных. Примером продуктивного использования принципов бихевиоризма, и в частности роли метода последовательного приближения в формировании поведения, является работа знаменитой американской дрессировщицы дельфинов и психо­лога К. Прайор(1995).

Тезис Скиннера о том, что любые движения, на которые способно животное данного вида, равновероятно можно использовать для инст­рументального научения, был достаточно обоснованно подвергнут со­мнению в работе его коллег — К. и М. Бреландов (Breland, Breland, 1961). Некоторые виды животных при обучении манипуляциям с предметами производят «заданные» экспериментатором действия только после вы­полнения некоторых врожденных (инстинктивных) действий либо со­всем не могут им научиться. Так, например, обучая енота нажимать на рычаг, Бреланды заметили, что нажатию предшествует видоспецифи-ческое движение лап — «полоскание», характерное для этого вида при добыче пищи из ручья (за что енота и называют «полоскун»). На основа­нии таких наблюдений возникло представление о предрасположеннос­ти к определенным видам обучения (подробнее см.: Зорина и др., 1999).

В Образование инструментальных УР по механизму «последова-

В тельного приближения» играет важную роль в организации пове­дения животных не только в эксперименте, но и в естественных В условиях.

Обучение по методу последовательного приближения может про­исходить самым неожиданным образом. Об этом, в частности, свиде­тельствует получившая широкую известность в началеXX века исто­рия «умного Ганса». Это был конь, который демонстрировал способ­ность «считать», «складывать», «извлекать корни», отвечать на вопросы

Рис. 3.8. Инструментальные условные рефлексы у дрессированной лоша­ди «умного Ганса». На фотографии видно, как ударами копыта по специальной доске Ганс сигнализировал «правильный» ответ (по Н. Н. Ладыгиной-Коте, 1914).

и т.п. (рис. 3.8). Столь «разумное» поведение объяснялось тем, что конь научился замечать малоуловимые движения дрессировщика, которые тот непроизвольно совершал, видя, что конь вот-вот даст правиль­ный ответ. Ориентируясь на эти условные сигналы, конь в нужный момент прекращал стучать копытом.

В начале XX века (1900—1904) барон В. фон Остен, убежденный в огром­ных умственных способностях лошадей, обучал нескольких из них различе­нию цветов, азбуке и «счету». Узнавание каждой буквы или цифры лошадь обозначала соответствующим числом ударов копыта. Друг фон Остена худож­ник Редлих обучил таким же образом свою собаку. Наиболее способным уче­ником оказался орловский рысак Ганс, который производил достаточно слож­ные арифметические подсчеты, отвечал на разнообразные вопросы, а иногда высказывался по собственной инициативе. Так, супруги Н. Н. и А. Ф. Коте, специально приехавшие для знакомства с ним в 1913 году, рассказывали, что после нескольких относительно коротких ответов на вопросы Ганс заявил:

«В поле я встретил милую госпожу Краль, которая меня кормила».

Поведение его было столь впечатляющим, что вводило в заблуждениенетолько публику, но даже членов специальных комиссий, включая Н. Н. Лады-гину-Котс. Предполагали, что хозяин подает коню некие скрытые сигналы (как дрессировщик — цирковым животным), однако его обследовали 13 экспертов (комиссия психолога К. Штумпфа) и не обнаружили никакого обмана. Они засвидетельствовали, что Ганс действительно «считает» и ника­ких скрытых сигналов ему не подают. И лишь много позднее наблюдатели постепенно заметили, что Ганс отвечает только на те вопросы, ответ на которые знает сам экспериментатор. Специальный анализ, проведенный пси­хологом О. Пфунгстом. показал, что животное реагирует на мельчайшие

непроизвольные (идеомоторные) движения экспериментатора, например цд отклонения корпуса на 2 мм, микродвижения бровей, мимику и т.п. Эта не­вольная подача сигналов происходила, по-видимому, из-за эмоционального напряжения человека, по мере того как число ударов копытом приближалось к искомому. Даже картонный щит, которым пробовал отгородиться от Ганса экспериментатор, не помогал: животное все равно улавливало какие-то толь­ко ему понятные знаки для определения правильного ответа.

Для проверки своего предположения Пфунгст специально научил Ганса реагировать на микродвижения, которые он совершал уже сознательно, и продемонстрировал комиссии механизм и природу «математических способ­ностей» этой лошади.

История «умного Ганса» оставила заметный след в развитии науки о поведении животных:

* она показала, сколь сложное поведение могло быть результа­том обучения методом проб и ошибок;

* продемонстрировала справедливость «канона Ллойда Моргана» (см. 2.3) и актуальность его применения, поскольку в основе поведения этой «мыслящей лошади» лежали чисто условнореф-лекторные, а не связанные с мышлением механизмы;

* впервые привлекла внимание к проблеме чистоты эксперимента с точки зрения возможностинеосознанного влияния экспери­ментатора на его результаты,

* заставила по-новому взглянуть на возможности восприятия жи­вотных: способность уловить едва заметные движения человека свидетельствовала об их большой наблюдательности и способ­ности концентрировать внимание.

Перестав подкреплять выполнение условной реакции, можно не только «угасить» УР, но и «усовершенствовать» его, т.е. добиться, что условная реакция будет осуществляться точно на данный и только на данный стимул, а близкие по своим физическим свойствам раздражи­тели ее не вызовут. Как известно, в начале формирования УР живот­ное реагирует не только на строго конкретный условный стимул, на­пример звук определенной частоты, но и на сходные с ним звуки, хотя и не полностью ему идентичные, например звуки близких частот (см. рис. 3.2Б). Эта стадия выработки УР называетсягенерализацией. Далее исследователь продолжает подкреплять (пищей или избавлени­ем от опасности) условную реакцию только на определенный сигнал и не подкрепляет ответов на сходные, и в результате они постепенно угасают. Таким способом животное обучают различать — дифференци­ровать — весьма похожие сигналы.

В основе формирования дифференцировочных УР лежитдифферен­цированное торможение один из видов внутреннего торможения.

Процедура такого «совершенствования» сигнального значения условных раздражителей была названа И. П. Павловым дифференци-довкой, или выработкой дифференцировочных условных рефлексов (см. также рис. 3.2).

Выработка дифференцировочных УР (разными методами) успешно ис­пользуется для оценки сенсорных способностей (т.е. возможностей органов чувств) животных разных таксономических групп (см., например: Дьюсбери, 1981; Pearce, 1998). Так, выработав у животного УР дифференцирования (раз­личения) двух цветовых стимулов, можно, выравнивая их другие параметры (например, яркость), изучать механизмы восприятия цвета. При этом если животное, в силу особенностей органов чувств, не воспринимает различий между двумя зрительными стимулами (цветами спектра), то выработать у него устойчивую дифференцировку такой пары стимулов невозможно.

Методики выработки дифференцировочных УР весьма многочис­ленны и разнообразны по процедуре эксперимента. Перечислим ос­новные параметры, по которым различаются такие методики.

1. Порядок предъявления стимулов может быть последовательным или одновременным. При последовательном предъявлении голубь должен научиться клевать кнопку (диск) в ответ на стимул А и воздерживаться от реакции при включении стимула Б (методи­ка go— no go). Выработка дифференцировки, таким образом, состоит в торможении реакции на второй стимул. При одновре­менном предъявлении конкретной пары стимулов животное учится различать (дифференцировать) их абсолютные призна­ки. Например, при дифференцировке стимулов по их конфигу­рации животному одновременно показывают две фигуры — круг и квадрат, и подкрепляют выбор одной из них, например, круга. Это наиболее распространенный вид дифференцировочных УР. Выработка и упрочение такой реакции требует, как правило, многих десятков сочетаний.

2. Животному предлагают сделатьвыбор стимулов: альтернатив­ный или множественный.

3. Предъявление стимулов может осуществляться в соответствиис двумя режимами: повторение одной пары стимулов до дости­жения критерия и чередование нескольких пар стимулов при систематическом варьировании второстепенных параметров.

Рассмотрим некоторые методы более подробно.

При систематическом варьировании второстепенных параметров стимулов можно оценивать способность животных различать не толь­ко данную конкретную пару раздражителей, но и их«обобщен­ные» (отвлеченные) признаки, совпадающие у многих пар.

Например, животных можно обучить различать не конкретные круг и квадрат, а любые круги и квадраты независимо от их размера, цве-

6-5198

та, ориентации и т.п. С этой целью в процессе обучения каждый сле­дующий раз им предлагают новую пару стимулов (новые круг и квад­рат). Новая пара отличается от остальных по всем второстепенным признакам стимулов — цвету, форме, размерам, ориентации и т.п., но сходна по их основному параметру — геометрической форме, раз­личения которой и предполагается добиться. В результате такой трени­ровки у животного постепенно происходитобобщение основного при­знакаи отвлечение от второстепенных. В приведенном примере обоб­щается признак «круг» (подробнее см. гл. 5).

Данный режим оказался весьма эффективным для выработки диф-ференцировочногоУР на обобщенный признак «мерность», когда животное училось выбирать любую объемную (трехмерную) фигуру и не реагировать на плоские (двумерные) фигуры (см. 4.6.3). В таких опытах с собаками, обезьянами и воронами у одной группы животных каж­дого вида вырабатывали УР выбора любой объемной (трехмерной) фигуры, а у второй группы — любой плоской (двумерной). Каждый раз животному предъявляли новую пару стимулов из набора, изобра­женного на рис. 4.15' (всего 30 пар), причем плоская фигура всегда представляла собой фронтальную проекцию объемной.

Может возникнуть предположение, что задача по выработке таких дифференцировок для животных очень сложна, однако с ней справ­ляются не только приматы, но и хищные млекопитающие (Дашев-ский, Детлаф, 1974), а также птицы — врановые (Крушинский и др., 1981) и даже голуби. При этом животным всех указанных видов требо­валось примерно столько же сочетаний, как и при выработке диффе-ренцировки с одной парой стимулов. После такой серии обучения они способны выбирать любую новую объемную (или плоскую) фи­гуру без дополнительной тренировки.

При систематическом варьировании второстепенных призна­ков стимулов можно исследовать не только способность животных к обучению, но и более сложную форму их высшей нервной дея­тельности —способность к обобщению, которая составляет одно из важнейших свойств довербального мышления животных (гл. 5).

Как уже упоминалось, животные с разным уровнем структурно-функциональной организации мозга практически не различаются по способности к простым формам условнорефлекторного обучения. Об­разование отдельных дифференцировочных УР в этом плане не со­ставляет исключения. Однако благодаря использованию дифферен­цировочных УР в качестве элементарных единиц обучения и созда­нию их разнообразных комбинаций было разработано несколько экспериментальных процедур, которые называют«сложными фор­мами обучения», или серийным обучением (serial learning). Появление этих методов было связано со стремлением специалистов все же вы­явить какие-то различия в способностях у животных разных таксоно-

цеских групп с разным уровнем организации мозга (см. 8.1). Наи­более важные из этих методов:

* последовательные переделки сигнального значения дифферен­цировочных стимулов;

» формирование установки на обучение;

» формирование «систем» дифференцировочных УР.