Надёжность психологического теста — психология

Надёжность психологического теста — Психологос

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный.

Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания.

Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

  • Метод расщепления или метод автономных частей
  • Метод эквивалентных бланков
  • Альфа Кронбаха

Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления.

Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0.

Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Источник: https://www.psychologos.ru/articles/view/nadzhnost-psihologicheskogo-testa

Надежность теста

Надежность теста один из критериев качества теста, относящийся к точности психологических измерений. Чем больше Надежность теста, тем относительно свободнее он от погрешностей измерения.

Надежность теста рассматривается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов.

Надежность теста — фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании.

Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования.

Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д.

Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т.

будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 — 0,9.

Надежность эксперимента

устойчивость результатов эксперимента при его проведении второй, третий, четвертый и т.д. раз.

Добиться объективности психологического теста можно при выполнении следующих условий:

1)         единообразие процедуры проведения теста для полу­чения сравнимых с нормой (см. ниже) результатов;

2)         единообразие оценки выполнения теста;

3)         определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тес­тирования (см. здесь «тре­тий этап стандартизации»).

Эти три условия называют этапами стандартизации психологического теста.

Этапы стандартизации

На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1)        условия тестирования (помещение, освещение и др. внешние факто­ры). Очевидно, что объем кратковременной памяти  лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раз­дра­жителей, таких как посторонние звуки, голоса и т.д.

2)        Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

3)        Наличие стандартного стимульного материала. Например, дос­то­верность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные — с определенной цветовой гаммой и цветовыми оттенками.

4)        Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5)        Стандартный бланк для выполнения данного теста. Использование стандартного блан­ка облегчает процедуру обработки.

6)        Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испы­ту­емого (усталость, пере­напряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7)        Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8)        Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тес­тирования, преодолел чувство неизвестности и выработал опре­деленное отношение к тестовой ситуации. Например, если респон­дент уже выполнял тест Равена, то, скорее всего, не стоит предла­гать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в соз­дании единообразной оценки выполнения теста: стандартной интер­претации полученных результатов и предварительной стандартной обра­бот­ки. Этот этап предполагает также сравнение полученных пока­зателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста.

Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм:

Школьные нормы — разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.

Профессиональные нормы  устанавливаются на основе тестов для разных про­фес­сиональных групп (например, механиков разного про­филя, машинисток и др.).

Локальные нормы устанавливаются и применяются для узких кате­го­рий людей, отличающихся наличием общего- признака — возраста, пола, географического рай­о­на, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.

Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходи­мость таких норм определяется конкретной куль­турой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой.

Источник: http://hr-portal.ru/article/nadezhnost-testa

Почему не стоит доверять психологическим тестам — Сергей Смирнов

Психология давно и надежно обосновалась в женских журналах. Психологическими тестами пестрят сайты для женщин. Но знаете ли вы что эти тесты опасны? И что их результаты не достоверны?

Вы можете подумать что недостоверны результаты тестов, которые выдумали в редакции без участия психологов. Возможно даже вы скажете что используете только тесты, взятые только из проверенных источников. Или всемирно известными вроде MMPI.

Спешу вас расстроить. Даже оригинальный MMPI не даст вам достоверного результата. Почему так происходит? Для начала мне придется рассказать немного о том, как создаются психологические тесты.

Как создаются психологические тесты

Знакомьтесь, это — Ученый. Прямо сейчас он, специально для вас, создаст тест и позволит вам понаблюдать за этим процессом.

Для начала, Ученый выбирает что хочет измерять. Допустим, это будет уровень агрессии. У Ученого нет отдельной теории, которая структурирует агрессию или разбивает ее на составляющие. Он хочет мерить просто агрессию. В общем и целом.

Для начала, он составляет список из того, что, по его мнению, характеризует агрессивных людей. Ну какие они? Что они делают? Они часто кричат, комфортно чувствуют себя в споре, считают что лучшая защита — это нападение и конечно любили драться в детстве. «Ах да!» — вспоминает Ученый о Фрейде — «у них наверняка был властный отец!».

Из списка утверждений Ученый делает список вопросов: «Легко ли вы переходите на крик? Вы комфортно чувствуете себя в споре? Ваш отец часто заставлял вас выполнять работу по дому силой?»

Затем Ученому нужно проверить как работает его опросник. Для этого ему нужно много людей. Он собирает 1000 людей и нарекает их выборкой. Ученый заставляет несчастных людей заполнить его опросник. Теперь настало время Ученому быть несчастным.

Он обрабатывает полученные данные. Он смотрит на то, какие ответы давали люди на вопросы. Используя математические и статистические методы, Ученый выявляет неэффективные вопросы и выкидывает их.

Другие аспекты исследования он усиливает дополнительными вопросами. Прибегает к ухищрениям чтобы минимизировать разные эффекты, искажающие результаты.

Ученый наверняка проведет еще несколько проверочных исследований.

https://www.youtube.com/watch?v=KVGuDLxnc_A

Затем Ученый определяет надежность. Это важный показатель, который говорит нам что тест дает достоверные данные.

Для определения надежности, Ученый дает тот один и тот же вариант теста одним и тем же людям, но с паузой между подходами. Если для каждого человека тест дает примерно один и тот же результат — он надежный.

Читайте также:  Любовь и позиции восприятия - психология

Ученый подгоняет тест под определенные требования к погрешностям. Для этого, возможно, придется вернуться на несколько шагов назад.

Валидность — еще один важный показатель. Он говорит нам что тест измеряет действительно то что должен. Чтобы не получилось так что мы хотели померить агрессию, а померили уровень открытости или длину большого пальца правой руки. Ее тоже сложными методами проверяют и доводят до высокого уровня.

В результате нескольких лет(!) упорной работы в горах анкет, людей, столов и цифр, на свет рождается тест. Он измеряет всего-лишь одну шкалу — шкалу агрессивности. Ученый устал, Ученый уходит на пенсию со спокойной душой. Он обогатил мировую коллекцию психологических тестов еще одним.

Мировую ли? Как выясняется — нет, только локальную.

Стандартизация и требования к использованию тестов

Если перевести тест на другой язык — будет ли он работать так же хорошо? Ученые пробовали и однозначно отвечают — нет, не будет. Разница в языке и культуре очень значительна.

Для того чтобы он заработал так же, как оригинал, нужно провести все те процедуры, что проводил Ученый, подгоняя надежность и валидность и бесконечно изменяя тест и проверяя его на больших выборках.

То есть, фактически создать его заново.

Именно так. Просто переведя вопросы, вы превратите микроскоп в кучу мусора.

Пойдем дальше. Влияет ли бланк, на котором даются вопросы на точность теста? Ученые пробовали, изучали и точно отвечают — да, влияет. Влияет не только бланк с вопросами и ответами, но обстановка в комнате, процедура проведения теста.

Проводится ли он один на один? Остается ли тестируемый в одиночестве с опросником? Может, тест дается группе респондентов? Читались ли психологом инструкции? Отвечал ли психолог на вопросы, возникающие у испытуемых? А как он отвечал?

Все это крайне важно и абсолютно точно — влияет на точность теста.

Итак, тест — это мощный инструмент, но чтобы просто им пользоваться, нужно учиться. Причем долго. На западе нужно получать лицензию для использования каждого (!), теста.

Отучившись год для использования опросника Кеттела, психолог будет использовать его везде. И подтрунивать над коллегами за то, что они не имеют права его использовать потому что не умеют.

Более того, опросник Кеттела они нигде не достанут! Потому что продается он только в специальном магазине по лицензии. И стоит дорого.

Тест — это не просто инструкция в два предложения и список вопросов с ключом. Это книга! В которой описано все. Зачем создавался тест? Что он измеряет? На ком его можно использовать? Когда? Какие редакции существуют? В чем отличия? Какова валидность теста (в процентах)?

Инструкция — это не просто несколько предложений. Там расписано все. В плоть до пауз между словами и уровня громкости произнесения некоторых фраз. Инструкция зачитывается с листа, либо заучивается наизусть! В противном случае данные теста будут настолько ненадежны, что проще их выбросить.

Психологические тесты в интернете

Вы прочитали все что выше и теперь знаете о психологических тестах много. Куда больше чем средний человек, не имеющий отношения к психологии. Но вы наверняка смущены. Ведь вы видели огромное количество тестов. Даже на специальных психологических сайтах. И нигде не было ничего подобного.

Вот именно. И теперь вы понимаете какова цена всех этих тестов и их результатов.

Даже отличный валидный и надежный тест, переведенный в электронный вариант, меняет свои показатели.

Достоверно известно, что существуют специальные эффекты для тестов, которые проводятся при помощи компьютера.

Например, люди склонны отвечать что-то неопределенное или среднее (например при выборе из трех вариантов да-возможно-нет) при проведении компьютерного варианта. Разумеется это сказывается на работе теста.

Но ведь тесты работают!

Воскликнете, возможно, вы. «А как вы это поняли?» — Спрошу я. Скорее всего, вы, получив результат теста и посмотрев его расшифровку в приложении, сопоставили ее с собой. Там написано что-нибудь, что характеризует вашу личность. Вы читаете это и понимаете что это про вас. Ну или почти про вас, но довольно точно. Ишь ты! Не соблюли все эти бюрократические процедуры, а тест-то работает!

Нет, не работает. Это просто ваша оценка себя.

Если бы каждый человек мог себя адекватно оценить (желательно в цифрах), то психологические тесты были бы не нужны.

Расскажу вам о еще одной забавной вещи. Она известна как Эффект Барнума. А в народе — эффект гороскопов.

Эффект Барнума

Тейлор Барнум

Вот выдержка из википедии:

Вы только что ответили на кучу вопросов личного характера и подсчитали какие-то баллы. Практически, совершили научные манипуляции по инструкциям, созданным (как хочется думать) большими учеными. Ну конечно полученный результат характеризует исключительно вас! Эффект Барнума в действии.

Этот эффект будет работать для чего угодно. И это неоднократно проверено. Впервые это было доказано в эксперименте Форера.

«Женщины по имени Маша легки на подъем и просты в общении. Но могут постоять за себя когда нужно. Они любят доверять людям. Иногда они грустят, не прочь пожалеть себя-родимую, но в общем жизнерадостны и приветливы. Из них получаются хорошие жены.»

Здесь привязка к вам идет по имени и полу. Остальное — набор ничего не значащих общих характеристик, которые подходят практически кому угодно. Если вы — женщина и вас зовут Маша, вы будете более склонны определять данное описание как подходящее вам.

Так почему опасны психологические тесты?

Вернемся к тезису статьи. Я утверждал что тесты опасны. Да, это так. Как скальпель в руках специалиста — инструмент спасения жизни, так он же в руках неумехи — просто острый кусок железа, которым можно серьезно повредить что-нибудь жизненно важное.

Назовем тест, результаты которого не заинтересуют ни одного нормального психодиагноста, плохим тестом. Это может значить что сам тест хороший, но применялся неправильно. Но для краткости — плохой.

  • Итак, результат плохого теста может быть воспринят субъективно как отрицательный. Например, он покажет что испытуемый — неудачник. Если испытуемый склонен сильно верить этому тесту, это может нанести психологический вред. Идентифицируя себя с неудачником (тест же показал!) человек может изменить свою жизнь в худшую сторону. Психолог знает что результат теста не говорит о том «хорошо все или плохо», он просто показывает. Как стрелка на спидометре. Когда психолога рядом нет, человек воспринимает показания теста как «хорошие» или «плохие». У этого есть негативные последствия.
  • Результат плохого теста может быть не воспринят как достоверный. Это, в общем, правильно. Человек получил плохой результат и отверг его. Но вместе с этим результатом он отправляет в мусорную корзину результаты грамотно проведенных тестов. И сами эти тесты. Теперь он не верит в психологические тесты вообще. И в психологию, кстати — тоже. Вред тут не очевиден, но это будет тормозящим фактором, который может помешать человеку обратиться к психологу тогда, когда это ему потребуется. Человек будет страдть, отвергая помощь.
  • Ну и последнее. Оно, вообще говоря, относится не только к плохим, но и к хорошим тестам в руках плохих психологов. Психологический тест всегда поставит человека в какие-то определенные рамки и даст ему характеристику, оценку. Он теперь не просто человек, а сангвиник, склонный к вербальному выражению агрессии и обладающий выраженной способностью к эмпатии. С одной стороны, это дает ему какие-то знания о себе (зачем они ему, кстати?), но с другой — делает пленником этих определений.

Он может теперь надеть личину сангвиника и вести себя как подобает сангвинику (а не Пете Иванову), он может использовать их как щит: «Я же склонен к вербальной агрессии, могу обзываться сколько хочу, такой уж я!». Заключения теста могут не давать человеку видеть изменений в себе. Он, может, уже закрылся, но все еще считает себя способным к эмпатии.

Ну и что делать?

Для начала, я рекомендую задаться вопросом: «А зачем мне проходить психологический тест?». Что вы хотите узнать? Какой результат вы хотите получить и что вы с ним будете делать. Ответ «ну интересно же» — не в счет. Почему интересно?

Если вы считаете что все-таки психологический тест вам пройти необходимо, то обратитесь к профессиональным психодиагностам.

Теперь вы знаете насколько серьезна процедура тестирования и сможете отличить серьезного академического психодиагноста, который сможет профессионально применить инструменты и проанализировать результат, от непрофессионала, который проведет вам тест, который будет не точнее газетных.

Хотя конечно, никто не запрещает использовать тесты в журналах и интернете просто для развлечения. Важно только понимать что результаты, полученные вами таким образом, далеки от точных и объективных. А для проведения досуга они вполне подходят.

Информация на почитать:

Источник: http://Sergey-Smirnov.ru/psytests-barnum-effect

Надёжность психологического теста — Психологос

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный.

Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это – эффект привыкания.

Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

  • Метод расщепления или метод автономных частей
  • Метод эквивалентных бланков
  • Альфа Кронбаха

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Читайте также:  Модели воспитания: запреты и предписания - психология

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления.

Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0.

Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.Источник — «http://www.psychologos.ru/Надёжность_психологического_теста»

Источник: http://archive.fo/Kjk7

Надежность психодиагностических методик

В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и

повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в

начале недели ребенок имел показатель, равный 110, а к концу — 80. Повторное применение надежных методик дает сходные оценки. При этом в

определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при

повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать,

что надежность методики — это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают

доверие полученные результаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих

точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания,

как методику предъявлять испытуемым, и т. д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие

посторонних шумов и т. д.);

4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.

д.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утомление и т. д.);

6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по

степени полноты, оригинальности и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого

уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры

обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций,

одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д. При такой

стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом

повысить их надежность.

На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель,

например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям

близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест

испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может

возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту.

Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому

в руководстве обычно делается описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования,

профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим

только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее

надежность, то эта процедура должна быть проведена заново.

Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью

которого устанавливается надежность методики — это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент

корреляции подходит к единице, и наоборот.

В данной книге при описании видов надежности основной упор делается на работы К. М. Гуревича, который, проведя тщательный анализ зарубежной

литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:

— надежность самого измерительного инструмента;

— стабильность изучаемого признака;

— константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначить следующим образом:

— показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;

— показатель, характеризующий стабильность измеряемого свойства — коэффициентом стабильности;

— показатель оценки влияния личности экспериментатора — коэффициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если

полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при

необходимости, заняться критерием константности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Определение надежности измерительного инструмента

От того, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит

точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же

свойство, признак.

Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод

«расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между

собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания.

Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет

достаточно высоким.

Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п.

Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от

влияния таких факторов, как врабатываемость, тренировка, утомление и пр.

Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.

Определение стабильности изучаемого признака

Определить надежность самой методики — это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив,

стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность

психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах

варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам

оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у

такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит

резкое колебание, то такой признак не может быть использован в диагностических целях.

Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном

обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго

обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о

том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние

часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это

условие также должно быть соблюдено и т. д.

При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого

до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением

временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее.

Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои

сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким

образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.

Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической

сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть

научно обоснован. В те-стологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При

Читайте также:  Карл густав юнг - психология

обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких

недель.

Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).

Определение константности (относительной независимости результатов от личности экспериментатора).

Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно

знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными

инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения

экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам

экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет

требовательность, настойчивость или бесконтрольность и т. п.).

Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов

методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно

проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые

в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не

окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а

третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в

выборке.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же

выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять

проверку каждого из них? На этот вопрос следует дать утвердительный ответ.

Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности — это

родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич. По его мнению,

когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом

деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого

свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в

отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной

характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического

применения.

Источник: Акимова М.К. Психологическая диагностика

Также читайте:

Источник: http://www.psyhodic.ru/arc.php?page=194

Эффективность психологических тестов

Ольга Данилова.

Критерии оценки эффективности теста, разработка психологических тестов

Ошибки, влекущие за собой снижение эффективности теста, появляются, если:

Тест неправильно составлен

Тест неправильно стандартизован

Тест неправильно использован

Конструирование теста

Прежде всего, необходимо четко представлять себе то психологическое свойство, которое будет измерять будущий тест. Ни один тест не создается «с нуля», обычно за его созданием стоит длительная научная работа по изучению тематического материала.

Перед конструктором психологического теста стоит сложная задача — наиболее полно отразить все стороны измеряемого психологического свойства через минимальное количество заданий. Последнее условие — один из критериев эффективности теста.

Это не означает, что личностный опросник Кеттела, содержащий полтысячи вопросов, можно считать неэффективным. При таком большом количестве измеряемых личностных факторов (16) такое количество вопросов является оптимальным. То же касается тестов на интеллект, мотивацию и другие обширные психические сферы.

Остерегаться следует опросника, скажем, на стремление к риску, содержащего 250 вопросов.

Кроме этих требований, тест должен соответствовать целевой группе, на которую он направлен. Разрабатываются задания соответствующей сложности и доступности для разных возрастных групп, для людей с различными психическими нарушениями, для представителей разных национальных и языковых групп. Если тест предлагается к проведению в другой языковой группе или стране, его необходимо адаптировать.

К адаптации относятся не только перевод заданий, но и перестройка фраз, понятий, замена фразеологизмов, пословиц и поговорок на аналогичные им в данном языке. Смысл вопросов должен передаваться с учетом религиозных взглядов данной группы.

Также необходимо учитывать и некоторые эффекты, наблюдаемые при заполнении людьми тестовых заданий.

Так называемый эффект социальной желательности срабатывает тогда, когда человек в своих ответах хочет представить себя в лучшем свете.

Многие тесты вооружены до зубов «шкалами лжи», вопросами-ловушками и пр. Но и это не всегда помогает — человек находит одинаковые вопросы, держит в памяти свои ответы.

Есть еще один прием — подмена цели теста в инструкции, если эта цель вообще открывается испытуемому. Тогда человек, отвечая на вопросы, показывает себя хорошо с одной стороны (ложная цель) и дает более или менее достоверные сведения о другой стороне (истинная цель), которая на самом деле измеряется данным тестом.

Существуют и требования к формулировке вопросов, к порядку их расстановки в тесте. Они опять же зависят от целевой группы, на которую тест рассчитан.

Правильно составленный тест еще нельзя назвать разработанным. Для этого он должен быть стандартизован.

Стандартизация

Стандартизация теста обеспечивает возможность сравнения полученных с его помощью данных от разных людей. Для этого необходимо, чтобы все эти люди находились в равных условиях.

На психологическом языке это называется «контроль всех зависимых переменных». В идеале единственной независимой переменной в тесте будет личность испытуемого.

Для обеспечения равных условий разработчик теста дает специальные указания по его проведению. Они включают:

Специфику стимульного материала

Временные ограничения (time limits)

Инструкцию испытуемым

Пробные образцы заданий

Допустимые ответы на вопросы (если таковые ограничения необходимы)

Кроме этих указаний, в приложение к тесту включаются специально установленные нормы ответов (в «сырых баллах») и их интерпретации.

Помимо стандартизации тест должен быть проверен на предмет своей эффективности по критериям надежности и валидности. Очень часто эти понятия делают взаимозаменяемыми, поэтому рассмотрим, какое значение имеет каждое из них.

Надежность

Под надежностью понимают согласованность результатов, полученных при каждом повторном выполнении теста одним и тем же испытуемым, с результатами его первого тестирования. Абсолютной тестовой надежности не существует, погрешности допускаются, однако чем они выше, тем ниже тестовая эффективность. Надежность можно проверить следующими методами:

тест-ретестовая надежность подразумевает многократное выполнение одного теста и корреляционное сравнение полученных результатов.

разделенная надежность определяется при делении теста на две части и сравнение результатов выполнения двух частей по отдельности.

эквивалентная надежность выявляется путем предъявления испытуемому теста и его альтернативного варианта. Полученные результаты также сравниваются между собой.

Валидность

Психологические словари раскрывают понятие валидности как степени соответствия теста своему назначению измерять то, для чего он создан; действительной способности теста измерять ту психологическую характеристику, для диагностики которой он заявлен. Количественно валидность теста может выражаться через корреляции результатов, полученных с его помощью, с другими показателями, например, с успешностью выполнения соответствующей деятельности.

Кроме того, валидность теста можно установить, сравнивая его результаты с результатами по аналогичным методикам.

К примеру, разработанный тест на вербальный интеллект можно провести вместе с известным тестом Амтхауэра, сравнив затем их результаты.

Высокая корреляция результатов будет означать высокую валидность — значит, новый тест действительно измеряет вербальный интеллект, а не речевые способности, память, внимание и т.д.

Выше было сказано про ошибки на этапе использования теста. Нарушение условий его проведения, рекомендуемых в приложениях, может привести к снижению валидности.

Допустим, мы проводим тест на запоминание слов и, видя, что испытуемый достаточно способный, увеличиваем скорость прочтения списка слов. В этом случае увеличение скорости будет дополнительной независимой переменной, проще говоря, помехой.

В результате вместо скорости запоминания мы будем измерять стрессоустойчивость личности.

Оценка валидности теста включает следующие этапы:

определение очевидной валидности (face validity). Такую валидность видно, что говорится, «невооруженным глазом» — оценивается общее соответствие теста его назначению.

определение концептуальной валидности (construct validity). Степень соответствия теста, измеряющего какое-либо свойство, общепринятым теоретическим представлениям об этом свойстве. Как правило, эта валидность оценивается экспертами.

определение эмпирической валидности (empirical validity). Выбирается критерий (независимая переменная), с которой связываются результаты теста. К примеру, критерием для теста готовности к школе может стать общая оценка успеваемости первоклассника.

определение содержательной валидности (content validity). Разработанный тест должен включать вопросы для оценки максимально возможного числа параметров того свойства, которое этот тест измеряет (выше упоминалось первое правило составления теста — максимальное количество параметров свойства через минимальное количество заданий). Эта валидность также оценивается с помощью экспертных оценок.

Кстати, не только новые тесты проходят такой экзамен. В настоящее время многие исследователи заняты анализом эффективности уже известных тестов.

Недавняя полемика на страницах психологического журнала «Psychological Science in the Public Interest» поставила под сомнение эффективность таких «мэтров» психодиагностических инструментов, как тест чернильных пятен Роршаха, ТАТ (тест тематической апперцепции) и проективный тест-рисунок фигуры человека.

Оказалось, что эти психодиагностические методики имеет низкую эмпирическую валидность, низкую тест-ретестовую надежность и некорректно составленные нормативные показатели.

Вышеприведенные методы оценки эффективности теста помогают психологу не только самому конструировать инструменты для измерения определенных свойств личности, но и выбирать из уже разработанных тестов наиболее качественные и надежные.

Психологический комплекс Effecton Studio

Основным приоритетом при создании комплекса Effecton Studio, было включение только научно-обоснованных и информативных методик.

Кроме того, нашим пользователям, а также посетителям сайта и читателям рассылки, мы предоставляем информационное сопровождение психологических методик.

Эффективности и эргономичности работы мы уделяем особое внимание — после прохождения психологических тестов Effecton Studio, пользователю не только сырые результаты, но и их интерпретация, предоставляются удобные методы группового тестирования и статистического анализа.

Разработано также множество других возможностей, с которыми мы рекомендуем Вам ознакомиться, скачав демонстрационную версию с нашего сайта и заказав комплекс для использования в своей организации. Вы можете также сообщить о комплексе другим заинтересованным пользователям, в случае чего, Вы получите 25% от стоимости сделки.

Источник: http://MirZnanii.com/a/206539/effektivnost-psikhologicheskikh-testov

Ссылка на основную публикацию