Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим.
Низким признается коэффициент валидности порядка 0,2-0,3,
Средним - 0,3-0,5
И высоким - свыше 0,6.
Но, как подчеркивают А. Анастази, К. М. Гуревич и др„ не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Более высокий показатель в тесте уже не имеет никакого значения для профессии.
Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошли бы дисперсионный анализ или вычисление корреляционных отношений.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
Существует несколько видов валидности , обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия. Однако чаще всего называются следующие.
1. Валидность «по содержанию». Этот прием используется, например, в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала? На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность «по содержанию» также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью.
2. Валидность «по одновременности», или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т. д. С ними сопоставляют результаты успешности по тесту.
3. «Предсказывающая» валидность (другое название - «прогностическая» валидность) . Определяется также по внешнему критерию, но информация по нему собирается некоторое время спустя, после испытания. Внешним критерием обычно бывает выраженная в каких-либо оценках способность человека к тому виду деятельности, для которой он оценивался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, - применять его очень трудно. Точность диагноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.
4. «Ретроспективная» валидность . Она определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т. д. у лиц с высокими и низкими на данный момент диагностическими показателями.
При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т. д.).
Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к которой он собирается его применять.
Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой .
Поэтому, если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобных тем, на которых он определялся.
Вопросы
1. Что такое дифференциальная психометрия? В чем ее отличие от
общей психометрии?
2. Дайте определение понятию «стандартизация методик».
3. Что такое репрезентативная выборка? Как она строится?
4. Назовите приведенные в главе критерии оценки результатов диагностических испытаний.
5. Что такое надежность методики? Назовите виды надежности.
6. Что такое валидность методики? Назовите ее основные виды.
Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. - М, 1982. - Кн.1. - С. 66-179. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003. - С. 105-107, 161-176.
Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психологической диагностике. - Киев, 1989.
Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.
Гуревич К. М. О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии. - М., 1969. - Т. 6.
Гуревич К. М. Надежность психологических тестов // Психологическая диагностика. Ее проблемы и методы. - М., 1975.
Гуревич К. М. Статистика - аппарат доказательства психологической диагностики // Проблемы психологической диагностики. - Таллин, 1977.
Гуревич К. М. Что такое психологическая диагностика. - М., 1985.
Гуревич К. М. Проблемы дифференциальной психологии. - М.; Воронеж, 1998. - С. 242-254, 256-272.
Носе И. Н. Введение в технологию психодиагностики. - М., 2003. - С. 83-98.
Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина, 1987.-С. 15-17,53-90.
Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.-С. 131-156.
Курс: «ПРАКТИЧЕСКАЯ ПСИХОДИАГНОСТИКА»
(Материалы для самостоятельной работы студентам)
ТЕМА :
Измерение соотношения. Коэффициент валидности выражает величину корреляции между показателем теста и мерой критерия. Этот коэффициент позволяет характеризовать валидпость единственным числовым показателем, и поэтому его часто приводят в руководствах к тестам, указывая его величину для каждого из использованных критериев. Данные, по которым вычисляется коэффициент валидности, могут к тому же быть представлены в виде таблицы ожидаемых результатов или диаграммы ожидаемого отсева (см. главу 3). Собственно говоря, такие таблицы и диаграммы - наглядные иллюстрации того, что коэффициент валидности означает для тестируемого. Напомним, что в таблицах ожидаемых результатов приводятся вероятности достижения определенного уровня выполнения критериальной деятельности испытуемым, получившим определенный показатель по данному тесту. Например, с помощью табл. 3-6, зная показатель ученика по тесту числового рассуждения из батареи Дифференциальных тестов способностей (DAT), можно определить вероятность получения им той или иной оценки по математике в 7-м классе. Для тех же данных коэффициент валидности составляет 0,60. Если, как в приведенном примере, тестовая и критериальная переменные являются непрерывными, то применим уже знакомый нам коэффициент корреляции произведения моментов Пирсона. Если же исходные данные выражены в иной форме (скажем, при использовании дихотомического критерия «выполнено-невыполнено» - см. рис. 3-7), вычисляются другие виды коэффициентов корреляции. Соответствующие вычислительные процедуры можно найти в любом типовом учебнике по статистике.
Условия, влияющие на величину коэффициентов валидности. Как и в случае с надежностью, важно точно определять характер группы, на которой вычисляется коэффициент валидности теста. Один и тот же тест может измерять различные функции, если его дать лицам разного возраста, пола, уровня образования, рода занятий и т. д. Люди с разным жизненным, учебным и профессиональным опытом могут, па-пример, воспользоваться разными методами для решения одной и той же тестовой задачи. Следовательно, тест может обладать высокой валидностью относительно заданного критерия в одной популяции и низкой или нулевой валидностью - в другой. Или, скажем, оказаться валидной мерой разных функций в двух популяциях. Поэтому в технических руководствах к тестам, предназначенным для работы с разнотипными популяциями, следует приводить соответствующие данные о понуляционной обобщаемое™ (populationgeneralizah"dity). Кроме того, когда имеет место значительная внутрипопуляционная вариация тестовых показатели"!, коэффициент валидности теста может заметно различаться в разных частях диапазона показателей и должен проверяться в соответствующих подгруппах (R. Lee, & Foley, 1986).
Вопрос неоднородности выборки имеет для измерения валидности такое же значение, как и для измерения надежности, поскольку обе характеристики обычно приводятся в виде коэффициентов корреляции. Напомним, что при прочих равных условиях чем шире размах распределения показателей, тем выше будет корреляция. Это обстоятельство необходимо иметь в виду при интерпретации коэффициентов валидности, приводимых в руководствах к тестам.
Специфическая проблема, присущая многим выборкам валидизации, связана с пре-"отбором (preselection). Например, новый тест, валидизируемый для целей профотбора,
Часть 2.
может проводиться на группе недавно нанятых работников, в отношении которых со временем будут доступны такие меры критерия, как эффективность труда. Вполне вероятно, однако, что эти работники представляют собой верхнюю (лучшую) часть выборки из всех тех, кто хотел поступить на эту работу. Поэтому нижний конец распределения тестовых показателей и критериальных мер в такой выборке окажется обрезанным. Эффектом такого предотбора, естественно, будет снижение коэффициента валидности. При последующем использовании теста, когда его будут проводить со всеми поступающими на работу в целях их отбора, можно ожидать некоторого повышения его валидности.
Коэффициенты валидности могут также измениться через какое-то время вследствие изменения норм отбора. В качестве примера сравним коэффициенты валидности, полученные с интервалом в 30 лет при обследовании студентов Йельского университета (Burnham, 1965). Определялась корреляция между прогнозирующим показателем, основанным на тестах Совета колледжей, и успеваемостью в старших классах, с одной стороны, и средним баллом первокурсника - с другой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Анализ соответствующих двумерных распределений данных легко выявил причину этого снижения. Дело в том, что в связи с повысившимися требованиями при приеме в колледж группа студентов во втором случае стала более однородной, чем в первом, по отношению как к прогнозирующему показателю, так и к мерам критерия. Отсюда и падение корреляции, несмотря на то что точность прогноза успеваемости в колледже осталась, в общем, прежней. Иными словами, наблюдаемое снижение корреляции вовсе не свидетельствовало о том, что прогнозирующие показатели стали менее валидными, чем 30 лет назад. А ведь именно к такому выводу можно было бы прийти, упустив из виду различия в однородности групп.
Для правильной интерпретации коэффициента валидности следует принимать во внимание и форму связи между тестом и критерием. Вычисление пирсоновского коэффициента корреляции предполагает, что эта связь линейна и остается неизменной во всем диапазоне распределения. Исследование связи тестовых показателей с выполнением работы показало, что эти условия, в общем, выполняются (Coward, & Sa-ckett, 1990; Hawk, 1970). Все же особые обстоятельства могут изменять характер этой связи, и пользователю теста следует быть всегда готовым к такому повороту событий. Пусть для выполнения некоторой работы требуется лишь минимальный уровень понимания читаемого, достаточный для прочтения инструкций, названий и т. д. Но как только этот минимальный уровень превзойден, то от дальнейшего развития данного умения успешность выполнения работы уже не зависит, т. е. между тестом и выполнением работы существуют нелинейные отношения. Изучение двумерного распределения или диаграммы рассеяния, построенной по показателям теста на понимание читаемого и мерам критерия, в этом случае показало бы, что уровень выполнения работы растет, пока умение понимать читаемое не достигает требуемой степени, после чего он остается примерно тем же. Следовательно, точки на диаграмме группируются вокруг кривой, а не прямой линии.
В других случаях линия наилучшего соответствия может быть и прямой, но точки, соответствующие индивидуальным данным, могут отклоняться от нее в верхнем конце шкалы больше, чем в нижнем. Предположим, что успешное выполнение теста академических способностей - необходимое, но не достаточное условие для успешного завершения некоторого учебного курса. Это значит, что учащиеся с низкими показа-
Глава 6. Валидность: измерение и интерпретация
телями по данному тесту получат скорее всего неудовлетворительные оценки, тогда как среди учащихся с высокими показателями одни получат положительные оценки, а другие, из-за недостаточной мотивации, отсутствия интереса или других неблагоприятных условий, не сдадут экзамена. В этой ситуации будет наблюдаться большая вариативность выполнения критериальной деятельности у учащихся с высокими тестовыми показателями, чем с низкими. Такое условие в двумерном распределении называется гетероскедастичностью." Пирсоновская корреляция предполагает гомо-скедастичность, т. е. одинаковую вариабельность во всем диапазоне двумерного распределения. В приведенном примере двумерное распределение было бы веерообразным - широким в верхнем конце и узким в нижнем. Уже визуального анализа двумерного распределения обычно бывает достаточно для установления характера связи между тестом и критерием. Таблицы ожидаемых результатов и диаграммы ожидаемого отсева также правильно показывают относительную эффективность теста на разных уровнях.
Величина коэффициента валидности. Какова должна быть величина коэффициента валидности? На этот вопрос нет единого ответа, так как при интерпретации коэффициента валидности нужно учитывать ряд сопутствующих обстоятельств. Разумеется, корреляция должна быть достаточно высокой для того, чтобы быть статистически значимой на приемлемом уровне, таком как 0,01 или 0,05 (см. главу 4). Иными словами, прежде чем делать какие-либо выводы о валидности теста, нужно иметь обоснованную уверенность в том, что полученный коэффициент валидности не появился в результате случайных колебаний выборки из генеральной совокупности с нулевой корреляцией.
Установив значимую корреляцию между тестовыми показателями и критерием, необходимо еще оценить ее величину в аспекте тех целей, ради которых и создавался данный тест. Если мы собираемся предсказывать точное значение критериального показателя у конкретных лиц (скажем, средний балл студента в колледже), коэффициент валидности можно интерпретировать исходя из стандартной ошибки оценки (standard error of estimate, или сокращенно, SE„ ), которая аналогична ошибке измерения, обсуждавшейся в связи с надежностью. Напомним, что ошибка измерения указывает допустимый предел возможной ошибки индивидуального показателя в результате ненадежности теста. Аналогично этому, ошибка оценки указывает допустимый предел возможной ошибки прогнозируемой величины индивидуального критериального показателя в результате недостаточной валидности теста.
Ошибка оценки вычисляется по следующей формуле:
гд - е г 1, - квадрат коэффициента валидности и SD V - стандартное отклонение критериального показателя. Заметим, что при полной валидности (г п, = 1,00) ошибка оценки была бы равна нулю. С другой стороны, если валидность теста равна нулю, то ошибка оценки достиг ает величины стандартного отклонения распределения критерия \ s E es , = SD y -v/l - 0 = SD y ). При этих условиях вероятность правильного прогноза не
Термины «гомоскедастичность» и «гетероскедастичность» (букв, «одинаковая рассеянность» и «Неодинаковая рассеянность» соответственно) введены в статистику А. А. Чупровым. - Примеч. н «Уч. ред.
Часть 2. Технические и методологические принципы
превышает вероятности случайного угадывания, и диапазон ошибки предсказания равен ширине распределения критериальных показателей. Между этими двумя пределами И будут заключаться ошибки оценки, соответствующие тестам с варьирующей валидностью.
Обращаясь к формуле для SE a , покажем, что выражение Jl-/Ј позволяет определить величину ошибки оценки относительно ошиб ки простого угадывания (т. е. при нулевой валидности). Иными словами, если ^|1 - г£ = 1,00, то ошибка оценки столь же велика, как и при случайном угадывании критериального показателя у конкретного испытуемого. Использование такого теста не дало бы нам никакого выигрыша в точности предсказания. Если же коэффициент валидности равен 0,80, Tajl-rЈ =0,60, и максимальная ошибка составляет 60 % от величины той, которая была бы при случайном угадывании. Выражаясь иначе, использование этого теста позволяет нам предсказывать индивидуальные результаты в критериальной деятельности с пределом ошибки, который на 40 % меньше, чем в случае угадывания.
Может показаться, что даже при такой необычайно высокой валидности, как 0,80, ошибка предсказываемых показателей довольно значительна. Если бы главной функцией психологических тестов было предсказание точного положения индивидуума в критериальном распределении, такая перспектива выглядела бы совершенно обескураживающей. Когда мы рассматриваем тесты в аспекте ошибки оценки, большинство из них представляются не особенно эффективными. Однако чаще всего при тестировании нет необходимости предсказывать точный результат критериальной деятельности каждого обследуемого человека, но требуется лишь определить, кто из них превзойдет некоторый минимальный стандарт выполнения, или критический показатель выбранной в качестве критерия деятельности. Каковы шансы у Мери Грин закончить медицинское училище, у Тома Хиггинса усвоить курс вычислительной математики, а у Беверли Брюса преуспеть в качестве астронавта? Кто из поступающих на работу, скорее всего, будет хорошим клерком, страховым агентом, механиком? Такая информация полезна не только для профотбора, но и для профориентации. Например, студенту полезно и выгодно знать, что у него хорошие шансы благополучно окончить юридический факультет, даже если мы не можем с уверенностью сказать, будет ли его средний балл 74 или 81.
Тест может заметно повысить свою предсказуемостную эффективность, если для него будет установлена любая значимая корреляция с критерием, какой бы низкой она ни была. При некоторых обстоятельствах валидность порядка 0,20-0,30 уже оправдывает включение теста в программу отбора. Для многих целей тестирования оценивание тестов с точки зрения их стандартной ошибки оценки является неоправданно строгим. В большинстве случаев должны применяться другие способы оценивания тестов, те, которые бы учитывали типы решений, принимаемых на основе их результатов. О некоторых из них пойдет речь в следующем разделе.
Качество отдельных индикаторов, суммарных показателей (индексов) и шкал определяется их надежностью и валидностью.
Надежность измерения связана с его устойчивостью и воспроизводимостью. Показатель может считаться надежным в той мере, в которой полученные оценки могут быть воспроизведены на данной совокупности объектов измерения. Основной вид надежности - это надежность-повторяемость (или диахронная, ретестовая надежность). Оценка ретестовой надежности отражает результаты повторного применения одного и того же показателя (вопроса, теста) для одной и той же выборки случаев (респондентов) в разные моменты времени. Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всяком последующем случае, то этот вопрос надежен. Если тест умственных способностей дает те же результаты при повторной проверке на одной и той же группе старшеклассников, то это надежный тест.
Важно отметить, что надежность инструмента измерения не отражает его точность или правильность. Скажем, если на вопрос о доходе респонденты дважды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мы имеем дело с абсолютно надежным, но неточным показателем. Если, в другом случае, термометр с безукоризненной надежностью показывает электрическое сопротивление кожи, у нас нет оснований говорить о правильности, адекватности измерения. Оценка надежности-повторяемости - это корреляция между результатами повторных измерений. В случае единичного вопроса-индикатора достаточно просто сопоставить ответы одной и той же группы людей, полученные в первом опросе, с ответами, данными двумя неделями или месяцем позднее, и вычислить коэффициент корреляции (см. гл. 8). На практике хорошей можно считать корреляцию 0,8 и выше.
К недостаткам оценок надежности-повторяемости следует отнести, во-первых, сложность проведения повторных замеров на больших выборках, типичных для социологии. Во-вторых, истинное значение переменной также может изменяться с течением времени, например, политические симпатии могут измениться за неделю в результате каких-то скандальных разоблачений, а зарплата - существенно возрасти за месяц из-за введения обязательного индексирования в условиях инфляции. В последнем случае перед исследователем встанет трудноразрешимая задача отделить колебания, вызванные изменением истинного значения переменной, от колебаний, связанных с надежностью показателя. Поэтому так важен еще один вид надежности - надежность-согласованность. Оценить надежность-согласованность можно лишь в том случае, если для измерения одной и той же переменной используют множество индикаторов. Зато для такой оценки достаточно однократного измерения. В психологическом тестировании, например, используют батареи тестов, нацеленных на измерение одной способности или одного личностного качества. Социологи - если они располагают достаточными средствами и техническими возможностями - используют индексы и шкалы, состоящие из множества отдельных вопросов-индикаторов.
Самый простой способ оценки надежности-согласованности - это «расщепление пополам». Если, например, у нас есть 12 вопросов, предположительно измеряющих политическую активность, где каждому вопросу присвоен 1 балл, а максимальной политической активности соответствует суммарный индекс 12 баллов, то применяется следующая процедура:
1. Вопросы в случайном порядке разбиваются на два равных списка (по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.
2. Далее подсчитывается коэффициент корреляции между результатами одних и тех же испытуемых по разным «половинам» теста: чем выше его значение, тем согласованнее оценки истинного значения политической активности, получаемые с помощью данного набора индикаторов. Не исключено, однако, что полученная таким способом оценка надежности окажется весьма чувствительной к способу «расщепления пополам»: коэффициент корреляции будет заметно меняться в зависимости от способа составления двух списков.
Еще одна элементарная процедура, позволяющая оценить надежность отдельного вопроса (высказывания, пункта шкалы), - это проверка его корреляции с суммарным баллом, т. е. с суммарным значением индекса. Если для данной группы опрошенных коэффициент корреляции между отдельным вопросом о частоте зарубежных поездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можно предположить, что названный вопрос не отражает истинного значения переменной «уровень ксенофобии» и может быть исключен из опросника. Ведь строго определенная надежность - это та доля измеренного разброса оценок, которая относится к истинному разбросу значений измеряемой переменной (мы пользуемся здесь менее строгим и скорее содержательным определением, поскольку пока не обсуждали необходимые статистические понятия). Очевидно, что коррелирование с суммарным баллом - это процедура, применимая для имеющих довольно простую структуру суммарных индексов и шкал (примеры вы найдете дальше в этой главе).
В любом случае важно располагать явной моделью измерения теоретической переменной, так как лишь она позволит предсказать, каковы ожидаемые отношения между отдельными индикаторами и насколько применимы описанные простые методы оценки надежности. Чтобы убедиться в этом, достаточно сравнить модель с множеством эффект-индикаторов латентной переменной с моделью, включающей только причинные индикаторы (см. рис. 3 и 4). Очевидно, что эффект-индикаторы должны быть высоко согласованны и с латентной, переменной-свойством, которую они призваны измерять, и друг с другом. Однако это не так уж очевидно для причинных индикаторов: скажем, и образование, и доход - важные компоненты понятия «социально-экономический статус». Однако даже если образование растет, доход имеет право вести себя как угодно, т. е. он вовсе не должен показывать непременно высокую корреляцию с образованием. Иными словами, если от надежных эффект-индикаторов следует ожидать высокой скоррелированности друг с другом (при использовании методов «расщепления пополам» или корреляции с суммарным баллом), то для причинных индикаторов столь простой подход к оценке надежности неприменим. Разработать подходящий метод оценки надежности здесь можно, лишь анализируя взаимосвязи разных индикаторов и разных теоретических переменных в модели измерения. Прогнозируя ожидаемую направленность и величину этих связей, исследователь может оценить степень соответствия своих предсказаний наблюдаемым данным и сделать вывод о качестве индикатора. Самыми универсальными методами оценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ. В идеале для оценки надежности используют несколько индикаторов (два-три) и по крайней мере две волны панели.
Очень важно помнить, что понятие надежности связано со случайными ошибками измерения, т. е. с ошибками, которые никаким систематическим образом не связаны друг с другом или какими-то систематически действующими внешними переменными (скажем, полом или возрастом респондентов). Типичные источники ненадежности - это случайные несистематические факторы, связанные с колебаниями внимания респондентов, неоднозначностью формулировки вопроса, ведущей к различию в его восприятии в разных случаях; несистематическими различиями в проведении интервью; различиями в кодировании открытых вопросов, или с ошибками при вводе данных. Например, если предложить даже очень опытным специалистам классифицировать сотню населенных пунктов по заранее разработанной схеме кодирования типов поселений, то, вероятнее всего, можно будет найти по крайней мере несколько расхождений в получившихся классификациях. Некоторые расхождения будут связаны с наличием «предельных» случаев, не поддающихся однозначной классификации по предложенным правилам, некоторые - с механическими ошибками записи или невнимательностью. Предварительная оценка надежности вопросов социологической анкеты требует прежде всего «отбраковки» неясно сформулированных вопросов, на которые люди часто отвечают случайным образом. Столь же низка надежность вопросов, на которые респонденты попросту не способны ответить, так как не имеют никакого мнения по затронутой проблеме или ничего не знают о ней. Далеко не все опрошенные, столкнувшись с иррелевантным вопросом, честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ из вежливости или нежелания демонстрировать свою неосведомленность.
Методы увеличения надежности нами уже обсуждались (см. гл. 4, 5). Во-первых, нужно стремиться к использованию множественных индикаторов. Когда же это невозможно, т. е. существуют теоретические или практические трудности в измерении одной переменной разными способами, то следует использовать самые устоявшиеся и общепринятые показатели (например, если можно лишь один раз спросить респондента о его возрасте, то лучше всего использовать в точности такую же формулировку вопроса и те же категории ответа, какие используются в общенациональных переписях, масштабных панельных исследованиях и т.п.).
К другим методам увеличения надежности можно отнести «отсев» иррелевантных вопросов, анализ словесной формулировки вопроса, обучение и контроль интервьюеров, совершенствование методов кодирования данных и процедур ввода.
Валидность измерения, в самом общем смысле, характеризует соответствие измерения его цели. Эмпирический показатель валиден (обоснован, правилен) в той мере, в какой он действительно отражает значение той теоретической переменной, которую предполагалось измерить. Очевидно, что нет смысла говорить о валидности какого-то индикатора самого по себе. Валидность инструмента измерения состоит в однозначностш и правильности получаемых результатов относительно измеряемого свойства объектов, т. е. относительно предмета измерения. Можно сказать, что валидность определяет «чистоту» измерения теоретического конструкта. Когда измерение является непосредственным, т.е. мы можем прямо подсчитать количество эталонных единиц измеряемого свойства, и на результаты измерения влияют только случайные ошибки, надежность и валидность неразличимы, валидность инструмента измерения равна его надежности. Если мы измеряем интересующее нас свойство лишь косвенно, используя какой-то индикатор, возникает различие между надежностью и валидностью. Индикатор может обладать высокой надежностью (воспроизводимостью), но при этом измерять интересующий нас социологический конструкт недостаточно «чисто». Уже на интуитивном уровне очевидно, что вполне надежный инструмент может измерять нечто другое, помимо интересующего исследователя качества (например, не столько политическую активность, сколько конформизм). Косвенное измерение обычно содержит и случайный, и неслучайный ошибочный компонент. Именно неслучайный компонент, включающий в себя систематическую (скоррелированную) ошибку и, реже, имеющую одну и ту же величину для каждого случая постоянную ошибку измерения, определяет валидность показателя. Характерными примерами систематической ошибки измерения в социологическом опросе или эксперименте являются уже упоминавшиеся эффекты «памяти», социальной желательности, установки за позитивный или негативный ответы. Они влияют не только на правильность, валидность индикатора интересующей исследователя переменной, но и на правильность и обоснованность результатов анализа данных: скоррелированная ошибка измерения может воздействовать на любые статистические показатели, в том числе на показатели взаимосвязи между переменными и на оценки значимости различий между подгруппами. Иными словами, конечным итогом «пользования невалидных индикаторов могут оказаться неверные содержательные выводы.
Проблема валидности измерения - сложнейшая проблема социологической методологии. Валидное измерение - это прежде всего результат валидной модели измерения, т. е. результат обоснованной и ясной концептуализации теоретических представлений. Здесь мы опишем лишь основные виды валидности и традиционные методы валидации, т. е. установления валидности измерений.
Валидностъ по содержанию показывает, в какой мере избранные исследователем индикаторы отражают различные аспекты теоретического понятия. Иными словами, речь идет о представительности данной совокупности измерений да отношению к концептуальной структуре переменной-признака, о полноте операционализации теоретических понятий. Например, экзамен по статистике может рассматриваться как валидный инструмент измерения статистических знаний студентов, так как экзаменационные вопросы отражают содержание лекций и учебников. Однако если все вопросы относятся лишь к одному разделу прочитанного курса - скажем, к нормальному распределению, - то результаты экзамена будут отражать, например, умение студентов переводить «сырые» баллы в стандартные оценки, но ничего не скажут о знании корреляции и регрессии.
Основная процедура оценки валидности по содержанию - это суждение эксперта. В некоторых случаях связь между теоретическими понятиями и измеряющими их индикаторами столь ясна, что никакие специальные обоснования попросту не требуются: понятно, что термометр измеряет температуру. Здесь можно говорить об очевидной (иногда-лицевой, от англ. face validity) валидности показателя. Очевидная валидность тем выше, чем тождественнее понимание цели вопроса, теста или иного показателя профессионалом-социологом и неискушенным респондентом. Вопрос о частоте покупки шампуня, по всей вероятности, не содержит в себе никаких подвохов и позволяет судить именно о том типе потребительского поведения, который описан в вопросе. Однако в более сложных случаях содержательная валидность отнюдь не сводится к очевидной. Набор простых вопросов о излюбленном способе проведения досуга, предпочитаемой марке автомобиля, частоте чтения престижного журнала и т. п. может быть нацелен на измерение «стиля жизни» респондента (в данном случае измерение позволяет отнести человека к одной из номинальных категорий стиля жизни - «выживающий», «достиженческий», «экзистенциальный», «социальный» и т. п.). Судить о полноте этого набора и относительной значимости вопросов для измерения понятия «стиль жизни» могут только специалисты. Основой такого экспертного суждения является теоретическое определение, концептуализация исследовательской переменной. Обычно экспертное суждение о валидности по содержанию выносится более или менее стихийно, после публикации результатов исследования. Иногда все же удается использовать более организованные процедуры - метод параллельных панелей или метод нескольких судей . В первом случае две или три последовательные панели специалистов проводят всю процедуру валидации по содержанию, т. е. сравнивают существующие дефиниции, составляют список возможных индикаторов и оценивают их репрезентативность по отношению к исследуемой концептуальной области. Если сравнение индикаторов, независимо отобранных в двух и более панелях, обнаруживает множество совпадений, можно говорить о высокой содержательной валидности.
Метод нескольких судей (экспертов) полезен в тех случаях, когда переменная-признак, которую предполагается измерить, имеет многомерную структуру. Если, например, социолог разрабатывает воображаемую шкалу социально-экономического благополучия регионов, то полезно обратиться к специалистам в таких областях, как демография, социальная политика, занятость, налоговая система и т. п. Опрос экспертов позволит выявить существенные факторы, входящие в шкалу, оценить их сравнительную значимость и найти релевантные эмпирические индикаторы.
Критериальная валидность (или валидность по критерию) показывает, насколько хорошо результаты по данному тесту или индикатору согласуются с результатами измерения другого показателя, называемого критерием. Чаще всего критерий - это та переменная, которая и представляет практический интерес для исследователя, но не может быть измерена в данный момент. Например, критериальная валидность вступительных экзаменов определяется той академической успеваемостью, которую в дальнейшем продемонстрируют студенты (т. е. академическая успеваемость является в данном случае критерием). Можно также предположить, что тест моральной оценки девиантного поведения для подростков обладает критериальной валидностью по отношению к реальному отклоняющемуся поведению. Индикатор, обладающий доказанной критериальной валидностью, может рассматриваться как переменная-предиктор, позволяющая предсказывать индивидуальные значения переменной-критерия. ^Конечно, нужда в предикторе, замещающем собственно критерий, возникает лишь в тех случаях, когда оценки по критерию получить трудно, т. е. речь идет о давно прошедших или еще не наступивших событиях, либо переменную-критерий трудно измерить из-за практических или этических соображений. Валидность предиктора обычно тем выше, чем ближе он к критерию. Скажем, идеальным методом отбора курсантов авиационного училища мог бы стать пробный краткосрочный курс обучения с проверкой практических навыков управления самолетом в финале: прошедшие проверку претенденты имели бы все шансы стать настоящими профессионалами. Однако такой метод слишком дорогостоящ и на практике используют тесты интеллекта, испытания визуально-моторной координации и другие показатели, установив предварительно их критериальную валидность. В другом случае проективный личностный тест (типа ТАТ - теста тематической апперцепции, подразумевающего составление рассказов по фотографиям с неопределенным сюжетом) позволит выявить признаки психоза либо травмирующего сексуального опыта в прошлом пациента. Полное психиатрическое обследование могло бы занять очень много времени, да и данные о плохом обращении в детстве получить довольно трудно.
К основным типам критериальной валидности относят прогностическую, конкурентную и постдиктивную («предсказывающую-назад») валидности.
Прогностическая критериальная валидность описывает точность, с которой значения данной переменной - обычно характеризующей отдельного индивида или группу - могут быть предсказаны на основании текущих значений какой-то другой переменной (предиктора). Очевидно, что наилучшим показателем такой прогностической точности будет корреляция между значениями переменной-предиктора и значениями переменной-критерия для одной и той же выборки. Тогда - в пределах ошибки выборки - коэффициент корреляции будет равен коэффициенту прогностической валидности.
Конкурентная валидность по критерию - это степень соответствия между текущими значениями переменной-критерия и переменной-предиктора. Попросту говоря, исследователь использует результаты измерения по одному признаку для того, чтобы оценить значение другой переменной. Причина может заключаться в том, что измерение непосредственно переменной-критерия трудноосуществимо, занимает слишком много времени и т. п. Проблема конкурентной валидности весьма значима для эмпирической социологии, где многие поведенческие или установочные переменные измеряются не непосредственно, а через самоописания, ответы на анкетные вопросы, иными словами, через вербальное поведение. Например, мы можем оценить конкурентную валидность анкетного вопроса о частоте посещения дискотеки студентами-отличниками с помощью серии включенных наблюдений за реальным поведением данной группы. Уже ранние исследования конкурентной валидности фактографических вопросов в социологии показали, что даже для относительно «безобидных», несензитивных индикаторов конкурентная валидность может изменяться в самых широких пределах.
В так называемом Денверском исследовании валидности, проведенном С. Стауффером и соавторами в 1947 г., сопоставлялись данные ответов респондентов на фактографические вопросы и данные официальной статистики местных организаций. Речь шла о регистрации избирателей, участии в голосовании, взносах в городскую казну, о наличии водительских прав и читательского билета и т. п. Сопоставляя данные официальной статистики (критерий) с ответами респондентов (предиктор), исследователи обнаружили, что величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса.
Следует, однако, помнить и об ограничениях, присущих объективным показателям-критериям: данные официальных документов также нередко основаны на самоотчетах и нередко подвержены ошибкам измерения. Все же в некоторых случаях процедура конкурентной валидации имеет преимущество перед предиктивной, так как первая не требует от исследователя длительного ожидания того момента, когда можно будет измерить значения критерия. Если, например, исследователь хочет оценить критериальную валидность теста профессиональных интересов, разработанного для студентов, как предиктора успешной профессиональной карьеры, то ему необязательно ждать десять лет, чтобы измерить значение переменной-критерия. Достаточно провести тестирование профессиональных интересов для двух «крайних» групп уже работающих специалистов - преуспевших и наименее преуспевших в профессии в данный момент времени. Высокая корреляция между тестовым баллом и успешностью работы (или статистически значимое различие тестовых баллов «крайних» групп) будет свидетельствовать о конкурентной валидности теста. Условиями, при которых выводы о конкурентной валидности индикатора могут все же оказаться ошибочными, являются избирательное выбывание из выборки (самоотбор) и реактивность переменной-предиктора. Самоотбор в нашем примере может иметь место в том случае, если среди выбывших из выборки (бывших студентов, отказавшихся от профессиональной карьеры в данной области и не охваченных по этой причине проводимым тестированием) будут сверхпредставлены высоко- либо низкомотивированные, т. е. естественное выбывание будет носить неслучайный характер. В случае реактивности индикатора наши испытуемые будут отвечать на вопросы теста мотивации не так, как они отвечали будучи студентами (из-за повлиявших на них профессионального опыта, изменения социального статуса и т. п.) И все же существуют нереактивные переменные-предикторы, конкурентная валидность которых вполне поддается обоснованию. Примером могут служить такие стабильные характеристики, как коэффициент интеллекта или «фоновые» переменные (социальное происхождение, национальная принадлежность и т. п.).
Наконец, в некоторых случаях мы заинтересованы в том, чтобы установить точность, с которой мы можем оценить наличие какого-то критерия-признака или черты, присущей индивиду (группе) в прошлом. Пример использования проективного психологического теста для постдиктивного «прогноза» детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивной валидности.
Описанные нами виды валидности существенны в тех ситуациях, когда перед исследователем стоит задача сравнить некий показатель с уже существующими или с используемым в практике критерием. Иными словами, критериальная валидность показателя - это корреляция с другим, предположительно «чистым», эмпирическим показателем. Однако существует и другой подход к валидности, где оценка индикатора основана на том, насколько хорошо его «поведение» соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь в рамках целостной теоретической модели, описывающей отношения между теоретическими переменными, их индикаторами, случайными и неслучайными ошибками измерения. Предположим, мы хотим проверить валидность новой шкалы групповой сплоченности. Основываясь на существующих теоретических представлениях, мы можем предположить, что большей групповой сплоченности соответствует меньшая частота открытых конфликтов и большая интенсивность коммуникаций. Сравнив различные по уровню групповой сплоченности группы и определив для них значения других двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим, насколько хорошо «ведет» себя разработанный нами показатель групповой сплоченности. Если паттерн его отношений с двумя другими переменными соответствует предсказаниям теории, то мы можем заключить, что новая шкала валидна, т. е. измеряет именно ту теоретическую переменную, которая нас интересует. Этот вид валидности обычно обозначают термином «конструктная валидность» . (Иногда используют также обозначение «концептуальная валидность».)
Со статистической точки зрения абсолютная конструктная валидность предполагает, что весь наблюдаемый разброс в значениях показателя связан исключительно с измеряемым теоретическим конструктом. Если же часть вариации индикатора связана с другой переменной - будь то другой теоретический конструкт или систематическая ошибка измерения,- конструктная валидность окажется меньше.
Легко заметить, что оценка конструктной валидности предполагает какую-то связь между проверкой содержательных теоретических гипотез и проверкой качества измерения. Действительно, оценка конструктной валидности посредством сопоставления теоретической модели «поведения» изучаемой переменной с реальными отношениями индикаторов требует включения модели измерения (см. выше) в более широкую теоретическую модель.
Предположим, мы используем некоторый суммарный показатель - индекс «демократизма политической системы», состоящий из ряда индикаторов (Х 1 , Х 2 , Х 3 ), каждый из которых имеет свой собственный «вес» в индексе демократизма. К таким индикаторам могут относиться наличие парламента (номинальная дихотомическая переменная), количество независимых телерадиокомпаний и т.п. Исходя из теоретической модели, мы ожидаем, что степень «демократизма» находится в обратной связи с долей ВНП, расходуемой на модернизацию вооружений. Основываясь на этой модели (см. рис. 11), можно проверить конструктную валидность изобретенного нами индекса демократизма.
С |
Рис. 11. Модель взаимосвязи для переменных «демократизм»
Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В результате появилась возможность оградить психологию от всевозможных безграмотных подделок, претендующих на то, чтобы называться диагностическими методиками.
К числу основных критериев оценки психодиагностических методик относятся надежность и валидность. Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были разработаны как формально-логический, так и математико-статисти-ческий аппарат (прежде всего, корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.
В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рассмотрения надежности методик.
Надежность
В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази [ 10, т. 1 ], вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Таким образом, можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.
Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений. Была сделана попытка составить классификацию таких факторов. Среди них наиболее часто называются следующие:
1) нестабильность диагностируемого свойства;
2) несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания, как методику предъявлять испытуемым, и т. д.);
3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т. д.);
4) различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т. д.);
5) колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом - утомление и т. д.);
6) элементы субъективности в способах оценки и интерпретации результатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики является единообразие процедуры обследования, его строгая регламентация: одинаковые для обследуемой выборки испытуемых обстановка и условия работы, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т. д. При такой стандартизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и таким образом повысить их надежность.
На характеристику надежности методик большое влияние оказывает исследуемая выборка. Она может как снижать, так и завышать этот показатель, например, надежность может быть искусственно завышена, если в выборке небольшой разброс результатов, т. е. если результаты по своим значениям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изменения ранговых мест испытуемых будут незначительными, и, следовательно, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от друга результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому в руководстве обычно делается описание выборки, на которой определялась надежность методики.
В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Так как надежность отражает степень согласованности двух независимо полученных рядов показателей, то математико-статистический прием, с помощью которого устанавливается надежность методики - это корреляции (по Пирсону или Спирмену). Надежность тем выше, чем ближе полученный коэффициент корреляции подходит к единице, и наоборот.
В данной книге при описании видов надежности основной упор делается на работы К. М. Гуревича , который, проведя тщательный анализ зарубежной литературы по этой проблеме, предложил толковать надежность как комплексную характеристику, включающую:
♦ надежность самого измерительного инструмента;
♦ стабильность изучаемого признака;
♦ константность, т. е. относительную независимость результатов от личности экспериментатора.
Основные показатели он предложил обозначить следующим образом:
♦ показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности;
♦ показатель, характеризующий стабильность измеряемого свойства - коэффициентом стабильности;
♦ показатель оценки влияния личности экспериментатора - коэффициентом константности.
Именно в таком порядке рекомендуется осуществлять проверку методики на надежность: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого, при необходимости, заняться критерием константности.
Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.
Определение надежности измерительного инструмента. Оттого, как составлена методика, насколько правильно подобраны задания с точки зрения их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак.
Для проверки надежности измерительного инструмента, говорящего о его однородности (или гомогенности), используется так называемый метод «расщепления». Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого способа нужно поставить испытуемых в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.
Можно делить задания и другим путем. Например, можно сопоставить первую половину теста со второй, первую и третью четверть со второй и четвертой и т. п. Однако «расщепление» на четные и нечетные задания представляется наиболее целесообразным, поскольку именно этот способ наиболее независим от влияния таких факторов, как врабатываемость, тренировка, утомление и пр.
Методика признается надежной, когда полученный коэффициент не ниже 0,75-0,85. Лучшие по надежности тесты дают коэффициенты порядка 0,90 и более.
Определение стабильности изучаемого признака. Определить надежность самой методики - это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков. В том, что измеряемый признак со временем меняется, нет ничего опасного для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колебания к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленности измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемый характер. Если не ясны причины, по которым происходит резкое колебание, то такой признак не может быть использован в диагностических целях.
Для проверки стабильности диагностируемого признака, свойства используется прием, известный под названием тест-ретест. Он заключается в повторном обследовании испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового номера в выборке.
На степень устойчивости, стабильности диагностируемого свойства влияют разнообразные факторы. Число их достаточно велико. Выше уже говорилось о том, как важно соблюдать требования единообразия процедуры проведения эксперимента. Так, например, если первое тестирование проводилось в утренние часы, то и повторное должно быть проведено утром; если первый опыт сопровождался предварительным показом заданий, то и при повторном испытании это условие также должно быть соблюдено и т. д.
При определении стабильности признака большое значение имеет промежуток времени между первым и вторым обследованием. Чем короче срок от первого до второго испытания, тем (при прочих равных условиях) больше шансов, что диагностируемый признак сохранит уровень первого испытания. С увеличением временного интервала стабильность признака имеет тенденцию снижаться, так как возрастает число посторонних факторов, влияющих на нее. Следовательно, напрашивается вывод, что целесообразно проводить повторное тестирование через короткий срок после первого. Однако тут есть свои сложности: если срок между первым и вторым опытом небольшой, то некоторые испытуемые могут воспроизвести свои прежние ответы по памяти и, таким образом, отойдут от смысла выполнения заданий. В этом случае результаты двух предъявлений методики уже нельзя рассматривать как независимые.
Трудно четко ответить на вопрос, какой срок можно считать оптимальным для повторного эксперимента. Только исследователь, исходя из психологической сущности методики, условий, в которых она проводится, особенностей выборки испытуемых, должен определить этот срок. При этом такой выбор должен быть научно обоснован. В тестологической литературе наиболее часто называются временные интервалы в несколько месяцев (но не более полугода). При обследовании детей младшего возраста, когда возрастные изменения и развитие происходят очень быстро, эти интервалы могут быть порядка нескольких недель .
Коэффициент стабильности методики должен быть достаточно высоким (не ниже 0,80).
Определение константности (относительной независимости результатов от личности экспериментатора). Поскольку методика, разработанная для диагностических целей, не предназначена для того, чтобы вечно оставаться в руках своих создателей, крайне важно знать, в какой мере ее результаты поддаются влиянию личности экспериментатора. Хотя диагностическая методика всегда снабжается подробными инструкциями по ее применению, правилами и примерами, указывающими, как проводить эксперимент, однако регламентировать манеру поведения экспериментатора, скорость его речи, тон голоса, паузы, выражение лица очень трудно. Испытуемый в своем отношении к опыту всегда отразит то, как сам экспериментатор к этому опыту относится (допускает небрежность или действует точно в соответствии с требованиями процедуры, проявляет требовательность, настойчивость или бесконтрольность и т. п.).
Хотя в тестологической практике критерием константности пользуются нечасто, однако это не может служить основанием для его недооценки. Если у авторов методики возникают подозрения по поводу возможного влияния личности экспериментатора на исход диагностической процедуры, то целесообразно проверить методику по этому критерию. При этом важно иметь в виду следующий момент. Если под воздействием нового экспериментатора все испытуемые в одинаковой степени стали работать немного лучше или немного хуже, то сам по себе этот факт (хотя и заслуживает внимания) на надежность методики не окажет влияния. Надежность изменится лишь тогда, когда воздействие экспериментатора на испытуемых различно: одни стали работать лучше, другие хуже, а третьи так же, как и при первом экспериментаторе. Другими словами, если испытуемые при новом экспериментаторе изменили свои порядковые места в выборке.
Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.
Итак, были рассмотрены три показателя надежности психодиагностических методик. Может возникнуть вопрос, нужно ли при создании методик осуществлять проверку каждого из них? На этот вопрос следует дать утвердительный ответ.
Так, авторы «Стандартных требований к педагогическим и психологическим тестам» в главе «Надежность» отмечают, что коэффициент надежности - это родовое понятие, включающее в себя несколько видов, и каждый вид имеет свой особый смысл. Разделяет эту точку зрения и К. М. Гуревич . По его мнению, когда говорят о разных способах определения надежности, то имеют дело не с лучшей или худшей мерой, а с мерами разной по существу надежности. В самом деле, чего стоит методика, если не ясно, надежна ли она сама по себе как измерительный инструмент, или не установлена стабильность измеряемого свойства? Чего стоит диагностическая методика, если неизвестно, могут ли изменяться результаты в зависимости от того, кто ведет эксперимент? Каждый в отдельности показатель никак не заменит других способов проверки и, следовательно, не может рассматриваться в качестве необходимой и достаточной характеристики надежности. Только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностико-практического применения.
Валидность
Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методики решается лишь после того, как установлена достаточная ее надежность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практически бесполезной.
Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» .
Валидность по своей сути - это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.
По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.
Валидность в первом ее понимании имеет отношение к самой методике, т. е. это валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.
Обобщая, можно сказать следующее:
♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;
♦ при прагматической валидизации суть предмета измерения (психологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое методикой, имеет связь с определенными областями практики.
Провести теоретическую валидизацию , в отличие от прагматической, порой оказывается значительно труднее. Не вдаваясь пока в конкретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравниваются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической значимости, эффективности, действенности диагностической методики.
Для определения теоретической валидности найти какой-либо независимый критерий, лежащий вне методики, гораздо труднее. Поэтому на ранних стадиях развития тестологии, когда концепция валидности только складывалась, бытовало интуитивное представление о том, что тест измеряет:
1) методика называлась валидной, так как то, что она измеряет, просто очевидно;
2) доказательство валидности основывалось на уверенности исследователя в том, что его метод позволяет понять испытуемого;
3) методика рассматривалась как валидная (т. е. принималось утверждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.
Принятие на веру голословных утверждений о валидности методики не могло продолжаться длительное время. Первые проявления действительно научной критики развенчали такой подход: начались поиски научно обоснованных доказательств.
Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.
Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики совпадают.
Не столь сложно провести теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и аналогичной уже проверенной методикой указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более компактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого.
Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и отсутствие этой связи с методиками, имеющими другое теоретическое основание (дискриминантная валидность).
Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изучаемом свойстве, анализ теоретических предпосылок и экспериментальных данных, значительный опыт работы с методикой позволяет раскрыть ее психологический смысл.
Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т. е. чтобы имелась прочная, обоснованная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.
Важно помнить, что если доказана теоретическая валидность, то интерпретация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в определенных видах деятельности. Ей придают большое значение особенно там, где встает вопрос отбора.
Если опять обратиться к истории развития тестологии , то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.
Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.
Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наиболее продуктивная.
Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).
Американские исследователи Д. Тиффин и Е. Мак-Кормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа [по 31):
1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);
2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);
3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления И т. д.);
4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).
Внешний критерий должен отвечать трем основным требованиям:
♦ он должен быть релевантным;
♦ свободным от помех;
♦ надежным.
Под релевантностью имеется в виду смысловое соответствие диагностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородными по психологической сущности. Если, например, тест измеряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагностическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой.
Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.
Требования свободы от помех вызываются тем, что, например, учебная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, например, производительность следует брать не по абсолютным значениям, а в отношении к средней производительности рабочих, работающих в аналогичных условиях.
Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.
Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.
Оценка валидности методик может носить количественный и качественный характер.
Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Сколько испытуемых необходимо для расчета валидности?
Практика показала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свыше 0,60.
Но, как подчеркивают А. Анастази , К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича : почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
Вопросы и задания
1. Дайте определение понятию «стандартизация методик».
2. Что такое репрезентативная выборка? Как она строится?
3. Назовите приведенные в главе критерии оценки результатов диагностических испытаний.
4. Что такое надежность методики? Назовите виды надежности.
5. Что такое валидность методики? Назовите ее основные виды.
1. Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. Кн. 1. - М., 1982.
2. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003.
3. Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психологической диагностике. - Киев, 1989.
4. Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.
5. Гуревич К. М. О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии. Т. 6. - М., 1969.
6. Гуревич К. М. Надежность психологических тестов // Психологическая диагностика. Ее проблемы и методы. - М., 1975.
7. Гуревич К. М. Статистика - аппарат доказательства психологической диагностики // Проблемы психологической диагностики. - Таллин, 1977.
8. Гуревич К. М. Что такое психологическая диагностика. - М., 1985.
9. Гуревич К. М. Проблемы дифференциальной психологии. - М.; Воронеж, 1998.
10. Носс И. Н. Введение в технологию психодиагностики. - М., 2003.
11. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина. - М., 1987.
12. Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.
Часть II
ДИАГНОСТИКА
КОГНИТИВНОЙ
СФЕРЫ