<<
>>

Проблемы исследования валидности тестов

Процесс проверки валидности теста может быть длительным, и в результате получается одно число — коэффициент корреляции. Это число может быть основой для принятия важных решений, и индустриально-организационные психологи должны постоянно проявлять внимание к проблемам, из-за которых в исследовании валидности могут появиться ошибки.

Здесь обсуждаются две такие проблемы — ошибки при формировании выборки и дифференциальная валидность. Важно также найти способы повышения эффективности исследований валидности. Один из возможных путей — это генерализация валидности.

Ошибки при формировании выборки

В этой главе мы постоянно возвращались к мысли о том, что все измерения содержат ошибку. Одним из постоянных источников ошибок являются испытуемые, за которыми проводятся наблюдения. Существует много причин, по которым испытуемые, участвующие в эксперименте (в том числе проходящие тестирование при исследовании надежности или валидности), могут отличаться по какому-нибудь важному аспекту от других испытуемых, которые тоже могли бы стать объектом наблюдения. Если эти различия играют решающую роль, то в исследование вносится ошибка формирования выборки. При этом снижается степень репрезентативности выборки для релевантной популяции.

Возможность генерализации.

Влияние ошибки формирования выборки сводится к снижению возможности генерализации выводов из наблюдений, проведенных за членами выборки, на других людей, не входящих в эту выборку. Предположим, например, что по какой-то причине индустриально-организационный психолог может провести экспериментальный отборочный тест при приеме на работу только с теми претендентами, которые приходят в отдел кадров компании в период с пятнадцати до семнадцати часов. В таком случае любая оценка критериальной валидности теста будет, по-видимому, основана на нерепрезентативной выборке.

Точная природа этой необъективности неясна, но описанная выборка почти наверняка будет содержать непропорционально большое количество людей, которые поздно встают по утрам, а также претендентов, которые начали искать работу с утра и уже обращались в другие компании (и возможно, проходили там тестирование). Претенденты, которые начали поиск работы рано, наверное, будут усталыми, а возможно, и разочарованными. Те, кто встал с постели около полудня, может быть, на самом деле и не очень заинтересованы в том, чтобы получить работу. В любом случае исследователь получит выборку результатов теста, отличающуюся от выборки, которая получилась бы при тестировании испытуемых в течение всего дня. Поэтому непонятно, можно ли «пользовать критериальный коэффициент валидности, который будет получен с использованием этих испытуемых, для всей популяции «претендентов на место в этой компании».

В этом примере описана очевидная ошибка формирования выборки, которой легко можно избежать, но реальная практика проведения исследований говорит о том, по какая-нибудь ошибка, допущенная при формировании выборки, обычно приводит к необъективным выводам. Это одна из причин того, что в научном методе придается столь большое значение верификации. В исследованиях валидности для верификации необходимо проверить первые оценки валидности с помощью другой выборки — то есть провести репликацию исследования. Если нет оснований подозревать, то вся выборка составлена некорректно (как в приведенном примере), то репликацию часто проводят с использованием какой-то части всех имеющихся испытуемых. Эта «выборка из выборки» называется резервной выборкой (hold-out sample); она составляется как случайная из первоначальной выборки испытуемых. Сначала тестируют остальных испытуемых из исследуемой выборки, а репликацию результатов проводят с помощью резервной выборки.

Научный метод.

Метод резервной выборки позволяет экономить время. Если время не имеет большого значения или возникает какая-либо проблема с первоначальной выборкой, можно осуществить репликацию исследования путем повторного проведения того же исследования в другое время и с другой выборкой испытуемых.

Независимо от способа ее проведения, одна репликация считается абсолютно необходимым минимумом, если тест собираются использовать в прикладных целях. Если тест используется в течение сколько-нибудь длительного периода, то необходимо время от времени проводить его переоценку. Изменяются характер работы, стандарты и характеристики работников, обращающихся в данную организацию.

Верификация.

Дифференциальная валидность

Доказательство критериальной валидности проводится с целью установления связи между предсказывающей переменной и одной или несколькими переменными-критериями. Интересная глава была вписана в историю тестирования, осуществляемого при приеме на работу, когда возникли подозрения, что на эту связь может влиять еще один член семейства переменных — опосредующая переменная.

Опосредующие переменные, которые могут оказывать предсказуемое влияние на характер связи между двумя другими переменными, привлекли к себе всеобщее внимание, когда тестирование при приеме на работу впервые попало под огонь критики по подозрению в том, что оно способствует сохранению в организациях расовой предвзятости. Этот вопрос возник тогда, когда выяснилось, что непропорционально большая доля представителей расовых меньшинств получает отказ в приеме на работу, даже если для отбора используются тесты, в которых продемонстрирована критериальная валидность. Создавалось впечатление, будто связь между основными результатами теста и критерием выполнения работы, которая была установлена с помощью исследования валидности, зависит от расы.

Опосредующая переменная.

На рис. 3.7 представлена простая иллюстрация того факта, что при отборочном тестировании раса может выступать в роли опосредующей переменной. На графике А представлены результаты гипотетического исследования критериальной валидности, в котором использовалась выборка, состоявшая как из белых, так и из испытуемых с другим цветом кожи. Паттерн этих данных, которые более или менее хорошо ложатся на прямую линию, идущую из левого нижнего угла графика в правый верхний, указывает на наличие умеренной, но приемлемой положительной корреляции.

Фактические вычисления, вероятно, дали бы коэффициент критериальной валидности, Достаточный для того, чтобы отбор был полезным. Рис. 3.7. Концепция дифференциальной валидности

Рис. 3.7. Концепция дифференциальной валидности

График В — это точечный график, построенный по данным только для белых испытуемых, а график С — по данным для остальных испытуемых. Обратите внимание на то, что положительная корреляция, заметная на графике А, сохраняется и даже белый кружок — белые, черный кружок — остальные осиливается на графике В, но исчезает на графике С. Такая картина отражает смысл концепции дифференциальной валидности: степень критериальной валидности существенно различна для разных подгрупп испытуемых. Она приемлема для белых, но близка к нулю для испытуемых с другим цветом кожи; раса опосредует связь между результатами теста и выполнением работы.

Графики, изображенные на рис. 3.7, типичны для того, что обнаружили в своих данных индустриально-организационные психологи, когда начали анализировать их на дифференциальную валидность. Влияние этих открытий на равные возможности трудоустройства привело к бурной, но кратковременной революции в индустриально-организационных психологических исследованиях, посвященных тестированию. Исследования опосредующих переменных (которые часто называют анализом подгрупп - subgroup analysis) стали частью любой программы тестирования. Были тщательно изучены другие возможные опосредующие переменные, такие как пол, уровень образования, принадлежность к социальному классу и различные личностные черты. Как часто случается в прикладной психологии, первоначально повышенный интерес к опосредующим переменным сменился более трезвым анализом результатов этих исследований. Анализ показал, что причины появления дифференциальной валидности по большей тети случайны или связаны со статистическими проблемами. В настоящее время у представителей основного направления индустриально-организационной психологии сложилось общее мнение, что в области тестирования при приеме на работу дифференциальная валидность не является главным поводом для тревоги.

По-видимому, всегда будут возникать ситуации, когда прогнозы, сделанные с помощью какого-либо теста, для одной широкой группы испытуемых менее точны, чем для другой группы. Однако в большинстве случаев главным вопросом, как и всегда, остается простое старое доказательство критериальной валидности. Тем не менее многих продолжает волновать тема различий между результатами тестирования белых испытуемых и испытуемых с другим цветом кожи, и то, как эти результаты используется. Более подробное обсуждение этой темы можно найти в рубрике «Внимание — проблема».

<< | >>
Источник: Джуэлл Л.. Индустриально-организационная психология. Учебник для вузов — СПб.: Питер. — 720 с.: ил. — (Серия «Учебник нового века»). 2001

Еще по теме Проблемы исследования валидности тестов:

  1. 1.5. Проблемы, связанные с овладением научными знаниями 1.5.1. Отношение научного исследования и научных знаний к объективной реальности. Валидность в организации научного исследования и его результатов
  2. Исследования крупным планом. Неполная эквивалентность обычной и компьютерной версий батареи тестов общих способностей
  3. Глава 3 Проблемы научного исследования психических явлений. Как добиться верности, правдоподобности, объективности знаний, получаемых в ходе исследования?
  4. 2. Проблема и тема исследования
  5. Валидность
  6. Исследования, посвященные проблемам набора
  7. Раздел 1 Проблема метафизического в философском исследовании человека
  8. Современные исследования проблемы удовлетворенности работой
  9. Постановка проблемы. Цель исследования. Метод
  10. Генерализация валидности
  11. Тема 2.4. Обзор отечественных исследований по проблемам городов
  12. § 1. ИССЛЕДОВАНИЯ АНТРОПОГЕНЕЗА И ПРОБЛЕМА ИНТЕРПРЕТАЦИИ АРХЕОЛОГИЧЕСКИХ ИСТОЧНИКОВ