Надёжность и её виды. Надежность психодиагностических методик: её виды, способы установления. Соотношение валидности и надежности Что такое надежность в психологии

МИНОБРНАУКИ РФ

Государственное образовательное учреждение

Высшего профессионального образования

«Поволжская государственная социально-гуманитарная академия»

Кафедра социальной педагогики, психологии и педагогики начального образования

Надежность психодиагностических методик: её виды, способы установления. Соотношение валидности и надежности.

Выполнила студентка II курса по

Психолого-педагогической диагностике

дневного отделения

факультета начального образования

(специальность Социальная педагогика)

Павлова Марина Вячеславовна

Самара 2011

    Введение

    Надежность психодиагностических методик

    Способы установлении и виды надежности

    Соотношение валидности и надежности

    Заключение

    Список использованной литературы

Введение

В традиционной тестологии термин «надежность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых. Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу - 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том, и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы. Можно сказать, что надежность методики - это такой критерий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные результаты.

Надежность можно установить двумя общими способами: 1) путем сравнения результатов, получаемой посредством данной методики или теста разными диагностами; 2) путем сравнения результатов, получаемой применением данной методики или теста в идентичных условиях. Различается множество видов надежности и конкретных способов определения их уровня. Определение надежности теста бывает связано с понятием внутренней состоятельности теста; это выражается в расчленении теста на части с последующим сопоставлением результатов частей. Надежность теста определяется также методами анализа дисперсионного и факторного.

Виды надёжности

При исследовании надёжности часто ставится задача определить причины, приводящие к формированию той или другой стороны надёжности. Без этого невозможно наметить правильную программу работ по повышению надёжности. Это приводит к делению надёжности на:

Аппаратную надёжность, обусловленную состоянием аппаратуры;

Программную надёжность объекта, обусловленную состоянием программ;

Надёжность объекта, обусловленную качеством обслуживания;

Надёжность функциональная.

Особого внимания заслуживает понятие “программная надёжность”, так как её важная роль в обеспечении надёжности АСУ является одной из самых характерных особенностей прикладной теории надёжности АСУ. Понятие “программная надёжность” возникло в результате следующих основных причин. В инженерной практике всё большее значение приобретают программно-управляемые изделия: программно-управляемые станки; вычислительные машины и системы машин; системы передачи данных АСУ и др. Для этих изделий характерно то, что они являются органическим слиянием технических средств (аппаратуры) и программы. Без программного обеспечения вычислительный комплекс, или тракт передачи данных, - это “мёртвый” набор технических устройств, который оживает тогда и только тогда, когда он используется как единое целое с программой. Поэтому говорить о надёжности таких устройств бессмысленно, если не учитывать влияния программного обеспечения.

Учёт влияния программного обеспечения приводит к необходимости выделять в особый вид программную надёжность объектов.

Надёжность функциональная - надёжность выполнения отдельных функций, возлагаемых на систему. АСУ, как правило, система многофункциональная, т.е. она предназначается для выполнения ряда функций, различных по своей значимости. Требования к надёжности выполнения различных функций могут быть различными (например, для функции “расчёт зарплаты” требуется высокая точность, но не требуется жёсткого ограничения времени). Поэтому может оказаться целесообразным задавать различные требования к выполнению различных функций. Примером функциональной надёжности в АСУ может быть надёжность передачи определённой информации в системе передачи данных.

*Надежность и валидность теста - это характеристики соответствия исследования формальным критериям, определяющим качество и пригодность к применению на практике.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста - это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Факторы надежности

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

  • несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
  • временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
  • несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
  • меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
  • субъективный подход при оценке результатов теста.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

  • конструктивная валидность теста - это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность - это который позволяет оценить перспективное развитие параметра.

Типы критериев валидности

Валидность теста - это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

  • соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
  • отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
  • исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию - проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Выводы

Валидность и надежность тестов - это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

НАДЕЖНОСТЬ (устойчивость ) - это такая характеристика методики, которая позволяет оценить постоянство тестовых показателей (т.е. устойчивость результатов теста к действию посторонних, случайных факторов).

На надежность методики влияет (посторонние факторы):

  • - нестабильность диагностируемого свойства;
  • - несовершенство диагностических методик:
  • - небрежно составленная инструкция;
  • - разнородные по своему характеру задания;
  • - нечетко определенная область измерения;
  • - нечетко прописанная процедура обследования.
  • - меняющаяся ситуация обследования:
  • - разное время дня;
  • - разная освещенность помещения;
  • - посторонние шумы;
  • - погода и т.д.
  • - манера поведения психолога:
  • - разная стимуляция клиента на выполнение задания и т.д.
  • - состояние клиента (колебание в этих состояниях):
  • - настроение;
  • - усталость и т.д.
  • - элемент субъективизма в способах оценки/ интерпретации результатов (особенно при открытых ответах и т.п.).

Для того, чтобы надежность методики была высокой, методика должна быть стандартизирована (все д.б. прописано: процедура проведения, область исследования и т.д.).

В качестве цифрового показателя надежности выступает коэффициент корреляции .

Виды надежности:

РЕТЕСТОВАЯ НАДЕЖНОСТЬ - вид надежности, который определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики.

(Чем выше коэффициент корреляции, тем выше надежность, т.е. мы получаем примерно то же самое распределение).

Определение временного интервала:

С увеличением временного интервала - показатели корреляции имеют тенденцию к снижению (т.к. имеет место влияние посторонних факторов).

Пр: могут произойти естественные временные изменения.

Обычно выбираются непродолжительные временные интервалы: от 2 недель до 2-4 месяцев (это зависит от возраста обследуемых. Чем старше, тем больше можно делать интервал, и наоборот).

Слишком маленький интервал:

  • > проблема запоминания;
  • > проблема интереса.

НАДЕЖНОСТЬ ПАРАЛЛЕЛЬНЫХ ФОРМ - проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста).

Требования к созданию параллельных форм теста:

  • 1. Количество заданий д.б. одинаково.
  • 2. Типы заданий в обеих формах д.б. унифицированы (приведены в соответствие) в плане психологического содержания, уровня и пределов трудности, охвата тех или иных операций.
  • 3. Задания в тесте д.б. распределены по трудности одинаковым образом.
  • 4. обе формы должны иметь примерно одинаковое среднее значение и среднее отклонение.
  • 5. Процедура применения отдельных форм, техника оценивания результатов д.б. унифицированы.

Показатель надежности - коэффициент корреляции.

НО!! Существует опасность обучаемости решению тестов. Обследуемый может запомнить алгоритм решения определенных типов задач.

НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА (одномоментная надежность/ надежность-согласованность) - характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.

Надежность проверяют на результатах…:

  • 1) Результаты теста расщепляются на части (чаще всего путем деления на четные и нечетны пункты).
  • 2) По каждой половине рассчитываются суммарные баллы.
  • 3) Между двумя рядами баллов по испытуемым рассчитываются допустимые коэффициенты корреляции.

Разделение теста на части > уменьшение величины этого теста > уменьшение/ снижение достоверности результатов.

Надо предусмотреть: при разделении - задания по своему характеру д.б. однородными.

Преимущества данного вида надежности:

  • 1) Отсутствие влияния факторов, порождаемых повторным тестированием: эффект упражнения, снижение мотивации и т.д.
  • 2) Менее трудоемок (пр: не надо разрабатывать параллельную форму теста, проводить повторное обследование и т.д.).

Наиболее высокий показатель надежности обеспечивает надежность параллельных форм!!

Но она ограничивается техническими возможностями.

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты. Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты таких свойств, как:

1. Воспроизводимость результатов исследования.

2. Точность измерения.

3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

1. нестабильность диагностируемого свойства;

2. несовершенство диагностических методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечётко сформулированы указания по предъявлению методики испытуемым и т.д.);

3. меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещённость помещения, наличие или отсутствие посторонних шумов и т.д.);

4. различия в манере поведения экспериментатора (от опыта к опыту по-разному предъявляет инструкции, по-разному стимулирует выполнение заданий и т.д.);

5. колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом – утомление и т.д.);

6. элементы субъективности в способах оценки и интерпретации результатов (когда ведётся протоколирование ответов испытуемых, оценивают ответы по степени полноты, оригинальности и т.д.).

Одним из важнейших средств повышения надежности методики является единообразиепроцедуры обследования , его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка . Она может, как снижать, так и завышать этот показатель, например надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики. В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.


Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции. Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

Надёжность трактуется как совокупность трех признаков :

1. надёжность самого измерительного инструмента (коэффициент надежности);

2. стабильность изучаемого признака (коэффициент стабильности);

3. константность , т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности ; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности ; а показатель оценки влияния личности экспериментатора – коэффициентом константности . Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности.

Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания, насколько она однородна, зависит точность, объективность измерения. Для проверки надежности измерительного инструмента, говорящего о его однородности используют метод расщепления. Задания делят на четные и нечетные, а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д. Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить, насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер. Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования. При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака. Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности , т.е. относительная независимость результатов от личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.