4.6.3.5. Нормальное распределение
В научных исследованиях обычно принимается допущение о нормальности распределения реальных данных и на этом основании производится их обработка, после чего уточняется и указывается, насколько реальное распределение отличается от нормального, для чего существует ряд специальных статистических приемов. Как правило, это допущение вполне приемлемо, так как большинство психических явлений и их характеристик имеют распределения, очень близкие к нормальному.
Так что же такое нормальное распределение и каковы его особенности, привлекающие ученых? Нормальным называется такое распределение величины, при котором вероятность ее появления и не появления является одинаковой. Классическая иллюстрация – бросание монеты. Если монета правильна и броски выполняются одинаково, то выпадение «орла» или «решки» равновероятно. То есть «орел» с одинаковой вероятностью может выпасть и не выпасть, то же касается и «решки».
Мы ввели понятие «вероятность». Уточним его. Вероятность – это ожидаемая частота наступления события (появления – не появления величины).
Выражается вероятность через дробь, в числителе которой – число сбывшихся событий (частота), а в знаменателе – предельно возможное число этих событий. Когда выборка (число возможных случаев) ограниченна, то лучше говорить не о вероятности, а о частости, с которой мы уже знакомы. Вероятность предполагает бесконечное число проб. Но на практике эта тонкость часто игнорируется.Пристальный интерес математиков к теории вероятности в целом и к нормальному распределению в частности появляется в XVII веке в связи со стремлением участников азартных игр найти формулу максимального выигрыша при минимальном риске. Этими вопросами занялись знаменитые математики Я. Бернулли (1654-1705) и П. С. Лаплас (1749-1827). Первым математическое описание кривой, соединяющей отрезки диаграммы распределения вероятностей выпадения «орлов» при многократном бросании монет, дал Абрахам де Муавр (1667-1754). Эта кривая очень близка к нормальной кривой, точное описание которой дал великий математик К. Ф. Гаусс (1777-1855), чье имя она и носит поныне. График и формула нормальной (Гауссовой) кривой выглядит следующим образом.
где Р – вероятность (точнее, плотность вероятности), т. е. высота кривой над заданным значением Z; е – основание натурального логарифма (2.718...); ? = 3.142...; М – среднее выборки; ? – стандартное отклонение.
Свойства нормальной кривой 1.
Среднее (М), мода (Мо) и медиана (Me) совпадают. 2.
Симметричность относительно среднего М. 3.
Однозначно определяется всего лишь двумя параметрами – М и о. 4.
«Ветви» кривой никогда не пересекают абсциссу Z, асимптотически к ней приближаясь. 5.
При М = 0 и о =1 получаем единичную нормальную кривую, так как площадь под ней равна 1. 6.
Для единичной кривой: Рм = 0.3989, а площадь под кривой в диапазоне:
-? до +? = 68.26%; -2? до + 2? = 95.46%; -З? до + З? = 99.74%.
7. Для неединичных нормальных кривых (М ? 0, ? ? 1) закономерность по площадям сохраняется. Разница – в сотых долях.
Вариации нормального распределения
Представленные ниже вариации относятся не только к нормальному распределению, но к любому.
Однако для наглядности мы их приводим здесь.1. Асимметрия – неодинаковость распределения относительно центрального значения.
Рис. 6. Графики асимметричного распределения
Асимметрия – третий показатель, описывающий распределение наряду с мерами центральной тенденции и изменчивостью. Эксцесс – показатель, характеризующий скорость нарастания концентрации данных к центральному значению. На графиках это выражается «островершинностью» или «плосковершинностью».
Эксцесс – четвертый основной показатель распределения. 3. Бимодальность – распределение с двумя классами данных в выборке. Об этом эффекте уже говорилось при рассмотрении моды (Мо). На графике это выражается «двувершинностью».
4.6.3.6. Некоторые методы статистического анализа данных при вторичной обработке
Внедрение в научные исследования вычислительной техники позволяет быстро и точно определять любые количественные характеристики любых массивов данных. Разработаны различные программы для ЭВМ, по которым можно проводить соответствующий статистический анализ практически любых выборок. Из массы статистических приемов в психологии наибольшее распространение получили следующие.
Комплексное вычисление статистик
По стандартным программам производится вычисление различных совокупностей статистик. Как основных, представленных нами выше, так и дополнительных, не включенных в наш обзор. Иногда получением этих характеристик исследователь и ограничивается. Чаще же совокупность этих статистик представляет собой лишь блок, входящий в более широкое множество показателей изучаемой выборки, получаемое по более сложным программам. В том числе по программам, реализующим приводимые ниже методы статистического анализа.
Корреляционный анализ
Сводится к вычислению коэффициентов корреляции в самых разнообразных соотношениях между переменными. Соотношения задаются исследователем, а переменные равнозначны, т. е. что являются причиной, а что следствием, установить через корреляцию невозможно.
Кроме тесноты и направленности связей' метод позволяет установить форму связи (линейность, нелинейность) [27, 124]. Надо заметить, что нелинейные связи не поддаются анализу общепринятыми в психологии математическими и статистическими методами. Данные, относящиеся к нелинейным зонам (например, в точках разрыва связей, в местах скачкообразных изменений), характеризуют через содержательные описания, воздерживаясь от формально-количественного их представления; [84, с. 17–23]. Иногда для описания нелинейных явлений в психологии удается применить непараметрические математико-статистические методы и модели. Например, используется математическая теория катастроф [294, с. 523–525].Дисперсионный анализ
В отличие от корреляционного анализа этот метод позволяет выявлять не только взаимосвязь, но и зависимости между переменными, т. е. влияние различных факторов на исследуемый признак. Это влияние оценивается через дисперсионные отношения. Изменение изучаемого признака (вариативность) может быть вызвано действием отдельных известных исследователю факторов, их взаимодействием и воздействиями неизвестных факторов. Дисперсионный анализ позволяет обнаружить и оценить вклад каждого из этих влияний на общую вариативность исследуемого признака. Метод позволяет быстро сузить поле влияющих на изучаемое явление условий, выделив наиболее существенные из них. Таким образом, дисперсионный анализ – это «исследование влияния переменных факторов на изучаемую переменную по дисперсиям» [364, с. 340]. В зависимости от числа влияющих переменных различают одно-, двух-, многофакторный анализ, а в зависимости от характера этих переменных – анализ с постоянными, случайными или смешанными эффектами [87, 364, 407]. Дисперсионный анализ широко применяется при планировании эксперимента.
Факторный анализ
Метод позволяет снизить размерность пространства данных, т. е. обоснованно уменьшить количество измеряемых признаков (переменных) за счет их объединения в некоторые совокупности, выступающие как целостные единицы, характеризующие изучаемый объект.
Эти составные единицы и называют в данном случае факторами, от которых надо отличать факторы дисперсионного анализа, представляющие собой отдельные признаки (переменные). Считается, что именно совокупность признаков в определенных комбинациях может характеризовать психическое явление или закономерность его развития, тогда как по отдельности или в других комбинациях эти признаки не дают информации. Как правило, факторы не видны на глаз, скрыты от непосредственного наблюдения. Особенно продуктивен факторный анализ в предварительных исследованиях, когда необходимо выделить в первом приближении скрытые закономерности в исследуемой области. Основой анализа является матрица корреляций, т. е. таблицы коэффициентов корреляции каждого признака со всеми остальными (принцип «все со всеми»). В зависимости от числа факторов в корреляционной матрице различают однофакторный (по Спирмену), бифакторный (по Холзингеру) и многофакторный (по Тёрстону) анализы. По характеру .связи между факторами метод делится на анализ с ортогональными (независимыми) и с облическими (зависимыми) факторами. Существуют и иные разновидности метода [35, 134, 199, 269, 394]. Весьма сложный математический и логический аппараты факторного анализа часто затрудняют выбор адекватного задачам исследования варианта метода. Тем не менее популярность его в научном мире растет с каждым годом.Регрессионный анализ
Метод позволяет изучать зависимость среднего значения одной величины от вариаций другой (других) величины. Специфика метода заключается в том, что рассматриваемые величины (или хотя бы одна из них) носят случайный характер. Тогда описание зависимости распадается на две задачи: 1) выявление общего вида зависимости и 2) уточнение этого вида путем вычисления оценок параметров зависимости. Для решения первой задачи стандартных методов не существует и здесь производится визуальный анализ корреляционной матрицы в сочетании с качественным анализом природы исследуемых величин (переменных). Это требует от исследователя высокой квалификации и эрудиции. Вторая задача, по сути, есть нахождение аппроксимирующей кривой. Чаще всего эта аппроксимация осуществляется с помощью математического метода наименьших квадратов [45, 116, 124]. Идея метода принадлежит Ф. Гальтону, заметившему, что у очень высоких родителей дети были несколько меньше ростом, а у очень маленьких родителей – дети более рослые. Эту закономерность он и назвал регрессией.
Еще по теме 4.6.3.5. Нормальное распределение:
- Кривая нормального распределения
- Часть 1. Нормальное разбитие
- «Нормальные естественные затруднения»
- Агнес — нормальная женщина
- 15.12. Об эгоизме, альтруизме и нормальном поведении
- Метод нормального отрыва и его модификации
- Началась нормальная академическая жизнь...
- Обретение качеств, приписываемых нормальной женщине
- Некоторые источники «нормальных естественных затруднений»
- Нормальный кризис или нечто большее?