6. ДИСПЕРСІЙНИЙ АНАЛІЗ

Основною метою дисперсійного аналізу, фундаментальна концепція яко­го була запропонована Фішером у 1920 р., є дослідження значущості відмін­ності між середніми декількох груп даних або змінних. Якщо порівнюються середні двох груп, дисперсійний аналіз дасть той же результат, що і звичай­ний ґ-критерій для незалежних або залежних вибірок. Проте використання дисперсійного аналізу має переваги особливо для малих вибірок.

У дисперсійному аналізі перевірка статистичної значущості відмінності між середніми декількох груп здійснюється на основі вибіркових дисперсій. Ця перевірка проводиться за допомогою розбиття загальної дисперсії (варіа­ції) на частини, одна з яких обумовлена випадковою помилкою (тобто внут-рішньогруповою мінливістю), а друга пов'язана з відмінністю середніх зна­чень. Якщо ця відмінність значуща, нульова гіпотеза щодо існування відмін­ності між середніми значеннями відкидається на певному рівні значущості.

Дисперсійний однофакторний аналіз

Дисперсійний однофакторний аналіз використовується у дослідженнях зміни результативної ознаки під впливом зміни умов або градацій фактора. Суть математичних перетворень дисперсійного методу полягає в тому, щоб зіставити дисперсії за факторами із дисперсією усіх значень, отриманих в експерименті. Однофакторний аналіз вимагає не менше трьох градацій фак­тора і не менше двох випробовувань у кожній градації. При проведенні дис­персійного аналізу необхідно перевірити нормальність розподілу досліджу­ваної випадкової величини і відсутність відмінності дисперсій сукупностей. Це можна виконати методами перевірки статистичних гіпотез (див.розділ 5).

Припустимо, що аналізується вплив фактора А на к рівнях А], А2, Ак. Наприклад, в експерименті це можна реалізувати, якщо задіяти к вибірок з різними градаціями умов. На кожному рівні Аі (для кожної вибірки) проведе­


но п спостереженьхц, хі2,     хіп (див. табл. 6.1).

 

 

Номери спостережень

Рівні фактора А

Аі

А2

Ак

1

 

 

хи

2

 

х22

хк2

І

хіі

х2і

хІ

п

 

х2п

хкп

 

Хі

Х2          ...

Хк

 

Розглянемо оцінки різних дисперсій.

Дисперсія і,2 для рівня Аі (для певної вибірки) може бути записана як


 

п -1


І=1


 

1

г

п -1


(  п       \

ух] - п ух

І=1


2


 

Дисперсія і0 , що характеризує варіативність поза впливу фактора А


 




 

Загальна дисперсія і всіх пк спостережень дорівнює

і       к    п        =          =     і    к

— УУ(хй -х)2   де   х =—Vх,  і   х,- = — Vх;

Отже,


1


г


1


кп


2


2

4\ =


кп -1


¡=1 ;=1        кп


1

Дисперсія і а , що характеризує зміну середніх х, під впливом фактора А:

і] =—у (х,   -2

к - 1'м

Перевірка впливу фактора А на зміну середніх може бути зведена до порі­вняння дисперсій і л і і,2 . Вплив фактора А вважатиметься значущим на ріні а, якщо є значущим відношення s\ / s2,, тобто якщо

sа /s02 > Fa[k -1; k(n -1)], де k -1; k(n -1) - ступені вільності F-розподілу, s\ /   - F-критерій Фішера. Приклад 6.1. Довести припущення про те, що фактор швидкості пред'яв­лення слів впливає на показники їх відтворення (дані у таблиці рис. 8.1). Послідовність рішення:

•           Формулювання гіпотез.

H0: фактор швидкості не є більш вираженим, ніж випадковим; H1: фактор швидкості є більш вираженим, ніж випадковим.

Перевірка припущень: досліджуваний параметр має нормальний розпо­діл; вибірки незв'язані однакових обсягів; виміри за шкалою відношень.

Визначення емпіричного критерію FeMn базується на зіставленні квадра­тів сум по стовпцях із сумою квадратів усіх емпіричних значень. Кожний стовпець представляє вибірку і відповідає певній градації фактора швидкості.

Введені позначення:

n = 6 - кількість спостережень (рядків);

k = 3 - кількість факторів (стовпчиків);

nk = 6-3 = 18 - загальна кількість індивідуальних значень;

j - індекс рядків змінюється від 1 до n (j =1, 2, „., n);

i - індекс стовпчиків змінюється від 1 до k (i =1, 2, „., k).

•           Математичні розрахунки (див. рис 6.1 і 6.2):

-           розрахувати суми в комірках В13:В15 за формулами

а саме

Q1 = 62 + 72 + 62 + 52 +_+52 +52 = 432;   Q2 = -(342 + 292 + 232) = 421;

6

Q3 ^^(34 + 29 + 23)2 = 410,89; 3 • 6

-           розрахувати емпіричний критерій FeM„ в комірці В16 за формулою


к(п -1) а - а к -1 а - а

3(6 -1) 421 - 410,89 3 -1    432 - 421



Прийняття рішення. Оскільки ¥гмп >Р001 (6,89 > 6,36), нульова гіпотеза Н0 відхиляється на рівні значущості 0,01.

Формулювання висновків. Відмінності в обсязі відтворення слів (фактор швидкості) є більш вираженими, ніж випадковим. Цю залежність можна представити графічно на рис. 6.3.

Розрахунки однофакторної моделі можна провести за допомогою пакета «Аналіз даних» розділ «Однофакторний дисперсійний аналіз» (рис. 6.4).

Анализ данных

Инструменты анализа


Двухфакторный дисперсионный анализ с повторениями Двухфакторный дисперсионный анализ без повторений Корреляция Ковариация

Описательная статистика Экспоненциальное сглаживание Двухвыборочный Р-тест для дисперсии Анализ Фурье

Гистограмма  1Д1|


 

Справка


Рис. 6.4. Меню пакета «Аналіз даних» Після введення відповідних параметрів (рис. 6.5) можна отримати резуль­тати однофакторного дисперсійного аналізу (рис. 6.6).

О днофакто рный дис пе рс ио н н ы й а нал из


[-Входные данные Входной интервал:

Группирование:

Метки в первой строке Альфа: |о,05

|$В$2:$0$8      3

Г* по столбцам С по строкам


Справка  |


 


Параметры вывода  

(* Выходной интервал:       |$Р$1 С Новый рабочий лист: Новая рабочая книга


"3



Рис. 6.5. Діалогове вікно


Комп'ютерний пакет «Аналіз даних» виконує розрахунки основних стати­стик (суми, середні, дисперсії, значення емпіричних і теоретичних Р-критеріїв тощо), що дає підстави дослідникові для статистичних висновків.

Дисперсійний двофакторний аналіз

Дисперсійний двофакторний аналіз застосовується в тих випадках, коли досліджується одночасна дія двох факторів на різні вибірки об'єктів, тобто коли різні вибірки опиняються під впливом різних поєднань двох факторів. Може статися, що одна змінна значущо діє на досліджувану ознаку тільки при певних значеннях іншої змінної. Наприклад, посилення мотивації може підвищувати швидкість рішення завдань у високоінтелектуальних осіб і зни­жувати її у низькоінтелектуальних. Отже, дисперсійний двофакторний аналіз дозволяє оцінити не лише вплив кожного з факторів, але й їхню взаємодію.

Суть методу залишається тією самою, як і при однофакторній моделі, але у двофакторному дисперсійному аналізі можна перевірити більшу кількість гіпотез, проте розрахунки дещо складніші, ніж в однофакторних комплексах.

Дисперсійний двофакторний аналіз пред'являє особливі вимоги до фор­мування комплексів. Для кожного фактора має бути не менше двох градацій; у кожному осередку комплексу повинно бути не менше двох спостережува­них значень для виявлення взаємодії градацій; комплекс має бути симетрич­ною системою: кожній градації фактора А повинна відповідати однакова кі­лькість градацій фактора В; результативна ознака повинна мати нормальний розподіл; фактори мають бути незалежними, що може бути підтверджено відсутністю кореляційного зв'язку між змінними-чинниками.

Приклад 6.2. Чотирьом групам по 4 випробовуваних у різних комбінаціях швидкості пред'явленні і довжини слова було запропоновано завдання з 10 слів для відтворення їх через деякий час (табл. 6.2).

Кількість відтворених слів різної довжини і швидкості їх пред'явлення

 

 

Фактори

Групи:

А1В1

А2В1

А1В2

А2В2

А - довжина

короткі слова

довгі

короткі слова

довгі

В - швидкість

висока

низька

1

7

5

4

6

2

5

4

3

4

3

4

3

3

7

4

7

4

4

5

Середні:

5,75

4,00

3,50

5,50

 

Необхідно довести значущість припущення про те, що між факторами довжини слова (А) і швидкістю їх пред'явлення (В) спостерігається взаємо­дія: при великій швидкості пред'явлення краще запам'ятовуються короткі, при низькій швидкості - довгі слова, що показано на рис. 6.7.

Висока швидкість пред'явлення □    Низька швидкість пред'явлення

 

5,75  *^

□ 5,50

 

3,50 □

4,00

Короткі слова (А1)    Довгі слова (А2) Довжина слів

Рис. 6.7. Залежність середньої кількості відтворених слів від їхньої довжини і швидкості пред'явлення

Послідовність рішення:

• Формулювання гіпотез. Зважаючи на умови дослідження, необхідно висунути три комплекти неспрямованих гіпотез, які стосуються впливу фак­тора А окремо від фактора В, впливу фактора В окремо від фактора А і гіпоте­зи про вплив взаємодії градацій факторів А і В.

1-й комплект гіпотез:

Щ(2)\ відмінності в обсязі відтворення слів, обумовлені дією фактора А, є не більше вираженими, ніж випадкові відмінності між показниками;

Н1(1): відмінності в обсязі відтворення слів, обумовлені дією фактора А, є більш вираженими, ніж випадкові відмінності між показниками.

2-й комплект гіпотез:

Щр/: відмінності в обсязі відтворення слів, обумовлені дією фактора В, є не більше вираженими, ніж випадкові відмінності між показниками;

Н1(2у відмінності в обсязі відтворення слів, обумовлені дією фактора В, є більш вираженими, ніж випадкові відмінності між показниками.

3-й комплект гіпотез:

Н0(з/: вплив фактора А на обсяг відтворення слів однаковий при різних градаціях фактора В і навпаки;

Н1(3): вплив фактора А на обсяг відтворення слів різний при різних града­ціях фактора В і навпаки.

Перевірка припущень: досліджуваний параметр має нормальний розпо­діл; вибірки незв'язані однакових обсягів; виміри за шкалою відношень.

Визначення емпіричного критерію. Ситуації відповідає модель двобіч­ного ^-критерію, для якого необхідно визначати три емпіричні значення:

¥А - характеризує варіативність ознаки, зумовлену дією фактора А; ¥в - характеризує варіативність ознаки, зумовлену дією фактора В; ¥АВ - характеризує варіативність, зумовлену взаємодією факторів А і В.

•           Введені позначення:

п = 4 - кількість об'єктів (рядків у групі випробувань);

і = 2 - кількість факторів А;

т = 2 - кількість факторів В;

піт = 2-2-4 = 16 - загальна кількість значень;

к - індекс об'єктів змінюється від 1 до п (і = 1, ..п);

і - індекс факторів А змінюється від 1 до і (/' =

І - індекс факторів В змінюється від 1 до т (к = 1,..т).

• Розрахунки критеріїв fa , fb і fas рекомендовано починати з побудови за емпіричними даними спеціальної таблиці, що відтворює двофакторний ди­сперсійний комплекс (рис.6.8 і 6.9)

 

 

 

 

 

А

В

с

D

E

1

Швидкість

Довжина слів

Середні

2

пред'явлення

Короткі (Alj

Довгі (А2)

3

 

7

5

5,75

4,00

4

Вис ока (В 1)

5

4

5,75

4,00

5

4

3

5,75

4,00

6

 

7

4

5,75

4,00

7

 

4

6

3,50

5,50

8

Низька (В2)

3

4

3,50

5,50

Э

3

7

3,50

5,50

10

 

4

5

3,50

5,50

11

 

5,7:5

4,00

4,88

 

12

Середні

3,50

5,50

4,50

 

13

 

4,63

4,75

4,69

4,69

14

п =

4

 

 

 

15

1 =

2

 

 

 

16

тп =

2

 

 

 

17

пі7п =

16

 

 

 

18

Qt =

29,44

 

 

 

Qi =

0,56

 

 

 

20

q2 =

0,06

 

 

 

21

Qs =

14,06

 

 

 

22

q4 =

14,75

 

 

 

23

 

0,56

=

0,46

 

24

S*2 =

0,06

Fb =

0,05

 

25

S23 =

14,06

^jLS =

11,44

 

26

 

1,23

 

 

 

27

a -

0,05

FnllJ2)

4,75

 

Рис. 6.8. Результати двофакторного дисперсійного аналізу

• Розрахувати середні значення :

у комірках В11:С12 для кожної вибірки

-     1 ^ -     1

х?=-2^хак (наприклад, хп =-(7 + 5 + 4 + 7) = 5,75);
п і=1    4

у комірках Б3:Е10 повторити значення для кожної вибірки;

у комірках В 13:С 13 по фактору А (по стовпчику)

-     1 1 -     1

х*/ = -^хд (наприклад, х*1 = —(5,75 + 3,50) = 4,63);

1 ]=1    2

у комірках 011:012 по фактору В (по рядках)

х;* = — У х,;. (наприклад, хР = 1 (5,75 + 4,00) = 4,88 );

т і=1    2

у комірках Б13:Е13 для всіх вибірок

х = у-цх;к (х = -і-(5,75 + 4,00 + 3,50 + 5,50) * 4,69);

І • т     ;=1       2 • 2

• Розрахувати суми квадратів різниць у комірках В18:В22 за допомогою формул і відповідних виразів(див. рис. 6.9):

бо   XXX(х к~х)1      =ДИСП(В3:С10)*(В17-1);

,=1 ;=1 к=1 І   _

б = І ■      (х*, -х)2     =В14*В15*СУММКВРАЗН(011:В12;В13:Е13);

;=1

б] = т ■ п]Г(х;* -х)2    =В14*В16*СУММКВРАЗН(В13:С13;013:Е13);

І     т     п

б4   УУУ (х к -х,;)2 =СУММКВРАЗН(В3:С10;О3:Е10);

,=1 ;=1 к=1

бз = бо " 61 ~ б] ~ б4    =В18-В19-В20-В22.

•           Розрахувати середні квадрати у комірках В23:В26 за допомогою фор­мул і відповідних виразів:

2 _ _б1_;     і 2 _     б2            і 2 _     б3        2 _       б3

1 ~ (І -1);    2~(т -1);    3~(І - 1)(т -1);    4~ І ■ т ■ (п -1) .

•           Розрахувати емпіричні критерії у комірках В23:В25:

РА - 4 - 0566 « 0,46;   Рв - 4 = 0,06 я 0,05; РМ - і = і4,066 * 11,44;

А   і42    1,23  '   в    і42    1,23          ' АВ   і2    1,23      '   '

•           Критичні значення Р-кpumepiю можна отримати за допомогою функції =РРАСПОБР для прийнятого рівня значущості а і ступенів вільності. dfA = (І-1)=(2-1)=1, <#В=(т-1)=(2-1)=1, а^АВ =(І-1)(т-1)=1 02=І-т-(п-1)=12. Отже, і відповідні критичні значення для РкрА , РкрВ , РкрАВ також будуть однакові. На рівні значущості 0,05 критичне значення Р(1?12) ~ 4,75.

 

 

 

А

В

с

D

Е

1

Швидкість

Довжина слів

Середні

2

пред'явлення

Короткі (Al)

Довгі (А2)

т

 

7

5

=СРЗНАЧ(ВЗ:Вб)

=СРЗНАЧ(СЗ:С6)

4

Висока (El)

5

4

5,75

4

5

4

3

5,75

4

on

 

7

4

5,75

4

7

 

4

б

=СРЗНАЧ(В7В10)

=СРЗНАЧ(С7:С10)

co

Низька (В2)

3

4

3,5

5,5

9

3

7

3,5

5,5

10

 

4

5

3,5

5,5

11

 

=СРЗНАЧ(ВЗ:Вб)

=СРЗНАЧ(СЗ:Сб)

=СРЗНАЧ(В11:С11)

 

12

Середні

=СРЗНАЧ(В7:В10)

=СРЗНАЧ(С7:С10)

=СРЗНАЧ(В12:С12)

 

13

 

=СРЗНАЧ(В11:В12)

=СРЗНАЧ(С11:С12)

=СРЗНАЧ(ВЗ:С10)

4,6875

14

п —

=СЧЕТ(ВЗ:Вб)

 

 

 

15

1 =

2

 

 

 

16

тп —

2

 

 

 

17

пітп =

=В14*В15*В1б

 

 

 

18

Qo =

=ДИСП(ВЗ:С10)*(Б17-1)

 

19

Qi =

=В 14*В 15 *СУ ММКВР АЗН(Т) 11 :D 12 ,D 13 :Е13)

 

20

Qi =

=В 14*В 1 б *СУ ММКВР АЗН(В 13 :С 13 ;D 13 :Е13)

 

21

Qi =

=В18-В19-В20-В22

 

 

22

Q<t =

=СУ ММКВР АЗН(ВЗ :С 10 ,D3 :Е10)

 

 

23

S2j =

=В19/(В1б-1)

Fa =

=В23/В2б

 

24

S*2 =

=В20/(В15-1)

F£ =

=В24/В2б

 

25

^3 =

=В21/(В1б-1)/(В15-1

Fas =

=В25/В2б

 

26

s3< =

=В22/В15/В1б/(В14-

 

 

 

27

a —

0,05

Fyf(iji)

=FPACnOEP(B27;l;12)

Рис. 6.9. Розрахункові формули двофакторного дисперсійного аналізу

Прийняття рішення. Оскільки fa < f(112) (0,46 < 4,75) і fb < f(112) (0,05<4,75), нульові гіпотези и0(і) і h0(2) приймаються. У той же час, оскільки fab > f(ij2) (11,44 > 4,75), нульова гіпотеза h0(3) відкидається .

Формулювання висновків. Відмінності в обсязі відтворення слів, що обумовлені окремо факторами А і В, не є більш вираженими, ніж випадкові. Проте вплив фактора А на обсяг відтворення слів є різним при різних града­ціях фактора В і навпаки. Висновки прийнято на рівні значущості 0,05.

Аналогічні результати можна отримати за допомогою пакета MS Excel «Аналіз даних» розділ «Двофакторний дисперсійний аналіз с повтореннями». Для цього у діалоговому вікні рис. 6.10 необхідно ввести відповідні парамет­ри і отримати результати (рис. 6.11).




Отже, фактори довжини слів і швидкості їхнього пред'явлення окремо не впливають значуще на обсяг відтворення слів. Значущою виявляється взає­модія факторів: короткі слова краще запам'ятовуються при великій швидкості пред'явлення, а довгі - при повільній швидкості пред'явлення.

Пропонуємо самостійно розібратися з отриманими результатами, розра­хунковими формулами та коментарем на рис. 6.7 - 6.11.

Запитання. Завдання.

Охарактеризуйте основні можливості методів дисперсійного аналізу.

Охарактеризуйте обмеження дисперсійного однофакторного аналізу.

Назвіть основу, на якій побудовано математичний апарат однофактор­ного дисперсійного аналізу.

Назвіть основу, на якій побудовано математичний апарат двофакторно-го дисперсійного аналізу.

Охарактеризуйте обмеження дисперсійного двофакторного аналізу.

Повторіть математичні процедури завдань за прикладами 6.1 - 6.2.

Виконайте лабораторні роботи № 23 і № 24.