5.2. ГІПОТЕЗИ ЩОДО НОРМАЛЬНОГО РОЗПОДІЛУ ОЗНАК

При використанні методів математичної статистики надзвичайно важливо знати закон розподілу властивості, що вивчається. По суті, вже сама дослі­джувана змінна представлена масивом емпіричних даних з певним законом розподілу ймовірностей реалізації її значень. Тому будь-яка статистична об­робка починається, як правило, зі спроби оцінити закон розподілу. Прагнення застосувати методи, які розроблено для певного закону розподілу, в умовах, коли реальний розподіл відрізняється від гіпотетичного, є найбільш розпо­всюдженою помилкою, що призводить у підсумку і до помилкових виснов­ків.

Критерії перевірки гіпотез щодо закону розподілу прийнято називати кри­теріями згоди, які можна розділити на дві групи: загальні та спеціальні [37, С. 20]. Загальні критерії застосовують до формулювань гіпотез про згоду спостережень з будь-яким можливим розподілом. Спеціальні критерії згоди використовують у разі перевірки гіпотези щодо конкретної форми розподілу - нормальної, рівномірної, експоненціальної тощо. Такі критерії носять від­повідну назву - критерії нормальності, критерії рівномірності й т.п.

Розрахунки емпіричного розподілу та його графічна візуалізація не дають надійних підстав для висновку щодо закону розподілу ознаки у сукупності, з якої взята вибірка. Тим часом знання цього закону є необхідною умовою ви­




Подпись:  Подпись:

(5.2)


Вважається, що при нормальному розподілі вибіркові показники асимет­рії та ексцесу дорівнюватимуть нулю, але реально таке майже не спостеріга­ється. Тому емпіричний розподіл вважають близьким до нормального (при­ймають нульову гіпотезу), якщо виконуються умови:

\ЛХ\ < 3JD(A)    і    |EX| < 5JD(EJ.   (5.3)

Технологічно у цьому методі розраховують показники tA і tE

tA =іт 1 ,E ^тіЕ)-      <5-4)

Про достовірну відмінність емпіричного розподілу від нормального свід­чать показники tA і tE, якщо приймають значення 3 і більше.

Приклад 5.2. Перевірити відповідність розподілу емпіричних вибіркових даних (стовпчики А:В рис. 5.4) нормальному законові розподілу ознаки.

Послідовність рішення.

•           Формулювання гіпотез:

H0: емпіричний розподіл не відрізняється від нормального; Hf. емпіричний розподіл відрізняється від нормального.

•           Вибір статистичного критерію. Для перевірки статистичних гіпотез використаємо метод критеріїв асиметрії та ексцесу з розрахунком tA і tE:

Л І       \Ex\

де Ax і Ex - емпіричні коефіцієнти асиметрії та ексцесу; тЛ і mE дорівнюють: т       І   б-(И-1)    ;    mE = )24-"-<"-2)-<"-3)-<".       (5.6)

Розрахунки емпіричних критеріїв tA і tE (рис. 5.4) виконано за допомо­гою формул (див. рис. 5.5). Вибіркові значення асиметрії (Ах) та ексцесу (Ех) за формулами (2.12а) і (2.126) розраховано за допомогою функцій MS Excel =СКОС() і =ЗКСЦЕСС().

Формулювання висновків. Чисельні значення критеріїв tA і tE (рис. 5.4) не перевищують 3 (tA ~ 0,47 < 3; tE ~ 0,49 < 3), що дає можливість стверджу -


вати про відсутність відмінностей між емпіричним ним розподілами.


і


теоретичним нормаль-


Проте порівняння графіків цих розподілів дають підстави для сумніву щодо відповідності емпіричного розподілу нормальному законові (див. рис. 5.6), що потребує додаткової перевірки.




Більш того, у науковій і спеціальній літературі з математичної статисти­ки при посиланні на критерії асиметрії й ексцесу як на засіб перевірки нор­мальності розподілу, нерідко звертається увага на застереження про те, що ці критерії дозволяють перевіряти лише деякі співвідношення між моментами розподілу і аж ніяк не є спроможними критеріями нормальності.

Критерій згоди х2

Критерій х засновано на порівнянні емпіричної гістограми розподілу ви­падкової величини з її теоретичною щільністю. Діапазон виміряних емпірич­них даних розбивають на к інтервалів і розраховують статистику

2   _ -у (ші - прі)2

Хемп ~ / <      ,           (5.7)

,=1   прі

де Ші - кількість значень випадкової величини, що потрапили в /-Й інтер­вал; п - обсяг вибірки; рі - теоретична ймовірність випадкової величини по­трапити в /-Й інтервал.

Для гіпотетичного теоретичного розподілу, який має закон розподілу Р(х), теоретична ймовірність рі визначається якрі = Р(хІ+1) - Р(х,), тобто

рі = |Р(х)^х = |Р(хМх " |Р(= Р(хі+1) " Р(хі).     (5.8)

V 1      2

За умов к<<п і 2-і — << п вважається, що статистика %емп має розподіл

близький до розподілу хі-квадрат для к-1 ступенів вільності. Нульова гіпоте­за Н0 відхиляється на рівні значущості а, якщо хімп > ХІі.

Приклад 5.3. Перевірити за критерієм згоди /2 гіпотезу про нормальний розподіл емпіричних даних попереднього прикладу 5.2. Послідовність рішення: • Формулювання гіпотез:

Н0: емпіричний розподіл не відрізняється від нормального; Ну емпіричний розподіл відрізняється від нормального.

• Статистичний критерій хімп дорівнює сумі квадратів відхилень ем­піричних частот Ші від очікуваних теоретичних частот прі (5.7).

• Послідовність розрахунку емпіричного критерію хімп (результати пока­зано на рис. 5.7, необхідні формули - на рис. 5.8):

 

 

А   і    В

с

D

E

F

G

H

1

J

к

l

1

Емпіричні дані

F озр ахунки критерію •£

2

у.

і

і

Ні

■їі+1

ra i

 

 

Pi

npi

(mi-npi)2

(mi-npi)2/npi

3

4

11

1

- со

4

3

0

0,067

0,067

1,203

3,231

2,687

4

4

12

2

4

6

2

0,067

0,139

0,092

1,653

0,120

0,073

5

4

13

3

6

8

2

0,139

0,309

0,130

2,698

0,487

0,181

6

5

13

4

8

10

2

0,309

0,300

0,191

3,446

2,092

0,607

7

6

14

5

10

12

2

0,500

0,691

0,191

3,446

2,092

0,607

со

7

14

6

12

4- со

7

0,691

1,000

0,309

5,554

2,092

0,377

9

8

15

 

Суми:

18

 

 

1,000

 

 

4,531

10

9

15

k =

5

\> =

10,00

 

 

 

 

Л,і =

9,24

11

10

15

Л =

2

°Ч =

4,00

 

 

 

 

Лл5 =

11,07

Рис. 5.7. Результати розрахунку критерію %

-           внести емпіричні дані у комірки А1:В 11;

розрахувати кількість класів k за формулою Стерджеса k=1+3,32'lg(w) Для цього вираз =ОКРУГЛ(1+3,32*ЬОО(СЧЕТ(Л3:Б11));0) внести у комірку D10 і отримати k=1+3,32lg(18) = 5,2 = 5;

у комірці D11 розрахувати розмір класового інтервалу X=(xmax-xmin)/k за допомогою виразу =(MAKC(A3:B11)-NfflH(A3:B11))/D10 і отримати X ~ 2;

внести у комірки D3:E8 значення початкових x¡ і кінцевих x¡+¡ границь діапазонів х,- кратними 2. Мінімальне значення першого діапазону становить -оо (комірка D3), максимальне останнього інтервалу +оо (комірка Е8);

у комірках F3:F8 розрахувати емпіричні абсолютні частоти m¡ за допо­могою функції =ЧАСТОТА(). Сума частот m¡ дорівнюватиме обсягу вибірки, тобто 18;

теоретична ймовірність випадкової величини p¡ потрапити в /'-й інтер­вал розраховується як різниця значень нормального розподілу ^(xI+1) - F(x¡). Значення нормального розподілу можна отримати за допомогою функції MS

Excel = НОРМРАСЩ). Середнє ¡i і стандартне відхилення ах теоретичного нормального розподілу внести у комірки F10 i F11 відповідно (зауваження: заміна параметрів нормального розподілу вибірковими статистиками може призвести до суттєвого спотворення статистичних висновків);

- внести у інші комірки відповідні розрахункові вирази за рис. 5.8 і отримати значення емпіричного критерію %гмп ,що становитиме 4,53

 

 

А І В

С 1 D 1 Е 1       F             G                  H                1    1    J    1     К               L

1

Емпіричні дані

Розрахунки критерію у?

2

*¿

і

І!

*!+ 1

m і

 

 

Pi

прі

(rrii-npi)2

(ті-щ>і)2Мрі

4

11

1

- м

4

■ЧАСТОТА

0

=HOPMPACn(E3;$F

■H3-G3

=F$9*I3

■CF3-J3T2

■K3/J3

4

4

12

2

4

б

■ЧАСТОТА

■НОРМРАС

=HOPMPACn(E4,ÎF

■H4-G4

■Ftí>*14

■CF4-J4T2

■K4/J4

5

4

13

3

6

8

■ЧАСТОТА

■НОРМРАС

=HOPMPACn(E5;$F

■HJ-GÍ

=F$S*IÍ

=CFÍ-JJ)n2

■KÍ/J5

0D

5

13

4

8

10

■ЧАСТОТА

■НОРМРАС

=HOPMPACn(Eá;$F

■НЄ-Gâ

=F$9*I6

=CF6"-J¡7T2

■K6YJ6"

7

6

14

5

10

12

■ЧАСТОТА

■HOPMPAÍ

=HOPMPACn(E7;$F

■H7-G7

=F$S*I7

■(F7-J7T2

■K7/J7

оо

7

14

6

12

+ 00

■ЧАСТОТА

■НОРМР АСП(Г)8 ;$F$ 10 ;$FÎ11 ; 1)

■H8-G8

=F$9*I8

=(F8-J8)n2

■K8/J8

Э

8

15

 

Суми:

=CyivIM(F3:F8)

 

=СУММаЗ:І8)

 

=СУММ(13:І_8)

10

9

15

к =

=ОК

М =

10

 

 

 

 

Ai =

=ХИ2ОБР(0,1;б-1

11

10

15

À =

=(М

о\ =

4

 

 

 

 

 

=ХИ2ОБР(0,05;6-

Рис. 5.8. Формули для розрахунку критерію х2емп

Критичне значення критерію х2кр можна отримати за допомогою функ­ції =ХИ20БР(), яка повертає значення двобічного критерію у комірках L9 і 10 відповідно: у^ол ~ 9,24 і ^о.оз- 11,07.

Прийняття рішення. Оскільки X емп ~ 4,53 не перевищує критичного значення навіть на рівні <х=0,1 (%20>1 ~ 9,24) , нульова гіпотеза Н0 приймається.

Формулювання висновків: розбіжності емпіричного і теоретичного нор­мального розподілів можуть мати винятково випадковий характер.

Перевірку нормальності емпіричного розподілу виконаємо за допомогою критерію Шапіро-Вілка XV.

Критерій Шапіро-Вілка ЛЛ

Статистика критерію XV Шапіро-Вілка має вигляд:


 

де п


ГГ = —\^ап-м (хп-,+і " х,)\ ,  (5.9)

■ обсЯГ ВИбІрКИ; *2 = ^ (хі - х)2 = Ях(п - 1) ; X = ^ ХІ ; т - ціла чаС-

1=1      1=1


тина ^; коефіцієнти апі+1 для невеликих п і і наведено у табл. 1 Додатків.

Приклад 5.4. Перевірити за критерієм Шапіро-Вілка гіпотезу щодо відпо­відності нормальному законові розподілу емпіричних даних прикладу 5.2. Послідовність рішення:

•           Формулювання гіпотез:.

Н0: емпіричний розподіл не відрізняється від нормального; Н1: емпіричний розподіл відрізняється від нормального.

•           Послідовність розрахунку емпіричного критерію XV (результати пока­зано на рис. 5.9, необхідні формули - на рис. 5.10):


— у комірках С2:011 розмістити індекси (/') і (п-і+1), причому і змінюєть­ся від 1 до т (т у прикладі дорівнює п/2 = 18/2 = 9);

у комірки Е2:Е11 внести 9 коефіцієнтів з табл. 1 Додатків з рядка для n=18;

заповнити комірки F2:G11 значеннями xi i xn.i+1 або «вручну», або з ви­користанням функцію MS Excel =ВПР(), яка за індексом у лівому стовпчику таблиці повертає значення в тім же рядку із зазначеного стовпця таблиці;

у комірках H2:H11 розрахувати значення bi = an_M(xn_i+1 — xi);

у комірці H12 визначити квадрат суми параметрів - (Sbi)2, тобто чисе­льник виразу (5.9), а у комірці H13 - знаменник - s1 ;

значення критерію W у комірці H14 дорівнює (2bi)2 / s2 = 0,891;

— критичне значення критерію Х¥18(0,05) отримати з табл. 2 Додатків. Для п=18 і а=0,05 це значення складає 0,897 (див. комірку Н15 рис. 5.9).

Рис. 5.10. Формули для розрахунку W-критерію Шапіро-Вілка

Прийняття рішення відбувається за правилом: якщо \¥<\¥п(а), И0 від­хиляється на рівні 2а. Оскільки XV ~ 0,891 не перевищує критичного значення 0,897 критерію Х¥18(0,05), нульова гіпотеза щодо нормальності розподілу від­хиляється на рівні 0,1.

Формулювання висновків. Розходження між емпіричним і очікуваним теоретичним нормальним розподілами можна вважати статистично значу­щими на рівні 0,1.

Таким чином, на основі порівняння трьох критеріїв (асиметрії та ексцесу, хі-квадрат, Шапіро-Вілка) можна зробити такі загальні висновки:

нульові значення моментів у разі застосування критеріїв асиметрії та ексцесу можуть прийматися і для розподілів, відмінних від нормальних. Бли­зькість вибіркових значень асиметрії та ексцесу до теоретичних не обов'язко­во свідчить про нормальність розподілу результатів спостережень. Ці крите­рії служать не стільки для перевірки нормальності, скільки для виявлення відхилень розподілу від нормального, або, точніше, для перевірки альтерна­тивних гіпотез [49];

переважна більшість розподілів спостережень не є нормальними, тому в умовах реальних завдань малоймовірно приймати гіпотезу нормальності. Ко­ректніше стверджувати, що розподіли мало відрізняється від нормального;

критерій хі-квадрат, як і критерії моментів, не є спроможним. Його до­цільно застосовувати лише для відхилення гіпотези нормальності. До того ж, на потужність критерію хі-квадрат сильно впливає кількість (к) і розмір (А) інтервалів, практично цей критерій можна застосовувати, якщо прі > 5;

кожен критерій має свої «проблеми», існують спеціально розроблені модифікації різних класичних критеріїв, наприклад, типу «хі-квадрат», які можна найбільш ефективно застосовувати у конкретних ситуаціях;

при розрахунках теоретичного нормального розподілу його параметри (р і ах) не завжди відомі дослідникові. Заміна їх вибірковими статистиками (X і sx) може призвести до суттєвого спотворення статистичних висновків;

найбільш потужним і позбавленим вище перерахованих вад виявився критерій Шапіро-Вілка Ж. За рейтингом цей критерій посідає перше місце серед двадцяти одного аналогічного методу [37, С.278] і може бути рекомен­дований для перевірки нормальності емпіричних розподілів.

Запитання. Завдання. 1. Які основні недоліки критеріїв асиметрії та ексцесу для перевірки нор­мальності розподілів?

Коли доцільно застосовувати критерію хі-квадрат в завданнях перевір­ки нормальності розподілів?

Проаналізуйте схему вибору параметричних критеріїв залежно від ха­рактеру сукупності і досліджуваних завдань.

Обґрунтуйте порівняльну характеристику трьох критеріїв (асиметрії та ексцесу, хі-квадрат, Шапіро-Вілка) як засобу оцінки відповідності емпірич­ного розподілу нормальному законові.

Повторіть математичні процедури завдань за прикладами 5.1 і 5.4.

Виконайте лабораторну роботу № 10.