2.2. ПОКАЗНИКИ ВИБІРКИ

Міри центральної тенденції (МЦТ)

Мірами центральної тенденції (МЦТ) називають чисельні показники типових властивостей емпіричних даних. Ці показники дають відповіді на питання про те, наприклад, «який середній рівень інтелекту студентів педаго­гічного університету?», «яке типове значення показника відповідальності пе­вної групи осіб?». Існує порівняно невелика кількість таких показників-мір і в першу чергу: мода, медіана, середнє арифметичне. Кожна конкретна МЦТ має свої особливості, що роблять її цінною для характеристики об'єкта дослі­дження в певних умовах.

Мода Мо - це значення, яке найчастіше трапляється серед емпіричних даних. Так, для ряду значень 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5 мода дорівнює 3 (Мо = 3). Зверніть увагу на те, що мода є значення з найбільшою частотою (у при­кладі це значення дорівнює 3), а не частота цього значення (у прикладі вона дорівнює 4).

При визначенні моди необхідно дотримуватися таких угод:

•           мода може бути відсутня, наприклад, для даних 2, 2, 3, 3, 4, 4, 5, 5;

•           якщо варіанти суміжні і мають однакову частоту, мода визначається як середнє значення сусідніх варіант. Наприклад, для ряду 2, 2, 3, 4, 4, 4, 5, 5, 5 мода Мо = (4+5)12=4,5;

•           якщо варіанти несуміжні, може існувати декілька мод. Так, для даних 2,

2,         3, 3, 3, 4, 5, 5, 5 характерна бімодальність, тобто дві моди Мо1 = 3 і Мо2 = 5;

•           емпіричні дані можуть мати великі та малі моди. Наприклад, дані 2, 2,

3,         3, 3, 4, 4, 4, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 8, 9, 9, 9, 9 мають одну велику моду
Мо1 = 6 та дві малі моди Мо2 = 3,5 і Мо3 = 9.

На графіках розподілу мода - це варіанта з максимальною частотою. На рис. 2.25 варіанта х6=5 має найбільшу частоту (0,33), тому і є модою Мо = 5. Медіана Мсі - це значення, яке приходиться на середину упорядкованої послідовності емпіричних даних. Для непарної кількості даних медіана ви­значається середнім елементом Мй = Х(и+1)/2. Наприклад, для 11 значень 4, 4,

4, 5, 5, 5, 5, 5, 6, 6, 7 медіана дорівнює 4 (Мсі = 5), тобто:

Мй = Х(л+1)/2 = Х(Ц+1)/2 = х6 = 5 ■

Якщо кількість значень даних є парною, то медіаною є середнє значення центральних сусідніх елементів: Мй = Х"/2 +2Х"/2+1 . Наприклад, для 12 зна­чень 3, 3, 3, 4, 4, 5, 6, 6, 6, 6, 7, 7 медіана Мй = (5+6)/2 = 5,5:

Мй _ Х"/2 + Хп/2+1 _ Х12/2 + Х12/2+1  _ Х6 + Х7  _ 5 + 6 _       _ 55

~       2 2          2          2   ~ 2 _,.

Середнє арифметичне x (вибіркове середнє або середнє) сукупності п значень дорівнює:

X = Х1 + Х2 + - + Хп .          (2.1)

п

—   1 п            —   1

Використовують інші формули, наприклад, x =      хі скорочено x = —^ хі .

п і=1    п

Так, для вибірки (2, 2, 3, 3, 4, 5, 6, 7, 7, 8) середнє X дорівнюватиме:

X = (2 + 2 + 3 + 3 + 4 + 5 + 6 + 7 + 7 + 8)/10 = 47/10 = 4,7. Якщо дані представлено розподілами частот, середнє визначається як:

x =І£ 'хі           (2.2)

І /і

де Хі - варіанти незгрупованих частот або центральні значення класових інтервалів у разі згрупованих частот; £ - диференціальні частоти. Особливості мір центральної тенденції:

мода вибірки обчислюється просто, її можна визначити «на око». Для дуже великих груп даних мода є досить стабільною мірою центру розподілу;

медіана займає проміжне положення між модою і середнім з погляду її підрахунку. Ця міра особливо легко визначається у разі ранжированих даних;

середнє арифметичне передбачає використовування всіх значень вибір­ки, причому всі вони впливають на значення цієї міри.

Розглянемо, що може відбутися з модою, медіаною і середнім, коли змі­ниться удвічі лише одне значення, наприклад, 10-го об'єкта вибірки (рис. 2.28).

 

 

а       |в|с|0|е|р|є|н|ім|к

і.  |  м |  n

1

емпіричні дані

мцт

2

і

і

2

3

4

5

6

7

8

3

10

Мо

іш

X

3

вибірка 1

1

2

3

3

4

5

6

7

8

 

3

4,5

4,в

4

вибірка 2

1

2

ш

3

4

5

6

7

8

3

4,5

5,7

Рис. 2.28. Властивості МЦТ

Як бачимо, мода і медіана залишилися незмінними, у той час як середнє змінилося значною мірою (з 4,8 до 5,7). На величину середнього особливо суттєво впливають значення, що перебувають далеко від центру групи даних.

З точки зору помилок, що виникають через те, коли для характеристики цілої сукупності вибирається лише одна єдина статистична міра (мода, меді­ана чи середнє), кожна міра центральної тенденції має свою інтерпретацію

Мода є найбільш представницьким значенням або значенням, яке най­краще «замінює всі значення», якщо ми змушені вибрати одне.

Медіана - це таке значення, для якого сума абсолютних різниць усіх зна­чень менша за суму різниць для будь-якого іншого значення. Наприклад, для сукупності {1, 3, 6, 8, 9} медіана Мсі = 6. Абсолютні різниці становлять: |1-6|=5, |3-6|=3, |6-6|=0, |8-6|=2, |9-6|=3. Сума всіх цих різниць 5+3+0+2+3=13 менша за суму різниць щодо будь-якого іншого значення. Наприклад, для 1 абсолютні різниці |1-1|=0, |3-1|=2, |6-1|=5, |8-1|=7, |9-1|=8, а їхня сума 0+2+5+7+8=22. Інші розрахунки дадуть подібні результати.

Якщо вибрати медіану, то досягається мінімальне відхилення - за умови, що «відхилення» визначається як сума абсолютної відмінності кожного зна­чення від медіанної оцінки. Якщо ж замість кожного значення береться сере­днє, забезпечується мінімальне відхилення - за умови, що «відхилення» ви­значається як сума квадратів різниць кожного значення з середнім.

Використання мір центральної тенденції у якості характеристик випадкової вибірки є умовою необхідною, але недостатньою. Показники описової статис­тики, крім МЦТ, включають ще одну групу показників - міри мінливості (ММ).

Міри мінливості (ММ)

Обмеженість мір центральної тенденції для характеристики сукупностей можна продемонструвати на прикладі двох вибірок (рис. 2.29), які мають різні розподіли, проте однакові (і це не складно перевірити) МЦТ (значення моди Мо, медіани Ми і середнього X дорівнюють 4).

 

 

А

в

с

 

Е

Е

 

н

І

 

к

І_

М

N

о

Р

1

 

 

 

Емпіричні дані

 

 

 

 

 

МЦТ

мм

2

і

1

2

3

4

5

6

7

3

9

 

11

Мо

 

X

 

 

3

Вибірка 1

3

3

3

4

4

4

4

4

5

5

5

4

 

4

0,6

0,77

4

Вибірка 2

2

2

3

4

4

4

4

5

5

5

6

4

4

4

1,6

1,26

Рис. 2.29. Властивості ММ

Проте вибірки мають істотну різницю значень основних ММ: дисперсій * х і стандартних відхилень *х (див. два останні стовпчики рис. 2.29). Можна відзна­чити своєрідну «чутливість» показників ММ щодо властивостей сукупності.

Дисперсія вибірки обсягом п визначається як:

^ =       :           ,           (2.3)

п-1

аб0 *2 = ^*   ~> , дЄ X - середнє арифметичне вибірки. п -1

Дисперсія вибірки 82х, що розрахована за цією формулою, є незміщеною оцінкою свого генерального параметра а2Х завдяки внесенню поправки Бессе­ля п/(п-1), тобто:

*2 =     .Е^І.    (2.4)

п          п — 1  п — 1

Різницю п—1 називають числом степенів вільності к - кількість об'єктів або значень у складі обмеженої статистичної сукупності, які можуть вільно варіювати. Якщо обмежень вільності варіації існує декілька (у), то число сте­пенів вільності дорівнюватиме к= п—у (де у — грецька літера «ню»).

Чисельник формули дисперсії можна перетворити у такий спосіб:

Е(х,- -X)2 = (х -X)2 + (х2 -X)2 + ... + (х« -X)2 = = х2 -2х1 X + X2 + х2 -2х2X + X2 + ... + х2 -2x«X + X2 = х\ + х2 + ... + х2 -2х1 X-2х2X-...-2x«X + X2 + X2 + X2 = £х2 - 2X£х,- + «X2 =^х2 - «X2. Тоді формула дисперсії має такий вигляд:

*2 = -^(2х2 "«X2).      (2.5)

Якщо дані представлено розподілами частот, дисперсія визначається як

*х2 = -Ц--Е /і (х,- - X)2,         (2.6)

де х,- - варіанти незгрупованих частот або центральні значення класових ін­тервалів у разі згрупованих частот;/ - диференціальні частоти, X - середнє.

Дисперсія служить мірою однорідності сукупностей емпіричних даних. Чим вища однорідність, тим нижче значення дисперсії. Для повністю однорі­дних сукупностей дисперсія дорівнює нулю.

Дисперсія генеральної сукупності обсягом N визначається як:

^2 = (х1 -М? + (х2 -М)2 +■ ■ ■+-М?           (2 у)

або     = ^(х-—, де ц = — £ хі - середнє арифметичне генеральної сукупності.

Стандартне відхилення вибірки визначається як 8Х =л[^ї. (2.8) Стандартне відхилення генеральної сукупності ах = ■^0^.       (2.9)

Коефіцієнт варіації Ух використовується у разі порівняльної оцінки різ­ноякісних середніх величин і визначається (у тому числі у %) як відношення стандартного відхилення до середнього арифметичного:

уі = sx /X -100% .       (2.10)

Асиметрія Ах характеризує ступінь несиметричності розподілу відносно його середнього. Позитивна асиметрія вказує на відхилення вершини розпо­ділу в бік від'ємних значень, негативна - у бік додатних.

Ax = —Ц--I(x -X)3.   (2.11)

Ексцес Ex характеризує відносну опуклість або згладженість розподілу вибірки порівняно з нормальним розподілом. Позитивний ексцес позначає відносно загострений розподіл, негативний - відносно згладжений.

Ex =—L-4•£(X -X)4 -3.         (2.12)

П ■ (Sx )     i=1

«Стандартом» розподілів служить нормальний розподіл N(ji,o) з нульо­вою асиметрією і ексцесом. Для нього Ах = 0 - нормальний розподіл є симет­ричним відносно середнього значення, і Ех = 0 - розподіл є «ідеальний» - не загострений і не згладжений.

Зауваження. Для визначення вибіркових значень асиметрії Ax та ексцесу Ex застосовують точні розрахункові формули, аналогічні тим, що використо­вує MS Excel:

Для асиметрії

п          1      П            

Ax = 7 1)(        2)"T~J(xi " Х)3  або      (2.12а)

(п - 1)(п - 2)      )    м

A> = K1 ■       •£(xi "X)3, де K = (    П   2).

n(sx )    i=1      (n - 1)(n - 2)

Для ексцесу

Ex =       П(П + 1)       Ц-І(xi -X)4 -   3(П-1)2     (2.126)

x   (n - 1)(n - 2)(n - 3) (sx)4 ft '      '     (n - 2)(n - 3) '       '

або

Ex = K • --S-4"X)4 -3-K3,

n(Sx)   i=1

2

n2(n +1)        . _,        (n -1)
-           1 K 3  

2    (п - 1)(п - 2)(п - 3)      3    (п - 2)(п - 3) На рис. 2.30 показано, що коефіцієнти К], К2 і К3 при збільшені обсягу вибірки п асимптотично наближаються до одиниці (приблизно для п>30), а формули (2.12а) і (2.126) переходять у формули (2.11) і (2.12) відповідно.


Пропонуємо самостійно визначити, наскільки можуть різнитися результа­ти точних і «спрощених» розрахунків ММ залежно від обсягу вибірки п.

На якісному рівні можна наочно оцінити показники описової статистики завдяки вибірковим розподілам частот. Наприклад, форма розподілів на рис. 2.31 свідчить про однакові показники МЦТ (середні, моди і медіани вибірок однакові) і різні показники ММ (дисперсії і стандартні відхилення різні).

На рис. 2.32 показано розподіли двох однакових за однорідністю вибірок (дисперсії однакові), проте різних за середніми показниками. Ці вибірки ма­ють також нульові значення асиметрії і ексцесу.


0,40 0,30 0,20 0,10 0,00 л

0,50


 

 

!     !     !

 

 

 

 

 

 

і     '     \ ■'

 

 

 

 

 

 

\ / і    ?!

 

 

 

 

 

 

Jt    і '' і    '

 

\

 

 

 

A           

/      -f'    i
^—f    і            1           

            1            1            1

 

 


 

0,40 0,30 0,20 0,10 0,00 a

0,50


 


Рис. 2.33. Асиметрія додатна


Рис. 2.34. Асиметрія від'ємна


 


0,40 0,30 0,20 0,10

0,50


 

0,40 0,30 0,20 0,10 0,00

0,50


 


Рис. 2.35. Ексцес додатний


Рис. 2.36. Ексцес від'ємний


На рис. 2.33 - 2.36 продемонстровано, як форма розподілу частот може бути «деформована» відносно форми нормального (стандартного) розподілу. Саме показники асиметрії та ексцесу використовуються для перевірки відпо­відності емпіричного розподілу нормальному законові (див. розділ 5.2)

розрахунки та інтерпретація мцт і мм

Розрахунки показників МЦТ і ММ можна здійснити в MS Excel трьома способами з використанням:

математичних операцій за відповідних формул МЦТ і ММ;

вбудованих статистичних функцій MS Excel;

спеціального розділу «Описова статистика» пакету «Аналіз даних». Спосіб 1. Результати розрахунку МЦТ і ММ представлено на рис. 2.37,

відповідні математичні вирази, формули і функції MS Excel - на рис. 2.38 .


І


Емпіричні дані


Додаткові розрахунки


 


-1,33


1,78


-2,37


3,16


 


-0,33


0,11


-0,04


0,01


-0,33


0,11


-0,04


0,01


10


12


0,67


0,44


0,30


0,20


13


1,67


2,78


4,63


7,72


14


15


Суми:


16


МЦТ


Подпись: ММ17 Обсяг вибірки

18 Середнє

19 Мода

20 Медіана 21

22 Дисперсія

23 Ст. відхилення


1,52


 

 

1

 

 

 

 

н

 

 

г

 

 

 

 

 

 

 

ТГ

тУ

 


24 Асиметрія

25 Ексцес

Рис. 2.37. Результати розрахунку МЦТ і ММ

 

 

А                 В

С

0

Е

Е

1

Емпіричні дані

Додаткові розрахунки

2

і

*!

 

 

 

 

сп

1

1

=ВЗ-$В$18

=СЗП2

=СЗЛ3

=С2Л4

4

2

1

=В44В$18

=С4П2

=С4Л3

=С4Л4

5

3

1

=ВІ-$ВШ

=СІП2

=С5пЗ

=С5Ч

6

4

2

=В6-$ВШ

=С6"П2

=С6пЗ

=С6Ч

7

5

2

=В7-$В$18

=С7П2

=С7пЗ

=С7Ч

со

6

2

=В8-$ВШ

=С8П2

=С8П3

 

Э

7

2

=В9-$В$18

=С9П2

=С9пЗ

=С9Ч

10

8

2

=В10-$В$18

=С10П2

=С10П3

=С10"4

11

9

3

=В11-$В$18

=С11П2

=С11П3

■СП'Ч

12

10

3

=В12-$В$18

=С12"2

=С12Л3

 

13

11

4

=В13-$В$18

=С13"2

=С13П3

=0134

14

12

5

=В14-$В$18

=С14"2

=С14П3

=014^4

15

Суми:

=СУММ(ВЗ:В14)

=СУММ(СЗ:С14)

=СУММ(ОЗГЛ4)

=СУММ(ЕЗ:Е14)

=СУММ(ЕЗ:К14)

16

МЦТ

17

Обсяг вибірки

=СЧЁТ(БЗ:В14)

 

18

Середнє

=В15/В17

 

19

Мода

=МОДА(ВЗ:В14)

 

20

Медіана

=МЕДИАНА(ВЗ:В14)

 

21

ММ

22

Дисперсія

=В15/(ВП-1)

 

23

Ст. відхилення

=КОРЕНЬ(В22)

 

24

Асиметрія

=В17/(В17-іУ(В17-2)/В23Л3*Еі;

 

25

Ексцес

 

Рис. 2.38. Математичні вирази для розрахунку МЦТ і ММ

Мода вибірки Мо=2 (значення 2 трапляється у вибірці 5 разів). Медіана дорівнює

— Х"/2 + Х"/2+1 — Х12/2 + хш2+1 _ Х6 + Х7 _ 2 + 2 _ 4 _ 2

~        2            2        ~    2    ~   2   ~2~   .

Середнє арифметичне вибірки X = — V хі = — 28 = 2,33.

и          12

Дисперсія вибірки ^Х2 = ^^     )  = у22,76— =        ~ 1,52 .

Стандартне відхилення вибірки &х =т[ОЇ =  1,52 «1,23. Асиметрія вибірки

АХ =   ----1--У^ - X)3 =         12        1т 16,87 = 0,99

Ексцес Ех = (»           3) •—-"X) -

^   (и-1)(и - 2) &)3 7-^ '          (12-1)(12-2) (1,23)3

+1)       1          - 4     3(и -1)2

(и -1)(и - 2)(и - 3) (5Z )4        '     '    (« - 2)(« - 3) 15(15+1)       ■    1    -147,51-   3(15-1)2    «0,36.

(15-1)(15-2)(15-3) (1,41)4      (15-2)(15-3)

Спосіб 2. Результати розрахунків показників описової статистики для чо­тирьох вибірок представлено на рис. 2.39, графіки розподілу - на рис. 2.40­2.43. Для розрахунків були використані такі статистичних функцій MS Excel:

 

 

 

 

 

Обсяг вибірки =СЧЁТ()

Дисперсія

=дисщ)

Середнє         =СРЗНАЧ()

Ст. відхилення

=СТАНДОТКЛОН()

Мода             =МОДА()

Асиметрія

=СКОС()

Медіана         =МЕДИАНА()

Ексцес

=ЭКСЦЕСС()

 

A

В

C

D

e

f

G

н

1

j

 

1

 

 

 

X3

JT4

Розподіли

 

2

]

*i

mj

 

ms

m q

 

3

1

4

1

1

1

0

0

0

0

0

 

4

2

2

2

2

2

1

1

2

1

1

 

5

3

4

3

2

3

2

3

3

4

2

 

6

4

5

6

3

3

3

5

5

11

4

 

7

5

3

3

3

4

4

12

6

7

6

 

co

6

7

4

3

4

5

5

6

3

14

 

9

7

3

 

3

4

6

3

5

2

2

 

10

8

4

5

3

4

7

1

3

2

1

 

11

9

4

4

4

5

8

0

0

0

0

 

12

10

4

7

 

5

 

30

30

30

30

 

13

11

3

 

5

 

*s

fl

h

fB

f*

 

14

12

5

 

 

 

0

0,00

0,00

0,00

0,00

 

15

13

5

6

6

 

1

0,03

0,07

0,03

0,03

 

16

14

 

6

3

5

2

0,10

0,10

0,13

0,07

 

17

15

6

6

7

6

3

0,17

0,17

0,37

0,13

 

18

16

2

1

7

1

4

0,40

0,20

0,23

0,20

 

19

17

1

1

3

і

5

0,17

0,20

0,10

0,47

 

20

18

2

2

2

2

6

0,10

0,17

0,07

0,07

 

21

IS

4

3

2

3

7

0,03

0,10

0,07

0,03

 

22

20

6

3

3

3

8

0,00

0,00

0,00

0,00

 

23

21

3

3

3

4

 

1,00

1,00

1,00

1,00

 

24

22

4

 

4

 

МЦТ

 

25

23

4

7

4

 

X =

4,00

4,27

3,70

4,33

 

26

24

4

 

4

5

Mo =

4,00

4,00

3,00

5,00

 

27

21

5

6

3

5

Md =

4,00

4,00

3,00

J,00

 

28

26

 

4

6

5

MM

 

29

27

3

4

4

4

o* =

1,79

2,96

2,15

1,68

 

ЗО

28

4

2

3

 

Q =

1,34

1,72

1,47

1,30

 

31

29

4

4

4

5

-4* =

0,00

-0,18

0,70

-0,68

 

32

30

4

4

4

5

 

0,20

-0,73

0,26

0,64

 

Рис. 2.39. Розрахунки розподілу, МЦТ і MM за допомогою функцій табличного процесора MS Excel


Розподіли розраховано за допомогою функції =ЧАСТОТА() і представле­но на рис 2.40-2.43.



Як видно, всі вибірки унімодальні, характеризуються приблизно однако­вими МЦТ (див. комірки F25:J27). Розподіл вибірки fi(x) має нульову асиме­трію (0,00), малий додатний ексцес (0,20) і серед чотирьох вибірок найбільш відповідає властивостям нормального розподілу (рис. 2.40).

Розподіл f2(x) характеризується незначною від'ємною асиметрією (-0,18) і суттєвим від'ємним ексцесом (-0,75) (рис. 2.41). Розподіл f3(x) «деформова­ний» у лівий бік з асиметрією (0,70) і помірним додатним ексцесом (0,26) (рис. 2.42). Розподіл f4(x) має від'ємну асиметрію (-0,68) ще й додатний пози­тивний ексцес (0,64). У порівнянні зі «стандартом» він менш за все відпові­дає вимогам нормальності серед досліджуваних вибірок.

Спосіб 3. Отримати показники МЦТ і MM вибірки за допомогою пакета «Аналіз даних» розділ «Описова статистика» можна у такій послідовності дій:

• виконати команди головного меню Excel [Сервіс -> Аналіз даних], виб­рати розділ «Описова статистика (рис. 2.44), викликати діалогове вікно;


Инструменты анализа

Однофакторный дисперсионный анализ Двухфакторный дисперсионный анализ с повторениями — Двухфакторный дисперсионный анализ без повторений Корреляция Ковариация

Экспоненциальное сглаживание Двухвыборочный Р-тест для дисперсии Анализ Фурье

| Гистограмма            Щ


| Справка J


Рис. 2.44. Розділ «Описова статистика»


• встановити у діалоговому вікні «Описова статистика» (рис. 2.45) вхідні дані та параметри виводу, виконати команду ОК і отримати результати у ко­мірках стовпчиків C:D (рис. 2.46);

Описательная статистика


[-Входные данные -

Входной интервал: Группирование:

W Метки в первой строке

|$В$3:$В$14   5J

по столбцам


J

Справка  |


 


Параметры вывода — (* Выходной интервал: С Новый рабочий лист: С Новая рабочая книга р' Итоговая статистика Г~ Уровень надежности: i К-ый наименьший: i   К-ый наибольший:


[їсїїг


"3


 

Рис. 2.45. Параметри діалогового вікна

• порівняти результати з розрахунками емпіричних МЦТ і ММ попере­днього способу 1 (рис. 2.37), зробити висновки.

 

 

А

в

с

D

1

Емпіричні дані

Похатики виб^рки

2

і

■іі

среднее

2,33

3

1

1

стандартная ошибка

0,36

д

2

1

медиана

2

5

3

1

мода

2

6

4

2

стандартное отклонение

1,23

7

5

2

дисперсия выборки

1,52

со

6

2

эксцесс

0,65

9

7

2

асимметричность

0,99

10

8

2

интервал

4

11

9

3

минимум

1

12

10

3

максимум

5

13

11

4

сумма

28

14

12

5

счет

12

Рис. 2.46. Результати розрахунку основних показників описової статистики

Отже, серед розглянутих способів розрахунку статистик (показників МЦТ і MM), найбільш ефективним і гнучким вважаються засоби з використанням вбудованих статистичних функцій табличного процесора MS Excel.

початкові та центральні моменти

Для системної характеристики варіаційного ряду використовують спеціа­льні показники - початкові та центральні моменти.

Початковий момент к-то порядку варіаційного ряду визначається як:

п

vk =Ехк * Їі .  (2.13)

Центральний момент к-то порядку визначається за формулою:

п                     

тк =Е(х "Х)к *^ ,        (2.14)

і=і

де Хі - варіанти розподілу; /і - диференціальні відносні частоти, x - се­реднє арифметичне.

Очевидно, що перший початковий момент (к=1) має сенс середнього арифметичного варіаційного ряду

п                     

т-і =Ххі " & = х .        (2.15)

Перший центральний момент (к=1) дорівнює нулю, що зумовлено влас­тивостями середнього

п                     

т =Е (х - х) ■ /і = о.    (2.16)

Другий центральний момент (к=2) - це дисперсія яХ2 варіаційного ряду

п                     

т2 =Е(х ~х)2 ■ /і = ях2.         (2.17)

Третій центральний момент (к=3) характеризує асиметрію розподілу

т3 = £(Хі - X)3/і .

Якщо розділити третій центральний момент т3 на куб середньоквадра-тичного відхилення (ях)3, то отримаємо коефіцієнт асиметрії розподілу ^4х:

7% = 7^І (*< ~ Х)3 А - А* • (2.18)

Четвертий центральний момент т4 дає можливість оцінити «загостре­ність» варіаційного ряду, тобто оцінити ексцес

ш4 =Х(*і - X)4/і .

¡=1

Коефіцієнт ексцесу Е* визначається через 4-й центральний момент т4 :

- 3 = Б*.      (2.19)

т4  _ 3

Між центральними і початковими моментами існує зв'язок: т1 = 0;

що витікає з перетворень:

т2 =£(* "А =е(*2 "2*іХ + x2)/і =£*2/, -ё(2*іХ-x2)/і =

і=1       і=1       і=1       і=1

--уг-^(*,Х+*іХ - x 2)£ = уг - Х%/, -Х£(* - Х)/і =у " VlVl - 0 = уг - у2

і=1       і=1       і=1


Отже, якщо т2 = я*2,  у2 - X *2 'а ,  у1 ~ X*і 'а

2          _

то можна отримати

і=1       і=1


ще одне співвідношення, яке використовується для розрахунку дисперсії:

п          ( п        \2

=1      •     -   X хі • /і     .

г=1      v г=1        )

Центральні моменти 3-го і 4-го порядку теж можна записати за допомо­гою початкових моментів:

т3 = у3 - 3у1у2 +     ,  (2.20)

т4 = у4 - 4у1у3 + 6у2у2 - 3у1* і т.д.

Практика статистичних досліджень обмежується, як правило, викорис­танням моментів до 4-го порядку.

На основі порівняння значень теоретичних і вибіркових моментів викону­ється оцінювання параметрів розподілів випадкових величин (див., напри­клад, розділ 4 «Методи статистичного оцінювання»).

Квантилі

Квантилем називається значення ранжированої змінної, що відокремлює від варіаційного ряду певну частку обсягу сукупності. Квантиль - загальне поняття. В математичній статистиці використовуються такі квантилі:

процентилі (Р1, Р2, ..., Р99);

децилі (П1, П2, ... ,

квінтилі (К1, К2, К3, К4);

кварталі       62, 6з).

Найбільш поширеними є процентилі (персентилі) і квартилі.

Процентилі ділять упорядковану сукупність на сто частин, тобто відо­кремлюють від сукупності по 0,01 частині (по 1%).

Квартилі ділять сукупність на чотири частини. Перший квартиль £)1 ві­докремлює зліва 0,25 обсягу сукупності. Другий квартиль £)2 ділить сукуп­ність на дві рівні за обсягом частини (по 0,5), він називається медіаною. На­решті, третій квартиль £)3 відокремлює зліва 0,75 обсягу сукупності.

Між різними квантилями існують певні співвідношення, наприклад, між квартилями і процентилями такі: Р25, <22= Р50, <23= Р75. Тому досить зна­ти лише процедуру знаходження, наприклад, процентилей, щоб визначити будь-які потрібні квантилі. Знаходження персентилей є найбільш простим. Перед початком обчислення будь-якого процентиля слід упорядкувати дані за збільшенням. Р-Й процентиль є межа, нижче за яку лежать Р відсотків значень. Обчислювати квантилі можна графічно або за таблицями. Так з рис. 2.47 видно, що 25-й процентиль Р25 і 1-й квартиль £)1 дорівнюють значенню 3 (Р25=3 і 61=3) Отже, нижче за це значення знаходяться 25% усіх значень. Аналогічно можна знайти інші співвідношення, наприклад Р75 і £)3 (75-й про­




Таблиця 2.3

Значення функції =KBAPTHJIbOMS Excel

 

Значення к

Значення квартиля

0

Мінімальне значення

1

Першу квартиль (25-у процентиль)

2

Значення медіани (50-у процентиль)

3

Третю квартиль (75-у процентиль)

4

Максимальне значення

 

Через квартилі можуть визначатися числові характеристики центральної те­нденції, мінливості. Наприклад, середнє квартильне відхилення - це міра розки­ду в розподілах, яка параметром центральної тенденції має медіану МсС.

«Чутливою» мірою розсіяння є напівінтерквартильне відхилення Е. Воно визначається як половина інтервалу, якому відповідає половина обсягу у су­купності, тобто Е = 0,5-(23 - ()]), де <23 і ()] - 3-й і 1-й квартилі.

Нормовані дані

Нормовані дані - це дані, наприклад, масиву X (див. рис. 2.48), що отри­мані шляхом математичного перетворення їх за формулою

х. -X

*>        ,           (2.21)

де ху - значенняу'-го елемента первинного масиву даних X;

x і 5х - середнє арифметичне і стандартне відхилення масиву х1;

їу - нормоване значення.

Так, нормоване значення1-го елемента 21 дорівнюватиме (рис. 2.48):

1          *х        1,63     ■

Нормовані дані можна отримати у такій послідовності: • для емпіричних даних (стовпчики А:В рис. 2.48) розрахувати значення середнього X і стандартного відхилення ях у рядках 16 і 17 за допомогою функцій =СРЗНАЧ() і =СТАНДОТКЛОН();

 

 

А

В

С

0

Е

Р

Є

Н

1

І

X

 

і

Хі

л

л

2

1

1

-1,71

1

0

0,00

-2,33

0,00

3

2

2

-1,10

2

1

0,07

-1,71

0,07

4

3

2

-1,10

3

2

0,14

-1,10

0,14

5

4

3

-0,48

4

3

0,21

-0,48

0,21

6

5

3

-0,48

5

4

0,29

0,13

0,29

7

6

3

-0,48

6

5

0,14

0,73

0,14

со

7

4

0,13

7

6

0,07

1,36

0,07

9

8

4

0,13

8

7

0,07

1,98

0,07

10

9

4

0,13

9

8

0,00

2,39

0,00

11

10

4

0,13

 

 

 

 

 

12

11

і

0,7:5

Суми:

1,00

 

1,00

13

12

 

0,73

 

 

 

 

 

14

13

б

1,36

 

 

 

 

 

15

14

7

1,98

 

 

 

 

 

16

Х =

3,7?

0,00

 

 

 

 

 

17

5» =

1,63

1,00

 

 

 

 

 

Рис. 2.48. Результати розрахунку стандартизованих значень 2

•           у комірку С2 внести вираз =(B2-$B$16)/$B$17 і отримати відповідне нормоване значення -1,71;

аналогічні вирази внести у комірку С3:С15 (рис. 2.49);

розрахувати у комірку С16 і С17 середні значення і стандартні відхи-

лення нормованих змінних 2 і переконатися, що вони становлять 0 і 1;

 

 

А

В

С

0

Е

Р

Є

Н

1

І

X

1

3

Хі

л

и

2

1

1

=(В2-$В$1бУ$В$17

1

0

=ЧАСТОТА(В2

В13.Е2:

=(ШВ$1б)/$В$17

=ЧАСТОТА(;С2:С13,0;

3

2

2

=(ВЗ-$В$1бу$В$17

2

1

=ЧАСТОТА(В2

В15;Е2:

=(ЕЗ-$В$1б)/$В$17

=ЧАСТОТА(С2:С15;0;

4

3

2

=(В4-$В$1б)/$В$17

3

2

=ЧАСТОТА(В2

В15;Е2:

=(Е4-$В$1б)/$В$17

=ЧАСТОТА(С2:С13;0:

5

4

3

=(В5-$В$16)/$В$17

4

3

=ЧАСТОТА(В2

В15;Е2:

=(Е5-$В$1б)/$В$17

=ЧАСТОТА(С2:С13;0;

от

3

3

=(В6-$В$16)/$В$17

3

4

=ЧАСТОТА(В2

В15;Е2:

=(Еб-$В$16)/$В$17

=ЧАСТОТА(С2:С13;0;

7

&

3

=(В7-$В$1б)/$В$17

&

3

=ЧАСТОТА(В2

В15;Е2:

=(Е7-$В$1б)/$В$17

=ЧАСТОТА(С2:С13;0;

со

7

4

=(В8-$В$16У$В$17

7

6

=ЧАСТОТА(В2

В15;Е2:

=(Е8-$ВЇ16)ДВ$17

=ЧАСТОТА(С2:С13;0;

от

8

4

=(В9-$В$1бУ$В$17

8

7

=ЧАСТОТА(В2

В15;Е2:

=(Е9-$В$1б)/$В$17

=ЧАСТОТА(С2:С13;0;

10

9

4

=(В10-$В$1б)зШ17

9

8

=ЧАСТОТА(В2

В15;Е2:

=(Е10-$В$16)/$В$1

=ЧАСТОТА(С2:С13;0;

11

10

4

=(В11-$В$1бУ$В$17

 

 

 

 

 

12

П

3

=(В12-$В$1бУ$В$17

Суми:

<:УММ(Т2:Р1Г)

 

=СУММ(Н2:Н1Г)

13

12

3

=(віз-$в$іед;в$і7

 

 

 

 

 

14

13

6

=(В14-$В$1бУ$В$17

 

 

 

 

 

15

14

7

=(В13-$В$1б)/$В$17

 

 

 

 

 

16

Х=

=СРЗН

=СРЗНАЧ(С2:С13)

 

 

 

 

 

17

 

=СТА1

=СТАНДОТЮТОН((

 

 

 

 

 

Рис. 2.49. Формули для розрахунку стандартизованих значень 2

• розрахувати у стовпчиках 0:И розподіли частот /х первинних і /г нор-


З рис. 2.50 можна переконатися, що графіки варіаційних розподілів пер­винних і нормованих даних ідентичні за формою, осі ординат проходять по значенням середніх: для первинних це значення складає 3,79, для нормова­них - 0,00. Різними є і показники середньоквадратичного відхилення - 1,63 і 1,00 відповідно. Метод нормалізації доволі часто використовується в статис­тичних методах (див., наприклад, розділ 2.3).

Запитання. Завдання.

Дайте визначення і охарактеризуйте особливості показників МЦТ.

Як розрахувати моду, медіану і середнє арифметичне вибірки.

Поясніть поняття «унімодальність» і «бімодальність» розподілу.

Як визначити середнє арифметичне, якщо дані представлено розподі­лами частот?

Охарактеризуйте вибіркову дисперсію і стандартне відхилення, запи­шіть розрахункові формули.

Які властивості характеризують показники асиметрії і ексцесу?

Що таке початкові та центральні моменти?

Які показники вибірки можна визначати за допомогою моментів?

Що таке «квантиль», які квантилі застосовує математична статистика?

Яке співвідношення існує між квартилями і процентилями?

Що означає поняття «нормовані дані», яка формула перетворення?

Виконайте математичні процедури завдань за трьома способами роз­рахунку показників МЦТ і MM в MS Excel.

Виконайте лабораторну роботу № 3.