2.4. РЕГРЕСІЯ

Статистичні зв'язки між змінними досліджуються не лише методами ко­реляційного, а й регресійного аналізу, які доповнюють один одного. Основне завдання кореляційного аналізу - визначення зв'язку між випадковими змін­ними і оцінювання його інтенсивності та напряму. Основне завдання регре­сійного аналізу є встановлення форми і вивчення залежності змінних.

Регресія дозволяє за величиною однієї ознаки (змінна x) знаходити сере­дні (очікувані) значення іншої ознаки (змінна У), зв'язаної з x кореляційно. Оскільки в дослідженнях конкретний вид взаємозв'язків невідомий, одне з головних завдань регресійного аналізу полягає у доборі відповідного виразу У = / (X), графік якого проходить через емпіричні точки (або досить близько до них) і таким чином зв'язує змінні x і У.

Вираз У = / (X) має назву рівняння регресії, функція/ (X) - функція регре­сії, а їхні графіки - лінії регресії. Регресійний аналіз виявляє кількісну залеж­ність ознаки-фактора (залежної змінної) від одного або декількох ознак-факторів (незалежної змінної). Ця залежність може бути одномірною чи ба-гатомірною (множинною), як лінійною, так і нелінійною.

Одномірна лінійна регресія

Одномірна лінійна регресія припускає тільки дві змінні, наприклад, не­залежну x і залежну У, а також рівняння лінійного типу Т=а0 + a1•X. Лінійна регресії дає можливість виявляти, на скільки змінюється середня величина однієї ознаки при зміні іншої. Побудова лінійної регресії полягає у розрахун­ках коефіцієнтів лінійної регресії а0 і а1:

X (х,- Хуіу, - 'У)

а0 = У - а1 • X,           (2.29)

де У і X - середні значення змінних У і x.

Вибір значень коефіцієнтів а0 і а1 виконується за методом «найменших квадратів» так, щоб сума-~) = ^(j; ~а0 ~а\'Xt)2 була мінімальною.

Якщо незалежною ознакою виступає Y а залежною - x, то рівняння ліній­ної регресії буде мати інший вигляд типу X =b0 + b\-Y. Коефіцієнти лінійної регресії b0i bi відрізнятимуться від коефіцієнтів а0 і а1.

Приклад 2.10. Оцінити залежність успішності навчання (Y) від затрачено­го часу (X). Емпіричні дані представлено в таблиці рис. 2.62.

Послідовність рішення:

• Виконати розрахунки коефіцієнтів регресії а0 і а1 :


у комірки В15 і С15 внести =СРЗНАЧ(Б3:Б13) і =CP3HA4(C3:C13) і отримати середні значення масивів X ~ 2,39 і Y ~ 4,09;

у комірках D3:H13 розрахувати різниці, добутки і квадрати різниць за допомогою відповідних формул, що показано на рис. 2.63;

у комірках F14:H14 розрахувати суми добутків і квадратів різниць;

у комірках D17 і D17 розрахувати коефіцієнти лінійної регресії а1 і а0 за допомогою виразів =F14/G14 і =C15-D17*B15:

А    | В | С

0          Е            Р            6    |    Н

і                и

1     Емпіричні дані

Розрахунки

Регресія

Н       !'

Хі

 

(хі-Х)

 

 

(хі-Х?

 

Г

X

3   1

2,1

ї

=вз-в$и

=сз-с$и

=ВЗ*ЕЗ

=БЗП2

=ЕЗЛ2

=$В$18-ОД$17*ВЗ

=ШШ+№$17*СЗ

4  2

3,4

 

=В4-В$1І

=С4-С$1І

=В4*Е4

=Б4"2

=Е4Л2

=$В$184№$17*В4

=$Н$18-ЦН$17*С4

5  3

и

3

=В5-В$15

=СІ-С$1І

=В:5*Е5

=ШЛ2

=Е5Л2

=ІБ$18-^Б$17*В5

=ШШ+№$17*С5

6  4

2,9

6

=Вб-В$15

=Сб-С$1і

=Вб*Е<5

=Ббп2

=Ь5Л2

=$В$18-^В$17*Вб

=$Н$18-Н!Н$17*Сб

7  5

2,3

3

=В7-В$13

=С7-С$1І

=В7*Е7

=В7"2

=Е7Л2

=$В$18+ЇВ$17*В7

=ЇНШ+$Н$17*С7

8  6

1,4

3

=В8-В$13

=С8-С$и

=В8*ЕЗ

=В8"2

=Е8Л2

=$В$18+$В$17*В8

=$Н$18+$Н$17*С8

9  7

2,3

5

=ВР-В$13

=С9-С$и

=В9*Е9

=09"2

=Е5Л2

=$В$184№$17*В9

=ШШ+№$17*С9

10 8

2,2

3

=В10-ВЇ1.

=С10-С$1

=В10*Е10

=Б10П2

=Е10П2

=Ю$18+$Б$17*В10

=$Н$18-ЦН$17*С10

11 9

3

5

=В11-ВІ1.

=С11-С$1

=В11*Е11

=Б11П2

=Е11П2

=Ю$184№$17*В11

=ШШ+№$17*С11

12 10

3,3

5

=В12-ВЇ1.

=С12-С$1

=В12*Е12

=Б12П2

=Е12Л2

=$В$18-^В$17*В12

=ШШ+№$17*С12

ІЗІ11

1,5

2

=В13-В$1.

=С13-С$1

=В13*Е13

=В13"2

=Е13"2

=$В$18+ЇВ$17*В13

=$НШ+$Н$17*С13

14   Суми

 

 

 

 

=СУММ(ТЗ:І

=СУМЇ7

=СУММ(НЗ:Н13)

 

15 Середні

=СР.

=СРЗНАЧ(СЗ:С13)

 

 

 

 

 

~Щ             г„ =

=И 14ЖОРЕНЬ(ет 4*Н 14)

 

 

 

 

171               аі =

 

 

Ьі =

=Р14/Н14

 

І8~|_           а0 =

=Си-017*Ви

 

Ь„ =

=Ви-Н17*Си

 

Рис. 2.63. Формули для розрахунку лінійної регресії


виконати у комірках 13:113 розрахунки теоретичного значення У за ре-гресійним рівнянням Г=0,82+1,37-Х. Для цього у комірку 13 внести вираз =$0$18+$0$17*В3. Аналогічні вирази внести в інші комірки стовпчика І;

у комірках Н17:Н18 аналогічним способом розрахувати коефіцієнти регресії Ь0 і Ь1 регресійного рівняння X =Ь0 + Ь1-У;

у комірці Б21 розрахувати коефіцієнт кореляції за допомогою виразу =Р14/КОРЕНЬ(в14*Н14) або =ПИРСОН(В3:В13;С3:С13), отримати гху^ 0,76;

побудувати графіки лінійної регресії (рис. 2.64).

у

7 6 5 4 3 2 1

Висновки. Рівняння регресії Г=0,82+1,37Х а також Х=0,67 + 0,42-У (гра­фіки регресії) дають можливість аналітичного прогнозування значень залеж­ної змінної за допомогою незалежної змінної. Отримані регресійні рівняння мають різні коефіцієнти регресії і виконують різні прогнозуючи функції: пе­рше прогнозує У за значеннями X, друге - навпаки, x за значеннями У (зви­чайно, якщо таке прогнозування має сенс).

Множинна регресія

Множинна регресія - це оцінювання, наприклад, змінної У лінійною ком­бінацією т незалежних зміннихx],х2, хт. Найпростіший варіант регресії має місце для т=2, коли необхідно спрогнозувати залежність однієї змінної У від двох змінних х1 і Х2. Рівняння такої множинної регресії має вигляд:

~ = Бх ■ X + Б2 ■ Х2 + Б0,  (2.30)

де Б1 = ¿1 •     Б2 = Ьг ■ $у/$г;        Б0 = У - Ах ■ Х1 - А2 •

sy, s1, s2 , У, Х1, Х2 - стандартні відхилення і середні значення У , Х1 і Х2 ; гу1, гу2, г12 - коефіцієнти парної кореляції Пірсона між У і Х1, У і Х2, Х1 і Х2. Для оцінювання зв'язку, з одного боку, змінної У, а з іншого - двох змін­них Х1 і Х2, використовують коефіцієнт множинної кореляції:

Ку-1,2 =д/Ь1 • гу1 + Ь2 • гу2 .          (2.31)

Приклад 2.11. Спрогнозувати залежність змінної У від комбінації незале­жних зміннихХ1 і Х2 за емпіричними даними рис. 2.65. Послідовність рішення:

• Виконати розрахунки коефіцієнтів множинної регресії і множинної ко­реляції (рис. 2.65 і 2.66):

-           у комірки В15:Б15 внести =СРЗНАЧ(Б3:Б14), =СРЗНАЧ(Є3:Є14) і =СРЗНАЧ(03:014), отримати середні значення У ~ 4,00, Х1 = 5,83 і Х2 =3,17;

-           у   комірки  В16:Б16   внести   функції   =СТАНДОТКЛОН(Б3:Б14),

=СТАНДОТКЛОН(С3:С14), =CTAHflOTFJIOH(D3:D14) і отримати стандар­тні відхилення sy ~ 0,74; s1 ~ 2,17 і s2 ~ 1,11 ;

у комірках В17:В19 розрахувати коефіцієнти парної кореляції Пірсо-на за допомогою функції MS Excel =ПИРСОН() з відповідними аргументами і отримати такі значення ry1 ~ 0,68; ry2 ~ 0,11 і r12 ~ -0,21;

у комірки В20 і В21 внести вирази =(B17-B18*B19)/(1-B19A2) і =(B18-B17*B19)/(1-B19A2), отримати значення b1 ~ 0,74 і b2 ~ 0,27;

у комірки Е20:Е22 внести вирази =B20*B16/C16, =B21*B16/D16 і =B15-E20*C15-E21*D15, отримати значення коефіцієнтів множинної регресії В1 ~ 0,25; ^2 ~ 0,18 і В-0 ~ 1,97;

 

 

А

в

с

D

Е

1

Емпіричні дані

Регресія

2

3'

7

 

Х2

7

3

1

4

8

1

4,16

4

2

3

2

3

3,01

5

3

5

6

4

4,19

6

4

5

8

2

4,34

7

5

4

7

3

4,26

CO

6

3

4

4

3,69

9

7

4

5

3

3,76

10

8

5

8

5

4,87

11

9

4

7

2

4,09

12

10

4

8

4

4,69

13

11

3

4

3

3,51

14

12

4

3

4

3,43

15

Середні

4,00

5,83

3,17

 

16

СТ. ЕІДК.

0,74

2,17

1,11

 

17

'уі =

0,68

 

 

 

'у2 =

0,11

 

 

 

19

'12 =

-0,21

 

 

 

20

Ьі =

0,74

 

Si =

0,25

21

ь2 =

0,27

 

В2 =

0,18

22

Rf!,2 =

0,73

 

В<, =

1,97

Рис. 2.65. Параметри регресії та множинна кореляція Яу-1^

виконати у комірках Е3:Е14 розрахунки теоретичного значення 7 за рівнянням множинної регресії типу 7=0,251-Х1+0,18-Х2+1,97. Для цього у ко­мірку Е3 внести вираз =$Е$20*С3+$Е$21*Б3+$Е$22. Аналогічні вирази вне­сти в комірки Е4:Е14;

у комірку В22 внести вираз =КОРЕНЬ(В20*В17+В21*В18) і отримати значення коефіцієнта множинної кореляції Яу-1;2 ~ 0,73.

 

А

В

с

 

Е

1

Емпіричні дані

Регресія

2

]'

7

Хі

 

¥

ш

1

4

8

1

=ЇЕ$20*СЗ+$Е$21 *03+ЇЕ$22

4

2

3

2

3

=ЇЕ$20*С4+$Е$21 *Б44$Е$22

5

3

5

6

4

=ЇЕ$20*С5+$Е$21 *Ш4$Е$22

6

4

:

8

2

=$Е$20*Сб-Н£Е$21 *Об-НІ!Е$22

7

5

4

7

3

=$Е$20*С7+$Е$21 *Б7+$Е$22

со

6

3

4

4

=$Е$20*С8+$Е$21 *08+ЇЕ$22

9

7

4

 

3

=$Е$20*С9+$Е$21 *Б9+$Е$22

10

8

5

8

 

=ЇЕ$20*С10+$Е$21 *О10+Ш22

11

9

4

7

2

=$Е$20*С11+Ш21 *011+Ш22

12

10

4

8

4

=ЇЕ$20*С12+$Е$21 *012+Ш22

13

11

3

4

3

=$Е$20*С13-ЦЕ$21 *013+Ш22

14

12

4

3

4

=$Е$20*С14+ЇЕ$21 *014+$Е$22

15

Середні

=СРЗНАЧ(ВЗ:В14)

=СРЗНАЧ(СЗ:С14)

=СРЗНАЧ(Т>3:014)

16

Ст. ЕІДК.

=СТАНДОТЮІОН

=СТАНДОТКЛОН

=СТАНДОТЮ10Н(БЗ:014)

17

Гуі =

=ПИРСОН(ВЗ :В 14,СЗ :С 14)

 

со

*У2 =

=ПИРСОН(ВЗ:В 14,ОЗВ 14)

 

19

г 12 -

=ПИРСОН(СЗ:С 14,03:Б 14)

 

20

Ьі =

=(В17-В18*В19)/(1-В19П2)

Ві =

=В20*В1б/С1б

21

ь2 =

=(В18-В17*В19)/(1-В19П2)

В2 =

=В21*В1бЮ1б

22

=

=КОРЕНЬ(В20 *В 17+В21 *В 18)

В<, =

=В13-Е20*С15-Е21*Б15

Рис. 2.66. Формули для розрахунку регресії та множинної кореляції

Регресійне рівняння 7=0,251X^+0,18X2 +1,97 дає можливість прогнозу­вання змінної У за змінними Х1 і Х2. Наприклад, прогнозованими значеннями можуть бути такі: У ~ 2,83 дляХ1=2 і Х2=2 і У ~ 3,08 дляХ1=3 і Х2=2 та ін. Ко­ефіцієнт множинної кореляції Яу12 =0,73 свідчить про суттєвий прямий зв'я­зок між змінної У, з одного боку, і змінними Х1 і Х2, з другого, проте оцінити вклад у кореляцію кожної змінної окремо не представляється можливим.

Запитання. Завдання.

Розкрийте ідею методів регресії як засобу прогнозування.

Охарактеризуйте прогнозуючі можливості одномірної лінійної регресії.

Охарактеризуйте прогнозуючі можливості множинної регресії.

Повторіть математичні процедури завдань за прикладами 2.10 - 2.11.

Виконайте лабораторну роботу № 7.