refik.in.ua 1

ПРАКТИЧНЕ ЗАНЯТТЯ № 3


КРИТЕРІЇ АНАЛІЗУ РЕЗУЛЬТАТІВ ВИМІРЮВАННЯ

Форма проведення – розв’язування практичних завдань.
Практичне завдання

Проводилось вимірювання якості знань учнів 8-го класу з математики з однієї теми спочатку за одним дидактичним тестом, а за два дні – за другим, що є ідентичним першому. Отримані результати зведені до таблиці 1 (хірезультати за першим тестом, уі – результати за другим тестом).

Необхідно визначити надійність, об’єктивність та валідність результатів дидактичного діагностування.

Таблиця 1

Результати вимірювання якості знань учнів 8-го класу



за списком

хі

уі



за списком

хі

уі

1

13

12

11

8

9

2

9

11

12

9

8

3

8

8

13

10

10

4


9

12

14

10

12

5

7

9

15

12

10

6

9

11

16

10

10

7

8

9

17

8

11

8

13

13

18

9

10

9

11

9

19

10

11

10

12

10

20

11

13


Розв’язок

1.Спочатку визначимо коефіцієнт надійності.

Коефіцієнт надійності (R) дорівнює коефіцієнту кореляції між результатами, отриманими однаковим методом за однакових умов, і показує, наскільки збігаються результати вимірів.

Коефіцієнт надійності змінюється від 0 до 1 і розраховується з використанням певних методик. Найчастіше для його розрахунку використовують рівняння Спірмена – Брауна або коефіцієнт α-Кронбаха.


При створенні тестів, які використовуються підчас широкомасштабних тестувань (а до них належать, передусім, національні та галузеві тестування), розрахунок коефіцієнта надійності є обов’язковим. Під час тестувань, за результатами яких приймаються адміністративні висновки для екзаменованих, цей коефіцієнт має бути більшим ніж 0,9.
Для розрахунку коефіцієнта кореляції побудуємо таблицю 2, до якої запишемо не лише вихідні дані (результати діагностування), але й дані для додаткових розрахунків.

Таблиця 2

Таблиця для розрахунку коефіцієнта кореляції



з/п

хі

уі

і – Мх)

і – Му)

і – Мх)2

і – Му)2

і – Мх) (уі – Му)

1

13

12

3,2

1,6

10,24


2,56

5,12

2

9

11

-0,8

0,6

0,64

0,36

-0,48

3

8

8

-1,8

-2,4

3,24

5,76

4,32

4

9

12

-0,8

1,6

0,64

2,56

-1,28

5

7

9

-2,8

-1,4

7,84

1,96

3,92

6

9

11

-0,8

0,6

0,64

0,36

-0,48

7

8

9

-1,8

-1,4

3,24

1,96

2,52

8


13

13

3,2

2,6

10,24

6,76

8,32

9

11

9

1,2

-1,4

1,44

1,96

-1,68

10

12

10

2,2

-0,4

4,84

0,16

-0,88

11

8

9

-1,8

-1,4

3,24

1,96

2,52

12

9

8

-0,8

-2,4

0,64

5,76

1,92

13

10

10

0,2

-0,4

0,04

0,16

-0,08

14

10

12

0,2


1,6

0,04

2,56

0,32

15

12

10

2,2

-0,4

4,84

0,16

-0,88

16

10

10

0,2

-0,4

0,04

0,16

-0,08

17

8

11

-1,8

0,6

3,24

0,36

-1,08

18

9

10

-0,8

-0,4

0,64

0,16

0,32

19

10

11

0,2

0,6

0,04

0,36

0,12

20

11

13

1,2

2,6

1,44

6,76


3,12

Σ

196

208

0,00

0,00

57,2

42,8

24,6




  1. Обчислення сум усіх значень:

Σ хі = 196 Σ уі = 208


  1. Обчислення середніх арифметичних:







  1. Для кожного обстежуваного визначаємо відхилення від середнього арифметичного значення і результати запишемо до 4-го і 5-го стовпчиків таблиці 2:

і – Мх); (уі – Му)

  1. Кожне відхилення від середнього арифметичного підносимо до квадрату:

і – Мх)2; (уі – Му)2

  1. До останнього стовпчика записуються результати перемноження двох відхилень від середнього арифметичного для кожного обстежуваного:

і – Мх) (уі – Му)


  1. Обчислюємо стандартні відхилення (позитивне значення кореню квадратного з дисперсії):





Дисперсія – це міра мінливості для метричних даних, що пропорційна сумі квадратів відхилень вимірених значень від середнього арифметичного:

 

  1. Коефіцієнт кореляції Пірсона:



  1. За рівнянням Спірмена-Брауна коефіцієнт надійності:



Якщо порівнювати із мінімальним стандартним значенням коефіцієнта кореляції (ґ-Пірсона та ґ-Спірмена) для =20, то



(Числові дані критичних значень коефіцієнту кореляції наведені в додатковій таблиці 3).

0,6816 0,10)

0,6816 0,05)

0,6816 0,01)

0,6816 0,001)


Таблиця 3

Критичні значення коефіцієнтів кореляції ґ-Пірсона (ґ-Спірмена)


п

р

п

р

0,10

0,05

0,01

0,001

0,10

0,05

0,01

0,001

5

0,805

0,878

0,959

0,991

18

0,400

0,468

0,590

0,708

6

0,729

0,811

0,917

0,974

19

0,389

0,456

0,575

0,693

7

0,669

0,754

0,875

0,951

20


0,378

0,444

0,561

0,679

8

0,621

0,707

0,834

0,925

21

0,369

0,433

0,549

0,665

9

0,582

0,666

0,798

0,898

22

0,360

0,423

0,537

0,652

10

0,549

0,632

0,765

0,872

23

0,532

0,413

0,526

0,640

11

0,521

0,602

0,735

0,847

24

0,344

0,404

0,515

0,629

12

0,497

0,576

0,708

0,823

25


0,337

0,396

0,505

0,618

13

0,476

0,553

0,684

0,801

26

0,330

0,388

0,496

0,607

14

0,458

0,532

0,661

0,780

27

0,323

0,381

0,487

0,597

15

0,441

0,514

0,641

0,760

28

0,317

0,374

0,479

0,588

16

0,426

0,497

0,623

0,742

29

0,311

0,367

0,471

0,579

17

0,412

0,482

0,606

0,725

30

0,306


0,361

0,463

0,570

Якщо ж міркувати з точки зору загальнонаціональних вимірювань, то отримані результати мають не досить високий рівень, тому що для таких вимірювань 

2.Об’єктивність і валідність

Об’єктивність і валідність отриманих результатів можна оцінити через визначення асиметрії та ексцесу.

Асиметрія – ступінь відхилення графіка розподілу частот від симетричного виду відносно середнього значення:

,

де zі – переведені в стандартну шкалу вимірювання значення;

 

Ексцес – міра плосковершинності чи гостровершинності графіка розподілу виміряної ознаки:

  3

  3   3

Результати обчислень зведемо до таблиці 4.


Таблиця 4

Таблиця для розрахунку асиметрії та ексцесу




з/п

і – Мх)









і – Му)









1

3,2

1,845

6,280

11,587

1,6

1,066

1,211

1,291

2

-0,8

-0,461

-0,048

0,045

0,6


0,400

0,064

0,0256

3

-1,8

-1,038

-1,118

1,161

-2,4

-1,600

-4,096

6,554

4

-0,8

-0,461

-0,098

0,045

1,6

1,066

1,211

1,291

5

-2,8

-1,614

-4,204

6,786

-1,4

-0,933

-0,812

0,758

6

-0,8

-0,461

-0,098

0,045

0,6

0,400

0,064

0,0256

7

-1,8

-1,038

-1,118

1,161

-1,4

-0,933

-0,812

0,758

8

3,2


1,845

6,280

11,587

2,6

1,732

5,200

9,006

9

1,2

0,692

0,331

0,229

-1,4

-0,933

-0,812

0,758

10

2,2

1,268

2,039

2,585

-0,4

-0,265

-0,019

0,005

11

-1,8

-1,038

-1,118

1,161

-1,4

-0,933

-0,812

0,758

12

-0,8

-0,461

-0,048

0,045

-2,4

-1,600

-4,096

6,554

13

0,2

0,115

0,002

0,0001

-0,4

-0,265

-0,019


0,005

14

0,2

0,115

0,002

0,0001

1,6

1,066

1,211

1,291

15

2,2

1,268

2,039

2,585

-0,4

-0,265

-0,019

0,005

16

0,2

0,115

0,002

0,0001

-0,4

-0,265

-0,019

0,005

17

-1,8

-1,038

-1,118

1,161

0,6

0,400

0,064

0,0256

18

-0,8

-0,461

-0,048

0,045

-0,4

-0,265

-0,019

0,005

19

0,2

0,115

0,002


0,0001

0,6

0,400

0,064

0,0256

20

1,2

0,692

0,331

0,229

2,6

1,732

5,200

9,006

Σ

0,00

0,000

8,142

40,457

0,00

0,000

2,944

38,152


ASx = 0,407 ASy = 0,147

Exx = - 0,977 Exy = - 1,092

Отримані дані свідчать про наявність додатної симетрії  та від’ємного ексцесу . Отже, результати діагностування занижені за рахунок невалідності тесту.

Це також підтверджує значення коефіцієнту валідності:



Отже, результати діагностування не можна вважати валідними.
Додаток

Критерії об’єктивності та валідності

результатів вимірювання

Аналіз характеристик тесту, як і аналіз тестових завдань, здійснюється за єдиною методикою, яка ґрунтується на системному аналізі функції розподілу результатів тестування та характеристичної кривої тесту.

Залежно від значення і знаків асиметрії та ексцесу закону розподілу можна виділити 9 таких критеріїв.

Критерій І

Тест є валідним, якщо асиметрія та ексцес закону розподілу дорівнюють нулю (
Критерій ІІ

Якщо асиметрія є від’ємною, а ексцес додатним (), то тест є невалідним (легкий і з малою розподільною здатністю).

Це результат дії кількох факторів:


  • тест сконструйовано з невалідних тестових завдань (він мусить валідизуватися шляхом їх ускладнення та збільшення їх розподільної здатності);

  • процедура тестування є невалідною.


Критерій ІІІ

Якщо асиметрія та ексцес є від’ємними , , але з великою розподільною здатністю.

Його валідизація полягає в ускладненні тестових завдань.

Критерій ІV

Якщо асиметрія є від’ємною, а ексцес відсутній (), то тест є легким.

Його валідизація полягає в ускладненні тестових завдань.

Критерій V

Якщо асиметрія є додатною, а ексцес від’ємним (), то тест є складним із великою розподільною здатністю.


Його валідизація полягає у валідизації змісту шляхом вилучення тестових завдань, які не відповідають цій вимозі.

Критерій VІ

При додатних асиметрії та ексцесі ) тест є складним з малою розподільною здатністю. Це є наслідком дії двох факторів, що впливають один на одного: порушення валідності змісту, невалідність тестових завдань.

Валідизація тесту полягає у валідизації тестових завдань.

Критерій VІІ

При додатній асиметрії та відсутності ексцесу () тест є складним. Це є наслідком дії двох факторів, що впливають один на одного: порушення валідності змісту, невалідність тестових завдань.

Валідизація тесту полягає у валідизації тестових завдань.

Особливої уваги потребують 2 останні критерії (VІІІ і ІХ), які дають змогу визначити конструктивну валідність тесту, а саме перевірити тест на однорідність. (Однорідним вважається тест, якщо його сконструйовано з тестових завдань із близькими характеристиками. Неоднорідним вважається тест, який складається з окремих субтестів, кожний з яких можна розглядати як тест з певними характеристиками.)

Критерій VІІІ

Якщо крива розподілу симетрична, асиметрія дорівнює нулю, а ексцес додатний ), то тест є неоднорідним і сконструйованим із двох субтестів: складного і легкого.

Валідизація тесту полягає в його поділі на 2 окремі тести.

Критерій ІХ

Якщо крива розподілу симетрична, асиметрія дорівнює нулю, а ексцес від’ємний ), то тест є неоднорідним, сконструйованим із 3-х субтестів: легкого, середнього і складного.

Валідизація тесту полягає в його поділі на окремі тести.