refik.in.ua 1 2 ... 11 12
        1. Розділ 9. Математична статистика


9.1. Основні поняття вибіркового методу
9.1.1. Вибірка. Емпірична функція розподілу. Математична статистика вивчає методи збору і обробки результатів спостережень для одержання наукових і практичних висновків. Методи розв’язування задач в теорії ймовірностей вимагають знання різних ймовірнісних характеристик. При розв’язуванні практичних задач ці характеристики не можуть бути відомими. Математична статистика розглядає методи знаходження необхідних ймовірнісних характеристик за статистичними даними. Тобто, основним предметом дослідження в математичній статистиці є випадкові величини, але висновки про властивості цих випадкових величин робляться на основі статистичних даних.

Одна із важливих задач математичної статистики пов’язана із знаходженням розподілу випадкової величини за статистичними даними. До цієї задачі зводяться багато інших задач. Основними задачами математичної статистики є розробка методів знаходження оцінок (знайдених на основі статистичних даних характеристик досліджуваної величини), дослідження їх точності, розробка методів перевірки гіпотез, аналіз зв’язку між величинами.

Нехай задано сукупність об’єктів, що об’єднані спільною ознакою (кількісною або якісною, якою характеризуються однорідні об’єкти). Її значення для кожного об’єкту передбачити неможливо, тому досліджувана ознака є випадковою величиною. Вивчення властивостей величини пов’язане із проведенням статистичних спостережень – знаходження значень величини для деяких об’єктів. Таким чином можна обстежити всю сукупність або деяку її частину. Обстеження всієї сукупності не завжди доцільне, а інколи просто неможливе. Таким методом, зокрема, здійснюють контроль за якістю продукції, проводять соціологічні дослідження. У всіх таких випадках проводиться обстеження тільки частини об’єктів і по його результатах роблять висновки про всю сукупність. Такий метод називається вибірковим.


Множина значень величини , що одержані в результаті експериментів, називається вибіркою обсягу . Множину всіх значень величини ми будемо називати генеральною сукупністю. Поняття вибірки вживається і більш широко – як n-вимірна випадкова величина. Вибірка є єдиним джерелом інформації про досліджувану величину. Ми будемо розглядати вибірку організовану методом випадкового відбору. При цьому кожен об’єкт сукупності має однакову ймовірність бути відібраним, така вибірка буде правильно відображати властивості всієї сукупності. На практиці частіше всього використовується вибір без повернення (безповторна вибірка), коли кожен відібраний об’єкт, перед вибором наступних, назад до сукупності не повертається. Вибір з поверненням розглядається частіше в теоретичних дослідженнях. Якщо обсяг вибірки значно менший обсягу досліджуваної сукупності, то обидві вибірки дають практично однакові результати.

При одночасному дослідженні двох (або більшої кількості) ознак вибірка буде складатись із упорядкованих пар (або упорядкованих наборів) чисел.

Для розв’язування багатьох задач важливо знати розподіл досліджуваної випадкової величини, бо на його основі приймають ті чи інші рішення.

Нехай задано вибірку (статистичні дані) для величини . Безпосередньо із вибірки важко зробити якісь висновки про властивості досліджуваної величини, тому необхідно провести первинну обробку результатів спостережень.


Статистичні дані , що записані у порядку зростання (), називають варіаційним рядом, а його члени – варіантами.

У варіаційному ряді значення можуть повторюватись. Якщо ми будемо записувати тільки різні значення і, якщо значення зутрічається у вибірці раз, то число називають частотою, а – відносною частотою значення .

Перелік різних варіант і відповідних їм частот (відносних частот) називають емпіричним або статистичним розподілом (статистичним рядом). Його можна подати у вигляді такої таблиці (надалі дужки в індексах будемо опускати):


Варіанти







Частоти










Відзначимо, що – обсяг вибірки. Такий розподіл називають дискретним.

Для графічного зображення дискретного розподілу використовують полігон частот (або відносних частот) – це ламана із вершинами в точках (або ).

Якщо досліджується дискретна випадкова величина, кількість можливих значень якої досить велике, або досліджується неперервна випадкова величина, то будують інтервальний статистичний ряд або інтервальний розподіл. Для цього множину всіх значень , від найменшого () до найбільшого (), розбивають на певну кількість інтервалів і для кожного із інтервалів вказують число статистичних даних, які в нього попадають. Інтервали можуть мати однакову або різну довжину. При розбитті на нерівні інтервали їх необхідно підбирати так, щоб розподіл в кожному із них був приблизно рівномірним. Кількість інтервалів залежить від мети дослідження. Інтервальний розподіл можна подати у вигляді такої таблиці:



Інтервали





...






Частоти





...




Тут кількість статистичних даних, що належать i-му інтервалу, а . Якщо замість поставити , то будемо мати емпіричний розподіл відносних частот. Для подальшої обробки результатів спостережень від інтервального розподілу переходять до дискретного, замінюючи кожен інтервал його серединою.

Графічним зображенням інтервального розподілу є гістограма – сукупність прямокутників, основами яких є інтервали групування, а висоти дорівнюють відношенню частоти інтервалу до його довжини . Якщо висоти рівні , то таку сукупність прямокутників називають гістограмою відносних частот. Площа i-го прямокутника дорівнює відносній частоті , яка при збігається за ймовірністю до ймовірності попадання значень випадкової величини у відповідний інтервал. Якщо довжина інтервалу мала, то ця ймовірність приблизно рівна , де – щільність. Отже, верхню межу гістограми можна розглядати як статистичний аналог щільності розподілу досліджуваної випадкової величини.


Визначимо для кожного дійсного x випадкову величину , яка дорівнює числу елементів вибірки, що менші за x, і покладемо . Функція називається емпіричною функцією розподілу. Функцію розподілу , досліджуваної випадкової величини , називають теоретичною функцією розподілу. Емпіричну функцію розподілу можна визначити рівністю . Емпірична функція розподілу є однією із найважливіших характеристик вибірки. Оскільки є відносною частотою події в n незалежних випробуваннях з ймовірністю настання цієї події , то за законом великих чисел (теорема Бернуллі)

,

а із теореми Бореля (посилений закон великих чисел) випливає, що ця збіжність має місце із ймовірністю одиниця. Справедлива і більш загальна теорема, яку ми наведемо без доведення.

Теорема (Глівенко-Кантеллі). Нехай – функція розподілу випадкової величини , а – емпірична функція розподілу, що знайдена за вибіркою обсягу n. Емпірична функція розподілу рівномірно по x з ймовірністю 1 збігається при до теоретичної функції розподілу:


.

Таким чином, при великих n емпірична функція розподілу в кожній точці є наближеним значенням теоретичної функції розподілу.
9.1.2. Вибіркові характеристики. Будь-які характеристики, які знаходяться на основі статистичний даних, називаються емпіричними або статистичними характеристиками, а характеристики, які знаходяться на основі розподілу досліджуваної величини, називаються теоретичними характеристиками.

Використання всіх статистичних даних для аналізу ознаки не завжди доцільно. Для аналізу властивостей досліджуваної ознаки на основі статистичних даних використовують числові характеристики вибірки (статистичні характеристики). До основних характеристик вибірки відносять величини, які характеризують середнє значення та розсіювання можливих значень досліджуваної величини.

Однією із основних характеристик середнього значення є вибіркова середня середнє арифметичне результатів спостережень:

. (1)

Попередню уяву про розсіювання статистичних даних дає розмах варіювання , але ця величина є досить грубою характеристикою розсіювання.

До основних характеристик розсіювання статистичних даних відносять вибіркову дисперсію :(середнє арифметичне квадратів відхилень результатів спостережень від вибіркової середньої)

(2)

і вибіркове середнє квадратичне відхилення

.

Для незгрупованих даних вибіркова середня і вибіркова дисперсія знаходяться за формулами (1) і (2). Якщо ж статистичні дані згруповані, то


, , (3)

де – різні результати спостережень випадкової величини , а – відповідні частоти.

Для вибіркової середньої і вибіркової дисперсії для довільних і справедливі формули

, , (4)

де , , а .

Дійсно, із (3) маємо ,



.

При ми дістанемо:

, ,

а якщо , то


,

де .

Із одержаних формул випливає, що , тобто, середнє арифметичне квадратів відхилень від деякої сталої , рівність досягається тільки тоді, коли .

Нехай статистичні дані розбиті на груп. Обсяг -ї групи позначимо , середнє арифметичне -ї групи позначимо , а дисперсію – . Обсяг всієї сукупності . Тоді справедливі формули:

, .

У останній формулі перший доданок називають внутрігруповою дисперсією, а другий – міжгруповою дисперсією.

Для характеристики середнього значення розглядають також середнє геометричне, середнє гармонійне, моду, медіану, квантилі тощо. Розглянемо емпіричну функцію розподілу . Число називається емпіричною - квантиллю. Можна записати таку формулу: де – член варіаційного ряду із номером []. Медіана – це квантиль . Мода це член варіаційного ряду із найбільшою частотою.


Для більш детального вивчення властивостей розподілу досліджуваної величини використовують емпіричні моменти і центральні емпіричні моменти. Емпіричним моментом r - го порядку (r>0) називають величину

,

а центральним емпіричним моментом r - го порядку –

.

Розглянемо приклад обчислення вибіркової середньої і вибіркової дисперсії.

Приклад. Знайти вибіркову середню і вибіркову дисперсію за заданим емпіричним розподілом



18,4

18,9

19,3

19,6






5

10

20

15

Розв’язування. Використаємо формули (4) , , де , , а . Покладемо c = 19,3, h = 1. У відповідності до вибраних формул складемо розрахункову таблицю
















18,4

5

-0,9

-4,5

4,05

18,9

10

-0,4

-4

1,6

19,3

20

0

0

0

19,6

15

0,3

4,5

1,35



n=50




=4

=7


При заповненні третього стовпчика () знаходимо різниці чисел першого і другого стовпчиків, при заповненні четвертого стовпчика знаходимо добуток чисел другого і третього стовпчиків, при заповненні п’ятого стовпчика знаходимо добуток чисел третього і четвертого стовпчиків, що розміщені в одному рядку. В самому нижньому рядку записуємо суми чисел відповідних стовпчиків. Підставляємо одержані значення у формули (4). Тоді = -0,08; . Отже,

= -0,08+19,3 = 19,22; .

Вправи.


  1. В результаті обстеження одержано дані про число пташенят в гніздах лісової ластівки (Iridoprocne bicolor): 4 5 4 5 5 4 5 4 3 5 4 5 6 1 6 4 4 4 5 5 3 5 5 4 6 4 6 2 3 4 5 5 5 5 5 5 4 5 5 6 4 6 2 5 5 3 5 5 4 5 5 6 4 6 2 5 5 3 5 5 5 7 5 5 5 5 4 3 7 6 4 4 5 5 6 6 4 4 6. Подати дані у вигляді варіаційного ряду, емпіричного розподілу, побудувати полігон частот. Знайти емпіричну функцію розподілу.
  2. Довжина 100 листків садової суниці (в см) характеризується такими даними: 8.2 9.7 5.6 7.4 8.0 6.4 6.6 6.8 8.4 7.1 9.0 6.9 7.6 8.1 11.8 5.8 9.3 7.3 8.2 7.2 7.2 6.4 7.7 9.0 8.1 7.1 7.1 8.8 7.5 9.2 7.5 6.8 7.0 6.4 7.4 8.2 6.3 7.0 8.1 10.0 7.0 7.1 8.7 6.3 8.6 7.7 7.3 8.0 8.4 9.3 7.3 6.0 7.7 6.1 9.6 7.4 7.2 7.2 8.7 7.5 9.1 6.4 8.3 6.5 8.2 7.2 6.9 6.9 8.2 9.0 7.4 8.0 8.4 7.0 7.1 7.4 6.6 6.4 8.3 7.9 8.3 7.2 7.2 6.6 6.6 7.7 8.7 5.6 7.5 5.7 6.9 7.4 7.2 6.2 6.9 6.8 9.2 9.2 7.1 6.5. Побудувати інтервальний розподіл, розбивши статистичні дані на 6 – 7 інтервалів однакової довжини, побудувати гістограму частот.


  3. За статистичними даними вправ 1 і 2 (після їх виконання) знайти вибіркову середню і вибіркову дисперсію.

  4. Знайти вибіркову середню і вибіркову дисперсію за заданим інтервальним розподілом розміру денного виробітку тканин 100 ткалями:

  1. Денний виробіток, м

  1. 40-44

  1. 44-48

  1. 48-52

  1. 52-56

  1. 56-60



Кількість ткаль

12

28

36

16

8



следующая страница >>