Що таке “математична статистика. Імовірнісні та статистичні методи Яка модель використовується у ймовірно статистичних методах

Що таке " математична статистика»

Під математичною статистикою розуміють розділ математики, присвячений математичним методам збору, систематизації, обробки та інтерпретації статистичних даних, а також використання їх для наукових або практичних висновків. Правила та процедури математичної статистики спираються на теорію ймовірностей, що дозволяє оцінити точність і надійність висновків, одержуваних у кожному завданні на підставі наявного статистичного матеріалу». При цьому статистичними даними називаються відомості про кількість об'єктів у будь-якій більш менш широкої сукупності, що володіють тими або іншими ознаками.

На кшталт розв'язуваних завдань математична статистика зазвичай ділиться на три розділи: опис даних, оцінювання та перевірка гіпотез.

За видом статистичних даних математична статистика ділиться на чотири напрями:

  • - одновимірна статистика (статистика випадкових величин), у якій результат спостереження описується дійсним числом;
  • - багатовимірний статистичний аналіз, де результат спостереження над об'єктом описується кількома числами (вектором);
  • - статистика випадкових процесів та часових рядів, де результат спостереження – функція;
  • - статистика об'єктів нечислової природи, у якій результат спостереження має нечислову природу, наприклад, є безліччю ( геометричною фігурою), упорядкуванням або отримано в результаті виміру за якісною ознакою.

Історично першою з'явилися деякі області статистики об'єктів нечислової природи (зокрема, завдання оцінювання частки шлюбу та перевірки гіпотез про неї) та одновимірна статистика. Математичний апарат їм простіше, тому з їхньої прикладі зазвичай демонструють основні ідеї математичної статистики.

Тільки методи обробки даних, тобто. Математична статистика є доказовими, які спираються на імовірнісні моделі відповідних реальних явищ і процесів. Йдеться про моделі поведінки споживачів, виникнення ризиків, функціонування технологічного обладнання, отримання результатів експерименту, перебігу захворювання тощо. Імовірнісну модель реального явища слід вважати побудованою, якщо аналізовані величини та зв'язки між ними виражені в термінах теорії ймовірностей. Відповідність імовірнісної моделі дійсності, тобто. її адекватність обґрунтовують, зокрема, за допомогою статистичних методів перевірки гіпотез.

Неймовірні методи обробки даних є пошуковими, їх можна використовувати лише при попередньому аналізі даних, оскільки вони не дають можливості оцінити точність та надійність висновків, отриманих на підставі обмеженого статистичного матеріалу.

Імовірнісні та статистичні методи застосовні усюди, де вдається побудувати та обґрунтувати ймовірнісну модель явища чи процесу. Їх застосування обов'язково, коли зроблені з урахуванням вибіркових даних висновки переносяться всю сукупність (наприклад, з вибірки протягом усього партію продукції).

У конкретних галузях застосування використовуються як імовірнісно-статистичні методи широкого застосування, так і специфічні. Наприклад, розділ виробничого менеджменту, присвяченого статистичним методам управління якістю продукції, використовують прикладну математичну статистику (включаючи планування експериментів). За допомогою її методів проводиться статистичний аналіз точності та стабільності технологічних процесів та статистична оцінка якості. До специфічних методів належать методи статистичного приймального контролю якості продукції, статистичного регулювання технологічних процесів, оцінки та контролю надійності та ін.

Широко застосовуються такі прикладні імовірнісно-статистичні дисципліни, як теорія надійності та теорія масового обслуговування. Зміст першої їх ясно з назви, друга займається вивченням систем типу телефонної станції, яку у випадкові моменти часу надходять виклики - вимоги абонентів, набираючих номери у своїх телефонних апаратах. Тривалість обслуговування цих вимог, тобто. тривалість розмов також моделюється випадковими величинами. Великий вкладу розвиток цих дисциплін внесли член-кореспондент АН СРСР А.Я. Хінчін (1894-1959), академік АН УРСР Б.В.Гнеденко (1912-1995) та інші вітчизняні вчені.

Розглянута група методів є найважливішою у соціологічних дослідженнях, дані методи застосовуються у кожному соціологічному дослідженні, яке вважатимуться справді науковим. Вони спрямовані переважно виявлення в емпіричної інформації статистичних закономірностей, тобто. закономірностей, що виконуються "у середньому". Власне, соціологія і займається вивченням "середньої людини". Крім того, ще одна важлива мета застосування імовірнісних та статистичних методів у соціології – оцінка надійності вибірки. Наскільки велика впевненість, що вибірка дає більш-менш точні результати та яка є похибка статистичних висновків?

Головний об'єкт вивчення при застосуванні ймовірнісних та статистичних методів – випадкові величини. Прийняття випадковою величиною деякого значення є випадковою подією– подією, яка при здійсненні даних умов може як статися, так і не відбутися. Наприклад, якщо соціолог проводить опитування у сфері політичних переваг на вулиці міста, то подія "черговий респондент виявився прихильником партії влади" є випадковою, якщо нічого в респонденті заздалегідь не видавало його політичних переваг. Якщо ж соціолог опитав респондента біля будівлі Обласної Думи, подія не випадкова. Випадкова подія характеризується ймовірністюйого настання. На відміну від класичних завдань на гральні кубикита карткові комбінації, що вивчаються в рамках курсу теорії ймовірностей, у соціологічних дослідженнях обчислити ймовірність не так просто.

Найважливішою базою для емпіричної оцінки ймовірності є прагнення частоти до ймовірності, якщо під частотою розуміти ставлення, скільки разів сталася подія до того, скільки разів вона теоретично могла б статися. Наприклад, якщо серед 500 випадково відібраних на вулицях міста 220 респондентів виявилися прихильниками партії влади, то частота появи таких респондентів становить 0,44. В разі репрезентативної вибірки досить великого розміруми отримаємо зразкову ймовірність події або зразкову частку людей, які мають задану ознаку. У нашому прикладі за вдало підібраної вибірки отримаємо, що приблизно 44% городян – прихильники партії влади. Зрозуміло, оскільки опитані в повному обсязі городяни, а деякі у процесі опитування могли збрехати, є певна похибка.

Розглянемо деякі завдання, що виникають під час статистичного аналізу емпіричних даних.

Оцінка розподілу величини

Якщо деяку ознаку можна висловити кількісно (наприклад, політичну активність громадянина як величину, що показує, скільки разів за останні п'ять років він брав участь у виборах різного рівня), то може бути поставлене завдання оцінити закон розподілу цієї ознаки як випадкової величини. Іншими словами, закон розподілу показує, які значення величина набуває частіше, а які рідше, і наскільки частіше/рідше. Найчастіше як у техніці та природі, так і в суспільстві зустрічається нормальний закон розподілу. Його формула та властивості викладені у будь-якому підручнику зі статистики, а на рис. 10.1 наведено вигляд графіка – це "дзвоноподібна" крива, яка може бути більш "витягнута" вгору або більше "розмазана" по осі значень випадкової величини. Суть нормального закону в тому, що найчастіше випадкова величина набуває значення поблизу деякого "центрального" значення, що називається математичним очікуванняма чим далі від нього, тим рідше туди "попадає" величина.

Прикладів розподілів, які з невеликою похибкою можна вважати нормальними, багато. Ще XIX в. бельгійський учений А. Кетле і англієць Ф. Гальтон довели, що розподіл частот народження будь-якого демографічного або антропометричного показника (тривалості життя, зростання, віку шлюбу і т.д.) характеризується "дзвоноподібним" розподілом. Той-таки Ф. Гальтон та її послідовники довели, як і психологічні осооенности, наприклад, здібності, підпорядковуються нормальному закону .

Мал. 10.1.

приклад

Найяскравіший приклад нормального розподілу у соціології стосується соціальної активності людей. Відповідно до закону нормального розподілу виходить, що соціально-активних людей у ​​суспільстві зазвичай близько 5–7%. Всі ці соціально- активні людиходять на мітинги, конференції, семінари тощо. Приблизно така ж кількість взагалі усувається від участі у соціальному житті. Основна маса людей (80–90%) начебто байдужа до політики та суспільного життя, проте відстежує ті процеси, які їй цікаві, хоча загалом ставиться до політики та суспільства відсторонено, значної активності не виявляє. Такі люди пропускають більшість політичних подій, але іноді дивляться новини по телебаченню або в Інтернеті. Також вони ходять голосувати на найважливіші вибори, особливо якщо їм "загрожують батогом" або "заохочують пряником". Члени цих 80–90% з суспільно-політичної точки зору майже марні поодинці, але центрам соціологічних досліджень ці люди цілком цікаві, оскільки їх дуже багато, і їх переваги не можна ігнорувати. Те саме стосується й навколонаукових організацій, які виконують дослідження на замовлення політичних діячів чи торгових корпорацій. І думка "сірої маси" щодо ключових питань, пов'язаних із прогнозуванням поведінки багатьох тисяч і мільйонів людей на виборах, а також при гострих політичних подіях, при розколі суспільстві та конфліктах різних політичних сил цим центрам не байдужа.

Зрозуміло, нс всі величини розподілені за нормальним розподілом. Крім нього, найбільш важливими в математичній статистиці є біноміальний і показовий розподіл, розподіл Фішера-Снедекору, "Хі-квадрат", Стьюдента.

Оцінка зв'язку ознак

Найпростіший випадок – коли потрібно просто встановити наявність/відсутність зв'язку. Найбільш популярним у цьому питанні є метод „Хі-квадрат”. Цей методорієнтований працювати з категоріальними даними. Наприклад, такими явно виступають стать, сімейний стан. Деякі дані на перший погляд здаються числовими, але можуть "перетворитися" на категоріальні шляхом розбиття інтервалу значень на кілька малих інтервалів. Наприклад, стаж роботи на заводі можна розбити на категорії "менше одного року", "від одного до трьох років", "від трьох до шести років" та "понад шість років".

Нехай параметр Xє пможливих значень: (х1,..., хг1), а параметр Y-тможливих значень: (у1,..., ут) , q ij – частота появи пари, що спостерігається ( x i, у j), тобто. кількість виявлених появи такої пари. Обчислюємо теоретичні частоти, тобто. скільки разів мала з'явитися кожна пара значень для абсолютно нс пов'язаних між собою величин:

На основі спостережуваних та теоретичних частот обчислюємо значення

Також потрібно обчислити кількість ступенів свободиза формулою

де m, n– кількість зведених у таблицю категорій. Крім того, вибираємо рівень значущості. Чим вищу надійністьми хочемо отримати, тим нижчий рівень важливості слід брати. Як правило, вибирається значення 0,05, що означає, що ми можемо довіряти результатам із ймовірністю 0,95. Далі у довідкових таблицях знаходимо за кількістю ступенів свободи та рівнем значущості критичне значення. Якщо , то параметри Xі Yвважаються незалежними. Якщо , то параметри Xі Y –залежні. Якщо, то небезпечно робити висновок про залежність чи незалежність властивостей. У разі доцільно провести додаткові дослідження.

Зауважимо також, що критерій "Хі-квадрат" з дуже високою впевненістю можна використовувати лише тоді, коли всі теоретичні частоти не нижче заданого порогу, яким зазвичай вважається рівним 5. Нехай v - мінімальна теоретична частота. При v > 5 можна впевнено використовувати критерій Хі-квадрат. При v< 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Наведемо приклад застосування методу "Хі-квадрат". Нехай, наприклад, у деякому місті проведено опитування серед молодих уболівальників місцевих футбольних командта отримані такі результати (табл. 10.1).

Висунемо гіпотезу про незалежність футбольних уподобань молоді міста Nвід статі респондента на стандартному рівні значущості 0,05. Обчислюємо теоретичні частоти (табл. 10.2).

Таблиця 10.1

Результати опитування вболівальників

Таблиця 10.2

Теоретичні частоти переваг

Наприклад, теоретична частота для юнаків-вболівальників Зірки отримана як

аналогічно – інші теоретичні частоти. Далі обчислюємо значення "Хі-квадрат":

Визначаємо кількість ступенів свободи. Для рівня значимості 0,05 шукаємо критичне значення:

Оскільки , причому перевага суттєва, практично напевно можна говорити, що футбольні переваги юнаків та дівчат міста Nсильно різняться, крім випадку нерепрезентативної вибірки, наприклад, якщо дослідник не став отримувати вибірку з різних районів міста, обмежившись опитуванням респондентів у своєму кварталі.

Складніша ситуація – коли потрібно кількісно оцінити силу зв'язку. У цьому випадку часто застосовуються методи кореляційний аналіз.Ці методи зазвичай розглядаються в поглиблених курсах математичної статистики.

Апроксимація залежностей за точковими даними

Нехай є набір точок - емпіричних даних ( X i, Yi), i = 1, ..., п.Потрібно апроксимувати реальну залежність параметра увід параметра х,а також виробити правило обчислення значення у,коли хзнаходиться між двома "вузлами" Хі.

Існують два принципово різних підходівдо вирішення поставленого завдання. Перший у тому, що з функцій заданого сімейства (наприклад, поліномів) вибирається функція, графік якої проходить через наявні точки. Другий підхід не "примушує" графік функції проходити через точки. Найбільш популярний у соціології та інших наук метод – метод найменших квадратів- відноситься до другої групи методів.

Суть методу найменших квадратів ось у чому. Дано деяке сімейство функцій у(х, а 1, ..., ат) з mневизначеними коефіцієнтами. Потрібно підібрати невизначені коефіцієнти за рахунок розв'язання оптимізаційної задачі

Мінімальне значення функції dможе виступати як міра точності наближення. Якщо це значення занадто велике, слід вибрати інший клас функцій уабо розширити використовуваний клас. Наприклад, якщо клас "поліноми ступеня не вище 3" не дав прийнятної точності, беремо клас "поліноми ступеня не вище 4" або навіть "поліноми ступеня не вище 5".

Найчастіше метод використовують для сімейства "поліноми ступеня не вище N":

Наприклад, при N= 1 це сімейство лінійних функцій, при N = 2 -сімейство лінійних і квадратичних функцій, при N = 3 -сімейство лінійних, квадратичних та кубічних функцій. Нехай

Тоді коефіцієнти лінійної функції ( N= 1) шукаються як розв'язання системи лінійних рівнянь

Коефіцієнти функції виду а 0 + а 1х + а 2х 2 (N = 2) шукаються як рішення системи

Бажаючі застосувати цей метод для довільного значення Nможуть зробити це, побачивши закономірність, за якою складено наведені системи рівнянь.

Наведемо приклад застосування методу найменших квадратів. Нехай чисельність певної політичної партії змінювалася так:

Можна зауважити, що зміни чисельності партії за різні рокине сильно відрізняються, що дозволяє нам апроксимувати залежність лінійною функцією. Щоб було простіше обчислювати замість змінної х– року – введемо змінну t = х - 2010, тобто. Перший рік обліку чисельності візьмемо як "нульовий". Обчислюємо М 1; М 2:

Тепер обчислюємо М", М *:

Коефіцієнти a 0, a 1 функції у = a 0t + а 1 обчислюються як розв'язання системи рівнянь

Вирішуючи цю систему, наприклад, за правилом Крамера або методом підстановки, отримуємо: а 0 = 11,12; а 1 = 3,03. Таким чином, отримуємо наближення

яке дозволяє не тільки оперувати однією функцією замість набору емпіричних точок, але й обчислювати значення функції, що виходять за межі вихідних даних, – "передбачати майбутнє".

Також зауважимо, що метод найменших квадратів можна використовувати не тільки для поліномів, але і для інших сімейств функцій, наприклад, для логарифмів та експонентів:

Ступінь достовірності моделі, побудованої на основі методу найменших квадратів, може бути визначений на основі міри "R-квадрат" або коефіцієнта детермінації. Він обчислюється як

Тут . Чим ближче R 2 до 1, тим адекватніша модель.

Виявлення викидів

Викидом ряду даних називається аномальне значення, що різко виділяється у спільній вибірці або загальному ряді. Наприклад, нехай відсоток громадян країни, які позитивно належать до деякого політика, становив у 2008–2013 роках. відповідно 15, 16, 12, 30, 14 та 12%. Легко помітити, що одне із значень різко відрізняється від усіх інших. У 2011 р. рейтинг політика чомусь різко перевищив звичайні значення, що трималися в межах 12–16%. Наявність викидів може бути зумовлена ​​різними причинами:

  • 1)помилки виміру;
  • 2) незвичайна природа вхідних даних(наприклад, коли аналізується середній відсоток голосів, отриманих політиком; це значення на виборчій дільниці у військовій частині може суттєво відрізнятися від середнього значення по місту);
  • 3) наслідок закону(Різко відрізняються від інших величини можуть бути обумовлені математичним законом - наприклад, у разі нормального розподілу у вибірку може потрапити об'єкт зі значенням, різко відмінним від середнього);
  • 4) катаклізми(наприклад, у період короткого, але гострого політичного протистояння рівень політичної активності населення може різко змінитися, як це сталося в ході "кольорових революцій" 2000-2005 рр. та "арабської весни" 2011 р.);
  • 5) керуючі впливи(наприклад, якщо в рік напередодні дослідження політик ухвалив дуже популярне рішення, то цього року його рейтинг може виявитися значно вищим, ніж в інші роки).

Багато методів аналізу даних нестійкі до викидів, тому їхнього ефективного застосування потрібно очистити дані від викидів. Яскравий приклад нестійкого методу – згаданий метод найменших квадратів. Найпростіший методпошуку викидів заснований на так званому міжквартильну відстань.Визначаємо діапазон

де Q m значення т-го квартилю. Якщо деякий член ряду не потрапляє у діапазон, він розцінюється як викид.

Пояснимо на прикладі. Сенс квартилів у тому, що вони ділять ряд на чотири рівні чи приблизно рівні групи: перший квартиль " відокремлює " ліву чверть ряду, відсортованого за зростанням, третій квартиль – праву чверть ряду, другий квартиль проходить посередині. Пояснимо, як шукати Q 1, і Q 3. Нехай у відсортованому за зростанням числовому ряду пзначень. Якщо п + 1 ділиться на 4 без залишку, то Q k суть k(п+ 1) / 4-й член ряду. Наприклад, дано ряд: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, тут кількість членів п = 11. Тоді ( п+ 1) / 4 = 3, тобто. перший квартиль Q 1 = 5 - третій член ряду; 3( п + 1) / 4 = 9, тобто. третій квартиль Q: i = 13 - дев'ятий член ряду.

Трохи складніший випадок, коли п + 1 не кратно 4. Наприклад, дано ряд 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, де число членів п= 10. Тоді ( п + 1)/4 = 2,75 -

позиція між другим членом ряду (v2 = 3) та третім членом ряду (v3 = 5). Тоді беремо величину 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 - це і буде Q 1. 3(п+ 1) / 4 = 8,25 - позиція між восьмим членом ряду (v8 = 30) і дев'ятим членом ряду (v9 = 32). Беремо величину 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 - це і буде Q 3. Існують інші варіанти обчислення Q 1 та Q 3, але рекомендується використовувати викладений варіант.

  • Строго кажучи, практично зазвичай зустрічається " наближено " нормальний закон – оскільки нормальний закон визначається для безперервної величини по всій дійсної осі, багато реальні величини що неспроможні суворо задовольняти властивостям нормально розподілених величин.
  • Наслідів А. Д.Математичні методи психологічного дослідження. Аналіз та інтерпретація даних: навчань, посібник. СПб.: Мова, 2004. С. 49-51.
  • Про найважливіші розподіли випадкових величин див. Орлов А. І.Математика випадку: ймовірність та статистика - основні факти: навч. допомога. М: МОЗ-Прес, 2004.

Частина 1. Фундамент прикладної статистики

1.2.3. Суть імовірнісно-статистичних методів прийняття рішень

Як підходи, ідеї та результати теорії ймовірностей та математичної статистики використовуються при прийнятті рішень?

Базою є імовірнісна модель реального явища чи процесу, тобто. математична модель, у якій об'єктивні співвідношення виражені термінах теорії ймовірностей. Імовірності використовуються передусім для опису невизначеностей, які необхідно враховувати під час прийняття рішень. Маються на увазі як небажані можливості (ризики), так і привабливі (щасливий випадок). Іноді випадковість вноситься в ситуацію свідомо, наприклад, під час жеребкування, випадкового відбору одиниць для контролю, проведення лотерей або опитувань споживачів.

Теорія ймовірностей дозволяє за одними ймовірностями розрахувати інші, які цікавлять дослідника. Наприклад, за ймовірністю випадання герба можна розрахувати ймовірність того, що при 10 кидання монет випаде не менше 3 гербів. Подібний розрахунок спирається на ймовірну модель, згідно з якою кидання монет описуються схемою незалежних випробувань, крім того, випадання герба і решітки рівноможливі, а тому ймовірність кожної з цих подій дорівнює ½. Більш складною є модель, де замість кидання монети розглядається перевірка якості одиниці виробленої продукції. Відповідна ймовірна модель спирається на припущення про те, що контроль якості різних одиниць продукції описується схемою незалежних випробувань. На відміну від моделі з киданням монет, необхідно ввести новий параметр – ймовірність рте, що одиниця продукції є дефектною. Модель буде повністю описана, якщо прийняти, що всі одиниці продукції мають однакову можливість виявитися дефектними. Якщо останнє припущення неправильне, число параметрів моделі зростає. Наприклад, можна прийняти, що кожна одиниця продукції має свою можливість виявитися дефектною.

Обговоримо модель контролю якості із загальною для всіх одиниць продукції ймовірністю дефектності р. Щоб під час аналізу моделі «дійти до числа», необхідно замінити рна деяке конкретне значення. Для цього необхідно вийти з рамок ймовірнісної моделі та звернутися до даних, отриманих під час контролю якості. Математична статистика вирішує зворотне завдання стосовно теорії ймовірностей. Її мета – на основі результатів спостережень (вимірювань, аналізів, випробувань, дослідів) отримати висновки про ймовірності, що лежать в основі ймовірнісної моделі. Наприклад, на основі частоти появи дефектних виробів під час контролю можна зробити висновки про ймовірність дефектності (див. теорему Бернуллі вище). На основі нерівності Чебишева робилися висновки про відповідність частоти появи дефектних виробів гіпотезі про те, що ймовірність дефектності набуває певного значення.

Таким чином, застосування математичної статистики спирається на ймовірну модель явища або процесу. Використовуються два паралельних ряду понять – які стосуються теорії (імовірнісної моделі) і які стосуються практики (вибірці результатів спостережень). Наприклад, теоретичній ймовірності відповідає частота, знайдена за вибіркою. Математичне очікування (теоретичний ряд) відповідає вибіркове середнє арифметичне (практичний ряд). Як правило, вибіркові показники є оцінками теоретичних. При цьому величини, що належать до теоретичного ряду, «перебувають у головах дослідників», відносяться до світу ідей (за давньогрецьким філософом Платоном), недоступні для безпосереднього виміру. Дослідники мають у своєму розпорядженні лише вибіркові дані, за допомогою яких вони намагаються встановити властивості теоретичної ймовірнісної моделі, що їх цікавлять.

Навіщо ж потрібна імовірнісна модель? Справа в тому, що тільки з її допомогою можна перенести властивості, встановлені за результатами аналізу конкретної вибірки, на інші вибірки, а також на так звану генеральну сукупність. Термін «генеральна сукупність» використовується, коли йдеться про велику, але кінцеву сукупність одиниць, що вивчаються. Наприклад, про сукупність всіх жителів Росії або сукупність всіх споживачів розчинної кави в Москві. Мета маркетингових чи соціологічних опитувань у тому, щоб твердження, отримані за вибіркою із сотень чи тисяч жителів, перенести на генеральні сукупності кілька мільйонів. Під час контролю якості у ролі генеральної сукупності виступає партія продукції.

Щоб перенести висновки з вибірки більш широку сукупність, необхідні ті чи інші припущення про зв'язок вибіркових характеристик з характеристиками цієї більшої сукупності. Ці припущення ґрунтуються на відповідній імовірнісній моделі.

Звичайно, можна обробляти вибіркові дані, не використовуючи ту чи іншу ймовірну модель. Наприклад, можна розраховувати вибіркове середнє арифметичне, підраховувати частоту виконання тих чи інших умов тощо. Проте результати розрахунків відноситимуться лише до конкретної вибірки, перенесення отриманих з їх допомогою висновків на будь-яку іншу сукупність некоректне. Іноді подібну діяльність називають "аналіз даних". Порівняно з імовірнісно-статистичними методами, аналіз даних має обмежену пізнавальну цінність.

Отже, використання імовірнісних моделей на основі оцінювання та перевірки гіпотез за допомогою вибіркових характеристик – ось суть імовірнісно-статистичних методів прийняття рішень.

Підкреслимо, що логіка використання вибіркових характеристик до ухвалення рішень з урахуванням теоретичних моделей передбачає одночасне використання двох паралельних рядів понять, одне із яких відповідає імовірнісним моделям, а другий – вибірковим даним. На жаль, у ряді літературних джерел, зазвичай застарілих чи написаних у рецептурному дусі, немає різниці між вибірковими і теоретичними характеристиками, що призводить читачів до подивів і помилок при практичному використанні статистичних методів.

Попередня

Особливий інтерес становить кількісна оцінка підприємницького ризику з допомогою методів математичної статистики. Основними інструментами цього методу оцінки є:

§ ймовірність появи випадкової величини,

§ математичне очікування або середнє значення досліджуваної випадкової величини,

§ дисперсія,

§ стандартне (середньоквадратичне) відхилення,

§ коефіцієнт варіації ,

§ розподіл ймовірностей досліджуваної випадкової величини.

Для ухвалення рішення потрібно знати величину (ступінь) ризику, що вимірюється двома критеріями:

1) середнє очікуване значення (математичне очікування),

2) коливання (мінливість) можливого результату.

Середнє очікуване значення це середньозважене значення випадкової величини, пов'язане з невизначеністю ситуації:

,

де значення випадкової величини

Середнє очікуване значення вимірює результат, на який ми очікуємо в середньому.

Середнє значення є узагальненою якісною характеристикою і дозволяє прийняття рішення на користь якого-небудь окремого значення випадкової величини.

Для ухвалення рішення необхідно виміряти коливання показників, тобто визначити міру мінливості можливого результату.

Коливання можливого результату є ступенем відхилення очікуваного значення від середньої величини.

Для цього на практиці зазвичай використовують два тісно пов'язані критерії: «дисперсія» та «середньоквадратичне відхилення».

Дисперсія – середньозважене із квадратів дійсних результатів від середнього очікуваного:

Середньоквадратичне відхилення - Це квадратний корінь з дисперсії. Воно є розмірною величиною і вимірюється в тих самих одиницях, в яких вимірюється досліджувана випадкова величина:

.

Дисперсія та середньоквадратичне відхилення є мірою абсолютного коливання. Для аналізу зазвичай використовується коефіцієнт варіації.

Коефіцієнт варіації є відношенням середньоквадратичного відхилення до середнього очікуваного значення, помножене на 100%

або .

На коефіцієнт варіації впливають абсолютні значення досліджуваного показника.

За допомогою коефіцієнта варіації можна порівнювати навіть коливання ознак, виражених у різних одиницях виміру. Коефіцієнт варіації може змінюватись від 0 до 100%. Чим більший коефіцієнт, тим більше коливання.


В економічній статистиці встановлено таку оцінку різних значенькоефіцієнта варіації:

до 10% – слабке коливання, 10 – 25% – помірне, понад 25% – високе.

Відповідно, чим вищі коливання, тим більший ризик.

приклад.Власник невеликого магазину спочатку кожного дня закуповує для реалізації деякий продукт, що швидко псується. Одиниця цього продукту коштує 200 грн. Ціна реалізації – 300 грн. за одиницю. Зі спостережень відомо, що попит на цей продукт протягом дня може бути 4, 5, 6 або 7 одиниць з відповідними ймовірностями 0,1; 0,3; 0,5; 0,1. Якщо продукт протягом дня не буде реалізований, то наприкінці його завжди куплять за ціною 150 грн. за одиницю. Скільки одиниць цього продукту має купити власник магазину на початку дня?

Рішення. Побудуємо матрицю прибутку власника магазину. Обчислимо прибуток, яку отримає власник, якщо, наприклад, він закупить 7 одиниць продукту, а реалізує протягом дня 6 та наприкінці дня одну одиницю. Кожна одиниця продукту, реалізована протягом дня, дає прибуток у 100 грн., а наприкінці дня – втрати 200 – 150 = 50 грн. Таким чином, прибуток у цьому випадку становитиме:

Аналогічно проводяться розрахунки при інших поєднаннях пропозиції та попиту.

Очікуваний прибуток обчислюється як математичне очікування можливих значень прибутку кожного рядка збудованої матриці з урахуванням відповідних ймовірностей. Як бачимо, серед очікуваних прибутків найбільша рівна 525 грн. Вона відповідає закупівлі розглянутого продукту у кількості 6 одиниць.

Для обґрунтування остаточної рекомендації щодо закупівлі необхідної кількості одиниць продукту обчислимо дисперсію, середньоквадратичне відхилення та коефіцієнт варіації для кожного можливого поєднання пропозиції та попиту продукту (кожного рядка матриці прибутку):

400 0,1 40 16000
400 0,3 120 48000
400 0,5 200 80000
400 0,1 40 16000
1,0 400 160000
350 0,1 35 12250
500 0,3 150 75000
500 0,5 250 125000
500 0,1 50 25000
1,0 485 2372500
300 0,1 30 9000
450 0,3 135 60750
600 0,5 300 180000
600 0,1 60 36000
1,0 525 285750

Що стосується закупівлі власником магазину 6 одиниць продукту порівняно з 5 та 4 одиницями, то це неочевидно, оскільки ризик при закупівлі 6 одиниць продукту (19,2%) більший, ніж при закупівлі 5 одиниць (9,3%) і тим більше, ніж при закупівлі 4 одиниць (0%).

Таким чином, маємо всю інформацію про очікувані прибутки та ризики. І вирішувати, скільки одиниць продукту потрібно закупити щоранку власнику магазину з урахуванням свого досвіду, схильності до ризику.

На наш погляд, власнику магазину слід рекомендувати щоранку закуповувати 5 одиниць продукту і його середній очікуваний прибуток дорівнюватиме 485 грн. і якщо порівняти це із закупівлею 6 одиниць продукту, за якої середній очікуваний прибуток становить 525 грн., що на 40 грн. більше, але ризик у цьому випадку буде більшим у 2,06 раза.

Як використовуються теорія ймовірностей та математична статистика?Ці дисципліни – основа імовірнісно-статистичних методів прийняття рішень. Щоб скористатися їх математичним апаратом, необхідно завдання прийняття рішень висловити термінах вероятностно-статистических моделей. Застосування конкретного імовірнісно-статистичного методу прийняття рішень складається з трьох етапів:

Перехід від економічної, управлінської, технологічної дійсності до абстрактної математико-статистичної схемою, тобто. побудова імовірнісної моделі системи управління, технологічного процесу, процедури прийняття рішень, зокрема за результатами статистичного контролю тощо.

Проведення розрахунків та отримання висновків суто математичними засобами в рамках імовірнісної моделі;

Інтерпретація математико-статистичних висновків стосовно реальної ситуації та прийняття відповідного рішення (наприклад, про відповідність або невідповідність якості продукції встановленим вимогам, необхідність налагодження технологічного процесу тощо), зокрема, висновки (про частку дефектних одиниць продукції в партії, про конкретному вигляді законів розподілу контрольованих параметрів технологічного процесу та ін.).

Математична статистика використовує поняття, методи та результати теорії ймовірностей. Розглянемо основні питання побудови ймовірнісних моделей прийняття рішень на економічних, управлінських, технологічних та інших ситуаціях. Для активного та правильного використання нормативно-технічних та інструктивно-методичних документів з імовірнісно-статистичних методів прийняття рішень потрібні попередні знання. Так, необхідно знати, за яких умов слід застосовувати той чи інший документ, яку вихідну інформацію необхідно мати для вибору та застосування, які рішення повинні бути прийняті за результатами обробки даних і т.д.

Приклади застосування теорії ймовірностей та математичної статистики.Розглянемо кілька прикладів, коли вероятностно-статистические моделі є добрим інструментом на вирішення управлінських, виробничих, економічних, народногосподарських завдань. Так, наприклад, у романі А.Н.Толстого «Ходіння по муках» (т.1) говориться: «майстерня дає двадцять три відсотки шлюбу, цієї цифри ви й тримаєтеся, - сказав Струков Івану Іллічу».

Постає питання, як розуміти ці слова у розмові заводських менеджерів, оскільки одна одиниця продукції може бути дефектна на 23%. Вона може бути або придатною або дефектною. Напевно, Струков мав на увазі, що у партії великого обсягу міститься приблизно 23% дефектних одиниць продукції. Тоді виникає запитання, а що означає «приблизно»? Нехай із 100 перевірених одиниць продукції 30 виявляться дефектними, чи з 1000 – 300, чи з 100000 – 30000 тощо., чи треба звинувачувати Струкова у брехні?

Або інший приклад. Монетка, яку використовують як жереб, має бути «симетричною», тобто. при її киданні в середньому в половині випадків повинен випадати герб, а в половині випадків – грати (решітка, цифра). Але що означає «у середньому»? Якщо провести багато серій по 10 кидань у кожній серії, то часто зустрічатимуться серії, в яких монета чотири рази випадає гербом. Для симетричної монети це відбуватиметься у 20,5% серій. А якщо на 100 000 кидань виявиться 40 000 гербів, то чи можна вважати монету симетричною? Процедура прийняття рішень будується з урахуванням теорії ймовірностей і математичної статистики.

Розглянутий приклад може бути недостатньо серйозним. Однак, це не так. Жеребкування широко використовується при організації промислових техніко-економічних експериментів, наприклад, при обробці результатів вимірювання показника якості (моменту тертя) підшипників залежно від різних технологічних факторів (впливу консерваційного середовища, методів підготовки підшипників перед вимірюванням, впливу навантаження підшипників у процесі вимірювання тощо). п.). Припустимо, необхідно порівняти якість підшипників залежно від результатів зберігання в різних консерваційних маслах, тобто. в оліях складу Аі У. При плануванні такого експерименту виникає питання, які підшипники слід помістити в олію складу А, а які – в олію складу Уале так, щоб уникнути суб'єктивізму і забезпечити об'єктивність прийнятого рішення.

Відповідь це питання може бути отримано з допомогою жереба. Аналогічний приклад можна навести і з контролем якості продукції. Щоб вирішити, чи відповідає чи не відповідає контрольована партія продукції встановленим вимогам, з неї відбирається вибірка. За результатами контролю вибірки робиться висновок про всю партію. У цьому випадку дуже важливо уникнути суб'єктивізму при формуванні вибірки, тобто необхідно, щоб кожна одиниця продукції контрольованої партії мала однакову можливість бути відібраною у вибірку. У виробничих умовах відбір одиниць продукції вибірку зазвичай здійснюють за допомогою жереба, а, по спеціальним таблицям випадкових чисел чи з допомогою комп'ютерних датчиків випадкових чисел.

Аналогічні проблеми забезпечення об'єктивності порівняння виникають при зіставленні різних схем організації виробництва, оплати праці, під час проведення тендерів та конкурсів, підбору кандидатів на вакантні посади тощо. Усюди потрібне жеребкування або подібні до неї процедури. Пояснимо на прикладі виявлення найбільш сильної та другої за силою команди при організації турніру з олімпійської системи (який програв вибуває). Нехай завжди сильніша команда перемагає слабшу. Зрозуміло, що найсильніша команда однозначно стане чемпіоном. Друга за силою команда вийде у фінал тоді і лише тоді, коли до фіналу вона не матиме ігор з майбутнім чемпіоном. Якщо таку гру буде заплановано, то друга за силою команда у фінал не потрапить. Той, хто планує турнір, може або достроково «вибити» другу за силою команду з турніру, звівши її в першій зустрічі з лідером, або забезпечити їй друге місце, забезпечивши зустрічі з більш слабкими командами аж до фіналу. Щоб уникнути суб'єктивізму, проводять жеребкування. Для турніру з 8 команд ймовірність того, що у фіналі зустрінуться дві найсильніші команди, дорівнює 4/7. Відповідно до ймовірності 3/7 друга за силою команда залишить турнір достроково.

За будь-якого виміру одиниць продукції (за допомогою штангенциркуля, мікрометра, амперметра тощо) є похибки. Щоб з'ясувати, чи є систематичні похибки, необхідно зробити багаторазові виміри одиниці виробленої продукції, характеристики якої відомі (наприклад, стандартного зразка). При цьому слід пам'ятати, що, крім систематичної похибки, присутня і випадкова похибка.

Тому постає питання, як за результатами вимірювань дізнатися, чи є систематична похибка. Якщо відзначати лише, чи є отримана при черговому вимірі похибка позитивною чи негативною, це завдання можна звести до попередньої. Справді, порівняємо вимір із киданням монети, позитивну похибку – з випаданням герба, негативну – решітки (нульова похибка за достатньої кількості поділів шкали майже будь-коли зустрічається). Тоді перевірка відсутності систематичної похибки еквівалентна перевірці симетричності монети.

Метою цих міркувань є зведення завдання перевірки відсутності систематичної похибки завдання перевірки симетричності монети. Проведені міркування призводять до так званого «критерію знаків» математичної статистики.

При статистичному регулюванні технологічних процесів на основі методів математичної статистики розробляються правила та плани статистичного контролю процесів, спрямовані на своєчасне виявлення розладки технологічних процесів та вжиття заходів до їх налагодження та запобігання випуску продукції, що не відповідає встановленим вимогам. Ці заходи спрямовані на скорочення витрат виробництва та втрат від постачання неякісних одиниць продукції. При статистичному приймальному контролі з урахуванням методів математичної статистики розробляються плани контролю якості шляхом аналізу вибірок із партій продукції. Складність у тому, щоб вміти правильно будувати вероятностно-статистические моделі прийняття рішень, основі яких можна відповісти на поставлені вище питання. У математичній статистиці для цього розроблені ймовірнісні моделі та методи перевірки гіпотез, зокрема гіпотез про те, що частка дефектних одиниць продукції дорівнює певному числу р 0 наприклад, р 0 = 0,23 (згадайте слова Струкова з роману А.Н.Толстого).

Завдання оцінювання.У низці управлінських, виробничих, економічних, народногосподарських ситуацій виникають завдання іншого – завдання оцінки показників і параметрів розподілів ймовірностей.

Розглянемо приклад. Нехай на контроль надійшла партія з Nелектроламп. З цієї партії випадково відібрано вибірку обсягом nелектроламп. Виникає низка природних питань. Як за результатами випробувань елементів вибірки визначити середній термін служби електроламп та з якою точністю можна оцінити цю характеристику? Як зміниться точність, якщо взяти вибірку більшого обсягу? При якому числі годинника Тможна гарантувати, що не менше 90% електроламп прослужать Тта більше годин?

Припустимо, що під час випробування вибірки обсягом nелектроламп дефектними виявилися Хелектроламп. Тоді виникають такі питання. Які межі можна вказати для числа Dдефектних електроламп у партії, для рівня дефектності D/ Nі т.п.?

Або при статистичному аналізі точності та стабільності технологічних процесів слід оцінити такі показники якості, як середнє значення контрольованого параметра та ступінь його розкиду в аналізованому процесі. Відповідно до теорії ймовірностей як середнє значення випадкової величини доцільно використовувати її математичне очікування, а статистичної характеристики розкиду – дисперсію, середнє квадратичне відхилення чи коефіцієнт варіації. Звідси виникає питання: як оцінити ці статистичні характеристики за вибірковими даними та з якою точністю це вдається зробити? Аналогічних прикладів можна навести дуже багато. Тут важливо було показати, як теорія ймовірностей та математична статистика можуть бути використані у виробничому менеджменті при прийнятті рішень у галузі статистичного управління якістю продукції.

Що таке "математична статистика"?Під математичною статистикою розуміють розділ математики, присвячений математичним методам збору, систематизації, обробки та інтерпретації статистичних даних, а також використання їх для наукових або практичних висновків. Правила та процедури математичної статистики спираються на теорію ймовірностей, що дозволяє оцінити точність і надійність висновків, одержуваних у кожному завданні на підставі наявного статистичного матеріалу. При цьому статистичними даними називаються відомості про кількість об'єктів у будь-якій більш менш широкої сукупності, що володіють тими або іншими ознаками.

На кшталт розв'язуваних завдань математична статистика зазвичай ділиться на три розділи: опис даних, оцінювання та перевірка гіпотез.

За видом статистичних даних математична статистика ділиться на чотири напрями:

Одномірна статистика (статистика випадкових величин), у якій результат спостереження описується дійсним числом;

багатовимірний статистичний аналіз, де результат спостереження над об'єктом описується кількома числами (вектором);

Статистика випадкових процесів та часових рядів, де результат спостереження – функція;

Статистика об'єктів нечислової природи, в якій результат спостереження має нечислову природу, наприклад, є множиною (геометричною фігурою), впорядкуванням або отриманим результатом вимірювання за якісною ознакою.

Історично першою з'явилися деякі області статистики об'єктів нечислової природи (зокрема, завдання оцінювання частки шлюбу та перевірки гіпотез про неї) та одновимірна статистика. Математичний апарат їм простіше, тому з їхньої прикладі зазвичай демонструють основні ідеї математичної статистики.

Тільки методи обробки даних, тобто. Математична статистика є доказовими, які спираються на імовірнісні моделі відповідних реальних явищ і процесів. Йдеться про моделі поведінки споживачів, виникнення ризиків, функціонування технологічного обладнання, отримання результатів експерименту, перебігу захворювання тощо. Імовірнісну модель реального явища слід вважати побудованою, якщо аналізовані величини та зв'язки між ними виражені в термінах теорії ймовірностей. Відповідність імовірнісної моделі дійсності, тобто. її адекватність обґрунтовують, зокрема, за допомогою статистичних методів перевірки гіпотез.

Неймовірні методи обробки даних є пошуковими, їх можна використовувати лише при попередньому аналізі даних, оскільки вони не дають можливості оцінити точність та надійність висновків, отриманих на підставі обмеженого статистичного матеріалу.

Імовірнісні та статистичні методи застосовні усюди, де вдається побудувати та обґрунтувати ймовірнісну модель явища чи процесу. Їх застосування обов'язково, коли зроблені з урахуванням вибіркових даних висновки переносяться всю сукупність (наприклад, з вибірки протягом усього партію продукції).

У конкретних галузях застосування використовуються як імовірнісно-статистичні методи широкого застосування, так і специфічні. Наприклад, розділ виробничого менеджменту, присвяченого статистичним методам управління якістю продукції, використовують прикладну математичну статистику (включаючи планування експериментів). За допомогою її методів проводиться статистичний аналіз точності та стабільності технологічних процесів та статистична оцінка якості. До специфічних методів належать методи статистичного приймального контролю якості продукції, статистичного регулювання технологічних процесів, оцінки та контролю надійності та ін.

Широко застосовуються такі прикладні імовірнісно-статистичні дисципліни, як теорія надійності та теорія масового обслуговування. Зміст першої їх ясно з назви, друга займається вивченням систем типу телефонної станції, яку у випадкові моменти часу надходять виклики - вимоги абонентів, набираючих номери у своїх телефонних апаратах. Тривалість обслуговування цих вимог, тобто. тривалість розмов також моделюється випадковими величинами. Великий внесок у розвиток цих дисциплін зробили член-кореспондент АН СРСР А.Я. Хінчін (1894-1959), академік АН УРСР Б.В.Гнеденко (1912-1995) та інші вітчизняні вчені.

Коротко про історію математичної статистики.Математична статистика як наука починається з робіт знаменитого німецького математика Карла Фрідріха Гауса (1777-1855), який на основі теорії ймовірностей досліджував та обґрунтував метод найменших квадратів, створений ним у 1795 р. та застосований для обробки астрономічних даних (з метою уточнення орбіти малої Церера). Його ім'ям часто називають один із найбільш популярних розподілів ймовірностей – нормальний, а в теорії випадкових процесів основний об'єкт вивчення – гауссівські процеси.

Наприкінці ХІХ ст. – на початку ХХ ст. великий внесок у математичну статистику зробили англійські дослідники, передусім К.Пірсон (1857-1936) та Р.А.Фішер (1890-1962). Зокрема Пірсон розробив критерій «хі-квадрат» перевірки статистичних гіпотез, а Фішер – дисперсійний аналіз, теорію планування експерименту, метод максимальної правдоподібності оцінки параметрів.

У 30-ті роки ХХ ст. поляк Єжи Нейман (1894-1977) та англієць Е.Пірсон розвинули загальну теорію перевірки статистичних гіпотез, а радянські математики академік О.М. Колмогоров (1903-1987) та член-кореспондент АН СРСР Н.В.Смирнов (1900-1966) заклали основи непараметричної статистики. У сорокові роки ХХ ст. румун А. Вальд (1902-1950) побудував теорію послідовного статистичного аналізу.

Математична статистика бурхливо розвивається й у час. Так, за останні 40 років можна виділити чотири принципово нові напрями досліджень:

Розробка та впровадження математичних методів планування експериментів;

Розвиток статистики об'єктів нечислової природи як самостійного спрямування прикладної математичної статистики;

Розвиток статистичних методів, стійких до малих відхилень від використовуваної ймовірнісної моделі;

Широке розгортання робіт із створення комп'ютерних пакетів програм, призначених щодо статистичного аналізу даних.

Імовірнісно-статистичні методи та оптимізація.Ідея оптимізації пронизує сучасну прикладну математичну статистику та інші статистичні методи. А саме, методи планування експериментів, статистичного приймального контролю, статистичного регулювання технологічних процесів та ін. прикладної математичної статистики

У виробничому менеджменті, зокрема, при оптимізації якості продукції та вимог стандартів особливо важливо застосовувати статистичні методи початковому етапіжиттєвого циклу продукції, тобто. на етапі науково-дослідної підготовки дослідно-конструкторських розробок (розробка перспективних вимог до продукції, аванпроекту, технічного завдання на дослідно-конструкторську розробку). Це пояснюється обмеженістю інформації, доступної на початковому етапі життєвого циклупродукції, та необхідністю прогнозування технічних можливостей та економічної ситуації на майбутнє. Статистичні методи повинні застосовуватися на всіх етапах розв'язання задачі оптимізації – при шкалюванні змінних, розробці математичних моделей функціонування виробів та систем, проведенні технічних та економічних експериментів тощо.

У завданнях оптимізації, у тому числі оптимізації якості продукції та вимог стандартів, використовують усі галузі статистики. А саме, статистику випадкових величин, багатовимірний статистичний аналіз, статистику випадкових процесів та часових рядів, статистику об'єктів нечислової природи. Вибір статистичного методу для аналізу конкретних даних доцільно проводити згідно з рекомендаціями.

Поділіться з друзями або збережіть для себе:

Завантаження...