Коефіцієнт кореляції менше 1. Коефіцієнт кореляції та причинно-наслідковий зв'язок: формули та їх інтерпретація. Обмеження кореляційного аналізу

Коефіцієнт кореляції – це ступінь зв'язку між двома змінними. Його розрахунок дає уявлення про те, чи є залежність між двома масивами даних. На відміну від регресії, кореляція дозволяє прогнозувати значення величин. Проте розрахунок коефіцієнта є важливим етапомпопереднього статистичного аналізу. Наприклад, ми встановили, що коефіцієнт кореляції між рівнем прямих іноземних інвестицій та темпом зростання ВВП є високим. Це дає нам уявлення, що для забезпечення добробуту потрібно створити сприятливий клімат саме для зарубіжних підприємців. Не такий і очевидний висновок на перший погляд!

Кореляція та причинність

Мабуть, немає жодної сфери статистики, яка б так міцно увійшла до нашого життя. Коефіцієнт кореляції використовується у всіх галузях суспільних знань. Основна його небезпека полягає в тому, що найчастіше його високими значеннями спекулюють для того, щоб переконати людей та змусити їх повірити у якісь висновки. Однак насправді сильна кореляція аж ніяк не свідчить про причинно-наслідкову залежність між величинами.

Коефіцієнт кореляції: формула Пірсона та Спірмана

Існує кілька основних показників, що характеризують зв'язок між двома змінними. Історично першим є коефіцієнт лінійної кореляції Пірсона. Його проходять ще у школі. Він був розроблений К. Пірсоном та Дж. Юлом на основі робіт Фр. Гальтон. Цей коефіцієнт дозволяє побачити взаємозв'язок між раціональними числами, що змінюються раціонально. Він завжди більше -1 і менше 1. Негативно число свідчить про обернено пропорційну залежність. Якщо коефіцієнт дорівнює нулю, зв'язку між змінними немає. дорівнює позитивному числу - має місце прямо пропорційна залежність між досліджуваними величинами. Коефіцієнт рангової кореляції Спірмана дозволяє спростити розрахунки з допомогою побудови ієрархії значень змінних.

Відносини між змінними

Кореляція допомагає знайти у відповідь два питання. По-перше, чи є зв'язок між змінними позитивним чи негативним. По-друге, наскільки сильна залежність. Кореляційний аналіз є потужним інструментом, за допомогою якого можна отримати цю важливу інформацію. Легко побачити, що сімейні доходи та витрати падають і зростають пропорційно. Такий зв'язок вважається позитивним. Навпаки, у разі зростання ціни на товар, попит на нього падає. Такий зв'язок називають негативним. Значення коефіцієнта кореляції перебувають у межах між -1 і 1. Нуль означає, що залежність між досліджуваними величинами немає. Чим ближче отриманий показник до крайніх значень, тим сильніший зв'язок (негативний або позитивний). Про відсутність залежності свідчить коефіцієнт від -01 до 01. Потрібно розуміти, що таке значення свідчить лише про відсутність лінійного зв'язку.

Особливості застосування

Використання обох показників пов'язане з певними припущеннями. По-перше, наявність сильного зв'язку не обумовлює того факту, що одна величина визначає іншу. Цілком може бути третя величина, яка визначає кожну з них. По-друге, високий коефіцієнт кореляції Пірсона не свідчить про причинно-наслідковий зв'язок між досліджуваними змінними. По-третє, він показує виключно лінійну залежність. Кореляція може бути використана для оцінки значущих кількісних даних (наприклад, атмосферного тиску, температури повітря), а не таких категорій, як підлога або улюблений колір.

Множинний коефіцієнт кореляції

Пірсон та Спірман досліджували зв'язок між двома змінними. Але як діяти у тому випадку, якщо їх три чи навіть більше. Тут на допомогу приходить множинний коефіцієнт кореляції. Наприклад, на валовий національний продукт впливають не лише прямі іноземні інвестиції, а й монетарна та фіскальна політика держави, а також рівень експорту. Темп зростання та обсяг ВВП - це результат взаємодії цілого ряду факторів. Проте треба розуміти, що модель множинної кореляції ґрунтується на цілій низці спрощень та припущень. По-перше, виключається мультиколлінеарність між величинами. По-друге, зв'язок між залежною і такими, що впливають на неї, змінними вважається лінійною.

Області використання кореляційно-регресійного аналізу

Цей метод знаходження взаємозв'язку між величинами широко застосовується у статистиці. До нього найчастіше вдаються у трьох основних випадках:

Для тестування причинно-наслідкових зв'язків між значеннями двох змінних. В результаті дослідник сподівається виявити лінійну залежність та вивести формулу, яка описує ці відносини між величинами. Одиниці їхнього виміру можуть бути різними.
Для перевірки зв'язку між величинами. І тут ніхто не визначає, яка змінна є залежною. Може виявитись, що значення обох величин обумовлює якийсь інший фактор.
Для виведення рівняння. У цьому випадку можна просто підставити в нього числа і дізнатися про значення невідомої змінної.

Людина у пошуках причинно-наслідкового зв'язку

Свідомість влаштована таким чином, що нам обов'язково потрібно пояснити події, що відбуваються довкола. Людина завжди шукає зв'язок між картиною світу, в якому вона живе, та одержуваною інформацією. Часто мозок створює порядок із хаосу. Він запросто може побачити причинно-наслідковий зв'язок там, де його немає. Вченим доводиться спеціально вчитися долати цю тенденцію. Здатність оцінювати зв'язки між даними об'єктивно потрібна в академічній кар'єрі.

Упередженість засобів масової інформації

Розглянемо, як кореляційного зв'язку може бути неправильно тлумачено. Групу британських студентів, які відрізняються поганою поведінкою, опитали щодо того, чи курять їхні батьки. Потім тест опублікували у газеті. Результат показав сильну кореляцію між курінням батьків та правопорушеннями їхніх дітей. Професор, який проводив це дослідження, навіть запропонував помістити на пачки цигарок попередження про це. Однак існує ціла низка проблем з таким висновком. По-перше, кореляція не показує, яка із величин є незалежною. Тому можна припустити, що згубна звичка батьків викликана непослухом дітей. По-друге, не можна з упевненістю сказати, що обидві проблеми не виникли через якийсь третій чинник. Наприклад, низький доход сімей. Слід зазначити емоційний аспект початкових висновків професора, який проводив дослідження. Він був затятим противником куріння. Тому нічого дивного в тому, що він інтерпретував результати свого дослідження саме так.

Висновки

Неправильне тлумачення кореляції як причинно-наслідкового зв'язку між двома змінними може спричинити ганебні помилки в дослідженнях. Проблема у тому, що вона лежить у основі людської свідомості. Багато маркетингових трюків побудовані саме на цій особливості. Розуміння різниці між причинно-наслідковим зв'язком та кореляцією дозволяє раціонально аналізувати інформацію як у повсякденному житті, так і у професійній кар'єрі.

Коефіцієнт кореляції- Це величина, яка може варіювати в межах від +1 до -1. У разі повної позитивної кореляції цей коефіцієнт дорівнює плюс 1 (говорять про те, що при збільшенні значення однієї змінної збільшується значення іншої змінної), а при повній негативній – мінус 1 (свідчать про зворотнього зв'язку, тобто. При збільшенні значень однієї змінної значення інший зменшуються).

Пр1.:

Графік залежності сором'язливості та дипресивності. Як бачимо, точки (випробувані) розташовані не хаотично, а вишиковуються навколо однієї лінії, причому, дивлячись на цю лінію можна сказати, що чим у людини виражена сором'язливість, тим більша депресивність, тобто ці явища взаємопов'язані.

Пр2.: Графік для Сором'язливості та Комунікабельності. Ми, що зі збільшенням сором'язливості товариськість зменшується. Їхній коефіцієнт кореляції -0,43. Таким чином, коефіцієнт кореляції більший від 0 до 1 говорить про прямопропорційний зв'язок (чим більше ... тим більше ...), а коефіцієнт від -1 до 0 про зворотний пропорційний (чим більше ... тим менше ...)

Якщо коефіцієнт кореляції дорівнює 0, обидві змінні повністю незалежні один від одного.

Кореляційний зв'язок- це зв'язок, де вплив окремих чинників проявляється лише як тенденція (загалом) при масовому спостереженні фактичних даних. Прикладами кореляційної залежності можуть бути залежності між розмірами активів банку та сумою прибутку банку, зростанням продуктивності праці та стажем роботи працівників.

Використовується дві системи класифікації кореляційних зв'язків за їх силою: загальна та приватна.

Загальна класифікація кореляційних зв'язків: 1) сильна, або тісна за коефіцієнта кореляції r>0,70; 2) середня при 0,500,70, а не просто кореляція високого рівнязначимості.

У наступній таблиці написані назви коефіцієнтів кореляції для різних типівшкал.

	Дихотомічна шкала (1/0)	Рангова (порядкова) шкала
Дихотомічна шкала (1/0)	Коефіцієнт асоціації Пірсона, коефіцієнт чотириклітинної пари Пірсона.		Бісеріальна кореляція
Рангова (порядкова) шкала	Рангово-бісеріальна кореляція.	Ранговий коефіцієнт кореляції Спірмена чи Кендала.
Інтервальна та абсолютна шкала	Бісеріальна кореляція	Значення інтервальної шкали перетворюються на ранги і використовується ранговий коефіцієнт	Коефіцієнт кореляції Пірсона (коефіцієнт лінійної кореляції)

При r=0 лінійний кореляційний зв'язок відсутній. У цьому групові середні змінних збігаються зі своїми загальними середніми, а лінії регресії паралельні осям координат.

Рівність r=0 говорить лише про відсутність лінійної кореляційної залежності (некорелювання змінних), але не взагалі про відсутність кореляційної, а тим більше, статистичної залежності.

Іноді висновок про відсутність кореляції важливіше за наявність сильної кореляції. Нульова кореляція двох змінних може свідчити, що жодного впливу однієї змінної іншу немає, за умови, що ми довіряємо результатам вимірів.

У SPSS: 11.3.2 Коефіцієнти кореляції

Досі ми з'ясовували лише факт існування статистичної залежності між двома ознаками. Далі ми спробуємо з'ясувати, які висновки можна зробити про силу чи слабкість цієї залежності, а також про її вид та спрямованість. Критерії кількісної оцінки залежності між змінними називаються коефіцієнтами кореляції чи заходами зв'язаності. Дві змінні корелюють між собою позитивно, якщо між ними існує пряме, односпрямоване співвідношення. При односпрямованому співвідношенні малі значення однієї змінної відповідають малим значенням іншої змінної, більші значення – більшим. Дві змінні корелюють між собою негативно, якщо між ними існує зворотне, різноспрямоване співвідношення. При різноспрямованому співвідношенні малі значення однієї змінної відповідають більшим значенням іншої змінної та навпаки. Значення коефіцієнтів кореляції завжди лежать у діапазоні від -1 до +1.

Як коефіцієнт кореляції між змінними, що належать порядковій шкалі, застосовується коефіцієнт Спірмена, а для змінних, що належать до інтервальної шкали - коефіцієнт кореляції Пірсона (момент творів). При цьому слід врахувати, що кожну дихотомічну змінну, тобто змінну, що належить до номінальної шкали та має дві категорії, можна розглядати як порядкову.

Для початку ми перевіримо, чи існує кореляція між змінними sex і psyche з файлу studium.sav. При цьому ми врахуємо, що дихотомічну змінну sex можна вважати порядковою. Виконайте наступні дії:

· Виберіть у меню команди Analyze (Аналіз) Descriptive Statistics (Дескриптивні статистики) Crosstabs... (Таблиці сполучення)

· Перенесіть змінну sex до списку рядків, а змінну psyche – до списку стовпців.

· Натисніть кнопку Statistics... (Статистика). У діалоговому вікні Crosstabs: Statistics встановіть прапорець Correlations (Кореляції). Виберіть кнопкою Continue.

· У діалозі Crosstabs відмовтеся від виведення таблиць, встановивши прапорець Supress tables (Пригнічувати таблиці). Натисніть кнопку ОК.

Буде обчислено коефіцієнти кореляції Спірмена та Пірсона, а також проведено перевірку їх значущості:

/ СПСС 10

Завдання №10 Кореляційний аналіз

Поняття кореляції

Кореляція чи коефіцієнт кореляції – це статистичний показник імовірніснийзв'язку між двома змінними, виміряними за кількісними шкалами. На відміну від функціонального зв'язку, при якому кожному значенню однієї змінної відповідає суворо визначенезначення іншої змінної, імовірнісний зв'язокхарактеризується тим, що кожному значенню однієї змінної відповідає безліч значеньІншою змінною, Прикладом імовірнісного зв'язку є зв'язок між зростанням і вагою людей. Зрозуміло, що той самий зріст може бути у людей різної ваги і навпаки.

Кореляція є величиною, укладеною в межах від -1 до + 1, і позначається буквою r. Причому, якщо значення знаходиться ближче до 1, це означає наявність сильного зв'язку, а якщо ближче до 0, то слабкої. Значення кореляції менше 0,2 сприймається як слабка кореляція, понад 0,5 – висока. Якщо коефіцієнт кореляції негативний, це означає наявність зворотний зв'язок: що стоїть значення однієї змінної, тим нижче значення інший.

Залежно від значень коефіцієнта rможна виділити різні види кореляції:

Сувора позитивна кореляціявизначається значенням r = 1. Термін «строга» означає, що значення однієї змінної однозначно визначаються значеннями іншої змінної, а термін « позитивна» -що зі зростанням значень однієї змінної значення інший змінної також зростають.

Сувора кореляція є математичною абстракцією і не зустрічається у реальних дослідженнях.

Позитивна кореляціявідповідає значенням 0

Відсутність кореляціївизначається значенням r = 0. Нульовий коефіцієнт кореляції свідчить, що значення змінних не пов'язані між собою.

Відсутність кореляції H o : 0 r xy =0 формулюється як відображення нульовийгіпотези у кореляційному аналізі.

Негативна кореляція: -1

Сувора негативна кореляціявизначається значенням r = -1. Вона також, як і сувора позитивна кореляція, є абстракцією і не знаходить вираження у практичних дослідженнях.

Таблиця 1

Види кореляції та їх визначення

Метод обчислення коефіцієнта кореляції залежить від виду шкали, за якою виміряно значення змінної.

Коефіцієнт кореляції rПірсонає основним і може використовуватися для змінних з номінальною та частково впорядкованою, інтервальними шкалами, розподіл значень за якими відповідає нормальному (кореляція моментів твору). Коефіцієнт кореляції Пірсона дає досить точні результати у випадках анормальних розподілів.

Для розподілів, що не є нормальними, краще користуватися коефіцієнтами рангової кореляції Спірмена та Кендала. Ранговими вони є тому, що програма попередньо ранжує змінні, що корелюються.

Кореляцію rСпірмена програма SPSS обчислює наступним чином: спочатку змінні переводяться в ранги, а потім до рангів застосовується формула Пірсона.

В основі кореляції, запропонованої М. Кендал, лежить ідея про те, що про напрям зв'язку можна судити, попарно порівнюючи між собою піддослідних. Якщо у пари перевірених змін по Х збігаються у напрямку зі зміною по Yзбігається, це свідчить про позитивний зв'язок. Якщо не збігається – то про негативний зв'язок. Цей коефіцієнт застосовується переважно психологами, які працюють із малими вибірками. Оскільки соціологи працюють із великими масивами даних, то перебір пар, виявлення різниці відносних частот та інверсій всіх пар піддослідних у вибірці скрутний. Найбільш поширеним є коеф. Пірсон.

Оскільки коефіцієнт кореляції rПірсона є основним і може використовуватися (з деякою похибкою залежно від типу шкали та рівня анормальності у розподілі) для всіх змінних, виміряних за кількісними шкалами, розглянемо приклади його використання та порівняємо отримані результати з результатами вимірювань за іншими коефіцієнтами кореляції.

Формула обчислення коефіцієнта r- Пірсона:

r xy = ∑ (Xi-Xср)∙(Yi-Yср) / (N-1)∙σ x ∙σ y ∙

Де: Xi, Yi- Значення двох змінних;

Xср, Yср-середні значення двох змінних;

σ x , σ y – стандартні відхилення,

N-кількість спостережень.

Парні кореляції

Наприклад, ми хотіли б з'ясувати, як співвідносяться відповіді між різними видамитрадиційних цінностей у уявленнях студентів про ідеальне місце роботи (змінні: а9.1, а9.3, а9.5, а9.7), а потім про співвідношення ліберальних цінностей (а9.2, а9.4. а9.6, а9). 8). Дані змінні виміряні по 5-членним впорядкованим шкалам.

Використовуємо процедуру: «Аналіз», «Кореляції», «Парні». За замовчуванням коеф. Пірсона встановлено у діалоговому вікні. Використовуємо коеф. Пірсона

У вікно відбору переносяться перемінні, що тестуються: а9.1, а9.3, а9.5, а9.7

Шляхом натискання ОК отримуємо розрахунок:

Кореляції


а9.1.т. Наскільки важливо мати достатньо часу для сім'ї та особистого життя?	Кореляція Пірсона
	Знч.(2-сторон)

а9.3.т. Наскільки важливо не боятися втратити свою роботу?	Кореляція Пірсона
	Знч.(2-сторон)

а9.5.т. Наскільки важливо мати такого начальника, який радитиметься з Вами, приймаючи те чи інше рішення?	Кореляція Пірсона
	Знч.(2-сторон)

а9.7.т. Наскільки важливо працювати у злагодженому колективі, відчувати себе його частиною?	Кореляція Пірсона
	Знч.(2-сторон)

** Кореляція значуща лише на рівні 0.01 (2-сторон.).

Таблиця кількісних значень збудованої кореляційної матриці

Приватні кореляції:

Для початку збудуємо парну кореляцію між зазначеними двома змінними:

Кореляції



с8. Відчувають близькість із тими, хто живе поруч із вами, сусідами	Кореляція Пірсона
	Знч.(2-сторон)

с12. Відчувають близькість зі своєю родиною	Кореляція Пірсона
	Знч.(2-сторон)


**. Кореляція значуща лише на рівні 0.01 (2-сторон.).

Потім використовуємо процедуру побудови приватної кореляції: «Аналіз», «Кореляції», «Приватні».

Припустимо, що цінність «Важливо самостійно визначати та змінювати порядок своєї роботи» у взаємозв'язку із зазначеними змінними виявиться тим вирішальним фактором, під вплив якого раніше виявлений зв'язок зникне, або виявиться малозначущою.

Кореляції

Виключені змінні			с8. Відчувають близькість із тими, хто живе поруч із вами, сусідами	с12. Відчувають близькість зі своєю родиною

с16. Відчувають близькість з людьми, які мають той самий достаток, що й ви	с8. Відчувають близькість із тими, хто живе поруч із вами, сусідами	Кореляція
		Значимість (2-сторон.)

	с12. Відчувають близькість зі своєю родиною	Кореляція
		Значимість (2-сторон.)

Як очевидно з таблиці під впливом контрольної змінної зв'язок дещо знизилася: з 0, 120 до 0, 102. Проте, це зниження зниження дозволяє стверджувати, що рані виявлена зв'язок є відбитком помилкової кореляції, т.к. вона залишається досить високою і дає змогу з нульовою похибкою спростовувати нульову гіпотезу.

Коефіцієнт кореляції

Найбільш точний спосіб визначення тісноти та характеру кореляційного зв'язку - знаходження коефіцієнта кореляції. Коефіцієнт кореляції є число, що визначається за формулою:

де r ху – коефіцієнт кореляції;

x i -значення першої ознаки;

у i-значення другої ознаки;

Середня арифметична значень першої ознаки

Середня арифметична значень другої ознаки

Для користування формулою (32) побудуємо таблицю, яка забезпечить необхідну послідовність у підготовці чисел для знаходження чисельника та знаменника коефіцієнта кореляції.

Як видно з формули (32), послідовність дій така: знаходимо середні арифметичні обох ознак х і у, знаходимо різницю між значеннями ознаки та її середньої (х і - ) та у і - ), потім знаходимо їх твір (х і - ) у і - ) – сума останніх дає чисельник коефіцієнта кореляції. Для знаходження його знаменника слід різниці (x i -) і (у і -) звести в квадрат, знайти їх суми та витягти корінь квадратний з їхнього твору.

Так приклад 31 знаходження коефіцієнта кореляції відповідно до формули (32) можна подати наступним чином (табл. 50).

Отримане число коефіцієнта кореляції дає можливість встановити наявність, тісноту та характер зв'язку.

1. Якщо коефіцієнт кореляції дорівнює нулю, зв'язок між ознаками відсутній.

2. Якщо коефіцієнт кореляції дорівнює одиниці, зв'язок між ознаками настільки великий, що перетворюється на функціональну.

3. Абсолютна величина коефіцієнта кореляції не виходить за межі інтервалу від нуля до одиниці:

Це дає можливість орієнтуватися на тісноту зв'язку: чим величина коефіцієнта ближче до нуля, тим зв'язок слабший, а що ближче до одиниці, тим зв'язок тісніше.

4. Знак коефіцієнта кореляції "плюс" означає пряму кореляцію, знак "мінус"-зворотну.

Таблиця 50

х і	у і	(х і -)	(у і -)	(х і -) (у і -)	(х і -) 2	(у і - )2
14,00	12,10	-1,70	-2,30	+3,91	2,89	5,29
14,20	13,80	-1,50	-0,60	+0,90	2,25	0,36
14,90	14,20	-0,80	-0,20	+0,16	0,64	0,04
15,40	13,00	-0,30	-1,40	+0,42	0,09	1,96
16,00	14,60	+0,30	+0,20	+0,06	0,09	0,04
17,20	15,90	+1,50	+2,25	2,25
18,10	17,40	+2,40	+2,00	+4,80	5,76	4,00
109,80	101,00		12,50	13,97	13,94

Отже, обчислений прикладі 31 коефіцієнт кореляції r xy = +0,9. дозволяє зробити такі висновки: існує кореляційний зв'язок між величиною м'язової сили правої та лівої кистей у досліджуваних школярів (коефіцієнт r xy =+0,9 відмінний від нуля), зв'язок дуже тісний (коефіцієнт r xy =+0,9 близький до одиниці), кореляція пряма (коефіцієнт r xy = +0,9 позитивний), т. Е. Зі збільшенням м'язової сили однієї з кистей збільшується сила іншої кисті.

При обчисленні коефіцієнта кореляції та користуванні його властивостями слід врахувати, що висновки дають коректні результати в тому випадку, коли ознаки розподілені нормально та коли розглядається взаємозв'язок між великою кількістюзначень обох ознак.

У розглянутому прикладі 31 аналізовано лише 7 значень обох ознак, що, звичайно, недостатньо для подібних досліджень. Нагадуємо тут ще раз, що приклади, у цій книзі взагалі й у цьому розділі зокрема, носять характер ілюстрації методів, а чи не докладного викладу будь-яких наукових експериментів. Внаслідок цього розглянуто невелику кількість значень ознак, виміри округлені - все це робиться для того, щоб громіздкими обчисленнями не затемнювати ідею методу.

Особливу увагу слід звернути на істоту взаємозв'язку, що розглядається. Коефіцієнт кореляції неспроможна призвести до правильних результатів дослідження, якщо аналіз взаємозв'язку між ознаками проводиться формально. Повернемося ще раз до прикладу 31. Обидві розглянуті ознаки являли собою значення м'язової сили правої та лівої кистей. Уявімо, що під ознакою x i у прикладі 31 (14,0; 14,2; 14,9... ...18,1) ми розуміємо довжину випадково спійманих риб у сантиметрах, а під ознакою у і (12,1 ; 13,8;14,2... ...17,4) -вага приладів в лабораторії в кілограмах. Формально скориставшись апаратом обчислень знаходження коефіцієнта кореляції і отримавши у разі також r xy =+0>9, ми мали укласти, що з довжиною риб і вагою приладів існує тісний зв'язок прямого характеру. Безглуздість такого висновку є очевидною.

Щоб уникнути формального підходу до користування коефіцієнтом кореляції, слід будь-яким іншим методом – математичним, логічним, експериментальним, теоретичним – виявити можливість існування кореляційного зв'язку між ознаками, тобто виявити органічну єдність ознак. Тільки після цього можна приступати до користування кореляційним аналізом та встановлювати величину та характер взаємозв'язку.

В математичної статистикиіснує ще поняття множинної кореляції- взаємозв'язку між трьома та більше ознаками. У цих випадках користуються коефіцієнтом множинної кореляції, що складається з парних коефіцієнтів кореляції, описаних вище.

Наприклад, коефіцієнт кореляції трьох ознак-х і , у і , z і - є:

де R xyz -коефіцієнт множинної кореляції, що виражає, як ознака х i залежить від ознак у і і z i;

r xy -коефіцієнт кореляції між ознаками x i та y i ;

r xz -коефіцієнт кореляції між ознаками Xi та Zi;

r yz - коефіцієнт кореляції між ознаками y i , z i

Кореляційний аналіз це:

Кореляційний аналіз

Кореляція- статистичний взаємозв'язок двох або кількох випадкових величин (або величин, які можна з деяким допустимим ступенем точності вважати такими). При цьому, зміни однієї або декількох цих величин призводять до систематичної зміни інший або інших величин. Математичною мірою кореляції двох випадкових величин служить коефіцієнт кореляції.

Кореляція може бути позитивною та негативною (можлива також ситуація відсутності статистичного взаємозв'язку - наприклад, для незалежних випадкових величин). Негативна кореляція - кореляція, при якій збільшення однієї змінної пов'язане із зменшенням іншої змінної, при цьому коефіцієнт кореляції негативний. Позитивна кореляція - кореляція, при якій збільшення однієї змінної пов'язане зі збільшенням іншої змінної, при цьому коефіцієнт кореляції є позитивним.

Автокореляція - Статистичний взаємозв'язок між випадковими величинами з одного ряду, але взятих зі зрушенням, наприклад, для випадкового процесу - зі зрушенням за часом.

Метод обробки статистичних даних, що полягає у вивченні коефіцієнтів (кореляції) між змінними, називається кореляційним аналізом.

Коефіцієнт кореляції

Коефіцієнт кореляціїабо парний коефіцієнт кореляціїТеоретично ймовірностей і статистиці - це показник характеру зміни двох випадкових величин. Коефіцієнт кореляції позначається латинською літерою R і може набувати значень між -1 і +1. Якщо значення по модулю знаходиться ближче до 1, це означає наявність сильного зв'язку (при коефіцієнті кореляції рівному одиниці говорять про функціональний зв'язок), а якщо ближче до 0, то слабкої.

Коефіцієнт кореляції Пірсона

Для метричних величин застосовується коефіцієнт кореляції Пірсона, точна формула якого була введена Френсісом Гальтоном:

Нехай X,Y- дві випадкові величини, визначені одному імовірнісному просторі. Тоді їхній коефіцієнт кореляції задається формулою:

де cov позначає коваріацію, а D - дисперсію, або, що те саме,

де символ означає математичне очікування.

Для графічного представлення подібного зв'язку можна використовувати прямокутну систему координат з осями, які відповідають обох змінних. Кожна пара значень маркується за допомогою певного символу. Такий графік називається "діаграмою розсіювання".

Метод обчислення коефіцієнта кореляції залежить від виду шкали, до якої належать змінні. Так, для вимірювання змінних із інтервальною та кількісною шкалами необхідно використовувати коефіцієнт кореляції Пірсона (кореляція моментів творів). Якщо щонайменше одна з двох змінних має порядкову шкалу або не є нормально розподіленою, необхідно використовувати рангову кореляцію Спірмена або τ (тау) Кендалу. Якщо одна з двох змінних є дихотомічною, використовується точкова дворядна кореляція, а якщо обидві змінні є дихотомічними: чотирипольова кореляція. Розрахунок коефіцієнта кореляції між двома недихотомічними змінними не позбавлений сенсу лише тоді, коли зв'язок між ними лінійний (односпрямований).

Коефіцієнт кореляції Кенделла

Використовується для виміру взаємної невпорядкованості.

Коефіцієнт кореляції Спірмена

Властивості коефіцієнта кореляції

Нерівність Коші – Буняковського:

якщо прийняти як скалярний добуток двох випадкових величин коваріацію, то норма випадкової величини дорівнюватиме

, і наслідком нерівності Коші - Буняковського буде: . де . Більше того в цьому випадку знаки та kзбігаються: .

Кореляційний аналіз

Кореляційний аналіз- метод обробки статистичних даних, що полягає у вивченні коефіцієнтів ( кореляції) між змінними. При цьому порівнюються коефіцієнти кореляції між однією парою або безліччю пар ознак для встановлення між ними статистичних взаємозв'язків.

Ціль кореляційного аналізу- Забезпечити отримання деякої інформації про одну змінну за допомогою іншої змінної. У випадках, коли можливе досягнення мети, кажуть, що змінні корелюють. У самому загальному вигляді прийняття гіпотези про наявність кореляції означає, що зміна значення змінної А, відбудеться одночасно з пропорційною зміною значення Б: якщо обидві змінні зростають то кореляція позитивнаякщо одна змінна зростає, а друга зменшується, кореляція негативна.

Кореляція відбиває лише лінійну залежність величин, але з відбиває їх функціональної зв'язності. Наприклад, якщо визначити коефіцієнт кореляції між величинами A = sin(x) та B = cos(x), він буде близький до нуля, т. е. залежність між величинами відсутня. Тим часом, величини A та B очевидно пов'язані функціонально за законом sin 2(x) + cos 2(x) = 1.

Обмеження кореляційного аналізу

Графіки розподілів пар (x, y) з відповідними коефіцієнтами кореляцій x та y для кожного з них. Зверніть увагу, що коефіцієнт кореляції відображає лінійну залежність (верхній рядок), але не визначає криву залежності (середній рядок), і зовсім не підходить для опису складних, нелінійних залежностей (нижній рядок).

Застосування можливе у разі достатньої кількості випадків вивчення: для конкретного виду коефіцієнта кореляції становить від 25 до 100 пар спостережень.
Друге обмеження випливає з гіпотези кореляційного аналізу, на яку закладено лінійна залежність змінних. У багатьох випадках, коли достовірно відомо, що залежність існує, кореляційний аналіз може дати результатів просто з огляду на те, що залежність нелінійна (виражена, наприклад, як параболи).
Сам собою факт кореляційної залежності не дає підстави стверджувати, яка зі змінних передує або є причиною змін, або що змінні взагалі причинно пов'язані між собою, наприклад, через дії третього фактора.

Область застосування

Даний метод обробки статистичних даних дуже популярний в економіці та соціальних науках (зокрема у психології та соціології), хоча сфера застосування коефіцієнтів кореляції велика: контроль якості промислової продукції, металознавство, агрохімія, гідробіологія, біометрія та інші.

Популярність методу обумовлена двома моментами: коефіцієнти кореляції щодо прості у підрахунку, їх застосування вимагає спеціальної математичної підготовки. У поєднанні з простотою інтерпретації, простота застосування коефіцієнта призвела до його поширення у сфері аналізу статистичних даних.

Хибна кореляція

Часто приваблива простота кореляційного дослідження підштовхує дослідника робити помилкові інтуїтивні висновки про наявність причинно-наслідкового зв'язку між парами ознак, тоді як коефіцієнти кореляції встановлюють лише статистичні взаємозв'язки.

У сучасній кількісній методології соціальних наук, фактично, сталася відмова від спроб встановити причинно-наслідкові зв'язки між змінними, що спостерігаються. емпіричними методами. Тому, коли дослідники у соціальних науках говорять про встановлення взаємозв'язків між досліджуваними змінними, мається на увазі або загальнотеоретичне припущення, або статистична залежність.

Див. також

Автокореляційна функція
Взаємнокореляційна функція
Коваріація
Коефіцієнт детермінації
Регресійний аналіз

Wikimedia Foundation. 2010 року.

Де x · y, x, y - середні значення вибірок; σ(x), σ(y) – середньоквадратичні відхилення.
Крім того, коефіцієнт лінійної парної кореляції Пірсонаможе бути визначений через коефіцієнт регресії b: де σ(x)=S(x), σ(y)=S(y) - середньоквадратичні відхилення, b - коефіцієнт перед x у рівнянні регресії y=a+bx .

Інші варіанти формул:
або

До xy – кореляційний момент (коефіцієнт коваріації)

Для знаходження лінійного коефіцієнта кореляції Пірсона необхідно знайти вибіркові середні x та y, та їх середньоквадратичні відхилення σ x = S(x), σ y = S(y):

Лінійний коефіцієнт кореляції вказує на наявність зв'язку та набуває значень від –1 до +1 (див. шкалу Чеддока). Наприклад, при аналізі тісноти лінійного кореляційного зв'язку між двома змінними отримано коефіцієнт парної лінійної кореляції, рівний -1. Це означає, що між змінними існує точна зворотна лінійна залежність.

Обчислити значення коефіцієнта кореляції можна за заданими середніми вибірками, або безпосередньо .

Xy#x #y #σ x #σ y " data-id="a;b;c;d;e" data-formul="(a-b*c)/(d*e)" data-r="r xy ">Розрахувати своє значення

Геометричний сенс коефіцієнта кореляції: r xy показує, наскільки різниться нахил двох ліній регресії: y(x) і х(у) , наскільки сильно розрізняються результати мінімізації відхилень x і y . Чим більший кут між лініями, тим більше r xy .
Знак коефіцієнта кореляції збігається зі знаком коефіцієнта регресії та визначає нахил лінії регресії, тобто. загальну спрямованість залежності (зростання чи спадання). Абсолютна величина коефіцієнта кореляції визначається мірою близькості точок до лінії регресії.

Властивості коефіцієнта кореляції

|r xy | ≤ 1;
якщо X і Y незалежні, то r xy = 0, зворотне який завжди правильно;
якщо |r xy |=1, Y=aX+b, |r xy (X,aX+b)|=1, де a і b постійні, а ≠ 0;
|r xy (X,Y)|=|r xy (a 1 X+b 1 , a 2 X+b 2)|, де a 1 , a 2 , b 1 , b 2 - постійні.

Тому для перевірки напряму зв'язкувибирається перевірка гіпотези за допомогою коефіцієнта кореляції Пірсона з подальшою перевіркою на достовірність за допомогою t-критерію(Приклад див. нижче).

Типові завдання (див. також нелінійна регресія)

Типові завдання
Досліджується залежність продуктивності праці y від рівня механізації робіт x (%) за даними 14 промислових підприємств. Статистичні дані наведено у таблиці.
Потрібно:
1) Знайти оцінки параметрів лінійної регресії у на х. Побудувати діаграму розсіювання та нанести пряму регресію на діаграму розсіювання.
2) На рівні значущості α=0.05 перевірити гіпотезу щодо згоди лінійної регресії з результатами спостережень.
3) З надійністю γ=0.95 знайти довірчі інтервали параметрів лінійної регресії.

Разом з цим калькулятором також використовують такі:
Рівняння множинної регресії

Приклад. На основі даних, наведених у Додатку 1 та відповідних Вашому варіанту (таблиця 2), потрібно:

Розрахувати коефіцієнт лінійної парної кореляції та побудувати рівняння лінійної парної регресії однієї ознаки від іншої. Одна з ознак, що відповідають Вашому варіанту, гратиме роль факторного (х), інша – результативного (y). Причинно-наслідкові зв'язки між ознаками встановити самим на основі економічного аналізу. Пояснити значення параметрів рівняння.
Визначити теоретичний коефіцієнт детермінації та залишкову (непояснену рівнянням регресії) дисперсію. Зробити висновок.
Оцінити статистичну значимість рівняння регресії загалом п'ятивідсотковому рівні з допомогою F-критерия Фішера. Зробити висновок.
Виконати прогноз очікуваного значення ознаки-результату y за прогнозного значення ознаки-фактору х, що становить 105% від середнього рівня х. Оцінити точність прогнозу, розрахувавши помилку прогнозу та його довірчий інтервал із ймовірністю 0,95.

Рішення. Рівняння має вигляд y = ax + b
Середні значення

Дисперсія

Середньоквадратичне відхилення

Зв'язок між ознакою Y фактором X сильний і прямий (визначається за шкалою Чеддока).
Рівняння регресії

Коефіцієнт регресії: k = a = 4.01
Коефіцієнт детермінації
R 2 = 0.992 = 0.97, тобто. у 97% випадків зміни х призводять до зміни y. Іншими словами – точність підбору рівняння регресії – висока. Залишкова дисперсія: 3%.

x	y	x 2	y 2	x·y	y(x)	(y i -y) 2	(y-y(x)) 2	(x-x p) 2
1	107	1	11449	107	103.19	333.06	14.5	30.25
2	109	4	11881	218	107.2	264.06	3.23	20.25
3	110	9	12100	330	111.21	232.56	1.47	12.25
4	113	16	12769	452	115.22	150.06	4.95	6.25
5	120	25	14400	600	119.23	27.56	0.59	2.25
6	122	36	14884	732	123.24	10.56	1.55	0.25
7	123	49	15129	861	127.26	5.06	18.11	0.25
8	128	64	16384	1024	131.27	7.56	10.67	2.25
9	136	81	18496	1224	135.28	115.56	0.52	6.25
10	140	100	19600	1400	139.29	217.56	0.51	12.25
11	145	121	21025	1595	143.3	390.06	2.9	20.25
12	150	144	22500	1800	147.31	612.56	7.25	30.25
78	1503	650	190617	10343	1503	2366.25	66.23	143

Примітка: значення y(x) знаходяться з отриманого рівняння регресії:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

Значимість коефіцієнта кореляції

Висуваємо гіпотези:
H 0: r xy = 0, немає лінійного взаємозв'язку між змінними;
H 1: r xy ≠ 0 є лінійний взаємозв'язок між змінними;
Для того щоб при рівні значущості α перевірити нульову гіпотезу про рівність нуля генерального коефіцієнта кореляції нормальної двовимірної випадкової величини при конкуруючій гіпотезі H 1 ≠ 0, треба обчислити значення критерію (величина випадкової помилки):

По таблиці Стьюдента знаходимо t табл (n-m-1; α/2) = (10; 0.025) = 2.228
Оскільки Tнабл > tтабл, то відхиляємо гіпотезу про рівність 0 коефіцієнта кореляції. Інакше кажучи, коефіцієнт кореляції статистично - значущий.
Інтервальна оцінка коефіцієнта кореляції (довірчий інтервал)

r - Δ r ≤ r ≤ r + Δ r
Δ r = ±t табл m r = ±2.228 0.0529 = 0.118
0.986 - 0.118 ≤ r ≤ 0.986 + 0.118
Довірчий інтервал для коефіцієнта кореляції: 0.868 ≤ r ≤ 1

Аналіз точності визначення оцінок коефіцієнтів регресії

S a =0.2152

Довірчі інтервали для залежної змінної

Розрахуємо межі інтервалу, в якому буде зосереджено 95% можливих значень Y при необмеженому великому числіспостережень та X = 7
(122.4;132.11)
Перевірка гіпотез щодо коефіцієнтів лінійного рівняння регресії

1) t-статистика

Статистична значимість коефіцієнта регресії підтверджується
Довірчий інтервал для коефіцієнтів рівняння регресії
Визначимо довірчі інтервали коефіцієнтів регресії, які з надійністю 95% будуть такими:
(a - t a S a ; a + t a S a)
(3.6205;4.4005)
(b - t b S b ; b + t b S b)
(96.3117;102.0519)

Коефіцієнт кореляції – це ступінь зв'язку між двома змінними. Його розрахунок дає уявлення про те, чи є залежність між двома масивами даних. На відміну від регресії, кореляція дозволяє прогнозувати значення величин. Проте розрахунок коефіцієнта є важливим етапом попереднього статистичного аналізу. Наприклад, ми встановили, що коефіцієнт кореляції між рівнем прямих іноземних інвестицій та темпом зростання ВВП є високим. Це дає нам уявлення, що для забезпечення добробуту потрібно створити сприятливий клімат саме для зарубіжних підприємців. Не такий і очевидний висновок на перший погляд!

Кореляція та причинність

Коефіцієнт кореляції: формула Пірсона та Спірмана

Відносини між змінними

Особливості застосування

Множинний коефіцієнт кореляції

Області використання кореляційно-регресійного аналізу

Для тестування причинно-наслідкових зв'язків між значеннями двох змінних. В результаті дослідник сподівається виявити лінійну залежність та вивести формулу, яка описує ці відносини між величинами. Одиниці їхнього виміру можуть бути різними.
Для перевірки зв'язку між величинами. І тут ніхто не визначає, яка змінна є залежною. Може виявитись, що значення обох величин обумовлює якийсь інший фактор.
Для виведення рівняння. У цьому випадку можна просто підставити в нього числа і дізнатися про значення невідомої змінної.

Людина у пошуках причинно-наслідкового зв'язку

Упередженість засобів масової інформації

Висновки

Неправильне тлумачення кореляції як причинно-наслідкового зв'язку між двома змінними може спричинити ганебні помилки в дослідженнях. Проблема у тому, що вона лежить у основі людської свідомості. Багато маркетингових трюків побудовані саме на цій особливості. Розуміння відмінності між причинно-наслідковим зв'язком та кореляцією дозволяє раціонально аналізувати інформацію як у повсякденному житті, так і у професійній кар'єрі.

Метою кореляційного аналізує виявлення оцінки сили зв'язку між випадковими величинами (ознаками), що характеризує певний реальний процес.
Завдання кореляційного аналізу:
а) Вимірювання ступеня зв'язності (тісноти, сили, строгості, інтенсивності) двох і більше явищ.
б) Відбір факторів, що найбільш істотно впливають на результативну ознаку, на підставі вимірювання ступеня зв'язності між явищами. Істотні у цьому аспекті чинники використовують далі у регресійному аналізі.
в) Виявлення невідомих причинних зв'язків.

Форми прояви взаємозв'язків дуже різноманітні. Як найзагальніші їх види виділяють функціональну (повну) і кореляційний (неповний) зв'язок.
Кореляційний зв'язокпроявляється у середньому, для масових спостережень, коли заданим значенням залежної змінної відповідає певний ряд імовірнісних значень незалежної змінної. Зв'язок називається кореляційним, якщо кожному значення факторної ознаки відповідає цілком певне невипадкове значення результативної ознаки.
Наочним зображенням кореляційної таблиці є кореляційне поле. Воно є графік, де на осі абсцис відкладаються значення X, по осі ординат - Y, а точками показуються поєднання X і Y. За розташуванням точок можна судити про наявність зв'язку.
Показники тісноти зв'язкудають можливість охарактеризувати залежність варіації результативної ознаки від варіації ознаки-фактора.
Більш досконалим показником ступеня тісноти кореляційного зв'язкує лінійний коефіцієнт кореляції. При розрахунку цього показника враховуються як відхилення індивідуальних значень ознаки від середньої, а й сама величина цих відхилень.

Ключовими питаннями даної теми є рівняння регресійного зв'язку між результативною ознакою та пояснювальною змінною, метод найменших квадратів для оцінки параметрів регресійної моделі, аналіз якості отриманого рівняння регресії, побудова довірчих інтервалів прогнозу значень результативної ознаки рівняння регресії.

Приклад 2

Система нормальних рівнянь.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для наших даних система рівнянь має вигляд
30a + 5763 b = 21460
5763 a + 1200 261 b = 3800360
З першого рівняння виражаємо аі підставимо на друге рівняння:
Отримуємо b = -3.46, a = 1379.33
Рівняння регресії:
y = -3.46 x + 1379.33

2. Розрахунок параметрів рівняння регресії.
Вибіркові середні.

Вибіркові дисперсії:

Середньоквадратичне відхилення

1.1. Коефіцієнт кореляції
Коваріація.

Розраховуємо показник тісноти зв'язку. Таким показником є вибірковий лінійний коефіцієнт кореляції, який розраховується за такою формулою:

Лінійний коефіцієнт кореляції набуває значень від –1 до +1.
Зв'язки між ознаками можуть бути слабкими та сильними (тісними). Їхні критерії оцінюються за шкалою Чеддока:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
У нашому прикладі зв'язок між ознакою Y фактором X висока та зворотна.
Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b:

1.2. Рівняння регресії(Оцінка рівняння регресії).

Лінійне рівняння регресії має вигляд y=-3.46 x + 1379.33

Коефіцієнт b = -3.46 показує середнє зміна результативного показника (в одиницях виміру у) з підвищенням чи зниженням величини чинника x одиницю його виміру. У цьому прикладі зі збільшенням на 1 одиницю y знижується загалом на -3.46.
Коефіцієнт a = 1379.33 формально показує прогнозований рівень у, але у разі, якщо х=0 перебуває близько з вибірковими значеннями.
Але якщо х=0 знаходиться далеко від вибіркових значень х, то буквальна інтерпретація може призвести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення вибірки, що спостерігається, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення х можна визначити вирівняні (передбачені) значення результативного показника y(x) для кожного спостереження.
Зв'язок між у них визначає знак коефіцієнта регресії b (якщо > 0 - прямий зв'язок, інакше - зворотний). У нашому прикладі зв'язок зворотний.
1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативну ознаку в тому випадку, якщо існує відмінність одиниць вимірювання результативного показника у факторної ознаки х.
З цією метою обчислюються коефіцієнти еластичності і бета - коефіцієнти.
Середній коефіцієнт еластичності E показує, наскільки відсотків у середньому за сукупністю зміниться результат увід своєї середньої величини при зміні фактора xна 1% від середнього значення.
Коефіцієнт еластичності знаходиться за формулою:

Коефіцієнт еластичності менший за 1. Отже, при зміні Х на 1%, Y зміниться менш ніж на 1%. Іншими словами – вплив Х на Y не суттєво.
Бета – коефіцієнтпоказує, яку частину величини свого середнього квадратичного відхилення зміниться у середньому значення результативного ознаки при зміні факторного ознаки на величину його середньоквадратичного відхилення при фіксованому постійному значенні інших незалежних змінних:

Тобто. збільшення x на величину середньоквадратичного відхилення S x призведе до зменшення середнього значення Y на 0.74 середньоквадратичного відхилення S y.
1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації. Середня помилка апроксимації - середнє відхилення розрахункових значень від фактичних:

Оскільки помилка менше 15%, то дане рівняння можна використовувати як регресію.
Дисперсійний аналіз.
Завдання дисперсійного аналізу полягає в аналізі дисперсії залежною змінною:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
де
∑(y i - y cp) 2 – загальна сума квадратів відхилень;
∑(y(x) - y cp) 2 - сума квадратів відхилень, обумовлена регресією (пояснена або факторна);
∑(y - y(x)) 2 – залишкова сума квадратів відхилень.
Теоретичне кореляційне відношеннядля лінійного зв'язку дорівнює коефіцієнту кореляції r xy.
Для будь-якої форми залежності тіснота зв'язку визначається за допомогою множинного коефіцієнта кореляції:

Даний коефіцієнт є універсальним, тому що відображає тісноту зв'язку та точність моделі, а також може використовуватися за будь-якої форми зв'язку змінних. При побудові однофакторної кореляційної моделі коефіцієнт множинної кореляції дорівнює коефіцієнту парної кореляції r xy.
1.6. Коефіцієнт детермінації.
Квадрат (множинного) коефіцієнта кореляції називається коефіцієнтом детермінації, що показує частку варіації результативної ознаки, пояснену варіацією факторної ознаки.
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R 2 = -0.74 2 = 0.5413
тобто. у 54.13% випадків зміни х призводять до зміни y. Іншими словами – точність підбору рівняння регресії – середня. Інші 45.87 % зміни Y пояснюються факторами, які не враховані в моделі.

Список літератури

Економетрика: Підручник/За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 34..89.
Магнус Я.Р., Катишев П.К., Пересецький А.А. Економетрики. Початковий курс. Навчальний посібник. - 2-ге вид., Випр. - М.: Справа, 1998, с. 17..42.
Практикум з економетрики: Навч. посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін; За ред. І.І. Єлісєєвої. - М.: Фінанси та статистика, 2001, с. 5..48.