Що показує сигма

Дисперсія, середньоквадратичне (стандартне) відхилення, коефіцієнт варіації в Excel

З попередньої статті ми дізналися про такі показники, як розмах варіації, міжквартильний розмах та середнє лінійне відхилення. У цій статті вивчимо дисперсію, середньоквадратичне відхилення та коефіцієнт варіації.

Дисперсія

Дисперсія випадкової величини – це з основних показників у статистиці. Він відображає міру розкиду даних навколо середньої арифметичної.

Нині невеликий екскурс у теорію ймовірностей, що є основою математичної статистики. Як і маточіння, дисперсія є важливою характеристикою випадкової величини. Якщо маточіння відображає центр випадкової величини, то дисперсія дає характеристику розкиду даних навколо центру.

Формула дисперсії в теорії ймовірностей має вигляд:

Тобто дисперсія – це математичне очікування відхилень від математичного очікування.

Насправді під час аналізу вибірок математичне очікування, зазвичай, невідомо. Тому замість нього використовують оцінку – середнє арифметичне. Розрахунок дисперсії виробляють за такою формулою:

s 2 - вибіркова дисперсія, розрахована за даними спостережень,

X - Окремі значення,

X̅- Середнє арифметичне за вибіркою.

Варто зазначити, що такий розрахунку дисперсії є недолік – вона виходить зміщеною, тобто. її математичне очікування не дорівнює справжньому значенню дисперсії. Детальніше про це тут. Проте зі збільшенням обсягу вибірки вона таки наближається до свого теоретичного аналогу, тобто. є асимптотично не зміщеною.

Простими словами дисперсія – це середній квадрат відхилень.Тобто спочатку розраховується середнє значення, потім береться різниця між кожним вихідним та середнім значенням, зводиться у квадрат, складається і потім ділиться на кількість значень у цій сукупності. Різниця між окремим значенням та середньою відображає міру відхилення. У квадрат зводиться для того, щоб усі відхилення стали виключно позитивними числами і щоб уникнути взаємознищення позитивних та негативних відхилень при їхньому сумуванні. Потім, маючи квадрати відхилень, просто розраховуємо середню арифметичну. Середній – квадрат – відхилень. Відхилення зводяться у квадрат, і вважається середня. Тепер ви знаєте, як знайти дисперсію.

Розрахунок дисперсії в Excel

Генеральну та вибіркову дисперсії легко розрахувати в Excel. Є спеціальні функції: ДИСП.Г і ДИСП.В відповідно.

У чистому вигляді дисперсія не використовується. Це допоміжний показник, який потрібен інших розрахунках. Наприклад, у перевірці статистичних гіпотез чи розрахунку коефіцієнтів кореляції. Звідси непогано знати математичні властивості дисперсії.

Властивості дисперсії

Властивість 1. Дисперсія постійної величини A дорівнює 0 (Нулю).

Властивість 2. Якщо випадкову величину помножити на постійну А, то дисперсія цієї випадкової величини збільшиться в А 2 разів. Іншими словами, множник можна винести за знак дисперсії, звівши його в квадрат.

Властивість 3. Якщо до випадкової величини додати (або відібрати) постійну А, то дисперсія залишиться незмінною.

Властивість 4. Якщо випадкові величини X і Y незалежні, то дисперсія їх суми дорівнює сумі їх дисперсій.

Властивість 5. Якщо випадкові величини X і Y незалежні, то дисперсія їх різниці також дорівнює сумі дисперсій.

Середньоквадратичне (стандартне) відхилення

Якщо з дисперсії витягти квадратний корінь, вийде середньоквадратичне (стандартне) відхилення (скорочено СКО). Зустрічається назва середнє квадратичне відхилення і сигма (Від назви грецької літери). Загальна формула стандартного відхилення в математиці:

Насправді формула стандартного відхилення така:

Як і з дисперсією, є трохи інший варіант розрахунку. Але зі зростанням вибірки різниця зникає.

Розрахунок середньоквадратичного (стандартного) відхилення в Excel

Для розрахунку стандартного відхилення достатньо з дисперсії витягти квадратний корінь. Але в Excel є і готові функції: СТАНДОТКЛОН.Г і СТАНДОТКЛОН. (за генеральною та вибірковою сукупністю відповідно).

Середньоквадратичне відхилення має самі одиниці виміру, що й аналізований показник, тому можна порівняти з вихідними даними.

Коефіцієнт варіації

Значення стандартного відхилення залежить від масштабу самих даних, що дозволяє порівнювати варіабельність різних вибірках. Щоб усунути вплив масштабу, необхідно розрахувати коефіцієнт варіації за формулою:

По ньому можна порівнювати однорідність явищ навіть із різним масштабом даних. У статистиці прийнято, що, якщо значення коефіцієнта варіації менше 33%, то сукупність вважається однорідною, якщо більше 33%, то неоднорідною. Насправді якщо коефіцієнт варіації перевищує 33%, то спеціально нічого робити з цього приводу не потрібно. Це інформація для загального уявлення. Загалом коефіцієнт варіації використовують із оцінки відносного розкиду даних у вибірці.

Розрахунок коефіцієнта варіації в Excel

Розрахунок коефіцієнта варіації в Excel також проводиться розподілом стандартного відхилення на середнє арифметичне:

Коефіцієнт варіації зазвичай виражається у відсотках, тому осередку з формулою можна присвоїти процентний формат:

Коефіцієнт осциляції

Ще один показник розкиду даних на сьогодні – коефіцієнт осциляції. Це співвідношення розмаху варіації (різниці між максимальним та мінімальним значенням) до середньої. Готовий формули Excel немає, тому доведеться скомпонувати три функції: МАКС, МІН, СРЗНАЧ.

Коефіцієнт осциляції показує ступінь розмаху варіації щодо середньої, що можна використовувати для порівняння різних наборів даних.

Таким чином, у статистичному аналізі існує система показників, що відображають розкид чи однорідність даних.

Нижче відео про те, як порахувати коефіцієнт варіації, дисперсію, стандартне (середньоквадратичне) відхилення та інші показники варіації Excel.

Сигма математика: значення та застосування

Сигма (символ "Σ") - це математичний символ, який часто використовується в різних галузях науки та інженерії. Він означає суму послідовності чисел або виразів. Значення цього символу в математиці полягає в тому, що він дозволяє зручно записувати складні висловлювання, які потребують постійного підсумовування.

Використання сигма математики вимагає розуміння базових принципів математичної нотації та вміння застосовувати їх у вирішенні завдань. Це дозволяє спростити та прискорити процес аналізу інформації та підвищити точність результатів.

Що таке сигма математики?

Символ сигми було запроваджено XVII столітті математиком Йозефом Луінхолдом і відтоді став невід'ємною частиною математичної нотації.Він використовується для позначення суми всіх чисел у заданому ряду. Наприклад, сума чисел від 1 до 10 може бути записана як ∑(n = 1 до 10) n.

Сигма математика надає зручний та компактний спосіб запису та позначення суми ряду чисел. Вона дозволяє скоротити довгі і трудомісткі вирази, роблячи їх більш легкочитаними та легкими для розуміння. Це особливо корисно при роботі з великими наборами даних або під час вирішення складних математичних проблем.

З використанням сигма математики можна вирішувати різноманітні завдання, такі як обчислення суми арифметичної чи геометричної прогресії, знаходження середнього значення низки чисел чи суми квадратів чисел. Вона також широко застосовується в інших галузях науки, включаючи фізику, статистику, економіку та інженерію.

Сигма математика є потужним інструментом для роботи з сумами і рядами чисел. Вона спрощує позначення та обчислення складних математичних операцій, а також дозволяє скоротити обсяг роботи та час виконання завдань. Розуміння та застосування сигма математики може значно полегшити математичні обчислення та покращити розуміння різних математичних концепцій.

Значення та основні принципи сигма математики

Сигма математика, також відома як сигма-алгебра, є розділом математики, який вивчає властивості множин та операцій з них. Вона відіграє важливу роль у багатьох галузях науки, техніки та економіки, дозволяючи аналізувати та описувати складні системи та явища.

Основний принцип сигма математики полягає у використанні символу сигма (∑), що означає суму, для стиснення та спрощення математичних виразів.Замість того, щоб перераховувати всі елементи множини та складати їх по черзі, ми можемо застосувати сигму-оператор для обчислення суми всіх елементів за допомогою більш компактного запису.

Крім того, сигма математика також ґрунтується на принципі індукції - методі математичного доказу, який дозволяє нам узагальнювати твердження на всю нескінченність, виходячи з їхньої вірності для деяких початкових умов. Це дозволяє вирішувати складні завдання, які включають нескінченні множини чи послідовності чисел.

Значення сигма математики не обмежується лише академічною областю. Вона широко використовується у фізиці, інженерії, економіці, інформатиці та інших галузях. Наприклад, з її допомогою можна аналізувати ряди даних, моделювати складні системи, оптимізувати процеси та багато іншого.

Також сигма математика відіграє важливу роль у обробці та інтерпретації статистичних даних. Наприклад, її можна використовувати для обчислення середнього значення, дисперсії чи суми певної вибірки. Це важливо для багатьох досліджень і аналітичних завдань, які вимагають обробки великих обсягів даних.

Таким чином, сигма математика має велике значення у сучасному світі. Вона допомагає нам краще розуміти та аналізувати різні явища та системи, спрощує математичні обчислення та сприяє розвитку науки та технологій. Можливо, ви теж зустрічалися із сигма-оператором у своїй освіті чи роботі?

Застосування сигма математики у науці

Застосування сигма математики в науці необмежено і включає різні галузі знання.Наприклад, у фізиці підсумовування може використовуватися розрахунку траєкторій руху частинок, визначення енергетичних рівнів або аналізу експериментальних даних. У біології підсумовування може застосовуватись для обчислення генетичних ймовірностей або аналізу статистичних даних. В економіці підсумовування може допомогти в аналізі доходів та витрат, моделюванні фінансових ринків або прогнозуванні трендів.

Також математика сигма широко використовується в статистиці. Підсумовування може бути корисним обчислення середніх значень, стандартних відхилень чи інших характеристик розподілів даних. У соціальних науках підсумовування може допомогти у аналізі опитувальних даних, обчисленні соціологічних показників чи вивченні суспільних тенденцій.

Приклади застосування сигма математики в науці:

Розрахунок суми прогресії: S = 1 + 2 + 3 + … + n
Апроксимація інтеграла: ∫f(x)dx ≈ ∑f(x)Δx, де Δx — малий крок інтегрування
Обчислення середнього значення: average = 1/n ∑x
Обчислення стандартного відхилення: σ = √(1/n ∑(x — average)^2)

За допомогою сигма математики вчені можуть компактно записувати та аналізувати великі обсяги даних. Це особливо важливо у сучасній науці, де збираються величезні масиви даних, наприклад, у генетиці чи астрофізиці.

Застосування сигма математики у фінансовій аналітиці

Що таке сигма математики?

Сигма математика - це статистичний інструмент, який використовується для вимірювання розкиду даних. Вона дозволяє визначити, наскільки видалені дані від середнього значення, та виміряти ймовірність знаходження даних у певному діапазоні.

Як використовується сигма математика у фінансовій аналітиці?

У фінансовій аналітиці сигма математика використовується для аналізу фінансових даних та оцінки ризиків.Наприклад, за допомогою сигма математики можна визначити, як імовірно отримати прибутковість від певного інвестиційного портфеля або вирішити, наскільки близькі фактичні результати компанії до її прогнозних показників.

Сигма математика також використовується для виявлення викидів у даних та оцінки стабільності фінансових показників. Це допомагає фінансовим аналітикам приймати обґрунтовані рішення, що базуються на надійній статистичній інформації.

Крім того, сигма математика може бути використана для визначення оптимальних рівнів ризику та прибутковості в інвестиційній стратегії. Вона дозволяє визначити, які рівні та розподіл ризику будуть найбільш підходящими для конкретного інвестора чи компанії.

Цікаво, що у фінансовій аналітиці сигма математика може бути використана як на мікрорівні (наприклад, при аналізі фінансових показників окремої компанії), так і на макрорівні (наприклад, при аналізі економічних показників країни).

Переваги використання сигма математики у фінансовій аналітиці

Дозволяє визначити ризики та прогнозувати майбутні результати з високою точністю;
Спрощує процес ухвалення рішень на основі об'єктивних даних;
Дозволяє виявити викиди та аномалії в даних;
Сприяє оптимізації інвестиційних стратегій та рівнів ризику;
Підвищує надійність та достовірність фінансових аналізів.

Сигма в математиці: значення та застосування

Використання символу Сигма в математиці дозволяє компактно та ясно записувати складні суми. Він дозволяє вказати початкове та кінцеве значення змінної та виразити суму всіх проміжних значень цієї змінної.Наприклад, символ Сигма може бути використаний для запису суми перших членів n арифметичної або геометричної прогресії.

Для використання символу Сигма в математичних виразах слід як аргументи вказувати початкове та кінцеве значення змінної, а також вираз, який потрібно підсумовувати. Під знаком Сигма можуть бути як прості числа чи змінні, і складніші формули чи функції.

Застосування символу Сигма не обмежується лише математикою. Він також знаходить застосування у фізиці, статистиці, програмуванні та інших науках. У цих сферах символ Сигма використовується для запису підсумовування великих обсягів даних або результатів експерименту. Він допомагає скоротити обсяг запису та зробити формули більш зрозумілими та лаконічними.

Що таке "сигма"?

Сигмою (σ) у статистичному аналізі позначають стандартне відхилення. Опускаючи тонкощі, які будуть обговорені нижче, можна сказати, що стандартне відхилення — це похибка, то «± скільки-то», яким обов'язково супроводжують вимірювання величини. Якщо ви виміряли масу предмета і отримали результат 100 ± 5 грам, то величина «110 грам» відрізняється від виміряного результату на два стандартні відхилення (тобто на 2 сигми), величина «50 грам» відрізняється на 10 стандартних відхилень (на 10 сигм) .

Навіщо все це потрібно: сигми та ймовірності

Під час обговорення похибок ми вже говорили, що фраза «виміряна маса дорівнює 100 ± 5 грам» зовсім не означає, що справжня маса гарантовано лежить в інтервалі від 95 до 105 г. Вона може виявитися і за межами цього інтервалу «±1σ», але, як правило, недалеко.У невеликому відсотку випадків може навіть статися, що вона виходить за межі інтервалу «± 2σ», і дуже рідко вона виявляється за межами «± 3σ». Загалом, тенденція ясна: кількість сигм пов'язана з ймовірністю того, що справжнє значення настільки відрізнятиметься від виміряного.

Імовірність того, що справжнє значення потрапить у певний інтервал у виміряного середнього значення при нормальному розподілі помилок. Зображення із сайту en.wikipedia.org

Пропустимо всі математичні подробиці та покажемо результат для найпростішого та найпоширенішого випадку, який називається «нормальний розподіл» (див. малюнок). Імовірність потрапити в інтервал ± 1σ - приблизно 68%, в інтервал ± 2σ - приблизно 95%, в інтервал ± 3σ - приблизно 99,8%, і т.д. Отже, можна сформулювати певну домовленість:

Домовленість: вираз якоїсь відмінності в кількості сигм - це повідомлення про те, яка ймовірність, що така або ще сильніша відмінність могла статися за рахунок випадкового збігу обставин при вимірі.

Використовувати цю домовленість можна у різний спосіб. Якщо ви просто повідомляєте результат виміру (100 ± 5 грам) і впевнені в тому, що нормальний розподіл застосовно, то ви можете сказати, що справжнє значення маси з ймовірністю 68% лежить в цьому інтервалі, з ймовірністю 95% лежить в інтервалі від 90 до 110 грам, т.д.

Якщо відмінність складає менше 1σ, то ймовірність того, що два числа узгоджуються один з одним, перевищує 32%. У такому разі просто кажуть, що два результати збігаються у межах похибок.
Якщо відмінність складає менше 3σ, то ймовірність того, що два числа узгоджуються один з одним, більше 0,2%.У фізиці елементарних частинок такої ймовірності замало будь-яких серйозних висновків, і заведено говорити: різницю між двома результатами перестав бути статистично значимим.
Якщо відмінність від 3σ до 5σ, то це привід підозрювати щось серйозне. Втім, навіть у цьому випадку фізики говорять обережно: дані вказують на різницю між двома результатами.
І тільки якщо два результати відрізняються на 5σ або більше, Фізики чітко заявляють: два результати відрізняються один від одного.

Приклад 1

Припустимо, що ви вивчаєте якийсь рідкісний розпад мезону та порівнюєте його з теоретичним передбаченням у рамках Стандартної моделі. Для зручності запису ви висловили результат виміру у вигляді такої величини: μ = (виміряна ймовірність розпаду) / (теоретично передбачена ймовірність розпаду) і отримали відповідь: μ = 1,25±0,25. Що Ви можете сказати про цей результат? По-перше, він відрізняється від нуля на п'ять сигм. Отже, він уже класифікується як відкриття, і тому ви можете сміливо заявляти: ми відкрили шуканий розпад мезону (якщо, звичайно, це вже не зробив хтось до вас; тоді вам доведеться задовольнятися скромним підтвердженням відкриття). По-друге, він відрізняється від одиниці однією сигму. Таке відхилення "нецікаве", воно не дозволяє вам сказати, що ви виявили якесь статистично значуще відмінність від теоретичних розрахунків. Тому ви додаєте: виміряне значення узгоджується з передбаченнями Стандартної моделі. Припустимо, що ви набрали в 25 разів більше статистики, переміряли цю ймовірність і отримали уточнене значення: μ = 1,20±0,05. Відмінність від нуля становить вже 24 сигми, тож сумнівів у реальності ефекту більше не залишається.Відмінність від одиниці становить тепер 4 сигми. Цього ще недостатньо для того, щоб сказати, що ви відкрили Нову фізику. Але ви можете чітко сказати, що ваші дані розходяться з теоретичними пророкуваннями на рівні 4 сигм і вказують на існування ефекту поза стандартною моделлю.

Приклад 2

Ви вивчаєте народження мюонів та антимюонів у якомусь процесі та хочете дізнатися, чи можна зробити висновок про те, що вони народжуються з різною ймовірністю. Для мюонів (μ – ) ви отримали ймовірність народження x_– = 0,18 ± 0,03, а для антимюонів (μ + ) – x₊ = 0,30±0,04. Різниця виходить 0,12, але наскільки значущою є ця відмінність? Якщо обох похибок справедливі нормальні розподіли, і якщо ці похибки повністю незалежні (між ними немає кореляцій), то загальна похибка величини x₊ – x_– обчислюється за формулою підсумовування квадратів. Тому результат виміру x₊ – x_– = 0,12±0,05. Відмінність становить 2,4 сигми, і цього ще недостатньо для серйозних висновків.

«Впевненість» проти «статистичної значущості»

Зауважте, що у наведених вище прикладах нас цікавили питання, куди можна відповісти «так» чи «ні». Чи проступає в отриманих даних якась нова частка? Чи узгоджується розподіл імпульсу з теоретичними розрахунками? Чи залежить переріз процесу від енергії зіткнень? Чи збігається маса у частинки та її античастинки? Спроба відповісти на ці запитання за допомогою даних називається науковою мовою перевіркою гіпотез. Питання, які вимагають розгорнутої відповіді (підрахувати щось, пояснити щось тощо), гіпотезами не називаються. У найпростішому наближенні результат експериментальної перевірки гіпотези виглядає так: відповідь «так» з ймовірністю p та відповідь «ні» з ймовірністю 1 – p. Ці ймовірності дуже важливі повідомлення результату; фізики зазвичай уникають абсолютних тверджень («ми відкрили» чи «ми спростували») без зазначення ймовірностей. Але тут одразу ж треба зробити важливе уточнення. Якщо його чітко усвідомити, то стане зрозумілим, чому такі стандартні для науково-популярних новин фрази, якВчені на 99% упевнені, що відкрили щось нове», - оманливі. Точне формулювання, яке зазвичай використовують вчені, таке: При перевірці гіпотези отримано відповідь так на рівні статистичної значимості p. При цьому величина p часто виражається у вигляді кількості сигм. В англомовній літературі використовується словосполучення confidence level, CL (довірчий рівень). У російськомовній ще іноді кажуть «статистична достовірність», але такий вираз може призвести до плутанини у розумінні. Відмінність «популярної» фрази від справжнього твердження ось у чому. У кожному вимірі є як статистичні, а й систематичні похибки. Описані вище правила зв'язку ймовірностей та кількості сигм працюють тільки для статистичних похибок — і то якщо до них застосовується нормальний розподіл. Якщо статистичні похибки можна обрахувати акуратно, то систематичні похибки — це трошки мистецтво. Більше того, із багаторічного досвіду відомо, що сильні систематичні відхилення точно не описуються нормальним розподілом, і тому їм правила перерахунку не справедливі. Так що навіть якщо експериментатори все перевірили ще раз раз і вказали систематичну похибку, завжди залишається ризик, що вони щось втратили з уваги. Коректно оцінити цей ризик неможливотому ви насправді не знаєте, з якою істинною ймовірністю ваша відповідь вірна. Звичайно, за умовчанням систематичним похибкам варто довіряти, особливо якщо вони походять від досвідчених експериментальних груп. Але віковий досвід вивчення елементарних частинок показує, що незважаючи на всі застереження регулярно трапляються проколи. Буває, що колаборація отримує результат, що сильно суперечить якійсь гіпотезі, перевіряє ще раз аналіз багато разів і ніяких помилок у себе не знаходить. Однак цей результат потім не підтверджується іншими — часом набагато точнішими! - Експериментами. Чому перший експеримент дав такий дивний результат, що в ньому було не те, де там помилка або неврахована похибка — все це часто так і залишається незрозумілим (втім, іноді джерело помилки швидко розкривається, як це сталося зі «надсвітловими» нейтрино в експерименті OPERA) . Фізики до таких оборотів подій вже звикли, тому кожен експериментальний результат, що сильно відрізняється від всієї картини, що склалася на той час, викликає виправданий скепсис. Фізики такі консервативні у своєму відношенні зовсім не тому, що вони ретрогради і намертво увірували в якусь одну теорію, як це хочуть уявити спростовники фізики. Вони просто навчені всім попереднім досвідом у фізиці частинок і знають, чим це зазвичай закінчується. Тому без незалежного підтвердження іншими експериментами, подібні сенсації вони не підтримують.

ФЕЧ у порівнянні з іншими науками

Слід сказати, що сформульовані вище жорсткі критерії статистичної достовірності характерні саме для фізики елементарних частинок і деяких суміжних розділів.У багатьох інших розділах фізики, а тим більше в інших дисциплінах (особливо в біомедичних науках) критерії набагато слабші. Припустимо, ви виміряли деякі дані і хочете дізнатися, яка ймовірність того, що вони «вписуються в норму». Ви проводите статистичний тест, який дає вам ймовірність того, що «нормальна ситуація» без будь-якого реального відхилення тільки за рахунок статистичної флуктуації дасть ось таке чи ще сильніше відхилення. Ця ймовірність називається p-значення. У біології граничне p-значення, нижче якого вже впевнено говорять про реальне відмінність, становить чи навіть кілька відсотків. У фізиці елементарних частинок таку відмінність взагалі не вважають значущою, тут немає навіть «вказівки на існування» якоїсь відмінності! Відповідальна заява про відмінність звучить у ФЕЧ тільки для p- значень менше однієї двомільйонної (тобто відхилення більше 5?). Такий жорсткий підхід до достовірності тверджень виробився ФЕЧ приблизно півстоліття тому, в епоху, коли експериментатори бачили багато відхилень зі значимістю в районі 3σ і сміливо заявляли про відкриття нових частинок, хоча потім ці «відкриття» не підтверджувалися. Детальну розповідь про витоки цього критерію див. у постах Tommaso Dorigo (частина 1, частина 2).