Остання цифра числа. Узагальнене середнє

У математиці середнє арифметичне значення чисел (чи навіть середнє) — це сума всіх чисел у цьому наборі, поділена їх кількість. Це найбільш узагальнене та поширене поняття середньої величини. Як ви вже зрозуміли, щоб знайти потрібно підсумовувати всі дані вам числа, а отриманий результат поділити на кількість доданків.

Що таке середнє арифметичне?

Давайте розглянемо приклад.

Приклад 1. Дано числа: 6, 7, 11. Потрібно знайти їхнє середнє значення.

Рішення.

Спочатку знайдемо суму всіх цих чисел.

Тепер розділимо суму, що вийшла, на кількість доданків. Так як у нас складові три, відповідно, ми ділитимемо на три.

Отже, середнє значення чисел 6, 7 та 11 — це 8. Чому саме 8? Та тому, що сума 6, 7 та 11 буде такою самою, як трьох вісімок. Це добре видно на ілюстрації.

Середнє значення чимось нагадує вирівнювання ряду чисел. Як бачите, купки олівців стали одного рівня.

Розглянемо ще один приклад, щоб закріпити отримані знання.

приклад 2.Дано числа: 3, 7, 5, 13, 20, 23, 39, 23, 40, 23, 14, 12, 56, 23, 29. Потрібно знайти їхнє середнє арифметичне значення.

Рішення.

Знаходимо суму.

3 + 7 + 5 + 13 + 20 + 23 + 39 + 23 + 40 + 23 + 14 + 12 + 56 + 23 + 29 = 330

Ділимо на кількість доданків (у цьому випадку - 15).

Отже, середнє значення даного ряду чисел дорівнює 22.

Тепер розглянемо негативні числа. Згадаймо, як їх підсумовувати. Наприклад, у вас є два числа 1 та -4. Знайдемо їхню суму.

1 + (-4) = 1 - 4 = -3

Знаючи це, розглянемо ще один приклад.

приклад 3.Знайти середнє значення низки чисел: 3, -7, 5, 13, -2.

Рішення.

Знаходимо суму чисел.

3 + (-7) + 5 + 13 + (-2) = 12

Так як доданків 5, розділимо суму, що вийшла на 5.

Отже, середнє арифметичне значення чисел 3, -7, 5, 13, -2 дорівнює 2,4.

У наш час технологічного прогресу набагато зручніше використовуватиме знаходження середнього значення комп'ютерні програми. Microsoft Office Excel – одна з них. Шукати середнє значення в Excel швидко та просто. Тим більше, що ця програма входить до пакета програм від Microsoft Office. Розглянемо коротку інструкціюзначення за допомогою цієї програми.

Щоб порахувати середнє значення ряду чисел, необхідно використовувати функцію AVERAGE. Синтаксис для цієї функції:
= Average (argument1, argument2, ... argument255)
де argument1, argument2, ... argument255 - це або числа, або посилання на комірки (під комірками маються на увазі діапазони та масиви).

Щоб було зрозуміліше, опробуємо отримані знання.

  1. Введіть числа 11, 12, 13, 14, 15, 16 у комірки С1 - С6.
  2. Виділіть комірку С7, натиснувши на неї. У цьому осередку у нас буде відображатися середнє значення.
  3. Клацніть на вкладці Формули.
  4. Виберіть More Functions > Statistical, щоб відкрити
  5. Виберіть AVERAGE. Після цього має відкритися діалогове вікно.
  6. Виділіть та перетягніть туди осередки С1-С6, щоб задати діапазон у діалоговому вікні.
  7. Підтвердіть свої дії за допомогою клавіші «ОК».
  8. Якщо ви все зробили правильно, у комірці С7 у вас має з'явитися відповідь – 13,7. При натисканні на комірку C7 функція (= Average (C1: C6)) відображатиметься у рядку формул.

Дуже зручно використовувати цю функцію для ведення обліку, накладних або, коли вам просто потрібно знайти середнє значення з дуже довгого ряду чисел. Тому її часто використовують в офісах та великих компаніях. Це дозволяє зберігати порядок у записах і дозволяє швидко порахувати що-небудь (наприклад, середній дохід за місяць). Також за допомогою Excel можна знайти середнє значення функції.

Типи середніх

Середньою величиною по Кошіє будь-яка функція така, що при всіх можливих значеннях аргументів значення цієї функції не менше, ніж мінімальне з чисел і не більше, ніж максимальне з цих чисел.

Середнє за Колмогоровимдля дійсних чисел – величина виду

де - безперервна строго монотонна функція, а - функція, обернена до . При отримують середнє арифметичне, при - середнє геометричне, при - середнє гармонійне, при - середнє квадратичне, при - середнє статечне.

Така функція має властивості безперервності, монотонності по кожному, симетричності. Середнє від однакових чиселодно їх загальному значенню.

.

Мода- значення у безлічі спостережень, що зустрічається найчастіше. Іноді разом зустрічається більш ніж одна мода (наприклад: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 та 9). І тут можна сказати, що сукупність мультимодальна. Зі структурних середніх величин тільки мода володіє таким унікальною властивістю. Як правило, мультимодальність вказує на те, що набір даних не підпорядковується нормальному розподілу .

Мода, як середня величина, може використовується для даних, що мають нечислову природу. Серед перерахованих кольорів автомобілів - білий, чорний, синій, білий, синій, білий- мода дорівнюватиме біломукольору. При експертній оцінці з її допомогою визначають найпопулярніші типи продукту, що враховується під час прогнозу продажу чи плануванні їх виробництва.

Медіана (50-й процентиль, квантиль 0,5)- можливе значення ознаки, що ділить ранжовану сукупність (варіаційний ряд вибірки) на дві рівні частини: 50 % «нижніх» одиниць ряду даних матимуть значення ознаки не більше, ніж медіана, а «верхні» 50 % - значення ознаки не менше ніж медіану.

Середні у порядковій шкалі

З усіх середніх по Коші допустимими середніми у порядковій шкалі є лише члени варіаційного ряду (порядкові статистики). Як середнє для даних, виміряних у порядковій шкалі, можна використовувати, зокрема, медіану (при непарному обсязі вибірки). При парному обсязі слід застосовувати один із двох центральних членів варіаційного ряду - як їх іноді називають, ліву медіану або праву медіану. Моду теж можна використовувати – вона завжди є членом варіаційного ряду. Але ніколи не можна розраховувати середнє арифметичне, середнє геометричне тощо.

У більшості випадків дані концентруються навколо якоїсь центральної точки. Таким чином, щоб описати будь-який набір даних, достатньо вказати середнє значення. Розглянемо послідовно три числові характеристики, що використовуються для оцінки середнього значення розподілу: середнє арифметичне, медіана та мода.

Середнє арифметичне

Середнє арифметичне (часто зване просто середнім) – найпоширеніша оцінка середнього значення розподілу. Вона є результатом розподілу суми всіх числових величин, що спостерігаються, на їх кількість. Для вибірки, що складається з чисел Х 1, Х 2, …, Хn, вибіркове середнє (позначається символом ) одно = (Х 1 + Х 2 + … + Хn) / n, або

де - вибіркове середнє, n- обсяг вибірки, Xii-й елементвибірки.

Завантажити нотатку у форматі або , приклади у форматі

Розглянемо обчислення середнього арифметичного значення п'ятирічної середньорічної прибутковості 15 взаємних фондів з дуже високим рівнемризику (рис. 1).

Мал. 1. Середньорічна доходність 15 взаємних фондів із дуже високим рівнем ризику

Вибіркове середнє обчислюється так:

Це гарний дохід, особливо в порівнянні з 3-4% доходу, який отримали вкладники банків або кредитних спілок за той же час. Якщо впорядкувати значення прибутковості, то легко помітити, що вісім фондів мають прибутковість вищу, а сім - нижчу за середнє значення. Середнє арифметичне відіграє роль точки рівноваги, тому фонди з низькими доходами врівноважують фонди з високими доходами. У обчисленні середнього задіяні всі елементи вибірки. Жодна з інших оцінок середнього значення розподілу не має цієї властивості.

Коли слід обчислювати середнє арифметичне.Оскільки середнє арифметичне залежить від усіх елементів вибірки, наявність екстремальних значень впливає на результат. У таких ситуаціях середнє арифметичне може спотворити зміст числових даних. Отже, описуючи набір даних, що містить екстремальні значення, необхідно вказувати медіану або середнє арифметичне та медіану. Наприклад, якщо видалити з вибірки прибутковість фонду RS Emerging Growth, вибіркова середня прибутковість 14 фондів зменшиться майже на 1% і становитиме 5,19%.

Медіана

Медіана є серединним значенням упорядкованого масиву чисел. Якщо масив не містить чисел, що повторюються, то половина його елементів виявиться менше, а половина - більше медіани. Якщо вибірка містить екстремальні значення, для оцінки середнього значення краще використовувати середнє арифметичне, а медіану. Щоб визначити медіану вибірки, її спочатку необхідно впорядкувати.

Ця формула неоднозначна. Її результат залежить від парності чи непарності числа n:

  • Якщо вибірка містить непарну кількість елементів, медіана дорівнює (n+1)/2-му елементу.
  • Якщо вибірка містить парну кількість елементів, медіана лежить між двома середніми елементами вибірки і дорівнює середньому арифметичному, обчисленому за цими двома елементами.

Щоб обчислити медіану вибірки, що містить дані про прибутковість 15 взаємних фондів з дуже високий рівень ризику, спочатку необхідно впорядкувати вихідні дані (рис. 2). Тоді медіана буде навпроти номера середнього елемента вибірки; у прикладі №8. В Excel є спеціальна функція = МЕДІАНА (), яка працює і з невпорядкованими масивами теж.

Мал. 2. Медіана 15 фондів

Таким чином, медіана дорівнює 6,5. Це означає, що доходність однієї половини фондів з дуже високим рівнем ризику не перевищує 6,5, а доходність другої половини – перевищує її. Зверніть увагу на те, що медіана, що дорівнює 6,5, не набагато більше середнього значення, що дорівнює 6,08.

Якщо видалити з вибірки дохідність фонду RS Emerging Growth, то медіана 14 фондів, що залишилися, зменшиться до 6,2%, тобто не так значно, як середня арифметична (рис. 3).

Мал. 3. Медіана 14 фондів

Мода

Термін був вперше введений Пірсоном в 1894 р. Мода - це число, яке найчастіше зустрічається у вибірці (найбільш модне). Мода добре описує, наприклад, типову реакцію водіїв на сигнал світлофора про припинення руху. Класичний прикладвикористання моди - вибір розміру випускається партії взуття або кольору шпалер. Якщо розподіл має кілька мод, то кажуть, що він мультимодальний або багатомодальний (має два або більше «піка»). Мультимодальність розподілу дає важливу інформаціюпро природу досліджуваної змінної. Наприклад, у соціологічних опитуваннях, якщо змінна є перевагу чи ставлення до чогось, то мультимодальність може означати, що є кілька безумовно різних думок. Мультимодальність також служить індикатором того, що вибірка не є однорідною та спостереження, можливо, породжені двома або більше «накладеними» розподілами. На відміну від середнього арифметичного викиди на моду не впливають. Для безперервно розподілених випадкових величин, наприклад, для показників середньорічної прибутковості взаємних фондів, мода іноді взагалі немає (чи немає сенсу). Оскільки ці показники можуть приймати різні значення, повторювані величини зустрічаються вкрай рідко.

Квартилі

Квартілі - це показники, які найчастіше використовуються з метою оцінки розподілу даних при описі властивостей великих числових вибірок. У той час як медіана розділяє впорядкований масив навпіл (50% елементів масиву менше медіани і 50% - більше), квартилі розбивають впорядкований набір даних на чотири частини. Величини Q 1 медіана і Q 3 є 25-м, 50-м і 75-м перцентилем відповідно. Перший квартиль Q 1 - це число, що розділяє вибірку на дві частини: 25% елементів менше, а 75% - більше за перший квартиль.

Третій квартиль Q 3 - це число, що розділяє вибірку також на дві частини: 75% елементів менше, а 25% - більше за третій квартиль.

Для розрахунку квартилів у версіях Excel до 2007 р. використовувалася функція = КВАРТИЛЬ (масив; частина). Починаючи з версії Excel2010, застосовуються дві функції:

  • =КВАРТИЛЬ.ВКЛ(масив;частина)
  • = КВАРТИЛЬ. ВИКЛ (масив; частина)

Ці дві функції дають небагато різні значення(Рис. 4). Наприклад, при обчисленні квартилів вибірки, що містить дані про середньорічну прибутковість 15 взаємних фондів з дуже високим рівнем ризику Q 1 = 1,8 або -0,7 для КВАРТИЛЬ.ВКЛ і КВАРТИЛЬ.ІСКЛ, відповідно. До речі функція КВАРТИЛЬ, що використовувалася раніше, відповідає сучасній функції КВАРТИЛЬ.ВКЛ. Для розрахунку квартилів в Excel за допомогою наведених вище формул масив даних можна не впорядковувати.

Мал. 4. Обчислення квартилів в Excel

Наголосимо ще раз. Excel вміє розраховувати квартілі для одновимірного дискретного ряду, Що містить значення випадкової величини Розрахунок квартилів для розподілу на основі частот наведено нижче в розділі.

Середнє геометричне

На відміну від середнього арифметичного, середнє геометричне дозволяє оцінити ступінь зміни змінної з часом. Середнє геометричне – це корінь n-й ступеня з твору nвеличин (в Excel використовується функція = СРГЕОМ):

G= (X 1 * X 2 * … * X n) 1/n

Схожий параметр – середнє геометричне значення норми прибутку – визначається формулою:

G = [(1 + R 1) * (1 + R 2) * … * (1 + R n)] 1/n – 1,

де R i– норма прибутку за i-й період часу.

Наприклад, припустимо, що обсяг вкладених коштів у вихідний момент часу дорівнює 100 000 дол. До кінця першого року він падає до рівня 50 000 дол., а до кінця другого року відновлюється до вихідної позначки 100 000 дол. дорівнює 0, оскільки початковий та фінальний обсяг коштів рівні між собою. Однак середнє арифметичне річних норм прибутку дорівнює = (-0,5 + 1) / 2 = 0,25 або 25%, оскільки норма прибутку в перший рік R 1 = (50 000 - 100 000) / 100 000 = -0,5 , а другий R 2 = (100 000 – 50 000) / 50 000 = 1. У той самий час, середнє геометричне значення норми прибутку протягом двох років одно: G = [(1–0,5) * (1+1 )] 1/2 – 1 = ½ – 1 = 1 – 1 = 0. Таким чином, середня геометрична точніше відображає зміну (точніше, відсутність змін) обсягу інвестицій за дворічний період, ніж середня арифметична.

Цікаві факти.По-перше, середнє геометричне завжди буде менше середнього арифметичного тих самих чисел. За винятком випадку, коли всі взяті числа дорівнюють один одному. По-друге, розглянувши властивості прямокутного трикутника, можна зрозуміти, чому середнє називається геометричним. Висота прямокутного трикутника, опущена на гіпотенузу, є середнім пропорційним між проекціями катетів на гіпотенузу, а кожен катет є середнім пропорційним між гіпотенузою і його проекцією на гіпотенузу (рис. 5). Це дає геометричний спосіб побудови середнього геометричного двох (довжин) відрізків: потрібно побудувати коло на сумі цих двох відрізків як на діаметрі, тоді висота, відновлена ​​з точки їх з'єднання до перетину з колом, дасть шукану величину:

Мал. 5. Геометрична природа середнього геометричного (рисунок з Вікіпедії)

Друга важлива властивість числових даних - їх варіація, Що характеризує ступінь дисперсії даних Дві різні вибірки можуть відрізнятися як середніми значеннями, і варіаціями. Однак, як показано на рис. 6 і 7, дві вибірки можуть мати однакові варіації, але різні середні значення, або однакові середні значення і різні варіації. Дані, яким відповідає полігон на рис. 7 змінюються набагато менше, ніж дані, за якими побудований полігон А.

Мал. 6. Два симетричні розподіли дзвоноподібної форми з однаковим розкидом і різними середніми значеннями

Мал. 7. Два симетричні розподіли дзвоноподібної форми з однаковими середніми значеннями та різним розкидом

Існує п'ять оцінок варіації даних:

  • розмах,
  • міжквартильний розмах,
  • дисперсія,
  • стандартне відхилення,
  • коефіцієнт варіації.

Розмах

Розмахом називається різниця між найбільшим і найменшим елементамивибірки:

Розмах = ХMax – ХMin

Розмах вибірки, що містить дані про середньорічну дохідність 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи впорядкований масив (рис. 4): Розмах = 18,5 – (-6,1) = 24,6. Це означає, що різниця між найбільшою та найменшою середньорічною прибутковістю фондів з дуже високим рівнем ризику дорівнює 24,6%.

Розмах дозволяє виміряти загальний розкид даних. Хоча розмах вибірки є дуже простою оцінкою загального розкиду даних, його слабкість у тому, що він не враховує, як саме розподілені дані між мінімальним і максимальним елементами. Цей ефект добре простежується на рис. 8, який ілюструє вибірки, що мають однаковий розмах. Шкала демонструє, що якщо вибірка містить хоча б одне екстремальне значення, розмах вибірки виявляється дуже неточною оцінкою розкиду даних.

Мал. 8. Порівняння трьох вибірок, що мають однаковий розмах; трикутник символізує опору терезів, і його розташування відповідає середньому значенню вибірки

Міжквартильний розмах

Міжквартильний, або середній, розмах – це різниця між третім та першим квартилями вибірки:

Міжквартильний розмах = Q 3 - Q 1

Ця величина дозволяє оцінити розкид 50% елементів та не враховувати вплив екстремальних елементів. Міжквартильний розмах вибірки, що містить дані про середньорічну прибутковість 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи дані на рис. 4 (наприклад, для функції КВАРТИЛЬ. ВИКЛ): Міжквартильний розмах = 9,8 – (–0,7) = 10,5. Інтервал, обмежений числами 9,8 та –0,7, часто називають середньою половиною.

Слід зазначити, що величини Q 1 і Q 3 , а значить, і міжквартильний розмах, не залежать від наявності викидів, оскільки при їх обчисленні не враховується жодна величина, яка була б меншою за Q 1 або більше за Q 3 . Сумарні кількісні характеристики, такі як медіана, перший та третій квартілі, а також міжквартильний розмах, на які не впливають викиди, називаються стійкими показниками.

Хоча розмах та міжквартильний розмах дозволяють оцінити загальний та середній розкид вибірки відповідно, жодна з цих оцінок не враховує, як саме розподілені дані. Дисперсія та стандартне відхиленняпозбавлені цього недоліку. Ці показники дозволяють оцінити рівень коливання даних навколо середнього значення. Вибіркова дисперсіяє наближенням середнього арифметичного, обчисленого на основі квадратів різниць між кожним елементом вибірки та середнім вибірковим. Для вибірки Х 1 , Х 2 ... Х n вибіркова дисперсія (позначається символом S 2 задається наступною формулою:

У загальному випадку вибіркова дисперсія - це сума квадратів різниць між елементами вибірки і середнім вибірковим, поділена на величину, рівну обсягу вибірки мінус один:

де - арифметичне середнє, n- обсяг вибірки, X i - i-й елемент вибірки X. В Excel до версії 2007 для розрахунку вибіркової дисперсії використовувалася функція = ДИСП(), з версії 2010 використовується функція = ДИСП.

Найбільш практичною та широко поширеною оцінкою розкиду даних є стандартне вибіркове відхилення. Цей показник позначається символом S і дорівнює квадратного кореняз вибіркової дисперсії:

В Excel до версії 2007 для розрахунку стандартного вибіркового відхилення використовувалася функція = СТАНДОТКЛОН(), з версії 2010 використовується функція = СТАНДОТКЛОН. Для розрахунку цих функцій масив даних може бути невпорядкованим.

Ні вибіркова дисперсія, ні стандартне вибіркове відхилення не можуть бути негативними. Єдина ситуація, в якій показники S 2 і S можуть бути нульовими, якщо всі елементи вибірки рівні між собою. У цьому зовсім неймовірному випадкурозмах і міжквартильний розмах також дорівнюють нулю.

Числові дані за своєю природою мінливі. Будь-яка змінна може приймати безліч різних значень. Наприклад, різні взаємні фонди мають різні показникиприбутковості та збитків. Внаслідок мінливості числових даних дуже важливо вивчати як оцінки середнього значення, які за своєю природою є сумарними, а й оцінки дисперсії, що характеризують розкид даних.

Дисперсія і стандартне відхилення дозволяють оцінити розкид даних навколо середнього значення, інакше кажучи, визначити скільки елементів вибірки менше середнього, а скільки більше. Дисперсія має деякі цінні математичні властивості. Проте її величина є квадрат одиниці виміру - квадратний відсоток, квадратний долар, квадратний дюйм і т.п. Отже, природною оцінкою дисперсії є стандартне відхилення, яке виражається у звичайних одиницях вимірів - відсотках доходу, доларах чи дюймах.

Стандартне відхилення дає змогу оцінити величину коливань елементів вибірки навколо середнього значення. Практично у всіх ситуаціях основна кількість величин, що спостерігаються, лежить в інтервалі плюс-мінус одне стандартне відхилення від середнього значення. Отже, знаючи середнє арифметичне елементів вибірки та стандартне вибіркове відхилення, можна визначити інтервал, якому належить основна маса даних.

Стандартне відхилення прибутковості 15 взаємних фондів із дуже високим рівнем ризику дорівнює 6,6 (рис. 9). Це означає, що дохідність основної маси фондів відрізняється від середнього значення не більше ніж на 6,6% (тобто коливається в інтервалі від - S= 6,2 - 6,6 = -0,4 до + S= 12,8). Фактично в цьому інтервалі лежить п'ятирічна середньорічна прибутковість 53,3% (8 із ​​15) фондів.

Мал. 9. Стандартне вибіркове відхилення

Зверніть увагу на те, що в процесі підсумовування квадратів різниць елементи вибірки, що лежать далі від середнього значення, набувають більшої ваги, ніж елементи, що лежать ближче. Ця властивість є основною причиною того, що для оцінки середнього значення розподілу найчастіше використовують середнє арифметичне значення.

Коефіцієнт варіації

На відміну від попередніх оцінок розкиду коефіцієнт варіації є відносною оцінкою. Він завжди вимірюється у відсотках, а не в одиницях виміру вихідних даних. p align="justify"> Коефіцієнт варіації, що позначається символами CV, вимірює розсіювання даних щодо середнього значення. Коефіцієнт варіації дорівнює стандартному відхилення, поділеному на середнє арифметичне та помноженому на 100%:

де S- стандартне вибіркове відхилення, - Вибіркове середнє.

Коефіцієнт варіації дозволяє порівняти дві вибірки, елементи яких виражаються в різних одиницяхвимірювання. Наприклад, керуючий служби доставки кореспонденції має намір оновити парк вантажівок. При завантаженні пакетів слід враховувати два види обмежень: вага (у фунтах) та обсяг (у кубічних футах) кожного пакета. Припустимо, що у вибірці, що містить 200 пакетів, середня вага дорівнює 26,0 фунтів, стандартне відхилення ваги 3,9 фунтів, середній об'єм пакета 8,8 кубічних футів, а стандартне відхилення обсягу 2,2 кубічних футів. Як порівняти розкид ваги та обсягу пакетів?

Оскільки одиниці виміру ваги та обсягу відрізняються один від одного, керуючий повинен порівняти відносний розкид цих величин. Коефіцієнт варіації ваги дорівнює CV W = 3,9 / 26,0 * 100% = 15%, а коефіцієнт варіації обсягу CV V = 2,2 / 8,8 * 100% = 25%. Таким чином, відносний розкид обсягу пакетів набагато більший від відносного розкиду їх ваги.

Форма розподілу

Третя важлива властивість вибірки – форма її розподілу. Цей розподіл може бути симетричним чи асиметричним. Щоб описати форму розподілу, необхідно обчислити його середнє та медіану. Якщо ці два показники збігаються, змінна вважається симетрично розподіленою. Якщо середнє значення змінної більше за медіану, її розподіл має позитивну асиметрію (рис. 10). Якщо медіана більша за середнє значення, розподіл змінної має негативну асиметрію. Позитивна асиметрія виникає, коли середнє значення збільшується до надзвичайно високих значень. Негативна асиметрія виникає, коли середнє значення зменшується до надзвичайно малих значень. Змінна є симетрично розподіленою, якщо вона не набуває жодних екстремальних значень в жодному з напрямків, так що великі та малі значення змінної врівноважують один одного.

Мал. 10. Три види розподілів

Дані, що зображені на шкалі А, мають негативну асиметрію. На цьому малюнку видно довгий хвіст і перекіс вліво, викликані наявністю надзвичайно малих значень. Ці вкрай малі величини зміщують середнє значення вліво, і воно стає меншим за медіану. Дані, що зображені на шкалі Б, розподілені симетрично. Ліва та права половини розподілу є своїми дзеркальними відображеннями. Великі та малі величини врівноважують одна одну, а середнє значення і медіана рівні між собою. Дані, зображені на шкалі, мають позитивну асиметрію. На цьому малюнку видно довгий хвіст і перекіс праворуч, викликані наявністю надзвичайно високих значень. Ці надто великі величини зміщують середнє значення вправо, і воно стає більше медіани.

В Excel описові статистики можна отримати за допомогою надбудови Пакет аналізу. Пройдіть меню ДаніАналіз даних, у вікні виберіть рядок Описова статистикаі клацніть Ok. У вікні Описова статистикаобов'язково вкажіть Вхідний інтервал(Рис. 11). Якщо ви хочете побачити описові статистики на тому ж аркуші, що й вихідні дані, виберіть перемикач Вихідний інтервалі вкажіть комірку, куди слід помістити лівий верхній кут статистик, що виводяться (у нашому прикладі $C$1). Якщо ви хочете вивести дані на новий листабо в нову книгу досить просто вибрати відповідний перемикач. Поставте галочку навпроти Підсумкова статистика. За бажанням також можна вибрати Рівень складності,k-й найменший таk-й найбільший.

Якщо на вкладі Данів області Аналізу вас не відображається піктограма Аналіз даних, потрібно попередньо встановити надбудову Пакет аналізу(Див., Наприклад, ).

Мал. 11. Описові статистики п'ятирічної середньорічної доходності фондів з дуже високим рівнем ризику, обчислені за допомогою надбудови Аналіз данихпрограми Excel

Excel обчислює цілий рядстатистик, розглянутих вище: середнє, медіану, моду, стандартне відхилення, дисперсію, розмах ( інтервал), мінімум, максимум та обсяг вибірки ( рахунок). Крім того, Excel обчислює деякі нові для нас статистики: стандартну помилку, ексцес та асиметричність. Стандартна помилкадорівнює стандартному відхилення, поділеному на квадратний корінь обсягу вибірки. Асиметричністьхарактеризує відхилення від симетричності розподілу і є функцією, яка залежить від куба різниць між елементами вибірки та середнім значенням. Ексцес є мірою відносної концентрації даних навколо середнього значення в порівнянні з хвостами розподілу і залежить від різниць між елементами вибірки і середнім значенням, зведених в четвертий ступінь.

Обчислення описових статистик для генеральної сукупності

Середнє значення, розкид і форма розподілу, розглянуті вище, є показниками, що визначаються за вибіркою. Однак, якщо набір даних містить числові вимірювання усієї генеральної сукупності, можна обчислити її параметри. До таких параметрів ставляться математичне очікування, дисперсія і стандартне відхилення генеральної сукупності.

Математичне очікуваннядорівнює сумі всіх значень генеральної сукупності, поділеної на обсяг генеральної сукупності:

де µ - математичне очікування, Xi- i-е спостереження змінної X, N- Обсяг генеральної сукупності. В Excel для обчислення математичного очікування використовується та сама функція, що й для середнього арифметичного: = СРЗНАЧ().

Дисперсія генеральної сукупностідорівнює сумі квадратів різниць між елементами генеральної сукупності та мат. очікуванням, поділеної на обсяг генеральної сукупності:

де σ 2- Дисперсія генеральної сукупності. Excel до версії 2007 для обчислення дисперсії генеральної сукупності використовується функція =ДИСПР(), починаючи з версії 2010 =ДИСП.Г().

Стандартне відхилення генеральної сукупностідорівнює квадратному кореню, витягнутому з дисперсії генеральної сукупності:

В Excel до версії 2007 для обчислення стандартного відхилення генеральної сукупності використовується функція =СТАНДОТКЛОНП(), починаючи з версії 2010=СТАНДОТКЛОН.Г(). Зверніть увагу на те, що формули для дисперсії та стандартного відхилення генеральної сукупності відрізняються від формул для обчислення вибіркової дисперсії та стандартного відхилення. При обчисленні вибіркових статистик S 2і Sзнаменник дробу дорівнює n – 1, а при обчисленні параметрів σ 2і σ - обсягом генеральної сукупності N.

Емпіричне правило

Більшість ситуацій велика частка спостережень концентрується навколо медіани, утворюючи кластер. У наборах даних, що мають позитивну асиметрію, цей кластер розташований лівіше (тобто нижче) математичного очікування, а в наборах, що мають негативну асиметрію, цей кластер розташований правіше (тобто вище) математичного очікування. У симетричних даних математичне очікування і медіана збігаються, а спостереження концентруються навколо математичного очікування, формуючи дзвоновий розподіл. Якщо розподіл не має яскраво вираженої асиметрії, а дані концентруються навколо якогось центру тяжкості, для оцінки мінливості можна застосовувати емпіричне правило, яке свідчить: якщо дані мають дзвоновий розподіл, то приблизно 68% спостережень відстоять від математичного очікування не більше ніж на одне стандартне відхилення, приблизно 95% спостережень відстоять від математичного очікування лише на два стандартних відхилення і 99,7% спостережень відстоять від математичного очікування лише на три стандартних відхилення.

Таким чином, стандартне відхилення, що є оцінкою середнього коливання навколо математичного очікування, допомагає зрозуміти, як розподілені спостереження, і ідентифікувати викиди. З емпіричного правила випливає, що для дзвонових розподілів лише одне значення з двадцяти відрізняється від математичного очікування більше, ніж на два стандартні відхилення. Отже, значення, що лежать за межами інтервалу µ ± 2σ, можна вважати викидами. Крім того, лише три з 1000 спостережень відрізняються від математичного очікування більш ніж на три стандартні відхилення. Таким чином, значення, що лежать за межами інтервалу µ ± 3σМайже завжди є викидами. Для розподілів, що мають сильну асиметрію або не мають дзвоноподібної форми, можна застосовувати емпіричне правило Бьенаме-Чебишева.

Понад сто років тому математики Б'єнаме та Чебишев незалежно один від одного відкрили корисна властивістьстандартного відхилення. Вони виявили, що для будь-якого набору даних, незалежно від форми розподілу, відсоток спостережень, що лежать на відстані, що не перевищує kстандартних відхилень від математичного очікування, не менше (1 – 1/ k 2) * 100%.

Наприклад, якщо k= 2, правило Бьенаме-Чебишева говорить, що як мінімум (1 – (1/2) 2) х 100% = 75% спостережень має лежати в інтервалі µ ± 2σ. Це правило справедливе для будь-кого k, Що перевищує одиницю. Правило Бьенаме-Чебишева носить дуже загальний характері справедливо для розподілу будь-якого виду. Воно вказує мінімальна кількістьспостережень, відстань яких до математичного очікування вбирається у заданої величини. Однак, якщо розподіл має дзвонову форму, емпіричне правило більш точно оцінює концентрацію даних навколо математичного очікування.

Обчислення описових статистик для розподілу на основі частот

Якщо вихідні дані недоступні, єдиним джерелом інформації стає розподілення частот. У таких ситуаціях можна вирахувати наближені значення кількісних показників розподілу, таких як середнє арифметичне, стандартне відхилення, квартили.

Якщо вибіркові дані представлені у вигляді розподілу частот, наближене значення середнього арифметичного можна обчислити, припускаючи, що всі значення всередині кожного класу зосереджені в середній точці:

де - вибіркове середнє, n- кількість спостережень, чи обсяг вибірки, з- кількість класів у розподілі частот, m j- середня точка j-го класу, fj- Частота, відповідна j-му класу.

Для обчислення стандартного відхилення щодо розподілу частот також передбачається, що всі значення всередині кожного класу зосереджені в середній точці класу.

Щоб зрозуміти, як визначаються квартилі ряду на основі частот, розглянемо розрахунок нижнього квартилю на основі даних за 2013 про розподіл населення Росії за величиною середньодушових грошових доходів (рис. 12).

Мал. 12. Частка населення Росії із середньодушовими грошовими доходами в середньому за місяць, рублів

Для розрахунку першого квартилю інтервального варіаційного ряду можна скористатися формулою:

де Q1 – величина першого квартилю, хQ1 – нижня межа інтервалу, що містить перший квартиль (інтервал визначається за накопиченою частотою, першою, що перевищує 25%); i – величина інтервалу; Σf – сума частот усієї вибірки; мабуть, завжди дорівнює 100%; SQ1–1 – накопичена частота інтервалу, що передує інтервалу, що містить нижній квартиль; fQ1 – частота інтервалу, що містить нижній квартиль. Формула для третього квартилю відрізняється тим, що у всіх місцях замість Q1 потрібно використовувати Q3, а замість ¼ підставити ¾.

У прикладі (рис. 12) нижній квартиль перебуває у інтервалі 7000,1 – 10 000, накопичена частота якого дорівнює 26,4%. Нижня межа цього інтервалу - 7000 руб., Величина інтервалу - 3000 руб., Накопичена частота інтервалу, що передує інтервалу, що містить нижній квартиль - 13,4%, частота інтервалу, що містить нижній квартиль - 13,0%. Таким чином: Q1 = 7000 + 3000 * (¼ * 100 - 13,4) / 13 = 9677 руб.

Пастки, пов'язані з описовими статистиками

У цій нотатці ми розглянули, як описати набір даних за допомогою різних статистик, що оцінюють його середнє значення, розкид та вид розподілу. Наступним етапомє аналіз та інтерпретація даних. Досі ми вивчали об'єктивні властивості даних, а тепер переходимо до їхнього суб'єктивного трактування. Дослідника підстерігають дві помилки: неправильно обраний предмет аналізу та неправильна інтерпретація результатів.

Аналіз прибутковості 15 взаємних фондів із дуже високим рівнем ризику є цілком неупередженим. Він привів до абсолютно об'єктивних висновків: всі взаємні фонди мають різну доходність, розкид доходності фондів коливається від -6,1 до 18,5, а середня доходність дорівнює 6,08. Об'єктивність аналізу даних забезпечується правильним виборомсумарних кількісних показників розподілу Було розглянуто кілька способів оцінки середнього значення та розкиду даних, зазначені їхні переваги та недоліки. Як вибрати правильну статистику, що забезпечує об'єктивний і неупереджений аналіз? Якщо розподіл даних має невелику асиметрію, чи слід вибирати медіану, а чи не середнє арифметичне? Який показник точніше характеризує розкид даних: стандартне відхилення чи розмах? Чи слід зазначати позитивну асиметрію розподілу?

З іншого боку, інтерпретація даних суб'єктивним процесом. Різні людиприходять до різних висновків, тлумачачи одні й самі результати. У кожного своя думка. Хтось вважає сумарні показники середньорічної прибутковості 15 фондів із дуже високим рівнем ризику добрими та цілком задоволений отриманим доходом. Іншим може здатися, що ці фонди мають надто низьку прибутковість. Таким чином, суб'єктивність слід компенсувати чесністю, нейтральністю та ясністю висновків.

Етичні проблеми

Аналіз даних нерозривно пов'язані з етичними питаннями. Слід критично ставитися до інформації, що розповсюджується газетами, радіо, телебаченням та Інтернетом. Згодом ви навчитеся скептично ставитися не тільки до результатів, але й до цілей, предмету та об'єктивності досліджень. Найкраще про це сказав відомий британський політик Бенджамін Дізраелі: «Існують три види брехні: брехня, нахабна брехня та статистика».

Як було зазначено у замітці, етичні проблеми виникають при виборі результатів, які слід навести у звіті. Слід публікувати як позитивні, і негативні результати. Крім того, роблячи доповідь або письмовий звіт, результати слід викладати чесно, нейтрально та об'єктивно. Слід розрізняти невдалу та нечесну презентації. Для цього необхідно визначити, якими були наміри доповідача. Іноді важливу інформацію доповідач пропускає з невігластва, а іноді - навмисне (наприклад, якщо він застосовує середнє арифметичне для оцінки середнього значення явно асиметричних даних, щоб отримати бажаний результат). Нечесно також замовчувати результати, які відповідають точці зору дослідника.

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 178–209

Функція КВАРТИЛЬ залишена для суміщення з попередніми версіями Excel

Розподіл торгових фірм за розміром місячного товарообігу характеризується такими даними:

№п/п Товарообіг, млн. руб. Число фірм
1 до 5 20
2 5-10 26
3 10-15 20
4 15-20 14
5 20-25 10
6 25 і більше 10
Разом - 100

Визначте:

а) середній розмір місячного товарообігу однією фірму;

б) модальне та медіанне значення місячного товарообігу;

в) зробіть висновки про характер даного розподілу.

Рішення:

а) Розрахуємо середній обсяг товарообігу однією фірму.

У даному рядуваріанти усредняемого ознаки (товарообіг) представлені одним числом, а вигляді інтервалу «від - до». Причому перший та останній – інтервали відкриті.

У таких рядах умовно приймається, величина інтервалу першої групи дорівнює величині інтервалу наступної, а величина інтервалу останньої групи дорівнює величині інтервалу попередньої. Отже, товарообіг першої групи від 0 до 5 млн. крб., товарообіг останньої - від 25 до 30 млн. крб. Обчислення середньої за згрупованими даними проводиться за формулою середньої арифметичної зваженої:

Щоб застосувати цю формулу, необхідно варіанти ознаки виразити одним числом (дискретним). За таке дискретне число приймається середня арифметична проста з верхнього та нижнього значення інтервалу. Так для першої групи дискретна величина х дорівнюватиме: (0 + 5) / 2 = 2,5 . Подальший розрахунок здійснюється звичайним методом визначення середньої арифметичної зваженої:

Вихідні та розрахункові дані подаємо у таблиці:

Товарообіг, млн. руб. Число фірм, f Середина інтервалу, х xf Сума накопичених частот
0-5 20 2,5 50 20
5-10 26 7,5 195 46
10-15 20 12,5 250 66
15-20 14 17,5 245 -
20-25 10 22,5 225 -
25-30 10 27,5 275 -
Разом 100 - 1240 -

б) Визначимо модальне та медіанне значення місячного товарообігу.
В інтервальних рядах розподілу з рівними інтервалами мода визначається за такою формулою:

x Mo- Початкове значення інтервалу, що містить моду;
i Mo- Величина модального інтервалу,
f Mo- частота модального інтервалу,
f (Mo-1)- частота інтервалу, що передує модальному,
f (Mo+1)- Частота інтервалу, наступного за модальним.

Найбільше фірм (26) мають величину товарообігу від 5 до 10 млн. крб. Отже, цей інтервал є модальним інтервалом низки розподілів. Введемо такі позначення:

x Mo = 5, i Mo = 5, f Mo = 26, f (Mo-1) = 20, f (Mo + 1) = 20.

Підставимо ці значення у формулу моди і зробимо обчислення:

Отже, найбільше фірм має товарообіг 7,5 млн. крб.

Медіана інтервального варіаційного ряду розподілу визначається за такою формулою:

де x Ме- Початкове значення інтервалу, що містить медіану;
i Mе- Величина медіанного інтервалу;
Σf- Сума частот ряду;
S (Me-1)- сума накопичених частот, що передують медіанному інтервалу;
f Me- Частота медіанного інтервалу.

Визначимо передусім медіанний інтервал. Сума накопичених частот, що перевищує половину всіх значень (66), відповідає інтервалу 10 - 15. Це і є медіанний інтервал, в якому знаходиться медіана. Визначимо її значення за наведеною вище формулою, якщо:

x Mе = 10, i Mе = 5, Σf=100, S (Me-1)=46 ,f Me = 20 :

Отже, половина фірм має товарообіг менше 11 млн. крб., інші фірми - понад 11 млн. крб.

в) У симетричних рядах розподілу значення моди та медіани збігаються із середньою величиною, а в помірно асиметричних вони співвідносяться таким чином:

Співвідношення характеристик центру розподілу товарообігу свідчить про помірну асиметрію:
3(12,4-11) ≈12,4-7,5

При багаторазових вимірах якоїсь величини, дійсне значення якої a, роблять nвимірів. В результаті набувають ряд наближених значень

Справжні абсолютні похибки представимо як

Тоді можемо записати:

Складаючи почленно, маємо:

,

середнє арифметичне окремих вимірювань.

Справжнє значення а,висловиться

істинна абсолютна похибка, що залишається невідомою.

Завдання знаходження випадкових похибок було вирішено Гаусом. В основі розгляду лежать дві аксіоми:

    Похибки рівної абсолютної величини та протилежних знаків рівноймовірні.

    Чим більша абсолютна величина похибки, тим менш ймовірна.

З першої аксіоми випливає, що при нескінченній кількості вимірювань (при
)

і тоді

Але практично здійснити можна лише кінцеве число вимірів. І цього виявляється достатньо, тому що на основі другої аксіоми малоймовірні великі похибки.

Звідси слідує що
багатьох вимірів і постає завдання оцінити ступінь наближення середнього значення до істинного.

3. Похибки прямих чи безпосередніх вимірів

Якщо в результаті вимірювання величини bотримані значення
то середнє арифметичне значення

Абсолютні похибки окремих вимірів
рівні за модулем різниця середнього значення та результатів окремих вимірів

,
,…,

середня абсолютна похибка вимірів.

Результат виміру представляють так:

Розрахунки проводяться з урахуванням правил наближених обчислень.

Відносна похибка показує, яку частку становить абсолютна похибка від середнього значення і виражається зазвичай у відсотках

Найменша похибка вимірювання не може бути меншою від похибки приладу. Остання вказується в паспорті або за неї приймаємо половину ціни поділу приладу.

Якщо вимір проведено один раз або при багаторазових повтореннях виходить той самий результат, то похибкою вимірювання вважають похибку приладу (за паспортом або класом точності приладу) або її приймають рівною половині ціни найменшого поділу приладу.

Клас точності приладу визначається максимальною похибкою приладу, вираженої у відсотках повної величини шкали. Наприклад, клас точності 05 означає похибку 05% при відхиленні стрілки на всю шкалу. При відхиленні стрілки на половину шкали похибка зростає вдвічі, при відхиленні стрілки третину шкали – втричі.

4. Похибки непрямих вимірів

При непрямих вимірах величину x знаходять як функцію безпосередньо виміряних величин а, b, з. Абсолютні похибки
безпосередніх вимірів зумовлюють абсолютну похибку
При знаходженні
використовують такі теореми:

1. Абсолютна похибка суми (різниці) дорівнює сумі абсолютних похибок доданків (зменшуваного та віднімається)


,

2. Абсолютна похибка твору дорівнює сумі творів першого співмножника на абсолютну похибку другого та другого співмножника на абсолютну похибку першого


,

3. Абсолютна похибка приватного дорівнює сумі творів поділеного на абсолютну похибку дільника та дільника на абсолютну похибку діленого, поділеної на квадрат дільника


,

Відносна погрішність

У математичному аналізі показано, що

При цьому x – є якась функція
і т. д. у явному вигляді, і, отже, можна обчислити її диференціал від логарифму, який міститиме
і т.д.

Якщо замінити в отриманому вираженні всі диференціали малими кінцевими різницями
і т.д., то отримаємо формулу для відносної похибки

для кінцевих різниць

.

Якщо
є абсолютні похибки за безпосередніх вимірів а, b, з, то
- Абсолютна похибка величини x.

Формула знаходження відносної похибки буде записана так: (всі члени беруться за абсолютною величиною)

.

Для вираження у відсотках потрібно праву та ліву частини помножити на 100%.

Цю формулу зручно використовувати і знаходження абсолютної похибки.

Справді,

.

Результати становлять так:
.

Якщо функція x представляє складну суму або різницю, то похибки знаходяться для кожного члена окремо, а потім підсумовуються. У тих випадках, коли формули для знаходження величини xвходять фізичні чи математичні довідкові величини, виражені наближеними числами, їх похибками вважають половину одиниці нижчого ряду. Наприклад,