Суббота, 18.05.2024
Мой сайт
Меню сайта
Статистика

Онлайн всего: 4
Гостей: 4
Пользователей: 0
Главная » 2019 » Март » 20 » Расчёт вероятности вручную, дисперсия
16:27
Расчёт вероятности вручную, дисперсия

Расчёт вероятности вручную, дисперсия

Пример добыт тут:
https://deoma-cmd.ru/files/sets/EGE-GIA


В этом примере настолько мало данных, что можно всё подсчитать вручную. Причём, что интересно, вполне точно. У монетки две стороны, значит возможных комбинаций:

Если бы был кубик, то было бы N=6^n, потому что у кубика 6 граней.
Вероятность конкретной последовательности, например, вначале орёл а потом решка в данный момент никого не интересует. Но может уместно написать, что она равна =1/N, потому что в списке возможных комбинаций нет повторяющихся вариантов.
Интересует насколько вероятно что решка выпадет один раз. Не важно, так будет  «орёл + решка» или так «решка +орёл». Важно что будет 50% решек, или половина всех вариантов (вероятность = 0.5).
Расчёт можно так нарисовать:
 

N

2

 

 

 

Комбинация

Решек, штук

Решек, %

Решек, доля

M

ОО

0

0

0

0

ОР

1

50

0,5

1

РО

1

50

0,5

1

РР

2

100

1

0

 

 

 

 

2

Перечислены все комбинации и просто подсчитано, какие из них содержат только одну решку. Таких две.
Интересно, что довольно таки невероятное для монеток событие одних орлов или решек имеет тут вероятность аж 25%. Причём это точная оценка, никаких приближений тут нет, при двух подбрасываниях так и будет. Т.е чем меньше данных тем меньше видно отличие обычного от необычного, тем хуже работает статистика как метод.
Очень удобно то, что орлов и решек легко заменить на двоичную систему счисления. Орёл «О» становится нулём, а решка «Р» единицей. Ряд нулей и единиц в двоичных числах столь же уникален как и в десятичных и точно также последовательно вытаскивает все комбинации.
Функция перевода десятичных числе в двоичные для Excel-я:
' MsgBox DecToBin(10, 32)
Private Function DecToBin$(ByVal i&, Optional l% = 16)
Dim x As String
Do While i > 0
    x = i Mod 2 & x: i = i \ 2
Loop
DecToBin = String(IIf(l, Abs(Len(x) - l), 0), "0") & x
End Function
Хоть какая-то автоматизация позволяет увеличить число подбрасываний монетки до 4-х и довольно легко всё подсчитать:
 

Число10

Число2

Шт, 1-ц

Доля 1-ц

0

0

0

0,00

1

1

1

0,25

2

10

1

0,25

3

11

2

0,50

4

100

1

0,25

5

101

2

0,50

6

110

2

0,50

7

111

3

0,75

8

1000

1

0,25

9

1001

2

0,50

10

1010

2

0,50

11

1011

3

0,75

12

1100

2

0,50

13

1101

3

0,75

14

1110

3

0,75

15

1111

4

1,00

По этому небольшому набору уже вполне можно нарисовать стандартный для этого случая график:

25%  единиц было в 4-х случаях. 25% или меньше в пяти. Это и есть вероятность редкой комбинации. Но ведь это же и площадь под графиком. Можно нарисовать и так:

Площадь под графиком – интеграл функции на каком-то диапазоне горизонтальной оси. Т.е даже для очень больших объемов данных есть вполне подходящий инструментарий интегрирования, который и придумывался для того чтобы суммы многих мелких столбиков проще было считать.
По графику видно что распределение частот тут – симметричная гора. Есть все основная думать, что случайные величины лежаться на график так называемого нормального распределения.
Вот его функция:

Тут много чего понаписано, потому вначале самый простой вид функции который похож на ту гору, которая мне нужна:

Первое, что мне тут совсем не нравится это то, что вершина горы находится в нуле. Для моего случае в монеткой она должна быть при x=0.5.
Сдвигаю график:

Величина сдвига μ, которая тут равна 0.5 называется по-разному:
1] мода распределения
2] медиана распределения
3] математическое ожидание.
Получилось. На графике с крестиками количество крестиков у меня было равно 16, т.е количеству возможных комбинаций. Все 16 крестиков это 100% или вероятность равная 1 (= 16*(1/16)). Точно также и тут я хочу чтобы площадь под графиком была равна единице, а она для этой функции равна корню из ПИ:

Неприятно, но не смертельно. Чтобы получить единицу я просто поделю эту функцию на корень из ПИ:

Уже получилось нечто довольно близкое к стандартной формуле нормального распределения. Но там ещё пририсован параметр σ.
Чуть поиграюсь с этим параметром чтобы понять как он влияет на вид функции – горки:

При k=0.5, 1 и 1.5:

Чем меньше k тем уже горка, т.е тем ближе значения к среднему. Пусть, например, средний процент по расходов по какой-то статье 30% или 0.3. Для разброса значений от 25% до 35% k будет меньше чем для разброса от 20% до 40%.
По названиям:
σ- среднеквадратическое отклонение
σ* σ – дисперсия.
Расчётная формула:

Сама формула – стандартный способ борьбы с отрицательными числами. Ведь отклонение от величины 0.5 может быть и положительным (0.75-0.5=0.25) и отрицательным (0.25-0.5=-0.25). Если их просто так просуммировать то они обнулят друг друга. А интересует всё-таки сумма отклонений во все стороны. Потому вначале все отклонений возводят в квадрат (чтобы всё стало с плюсом), а потом уже извлекают корень из суммы (чтобы вернуть осмысленное значение отклонения, а не его квадрата).
Надо сказать, что если аккуратно всё подсчитать и попытаться приблизить график с 16 значениями (крестиками) функцией нормального распределения то получатся отклонение расчётной вероятности (от посчитанной по крестикам) в два раза (такое ощущение что эта двойка где-то угуляла в выкладках). Не знаю в чём там дело, но пока ведь я рассказываю про то что такое дисперсия))).
Хуже то. что будет дальше. Ведь во вчерашнем примере:
http://akostina76.ucoz.ru/blog/2019-03-19-5725

… у меня монетка подбрасывается 30 раз. 2^30 = 1 073 741 824 комбинаций. Ни в какой Excel это уже не влезет. Большой объем информации, вроде, позволяет задействовать интегралы вместо подсчёта крестиков. Моду я знаю, диапазон интегрирования знаю, вид функции знаю. А вот дисперсию я не знаю. А без неё я вероятность (как интеграл от функции) не получу (я не знаю точно какая у меня функция).
Пример про монетку это просто задача, которую как-то надо решать. Попадает такая задача к человеку с базовым математическим образованием и он начинает её как-то крутить, прикидывая какой инструментарий тут можно использовать. И получается что напрямую тут как-то ничем и не ухватиться. Не говоря уж о том, что правомерность замены столбиков – крестиков примерно похожей по виду функцией неплохо бы и доказать. Так и начла развиваться отдельная наука (теория вероятности, статистика), с отдельными выведенными формулами и математическими доказательствами.
Добавлю сюда же что функция нормального распределения, вообще-то, не интегрируема. Т.е получить её интеграл в виде привычных синусов и косинусов нельзя. Но уж слишком часто нужна она и её значения. Потому придумали так называемую функцию ошибок erf:

Значение этой функции в конкретной точке X – вероятность события. При доле 0.25 это какое-то небольшое значение. При доле 0.5 больше. Ведь вероятность в этой точке  это уже вероятность значений из половины диапазона. На правом же края диапазона значение функции равно 1, потому что все возможные значения уже попали в диапазон.

Просмотров: 190 | Добавил: akostina76 | Рейтинг: 0.0/0
Всего комментариев: 0
Имя *:
Email *:
Код *:
Форма входа
Поиск
Календарь
«  Март 2019  »
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
25262728293031
Архив записей
Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Copyright MyCorp © 2024
    Бесплатный конструктор сайтов - uCoz