Tip:
Highlight text to annotate it
X
-
В този клип, искам да поговорим за един
от най-важните и най-дълбоките понятия в статистиката
и може би в цялата математика
Това е теоремата за централна граница
Тя ни казва, че можем да започнем
с каквото и да е разпределение,
което има определени медиана и вариация
И ако има строго определена вариация
значи има и строго определено стандартно отклонение
Може да става въпрос за продължително или определено разпределение
Аз ще направя определено, защото ще ни е
по-лесно да си го представим в този клип
Да кажем, че имам функция
с определена вероятност
И ще внимавам много да не заприлича на нормално
разпределение, защото искам да ви покажа
силата на теоремата за централна граница
Да кажем, че имам дадено разпределение
Ще взема стойности от 1 до 6:
1, 2, 3, 4, 5, 6.
Това е някакъв странен зар
Много е вероятно да получим 1, тук ще направя права линия -
да кажем, че е много вероятно да получим 1,
невъзможно е да получим 2 и е средно
вероятно да получим 3 или 4
Да кажем, че е невъзможно да получим 5
И накрая, много е вероятно да получим 6
Това е функцията ми за вероятно разпределение
Ако трябва да начертая медиана, това е симетрично,
значи медианата ще е може би нещо такова
Медианата ще бъде по средата
Това тук ми е медианата
А стандартното разпределение ще е толкова
и толкова далече под и над медианата
И това е моята функция за определено
вероятно разпределение
Ето какво ще направя сега. Вместо да взимам извадки
на стойности на тази променлива, която е описана от
функцията ми за вероятно разпределение, ще взема извадки,
но ще намеря средноаритметичната им стойност и после
ще погледна извадката и ще открия честотата на средноаритметичните им стойности
Под средноаритметични стойности имам предвид медианите
Нека определя нещо... да кажем какъв е
размера на примерните стойности. Мога да взема каквото и да е число,
но нека първо кажем, че взимаме извадка n, равна на 4
Това означава, че ще
взема 4 примерни стойности оттук
Да кажем, че първо взимам 4 примерни стойности
Размерът на извадката ми е 4
Да кажем, че получавам 1, после още едно 1,
после 3 и после 6
Това е първата ми извадка с размер 4
Може би терминологията е малко объркваща тук
Имам извадка, съставена от 4 примерни стойности
Когато говорим за медианата на извадката и разпределение
на извадката - за които ще говорим вси повече
в следващите няколко клипа, под "извадка" обикновено
се има предвид сбора от примерните стойности на разпределението
А размерът на извадката означава колко примерни
стойности от разпределението сме взели
Но терминологията може да ви обърка, защото
можем да си представим и една от примерните стойности като извадка
Но ние взимаме 4 такива стойности тук
Имаме размер на извадката 4
И сега ще намеря средната им стойност
Нека кажем, медианата - ще внимавам много
когато говоря за "средна стойност" - каква е медианата на тази първа извадка с размер 4?
1 плюс 1 е 2
2 плюс 3 е 5
5 плюс 6 е 11
11 делено на 4 е 2,75
Това е първата медиана на извадка и първата ми извадка е с размер 4
Нека взема още една
Още една извадка с размер 4
Да кажем, че получавам 3, 4, още едно 3
и 1
Този път на се получи 6
Запомнете, че не мога да получа 2 или 5
Не е възможно за това разпределение
Шансът да получа 2 или 5 е нулев
Значи тук не мога да имам двойки или шестици
Значи, зя втората ми извадка от 4 стойности, медианата ми е -
втората ми медиана на извадка е 3 плюс 4, това е 7
7 плюс 3 е 10, плюс 1 е 11
И пак, 11 делено на 4 е 2,75
Тека взема още една извадка, защото
искам да стане много ясно какво правим
Значи взимам още една извадка - ще вземем и много други,
но искам да разгледаме още една в детайл
Да кажем, че това е третата ми извадка с размер 4 -
взимам точно 4 стойности
Значи, извадката ми е съставена от 4 стойности от
първоначалното ми побъркано разпределение
Да кажем, че получавам 1, 1, 6 и 6
Тогава, медианата на втората ми извадка ще е 1 плюс 1 - 2
2 плюс 6 е 8
8 плюс 6 е 14
14делено на 4 е 3,5
И като откривам медианите
на всичките ми извадки с размер 4,
ще нанасям тези медиани върху графика с
честота на разпределението
След няколко секунди ще бъдете изненадани
Така, нанасям всичко това върху графиката на честотата
И си казвам, добре, за първата си извадка
получих медиана 2,75
И нанасям честотата на медианите на извадките,
които съм получил
Веднъж съм получил 2,75
Така, че отбелязвам тук
Това е от ето тази извадка
Втория път също получих 2,75
Това тук е 2,75
Получил съм го два пъти
Така, тук нанасям честотата
После получих 3,5
Тук са всички възможни стойности, можех да имам 3,
или 3,5, или 3,5...
И имам 3,5, така че нанасям тук
И сега ще продължа да взимам
такива извадки
Може би ще взема 10 000 от тях
Така, продължавам да взимам извадки
Да кажем, че съм взел 10 000
Ще нанеса само няколко
Ето как ще изглежда,
всеки път слагам по една точка и ще трябва да се отдалеча
Ако погледнем така, пак ще имаме всички
възможни стойности, които можем да заемем
Може би 2,75 е тук
Първата ни точка ще е ето тук,
а втората ще е тук
И третата, 3,5, ще бъде тук
Но ще направя това 10 000 пъти -
ще имам 10 000 стойности
Да кажем, че продължавам
да нанасям точките
Продължавам да нанасям честотите
Продължавам така
с доста точки
Ето какво ще видите когато нанеса много,
много извадки с размер 4
Ще получа нещо, което ще започне
да прилича на нормално разпределение
Всички тези точки представляват конкретни медиани на извадки
Продължавам да добавям към тази колона, което
означава, че продължавам да получавам медиана 2,75
След известно време, ще получа нещо,
което започва да напомня нормално разпределение
Това е едно хубаво свойство на теоремата за централна граница
В оранжево имам централната граница
за случая n равно на 4
Размерът на извадката ми беше 4
Сега, ако направя същото с извадка от, да речем, 20...
В този случай, вместо да взимам 4 извадки от
шантавото първоначално разпределение, ще взимам по 20
случайни стойности,ще ги събирам и деля на 20
и после пак ще нанасям медианите им
В този случай, ще имам разпределение,
което изглежда така
Ще обсъдим това и в други клипове
Но излиза, че ако нанеса 10 000 медиани на извадки,
ще се случат две неща
Ще заприлича още повече на
нормално разпределение
медианата ще остане същата, но след няколко клипа
В следващите клипове, че видите, че всъщност ...
нека уточним,
ще имаме същата медиана
Това ще има същата медиана
Но ще има по-малко стандартно разпределение
Ще започна от дъното, защото
се получава натрупване
Получаваме една стойност, после друга и друга...
но това все повече ще се приближава
към нормално разпределение
Истината е, и това и е чудесното на
теоремата на централната граница -
Можете да кажете като се приближава да безкрайност,
но няма нужда да сме толкова близо до безкрайността,
за да достигнем нормално разпределение
Дори да имаме размер на извадка 10 или 20,
вече сме много близо до нормално разпределение
Приближението прилича на това,
което виждаме във всекидневния си живот
Но интересното е, че можем да започнем с някакво шантаво
разпределение, нали така?
Това няма нищо общо с нормално разпределение
Но ако имаме размер на извадка - тук беше 4 - но
ако размерът е n равно на 10 или 100
и вземем 100 такива вместо 4, после им намерим средноаритметичната стойност и
я нанесем (това е честотата) , ето какво става
После пак взимаме 100, намираме средноаритметичното ,
взимаме медиана, пак нанасяме ...
И ако направим това много пъти, дори ако
можехме да го направим безкраен брой пъти,
щяхме да намерим идеално
нормално разпределение
Това е лудост
И не се отнася единствено до взимането на медиана на извадка
Тук винаги търсим медианата на извадка, но можехме
например да търсим сумата на извадката
Теоремата за централна граница пак би била приложима
И това е страшно полезно качество
Защото в живота имаме какви ли не странни процеси -
протеини се сблъскват, хората правят луди неща,
комуникираме по странни начини
И не познаваме функциите на вероятно разпределение на
на никои от тези неща
Но теоремата за централна граница ни казва, че ако
съберем голям брой от тези действия, като допуснем,
че имат едно и също разпределение, или ако вземем ФФ на всички
тези действия и нанесем честотата им,
в крайна сметка получаваме
нормално разпределение!
Ето защо нормалното разпределение се появява
толкова много в статистиката и защо е много
добро приближение до сумата или медианата
на много процеси
Нормално разпределение
А в следващия клип ще ви покажа,
че всичко това е реалност
- че като увеличаваме размера на извадката, или
като увеличаваме n и като вземем много медиани на извадки,
ще имаме графика на честотата, която изглежда
много, много близка до нормално разпределение
-