|
概率論是人類研究混沌和不確定性的主要武器。盡管我們擁有大量的數(shù)學(xué)工具,但概率論利用初等數(shù)學(xué)以及邏輯和常識。它幫助我們在統(tǒng)治我們世界的混亂中發(fā)現(xiàn)規(guī)律和秩序。中心極限定理——或簡稱 CLT——是實現(xiàn)這一目標的概率論和應(yīng)用統(tǒng)計學(xué)中最深刻和最有用的定理之一。 中心極限定理CLT與大數(shù)定律是概率中的兩個所謂的極限定理。它們處理樣本均值隨著 n(樣本數(shù)量)增長的長期行為。我們假設(shè)讀者熟悉概率的基本概念,例如隨機變量、均值、方差、分布等,因為它們對本文至關(guān)重要。 考慮到這一點,讓我們深入了解中心極限定理的卓越之處及其大量應(yīng)用! 考慮n 個獨立且同分布 (iid) 的隨機變量X?、X?、X?、…、X?,每個變量均具有相同的均值μ和相同的方差σ2。我們將上述隨機變量序列的“樣本均值”定義為 ![]() n 個隨機變量序列的樣本均值本身就是一個隨機變量。我們感興趣的是計算它在 n 接近無窮大時的分布。讓我們看看如何應(yīng)對這一挑戰(zhàn)。 好吧,首先,我們可以嘗試計算X??的均值和方差。顯然,當 n 趨近于無窮大時,這兩個性質(zhì)不會揭示其分布。然而,一旦我們弄清楚它的分布,它們就會有用。 平均來說,我們可以簡單地做: ![]() 回想一下,序列的所有隨機變量都具有相同的均值μ。因此,我們得到: ![]() 這個結(jié)果不應(yīng)該讓我們感到驚訝。如果我們考慮一下,這是非常直觀的。具有相同平均值的一系列隨機變量的樣本均值的平均值……就是該平均值本身。 我們對方差的計算并沒有太大不同: ![]() 我們現(xiàn)在可以將每個Var[]運算符中的“n”項因式分解,但我們必須先將其平方。我們得到: ![]() 考慮一下這個結(jié)果。樣本均值的方差與序列的大小n成反比。如果我們的序列中只有一個隨機變量n=1,則樣本均值的方差通常等于該隨機變量的方差。 然而,隨著序列中隨機變量數(shù)量的增加,隨著n趨近于無窮大,樣本均值的方差越來越小,趨近于零值。 我們現(xiàn)在準備陳述和理解中心極限定理的本質(zhì)。
請注意,我們從未說明序列中每個隨機變量的分布。這是因為沒關(guān)系。這就是 CLT 的力量所在。無論我們的隨機變量的分布如何,隨著序列大小的增加,它們的樣本均值將始終接近正態(tài)分布。 在數(shù)學(xué)符號中,我們寫: ![]() 從上面的公式可以看出,隨著n趨近于無窮大,樣本均值的平均值不會受到影響。但是,它的方差將接近零,從而為我們提供正態(tài)分布N(μ,0)。 我們必須注意,我們所有的隨機變量都具有相同的均值和方差這一事實并不是 CLT 成立的必要條件。在任何情況下,樣本均值的平均值將是我們的隨機變量的平均值,而當 n 接近無窮大時,其方差將始終接近零。 可視化中心極限定理現(xiàn)在,我們將嘗試通過使用一個您也可以自己使用的具有指導(dǎo)意義的在線工具來鞏固我們的觀點。 假設(shè)我們有以下形式的任意人口。 ![]() 我們的人口分布一點也不像正態(tài)分布。 現(xiàn)在,我們將繪制當總體樣本量為 N = 10 時的均值分布。為此,我們將從總體中重復(fù)獲取 10 個樣本并繪制它們的平均值,如下所示。 ![]() 如果我們多次重復(fù)這個過程,我們可以看到樣本均值的分布將趨近于正態(tài)分布。 ![]() 隨意創(chuàng)建您自己的群體并親眼看看 CLT 的實際應(yīng)用。 如何應(yīng)用中心極限定理從理論上講,理解一個概念是必不可少的,但無論我們對它的理解程度如何,事實證明將其應(yīng)用于沒有經(jīng)驗的問題是很棘手的。讓我們看看當我們想在現(xiàn)實生活場景中利用 CLT 時可以遵循的一般準則。
![]() 2.計算Y的平均值和方差。 ![]() 3. 使用 CLT 并對我們的變量 Y 進行一些調(diào)整以簡化我們的計算,我們可以有把握地說 ![]() 因此,為了計算P(y? < Y < y 2 )我們可以這樣做: ![]() 起初看起來有點令人生畏,但正如我們現(xiàn)在將通過一個例子看到的那樣,應(yīng)用中心極限定理是一個實踐問題! 例子銀行出納員為排隊的顧客一一服務(wù)。假設(shè)客戶i的服務(wù)時間Xi的平均值為E[Xi]=2(分鐘)且Var[Xi]=1。我們假設(shè)不同銀行客戶的服務(wù)時間是獨立的。令Y為銀行出納員為50 位客戶服務(wù)的總時間。求 Y 在 90 到 110 分鐘之間的概率。 答:我們需要計算P(90<Y<110)。 ![]() 通過CLT,我們最終得到: ![]() 最后的評論本文介紹了中心極限定理,這是概率論中最重要的定理之一,也是所有科學(xué)中應(yīng)用最多(如果不是最多的話)的定理之一。 雖然這個定理背后的想法非常簡單,但將其應(yīng)用到現(xiàn)實生活場景中可能會很棘手。出于這個原因,我們提供了一個簡短但有用的指南,至少在我們看來是如何應(yīng)用 CLT 的指南。 |
|
|