二項式分佈

費馬這個人很有意思,他是一個法官,但興趣是算數學。
會成為法官是因為當時(十七世紀)的數學家沒有什麼好工作,其實對照中國歷史來說,可能要到廿世紀,數學家才有一點點受尊重,比如說科舉制度中就從來沒有考數學,而科舉可是一直到1905年都還是平民求官的主要途徑,清末那些主導變法或革命的人,像康有為、梁啟超、張之洞、譚嗣同…,或是什麼曾國藩、李鴻章,都是考八股文出身,因此變法變了半天,科技還是落後,說不定學醫的孫中山是其中數學最好的人。
十七世紀中葉歐洲貴族流行賭博遊戲,但若賭局中途被迫停止,要如何公平分配賭金?這個問題在當時居然沒人能解。
1654 年春天,住在巴黎的年輕巴斯卡與在六百公里外當法官的費馬,展開密集通信來討論這個問題。當時沒有機率這個概念,他們只是用理性推理與組合計算,找出所有可能的勝利路徑,這正是現代二項分佈與期望值的雛形。
假設是一個七戰四勝的公平賭局好了,若在A 2 勝而B 1 勝時被中斷了,依當時的慣例會是A拿走全部賭金,但巴斯卡和費馬不這麼認為,畢竟賭局還沒有結束,B仍有翻盤的機會,但是機會到底有多大呢?
因為目前賭局進行了3場,後面還有4場,所有的可能性有$2^4=16$種,其中A全勝(4勝)的可能性是$\displaystyle\binom{4}{4}=1$種,3勝1敗的可能性是$\displaystyle\binom{4}{3}=4$種,2勝2敗的可能性是$\displaystyle\binom{4}{2}=6$種,1勝3敗的可能性是\(\displaystyle\binom{4}{1}=4\)種,全敗(0勝)的可能性是\(\displaystyle\binom{4}{0}=1\)種。$1+4+6+4+1=16$,就是全部的可能性。
解釋一下符號的定義,從n取k的組合公式在高中是寫成$C^n_k$,但是很容易混淆,有的人寫成$_nC_k$,還有人根本倒過來寫成$C^k_n$,我看wikipedia裡普遍寫$\displaystyle\binom{n}{k}$,用LaTeX寫二項分佈公式是$\text{\binom{n}{k}}$,它會直接呈現和wikipedia一樣的$\displaystyle\binom{n}{k}$,所以這裡直接以此當做組合公式。

四層魚骨圖

3 戰中斷:初值A=2, B=1;提前決勝後以虛線延伸
A 勝(向上) B 勝(向下)
A 尚需 2 勝、B 尚需 3 勝;在後續 4 局內 A 至少贏 2 局之機率 = \(\displaystyle \frac{(6+4+1)}{16} = \frac{11}{16}\),所以若在三戰A有兩勝時停下,假使後面各人贏的機率都是$\displaystyle\frac{1}{2}$,那麼A應該分配到$\displaystyle\frac{11}{16}$的賭金。
但如果這不是一個勝負機率各為$\displaystyle\frac{1}{2}$的賭局,比如說A和B是在比壓手把,那麼A已經三戰兩勝了,力氣或許比較大,後面他贏的可能性就比較高,此時每一條路徑的機率就不一樣了。不過巴斯卡當時沒有考慮這些,他和費馬只是進行了數數的排列組合而已。
後來要到1713年伯努力提出大數法則,才引入了任意機率p的觀念,這時已經距離費馬和巴斯卡以書信討論的年代有一甲子之久了。再過廿年,棣美弗才用我們上一節講到的斯特林公式(Stirling's formula)推出二項式分佈的機率密度函數。
這是我們這一節要講的重點。

可調整層數魚骨圖

向上分支 向下分支 不考慮提前決勝(無虛線)
上面這個圖我叫ChatGPT畫,它用分岔的方式循環,到12層就有$2^{12}=4096$個節點,跑不太動了,但其實節點沒那麼多,每一層只是多一個而已,我把重覆的動作去掉就精簡快多了。
從圖中可以看到每多一層,分母就加一倍,如2, 4, 8, 16…,因為每個節點的數字到下一層就會分別加到上下兩個節點,所以總數字會多一倍。
至於分子則是眾所熟知的巴斯卡三角形(Pascal's triangle),中國人喜歡說它是楊氏三角形,楊氏指的是十三世紀南宋時期的民間數學家楊輝,歷史上沒有關於他的記錄,表示他不是做官的,只知他的著作「詳解九章算法」是當時很先進的數學書,那個時候歐洲還在黑暗時代,陷在羅馬數字當中,連四則運算都很麻煩。在這個時期,中國的應用數學如算術與代數水平可以說世界頂尖,抽象理論可能阿拉伯比較強。
到了明朝中後期,中國的數學理論出現了明顯的斷層,很多理論甚至失傳,例如能解高次方程式的天元術。科舉考的是四書五經,不考數理,聰明人都去背經、做八股文,很少再投入純數學。歐洲則把巴斯卡三角進一步用在二項式分佈與大數法則、泰勒級數、機率論,甚至是微積分的基礎理論上,中西數學徹底拉開距離。
理解二項式分佈最簡單的方法就是把二項式展開: \begin{equation} \label{eq:binomial} \begin{aligned} (p+q)^n &= \underbrace{(p+q)(p+q)(p+q) \cdots (p+q)}_{\displaystyle n個} \\[8pt] &= \underbrace{\binom{n}{0}p^n}_{\displaystyle 0個q, n個p} + \underbrace{\binom{n}{1}p^{n-1}q}_{\displaystyle 1個q, n-1個p} + \underbrace{\binom{n}{2}p^{n−2}q^2}_{\displaystyle 2個q, n-2個p} + ⋯ + \underbrace{\binom{n}{n}q^n}_{\displaystyle n個q, 0個p} \\[8pt] &= \sum_{k=0}^{n}\binom{n}{k}p^{n−k}q^k \end{aligned} \end{equation} $(p+q)^n$就是$n$個$(p+q)$相乘,按照乘法的分配律,從$n$個$(p+q)$中取$k$個出來,用它們的$q$,和另外剩下的$n-k$個$(p+q)$的$p$相乘,就得到$p^{n-k}q^k$的係數項為$\displaystyle \binom{n}{k}$。
我不用$x$和$y$,而刻意選擇用$p$和$q$做為變數是為了強調這是機率,如果只有兩種可能性,那$q$就等於$1-p$,在完全隨機的狀況下$p=q=\displaystyle\frac{1}{2}$,代進去\eqref{eq:binomial}就變成: $$ 1=\left(\frac{1}{2}+\frac{1}{2}\right)^n = \frac{\binom{n}{0}}{2^n}+\frac{\binom{n}{1}}{2^n}+\frac{\binom{n}{2}}{2^n}+\cdots+\frac{\binom{n}{n}}{2^n}= \sum_{k=0}^n\frac{1}{2^n}\binom{n}{k} $$ 再強調一次,這裡的$p$和$q$是機率,$\displaystyle \sum_{k=0}^n$裡的每一項$\displaystyle \frac{1}{2^n}\binom{n}{k}$,代表在$n$次事件中,發生了$k$次$q=\frac{1}{2}$機率事件,和$n-k$次$p=\frac{1}{2}$機率事件,的聯合機率。
例如在我們一開始A和B還要執行4場賭局的四層魚骨圖中,假設B勝的機率是$p=\frac{1}{2}$,A勝的機率是$q=\frac{1}{2}$,雖然機率都是$\frac{1}{2}$,但我們稱B勝是$p$機率事件,A勝是$q$機率事件。那麼每次A勝的隨機變數$X_i$可以寫成: \[ X_i = \begin{cases} 0, & \text{with probability } p = \tfrac12, \\[6pt] 1, & \text{with probability } q = \tfrac12, \end{cases} \quad i=1,\ldots,n \quad\Rightarrow\quad X_i \sim \mathrm{Bernoulli}(q). \] 後面那個$\mathrm{Bernoulli}(q)$表示$X_i$是伯努利分佈,伯努利分佈就是只在0和1取值,取得1的機率是$q$。
更標準的寫法是以機率$P$為變數: \[ P(X_i = x) = \begin{cases} p, & x = 0 \\[6pt] q, & x = 1 \end{cases} \quad\text{其中 } p = q = \dfrac12. \] 在n場賭局中A勝的總局數若寫為$W_n$,那麼 $$ W_n=\sum_{i=1}^nX_i \quad\Rightarrow\quad W_n\sim\mathrm{Binomial}(n, \frac{1}{2}) $$ $\mathrm{Binomial}(n,\frac12)$就是二項式分佈,表示$n$次實驗中成功的總數,每次成功的機率是$\frac12$。
請注意這裡$W_n$的平均值是$\displaystyle \frac{n}{2}$,標準差是$\displaystyle \frac{\sqrt{n}}{2}$,這在接下來推導$n\rightarrow\infty$時,二項式分佈趨近於常態分佈的機率密度函數起到很大的作用。如果$X_i$不是伯努利分佈─在0和1取值,而是我們後面章節通篇要討論的隨機漫步,有$\frac12$機率-1,$\frac12$率+1,那麼走$n$步以後與原點的距離$S_n$平均值是0,標準差是$\sqrt{n}$,求得的機率密度函數型式一樣,但參數會不同。

說明二項式分佈的平均值與標準差 展開 ▼

\[ P(X_i = x) = \begin{cases} \frac12, & x = 0 \\[6pt] \frac12, & x = 1 \end{cases} \qquad ,\qquad W_n = \sum_{i=1}^nX_i \] $X_i$有一半的機會是0,一半的機會是1,那$X_i$的平均值毫無疑問是$\displaystyle\frac12$。要記得$X_i$是一個隨機變數,表示試很多次的$X_i$會有一半的機會是0,一半的機會是1。這邊的意思是說$X_1, X_2, \ldots,X_n$都是隨機變數,每一個都可能是0或1,每一個的平均值都是$\displaystyle \frac12$。
而$\displaystyle W_n=\sum_{i=1}^nX_i$,所以它的平均值是 $$ \mathbb{E}[W_n]=\mathbb{E}\big[\sum_{i=1}^nX_i\big]=\sum_{i=1}^n\mathbb{E}[X_i]=\sum_{i=1}^n\frac12=\frac{n}2 $$ 上面用到了平均值的可相加性,這是簡單的加法交換律,那標準差$\sigma$有可相加性嗎?答案是沒有。
但是如果各項$\displaystyle X_i$獨立不相關(相關係數為0),那麼把標準差平方以後$\sigma^2$稱為變異數,就有可相加性了。
來看為什麼標準差沒有可相加性: $$ \sigma_X = \sqrt{\frac{1}{n}\sum_{i=1}^n(X_i-\mu_X\!^2)}\quad , \quad \sigma_Y = \sqrt{\frac{1}{n}\sum_{i=1}^n(Y_i-\mu_Y\!^2)} $$ 兩個根號不能直接相加,所以不能直接寫$\displaystyle\sigma_{X+Y} = \sigma_X +\sigma_Y$。
但是平方以後 $$ \sigma_X\!^2 = \frac{1}{n}\sum_{i=1}^n(X_i-\mu_X\!^2)\quad , \quad \sigma_Y\!^2 = \frac{1}{n}\sum_{i=1}^n(Y_i-\mu_Y\!^2) $$ 所以 \begin{align*} \sigma_{X+Y}\!^2 &=\frac{1}{n}\sum_{i=1}^n(X_i+Y_i-\underbrace{\mu_{X+Y}}_{=\mu_X+\mu_Y})^2 \\ &=\frac{1}{n}\sum_{i=1}^n\left((X_i-\mu_X)+(Y_i-\mu_Y)\right)^2 \\ &=\frac{1}{n}\sum_{i=1}^n(X_i-\mu_X)^2 +\frac{1}{n}\sum_{i=1}^n(Y_i-\mu_Y)^2+ \cancelto{\color{red}{\displaystyle 0, 相關係數為0}}{\frac{2}{n}\sum_{i=1}^n(X_i-\mu_X)(Y_i-\mu_Y)} \\[8pt] &=\sigma_X\!^2 + \sigma_Y\!^2 \end{align*} 現在只要知道$X_i$的變異數$\sigma_{X_i}\!^2$,就可以用可相加性求$W_n$的變異數了。這其實很簡單,直接套變異數的定義公式即可: $$ \sigma_{X_i}\!^2=\frac12\times(1-\frac12)^2+\frac12\times(0-\frac12)^2=\frac14 $$ 那麼$W_n$的變異數就是 $$ \sigma_{W_n}\!^2 = \sum_{i=1}^n\sigma_{X_i}\!^2=\sum_{i=1}^n\frac14=\frac{n}4 $$ 因此$$\sigma_{W_n}=\frac{\sqrt{n}}2$$
當$P(X_i = x) = \begin{cases} \frac12, & x = 0 \\ \frac12, & x = 1 \end{cases} \quad ,\quad W_n = \sum_{i=1}^nX_i \quad $,那麼$W_n$等於$k$時,就是在$n$次實驗中,有$k$次取得了1,機率是$\displaystyle\frac1{2^n}\binom{n}{k}$。
如果是隨機漫步模型而非伯努利分佈,$P(X_i = x) = \begin{cases} \frac12, & x = -1 \\ \frac12, & x = 1 \end{cases} \quad ,\quad S_n = \sum_{i=1}^nX_i \quad $,那麼$S_n$等於$k$時,在$n$次實驗中取得1的次數不是$k$,假設是$x$好了,那剩下的$n-x$次是取得了-1,所以$x-(n-x)=k$,求出$x=\displaystyle \frac{n+k}{2}$,機率是$\displaystyle\frac1{2^n}\binom{n}{\frac{n+k}{2}}$。
用哪一個模型沒有關係,最後會看到只要更動平均值與標準差就好了,我們還是用伯努利分佈推導比較直觀。
$W_n=k$的機率是$\displaystyle\frac1{2^n}\binom{n}{k}$,而$\displaystyle \binom{n}{k}$是$\displaystyle \frac{n!}{k!(n-k)!}$。

我們在「N階乘近似」一節得到$\displaystyle n!\approx e\sqrt{n}\left(\frac{n}{e}\right)^n$,也強調這個係數$e$只是梯形近似求得,正確值是$\sqrt{2\pi}$,此處先假設它是$C$,下一節講高斯積分再證明$C=\sqrt{2\pi}$。
套用$\displaystyle n!=C\sqrt{n}\left(\frac{n}{e}\right)^n,\quad k!=C\sqrt{k}\left(\frac{k}{e}\right)^k, \quad (n-k)!=C\sqrt{n-k}\left(\frac{n-k}{e}\right)^{n-k}$: $$ P(W_n=k)=\frac1{2^n}\binom{n}{k}=\frac1{2^n}\cdot\frac{n!}{k!(n-k)!}=\frac1{2^n}\cdot \frac{\textcolor{blue}{\cancel{C}}\sqrt{n}\left(\frac{n}{\textcolor{red}{\cancel{e}}}\right)^n} {\textcolor{blue}{\cancel{C}}\sqrt{k}\left(\frac{k}{\textcolor{red}{\cancel{e}}}\right)^k \cdot C\sqrt{n-k}\left(\frac{n-k}{\textcolor{red}{\cancel{e}}}\right)^{n-k}} $$ 分母的兩個$C$和分子的一個$C$消掉剩下一個,分子的次方項$\displaystyle(\frac1e)^n$與分母的次方項$\displaystyle(\frac1e)^k (\frac1e)^{n-k}$也可以相消,再把根號項合在一起,整理後得到: \begin{equation} \label{eq:P(W_n=k)} P(W_n=k)=\frac1{2^nC}\cdot\sqrt{\frac{n}{k(n-k)}}\cdot \frac{n^n}{k^k(n-k)^{n-k}} \end{equation} 我推到這裡其實已經快到極限了,但三百年前的棣美弗居然能夠繼續推導下去。
上面這個式子其實就三個數字:$n, k$和$n-k$,$n$是常數,先不用關心,要關心的是$k$和$n-k$,如果把它們轉換成$(1+t)$和$(1-t)$的形式,就可以利用多項式公式和泰勒級數的對稱性做進一步處理。
怎麼做呢?首先是求均值$\mu=\frac{k+(n-k)}2=\frac{n}2$,那麼從$\frac{n}2$到$k$和$n-k$的距離就一樣了: $$ n-k=\frac{n}2+\left(\frac{n}2-k\right),\quad k=\frac{n}2-\left(\frac{n}2-k\right) $$ 再把$\mu=\frac{n}2$提出來, $$ n-k=\frac{n}2\left(1+(1-\frac{2k}{n})\right), \quad k=\frac{n}2\left(1-(1-\frac{2k}{n})\right) $$ 令$\displaystyle t=1-\frac{2k}{n}$,就得到: $$ n-k=\frac{n}2(1+t), \quad k=\frac{n}2(1-t) $$ 這邊要注意一下,在大數法則的作用之下,多數的k都會落在平均值$\frac{n}2$的附近,所以$n$愈大,絕大多數的$t$會趨近於0。
來看極端的情形,$k$最大就是$n$,最小是0,所以$t$會落在-1和1之間,但是它要等於1,就表示$k=0$,如果$n=100$,意即做100次實驗沒有一次成功,機率是$\displaystyle \frac1{2^{100}}$,$2^{10}$大約有三個0,$2^{100}$就有30個0,1兆是12個0,兆兆是24個0,還剩6個0是百萬,也就是說機率是百萬兆兆分之一,幾乎是不可能了。
回到\eqref{eq:P(W_n=k)}式,我們先處理根號的部份: $$ \sqrt{\frac{n}{k(n-k)}}=\sqrt{\frac{n}{\frac{n}2(1-t)\cdot\frac{n}2(1+t)}}=\frac2{\sqrt{n(1-t^2)}}\approx \frac2{\sqrt{n}}\qquad \because t很小 $$ 接著處理\eqref{eq:P(W_n=k)}後面指數的部份,把$\displaystyle k=\frac{n}2(1-t),\quad n-k=\frac{n}2(1+t)$代進去,則: \begin{align*} k^k &= \left(\frac{n}2(1-t)\right)^{\frac{n}2(1-t)}=\left(\frac{n}2\right)^{\frac{n}2(1-t)}\cdot \left(1-t\right)^{\frac{n}2(1-t)} \\[8pt] (n-k)^{n-k} &=\left(\frac{n}2(1+t)\right)^{\frac{n}2(1+t)}=\left(\frac{n}2\right)^{\frac{n}2(1+t)}\cdot \left(1+t\right)^{\frac{n}2(1+t)} \\[8pt] k^k\cdot (n-k)^{n-k} &=\left(\frac{n}2\right)^{\overbrace{\left(\frac{n}2(1-t)\right)+\left(\frac{n}2(1+t)\right)}^{\displaystyle =n}} \cdot \left(1-t\right)^{\frac{n}2(1-t)}\cdot \left(1+t\right)^{\frac{n}2(1+t)} \\[8pt] &=\frac{n^n}{2^n}\cdot \left(1-t\right)^{\frac{n}2(1-t)}\cdot \left(1+t\right)^{\frac{n}2(1+t)} \end{align*} 於\eqref{eq:P(W_n=k)}中,$k^k\cdot (n-k)^{n-k}$是在分母,所以可預見$\displaystyle \frac{n^n}{2^n}$會在\eqref{eq:P(W_n=k)}中被消去了。因此可以專心處理$\displaystyle \left(1-t\right)^{\frac{n}2(1-t)}\cdot \left(1+t\right)^{\frac{n}2(1+t)}$的部份。要處理指數,最好的方法就是把它取對數,整理完再轉回指數。
\begin{equation} \label{eq:log(1+t)+log(1-t)} log\left((1-t)^{\frac{n}2(1-t)}\cdot (1+t)^{\frac{n}2(1+t)}\right)=\frac{n}2\Big((1-t)log(1-t)+(1+t)log(1+t)\Big) \end{equation} 棣美弗大約是1720~1730年推導出這個公式,當時還沒有泰勒展開式這個名詞,但針對某些特定函數已經有了泰勒級數的結果,下面這就是一個重要且常用的級數: \begin{equation} \label{eq:log(1+t)} log(1+t)\approx t-\frac{t^2}2+\frac{t^3}3-\cdots \end{equation} 它的推導很簡單:假設$f(t)=log(1+t)$,則 $$ f(0)=0, \quad f'(0)=\frac1{1+\cancelto{0}{t}}=1,\quad f''(0)=\frac{-1}{(1+\cancelto{0}{t})^2}=-1,\quad f'''(0)=\frac{2}{(1+\cancelto{0}{t})^3}=2\cdots $$ 代入對0展開的泰勒展開式$f(x)=f(0)+\frac{1}{1!}f'(0)x+\frac{1}{2!}f''(0)x^2+\frac{1}{3!}f'''(0)x^3+\cdots$就會得到上式。如果把$t$改成$-t$就是 \begin{equation} \label{eq:log(1-t)} log(1-t)\approx -t-\frac{t^2}2-\frac{t^3}3-\cdots \end{equation} 把\eqref{eq:log(1+t)}和\eqref{eq:log(1-t)}代入\eqref{eq:log(1+t)+log(1-t)}會得到 \begin{align*} &\frac{n}2\left((1-t)\left(-t-\frac{t^2}2-\frac{t^3}3-\cdots\right)+(1+t)\left(t-\frac{t^2}2+\frac{t^3}3-\cdots\right)\right) \\[6pt] =&\frac{n}2\left({\color{red}\cancel{-t}}{\color{blue}\cancel{-\frac{t^2}2}}-\cdots{\color{blue}\cancel{+t^2}}+\cdots+{\color{red}\cancel{t}}{\color{blue}\cancel{-\frac{t^2}2}}+\cdots+t^2-\cdots\right) \\[6pt] =&\frac{n}2t^2 \end{align*} 上面在用分配律乘開括號()的時候,我用$\cdots$分隔成四個區塊,而且因為$t$很小,所以只有最低次方項會留下作用,而一次方的$t$都被抵消了,所以最低次方項是二次的$t^2$。
答案是這麼地簡單樸實無華。再取回指數就得到 \begin{align*} &(1-t)^{\frac{n}2(1-t)}\cdot (1+t)^{\frac{n}2(1+t)} &=e^{\frac{n}2t^2} \\[6pt] \Rightarrow\qquad & k^k(n-k)^{n-k} &=\frac{n^n}{2^n}e^{\frac{n}2t^2} \\[6pt] \Rightarrow\qquad & \frac{n^n}{k^k(n-k)^{n-k}} &=2^ne^{-\frac{n}2t^2} \end{align*} 現在重寫一次\eqref{eq:P(W_n=k)}: \begin{align*} P(W_n=k)&=\frac1{\cancel{2^n}C}\cdot\underbrace{\sqrt{\frac{n}{k(n-k)}}}_{\displaystyle\frac2{\sqrt{n}}}\cdot \underbrace{\frac{n^n}{k^k(n-k)^{n-k}}}_{\displaystyle =\cancel{2^n}e^{-\frac{n}2t^2}}\\[6pt] &=\frac2{C\sqrt{n}}e^{-\frac{n}2t^2},\qquad 其中t=1-\frac{2k}{n} \end{align*} 現在重點來了,還記得這個$t$怎麼來的嗎?我們先求得了$k$和$n-k$的平均值是$\displaystyle \frac{n}2$,那麼$k$和$n-k$與$\displaystyle \frac{n}2$的距離都是$\displaystyle \frac{n}2-k$,然後把$\displaystyle \frac{n}2$提出來,再令$\displaystyle t=1-\frac{2k}{n}$。
也就是說平均值$\displaystyle \mu=\frac{n}2$,而$t$就是$\displaystyle \frac{\mu-k}{\mu}$。
還記得我們前面有強調二項式分佈的標準差$\displaystyle \sigma=\frac{\sqrt{n}}2$嗎?如果令$\displaystyle z=\frac{k-\mu}{\sigma}$,這是常態分佈的標準化變數,那麼$\mu-k$是$-\sigma z$,$t$變成$\displaystyle \frac{-\sigma z}{\mu}$,整理如下: $$ t=\frac{-\sigma z}{\mu}=\frac{-\sqrt{n}/2\cdot z}{n/2}=\frac{-z}{\sqrt{n}} $$ 是的,你沒猜錯,$t$平方以後,分母的$\sqrt{n}$會變成$n$,在$\displaystyle\frac2{C\sqrt{n}}e^{-\frac{n}2t^2}$的指數裡消去,而且係數的分子2若放到分母變倒數,正好就形成了$\sigma=\frac{\sqrt{n}}2$。最後 $$ P(W_n=k)=\frac1{C\sigma}e^{-z^2/2},\qquad z=\frac{k-\mu}{\sigma} $$ 再補充一下,推導的過程裡好幾次用到$t$是微小量的假設,如果$t$不小的話,誤差就會大。確實二項式分佈與常態分佈在尾端的誤差比例很大,但尾端本身的機率就幾乎是0了,比例大也沒關係,毫不影響累加機率密度函數。舉個例來說,常態分佈的尾端是無限延伸,再怎麼小的機率都不會是0,但二項式分佈在$k>n$與$k<0$的機率真的就是0了。
看樣子這一節還是沒能講到$C=\sqrt{2\pi}$,下一節講高斯分佈與高斯積分再會。