參考政大劉惠美老師線上課程
點估計
統計兩大議題之一(估計與檢定)
定義:
Statistic(統計量): 隨機變數所構成的函數,不包含未知的母數
EX: $\bar{x} \quad \sum_i(x_i) \quad \sum_i{(x_i-\bar{x})}^2$
Estimator(估計式)是一個用來估計未知母數的統計量
Note:通常母數參數用$\theta$表示,$\hat{\theta}$則是他的估計式
Estimate(估計值)是帶入數字的值
方法介紹
一. 動差估計法 (Method of Moments Estimator)
要先得知母體的分布"種類”,才能知道n階動差的格式
進一步令n階樣本動差等於n階母體動差
然後解聯立方程求出母體參數,得到母體確切形狀
(如果母體只有1個參數,那就只需要一階,也就是一個方程式,以此類推)
母體動差: $E(X^k)$
樣本動差: $\sum_{i=1}^n{x_i^k}/n$
很明顯地,樣本動差省略了"各值機率P(X|$\theta$)“這個重要的訊息
解釋: 以離散期待值來說,母體動差= $\sum{X^k * P(X|$\theta$)}$,而P(X|$\theta$)是由母體分布得來
而樣本動差則直接視為均值分布
Example: 白努力分布
已知 $X_i$~bernoulli(p) ,並且$x_i$是iid
則 $\hat{E(X)} = \hat{p} = \frac{\sum{x}}{n}$
(做實驗可以得知X_i,就可以帶入估計式得到p的估計值)
Example: 均值分布
已知 $X_i$~U(0,$\theta$) ,並且$x_i$是iid, 服從0~$\theta$
$\hat{E(X)} = \hat{\theta}/2 = \bar{x}$
得 $\hat{\theta} = 2\bar{x} $
Example: 常態分佈
已知 $X_i$~bernoulli($\mu$,$\sigma^2$) ,並且$x_i$是iid
$\hat{E(X)} = \hat{\mu} = \bar{x} $
$ \hat{E(X^2)} = \hat{\sigma^2} - \hat{\mu^2} = \sum{x^2}/n $
Note:
-
估計出來的$\sigma$會有bias,所以需要乘上(n-1)/n去調整
(因為$\sigma$跟sample版的差了n-1,但樣本動差分母是除n ) -
注意二階動差 => Var(X) - $\mu^2$ ,這個格式常常用到
優點: 方便計算
缺點: 可能會失準
解釋: 以上例來說,若以U(0,1)為實驗,發現抽樣$\bar{x}$=0.64,則$\hat{\theta}$=1.28
二. 最大概似法 (Maximum Likelihood Estimator)
定義: Likelihood(function)
與原本的pdf一模一樣,只是給定變成隨機變數X,未知變成參數
Probability 是 給定參數 => 求隨機變數X發生的機率
Likelihood 是 給定某些可能值 => 推得參數
Example:
Probability:
已知洋芋片一包重量成常態分佈N($\mu$,$\sigma$),求位於a克重的機率
寫成數學表達式為
$$ P(X=a|\mu,\sigma) $$
Likelihood:
已知洋芋片有a克重,求其在常態分佈$\mu$,$\sigma$下的機率
寫成數學表達式為
$$ L(\mu,\sigma | X=a)$$
可以知道這兩者的結果都是機率值,只是已知與待求相反
也可以參考statQuest Probability Vs Likelihood
statQuest-MLE
MLE就只是 求一個特定分布,使觀察到的特定點機率最大
而最大值求法就使用一皆偏微分=0 即可
並且技巧上會先取log
Example: 常態分佈MLE
有三個符合常態分布N($\mu$,$\sigma$)的iid隨機變數
其聯合機率分布為
$$\Pi_{i=1,2,3} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} =\frac{1}{(2\pi\sigma^2)^{3/2}}e^{-\sum_{i=1,2,3}\frac{(x_i-\mu)^2}{2\sigma^2}} $$
Likelihood一樣是使用這個分布公式,只是我們變成已知X1,X2,X3,要去找$\mu$,$\sigma$
MLE則是要找到使X1~X3發生機率最大的$\mu$,$\sigma$
作法:取log後偏微分=0
求$\mu$
$$\frac{\partial}{\partial \mu}(-3/2)ln(2\pi\sigma^2)-\sum_{i=1,2,3}\frac{(x_i-\mu)^2}{2\sigma^2}=0$$
經過偏微分得
$$-\frac{1}{2\sigma^2}\sum_{i=1,2,3}(-1)2(x_i-\mu)=0$$
整理得到
$$\mu = \frac{\sum_{i=1,2,3}x_i}{3} (其實是估計版的\hat{\mu})$$
Note:
- 可得知在常態分佈,MLE與MME結果一樣都是樣本平均值 = 母體平均值
- $\hat{\sigma}$如法炮製即可
- Beta , Gamma 分布由於導數不好求,通常都用MME估計
Example: Poissson MLE
令n個iid的X_i隨機變數服從possion($\theta$)
則其聯合機率分布函數為
$$L(\theta) = \Pi_{i=1~n}\frac{\theta^{X_i}e^{-\theta}}{x_i!} = \frac{\theta^{\sum{x_i}}e^{-n\theta}}{\Pi_{i=1~n}X_i!}$$
取log
$$lnL(\theta) =\sum{x_i}ln\theta-n\theta-ln(\Pi_{i=1~n}X_i!)$$
求偏微分=0
$$\frac{\partial lnL(\theta)}{\partial\theta} = 0 $$
得 $\hat\theta = \bar{X}$ ,也就一樣是樣本平均數
Note:
嚴謹一點的話,MLE一階偏微分完後,還要證明二階<0,才會確定為最大值!
Thm: MLE的不變性 (MLE`s Invariance property)
如果要估計經過MLE得到的估計參數的函式值,只需要把MLE參數代入即可 (非常直覺的定理)
$$\hat{f(\theta)}=f(\hat{\theta})$$
有趣的是,Uniform Distribution無法求偏倒數=0的解,只能證明找到0~$\theta$使L($\theta$)最大
而可以得證上下界估計值為樣本中的最小值與最大值
這也比MME得到的$2\bar{x}$還要實用 (不可能超過真實的上下界)
常見分布MLE估計式,參考這裡
常見分布MME估計式,參考這裡
MLE 在大樣本下有很棒的性質,所以通常是不錯的估計方法
(1) $\hat\theta$ 存在且唯一
(2) 大樣本下滿足不偏性與有效性
也就是MLE在大樣本下猜的很準,且答案一定只會有一個
三. 貝式估計式 (Bayes Estimator)
Def: 後驗分配(Posterior Distribution)
$$f_{\theta|X}(\theta) = \frac{f(x1..xn|\theta)p(\theta)}{\int f(x1..xn|\theta)p(\theta)d\theta} \quad, p(\theta) 是先驗機率、f(x1..xn|\theta)是概似函數$$
後驗分配本身就式參考貝氏定理
解釋I-數學式: 可以理解為分子是聯合分佈,分母是邊際分布(想想離散,把某一列全部加起來)
解釋II-意義: 觀察到X(如:產品出現瑕疵),求得到此情報後,機器故障的機率分布($f_{\theta|X}$)
Thm: 若 Xi 是iid 且服從 f(x,$\theta$)
則貝氏估計式定義為
求在限制式 Min $E_{\theta|x}[L(\hat{\theta};\theta)]$ 的 $\hat{\theta}$
其中L為損失函數(loss function),常見的有$\hat\theta$與$\theta$相減的絕對值或取平方
意義: 尋找期望上損失最小的估計參數$\hat{\theta}$
Thm: 在損失函數是Square Loss下(也就是${(\theta-\hat{\theta})}^2$)
貝式估計式的參數解為 $\theta$乘上後驗函數的積分
$$\hat{\theta} = \int \theta f_{\theta|X}(\theta) d\theta$$
Example: 白努力分配
Xi為iid 且服從白努力分配 $X_i|\theta$ ~ Bernoulli($\theta$),並且$\theta$服從U(0,1)
求以square error的貝式估計
$$f_{\theta|x1..xn}(\theta) = \frac{f(x1,..xn,\theta)}{f(x1,..,xn)} = \frac{f(x1,..xn|\theta)*f(\theta)}{\int f(x1,..,xn)d\theta} $$
代入機率分布 $f(x1,..xn|\theta)$ 用白努力分配式,$f(\theta)$ 用均值分布此例中剛好均值分布是1 (1/b-a)
$$\frac{\Pi \theta^{x_i}{(1-\theta)}^{1-x_i}*1}{\int_0^1 {\theta}^{\sum{x_i}}{(1-\theta)}^{(n-\sum{x_i})}d\theta }$$
其中分母要代貝塔function,這裡就先不贅述,得答案為 樣本總和+1 / n+2
好的估計式特性
好的估計式特性:
會具有以下四種特性:
- 不偏性
- 有效性
- 充份性
- 完備性
1.不偏性 (Unbiasedness)
估計參數的期望值要等於母體參數
即 $E(\hat{\theta}) = \theta$
Example: Bernoulli的MLE估計式具有不性
$$\hat{p} = \bar{x} ==> E(\bar{x}) = \frac{\sum{E(x_i)}}{n} = \frac{np}{n} = p$$
2.有效性 (Efficiency)
(不偏估計式中)Varience要最小
即,給定兩個不偏估計式$\hat{{\theta}_1}$與$\hat{{\theta}_2}$
若 Var($\hat{{\theta}_1}$) < Var($\hat{{\theta}_2}$),則我們說$\hat{{\theta}_1}$比較好
Thm: Cramer-Rao Lower Bound (C-R lower bound)
$$Var(\hat{\theta}) >= \frac{{\tau`(\theta)}^2}{n{* E [\frac{\partial}{\partial \theta}lnf(x,\theta)] }^2 }$$
Note:
- 通常$\tau(\theta) = \theta$,所以分子會變成1
- 定理用途: 只要求出不偏估計式,不偏估計式的variance又等於下界,則自動符合有效性
以上兩點直觀意義: 估計本質上就是"猜”,我們希望猜的"機率上最準”(不偏性),且不希望"範圍太廣”(有效性)
(舉例來說,同樣滿足不偏性的情況下,猜中某一天發生地震,會比猜中某個月發生地震來的實用)
滿足這兩個性質被稱為 UMVUE (uniformly minimum-variance unbiased estimator)
通常會用以下兩個性質幫助我們求解
3.充分性 (Sufficiency)
重新分割樣本空間,使其對母體估計的訊息不少於原本的sample
說明: 分割樣本空間
投擲三個銅板
其Sample Sapce = {(H,H,H),(T,H,H),(H,T,H),(H,H,T),(T,T,H),(T,H,T),(H,T,T),(T,T,T)} 共八種可能
若以H個個數來切割樣本空間,則會切割成四塊
{(H,H,H),(T,H,H),(H,T,H),(H,H,T),(T,T,H),(T,H,T),(H,T,T),(T,T,T)}
以隨機變數的角度,就會是三個bernoulli x1,x2,x3,其隨機變數和T()會切割sample space為數個小集合
這些小集合符合 T(x1,x2,x3)相等的特性
說明: 分割與資訊量
這種分割可用於減少資料量(data reduction),因為分割結果數比原本sample space結果數小
(只需要記總和,就有和各個值一樣的效果)
但又不能分割太少,否則會失去資訊量
(比如投硬幣例子中只看前兩個結果)
充份性即說明不失去資訊量下的分割
數學定義:
$$T(X)是一個樣本分割,如果P(X|T(X)) 與母體參數\theta無關 , 則T(X)是充份統計量 $$
解釋:
- 所謂無關,就是不含$\theta$變數(對$\theta$是常數)
- 之所以這樣定義,代表 X 能靠估計方法得到的方程式解出的$\theta$ , T(X)也可以做到
Thm: 分解定理
若pdf 可以拆成兩個部分乘積, 即與$\theta$、分割相關function 乘上 與$\theta$無關的function
則 該分割就是充分統計量
即 $$f(X|\theta) = g(T(X),\theta)h(X) , 則T(X)就是充分統計量$$
Note:
- 計算上常常將h(X) = 1
- 此定理也告訴我們,充分統計量會有多個
- 充份統計量一定至少有自己、或是排序過資料(當然這樣就沒有簡化)
Example: iid服從白努力分布的隨機變數和是充份統計量
$$P(x1,..xn|\theta) = \Pi_{i=1,..n}{\theta}^{x_i}{1-\theta}^{1-x_i} = {\theta}^{\sum{x_i}}{1-\theta}^{n-\sum{x_i}} = {\theta}^{\sum{x_i}}{1-\theta}^{n-\sum{x_i}} *1 = g(T(X),\theta)h(X) $$
故得證,當然此題也可以用充分統計量定義計算
4.完備性 (Completeness)
是針對分佈的特性,然後在此分布下導出的統計量具有完備性
定義:
如果一個分布是完備性的
$$如果對所有\theta 都有 E[f(T(X))]=0 , 則f(T(X))=0 對所有 \theta都要成立 $$
Example: Possion 具有完備性
令 $x_i$ 是 iid 且服從 possion($\mu$)
令 T = $\sum{x}$ 服從 possion(n$\mu$)
$$E[f(T(X))] = \sum_{x=0}^{\infty}(\frac{(n\mu)^xe^{-n\mu}}{x!}*f(T(X)) = 0 \quad by期望值定義$$
因為n$mu$ > 0 , 整個式子要等於零,只有f(T(X))=0
故 E[f(T(X))] = 0 => f(T(X)) =0 對所有參數都成立,所以possion是完備的