Table of Contents
[SAS]卡方檢定 Chi-Square test
上次介紹完用R跑卡方檢定
今天要介紹如何用SAS使用卡方檢定
卡方適合度檢定
主要使用於抽樣一組(次)的樣本
H0 : 資料分配符合期望值
H1 : 資料分配不符合期望值
同樣,我們想知道這顆骰子是否公正,每一面出現的機率是不是都是相同
使用 proc freq 在 斜槓後面加 chisq 就有卡方檢定
可以看到圖中的卡方值是7.12 而 p-value = 0.2119
因為 p-value >0.05 所以不拒絕 H0,表示這顆骰子是公正的
proc freq data=x;
tables x /nocol nopercent chisq ; run;
卡方獨立性檢定
主要使用於抽樣兩組(次)與兩組(次)以上的樣本
H0 : 研究資料彼此獨立
H1 : 研究資料彼此不獨立
我們想知道學生餐廳中,同學選擇主餐是否與湯品的選擇是否有關係
使用 proc freq 在 斜槓後面加 chisq 就有卡方檢定
meat * soup 兩個變項相乘,就會出現列連表
可以看到圖中的卡方值是0.5701 而 p-value = 0.7520
因為 p-value >0.05 所以不拒絕 H0,表示同學選擇主餐與湯品是獨立的
roc freq data=customer;
tables meat * soup /nocol nopercent chisq ; run;
卡方同質性檢定
主要使用於抽樣兩組(次)與兩組(次)以上的樣本
H0 : 檢定資料是否來自同一個母體,或母體分配相同
H1 : 檢定資料是否來自不同母體,或母體分配不同
其實「卡方獨立性檢定」跟「卡方同質性檢定」的方法是一樣的,然而兩個切入的角度完全不一樣
兩者的差別是「卡方獨立性檢定」主要探討的是「資料關聯性」,而「卡方同質性檢定」探討的則是「各類別比例是否相同」
如果遇到儲存格內的觀測次數小於五 可以用卡方檢定嗎 ?
最後,介紹一下使用卡方時會遇到的狀況
我們常常看到 使用卡方檢定時每一格子的觀測次數不得小於五
所以遇到小於五的話該怎麼辦呢?
首先,可以判斷一下是否可以繼續使用卡方檢定或是使用別的方法
當df>1 時,如果不超過20%的格子的觀測次數小於五(或是有80%以上的格子都大於五,就可以使用卡方檢定
! 注意不許有儲存格出現0的情況 !
另一種方法,可以合併小於五的儲存格
這個方法可以解決問題,但是我們損失的資訊越多,檢定的結果就越有偏差
如果以上的情況都沒有幫助,可以使用葉式連續校正,或是使用費雪精確檢定(Fisher’s Exact Test)