[SAS]迴歸分析 — 模型挑選 Regression feature selection

Table of Contents

[SAS]迴歸分析 — 模型挑選 Regression feature selection

逐步挑選 stepwise \ 向前選取 foreward\ 向後選取 backward

前一篇的 [SAS]線性迴歸 linear regression 介紹了線性迴歸的基本統計假設和會需要用到的統計檢定，並且用一個簡單的例子來示範這些基礎概念。

但是當我們有多個自變項(X)的時候，該如何挑選適合的自變項呢?
本篇要介紹三種挑選自變項的方法，分別為 逐步挑選 stepwise \ 向前選取 foreward\ 向後選取 backward

向前選取 (foreward) : 向前選取基本上就是自變項一個一個挑選至模型中。從所有的自變項中，挑選最顯著的優先進入模型中，直到所有顯著的自變項都在模型裡面。(不顯著的自變項不挑選)
向後選取 (backward) : 向後選取和向前選取相反。首先是將所有的自變項都選至模型中，再一步一步篩選最不顯著的變數，一個一個從模型中挑選出來，直到所有在模型中的自變項都是顯著的。
逐步挑選 (stepwise) : 前面的兩種方法都是無法逆回的，就是挑選(or 挑出來)到模型中，確定整體模型顯著之後，就不會再移除了。
而逐步挑選的方法比較像前兩者的總合體。一開始像向前選取一樣，但是當A自變項選到模型中，若之後再挑選B自變項，可能所有的自變項中 A是最不顯著的，那就會將A 離開模型(這部分像向後選取)。來來回回，一直挑選直到沒有自變項加入(or移除)會使整體模型更好。

逐步挑選 (stepwise) :

最常使用的方法就是stepwise，可能相較於其他兩種方法，stepwise是可逆的，如果選到不好的自變項，可以再刪除。而為什麼有些自變項一開始的顯著的效果較佳，但在後面反而被刪除呢?
原因是不同的自變項之間可能有相關，而加入其他的自變項之後，第一個自變項反而不適合現在這個模型了，所以就把他刪除。

現在就用SAS 來示範 stepwise ，資料使用上一篇提到的成績 (在這裡) 。
程式加上 selection=stepwise

proc reg data=reg;
model y=x1 x2 x3 x4 x5 /CLB selection=stepwise; 
run;

Step 1 第一步挑選的自變項為X4，X4加入的 R² = 0.6810 ，現在只有一個自變項，迴歸模型的顯著性檢定 p-value <0.0001 ，表示效果不錯。

Step 2 再來挑選的自變項為X5，X5加入的 R² = 0.7620 ，相較上一步的R² 多了 0.081 ，解釋的變異有增加，代表加了X5至模型中效果更好
迴歸模型的顯著性檢定 p-value <0.0001 ，看到個別迴歸係數的邊際檢定 X4/X5 的 p-value = 0.0080/0.0555 ，雖然 X5 的沒有小於0.05 ，但是值很靠近，並且 R² 有增加，所以保留X5在模型中。

這時所有留在模型中的變數滿足停留允許水準0.15，並且模型外的所有變數不滿足進入允許水準，因此篩選過程結束。

可以寫出模型為 :
Y= -19.947+0.475* X4+0.452* X5

最後會有一張總結的table (Summary of Stepwise Selection)，可以看到每個自變項加入(or刪除)的順序/R²/Partial R²(就是R²的差距)/F value / p-value 等等。

最後附上output的圖，如果不知道怎麼解讀的話，可以回顧上一篇。

比較可惜的是這組資料剛好沒有刪除任何的自變項(不然我也是很樂意講解的)，接下來會介紹 foreward\ backward 。

向前選取 (foreward) :

我們使用相同的資料跑 foreward

proc reg data=reg;
model y=x1 x2 x3 x4 x5 /CLB  selection=foreward; 
run;

Step 1 第一步挑選的自變項為X4，和stepwise 的第一步相同。X4加入的 R² = 0.6810 ，現在只有一個自變項，迴歸模型的顯著性檢定 p-value <0.0001 ，表示效果不錯。

Step 2 再來挑選的自變項為X5，X5加入的 R² = 0.7620 ，相較上一部的R² 多了 0.081 ，解釋的變異有增加，代表加了X5至模型中效果更好
迴歸模型的顯著性檢定 p-value <0.0001 ，看到個別迴歸係數的邊際檢定 X4/X5 的 p-value = 0.0080/0.0555 ，雖然 X5 的沒有小於0.05 ，但是值很靠近，並且 R² 有增加，所以保留X5在模型中。

Step 3 前面兩個步驟都與stepwise一樣，而在第三步中foreward再挑選了一個自變項X1 。X1加入的R² = 0.7893 ，相較上一步的R² 多了 0.0273 ，解釋的變異有增加，但是比之前少一點。
迴歸模型的顯著性檢定 p-value =0.0002，看到個別迴歸係數的邊際檢定 X1/X4/X5 的 p-value = 0.2367/0.0130/0.0455。

沒有其他自變項符合進入模型的0.5顯著水準，所以在foreward 選了 X1/X4/X5 進入模型。

可以寫出模型為 :
Y= -25.72+0.403*X1+0.441* X4+0.471* X5

向後選取 (backward) :

最後示範的是backward

proc reg data=reg;
model y=x1 x2 x3 x4 x5 /CLB  selection=backward; 
run;

在篩選前，需要觀查每個自變項的顯著性如何? SAS 很貼心幫我們印出了step0

Step 0 可以看到假設所有的變項都進入模型的話 R²=0.8005 ，迴歸模型的顯著性=0.0028。個別迴歸係數的邊際檢定X1~X5=0.2363/0.6092/0.7141
/0.0236/0.0613 。效果最差的是X3，所以第一步會刪掉X3。

Step 1 當X3移除了之後， R² = 0.7976 ，迴歸模型的顯著性=0.0008 (比前一個好)。個別迴歸係數的邊際檢定最差的是X2 ， p-value = 0.5138，下一步會移除X2。

Step 2 當X2移除了之後， R² = 0.7893 ，迴歸模型的顯著性=0.0002 (比前一個好)。個別迴歸係數的邊際檢定最差的是X1 ， p-value = 0.2367，下一步會移除X1。

Step 3 當X1移除了之後， R² = 0.7620 ，迴歸模型的顯著性<0.0001 (比前一個好)，X4 & X5 個別迴歸係數的邊際檢定為0.0080/0.0555。
其實就模型的效果 R² = 0.7620 並且 p-value<0.0001，已經很不錯了。

模型中所剩下的所有自變項都有達到0.1000顯著水準，所以在backward 挑選結束。將X1/X2/X3挑出模型，只剩下X4/X5。

可以寫出模型為 :
Y= -19.95+0.475* X4+0.452* X5

最後一張表為沒有挑進模型的變數(Summary of Backward Elimination)

該選哪個模型好呢?

三種挑選模型的方法都講完了，但是逐步挑選 stepwise \ 向前選取 foreward\ 向後選取 backward 挑選出代表的自變項不盡相同，我們又該怎麼選呢?

其中stepwise 和 backward 都選了X4/X5 ，而foreward 選了X1/X4/X5。而三種模型挑選的變數，其實就只是在”統計上”具有意義，”實際上”我們可以觀察變數的關係，找出重要的因子加入。

在選擇模型時沒有絕對的對錯，若是 X3 (文法成績)對於 Y (閱讀測驗成績)非常的重要，而整體模型的效果也不差，最後也可以挑選X3進入模型。

沒有最好的模型，只有最適合的模型

希望大家都找到最適合資料的模型。

[SAS]迴歸分析 — 模型挑選 Regression feature selection

[SAS]迴歸分析 — 模型挑選 Regression feature selection

逐步挑選 (stepwise) :

向前選取 (foreward) :

向後選取 (backward) :

該選哪個模型好呢?

分享此文：

請按讚：

相關

[SAS]線性迴歸 linear regression

機器學習的情境 Scenario

Related Articles

發表迴響取消回覆