[R]散佈圖與相關係數 Scatter plot & Correlation

by wenwu
0 comment

[R]散佈圖與相關係數 Scatter plot & Correlation

在我們收集的資料中,兩個不同的連續變數是否會有某些程度的連結或是影響呢? 比方說喜樂國小的A班的學生數學成績比較高,那英文成績會因此影響嗎? 身高高的人,是否體重也比較重呢? 兩個變數的關係是因著其中一個增加而降低或是減少呢?

有很多方法可以看見兩個變數之間的關係,最直覺的方法可以使用兩個變數畫出散步圖,先觀察兩者的關係。


散佈圖Scatter plot

假設我們現在有兩個變數 x & y ,資料如下

x <- c(11,16,19,18,20,23,19,21,24,29)
y <- c(23,26,34,29,33,27,23,36,30,40)

使用 plot 函數畫出散步圖

plot(x, y)

下面是plot(x, y)畫出的散步圖,可以發現這十個點好像呈現一條線的樣子(從左下到右上) ,可以發現好像x 增加了,y也增加。但是兩個變數的相關性強還是弱,在統計上無法直接用圖形來解釋,我們可以使用相關係數知道他們的關係。


皮爾森相關係數Pearson Correlation

皮爾森相關係數的公式如下:

相關係數的性質:

  1. 相關係數是一純量(scalar),具有單位不變性的性質
  2. 0<=|r|<=1
  3. |r|越靠近1表示X和Y的直線關係越強
  4. |r|表示表示X和Y的沒有直線關係,但不代表X和Y不具有其他的非直線關係

相關係數的意義:

  1. r的正負號代表著X與Y的相關性,如果r>0,表示X和Y為正相關,亦代表Y值會隨X值變大而增大;反之,如果r<0,表示X和Y為負相關,亦代表Y值會隨X值變大而縮小。
  2. |r|<=1。若|r|=1 則表示X和Y在一直線上,|r|越靠近1表示X和Y的直線關係越強;反之,若|r|越靠近0則表示X和Y的直線關係越弱。
  3. 若 |r|=1.00 代表 兩組變數完全相關
    若 |r|介於0.70到0.99 代表 兩組變數高度相關
    若 |r|介於0.40到0.69 代表 兩組變數中度相關
    若 |r|介於0.10到0.39 代表 兩組變數低度相關
    若 |r|小於0.1 代表 兩組變數相關非常低

要如何計算相關係數呢?直接使用R的cor 函數

cor(x,y)

相關係數 r=0.6991015,r>0 表示 x&y為正相關,|r|=0.699 很靠近0.7 表示 x&y 有高度相關,下面介紹假設檢定來看兩者是否有顯著相關

H0: r = 0 ,H1: r ≠0
設立虛無假設為相關係數等於零,而對立假設不為零

檢定統計量如右圖
其中 r 為相關係數
n 為樣本個數

同樣使用R的函數 cor.test ,會出現統計檢定量 t , p-value ,correlation

cor.test(x,y)

可以看到相關係數r=0.6991015,統計檢定量t=2.7654,以及p-value=0.02447 < α=0.05 表示reject H0 ,兩者有顯著相關。


散佈圖加上趨勢線

我們已經有相關係數,也知道兩者有顯著相關了,再來我們在圖上加上趨勢線,可以幫助視覺化,並且把相關係數跟p-value加在圖上

plot(x, y)
abline(lm(y~x),col=”red”)
legend(“topleft”, legend = c(“r = 0.6991015”, “p — value = 0.02447”))

搭拉~~~最後我們的圖就完成啦 !

終於完成我的小小目標在2019完成十篇文章啦! 2020 也請大家多多指教 
祝大家新年快樂 ~

wen 2019/12/31

Related Articles

發表迴響