健保資料庫介紹

by wenwu
0 comment

健保資料庫介紹

工作快一年半了,主要的工作內容都與健保資料庫離不開關係
今天想要依照我所使用健保資料庫的經驗與大家介紹

主要也是本身的記憶力太差,若是離開這份工作後,也就講不出健保資料的介紹了,所以趁著記憶猶、最有心得的時候來分享


如果想要知道健保資料庫提供什麼樣的資料的話,可以直接到衛服部統計處查詢,,網站中提供最完整的資料項目以及明細,但是今天不一一介紹每一個變項
今天分享的內容主要從我的經驗為主,分享的大綱如下:

  • 如何使用健保資料庫
  • 資料庫介紹
  • 資料使用實例分享
  • 使用健保資料庫的優缺點

如何使用健保資料庫

健保在台灣的普及率非常高,所以台灣的健保資料庫收集的也非常完全。
但是要如何取得這份資料呢? 是每一個人都能夠使用嗎?

首先,我們要知道資料的來源是來自衛服部統計處的資料科學中心。大約有八十幾個資料能夠使用(待會會介紹)。
當然資料不是隨便的人都能使用的,也不是在網路上的open data 可以給大家下載,使用資料是需要申請。
而且資料也不是申請之後就可以帶回家使用,需要在衛服部所屬的資料科學中心才能進行分析。

大多申請的案件是衛服部的計畫或是碩博士論文。其中申請流程包誇通過IRB(人體試驗委員會)核可等等相關的流程。

提供IRB核可後,可以向衛服部提出申請。在申請的過程中,需要填寫勾選表(也就是需要的欄位),填寫每個欄位需要申請的原因。初審過後繳費,並且等待資料處理。

簡短了介紹申請資料庫的流程,但申請是非常花時間的。記得今年在四月左右處理IRB文件,接續處理申請計畫書與研究計畫。五月中時將填寫好的文件送到衛服部,一來一往更改後大約四週後通過初審,再過四週後通過複審,進行繳費。流程大約花費兩個多月的時間。當然不是申請完就能夠馬上使用資料,資料處裡可能再花上2.5個月的時間。

所以前前後後從申請IRB到能夠使用資料,大約也要半年的時間,目前預計這個月底我可以使用新的資料。

剛剛有提到使用資料需要在衛服部所屬的資料科學中心才能進行分析。
進去資料中心是不能帶任何電子產品的,不能攜帶手機、USB、電腦等相關用品,必須兩手空空只帶頭腦進去,進行一切的分析。而且必須是國人才能進入加值中心。

當然,攜出資料也有相關的規定,不能攜帶小於三的統計結果等等。所以可以看得出來這份工作是蠻需要專業的,進去後只能靠自己一個人分析,有時間限制與專業的考驗。


資料庫介紹

再來就是介紹有甚麼資料可以使用了,但是這邊不一一贅述,資料庫有八十幾份資料可以選擇(一開始就需要依照資料檔與欄位選擇,並且計算費用)如果想知道有哪些資料可以到衛服部的統計處查看

最常用的資料庫為健保資料庫癌症登記檔

健保資料庫可以分為三個部分:

  1. 費用檔 
    全民健保處方及治療明細檔_門急診
    全民健保處方及治療明細檔_住院
    全民健保處方及治療明細檔_藥局
    全民健保承保檔
  2. 醫令檔
    全民健保處方及治療醫令明細檔_門急診
    全民健保處方及治療醫令明細檔_住院
    全民健保處方及治療醫令明細檔_藥局
  3. 基本資料檔
    醫事機構現況檔
    醫院醫療服務量檔
    醫事機構基本資料檔

整個健保資料庫的核心在於費用檔,它紀錄了就診病患、醫師、疾病、時間、院所,以及費用的相關資訊。
費用檔不但明列了就診的總費用,還記錄了根據不同檢查、診療,處置等項目。其中也包誇時間相關的變項:就診日期、申報日期、住院日期和急慢性病床天數。並且也記錄的病患就診的原因。

相較於費用檔,醫令檔所紀錄的變數相對簡單。除了串連費用檔所須變數外,就只有醫令類別、醫令代碼、醫令單價、醫令數量,以及總金額等變數。
但是醫令檔的數量大過費用檔。

整個健保資料庫最龐雜的應屬基本資料檔。基本資料檔共包括了六個和醫療院所相關,兩個和就診醫師相關,以及兩個和就診病人相關的十個檔案。


癌症登記檔

  1. 長表 Long Form (LF)
    子宮頸癌、乳癌、口腔癌、肺癌、肝癌、結直腸癌、攝護腺癌、胃癌、食道癌、膀胱癌、鼻咽癌、主唾液腺癌、子宮體癌、卵巢癌和血液腫瘤
    95年以前共有65個欄位,96年後共有95個欄位
  2. 短表 Short Form (SF)
    95年以前共有20個欄位,96年後共有33個欄位
  3. TCDB

癌症登記檔主要是由長表LF、短表SF以及TCDB組成。最常使用且最完整的為長表LF,總共收錄15種癌症,表示這十五種癌症的完整資料都在長表中。
而短表與TCDB的資料就沒有長表這麼齊全。

以下為長表的變項,其中紅色的部分是短表的變項,表示黑色這些項目短表都沒有。

在分析資料時時常會使用癌症的期別、TNM的期別,都無法使用。
所以若是想要分析的資料不是長表收錄的十五種癌症,就會發現有很多需要的資料卻沒有欄位。


資料使用實例分享

可以使用資料之後,你會發現無法馬上分析。因為資料都分散在各個檔案中,無法連結。

各個檔案中都有能夠連結的對照鑑值,像是連結醫療機構資料檔會使用Hosp_ID,醫令檔連結明細檔使用的對照鑑值有六項: FEE_YM、APPL_TYPE、APPL_DATE、CASE_TYPE、SEQ_NO、HOSP_ID,需要這些關鍵鑑值才能夠串聯這些檔案。


因為無法在網路上分享我目前分析過的資料,但是可以簡單敘述一下:

在做數據分析、統計檢定時,最重要的就是要篩選樣本。事實上篩選樣本的過程也是最花時間的,整理資料+資料串檔+篩選樣本可能就會花上80%的時間。

假設現在有興趣的是某個癌症(例如:乳癌),需要先篩選符合的病人(ICD : C50) ,另外可能因為病人的某種症狀會影響研究結果,所以在篩選樣本時也會先排除(比如希望能排除已經有癌症的病患 等等) 
(非常輕描淡寫的形容……)

接下來也要注意要使用的變項,比方性別、年齡、癌症期別、是否做過化學治療、放射線治療、賀爾蒙治療等等。
有時候變項並不是直接出現在資料庫中,有時候我們想知道病人的共病症分數(Charlson comorbidity index; CCI),就需要寫程式將計算每一位的CCI index。

接下來就可以進行分析了!


使用健保資料庫的優缺點

台灣有99.9%人使用健保,所以健保資料庫非常接近全台的醫療狀況。
健保資料庫的第一個優點就是 : 量大、並且貼近台灣的醫療情況

我們來看看下面一張圖,這是A組(紅色虛線)和B組(藍色實線)的五年overall survival 。
光用眼睛看,你覺得哪一個存活比較好呢?

若是光看圖的話,兩組的存活非常接近,可能分不出區別。

但是這兩組存活的 log-rank test的 p-value<0.0001,表示兩組是有顯著差異的,A組(紅色虛線)的存活好於B組,並且是有統計上的差異。

這就是使用健保資料庫的好處,當差異很小時,我們的統計檢驗是很重要的。因為資料庫的數據龐大,即使兩組的結果非常靠近,也能有統計上的顯著差異。


再來要提到缺點,在全國醫院的努力下,台灣擁有如此健全的資料庫
但是可能有些人(先說不是我)覺得資料不夠一致,這樣的資料需要經過太多人的手,定義上不夠完全,一定會有些出入

也就是所謂的 Garbage in, Garbage out

這我也曉得,當收集資料的質量不好時,當然無法有可信的研究結果

但是在健保資料庫上是有方法可以解決的,當我們的樣本夠多,就能夠進行篩選。比方再篩選樣本時挑選已經有癌症的病患或是各種會影響實驗結果的項目。所以…

只要做好正確的篩選,當我們能夠收集到足夠的樣本,就能幫助我們得到正確的研究結果。

健保資料庫是非常有利用價值的,就取決於你如何使用它。

Related Articles

發表迴響