「我們已經依法將資訊公開了,為什麼還要做資料開放?如果個資外洩誰負責?!」
這些疑問,是我們在推動資料開放及循證研究最常碰到的難題,需要適時說明以解除疑慮。開大門,意味打開政府資料的大門;而走「證」路,就是走循證(evidence-based)研究及決策的道路。但這些事行政院不是推動了很多年,考試院還沒有行動嗎?
這件事說起來容易,但推動的過程並非一帆風順。回溯至2012年10月,行政院宣布推動政府資料開放,以開放的態度,滿足民眾對政府資料「知」的需求與「用」的渴望。然而,五院之中與行政院性質最接近的考試院,卻遲遲未有行動。
2020年9月,考試院第13屆院長黃榮村上任,決心改變這一切,積極推動政府資料開放及循證研究,經過4年努力,已逐步開花結果。
開啟政府資料的大門
「2005年政府資訊公開法就已經上路了,那為何還需要開放資料?」
因為該法只規定政府應「主動」、「適時」公開資料,但何謂「主動」?要何時公開?都沒有詳細說明,而且政府提供的資料就算是電子檔,也常是不利於再利用的PDF或圖片格式。
然而,開放資料的重點就在於「即時」以「方便再利用的格式」釋出資料,與政府資訊公開法相比,公開的內容可能相同,但作法上更為友善,格式上更方便再利用。
一開始,考試院推動開放資料的目標單純,只是希望跟上政府整體的步伐,但這項業務除了資訊處理技術以外,最重要的是資料盤點、檢驗、追蹤、釐清法規疑義、回應民間需求等,需要由專責業務單位統籌,並與資訊單位合作,才能有效強化資料開放的「質」與「量」。因此在評估過後,決定由編研中心主責統籌規劃,資訊單位協辦。
我們於2021年4月成立「考試院資料開放小組」,並由秘書長親自擔任召集人,各部會的資安長為小組成員,同時外聘7位學者專家。
任務編組成立後,就要開張營業了。但從開第一次會議起,就不斷面對同仁的質疑:
「資料開放與資訊公開有什麼差別?舊的資料要怎麼改?新的資料要怎麼做?」
「考試院的資料誰要看?開放資料對業務有什麼幫助?」
為了化解這些質疑,秘書長劉建忻積極於各種場合解釋開放資料的意義與價值。開放透明就是目的,正是開放的精神,彰顯了政府透明和人民主權的價值。雖然考試院的資料目前被利用不多,但並不表示它沒有價值,也不表示未來無人關心。就像口罩地圖一樣,若不是COVID-19,誰會需要知道全國藥局的位置呢?幸好衛生福利部的開放資料包括了這些資訊,因此在口罩分配上發揮了大功效。
我們也領悟到,徒法不足以自行,為了順利推動資料開放,制定了3項具體推動策略:
一、不強調開放資料的「量」,而是先優化既有已公開的資料。
二、強調開放資料對於考試院治理的助益,回應外界與公私協作。
三、除政策決定一體規範外,給予各機關彈性自主的空間。
在這些策略下,具體作法包括:優化已公開資料、建置新的系統(例如考試院統計查詢網),使其符合開放資料的理念,以及利用既有資料庫推動政策研究。
在優化資料方面,參考政府資料開放進階行動方案,依學者Tim Berners-Lee對政府資料的五星評等標準,我們希望考試院開放的資料至少在三星等級以上(如圖1)。
2022年首次盤點院部會資料,計有371筆資料集,其中只有163筆是三星等級,且不乏是以技術包裝,並非真正的三星等級。
隨後我們改採政府資料開放平臺的品質標章機制,對資料集進行品質檢測,依據其完整性及領域資料標準,分別授予白金、金、銀或銅標章,並要求各機關誠實面對資料品質問題。經過一年多的調整改善,終於漸上軌道。2023年底,在556筆開放的資料集中,已有92筆白金標章及378筆金標章,比率已近85%。
建置考試院統計資料查詢網
在建置新系統部分,我們將開放資料的概念融入系統及業務流程中,例如:考試院公報資訊網、考試院主管法規查詢系統、訴願管理系統等。過去這些資料常以PDF或WORD格式提供,不利於機器利用,系統建置後,提供了結構化的資料格式,也滿足多數使用者的查詢需求。
此外,更重要的是整合建置統計資料查詢系統。考試院及所屬部會的統計年報,一直是文官制度研究者的重要資料來源,但過去分別放在院部會的網站,分年各自呈現,查找存取極不方便;且統計年報的制式格式較為繁複,也造成使用者的混淆。
為改善這些情形及落實數位轉型,2023年1月完成建置「考試院統計資料查詢網」(https://stats.exam.gov.tw),它是一個互動式的查詢系統,整合了院部會20年來的統計年報,使用者可進行單表的多元項目交叉查詢、不同表間的跨頁查詢及資料比較排序,也可以統計表及統計圖的方式呈現,應用層面更廣泛,輸出格式的縱列及橫列可依需求隨意選取統計期、統計項及複分類的組合,輸出模式則可產生CSV、XML、JSON等三種資料開放格式檔案。
與過去各機關單一年度的統計年報相比,利用統計資料查詢網,可以更容易觀察資料數值的長期變化趨勢,及跨部會間橫向資料的並列呈現,可說是全面進化升級,大幅提升了考銓統計的應用。
與此同時,銓敘部也建置了「全國公務人力統計資料平台」,具有類似功能,雖然並未包括考選及保訓統計,但在銓敘資料上更為豐富。
考試院統計資料查詢網 https://stats.exam.gov.tw
走向循證決策的道路
循證研究強調以資料為基礎,用數據來講故事;循證決策則是在數據的支持下做決策。
黃榮村院長曾說:「考試院坐擁金山銀山,只是一直沒有善用。」
黃院長講的金山銀山,可不是指幾千億規模的退撫基金,而是考試院部會業務資料庫累積的龐大數據,它們是政府人力資源管理決策的關鍵資料,也是學術研究極感興趣的寶庫。
由於這些數據含有大量個資,不適合對一般民眾開放,因此我們將這些資料列為「依申請提供」,例如:考選資料庫、銓審資料庫、退撫資料庫的數據資料,屬於有限制條件的利用,以管控個資外洩的風險。
我們在推動上格外慎重,也取法國內最具實務經驗的衛生福利部中央健康保險署和財政部財政資訊中心。
衛生福利部中央健康保險署分享資料庫開放使用經驗
2022年我們首次嘗試從委託研究案試行,結合循證研究及政策需求,將原始資料去識別化後,交由學者專家在限定的區域,以實體隔離的方式運用。然而儘管謹慎推進,同仁仍存疑慮。
「就算去識別化後,只要經過比對,還是有可能識別出資料指的是誰,那麼誰要負責?」
「不是已經做了統計查詢網及全國公務人力統計資料平台,那為什麼還要我們提供原始資料?」
同仁的疑慮使得考試院向所屬機關取得資料面臨極大困難,經過多次正式與非正式的溝通、協調,其間不乏爭辯、吵架。幸而2022年8月12日憲法法庭111年憲判字第13號判決(健保資料庫案)明確指出,個人資料保護法第6條第1項但書第4款規定,公務機關或學術研究機構,基於統計或學術研究,提供去識別化之資料,並不違憲。此判決算是一道緩衝劑,同仁的堅持和疑慮稍有下降,終於能將去識別化後的原始資料提供學者進行研究。
2022年的委託研究經驗,我們還發現即使是系統產出的資料,品質仍待改善,尤其愈早期的資料愈是如此,例如:數字與文字資料並存於同一欄位、編碼版本不一、編碼一對多等情形。另外,也發現不少遺漏值、異常值、資料矛盾等問題。
發現這些資料品質的缺失,也給了我們改善的契機,因此2023年便將考試資料代碼標準化,以提升資料品質。
成立考銓資料研究中心
過去的考試院並不善於運用專有的人力資料庫數據,而且不但自己少用,也抗拒讓外界來窺探究竟。但判讀公務人力的現象,不能只靠感覺和道聽塗說;面對外界的錯誤或不當解讀,也不能總是被動挨打,拿不出數據佐證。既然我們有數據,就必須讓數字說話,用統計分析來辨識問題,再來尋找問題的解方。
第13屆考試院秉持循證決策的精神,讓「做決策前先跑數字」成為工作準則,參考2022年委託研究的經驗,進一步推動實務研究和資料庫分析,在當年底成立「考銓資料研究中心」,整合院部會的研究資源,和公共行政學界與專業團體攜手合作,透過對人力資料庫各種數據的分析,強化考銓資料庫的加值運用,一窺公務人力資源的各種現象,並作為後續決策的參據。
這個合作模式顛覆了傳統「委託研究」方式。以往是指定題目外包給學者,學者寫研究報告,從理論說明、現象探索到政策建議,然後相關機關對此作出書面回應,就可能交差了事,報告從此束之高閣。
現在則是,委外學者做數據分析,我們用同樣的預算可以處理更多的議題,而數據解讀和政策回應,是機關自己要扛起的責任。我們認為學界量化研究的能量比公部門強大,但公部門解讀現象和政策修訂的能力會比學界更務實精準;各自扮演彼此最擅長的角色,研究成果才會是最好的。
改變模式後,機關原本只要以「觀賞」的角度來驗收學者的研究成果,現在則是要從分析出來的數據,「接棒」來解讀事實並研議對應政策。
2023年,我們選定了5個題目進行數據分析,並針對考試錄取人員進行問卷調查,以蒐集主觀資料,透過結合客觀數據的分析,希望更全面性地理解考銓問題。2024年同樣選擇5個題目,持續推動人力資料庫的數據分析,瞭解公部門的各種現象,並支援政府人力資源管理的決策(如圖2)。
考試院94周年院慶「考銓資料庫分析研究成果研討會」
守護個資的7道防線
要讓資料自在舞動,但又不能讓風險偷溜進來,就是我們所面臨的挑戰。2023年精進風險控管機制,建立了7道防線,讓資料的寶庫得以安全開發。
一、需求審查:就像是對資料進行一場精心的篩檢,研究所需的資料欄位由考銓中心會議進行審查,以確保資料提供契合主題,同時透過正式決議,使同仁在提供資料時有所依循。
二、去識別化:就像是為資料穿上一件隱形衣,讓它在大家面前更顯神秘,提供的原始資料均透過去識別化的程序,以不同方法,如匿名化、假名化後再給學者專家做研究。
三、建立專區:就像是為資料打造一個安全的遊樂場,我們開設考銓資料研究運用專區,研究人員只能在該封閉專區內使用原始資料。
四、遠端遙控:這是我們的神秘武器,將原始資料存放在資訊處的伺服器上,研究人員只能透過遠端方式存取,分析後所得的統計數據,也須經資訊人員檢查,確認不含任何可資辨識的個資後才能攜出。
五、進出管制:要進入「專區」,就像是進入秘密基地一樣,資訊專區有門禁管制,進出必須事先申請並刷卡管制。
六、手機管控:進入專區後,手機須置於特定區域,以避免利用手機蒐集原始資料,就像是為資料設下了一道無形的屏障。
七、全程監控:最後,我們在「專區」內裝設了監視系統,全程進行監控,就像是在資料的世界裡設置了眼睛,確保資料的安全。
控管風險,啟動善的循環
在控管個資的風險下,2023年的資料取得比較順利,空間運用也更為友善;5個研究題目都有豐碩的成果,並舉辦成果發表與研討會。我們一面基於政策需求推動循證研究,同時也將資料庫的品質良窳回饋給各機關,藉此逐步提升資料品質,以利下一輪的資料分析,形成良善的循環。
這場開放資料的盛宴,總算在行政院推動了整整8年之後拉開序幕。
我們實際推動時間雖僅3年,但也有迎頭趕上的成績。院部會同仁也漸漸領悟了開放資料的意義和作法,這無疑是未來持續精進的最大動力!
《國家人力資源論壇》第6期,透過4篇專文多方面探索「疫情驅動下的政府數位轉型」,其中肩負國家數位發展政策擘劃的郭耀煌政委,勾勒臺灣數位治理的總體策略,說明現階段數位政府推動重點,在於開放資料驅動政府治理,以及強調以民眾為核心的為民服務。
*本文協作人員:考試院編研中心蔡逸敬科員、銓敘部資訊處林湛翔科長。
_______________________________
全稱簡稱對照表
《老機關,新氣象:考試院2020-2024》專書