此網頁需要支援 JavaScript 才能正確運行,請先至你的瀏覽器設定中開啟 JavaScript。

::: :::

資料治理技術發展與跨域政策分析應用

◎  創用 CC BY-NC-ND

    人類組織的經營管理自借重資通訊科技開始,在多元功能資訊系統所提供的功能背後,資料即成為不可或缺的元素,例如會計、人力資源、稅務、環境稽查等系統,必定仰賴充分品質的資料輸入、處理或產出。然而伴隨單一功能支援逐漸擴展串連至跨系統、跨業務甚至跨組織的同時,原本相對作為系統功能配角的資料管理(data management),自然也逐漸提昇其地位擴展至資料治理(data governance),亦即由附屬於特定功能資訊系統的資料管理,擴展並提昇至以資料為核心的資料品質,善用當代統計學與資訊科學的資料分析方法、組織策略規劃、決策執行權限與績效連動,此企圖其實也已經展現於資料科學(data science)的界定範疇。
    以技術角度來看,為了能夠基於資料作出準確、可靠的決策,必須要確保資料能夠有效的被儲存與管理,這時資料清理過程便扮演著相當關鍵的角色。常見的資料清理類型包含重複(duplicated)資訊、不相關資訊、缺失值(missing value)或不完整資料(incomplete value)、資料型態不一致(inconsistent)等。例如在進行議題研究時,時常會蒐集到跨領域大量的文本資料,包含研究報告、網路輿情等等,這時如果將這些「非結構化資料」中的日期時間、發文者、提及的人物、提及的議題等等資訊提取出來,就會是一個將資料型態一致化並且去除分析時不相關、不必要資訊的過程。
    資料清理時,應該注意幾件事情。首先,在清理前應該充分了解原始資料的來源、特性與限制等,以利找出資料中可能潛在的問題。此外,針對不同的問題與分析目的,也應該制定合適的資料清理策略。最後,在資料清理時也應該注意隱私保護,並確保資料蒐集與清理過程合乎法規政策。在跨領域資料蒐集時,不論是輿情資料、陳情資料、訪談調查等原始資料中,時常都會有能夠識別出的身份、姓名等個人資訊的資料。在後續資料清理時,就可以透過命名實體識別(Named Entity Recognition,NER)等語意分析技術,對資料進行去識別化,避免有可間接識別網路發言者真實個人資訊之可能。同時,在資料存儲與應用時,也可以僅以言論摘要與檢附原始文章連結等方式,展示欲分析或呈現之內容,以提升資料合理運用之正當性。
    綜上,跨域公共政策規劃執行與評估的循證決策管理,由於具備跨組織與專業的多元資料來源與格式,其資料治理的落實也將面臨更嚴峻的要求,包括最基礎的不同資料來源正確與即時性的交互勾稽,或是結構化與非結構化資料進行相關性(以非結構的網路輿情及研究報告文本佐證統計數據),也可能以網路輿情次級資料與問卷訪談等原始資料間互補。這些資料治理運用於跨域政策分析的技術管理等程序,都有賴政策主管機關、議題領域專家、資料技術團隊的協力合作,逐步測試並建立實際可行的運作模式。

已發佈

作者: