資料治理技術發展與跨域政策分析應用 - 國家發展委員會循證尋政

◎ 創用 CC BY-NC-ND

    人類組織的經營管理自借重資通訊科技開始，在多元功能資訊系統所提供的功能背後，資料即成為不可或缺的元素，例如會計、人力資源、稅務、環境稽查等系統，必定仰賴充分品質的資料輸入、處理或產出。然而伴隨單一功能支援逐漸擴展串連至跨系統、跨業務甚至跨組織的同時，原本相對作為系統功能配角的資料管理（data management），自然也逐漸提昇其地位擴展至資料治理（data governance），亦即由附屬於特定功能資訊系統的資料管理，擴展並提昇至以資料為核心的資料品質，善用當代統計學與資訊科學的資料分析方法、組織策略規劃、決策執行權限與績效連動，此企圖其實也已經展現於資料科學（data science）的界定範疇。

    以技術角度來看，為了能夠基於資料作出準確、可靠的決策，必須要確保資料能夠有效的被儲存與管理，這時資料清理過程便扮演著相當關鍵的角色。常見的資料清理類型包含重複（duplicated）資訊、不相關資訊、缺失值（missing value）或不完整資料（incomplete value）、資料型態不一致（inconsistent）等。例如在進行議題研究時，時常會蒐集到跨領域大量的文本資料，包含研究報告、網路輿情等等，這時如果將這些「非結構化資料」中的日期時間、發文者、提及的人物、提及的議題等等資訊提取出來，就會是一個將資料型態一致化並且去除分析時不相關、不必要資訊的過程。

    資料清理時，應該注意幾件事情。首先，在清理前應該充分了解原始資料的來源、特性與限制等，以利找出資料中可能潛在的問題。此外，針對不同的問題與分析目的，也應該制定合適的資料清理策略。最後，在資料清理時也應該注意隱私保護，並確保資料蒐集與清理過程合乎法規政策。在跨領域資料蒐集時，不論是輿情資料、陳情資料、訪談調查等原始資料中，時常都會有能夠識別出的身份、姓名等個人資訊的資料。在後續資料清理時，就可以透過命名實體識別（Named Entity Recognition，NER）等語意分析技術，對資料進行去識別化，避免有可間接識別網路發言者真實個人資訊之可能。同時，在資料存儲與應用時，也可以僅以言論摘要與檢附原始文章連結等方式，展示欲分析或呈現之內容，以提升資料合理運用之正當性。

    綜上，跨域公共政策規劃執行與評估的循證決策管理，由於具備跨組織與專業的多元資料來源與格式，其資料治理的落實也將面臨更嚴峻的要求，包括最基礎的不同資料來源正確與即時性的交互勾稽，或是結構化與非結構化資料進行相關性（以非結構的網路輿情及研究報告文本佐證統計數據），也可能以網路輿情次級資料與問卷訪談等原始資料間互補。這些資料治理運用於跨域政策分析的技術管理等程序，都有賴政策主管機關、議題領域專家、資料技術團隊的協力合作，逐步測試並建立實際可行的運作模式。

分享文章：