◎ 廖洲棚 (國立空中大學公共行政學系副教授兼系主任)、 黃妍甄 (國立暨南國際大學公共行政與政策學系助理教授)
行政機關推動政策知識管理,有助於政策規劃者掌握政策背景與相關知識,提升決策效能。經過多年推廣,許多政府機關已建置知識管理系統,以保存並檢索政策文件,協助公務人員迅速獲取政策相關資訊。隨著人工智慧(Artificial Intelligence, AI)技術的進步,檢索增強生成(Retrieval-Augmented Generation, RAG)技術逐漸成為政府知識管理與政策規劃的重要工具。RAG技術結合資料檢索模組與大型語言模型(Large Language Model, LLM)驅動的內容生成模組,能有效分析並運用政府機關所保存的大量政策文本,為使用者提供高品質且符合需求的政策知識。
為驗證RAG技術在政策知識管理中的應用可行性,國家發展委員會委託國立政治大學研究團隊開發「社會發展政策知識庫」雛形系統,並以少子女化議題為研究重點,蒐集大量與我國少子女化對策計畫相關的政策文件,構建政策知識庫。為評估應用RAG技術於建構「社會發展政策知識庫」輔助公務人員從事政策規劃的成效,評估的核心重點在確保(1)檢索準確性:確保系統能精確回應使用者查詢;(2)上下文相關性:評估檢索結果與問題的契合程度;(3)生成答案的忠實性與正確性:確保系統生成的回應忠於檢索資料,並符合事實。以下的評估方法與步驟將有助於達成前述評估目的。
一、 設計多元評估指標
RAG技術的評估涵蓋檢索功能與生成功能兩大面向:
(一)檢索功能:
1.上下文召回率(Context Recall):檢索資料與問題相關性的程度。
2.上下文相關性(Context Relevance):檢索內容是否精準聚焦於問題。
(二)生成功能:
1.答案相關性(Answer Relevance):生成回答與提問的匹配程度。
2.忠實度(Faithfulness):回答是否忠於檢索到的資料來源。
3.答案正確性(Answer Correctness):回答是否符合標準答案。
二、 發展人機結合的評估模式
本研究採用結合自動化評估與人工評估的方法,以蒐集量化與質化數據。
(一)自動化評估:透過機器運算快速測量系統效能,降低人工評估的負擔。
(二)人工評估:邀請公務人員實際操作系統,評估其效能與使用體驗,以補足自動評估可能的盲點。
三、 評估數據的蒐集
(一)量化數據蒐集
為評估知識庫對公務人員處理少子女化議題的輔助效能,應於自動化評估部分,採用系統開發廠商內建的評估方法(但未涵蓋答案正確性指標)。人工評估則採準實驗設計,並依以下步驟進行:
1.建構測試題庫:收集少子女化議題的常見問答(FAQ)。
2.系統測試與評分:邀請與我國少子女化對策計畫工作相關之公務人員測試RAG系統,並針對檢索與生成功能進行評分。評分標準依據前述評估指標,透過網路問卷調查收集數據。
3.反饋整合與優化:根據量化與質化數據回饋優化系統,並重新進行測試。
4.測試迭代:完成多次人工實驗評估與自動化評估。
值得注意的是,自動化評估由系統開發廠商進行,但其評估指標未涵蓋答案正確性,因此應透過人工評估補足這項關鍵指標。
(二) 質化數據蒐集
為深入了解公務人員的使用需求與痛點,應可搭配深度訪談與焦點座談進行質化數據蒐集:
1.深度訪談:在實驗之間進行深度訪談,探索公務人員在政策規劃中的實際需求與挑戰。
2.焦點座談:在所有實驗執行完畢後召開,邀請專家與使用者共同討論系統改進方向。
四、 研究發現
透過上述評估方法,驗證RAG系統在政策知識管理中的可行性與應用價值,並歸納出以下主要發現:
(一)公務人員普遍認為RAG系統有助於政策知識的快速檢索與內容生成
然而,他們對AI的輔助功能有更高期待,例如:協助確認問題、發展方案、評估政策可行性,以及處理結構化數據並繪製圖表。
(二)系統界面雖獲得正面評價,但仍需提升直覺性與降低學習門檻
建議提供使用者教育訓練,並設計誘因以提升公務人員在職場中應用AI系統的意願。
(三)政策知識來源應涵蓋更多政府部門及非政府機構
擴大知識庫的資料範圍能提升政策資訊的深度與廣度。然而,如何確保資料的正確性、安全性與機密性(根據使用者授權設定不同的讀取權限)將是未來需要持續解決的課題。
五、 結論
透過多元評估指標、人機結合的評估方法,以及互動式實驗模式,將有助於客觀檢視RAG技術在政策知識管理中的應用成效,不僅能夠驗證RAG系統的實用性,也為其在政策規劃中的長期價值提供實證支持。未來,這套評估框架可作為政府機關應用AI工具進行循證決策時的重要參考,進一步推動政策知識管理的智能化發展。