此網頁需要支援 JavaScript 才能正確運行,請先至你的瀏覽器設定中開啟 JavaScript。

::: :::
目前位置 循證尋政 最新消息 概念驗證(POC)研究紀要:評估以檢索增強生成(RAG)技術開發之社會發展政策知識庫

概念驗證(POC)研究紀要:評估以檢索增強生成(RAG)技術開發之社會發展政策知識庫

 廖洲棚 (國立空中大學公共行政學系副教授兼系主任) 黃妍甄 (國立暨南國際大學公共行政與政策學系助理教授)

行政機關推動政策知識管理,有助於政策規劃者掌握政策背景與相關知識,提升決策效能。經過多年推廣,許多政府機關已建置知識管理系統,以保存並檢索政策文件,協助公務人員迅速獲取政策相關資訊。隨著人工智慧(Artificial Intelligence, AI)技術的進步,檢索增強生成(Retrieval-Augmented Generation, RAG)技術逐漸成為政府知識管理與政策規劃的重要工具。RAG技術結合資料檢索模組與大型語言模型(Large Language Model, LLM)驅動的內容生成模組,能有效分析並運用政府機關所保存的大量政策文本,為使用者提供高品質且符合需求的政策知識。

為驗證RAG技術在政策知識管理中的應用可行性,國家發展委員會委託國立政治大學研究團隊開發「社會發展政策知識庫」雛形系統,並以少子女化議題為研究重點,蒐集大量與我國少子女化對策計畫相關的政策文件,構建政策知識庫。為評估應用RAG技術於建構「社會發展政策知識庫」輔助公務人員從事政策規劃的成效,評估的核心重點在確保(1)檢索準確性:確保系統能精確回應使用者查詢;(2)上下文相關性:評估檢索結果與問題的契合程度;(3)生成答案的忠實性與正確性:確保系統生成的回應忠於檢索資料,並符合事實。以下的評估方法與步驟將有助於達成前述評估目的。

一、 設計多元評估指標

RAG技術的評估涵蓋檢索功能與生成功能兩大面向:

(一)檢索功能:

1.上下文召回率(Context Recall):檢索資料與問題相關性的程度。

2.上下文相關性(Context Relevance):檢索內容是否精準聚焦於問題。

(二)生成功能:

1.答案相關性(Answer Relevance):生成回答與提問的匹配程度。

2.忠實度(Faithfulness):回答是否忠於檢索到的資料來源。

3.答案正確性(Answer Correctness):回答是否符合標準答案。

二、 發展人機結合的評估模式

  本研究採用結合自動化評估與人工評估的方法,以蒐集量化與質化數據。

(一)自動化評估:透過機器運算快速測量系統效能,降低人工評估的負擔。

(二)人工評估:邀請公務人員實際操作系統,評估其效能與使用體驗,以補足自動評估可能的盲點。

三、 評估數據的蒐集

(一)量化數據蒐集

為評估知識庫對公務人員處理少子女化議題的輔助效能,應於自動化評估部分,採用系統開發廠商內建的評估方法(但未涵蓋答案正確性指標)。人工評估則採準實驗設計,並依以下步驟進行:

1.建構測試題庫:收集少子女化議題的常見問答(FAQ)。

2.系統測試與評分:邀請與我國少子女化對策計畫工作相關之公務人員測試RAG系統,並針對檢索與生成功能進行評分。評分標準依據前述評估指標,透過網路問卷調查收集數據。

3.反饋整合與優化:根據量化與質化數據回饋優化系統,並重新進行測試。

4.測試迭代:完成多次人工實驗評估與自動化評估。

值得注意的是,自動化評估由系統開發廠商進行,但其評估指標未涵蓋答案正確性,因此應透過人工評估補足這項關鍵指標。

(二)    質化數據蒐集

為深入了解公務人員的使用需求與痛點,應可搭配深度訪談與焦點座談進行質化數據蒐集:

1.深度訪談:在實驗之間進行深度訪談,探索公務人員在政策規劃中的實際需求與挑戰。

2.焦點座談:在所有實驗執行完畢後召開,邀請專家與使用者共同討論系統改進方向。

四、 研究發現

透過上述評估方法,驗證RAG系統在政策知識管理中的可行性與應用價值,並歸納出以下主要發現:

(一)公務人員普遍認為RAG系統有助於政策知識的快速檢索與內容生成

然而,他們對AI的輔助功能有更高期待,例如:協助確認問題、發展方案、評估政策可行性,以及處理結構化數據並繪製圖表。

(二)系統界面雖獲得正面評價,但仍需提升直覺性與降低學習門檻

建議提供使用者教育訓練,並設計誘因以提升公務人員在職場中應用AI系統的意願。

(三)政策知識來源應涵蓋更多政府部門及非政府機構

擴大知識庫的資料範圍能提升政策資訊的深度與廣度。然而,如何確保資料的正確性、安全性與機密性(根據使用者授權設定不同的讀取權限)將是未來需要持續解決的課題。

五、 結論

透過多元評估指標、人機結合的評估方法,以及互動式實驗模式,將有助於客觀檢視RAG技術在政策知識管理中的應用成效,不僅能夠驗證RAG系統的實用性,也為其在政策規劃中的長期價值提供實證支持。未來,這套評估框架可作為政府機關應用AI工具進行循證決策時的重要參考,進一步推動政策知識管理的智能化發展。

分享文章:


已發佈

作者: