此網頁需要支援 JavaScript 才能正確運行,請先至你的瀏覽器設定中開啟 JavaScript。

::: :::
目前位置 循證尋政 最新消息 淺談檢索增強生成(RAG)的回應品質評估

淺談檢索增強生成(RAG)的回應品質評估

◎ 113年度計畫團隊技術組

科普文章曾於2024年9月12月發佈政府機關導入檢索增強生成(Retrieval-Augmented Generation, RAG)的上、下篇科普文章,探討政府機關如何應用RAG技術輔助AI大型語言模型(Large Language Model, LLM),以降低生成式AI可能產生的錯誤與偏見,同時善用機關內部具機敏性的專業文本,以提升AI生成回應的品質(Gao et al., 2023)。前期文章亦提及,在組織導入RAG的過程中,概念驗證(Proof of Concept, PoC)階段的一大關鍵因素,即為其產出品質是否足以達成預期成效,這也是技術與應用單位雙方需共同驗證的重要環節。

為評估RAG的產出品質,開源工具Deep Eval提供多種評估指標(Evaluation Metrics)作為檢測基準。本文將簡介四項常見指標,並以圖示呈現其關聯性(見圖 1)。

首先,圖示左下角的回應內容(Response),應能根據使用者的提問或查詢(Query)及其相關脈絡資料,產出忠於(Faithfulness)原始文本的回答,特別是在應用機關內部的專業文本時,須確保RAG回應不會任意增添或扭曲資訊。此「忠實性指標」可用來衡量 RAG 是否有效降低一般 LLM 生成的幻覺現象(Hallucination)。

圖1:常見的LLM/RAG評估指標與其關連
圖1:常見的LLM/RAG評估指標與其關連
資料來源:本專案。

除了忠於文本,RAG生成的回應還須與使用者的提問高度相關(Answer Relevancy),確保回應內容不冗長、不含無關資訊,以提升回應的品質。忠實性(Faithfulness)與回應相關性(Answer Relevancy)兩項指標,合併文本脈絡關聯性(Contextual Relevancy),構成基本的品質檢核架構。

另一項評估指標為文本脈絡召回分數(Contextual Recall),其原則是比對 RAG 根據使用者提問所檢索的相關文本(Context),與「參考答案(Ground Truth Answer)」的相符程度。此指標可用來確認 RAG 是否確實以高度相關的檢索結果作為回應的依據。

最後,圖中標示的回應正確性(Answer Correctness),為 LLM/RAG追求的最終品質指標。若回應內容涉及客觀事實,則可透過查證方式驗證其正確性;若提問無明確標準答案,則須仰賴領域專家結合邏輯與實證進行交叉檢測。本專案即基於此原則,規劃執行社會發展政策知識庫的RAG實驗評估,以確保技術應用的可靠性。


參考文獻

112年度計畫團隊技術組(2024)。淺談政府機關導入檢索增強生成(RAG)-(上),循證尋政,9月。https://pse.is/79m5la

112年度計畫團隊技術組(2024)。淺談政府機關導入檢索增強生成(RAG)-(下),循證尋政,12月。https://pse.is/79m5nj

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Daia, Y., Suna., J., Wang., M.& Wang, H. (2023). Retrieval-augmented generation for large language models: A survey. https://arxiv.org/abs/2312.10997

分享文章:


已發佈

作者: