生成式AI簡介與應用（下） – 國家發展委員會循證尋政

◎ 112年度計畫團隊技術組

一、透過大型語言模型對文本進行摘要，找出重點

　　在進行政策評估時，會需要針對如會議記錄、訪談內容、問卷中的開放式問題或網路輿情等資料進行質性分析，以找出多元利害關係人的相關意見或質疑。在質性分析時，往往需要逐篇文本檢視後，才能歸納分析找出重點。為了能夠讓分析更有效率，本團隊規劃以人工智慧（Artificial Intelligence, AI）的自然語言處理（Natural Language Processing, NLP）技術，結合大型語言模型（Large Language Model, LLM）進行應用。

　　首先，為瞭解民眾對於議題有哪些重要的意見面向，可藉由AI語意模型對民眾言論文本進行重要關鍵字提取與語意相似度計算，並輔以分群演算法將相似討論進行歸類，拆解出不同的討論面向，作為政策評估時的參考。下圖是針對晚婚不婚議題在社群討論當中的分群結果，圓圈大小代表討論的顯著（集中）程度，越大代表該話題的討論越為集中在某個子議題中，具有顯著代表性，圓圈彼此之間的距離代表討論的相似程度，越接近代表討論話題的語意相似度越高。

圖1、話題拆解分群視覺化結果
資料來源：本專案。

　　針對分群結果，再透過其他來源如相關文獻或訪談意見，進一步辨識出可進行分析研究的意見，提取相關的關鍵字再以布林邏輯篩選資料，並針對重點關鍵字進行統計。完成各個討論面向的資料篩選與確認後，再針對當中重要的原始留言、發文內容，藉由以大型語言模型（LLM）為基礎的生成式AI進行解讀與分析，以白話方式歸納出討論面向中的重點摘要。為了確保大型語言模型回答效果，在使用模型時盡可能引導模型的回答方向，並引入思維鏈（Chain of Thought, CoT）模式，使模型基於文本進行歸納整理，避免模型產生虛構回覆。下表是以晚婚不婚議題經過辨識後，其中兩個討論面向的摘要內容：

表1、議題各討論面向之自動生成摘要

討論面向	摘要
外在社經環境	從以上社群網路討論可以歸納出以下關於晚婚、不婚議題的訊息： ● 壓力和不婚生子的原因之一是薪資太低。 ● 月薪在10到15萬的人不敢結婚。 ● 沒有錢無法結婚和生小孩，容易造成更多經濟壓力。…
教育	社會對晚婚、不婚議題的討論中提到了以下幾個關鍵點： ● 女性學歷越高眼光也越高，會有更高的要求。 ● 減緩晚婚趨勢有可能和學歷高的人知道自己要什麼有關，選擇權變少。 ● 高學歷的人傾向於不婚不孕。…

資料來源：本專案。

二、RAG：搜尋引擎結合大型語言模型，提升研究效率

　　針對政策評估時所搜集的大量質性資料，往往需要花費大量時間解讀，以在不同資料中找出關鍵課題。為了在議題分析時可以更有效地查找、分析所需資料，本團隊規劃使用檢索增強生成（Retrieval-Augmented Generation, RAG）技術，也就是結合搜尋引擎與生成式AI技術，將文本資料當中的重點知識內容透過生成式AI轉化成淺顯易懂的重點說明。

　　首先，搜尋引擎能夠直接對多種文件格式進行文本上的解析，在搜尋時也能夠進行跨檔案的比對。生成式AI演算法可以用新的方式探索和分析複雜的資料（Amazon Web Services，2023），在針對某個議題、概念進行研究時，搜尋引擎加上生成式AI能夠即時從龐大的資料庫中搜尋相關命中段落，將這些內容快速呈現與摘要，並透過理解語言的結構和語境，確保命中段落的展示是精確且相關的。RAG是在檢索讀取(Retrieve-Read)的框架下進行搜尋(Yunfan, G. ,et al, 2023)，基於對命中段落的理解，使生成式AI能夠進一步進行摘要，協助使用者在短時間內獲得專業且易理解的回覆，避免使用者在研究、搜集過程中浪費時間在無關或不確切的資訊上。

　　RAG檢索能夠識別並找尋給定的相關資訊需求(Zhao, P. , et al, 2024)，針對大量的訪談逐字稿文件，實際透過RAG技術進行知識搜尋與知識問答，分析者不僅能彙整並凸顯資料中的重要發現，還能驗證對特定解釋的認知是否正確。此外，它也提供了深入洞察，如識別特定發言者在資料中的關鍵觀點，或對比不同發言者對同議題的立場。這種技術的運用使得從龐大的資料集中提取有價值的訊息變得更加高效和精確，從而增強了循證決策的整體效能。

　　下圖2呈現RAG技術如何在資料中發現重點，針對公正轉型研討會講座文字記錄文件進行提問，試問「女性在公正轉型中會受到什麼影響」，RAG迅速對該文件進行搜索，並以條列式回覆重點摘要，同時將參考段落的位置標示出來；而圖3則是詢問某發言者在會議中的發言重點，RAG能夠快速歸納文件中的相關內容，亦標記參考段落之位置，方便搜尋者在文件中找到關鍵資訊。

圖2、以RAG技術彙整資料中的重點發現
資料來源：本專案。

圖3、以RAG技術歸納發言者的發言重點
資料來源：本專案。

參考資料

Amazon Web Services (2023)。什麼是生成式AI？https://pse.is/62xsuh

Yunfan, G., Yun, X., Xinyu, G., Kangxiang, J., Jinliu, P., Yuxi, B., Yi, D., Jiawei, Sun., Meng, W., Haofen, W. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. https://arxiv.org/abs/2312.10997

Zhao, P., Zhang, H., Yu, Q., Wang, Z., Geng, Y., Fu, F., Yang, L., Zhang, W., & Cui, B. (2024). Retrieval-Augmented Generation for AI-Generated Content: A Survey. https://arxiv.org/abs/2402.19473

Facebook Tweet LinkedIn