蕭乃沂
國立政治大學公共行政學系副教授
楊智宇
意藍資訊資深數據分析師
《摘要》
在當前數位科技與人工智慧快速發展的背景下,許多專業組織已能利用數位化系統管理大量資料;然而傳統的知識管理系統不易處理龐大且複雜的資料,亦無法滿足對高效率訊息檢索和利用的需求。為了建立更有效率的知識管理系統,本文將知識工程與生成式AI結合進行研究,透過知識工程技術將專家領域知識轉化為機器可理解和處理的形式,使組織能從資料中提取出有價值的知識,加強循證決策的精準性及有效性。本文著重介紹檢索增強生成(retrieval-augmented generation, RAG)技術,其藉由深度學習提升檢索能力且根據輸入的文本生成內容,能夠避免AI幻覺或產生不切實際的誤導資訊。據此,RAG技術結合生成式AI頗具潛力為知識管理與循證決策賦能,加速組織數位轉型,進而提升整體決策效率。
關鍵字:資料、資訊、知識、循證、人工智慧、檢索增強生成
壹、資料知識與其數位化
隨著資訊、通訊或廣義數位科技的技術演進與應用普及,包括近十年的第三波人工智慧浪潮(artificial intelligence, AI)(Pranab Ghosh, 2022),各專業組織皆已能透過數位化系統妥善管理其資料,常見的資料生命週期(data life cycle,如圖1所示)包括資料的蒐集、準備(可再細分為清理、轉換等)、分析、呈現(包括視覺化)、存取、分享(包括對外發佈)、使用、以及最後的歸檔(或備份、刪除等),領域專家皆可善用數位科技於此週期各階段提升其對於組織績效的價值(李洛維,2024)。

圖1 資料生命週期
資料來源:研究自製
同時,原始資料(raw data)雖然可能已具備資料個體的隱私與機敏性並頗具運用價值,但是大量的匿名或去識別化資料通常無法直接呈現其意義,而需圖1資料生命週期各階段的加工處理,才得以轉化為更具有組織管理意涵的資訊(information)及知識(knowledge)。決策者除了需具備多元領域專業所需的原理或邏輯,也需輔以資訊與知識為基礎的所謂循證(evidence based)決策論述與對外溝通(莊文忠,2018)。緣此,從原始資料逐步加值至具有決策行動意涵的知識至關重要。
Akerkar(2019)以DIKW體系來解釋資料與知識之間的關係(如圖2所示),亦即透過資料(data)、資訊(information)、知識(knowledge)與智慧(wisdom)的加值轉換過程,描述從原始資料最終得以被轉化為智慧的過程。DIKW是人類學習理解並從大量資料中提取出有價值知識的過程,並強調從此轉化過程需要結合背景脈絡、領域知識原理、實務經驗、與邏輯推理,資料是知識的基礎,而知識則足以支援甚至創新組織的決策及行動。
一、資料(Data):原始事實
資料是蒐集來自現實或虛擬世界中未經過處理的事實、數據或觀察結果,這些資料無上下文脈絡,沒有特定的意義,通常無法單獨提供有價值的訊息(除非具有資料主題的隱私與機敏內容),資料需經過整理與分析才能為決策提供支持。
二、資訊(Information):賦予意義的資料
資料被賦予上下文或經過整理後轉化為資訊,例如轉換量化的各種統計分析方法,或近年來被廣義資料科學(data science)方法所能分析的量化與質性資料(例如文字、語音、影像等多媒體資料),轉換過程涉及也盡力將資料置入特定的背景或情境脈絡當中賦予意義,藉以理解並解讀其整體現象。
三、知識(Knowledge):應用資訊的能力
知識是資訊的進一步深化,透過經驗、實踐與反思逐步累積,知識不僅是對資訊的理解與解讀,也企圖搭配背後的運作規則並應用於具體情境中,相較於資訊更具備了預測、決策與行動的具體意涵。
四、智慧(Wisdom):判斷適用的知識
知識在經驗基礎上應用於多元情境脈絡時,則可能進一步被歸納研判為智慧的素材,包括透過適應、學習、創新並擴展運用於未來與多元的時空及情境。

圖2 DIKW體系
資料來源:研究自製
以上述的資料生命週期與DIKW加值轉換為基礎,知識工程(knowledge engineering)是善用資料結構化的關鍵技術,將人類專家的領域知識轉化為機器可理解和處理的形式而成為知識管理系統(knowledge management systems),並且與目前蓬勃發展應用的AI技術具有緊密關係(Marquis et al., 2020)。例如:AI推理需要依賴知識庫中的知識進行推斷,知識工程使AI能夠從專家學者、各類數據或文獻當中提取知識,再透過這些知識進行學習與調整,使AI能夠更高效地針對複雜問題實踐循證決策或預測。
貳、結合生成式AI的知識管理系統
雖然上述DIKW與知識管理系統的理念早已被具體實踐,然而面對當今資料與知識的高數量與高密度,傳統知識管理系統的設計常常未能滿足高效率的訊息檢索與利用需求,過往依賴於豐富的後設資料(metadata)、關鍵字(keyword)和分類標籤(tag)來組織儲存的工作知識,使用者也必須依據這些標準來檢索相關資料。
然而,隨著資料量與管道來源(尤其來自網際網路)的持續增加,以及資料庫與知識庫規模大幅提升,伴隨而來的便是資訊分散和多版本問題的產生,使得查找特定資料變得耗時且往往無法準確獲取所需訊息,使得從眾多文件中精確提取訊息的挑戰愈加嚴峻。即便透過建立知識社群(knowledge community),以組織內部的互動與協作來促進知識內化利用,仍然不能有效解決訊息過載的問題。這些知識管理系統在自動化和智慧化的實施上仍有很大的進步空間,雖然初衷是為了增進知識共享與應用,但常常只成為資料與檔案封存館,無法有效利用並強化組織的循證決策需求。
緣此,生成式人工智慧(generative artificial intelligence,GenAI)技術與工具的發展,提供了更為高效和直觀的方式以緩解上述痛點。GenAI奠基於大型語言模型(large language model, LLM)這種基於大量資料訓練而成的深度學習模型,這些模型擁有龐大的參數量,透過分析動輒數十億甚至上兆字符(token)的語料,自動學習語言中語句間的關係及其背後的意義。相較於傳統的自然語言處理(natural language processing, NLP)技術,其能力在於更精確地解析和應對語境變化,有效解決語言中同一字詞多重含義的挑戰。這使得模型生成的回答不僅連貫,而且邏輯性強,更符合實際語境的需要。此外,LLM的訓練不侷限於特定任務,由於在預訓練(pre-training)階段獲得的廣泛語言能力,使得LLM能夠靈活應對各類自然語言處理任務。因此,不必為每種特定問題重新設計模型,這大大擴展了其應用範圍。透過對大規模數據庫、學術文獻、網頁內容等豐富資料源的學習,LLM不僅能夠提供準確的訊息解答,還能促進更深入的理解和創新的知識應用,極大地推動了知識管理領域的進步(黃東益等人,2024)。
儘管具備這些優勢,將LLM與其衍生的GenAI整合於特定組織的知識管理系統卻也面臨了多重挑戰。首先,目前GenAI通常仍部署在公有雲平臺(public cloud),對於需要處理高度隱私或機敏的組織內部資料,存在潛在的資訊安全風險,包括數據或機密外洩的可能性。此外,GenAI 可能對於特定未被訓練過的資料產生不準確的回答或完全無關的內容,即所謂的「AI幻覺」(AI hallucination),尤其是在未經調校(fine-tuning)的情況下。為了使GenAI模型能夠有效回答特定領域的專業問題,需要對其進行微調,這個過程不僅涉及額外的人力資源,還需要相應的機器設備支持,從而增加了建置與導入成本,同時也需要更符合特定領域專業的組織內部文本。
為了克服上述GenAI在知識管理上的限制,檢索增強生成(retrieval-augmented generation, RAG)技術提供了一個良好的可行因應策略,RAG結合了檢索和生成兩大核心功能,從組織內部文本中檢索出相關資訊,並連結GenAI背後LLM預訓練文本,企圖生成更為精準且可信的答案(Lewis et al., 2020)。具體而言,RAG首先應用了搜尋引擎與自然語言處理技術,從廣泛的組織內領域專業知識庫中提取與特定議題或概念相關文本,此過程包括對文檔進行語意向量比對,迅速定位與查詢條件最相關的資料段落,最後利用LLM將最相關的資料段落進行清晰易懂且忠於事實描述的文字生成。此外,在RAG架構中所使用的LLM也能採用落地部署(On premise)的模型,使得組織善用其內部專業資料文本時,也能兼顧確保其機敏與安全性。
同時,現行組織在導入上述GenAI與RAG時,可分為雲端(例如組織外的私有雲服務)與落地(組織內自建系統)兩種導入方式。雲端導入時,系統與資料將會部署或存放在雲端服務商的伺服器,在確保部署環境資訊安全(如私有雲)的前提下,以網頁服務來操作使用RAG系統。至於落地導入的建置成本則高出許多,除了系統程式(包含搜尋引擎、自然語言處理模型、LLM以及RAG系統等)本身的準備,也必須要準備模型運算與搜尋引擎檢索所需之硬體,確保可乘載足夠的資料、使用者,以及模型所需之算力。而不論是哪種導入方式,組織內部的資料都必須先進行盤點,包含資料的權限控管、版本管理、以及確保機器可讀性(machine-readable),以充分利用RAG系統來實現知識管理。
綜言之,RAG不只提升了生成內容的可信度和可驗證性,降低了虛假、不切實際的誤導內容,還透過直接利用現有模型和參考資料的方式,節省訓練成本且加快了知識管理系統的部署與更新。對於組織而言,這意味著能夠更有效地利用內部既有的知識資源,加速知識的內化過程,確保循證決策的精準可靠與時效性。
參、結合生成式AI與RAG的知識管理具體流程及案例
綜合上述對於資料生命週期、知識管理、GenAI與RAG的基礎,本段落將以流程化引介說明實際案例(黃東益等人,2024),藉以作為循證決策之具體實踐與省思。
一、發言者辨識
首先針對組織內部文本(如圖3左上方的會議逐字稿檔案),藉由命名實體識別(Named Entity Recognition, NER)技術,確保能夠準確區分不同發言者在各議程中的發言內容,包括對議程與發言者進行詳細標注,並確保每位發言者的名稱或編號與其發言記錄之間維持一對一的對應關係,從而避免因名稱混淆或錯誤標注導致的不精確。

圖3 結合生成式AI與RAG的知識管理具體流程
資料來源:研究自製
二、屬性詞分析
自動識別並標記文本中的屬性詞,如提及到的重點人物、組織名稱及地理位置資訊等。透過比對不同發言者在不同議程中提及的實體,可辨識出各發言者的關注焦點與觀點的異同,從而對其關注面向進行初步的探勘與分析。
表1 屬性詞分析舉例

資料來源:研究自製
三、自動摘要與自動分群
藉由LLM可自動解讀並提取文本的核心內容,再透過語意分群演算法,對這些經過摘要整理的文本進行分析,由於文本已經明確突顯了關鍵點,且不同意見已被劃分為獨立條目,因此得出的分群結果具有更高的代表性和精確性。
表2 自動摘要舉例

資料來源:研究自製
四、以RAG輔助GenAI回覆使用者詢問
透過搜尋引擎、向量資料庫與大型語言模型的結合,彙整並突顯資料中的重要發現,亦能驗證對特定解釋的認知是否正確;此外,亦提供了深入洞察,如識別特定發言者在資料中的關鍵觀點,或是對比不同發言者對同一議題的立場。運用RAG輔助GenAI系統進行知識搜尋和問答,可以清楚了解RAG處理大規模文本資料的應用與價值,研究者不僅能有效彙整並找出資料中的重要發現,亦可檢驗對特定解釋的認知是否正確,以 RAG 技術搜尋彙整資料中的重點發現,能夠方便研究者從龐大資料當中提取有價值訊息(參考以下圖4),使資料搜尋整理的過程變得更加高效且精準,進而能夠提升循證決策的效能。

圖4 以RAG輔助GenAI回覆舉例
資料來源:研究自製
肆、AI賦能的知識管理與循證決策
數據分析技術能夠提升知識管理的效益(Thakral et al., 2024),而AI與知識管理密切相關,AI提升了機器的學習能力,知識管理則幫助組織、理解、與擷取應用知識(Pai, 2022),藉由GenAI加值,以數據為證據基礎,利用資料進行決策,可作為循證依據之參考。回應前述的 DIKW理念到實際連結AI與RAG的知識管理具體流程,可以預見組織已可連結並善用廣大的網路多媒體文本,透過以LLM為基礎的GenAI,再搭配RAG善用組織內部且通常不宜外流的專業領域文本,進而客製化支援組織內部的循證決策、常態或創新業務。然而如同過往數十年來每個新興數位技術,從技術成熟到成本合理降低到可普及應用於不同規模與多元專業,組織內部為導入善用仍必定有配套廣義成本或所需整備,相互關聯的以下三項應頗能作為本文總結。
一、融入創新組織現有數位架構與經營模式
大部分稍具規模的組織皆已持續運轉數位軟硬體並支援甚至創新其業務推展,上述融合 GenAI與RAG的知識管理流程,必定要融入現有的數位優化流程才足以滲透善用為組織的經營元素。例如作為RAG素材的組織內專業文本,如何透過數位科技予以銜接;大部分組織應該並未預見此需求,尤其機敏文本不可能直接在公有雲上流通,但是組織可能尚未將AI模型與訓練使用流程內建於組織內的系統中,而且對於具備AI等級的軟硬體性能勢必有更高規格;更重要的是,組織中的資訊、統計、與業務(廣義資料科學)人力,也多數尚未有相關知識技能或經驗。為了逐步善用AI賦能的知識管理與循證決策,組織針對以上諸多科技與管理配套都須及時規劃與部署。
二、關注並因應人工智慧治理相關議題
如同過往數位科技的潛在風險,以AI為基礎的相關應用也涉及可能的數位權利與治理相關議題(Bullock et al., 2024),值得組織儘早關注並妥善因應。雖然最常被提及的仍是資訊安全、隱私或機敏資料保護等,例如源於AI特質所引發的透明(transparency)與可解釋性(explainability)、源於AI模型資料可能引發的歧視(discrimination)與偏見(bias)、源於人類濫用可能引發的無意或刻意的虛假資訊(misinformation, disinformation)、以及當人類過度依賴(over-dependence)AI產出可能引發的自主控制(autonomy)疑慮等,導致組織企圖善用AI時無可迴避的課責(accountability)與管制(regulation)議題,也促使法制人力也必須與上述組織中的廣義資料科學與業務人力共同研商因應之道。
三、關注並因應人工智慧治理相關議題
促成當前AI興起的眾多因素中,例如常被提及的運算力、演算法、資料、或電力水力等廣義能源設施,上述RAG所仰賴的組織內部文本(不論是資料、資訊、或知識、智慧層級),也再次促成組織必須重視其資料品質。嚴格來說,由於目前AI演算法仍相對不透明(源於其機器學習原理),組織更必須透過數位科技與管理流程提升其訓練模型的文本品質,並藉以避免「文字接龍」時「一本正經地胡說八道」(幻覺)且確保AI的產出品質,這也是組織持續充實資料治理(data governance)基磐的絕佳機會,並且足以持續數位優化或開展AI驅動數位轉型的契機。
參考文獻
李洛維(2024)。政府資料治理的知與行:內部觀點評估架構之建構與驗證。〔未出版之博士論文〕。國立政治大學。
莊文忠(2018)。循證的政策制定與資料分析:挑戰與前瞻。文官制度季刊,10(2),1-20。
黃東益、陳敦源、董祥開、廖洲棚、王千文、李俊達、劉自平、蕭乃沂、楊立偉、羅凱凌、闕棟鴻、王光旭、陳揚中(2024)。112年度建置以資料科學為基礎之社會政策治理機制委外服務計畫(編號:ndc112019)。國家發展委員會社會發展處。
Akerkar, R. (2019). Artificial intelligence for business. Springer.
Bullock, J. B., Chen, Y. C., Himmelreich, J., Hudson, V. M., Korinek, A., Young, M. M., & Zhang, B. (2024). The Oxford handbook of AI governance (1st ed.). Oxford University Press.
Ghosh, P. (2022). AI–Past, Present, and Future. ThirdEye Data, December 29. https://thirdeyedata.ai/ai-past-present-and-future/
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.
Marquis, P., Papini, O., & Prade, H. (2020). A Guided Tour of Artificial Intelligence Research: Volume I: Knowledge Representation, Reasoning and Learning (1st ed.).Springer Nature.
Munteanu, I., Newcomer, K. E., & Best, C. (2024). Building an evidence engine to promote more responsive government. (1st digital ed.). Public Administration Review. https://doi-org.proxyone.lib.nccu.edu.tw:8443/10.1111/puar.13880
Pai, R. Y., Shetty, A., Shetty, A. D., Bhandary, R., Shetty, J., Nayak, S., & D’souza, K. J. (2022). Integrating artificial intelligence for knowledge management systems–synergy among people and technology: a systematic review of the evidence. Economic research-Ekonomska istraživanja, 35(1), 7043-7065.
Thakral, P., Sharma, D., & Ghosh, K. (2024). Evidence-based knowledge management: a topic modeling analysis of research on knowledge management and analytics. VINE Journal of Information and Knowledge Management Systems. https://doi.org/10.1108/VJIKMS-03-2023-0079