此網頁需要支援 JavaScript 才能正確運行,請先至你的瀏覽器設定中開啟 JavaScript。

::: :::

質性資料分析與視覺化

◎ 112年度計畫團隊技術組

    質性資料(qualitative data)指的是以非數值形式呈現的原始資料(raw data),各類型的文本(text)便是最常見的質性資料,例如會議紀錄、施政報告、研究報告、網路新聞及社群輿論。相對於量化資料(quantitative data),質性資料必須先予以結構化,以利於進一步的分析與呈現,而自然語言處理技術(natural language processing, NLP)便是最常見的結構化方法。透過自然語言處理對質性資料先進行斷詞(segment)產生特定有意義的重要或關鍵詞彙(keyword),並觀察這些詞彙的出現頻率與位置,良好的斷詞必須將詞彙以明確意義進行分隔,並參考前後文語句進行判斷,企圖代表並解讀整體文本的意義。

一、文字雲(word cloud)與範例說明

    經由上述過程,可萃取一批能代表文本的關鍵詞彙與其出現頻率,而文字雲便是最常見的質性資料視覺化(data visualization)工具之一。文字雲通常會以字詞大小代表詞彙的重要性,並以字的顏色區分不同類型,如不同詞性或不同討論面向。例如下圖截自 OpView 社群口碑資料庫(意藍資訊,2023),以不婚、晚婚議題相關的討論製作的文字雲圖,觀測範圍為在 2023 年 10 月的網路社群討論區文章與留言。在圖中,字詞顏色代表詞彙的詞性,包含名詞(紅色)、動詞(藍色)、形容詞(藍綠色),由詞彙大小與位置也可看出「小孩」與「婚姻」較常出現在不婚、晚婚議題的相關輿論中。
圖1 文字雲
圖1 文字雲

二、知識圖譜(knowledge graph)與範例說明

    知識圖譜的概念起源語義網絡(semantic web),主要在於描繪相關詞彙的網絡圖,將知識組成視覺化的關係圖,串連有關聯且由詞彙代表的知識節點(node),它們不僅限於呈現抽象概念,也可包含組織內部與網路文本及數據資料等(Blumauer, 2014)。如同前文的文字雲,知識圖譜的概念及運用也貢獻了質性資料的分析與呈現,Google 搜尋引擎於 2012 年即導入知識圖譜概念的資料庫,以提升整體搜尋功能與結果品質。
    實際應用時可將知識圖譜理解為知識概念間的網絡關係圖(朱嘉明,2023),其中三個構成要素包括實體(entity)、屬性(property)、關係(relationship),如以下介紹。
  1. 實體:知識圖譜的基本元素,代表現實世界中存在的事物,在知識圖譜上稱作節點。
  2. 屬性:描述實體的特徵或性質,說明不同實體間的關係。
  3. 關係:連接不同實體,表示它們之間相互的作用或連結。
    如以運用流程來理解(源銳資訊,2023),則可透過以下步驟予以解析繪製知識圖譜。
  1. 知識獲得:從結構化或非結構化質性資料將其斷詞後界定相關實體(知識節點)、屬性、與關係。
  2. 知識融合:再以領域知識進行修正、確認或整合。
  3. 知識儲存:將以上知識圖譜元素儲存於既定格式的資料庫中。
  4. 知識理解:將上述實體關係資料進行計算,建立實體之間的特定意義關聯,並繪製知識圖譜,透過關係將獨立元素相互連接,形成主語-述語-賓語三位一體的關係(Dabolt, 2022)。
    下圖以聯合國提出17項永續發展目標(SDGs)為中心,與其有關聯的政策以此形式組成知識圖譜。上方橘色方框「European Green Deal」是歐盟的《歐洲綠色協議》,正中間黃色方框為「17 Sustainable Development Goals (SDGs)」永續發展目標,兩者在知識圖譜上皆稱為「實體」,中間的箭頭表示橘色與黃色方框之間的關聯,建立起兩者間的「屬性」,而箭頭上的描述表示兩者的「關係」。
圖2 知識圖譜
圖2 知識圖譜

三、熱視圖(heat map)與範例說明

    除了前文所展示的文字雲及知識圖譜,質性資料中時常可界定出地理位置相關資訊,如地址、地標、路段等,若要從資料中萃取出地理位置資訊進行分析與視覺化,通常會運用到實體辨識技術(Named Entity Recognition, NER)搭配熱視圖(heat map)來進行處理。實體辨識技術是自然語言處理中一個重要的任務,目標是擷取出文字資料中具有特定意義的實體,包含人名、地點、組織名、地址、商品名稱等,將其擷取出來後,便能透過熱視圖進行視覺化呈現。
    熱視圖可將資料點繪製在指定的地理位置資訊上,且常以顏色深淺或資料點大小來表現出資料強度等性質,亦可搭配不同的資料點標記方式來表達不同類型的資料。熱視圖繪製工具相當多元,以 Google Looker Studio 為例,只要具有一個包含地理位置文字的資料欄位,並且指定資料的統計方式,就可以將數據結合 Google Maps 繪製出熱視圖,下圖便是一個以 Google Looker Studio 繪製的倫敦共享單車數量熱視圖(Google, 2023)。
    以兩個議題分析案例來做説明。首先,如果希望從地方政府的民眾陳情案件中找出哪些地方是陳情熱區,便可以先透過實體辨識技術找出文本內容中提及的地理位置資訊,再以熱視圖統計每個地理位置上的案件數量,呈現出各地的案件量多寡。其次如分析能源議題時,希望能了解再生能源發電量是否和社群討論量具有正相關,或與民意好感度呈負相關,便可以先將與再生能源相關的社群輿情討論進行實體辨識,辨識出網路輿論中的地理位置資訊後,再針對各地理位置的聲量數與情緒好感度進行計算,並與額外蒐集的各地發電量數據進行對照。最後經由熱視圖視覺化後,便可將多元屬性的數據做良好的呈現。
圖3 熱視圖
圖3 熱視圖

四、實際運用考量

    有鑑於多數以質性原始資料呈現的公共政策議題文本,例如會議紀錄、施政報告、研究報告、網路新聞及社群輿論等,本文介紹三種常見的質性資料視覺化分析方法與其呈現工具作為範例,實際運用時仍須考量分析與解讀的預期效果,以利於從多元質性資料分析與呈現方法工具中(SAGE Publications, 2023)予以嘗試並選定,眾多的質性資料分析軟體其實也已提供了許多頗豐富的視覺化方法(Silver C. & Lewins A., 2023),有待實務與學術社群善加運用。

參考文獻

朱嘉明(2023)。人工智能大模型-當代歷史的標誌性事件及其意義。二十一世紀雙月刊,197,31-48,https://pse.is/5gaps6

源銳資訊(2023)。觀念篇:知識圖譜的基本概述,https://pse.is/5gnchk

OpView 社群口碑資料庫,https://www.opview.com.tw/

Blumauer, A. (2014). From Taxonomies over Ontologies to Knowledge Graphs., https://pse.is/5gne9x

Dabolt T. (2022). CDOC Fuels Knowledge Graph Project., https://pse.is/5gp7yb

Data Visualisation in Qualitative Research (2023). SAGE Publications. https://study.sagepub.com/sites/default/files/data_visualisation_in_qualitative_research.pdf

Fotopoulou, E., Mandilara, I., Zafeiropoulos, A., Laspidou, C., Adamos, G., Koundouri, P., & Papavassiliou, S. (2022). SustainGraph: A knowledge graph for tracking the progress and the interlinking among the sustainable development goals’ targets. Frontiers in Environmental Science, 10, 2175. https://pse.is/5gt3su

Google Maps reference (2023). https://support.google.com/looker-studio/answer/9713352?hl=en#zippy=%2Cin-this-article

Silver C. & Lewins A. (2023). Using Software in Qualitative Research. https://study.sagepub.com/using-software-in-qualitative-research


已發佈

作者:

分類:

標籤: