Last Updated on 2023-10-05
這篇文談到了想要視覺化呈現資料時,轉化數據的方法、思考排序時的顧慮、想要呈現多個變數的企圖、以及變換圖表的形式。
系列文章都在講述繪製數據圖表時,遇上的困難與反思,請見第1篇、第2篇。
當選項很多的時候,要怎麼量化出對於偏好的「優先順序」?又要怎麼在數據圖表中保留這樣的順序,而不只是單純的排序?
問卷中有一道題目請填答者以李克特量表,針對8個舞台排序,但是想將填答結果轉化到圖表上,遇上很大的困難。
*註:如果你只想看跟《乘風2023》有關的圖表,可以直接去看 IG 上的這篇文章,或是搜尋在 IG 上搜尋 “ddplot”,加上關鍵字 hashtag 也可以。
文章目錄
Toggle資料介紹
我在問卷中,請填答者排序第二次公演的 8 個舞台。
- 請按照喜愛度排序,在二公舞台中,排出1到8名。即使很難分辨好壞,也還請盡力嘗試!
因為 8 個選項很多,如果不是自己有明確偏好,或者組別中沒有特別喜歡的演出者,其實超過 3 個便很難抉擇,所以才會特別註明,請填答者盡量依照偏好排序。
資料的實際長相如圖所示,包含回答者的序號(reply_id),以及投票者對 8 個舞台的排名。
*括弧內的是 R 語言裡面的函數,因為原文寫在一個 R 語言的部落格,可以略過沒關係。
我用了一些步驟,將資料轉換成長表格(pivot_wider())。
在跳下去做視覺化之前,Google Form 內建的表單後台有提供可以拿來使用的圖表,在此也附上作為參考。
不過,不管資料長相到底如何,關鍵還是在於,要怎麼呈現這 8 個舞台的排序?
第一個問題:資料的重點是什麼?
對設計問卷和填寫問卷的人來說,最想知道的很直觀:「大家如何排序這幾個舞台?」因此,我認為重點會是想辦法呈現出這 8 個舞台的順序。
不過,在呈現順序前,首先要先決定順序。
第二個問題:如何決定順序?
8 個選項排開,同一場表演既可能拿到第 1 名的選票,也可能拿到第 8 名。
在這個場景之下,我們應該怎麼決定順序?是依照拿到多少張第 1 名的票數?還是有其他更好的方式?
我想到兩個方法。
第一,依照反向名次給予分數。第 8 名給 1 分、第 7 名給 2 分,剩下以此類推。
有許多票選採用這個方法,例如美國籃球殿堂 NBA 的最有價值球員(MVP)票選中,每位投票員有 5 張票。
投票員手上,每張票的價值不同,共有 10、7、5、3、1 ,一共 5 個分數的層級,利用加權的方式表達投票者的偏好。
不過,我不確定這個方法是否合適,因為從順序(ordinal)轉成數值(numeric),第 1 名(8分)的表現就會變成第 4 名(4分)的 2 倍、第 8 名(1分)的 8 倍,這也是我們通常不會嘗試量化順序尺度資料的原因。
第二,如實呈現每個選項(舞台)拿到各個名次的比例。
舉例來說,A 舞台拿到 10% 的第 1 名票、20% 的第 2 名票、30% 的第 3 名票、 40% 的第 4 名票,表現優於拿到 50% 的第 1 名票、20% 的第 2 名票、20% 的第 3 名票、 10% 的第 4 名票。
不過,可以想像,為了在圖表中呈現 8 個舞台、每個舞台 8 個名次的數值,會是一件相對困難的事情。
不管是選擇轉為分數,或是如實呈現獲得的票數比例,都可以是好的決定順序方式。
第三個問題:怎麼呈現順序?
既然想好決定順序的方法,接下來,就是呈現順序了。
在第一個辦法中,我使用了長條圖(bar chart)。
長條圖
如果採用第一個方法,那可以單純地採用長條圖呈現由票數轉化而來的分數。
這張圖表有什麼問題嗎?除了我懶得上色,還有長條的寬度可以再調整,以及關於座標軸等一些細節問題以外,其實它能夠呈現排序。
不過,我覺得它不夠好。
因為投票者很努力地排出 1–8 名,現在用分數雖然如實呈現了排名結果,但我認為在轉化成分數的時候,這個資訊稍微被稀釋,有點可惜。
堆疊發散長條圖
因此,在第二個辦法中,我利用堆疊發散長條圖(diverging stacked bar chart)呈現排名的比例。這個圖表聽起來有點複雜,它很擅長呈現李克特量表(Likert scale)的資料。
底下是我利用 R 語言套件 likert 畫出的堆疊發散長條圖。
什麼是李克特量表?它是一種常見於問卷調查中,用來評估填答者對特定觀點或者陳述態度的測量工具。
例如調查人們對執政黨的滿意度(從非常不滿意到非常滿意、例如詢問人們對於「政府應該將稅收運用在弱勢上」的認同程度(從非常不認同到非常認同)。
從圖中可以看到,堆疊發散長條圖的繪製重點:分散、有中點、有正負、用顏色呈現差異。
跟一般長條圖不同,它不從 y 軸開始,而是讓長條分散;它有一個中點區分出正負,圖表中的中點是第 4 和 5 名之間,比中點好代表表現佳、比終點不好代表表現差;最後則是用不同色系表示差異,且活用深淺凸顯程度。
延伸閱讀:用R語言視覺化李克特量表資料 likert scale data
我也同時繪製了一個 ggplot 的版本。
利用堆疊發散長條圖,我們得知了 1–8 名的比例資訊。相較於上面把排名加權換成分數的長條圖,我認為底下這兩張圖表保留更多資訊,讓讀者有更多詮釋空間。
譬如,《從頭》的第 1 名票數多於《我離開我自己》,但《我離開我自己》第 1–4 名的票數比《從頭》還要多。從我的角度來看,獲得觀眾好評應該不只看第 1 名票數而已。
不過,其他人可能有不同看法,因此使用堆疊發散長條圖就有其必要,它讓讀者掌握更多資訊,但不會難以閱讀。
小結:開往早晨的午夜
整體來說,這次的核心問題在於怎麼決定順序,還有決定順序後如何呈現順序。
其實,這次的兩種圖表中,無論是選擇長條圖,或者利用堆疊發散長條圖,兩者都沒有錯,重點在於想要呈現什麼樣的資訊,以及如何凸顯重點。
我在此的著眼點是讓讀者看到更多,所以沒有選擇簡化後的長條圖,而是用相對複雜的堆疊發散長條圖。
這就是這次的視覺化遇到的問題。接下來如果有其他視覺化上的煩惱,會持續更新。請繼續收看《乘風2023》!
附註:《開往早晨的午夜》是我二公中最喜歡的舞台。嘉倪加油!
相關
-
[資訊整理] 潘威倫嘟嘟引退宣言全文 | 中華職棒統一獅 – 逐字稿
2024-09-30 0 -
[資訊整理] 中華職棒CPBL球員綽號怎麼來?2024年最新
2024-09-23 0 -
[資訊整理] 周思齊引退宣言暨賽後記者會全文 | 中華職棒中信兄弟 – 逐字稿
2024-09-23 0
No Comments