Last Updated on 2023-10-05
這篇文談到了想要視覺化呈現資料時,具體的思考歷程,包含資料的重點、比較的方法、排序的標準,以及圖表的形式。
最近《乘風2023》開播(即《乘風破浪的姐姐》系列第4季),身為浪姐第3季的小粉絲,上一季有忠實購入周邊、畫了好些圖表以外,這季當然也有準時收看。
因為上一季季末時,PTT的陸綜板上有板友仿效節目組安排的橋段,發起問卷投票,調查觀眾對舞台與個人的喜愛度。
這季我在播出初舞台和第一次公演後就趕緊發了問卷搜集反應,希望能夠對照節目評審、現場觀眾,和處在螢幕前面的我們,利用著不同媒介,會產生何等收視上的偏差,或者說審美上有著不同的判準。
蒐集到資料後開始畫圖,在其中2個小主題上,我在思考 (1)應該呈現的資料重點和 (2) 應該如何利用圖表形式凸顯資料重點時,遇上了一些問題。因為過程上自己有些反思,就順手記錄下來。
*註:如果你只想看跟《乘風2023》有關的圖表,可以直接去看 IG 上的這篇文章,或是搜尋在 IG 上搜尋 “ddplot”,加上關鍵字 hashtag 也可以。
文章目錄
Toggle資料介紹
我在問卷中,請填答者回答喜歡哪一個初舞台,每人有6票。同時,節目上邀請了4位專業評審,每人的給分在0–100分之間,最後加總起來滿分400。
如下圖所示,資料中有3個欄位,包含初舞台表演者與表演曲目(stage)、問卷得票數(n)、評審給分(score)。
因為想讓填寫問卷的板友們知道問卷結果,所以我先用長條圖(bar chart)呈現了喜愛度票選結果。這張圖背後我多做了幾件事情:把 stage 欄位的書名號以免 y 軸爆炸(str_remove_all())、將長條依照姐姐得票數排序(fct_reorder())、將 x 軸的上限拉到 110 以免太擠(scale_x_continuous())、額外增加了「是否為國際姐姐」的欄位作為圖表重點(mutate() + if_else() + %in%)。
*括弧內的是 R 語言裡面的函數,因為原文寫在一個 R 語言的部落格,可以略過沒關係。
其中最後一點「是否為國際姐姐」,也變成我放在標題寫的結論,台灣觀眾不像現場評審那麼重視咖位、是否突破自我,也相對沒那麼在乎情懷,再加上可能有修音,所以大家看得是播出後的實際表現。
第一個問題:資料的重點是什麼?
不過,從上面那張圖當然看不出來台灣觀眾和評審的看法分歧,所以我想多畫一張圖表,比較問卷投票結果和評審評分的不同之處。
雖然知道是比較,但還可以問得更細,也就是比較時,想要呈現的重點是什麼。會是姐姐們得票/得分的差異嗎,例如「Ella 在評審得分上比唐伯虎多的分數,和她在得票上比唐伯虎多的票數,兩者的差異相同嗎?」還是說,我們其實在乎的只有順序,光是知道「孫悅評分前5、投票吊車尾」,這就足以滿足讀者的需求了?
因此,第一個問題的答案是我們想看喜好的差異,但具體想怎麼看差異,是後續一直要放在心上的問題。不過,呈現差異不是一件容易的事情,他也讓我遇到接下來的諸多困難。
第二個問題:怎麼比較?
第二個問題比較困難,問卷投票是採計累積票數,評審評分則是加總得分,這兩個欄位的本質不同,差距體現在量化喜好的方式和單位,應該怎麼比較?
如前所述,問卷調查中,每個人的票數有限制,因此投票者只能投最喜歡的6個舞台,最後統計時再將所有票數加總。現場評審則是以0至100的尺度,決定表演應該落在哪個位置—平均結果落在65至93分之間。
我採用在比較不同單位資料常用的手段 — 標準化(normalization),並將結果都乘上100,這貼合人類判讀資料的習慣,如下圖所示。
然而,因為「票數有限」和「評分尺度」兩者在調查上的先天邏輯差異,導致比較時遇上的困難。
我們即使不用看資料也能想像,每個表演的得票狀況較接近「八二法則」,因為帶來好表演的舞台就是那麼多,在無法投給所有姐姐的情況下,只好挑自己本來就是粉絲的姐姐(例如我有1票投給汪小敏),以及表現突出的舞台。
然而,評審在專業的判斷能力以外,在評分時上他們有著更好的量化喜好方式,將姐姐的表現轉化為分數長尺上的刻度,因此每個表演的得票狀況更平均一些。
所以,我們可以想像,雖然知道要比較兩者,也透過標準化的方式使得比較成為可能,但要進到下一步的視覺化,預期會遇到呈現資料的問題。
註:(有看浪姐的人可以看)事實上,評審給分的機制和公演現場觀眾替舞台投票的方式相似。雖然現場觀眾不是評分,而是選擇是否支持表演的舞台,但這個情況等同於觀眾的票數無限,因為擁有每個舞台的選擇權,因此公演的舞台結果票數也相對較為平均。
第三個問題:如何排序?
我先同樣用長條圖呈現評審分數和問卷得票數。因為兩者性質不同,所以採用了比較時的常用技法,以 x = 0 為基點,在座標軸兩端分別拉出要比較的欄位。
然而,正如同下方的3張圖所示,我不太確定,應該怎麼排序才好。圖一按照(紫色的)觀眾投票排序,圖二按照(黃色的)評審評分排序,圖三按照問卷評分和觀眾投票的差值大小排序。
要選擇哪一張圖,端看想要凸顯的重點究竟是什麼。
以圖一為例,它將觀眾投票定錨,讓這張圖表的讀者能夠看到美依禮芽在觀眾投票得到第1,在評審評分則不是如此,可是評審給了她第幾名,一時半刻便無法看出。圖二和圖一的情況相似,只是反過來將評審評分固定,改看讀者的投票不同之處。
圖三的效果明顯不佳,我們可以看出大家給了美依禮芽更多票,也更支持陳意涵、凱麗、王佳宇,但這能夠有效地傳遞重點嗎?至少從圖表結果可以看出,即使凱麗和王佳宇有拿到問卷的票,但獲得的票數很少,只是相對評審評分而言,有拿到相對多的投票而已。
最後,我選擇了圖二的邏輯往後推進。而且,我改成使用棒棒糖圖(lollipop chart)呈現。為什麼是圖二?又為什麼選棒棒糖圖?
選擇圖二,以評審得分高低排序的理由在於,對圖表的讀者,也就是陸綜板的板友來說,視角會是「和評審分數比,我們的喜好差在哪裡?」而比較不會是「評審分數和我們的喜好有哪裡不一樣?」
評審來自芒果TV,是節目已經播出的既定事實,有了這樣的 ground truth 為基底,再來查看自己的偏好有何不同,是我認為大部分觀眾會有的心理,因此選了這個視角。
至於從長條圖換成棒棒糖圖,則是因爲棒棒糖圖能夠有效呈現資料的變化與差異。相較之下,長條圖則能夠強調變數本身的大小,但其實在現有情境下,讀者不會那麼在乎經過標準化後,Ella 到底是拿到 25 分還是 95 分,因為重點其實是相對次序,以及和評審之間的距離。
不過,利用棒棒糖圖,比較標準化後的票數與分數,真的是一張好圖表嗎?
事實上,正如同上面所寫的,硬要比較這兩種量化喜好的方式,呈現出來實在不是很好。
我們看到圖表的時候,很快可以得到一個結論—跟評審給分相比,投票的觀眾們更愛美依禮芽。除此之外呢?因為我們看過第1張圖,知道小美以外,A-Lin和來自越南的Chi Pu得到許多問卷的票,然而,因為量化喜好上的本質限制,從圖表中乍看之下,兩位好像拿到比評審更少的票。
這就是這張圖表誤導人的地方。A-Lin和Chi Pu相對不像小美拿到那麼突出的票數是事實,但我們不能說兩位的表現不好,只能說問卷填寫者給予小美的評價實在太過突出了。
是不是有更好的解法呢?
另一個選擇:如果有如果
既然投票邏輯和評分邏輯不同,重點就不再會是有多少票、拿多高分,姐姐的排名先後,可能才是我們更關注的重點。
既然要比較的是排名(ranking),實務上常常會用到坡度圖(slope chart),例如下方2張圖,都是利用坡度圖呈現歷年選舉中年齡相關變數的變化。
那麼,將坡度圖套用到上面《乘風2023》的資料上,又會是什麼情形?我初步畫了一張沒有細調的圖表。
如下圖所示,坡度圖能夠很有效地呈現排名的變化,我們先看左邊,很快就能知道問卷票選的名次中,小美、A-Lin、Chi Pu名列前茅,接著順著細線往右看,小美的名次就不在前5了,A-Lin甚至更低,Chi Pu則同樣下滑,一直到Amber直線的斜率才轉正。
不過,這張圖也有不足之處,因為資料點太多,所以呈現上其實有一點太密且亂;此外,因為關注排名,所以讀者無法掌握更精細的資訊:我們知道小美得了最多票,但她跟A-Lin差了多少?她在評審評分落後給劉惜君,差距又是多少?
棒棒糖圖能夠看到顆粒度更精細的資訊,讓讀者知道每個姐姐得票上的差距有多大,但無法清晰地像坡度圖利用斜線的斜率展現出排名上的差異;坡度圖雖然很好懂,但是資料點太多時又顯凌亂,而且不像棒棒圖那樣有明顯的視覺主軸,例如我設定的評審評分排名。
要選擇最前面的長條圖,或者是我最後挑的棒棒糖圖,還是被割愛的坡度圖,要考慮的重點,始終還是請循其本,回到最開始的關鍵問題:你想呈現什麼資訊?考慮清楚之後,再思考每個選項中各自會割捨哪些重點。
最後仿照社群上的發問文,把3位「選手」一次排開,你喜歡哪一張呢?(這樣講話的我,好像也變年輕女孩/男孩了!)
附註:劉惜君跟汪小敏加油,希望你們可以持續地乘風破浪!
相關
-
[資訊整理] 潘威倫嘟嘟引退宣言全文 | 中華職棒統一獅 – 逐字稿
2024-09-30 0 -
[資訊整理] 中華職棒CPBL球員綽號怎麼來?2024年最新
2024-09-23 0 -
[資訊整理] 周思齊引退宣言暨賽後記者會全文 | 中華職棒中信兄弟 – 逐字稿
2024-09-23 0
No Comments