Archives › R語言教學

[資訊整理] Ben Thompson 聚合理論 -基礎概念

[資訊整理] Ben Thompson 聚合理論 -基礎概念

Ben Thompson 提出聚合理論(aggregation theory),透過分拆價值鏈(value chain),分析前網路時代與網路時代企業獲取超額利益方式的差異,前者整合分發(distribution)與生產(supply),後者利用網路分發與交易成本降低的特性,改成整合分發與消費(consume),作為聚合者(aggregator)成為新時代贏家。

[R語言圖表]用ggplot畫直方圖 histogram

[R語言圖表]用ggplot畫直方圖 histogram

想畫折線圖(histogram),但是不知道怎麼在R語言中使用相關函數嗎?什麼時候該用直方圖?想調整直方圖的寬度怎麼辦?我會在這篇文章介紹如何活用R語言的套件ggplot2,配上實際程式碼,帶你畫直方圖。直方圖(histogram)是一種用來展示變數分布(distribution)的簡單但非常強大的圖表工具。與直方圖(density plot)不同,直方圖的焦點在於將數據分組成特定的區間或「箱」(bins),接著計算每個區間內有多少資料點。例如,如果我們看人口年齡分布,我們可能會將年齡分為0-9歲、10-19歲、20-29歲等等,然後數算每個年齡組有多少人。

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們首先必須將其分割成更小、更結構化的單位,這就是所謂的「分詞」。

為什麼要分詞呢?因為單純的文字通常是非常不結構化的,而這對於資料分析或是電腦處理來說,是個巨大的挑戰。這時,分詞的角色就變得尤為重要。

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

前面文章「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用list將文章存在每一個元素中。不過,在R語言中處理文字資料會遇到很多路障,這篇文章就是要帶你克服。

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

若我們想分析歷屆台灣總統的演講稿,在事前我們可能要先做這些準備:保留講稿中「台灣」和「臺灣」其中一種用法、刪除原文中的換行符號、整理民國與西元日期格式、消除空格例如以前可能會出現挪抬等。上述提到的小任務,全部都是字串處理的範疇。當然,你可能會想說,你手上的資料已經非常乾淨,根本沒必要走過這些步驟!其實,就算不是文字探勘、就算資料已經足夠乾淨,但字串處理的使用情境非常生活化,它仍然能夠在意想不到的地方幫上你。這些任務,全都可以交給stringr套件解決。