Tag Archives › Tutorial
[R語言專題] 運用R語言玩轉文字探勘 – 字串處理
![[R語言專題] 運用R語言玩轉文字探勘 – 字串處理](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/stringr-screenshot.png?fit=240%2C71&ssl=1)
若我們想分析歷屆台灣總統的演講稿,在事前我們可能要先做這些準備:保留講稿中「台灣」和「臺灣」其中一種用法、刪除原文中的換行符號、整理民國與西元日期格式、消除空格例如以前可能會出現挪抬等。上述提到的小任務,全部都是字串處理的範疇。當然,你可能會想說,你手上的資料已經非常乾淨,根本沒必要走過這些步驟!其實,就算不是文字探勘、就算資料已經足夠乾淨,但字串處理的使用情境非常生活化,它仍然能夠在意想不到的地方幫上你。這些任務,全都可以交給stringr套件解決。
[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式
![[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/regex-example.png?fit=240%2C148&ssl=1)
就我的經驗來說,平常若打交道的以數值資料為主,確實是這個比例;但如果是文字資料,恐怕比例會更極端到清資料就要花上9成時間。在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。底下,我們就來介紹正規表達式的用途與用法。
[R語言專題] 運用R語言玩轉文字探勘 – 套件篇
![[R語言專題] 運用R語言玩轉文字探勘 – 套件篇](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/unnamed-chunk-5-1.png?fit=240%2C148&ssl=1)
開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為範例;也有些套件能夠貫穿整個文字探勘流程,例如這篇文章將要介紹的tidytext和quanteda。
[經驗分享]繪製《乘風2023》數據圖表的反思(5) — 納入時間的比較
![[經驗分享]繪製《乘風2023》數據圖表的反思(5) — 納入時間的比較](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/07/2023-%E5%9B%9B%E5%85%AC01.jpg?fit=240%2C75&ssl=1)
這篇文談到了想要視覺化呈現資料時,如何納入時間元素,比較不同時間點的數值大小。
[R語言圖表]用ggplot畫散布圖 scatter plot
![[R語言圖表]用ggplot畫散布圖 scatter plot](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/06/p_3pt.png?fit=240%2C240&ssl=1)
想畫散布圖(scatter plot),但是不知道怎麼在R語言中使用相關函數嗎?什麼時候該用散布圖?要怎麼加上文字標籤?如何強調特定資料點?散布圖(scatter plot)用於呈現數值資料之間的關係(relationship),散布在圖表中的點點,位置由兩個變數的數值共同決定。它能夠讓我們看出資料點之間的分布,也能迅速變異出所謂的離群值。此外,在其他的散布圖中,我們可以看出兩個變數之間的趨勢係。