Archives › R語言專題

[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式

[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式

就我的經驗來說,平常若打交道的以數值資料為主,確實是這個比例;但如果是文字資料,恐怕比例會更極端到清資料就要花上9成時間。在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。底下,我們就來介紹正規表達式的用途與用法。

[R語言專題] 運用R語言玩轉文字探勘 – 套件篇

[R語言專題] 運用R語言玩轉文字探勘 – 套件篇

開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為範例;也有些套件能夠貫穿整個文字探勘流程,例如這篇文章將要介紹的tidytext和quanteda。